读数据科学伦理:概念、技术和警世故事03伦理数据的收集

躺柒 1周前 (05-06) 阅读数 0 #科技

1. 伦理数据的收集

1.1. 隐私保护技术,如加密、模糊处理和差分隐私,这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡

1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的

1.3. 重视伦理的数据收集实践是人体实验

1.4. 所有的数据科学项目都离不开数据

1.4.1. 就隐私保护和对敏感群体的歧视而言,收集数据时需要公平地对待数据主体和模型主体

1.4.2. 隐私是最受关注的问题

1.5. 匿名数据则不允许将数据与可识别的人联系起来,但这类数据也很难获得

1.6. 假名数据是经常使用的数据,需要额外的数据将原始数据与某个人联系起来

1.7. 加密和散列是处理隐私问题的关键加密技术

1.8. 数据科学家和管理人员的行为也需要公开透明,从而(让人们)了解数据收集的整个过程

1.9. 数据科学家需要知道怎样做才能保证数据质量以及进行适当的数据预处理及建模,而管理人员则是流程的签署人,应知道整个流程的各个环节

1.10. 责任原则要求建立有效的可证明的程序

1.10.1. 数据科学家并非有意不遵守伦理标准,而是伦理推理往往不是一个标准化(或必需)的商业惯例

2. 隐私权

2.1. 在谈及数据科学伦理时,隐私可能是第一个被提及的话题

2.2. 这种不被监视或干扰的权利,在我们当前的信息时代扮演着重要角色

2.3. 交易本身是私人的,但它们却可以用来准确地预测你的政治偏好、消费兴趣甚至性格特征

2.4. 不仅政府可能会滥用监控权力,有能力获取大量个人数据的大公司(甚至小公司)可能也会让用户面临这种风险

2.5. 你没有任何隐私可言,习惯了就好

2.5.1. 太阳微系统公司首席执行官斯科特·麦克尼利(Scott McNealy)在1999年所说

2.6. 因为你没什么可隐瞒的,而说你不关心隐私权,与因为你没什么可说而说你不关心言论自由没什么两样

2.6.1. 爱德华·斯诺登(Edard Snoden)

2.7. 分享所有的网络浏览历史可能带来灾难性后果

2.8. 联合国《世界人权宣言》第十一条规定,无罪推定仍然是一项国际人权法律原则

2.8.1. 证明的责任在宣布这件事的人身上,而不是否认的人身上

2.9. 监控对人权的当下及其长期影响的确值得深思

2.10. 人脸识别软件已经成为涉及隐私问题的一项重要技术

2.10.1. 随着检测算法的速度和准确性的提高以及手机认证等应用程序使用频率的增加,在面对大规模监控的威胁时,人脸识别已成为一项重要的数据科学技术

3. 通用数据保护条例

3.1. 2018年5月25日生效的一项欧洲法律,这个条例涵盖了欧洲公民的隐私和数据保护等方面的内容

3.2. 处理欧洲公民数据的非欧洲公司也必须遵守这一规定

3.3. 目标是使欧洲法律在处理个人数据方面与时俱进,并使欧洲国家的法律协调一致

3.4. 是世界上非常强大的数据保护规则之一,其中包括高达2000万欧元或公司营业额4%的罚款

3.5. 合法依据

3.5.1. 数据主体明确同意

3.5.2. 履行与数据主体签订的合同

3.5.3. 遵守法律义务

3.5.4. 保护数据主体的切身利益

3.5.5. 为公众利益而执行的任务

3.5.6. 合法利益(需要在数据主体的权利和控制者的利益之间取得平衡)

3.6. 明确同意

3.6.1. 根据《通用数据保护条例》,这种明确同意需要是自由、具体、知情和明确的行为

3.6.2. 意味着同意的人明白他们的同意行为是如何发生的

3.6.3. 网站往往通过提供网络隐私政策解决这个问题,而实际上有充分的证据表明几乎没有人会阅读此隐私政策

3.6.4. 告知和获得同意很重要,尽管这远非易事

3.6.5. 关于用户需要知道和同意什么内容的伦理思考是这个过程的重要组成部分

3.6.6. 即使未经同意,《通用数据保护条例》也有其他理由让我们可以处理个人数据

3.6.6.1. 意味着你可以通过处理个人数据来执行与你的业务活动相关的任务

3.6.6.2. 包括将个人资料用于直接的营销目的

3.6.7. 当数据主体改变购物地点时,超市的账单可能会因为数据的变化而增加

3.6.7.1. 虽然数据和背景在本质上是无害的,但也会受规模和财务的影响,所以知情同意行为也是必要的

3.6.8. 鉴于数据的敏感性和数据科学的巨大影响,数据主体的权利高于健康保险公司的合法权益

3.6.9. 平衡行为依赖于理性人群对于可接受行为的界定以及数据科学实践的潜在影响

3.6.9.1. 使用什么数据,用于什么目的以及应该如何处理数据

3.7. 只有以实现公众利益为目的,或用于科学和历史研究以及统计的目的时,个人数据才可被长时间储存,不过要实施此条例要求适当的技术和组织措施,以保障数据主体的权利和自由

3.8. 为公共服务而收集的数据不应用于个人竞选活动

3.9. 由于缺乏适当的安全防护措施,数据的隐秘性无法得到充分保

4. 数据保护的概念

4.1. 个人数据的定义

4.1.1. 与已识别或可识别的自然人(‘数据主体’)有关的任何信息;可识别的自然人是指通过姓名、身份证号、定位数据、网络标识符号以及特定的身体、心理、基因、精神状态、经济、文化、社会身份等识别符,能够被直接或间接识别到身份的自然人

4.2. 匿名数据

4.2.1. 如果个人数据是可以恢复的数据,那么匿名数据就是无法恢复的数据

4.3. 假名数据就是对姓名和社会安全标识符等个人标识符进行加密

4.3.1. 将其转换回可识别的自然人数据是非常容易的(当能够访问加密密钥时),因此它不是匿名的

4.4. cookie 是分配给你的浏览器的随机字符串,它允许广告商和广告技术公司在不同的网站和位置识别你

4.5. 美国的社会安全号码也是一个随机号码,但目前被视为个人信息,因为它允许跨部门链接数据

4.6. 匿名的价值不在于隐瞒姓名,而在于“让人无法联系到你:因为无论能否获取你的身份信息,他们都有可能敲你的门,把你从床上拖起来,给你打电话,威胁要制裁你,让你承担责任”。

4.6.1. 巴罗卡斯和尼森鲍姆

4.6.2. 匿名并不是逃避伦理辩论的一种方式,研究人员不仅应该对他们的数据主体承担责任,而且也应该对其他受研究影响的人承担责任,因为正是他们选择将研究中的数据主体匿名

4.7. 即使我们使用匿名或假名数据,隐私仍然是一个需要认真思考的问题

4.8. 隐私几乎只用于考虑数据主体

4.9. 假设数据是以一种合乎道德的(公平、透明和负责任的)方式获得的,我们还应该考虑如何将该模型应用于其他潜在人群的数据上

4.10. 伦理数据科学不是一个需要每个人严格遵循的责任清单

4.10.1. 在涉及数据主体和模型主体的隐私方面保持公平,思考哪些技术可能有用

5. 公共数据是不可以自由复制的

5.1. 数据科学家常常误认为公共数据是可以自由复制获取的

5.2. 公共脸书页面或者网上新闻报道的数据免费向公众开放,但却不一定可以擅自复制到私人的数据库中

5.3. 数据库权限是一种建立数据库所需投资的认可,在未经数据库所有者同意的情况下,不允许其他人复制(大部分)数据库

5.4. 例外情况,即数据提取是出于私人目的,或为了教学或科研,而不是出于商业用途

5.5. 除数据库权限外,将某些数据公开的公司,其数据库政策通常是不允许别人复制此等数据

5.6. 脸书Robots协议文件

5.6.1. 不允许被特别提到的baiduspider、Bingbot以及Googlebot等的爬虫程序访问的网页和目录

5.6.2. 对于Robots协议文件中没有列出的爬虫程序,最后一行评论写道,禁止它们抓取任何页面内容

5.7. 随意复制提取网站的内容毕竟是不道德的行为,而且还可能产生法律问题

5.8. API使数据检索变得很简单,并且是以一种合乎伦理(和合法)的方式

5.9. 如果你仍然决定提取此等页面的全部内容并加以复制,那么请记住,你的个人数据可能也会被存储起来,例如带有名字的脸书公共页面上的评论

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

躺柒

躺柒

书既能读薄也能读厚,输出才能检验输入,完成才能完善。