读数据科学伦理:概念、技术和警世故事05后门、偏差与偏见
1.1. 政府经常主张在加密标准中设置“后门”,这样他们就能够在适当的时候(比如在获得法院命令之后)检索个人数据
1.2. “五眼情报联盟”(Five Eyes intelligence alliance)
1.2.1. 如果电信和科技公司不为执法机构和政府提供“合法获取”公民加密信息的“后门”,它们将遭到强烈抵制
1.2.2. 美国、英国、澳大利亚、加拿大和新西兰
1.3. 网景公司(Netscape)开发了两种版本的网络浏览器:一种是加密密钥为128位的美国版本,而另一种则是加密密钥为40位的国际版本
1.4. 隐私不是绝对的
1.4.1. 很少有人会质疑警察在合法获得搜查令后进入一所住宅的权利,或者类似的搜查车辆或获取已知恐怖分子电话记录的权利
1.4.2. 不仅仅是政客和执法机构认为隐私不是绝对的
1.4.3. 沃伦·巴菲特(Warren Buffett)等商界人士也同意这一观点
1.5. 隐私和安全
1.5.1. 隐私和安全之间的平衡、安全与安全之间的平衡以及政府设“后门”所产生的有限的影响
1.5.2. 为了安全而放弃隐私的原因
1.5.2.1. 本杰明·富兰克林(Benjamin Franklin)说过:“那些愿意放弃基本自由以换取暂时安全的人既不配获得自由,也不配获得安全。”
1.5.2.2. 这个论点不仅适用于加密技术,也适用于你的“离线”数据
1.6. 安全和安全
1.6.1. 即使你完全信任政府用于获取加密数据的程序,任何不怀好意的人都可能试图利用这个弱点,并通过这个“后门”找到进入(数据保护系统)的方法
1.6.2. 考虑到加密和安全领域的持续竞争,知道其中有弱点的话,这将对黑客具有很大吸引力
1.6.3. 假设设置“后门”是可以完全保密的行为是非常幼稚的,这样很可能会造成信息被大量滥用
1.6.4. 将钥匙放在门垫下不安全,政府在我们的通信系统中设“后门”也同样不安全
1.6.5. 尽管政府的“后门”能让执法部门更好地追踪和抓捕犯罪嫌疑人和恐怖分子,这似乎可以提升公众的安全感,但同时,它也因暴露其他公民的数据,而使其遭到勒索或仅仅致其丧失隐私等而降低了他们的安全感
1.6.5.1. 不仅个人隐私受到威胁,知识产权或公司战略等商业数据和秘密也可能被窃取
1.6.6. WhatsApp中使用端到端加密
1.6.6.1. 它将使数亿依赖端到端加密的守法民众失去一个重要的安全保护罩
1.6.6.2. 改变我们的加密方式并不会阻止不法分子使用端到端加密,因为还有其他更不可靠的服务可用
1.6.7. 网络安全专家一再证明,不可能创建任何不被不法分子发现和利用的“后门”
1.6.7.1. 这就是为什么削弱加密技术的任何一部分都会削弱整个安全系统
1.7. 一旦这些政府设置的“后门”被发现(当苹果公司开发出可删除安全功能的软件时,就会出现这种情况),犯罪分子和恐怖分子很可能会转向其他通信方式
1.7.1. “后门”再次削弱了普通守法公民的安全,而无法解决不法分子可访问公民数据的问题
2. 现状2.1. 对于非数值的个人数据(比如,你在家里收到的信件、可能保留的银行打印记录或打印发票)似乎有一个共识,即执法机构有权访问该等数据,甚至可以在适当的法院命令下没收它们
2.1.1. 对于数值的个人记录,其区别似乎取决于第三方处理机制是否需要访问其内容
2.2. 在后斯诺登时代,一家手机公司要想在全球市场上生存下去,就必须让消费者相信他们的数据是安全的
2.3. 加密技术不能保障数据保护的安全性
2.3.1. 除了持续不断地保护加密技术不受攻击,还存在元数据和规避加密的方法等问题
2.3.2. 元数据(比如,显示消息从何处发送的IP地址、消息的发送者和接收者以及呼叫的时长等)不会透露消息的内容,但会提供个人信息
2.4. 加密也无助于防止备份或下载你可能保存的未加密聊天记录
3. 偏差/偏见3.1. 偏见是另一个重要的伦理概念,抽样偏差可能导致许多错误的结论,或使敏感群体受到不公平待遇
3.2. 数据科学家所研究的数据,很少能完美地代表模型所应用的总体
3.3. 样本可能有很多来自容易访问的组的数据,或者由于环境或总体的变化而不再具有代表性的历史数据
3.3.1. 如果样本对某些敏感群体(比如,具有特定种族背景、性别、宗教或年龄的人)有偏见的话,那么得出的模型很可能也会包含这种偏见,因此可能造成对该等敏感群体的歧视
3.3.2. 它是否会影响模型在样本和总体上的性能
3.4. 数据样本的偏差:样本不具有总体代表性
3.4.1. 抽样是数据科学研究自身固有的一个局限性
3.4.2. 由于各种原因,要想收集总体完整的数据往往是不可能的
3.4.2.1. 数据只能从已同意提供数据的人那里获得
3.4.2.2. 无法对所有人进行问卷和调查
3.4.2.3. 获取数据可能会耗费大量资金
3.4.3. 当样本不具有代表性时,某一人群的非随机样本而形成的误差就会由此产生
3.4.3.1. 仅社交媒体用户无法作为总体的代表性样本
3.4.4. 样本偏差影响的例子
3.4.4.1. 装甲并不需要安装在弹孔所在处,而需要安装在没有弹孔的地方也就是安装在引擎上
3.4.4.2. 应该在引擎上加装额外的装甲,其理由是在那里几乎发现不了弹孔
3.4.5. 意识到样本偏差的存在是重中之重
3.4.6. 样本偏差会导致错误的结论
3.5. 数据或模型对敏感群体的偏见:这与公平性问题一一对应
3.6. 偏差、方差权衡
3.6.1. 模型的预测性能是两种误差之间的权衡,一种是由对模型的学习算法的假设引起的偏差误差
3.6.2. 另一种是由非无限样本量引起的方差误差,其中模型对训练集中的微小变化很敏感
3.7. 线性模型中的偏差:截距通常也称为偏差项,这是因为如果输入端没有数据(即全部为零)的话,其结果就是偏差项
3.8. 在数据科学伦理中,“偏见”的语境通常是样本偏差或对敏感群体的偏见
3.9. 过度采样也可能是一个问题
3.9.1. 做法可能会变成一种自然而然就会实现的预言
3.9.2. 数据科学就会以错误的、不道德的方式来证实毫无根据的偏见
3.10. 即使表达不足或过度表达完全是无意的,由此产生的不同影响也值得我们关注这个问题
3.11. 由于对某些种族或性别群体存在偏见,在员工中历来存在该群体代表性不足的情况,这可能会扩大到后续的模型中
3.11.1. 一段2017年拍摄的视频显示,只有浅色皮肤的手才能使皂液机有感应、正常工作,而深色皮肤的手却不行
3.11.2. 图像标记技术依旧处于早期阶段,而且,它距离完美还差得很远
4. 人体实验4.1. 人体实验是收集人体数据的常用方法
4.1.1. 人体实验最主要的原则是获得实现对象的知情同意,保证数据主体的风险最小化的同时将潜在利益最大化,并且确保进行适当的监督
4.2. 人体实验是一项长期的科学实践,即对人体进行实验以研究和了解人类
4.3. 实验一词可被定义为“研究者故意改变内部或外部环境以观察该变化所产生的影响的行为
4.4. 人体实验对人类的影响可能比简单地点击一个广告要大得多
4.4.1. 尽管在医学研究中,人体实验有其默认的伦理标准和共识,但在非医学数据收集阶段(通常是在线的),这种做法似乎并不是很规范
4.5. 《纽伦堡法典》的主要目的是防止此类可怕的实验再次发生,但事实上违背伦理的人体实验并未因此而终止
4.6. 知情同意
4.6.1. 这也是《通用数据保护条例》的一部分
4.6.2. 无论这有多么困难,提供知情同意的受试者都应是自由同意的,同时实验者也应在实验前告知受试者有关研究性质、潜在后果、风险以及备选方案等的客观信息,然后再获得其知情同意
4.7. 将数据主体的风险降到最低,并将潜在获益最大化
4.8. 不仅在研究之初需要对其进行监督,在整个实验过程中也都需要进行伦理反思,特别是涉及历经多年的研究时更是如此
4.9. 指派一个人(甚至是一整个委员会)负责在进行数据科学项目期间跟进和尽量避免可能带来的伦理影响,或者在每一份研究报告中增加关于伦理反思的相关内容
4.10. A/B测试是一种常用的方法,你可以使用不同属性的两个组进行实验
4.10.1. 未经用户知晓就让其参与进这样的实验的话,他们的情绪健康状态(比如幸福等)可能会受到影响
4.10.2. 如果为了改善服务而对用户撒谎,那么,A/B测试与欺诈之间的界限在哪里?
4.11. C/D实验,即在没有预先警告的情况下,更改编程代码来操纵结果,从而故意欺骗用户
4.12. 当患者将遭受不适或疼痛时,知情同意就很有必要
4.12.1. 在数字化大环境中,如果存在潜在的负面影响,应征求数据主体(以及潜在的模型主体)的知情同意
4.13. 数字实验也需要征求知情同意、最大限度降低风险的同时将潜在利益最大化以及确保伦理监督,因为其造成的影响可能与医学实验一样大
4.13.1. 如果你的实验对人们的情绪健康有影响,那么一定要仔细考虑到这样做可能会产生的所有伦理影响
4.13.2. 不论有多难,在进行此类实验前,至少要确保获得用户明确的知情同意
4.14. 如果你打算通过可能会影响人们精神状态的人体实验来收集数据,最好要考虑到其产生的所有的伦理影响,其中包括获得知情同意、最大限度地减少对数据主体的潜在伤害以及确保伦理监督
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。