指标是一把双刃剑,用不好就成了垃圾食品自助站

“因为我们无法提前知道用户经历的每一种现象,我们也无法提前知道哪些指标量化这些现象。为此,数据科学家和机器学习工程师必须与用户体验研究结合,或学习用户体验,让用户有发言权。”

来源 / fast.ai 编译 / China盼盼、曹培信 出品 / 公众号“大数据文摘”(ID:BigDataDigest)理论派经授权发布

古德哈特定律指出,“当一个指标成为目标时,它就不再是一个好的指标。”在他们的心中,当前的人工智能方法所做的就是优化指标。优化指标对人工智能来说,既不新奇也不独特,但这样做可以让人工智能特别高效(甚至过份高效)。

这一点很重要,因为优化指标的风险会因人工智能的强大而增加,虽然指标在某些适当的地方是有用的,但如果不加思考地应用它们,则会带来危害。

一些算法造成的可怕案例都是由于过分强调指标造成的——比如谷歌的算法会出现种族歧视,还有教师被“算法”解雇,或文章评分软件给那些看着复杂却没有实质内容的文章打高分。我们必须了解这一动态趋势,以便理解我们正面临的由于滥用人工智能而导致的紧迫风险。

《哈佛商业评论》,《华盛顿邮报》和《全球青年文化之声》的头条报道了过度优化指标的一些后果:奖励垃圾文章、宣传富国银行的大规模欺诈以及算法解雇优秀教师。

最重要的事情我们反而无法用指标衡量

指标通常只是我们真正关心的事物的体现,有一篇论文提到一个非常有趣的例子:电子病历中哪些因素能预测未来患者的中风。

论文链接:https://scholar.harvard.edu/files/sendhil/files/aer.p20171084.pdf

然而,研究人员发现,一些最具预测性的因素(如意外伤害、良性乳腺肿块或结肠镜检查)都不能作为中风的风险因素。因为研究表明,这个模型只是涵盖了那些经常使用医疗保健的人。研究人员实际上并未获取到所有中风患者的数据;他们掌握了有关谁可以获得医疗服务,选择去看医生,接受必要的检查的数据,并将这个代码添加到他们的图表中。

但有许多因素影响这一过程:影响病人能否得到准确诊断的还有性别和种族歧视因素、文化因素等等。因此,该模型主要是挑选使用医疗保健的人,而非那些不使用医疗保健的人。

还有一个常见的例子:若你想知道用户喜欢什么内容,你可以看他们点击的内容;若你想知道哪些老师的教学最有效果,你可以评估他们的学生考试成绩;若你想知道犯罪情况,所以你也可以通过警察的逮捕信息进行衡量。这些事情各不相同。很多我们关心的事情是无法测量计算的。尽管指标是有帮助的,但它们也只是我们所关心的事物的体现而已。

另一个例子是,谷歌把花在观看YouTube上的时间作为用户对内容的满意程度的体现,谷歌写道:“如果观众在YouTube上观看更多的时间,则表明他们对获得的内容更满意。”曾在谷歌/YouTube工作的人工智能工程师Guillaume Chaslot分享了如何这产生了阴谋论的结论,因为人们有时候看完这个视频只是为了确认剩下的视频也是在撒谎而不是,因为喜欢这个视频。

指标会被操纵、被玩弄

指标被操纵几乎是不可避免的,尤其是当它们被赋予了太多的权力时。举个例子,Chaslot从YouTube上收集了84695个视频,分析了视频的浏览量和推荐频道。

图表来自《穆勒报告》,显示《今日俄罗斯》视频在YouTube上被频道推荐数量很异常。

YouTube在你看完当前的视频就开始自动播放推荐内容,这占到用户在youtube上花费时间的70%,从图中可以看出国有媒体《今日俄罗斯》(Russia Today)是一个极端的异类,它获得了不寻常的推荐量。这也有力地表明,《今日俄罗斯》已经在某种程度上玩弄了youtube的算法。

再比如,文章自动评分软件主要关注句子长度、词汇、拼写和主谓一致性等指标,但无法评估难以量化的指标,如创造力。因此,由计算机程序随机生成的包含大量复杂单词的乱七八糟的文章得分会很高。来自中国大陆的学生的论文在文章长度和复杂的选词方面都做得很好,但普遍算法给出的得分高于人类专业评分者给出的得分,这表明这些学生可能在使用预先背记的文本。

还有随着美国教育政策开始过分强调学生考试成绩作为评价教师的主要方式,在乔治亚州、印第安纳州、马萨诸塞州、内华达州、弗吉尼亚州、得克萨斯州等地方,教师和校长通过改变学生成绩来作弊的丑闻普遍存在。这样做的一个后果是,不作弊的教师反而会受到惩罚,甚至被解雇,这体现了当指标被赋予不适当的重要性时,操纵、玩弄指标的做法就会变得很常见。

指标往往过分强调短期的关注

衡量短期量化指标很容易:点击率、逐月波动率、季度收益等,但许多长期趋势因为有着复杂的因素组合,难以量化。

简单地衡量用户点击的内容是一个短期关注点,并没有考虑到一些因素带来的潜在的长期影响,比如长篇形式的调查性文章可能需要几个月的时间来研究,可能有助于塑造读者对复杂问题的理解,甚至有重大的社会影响力。

《哈佛商业评论》最近的一篇文章将富国银行视为一个案例,研究让指标取代战略如何损害企业。在将交叉销售确定为长期客户关系的衡量标准后,富国银行过分强调了交叉销售的衡量标准,这给了员工的巨大压力和不健康的销售文化,导致350万个欺诈性存款和信用卡账户未经客户同意就被开立。与培养长期客户关系的崇高目标相比,交叉销售的衡量标准是一个更为短期的关注点。过分强调衡量标准会使我们的注意力从长期的关注点上转移,比如我们的价值观、信任和声誉,以及我们对社会和环境的影响,而只是目光短浅地关注短期目标。

相关报道:https://hbr.org/2019/09/dont-let-metrics-undermine-your-business

指标数据来自用户高度成瘾的环境

在什么环境中收集哪些指标这个问题很重要,诸如用户点击什么,他们在网站上花费多少时间,以及“参与度”等指标,都被科技公司视为用户偏好的体现,并被用来驱动重要的商业决策。不幸的是,这些指标是在高度上瘾的环境中收集的,这大大限制了选项的范围。

我们的网络环境就像是垃圾食品自助餐厅

北卡罗来纳大学教授、《纽约时报》定期撰稿人Zeynep Tufekci将推荐算法与自助餐厅向孩子们推荐垃圾食品类比。“这有点像学校里的自助餐厅,发现喜欢甜食的孩子,还喜欢高脂肪和咸的食物。因此算法建立了一条提供此类食物的流水线,只要年轻人面前的一袋薯条或糖果吃完,你就会自动提供下一份。”

这样一个人对食物的选择会变得越来越极端:“食物中糖,脂肪和盐的摄入量越来越高(人类的欲望),YouTube推荐和自动播放的视频就变得越来越离奇。”我们太多的在线环境都是这样的,有指标显示我们喜欢糖、脂肪和盐,却没有考虑到我们正处在一个数字化的食物沙漠中,公司也没有给他们提供的食物上贴上含多少营养的标签,这些指标让我们陷在了不健康的环境中。

指标在何时才有用?

以上所有这些并不是说我们应该完全抛弃指标,数据在帮助我们理解世界、验证假设、超越直觉方面是很有价值的。

当指标处于合适的上下文和位置时,它们会很有用,保持指标标准不变的一种方法是考虑将许多指标标准组合成一个更完整的系统(并避免将这些指标指标归结为单一分数)。

例如,了解科技公司低指标的群体中雇佣员工的比率是一个非常有限的数据点。为了评估技术公司的多样性和包容性,我们需要知道比较促进率、股权结构、保留率、被保密协议封口的受害者数量、低于标准的比率以及更多。即便如此,所有这些数据仍应与这些公司工作人员的主观经验相结合。

哥伦比亚大学教授、《纽约时报》首席数据科学家克里斯·威金斯(Chris Wiggins)写道:定量指标应始终与定性信息相结合,“因为我们无法提前知道用户经历的每一种现象,我们也无法提前知道哪些指标量化这些现象。为此,数据科学家和机器学习工程师必须与用户体验研究结合,或学习用户体验,让用户有发言权。”

将指标保持在适当位置的另一个关键则是让领域专家和那些将受到最大影响的人密切参与其开发和使用,比如说对教师的评价,显然大多数教师都可以预见,主要根据学生的标准化考试成绩来评价教师会导致许多负面后果,如果征求了他们的意见,这个系统根本不会被采用。

这篇文章并不反对指标,而是担心指标被过分强调会带来的危害,这是我们在人工智能领域的常见现象,它正对现实世界产生一定的负面影响。人工智能不受限制地运行并优化指标,已经导致了诸如谷歌/youtube大力推广种族歧视、论文评分软件给垃圾文章打高分等情况,而通过牢记指标可能带来的风险,我们可以尽量避免这些危害。

相关报道:https://www.fast.ai/2019/09/24/metrics/#proxy

参与评论

请输入你的评论!
请在这里输入你的名字