算法偏差是由算法自身所引起的,而与输入数据无关。如果输入数据存在偏差,算法的输出就可能会呈现出同样的偏差。然而,即便我们考虑了所有可能的偏差,仍然很难定义算法要达到什么条件才算是无偏的,这就像人们很难在一些极具争议性的话题上形成各方一致认同的公平解决方案。要判断算法的输出是否具有偏差,有时还需要人类专家的介入和研判。2016年的一项研究使用了美国新闻语料,通过词嵌入方法来学习新闻数据中类似“她-他”的单词组合,大部分的输出结果都反映出不同程度的性别偏见。例如,算法除了输出正常的“王后-国王”外,也输出了诸如“护士-外科医生”“天后-超级明星”之类的单词组合。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » 算法偏差对互联网数据评估的影响