当前位置: 去除器 >> 去除器发展 >> 引用量比肩ImageNet的数据集下线
大数据文摘出品
作者:刘俊寰、牛婉杨
抵制种族歧视最紧张的关头,MIT忽然被牵扯了进去。
在一篇名为《LARGEIMAGEDATASETS:APYRRHICWINFORCOMPUTERVISION?》的论文中,研究者发现,MIT正在使用的一个高引用图片数据集TinyImages存在强烈种族歧视和厌女症标签。
这个数据库内,当黑人或猴子出现时,标签显示为N*gger这一对黑人的蔑称词汇;此外,身穿比基尼或抱着孩子的妇女的图片被标记为b*tch等这一侮辱性词汇。
这一曝光引发了学术圈的激烈争议。得知消息后,麻省理工学院迅速下线了这一数据集,并发布公告称,由该数据集训练出的AI系统,会潜在地使用种族主义、厌女症和其他激进术语来描述对象,请所有研究员暂停使用和训练。
比如,利用TinyImages训练的机器学习模型,能够自动识别并列出静止图像中的人和物体,当用户输入公园照片,系统会标注出照片中的儿童、成人、宠物、野餐点、花草和树木。但同时,由于在组合训练集时采用的方法,系统也可能将女性标记为妓女,黑人和亚裔的标记也多带有贬义色彩的词语。
使用该数据集训练出的神经网络的应用程序、网站和其他产品,都很有可能在最终分析照片和视频时出现带有歧视性的术语。
下线该数据库后,MIT还表示,将敦促研究人员和开发人员停止使用培训库,并删除所有副本。
一位教授回应称:“我们深表歉意。”
包含歧视标签的TinyImages有什么用?
TinyImages数据集创建于年,包含了万个微型图像,主要用于对象检测技术。之所以被命名TinyImages,是因为该数据集中的图片都足够小,对于比较老旧的图片非常友好,甚至可以支持年代末和年代初的计算机视觉算法。
从本质上讲,TinyImages包含了大量照片和带有描述照片内容的标签集合,所有这些都可以输入到神经网络中,以训练神经网络将照片中的图案与描述性标签关联起来。训练完成后,当向该神经网络展示一辆自行车时,它就可以准确地做出判断。
如今,研究员一般会将TinyImages数据集与更知名的ImageNet数据集一起使用,作为计算机视觉算法的训练基准,不过,与大名鼎鼎的ImageNet不同,到目前为止,还没有人对TinyImages的内容进行过审查。
最近,硅谷一家专注隐私的初创公司UnifyID的首席科学家VinayPrabhu和爱尔兰都柏林大学的博士候选人AbebaBirhane对TinyImages进行了仔细的研究,他们发现,该数据库内包含了成千上万张带有针对黑人和亚洲人的种族主义诽谤标签图像,用于女性的标签也大多带有贬义色彩。
比如,在该数据集中,黑人和猴子图片都加了“N*gger”这一对黑人带有污蔑性质的标签,穿着比基尼或抱着着孩子的女人,会被标记为“w*ore”或“b*tch”。通过把日常生活中的图像与带有侮辱性质的语言联系起来,该数据集就会把偏见传递给了AI模型,再通过AI的输出结果强化了这一偏见。
据了解,TinyImages中图像主要来源是谷歌,研究人员搜集到这些图像后将它们归类在了多个标签下。TinyImages还拥有一个更小的版本,包含万张图片,此前可以通过麻省理工学院计算机科学和人工智能实验室的网站上直接访问和读取,不过周一的时候,这个可视化数据集,连同完整的数据集,都从CSAIL网站上被移除了。
这是万数据集的可视化截图,展示了一些被打上“whore”标签的图片,出于法律原因打上了马赛克。这些照片包括一个穿着比基尼的女人和一个母亲抱着她的孩子,以及圣诞老人的头像照等。
VinayPrabhu和AbebaBirhane将研究结果写成论文,并打算提交给明年的计算机视觉大会。
论文链接: