行业内参

AI Daily

AI Daily 快讯 · 2019/10/11

OpenAI 774M GPT-2 数据集被指涉及个人隐私的数据

对于人工智能文本生成滥用的担忧现如今已被广泛讨论，在 OpenAI 关于 GPT-2 模型的博客中，该团队表示「由于担心会使用大型语言模型大规模生成欺骗性，偏见性或辱骂性语言，因此我们仅发布了更小的 GPT-2 版本以及示例代码」。然而，当一名网友在一个名为「Talk to Transformer」的网站针对 GPT-2 774M 大小的数据集运行查询时，他发现该数据集包含了真实的含有用户名以及链接的社交媒体内容，而不仅仅是论文摘要数据。网友表示，据他的研究显示，GPT-2 利用了个人隐私数据进行训练。在未来，他还将进一步挖掘该数据集是否存在邮箱，电话号码，网银账户等重要信息。这一发现引发了网友热议。

AM 6:56www.reddit.com

登录后评论

暂无评论~

登录

文章库