知乎优化AI算法挑战「阴阳怪气」难题,构建良性网络讨论空间

6月23-24日,中文互联网知识分享平台知乎举办了一场“阴阳怪气”主题书法展,知乎社区治理团队也首次亮相,分享了知乎使用人工智能识别阴阳怪气类内容上的探索。

交流会上,知乎运营总监孙达云、内容质量管理团队技术负责人刘兆来分别从运营、技术角度,对知乎在构建良性社区氛围上所做的努力进行了阐述。在过去一年里,知乎不断优化算法机器人“瓦力”,着力挑战识别阴阳怪气这一情感分析领域的传统难题,通过综合使用情感模型、用户亲密度模型和文本识别模型,其识别准确率得以大幅优化,已超过大部分人工判断。

据了解,知乎还将在近期对该技术进行产品化尝试,向用户提供“瓦力”阴阳怪气智能过滤选项,同时,还将对“瓦力”进行更多训练,不断提升准确率和召回率,最终将阴阳怪气识别技术全面应用到社区治理中。
 
三大算法模型引领,突围复杂网络语言分析困境
 
知乎创始之初就倡导“认真、专业、友善”,鼓励良性讨论。目前,知乎借助AI技术,并辅以人机结合和多元的产品举措,多重手段加强对社区氛围的维护。现阶段,知乎已实现对95%以上的违法违规、广告导流和不友善等内容的主动打击、覆盖和筛查 。

过去一年,知乎全力探索对阴阳怪气类评论的解决方案。阴阳怪气可用“杠精”这个词来指代,通常以“不针对发言内容,而是批评对方的语气”以及“提出反对意见,但不给或给出极少数论据支持”这两类常见言论为代表,此类评论极大了伤害创作者和交流者的体验,但难以解决。
解决阴阳怪气类评论的难点核心主要在于网络语言的复杂性,情感分析不同于普通文本分析,例如经典的“呵呵”,由于双方不同关系、说话的不同场景和时间都会带来迥然不同的表意。即便是人工判定都存在标准化难度,算法模型的训练挑战就更为艰辛。

而在知乎团队的不懈努力下,终于率先找到技术解决方案的切入点。针对阴阳怪气评论通常表达负面情感的特点,知乎构建了内容情感倾向性识别的算法模型和识别用户亲密度的模型,并通过训练不断迭代完善。此外,针对阴阳怪气评论的典型特征,知乎建立了文本识别模型不断标记训练样本。三大模型的结合,不仅摆脱单一算法模型的局限性,也让“瓦力”的阴阳怪气识别准确率超过了大多数人工判断。
 
持续迭代技术方案 攻克情感分析前沿难题
 
现场,刘兆来详细介绍了“瓦力”最新的阴阳怪气技术方案:首先通过知乎社区里的举报、反对等负向用户行为收集训练数据。然后通过各种同义替换、规则模版方式对训练数据进行扩展,以缓解训练数据稀疏的问题。同时,“瓦力”提取文本、句法、表情符等特征,并利用一个带attention的CNN和LSTM的融合模型进行分类,最终判断出内容是否为阴阳怪气。

优化技术方案后,“瓦力”已能实现对“暗藏玄机夸奖”(忍不住关注答主了,你的答案很有水平!你博士快毕业了吧!)、“好为人师”(我觉得你挺惨,虽然长这么大了,还真应该回小学改造)、“强行反驳”(你开心就好、请开始你的表演)等数类阴阳怪气内容的识别。而根据知乎社区治理团队的调查,用户最反感的阴阳怪气言论大多属于这些类型,这意味着,“瓦力”在处理网络言语暴力上取得了阶段性进展。

刘兆来表示,未来将不断优化“瓦力”的识别能力,提高模型泛化能力,同时不断迭代更新模型,紧跟学术前沿的同时,适应网络语言的变化潮流。

互联网的广泛应用,大幅降低了大众发言讨论的门槛,也导致了舆论环境的“乱象丛生”。知乎通过阴阳怪气评论的治理,找到了一条优化互联网社交礼仪的创新之路。对于饱受网络暴力困扰的用户而言,阴阳怪气识别技术能够让用户更舒适地参与网络讨论;而从行业角度看,目前在社区治理方面AI技术投入位列行业第一的知乎,这一技术创新也极具开创性与示范效应。

知乎表示,着力阴阳怪气识别技术,正是知乎“认真、专业、友善”社区精神的一次直观体现和有力践行。日益强大的“瓦力”已能实时解决答非所问、辱骂、贴标签等不友善问题,而人机结合的社区治理方式,以及用户深度参与社区自治,更让歧视、谣言八卦、愚昧偏见等内容在知乎难以找到立足之地。

产业知乎应用NLP情感分析
相关数据
机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章