产业资讯方案大厅机构大厅

内容安全

深度学习阿里云

产品描述

目前,国内能够提供 AI 鉴黄的公司很多,百度、腾讯、网易云等都可以提供相关技术,但大多数还是主要集中在图片识别,鉴别语音中的色情信息相对来说较难。虽然识别语音中的色情信息虽然相对图片识别较难,但却并不是无法实现。阿里 AI 鉴黄语音反垃圾服务上线公测,能识别语音中存在的涉黄、广告等违规信息,能听懂中文、日文、英文等多国语言,还支持东北、四川、广东等地方言,无语义的呻吟声也能识别出来。

可以通过 CTC+LSTM 组合的深度学习等技术来识别色情音频内容。它可以分析语音的信息内容,从判断出语音当中是否含有色情信息。1.CTC 全称 是 Connectionist Temporal Classification,是一种改进的 RNN 模型。CTC 在标注符号集中加一个空白符号 blank,然后利用 RNN 进行标注,最后把 blank 符号和预测出的重复符号消除。比如有可能预测除了一个"—a-bb",就对应序列"ab"。这样就让 RNN 可以对长度小于输入序列的标注序列进行预测了。2. 长短时记忆(LSTM)模型的优势就在于在传统的网络中引入三个门:输入门、输出门和遗忘门,分别代表对信息长期、远期和近期的记忆和控制。相对于传统的 CNN 和 DNN 模型,它的好处是能够记录轨迹的变化。因此,CTC+LSTM 组合的深度学习技术成为识别语音中色情内容的选择。阿里巴巴的 AI 鉴黄师据说可以日鉴数亿张图片,是阿里筛选了近 2000 网站、6000 多万色情图片,经过去重,标注 1300 多万张高质量的色情图为基础做出来的 AI 系统,识别准确率高于 99.5%。

所用技术

研发机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。