7月30日,今日头条宣布正式推出灵犬反低俗助手(以下简称“灵犬”)3.0版本,同时支持图片和文本识别。现在用户只需要在“灵犬”内输入文字、文章链接或者上传图片、图片链接,就可以快速获取检测结果。其中,在文本识别的反 低俗、反暴力谩骂、反标题党方面,新版“灵犬”的准确率已经提升到了91%。
“每个新版本相对于旧版本,在数据集和技术层面,都有一个明显的跃升”,今日头条人工智能实验室总监王长虎表示,新版“灵犬”重点拓展了反低俗识别类型和模型能力。
文本识别方面,它同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料,在不牺牲效果的情况调整了模型结构,使得计算效率能达到实用水平。“Bert”是当前最先进的自然语言处理技术,是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。
为了提高灵犬对文本类内容识别的灵敏度,这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍维基百科的数据总量,包含920万个样本,准确率提升至91%。
此前一年时间内,“灵犬”已经陆续完成两次迭代。2018年3月28日,今日头条首次上线“灵犬”,支持检测文字和文章链接。2018年5月16日,“灵犬”完成服务能力升级,增加反 短文本模型和反谩骂模型,将准确率从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线,除了反 低俗模型,加入反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%。截至2019年6月,灵犬反低俗助手的使用人次已经超过了300万。