抖音上线AI反网暴Agent,从被动等举报到主动找风险

网暴新形态,传统审核力不从心

你以为网络暴力还是直白的辱骂?错了。如今的网暴早已进化——表情包阴阳怪气、谐音梗攻击、断章取义带节奏,这些隐蔽的恶意,传统审核根本识别不了。

依赖用户举报?等处理时伤害已经造成。常规审核只能筛查数天内的内容,持续时间长、跨热点周期的攻击很容易被遗漏。未成年人、老年人等不同群体的心理承受能力也无法兼顾。

AI反网暴智能体概念图

AI反网暴Agent:双模型协同作战

6月12日,抖音正式推出AI反网暴行动,上线AI反网暴Agent(智能体)。这不是简单的关键词过滤,而是让网暴识别模型研判模型与人工协同工作,在风险发酵的早期就捕捉到用户的求助"信号"。

网暴识别模型——不盯着单条评论的关键词,而是关注用户的整体互动情况。当评论区突然涌入大量负面言论、有人频繁访问某个人的主页、@某账号的异常信息增多时,系统就会开始计算"网暴风险得分"。AI会全天候复盘误判案例,自主学习新的网暴手段,包括刚流行起来的新梗攻击。

网暴研判模型——从事件维度展开全局分析,整合用户近30天内的文字、图片、视频、音频等互动数据,还原完整的事件脉络,区分正常的观点讨论和恶意攻击,避免误判影响用户的正常交流。针对未成年人、老年人等特殊群体,模型还设置了梯度化识别标准,适当提高风险敏感度。

AI反网暴Agent数据效果

数据说话:效果立竿见影

系统升级后,关键数据变化显著:

  • 平台日均识别潜在被网暴风险人群扩大91.5%
  • 每天有数千名用户收到预警后主动开启防网暴功能
  • 因风险等级高而被人工外呼援助的受害者数量增长147%

这意味着,从"被动等举报"到"主动找风险"的治理转变,已经产生了实实在在的保护效果。

梯度化处置:精准施策

对于被网暴的用户,平台采取梯度化救助策略:

低风险:App端内提醒,一键开启一键防护等功能。

高风险或特殊保护群体:平台通过智能外呼联系用户,安排专人一对一提供帮助。

对于施暴者,平台根据情节轻重采取梯度化处置——下架违规内容、限制互动功能、永久封禁账号。跨账号持续骚扰、情节恶劣的行为会酌情升级处置;涉嫌违法犯罪的,将主动配合公安机关提供相关证据,依法追究法律责任。

这是国内首个AI系统性应用于网暴主动防护

抖音相关负责人表示,网络生态治理是一项长期且复杂的工作,没有一劳永逸的解决方案。平台将持续迭代AI反网暴系统的技术能力,提升主动保护效果。

这是国内首个将AI系统性应用于网络暴力主动防护的内容平台,标志着从被动治理到主动防护的范式转变。当AI不再只是审核工具,而是成为"主动找风险"的守护者,每一个在屏幕前默默承受恶意的人,或许都能被更早发现、更早保护。

来源:观察者网 | 作者:多路客视角

上一篇:
下一篇:
0.100497s