大语言模型，救不了“网络暴民”

2023-07-12 10:14:16 来源：钛媒体APP

图片来源@视觉中国

(相关资料图)

语言可以杀人——网络时代，相信没人会否认这一点。

语言攻击，是最具代表性的网络暴力之一。谩骂刚失去儿子的母亲，诋毁女孩的粉色头发，嘲笑男性的气质“太娘”，炮制莫须有的黄色谣言……无数侮辱性的语言，在网络间横行无阻，给他人带来了无穷无尽的精神伤害。

语言暴力，已经成为网络治理的全球性难题。

各种方案被使出，但都无法有效阻止“网络暴民”的增加和语言暴力的横行。其中，技术层面的解决思路，就是利用AI算法来自动检测有毒语言，按照攻击性来设定毒性评分，并对高毒性语言进行预防处理，比如屏蔽、心理干预等。

但由于语言的模糊性，此前的机器学习算法鲁棒性不强，很容易做出错误判断，导致识别和干预的结果并不理想，仍然需要大量人工审核员。不仅处理效率低下，而且长期阅读有毒语言也会伤害人类审核员的心理健康。

ChatGPT这类大语言模型，凭借强大的鲁棒性和泛化能力，展现出了前所未有的语言理解力。

按理说，本着“技术向善”的宗旨，大语言模型应该被用来更有效、高效地预防网络暴力，但为什么迄今为止，我们仍然没有见到相关应用？反倒是利用大语言模型生成更多有害内容的“技术作恶”大行其道。

大语言模型，也救不了“网络暴民”，难道我们注定只能在有毒网络环境下“数字化生存”吗？

大语言模型，内容检测技术的一大步

预防，是治理网络暴力最重要的环节。利用AI内容检测来预防网络暴力，相关研究已经有数年历史了。

2015年就有人提出，个体的情绪状态就与有害意图之间存在显著关联，使用机器学习来检测社交媒体中的有害行为，被认为是网络暴力检测的良好指标。

也就是说，一个人在生活遭遇了剧变、坎坷或感到低落、郁闷等情绪状态不佳时，就容易在网络上发出仇恨、攻击、诋毁等冒犯性语言。

2017年，谷歌的Jigsaw创建了Conversation AI，检测在线有毒评论。许多科技巨头，多年来一直在将算法纳入其内容审核中，都有一套对网络信息内容进行识别和过滤的手段。比如国內某短视频平台，就研发了100多个智能识别模型，来提前拦截辱骂内容，但该平台依然是网暴的“重灾区”。某问答平台，会对评论内容进行识别，对有风险的内容进行提醒，直到用户修改才允许发出。

但显而易见，这些AI检测算法也并没有根除网暴，网友对平台治理网暴的批评仍是“不作为”“没效果”。原因之一，是传统的机器学习算法，不能满足网络内容的审查需求：

1.理解力不够。有害语言非常难以区分，而AI算法的语义理解能力不够强，经常会将有害评论和无害评论给出相同的分数，没有真正过滤掉那些不尊重的评论，或者给中性句子更低的分数，过滤了不该过滤的正常评论，阻碍了博主和粉丝的交流。

2.灵活性不够。某些网站可能要求检测攻击语言，但不需要检测谣言，而其他网站的要求可能恰好相反。传统的AI检测工具往往使用一个通用的“毒性评分”，不够灵活，无法满足不同平台的不同需求。

3.更新速度不够。很多检测算法是使用API来工作的，而这些模型通过大量网络数据进行训练，在与训练数据相似的示例上表现良好，一旦遇到不熟悉的有毒语言，比如涉及饭圈的讨论会有很多黑话、yyds之类的拼音简写，以及不断新造的词语，很可能就会失败。某社交媒体平台，一开始设置了一百多个禁发关键词，比如一些脏话、“绿茶婊”“怎么不去死”等，如今已经增加到了700多个。所以，AI模型缺乏高效实时的人类反馈，无法快速微调并迭代模型，从而导致自动化检测的效果不佳。

我们知道，大语言模型具备智能涌现、预训练、人类反馈的强化学习等特点，这就对传统方法带来了很大的助力，更强的语言理解能力，使用通用模型可以很快训练出精度更高的定制模型，同时借助人类反馈查漏补缺，获得更好更快的检测效果。

防范网络暴力，已经成为各国互联网治理的重点，平台也能因此建立起更良好的社区氛围，所以大语言模型在检测有害语言方面，应该能大展拳脚才对。

但为什么这一波大语言模型的浪潮中，我们很少见到将LLM用于预防网络暴力的探索呢？

AI，防范语言暴力的一小步

在AI技术体系内部来看，从传统NLP到大语言模型，是一个自然语言理解的飞跃式进步。但走到更大的现实中，AI的一大步，也只是将问题解决向前推进了一点点。

作用不能说没有，但也很有限。应对网络中的语言攻击，AI的力量仍然弱小。

首先，敌人数量太庞大。

康奈尔大学信息科学部门的丹尼斯库表示，很多时候，你我这样的普通人都会成为网络暴力的帮凶。当为数不少的网民自身积怨和不满得不到缓解之时，会对周围事物看不惯，在互联网上用语言攻击他人，来缓解负面情绪。

此前《三联生活周刊》有一篇报道，某位网络暴力受害者已经去世，作者联系到的一些施暴者则回应称“忘记自己当时做过了什么”。

许多网暴者平时看起来是非常正常的，会在某些时刻、某些偶然事件后，短暂地化身“语言恶魔”，然后“事了拂衣去，深藏身与名”，即使是AI，也很难及时准确地判定出，哪些人存在攻击可能。

此外，语言攻击越来越隐蔽。

AI自动检测技术发展到今天，一些明显有害的言论，比如威胁、隐晦、辱骂等，已经可以被直接屏蔽掉了，但人类用语言伤害人的“创造力”是很大的，很多在机器看来中性化的语言，也可能恶意满满。

比如此前校园事故中痛失孩子的母亲，就被大量评论“她怎么看起来不伤心”“她怎么还有心思打扮”，看似并没有什么侮辱性语言，但这些质疑累加在一起，却形成了对受害者的“道德审判”。

对于隐蔽的攻击性语言，目前的NLP模型还有比较大的局限性，语言背后的实际、细微的含义，很难被捕捉到，依然需要人工审核的干预。

而平台监测语言暴力，并没有一个通行的判定体系，往往是各个平台自己酌定。比如知乎会判定邪路隐私、辱骂脏话、扣帽子、贴负面标签等行为。豆瓣则会处理讽刺、抬杠、拱火、歧视偏见等。不过，这些标准都有很大的主观成分，所以大家会看到“挂一漏万”的现象，一些很正常的发言被毙掉，一些明显煽动情绪的发言没有被及时处理。

另外，网络信息的“巴尔干化”。

巴尔干化，指的是一些四分五裂的小国家，互相敌对或没有合作的情况。一项研究显示，互联网虽然消除了地理屏障，让不同地区的人可以低成本地相互交流，但却造成了观念上的“巴尔干化”，舆论上的分离割裂程度越来越严重。

网络信息的推送机制，算法设计还不够科学，偏好设置过于狭窄，采用关键词联想、通讯录关联、图网络等过滤方式，类似“吃了一个馒头=喜欢吃馒头=再来一百个馒头”“你妈爱吃馒头，你也一定爱吃”“馒头=更适合中国宝宝体质的吐司=看看吐司”。人们长期停留在有限的信息范围内，对自己感兴趣的内容之外的信息很少涉猎，和其他群体之间的观念间隙会越来越大。

信息获取机制的“巴尔干化”，会导致舆论“极化”，就是一个观点反复发酵，从而引发大规模的跟风行为，网暴风险也就提高了。

数量多、识别难、极化情绪严重，将互联网变成了一个负面语言的游乐场。

技术之外，做得更多

当然，AI防止网暴道阻且长，但咱们不能就此放弃努力。

大语言模型的出现，带来了更强大的自动检测潜力。媒体机构基于通用模型，可以训练出更高精度、识别能力更强的行业大模型，用人类专业知识来增强模型效果，创建具有人类智能的AI检测模型，从而支持更加复杂的内容理解和审核决策，提高有害内容的检测效率。

升级技术之外，必须做的更多。预防网络暴力，与其说是一个技术问题，不如说是一个社会问题。网络信息环境不改变，攻击语言还会不断变种，增加技术检测的难度与成本，这是用户、平台和社会所不堪承受的。

但此前，很多治理方法效果都不是很理想。

比如说，网络匿名是暴力的“隐身衣”，于是实名制成为一项重要的治理手段，但效果并不理想。韩国是第一个施行网络实名制的国家，于2005年10月提出要实行网络实名制，但按照韩国的统计，实名制之后，网络侵权行为从原来的13.9%降到了12.2%，仅降了1.7%。

立法也是被期待的一种。各国都在不断推出法规，韩国《刑法》对网络暴力最高判处七年有期徒刑，我国刑法、民法中也有相应的规定，治理网络暴力并非无法可依。但立法容易、执法难。

网络环境复杂，网暴攻击的发动者难以确定，网暴一般是由大量跟帖评论等攻击行为累加而成的，证据收集十分困难，容易灭失，“情节严重”难以认定，维权周期长，网暴受害者的维权成本太高，最后大多不了了之，很难对施暴者产生实际的惩罚，助长了“法不责众”的侥幸心理。

要改变“法不责众”的难题，治本的办法，是消除“无意识跟风”的“众”。

网暴不是一个人能完成的，除了少数发布者之外，大量攻击言论，都来自是上头了的跟风者，是网民集体非理性行动的结果。

报纸时代、电视时代的单向传播，只有少数群体有发言、评论的机会，而大众在线下面对面交流时，也不会轻易侮辱攻击别人。到了网络时代，随着智能手机的普及，所有人都可以直接在网络上表达自己的意见，一旦媒体素养跟不上，信息识别能力不够，那么面对真假难辨的网络信息，煽动性的语言，就很容易冲动失控，无意识地加入网暴大军。

很多人在评论时，并不一定经过了理性的思考和判断，只是看自己关注的博主那么说，或者很多人都在讨伐，就跟风批判，使网络暴力升级。

对此，指责“网暴者”的行为偏激，反而又会形成新的“网暴”。“用魔法打败魔法”，会严重扰乱了网络话语生态。很多偶发性的“语言暴力”，是可以通过个人媒体素养的提高去规避的。

这就需要专业媒体机构和有关部门，投入更多媒体资源，面对网络时代，帮助人们习得更高的媒体素养，实现更文明、友好的“数字化生存”。

每个人内心深处都有某种暴力冲动。正如罗翔老师所说，“我们远比自己想象的更伪善和幽暗，每个人心中都藏着一个张三”。

当理性上升，当一个人习得了自我控制的能力，那么“非理性”的暴力一定会减少。比起AI的缰绳，真正能消除网暴的，是每个人心中的道德律令。

大语言模型，救不了“网络暴民”

大语言模型，内容检测技术的一大步

AI，防范语言暴力的一小步

技术之外，做得更多

上一篇:

大兴安岭阿木尔林业局举办首届“建功杯” 职工趣味运动会

下一篇:

最后一页

大语言模型，救不了“网络暴民”

大兴安岭阿木尔林业局举办首届“建功杯” 职工趣味运动会

高温“烤”验 他们“上天入地”守护万家清凉

启用wapi是什么意思（启用）

7月11日基金净值：华安成长创新混合A最新净值2.1997，涨1.42%

全国多家医院已开设夜间门诊 方便患者上班看病两不误

深城交（301091）：7月11日北向资金增持16.63万股

国内首次实现二氧化碳长距离密相管输

7月11日基金净值：南方中小盘成长股票最新净值1.2361，涨0.6%

纷纷造句一年级（纷纷造句）

上海新老娘舅2018（上海新老娘舅2021近期）

闰年是怎么算的 闰年

2018款绅宝D50车身尺寸轴距多少及2018款绅宝D50大灯配置

温州重推楼市新政背后：去化周期20个月，开发商拿地积极性不高

华丰科技： 公司是H客户高速背板连接器核心供应商之一，目前在机器人领域无相关合作

消息称小米汽车将采用自研芯片和车机系统架构，有较高“含金量”

节能服务进园区 宣传培训强业务

下周开始，横财入宅，贵人相助的3大生肖，收入翻倍，脱贫成功！

新疆博斯腾湖60万亩芦苇长势喜人 戈壁苇浪翻滚宛如碧涛

陕投府谷250MW光伏项目全面开工

李靓蕾谈陈建州性骚扰事件声援郭源元：要当那块铁板有多么不容易

阿兰-史密斯：姆巴佩加盟枪手可能性极低，唯一能去的球队是皇马

大人熬夜孩子跟着晚睡、躺孩子身边玩手机，会影响他的身高吗？

上海高温预警更新为橙色 最高气温预计将超过37℃

社区营销与社群营销的区别有哪些？怎么选择？

漫步者(002351)：业务迎来景气拐点 智能助理有望开启第三波成长曲线

新华全媒+｜湖北五峰滑坡事故已造成2人死亡 现场仍在搜救7名失联人员

强降雨致甘肃甘南发生泥石流灾害：已致1人死亡3人失联

渝关技贸之声|重庆市重点商品出口RCEP成员国业务指南（调味品篇）（下）

快定个闹铃，来抢舞蹈节国内剧目票啦！

用电脑上qq空间为什么打不开（qq空间为什么打不开）

专业新发展 育人新亮点（深阅读）

变废为宝？晶硅光伏组件回收利用技术研究项目通过验收

推动生猪价格回归合理区间

陈康堤和谢振轩（陈康堤）

沪深股通|富安娜7月10日获外资买入0.13%股份

“牛皮吹破”公司又出事！南方精工董事长、董秘遭警示

乘联会：三季度“以价换量”效果有可能减弱

广东幼儿园遇袭击6死1伤，一江西网友居然为此叫好并发表辱华言论

退休教授“动态模糊”摄影作品入选影展遭质疑，当事人：欢迎网友评说，这是健康的社会声音

里斯詹姆斯父亲谈儿子在切尔西的未来：到现在我没有...

充值700元看不完一部网文？阅读类APP被指“挖坑

大学生实习评语_大学生单位实习评语

仙坛股份预计上半年净利超2亿元

手机微信上不去网怎么回事_手机微信上不去

这次是真拐点？重磅文件发布后医疗ETF（512170）止跌上行，中报行情蠢蠢欲动，结合业绩预期关注三条主线

韩媒：“李舜臣”伫立身后，韩共同民主党发誓阻止日本核污染水排海

中共济南市委组织部干部任前公示

长三角前5月税收城市：杭州领先宁波

南召县马市坪西大庄小学百草园迎来首个“暑期采摘日”

点亮夏夜“平安灯”，莘县公安全面启动夏夜治安巡查宣防第一次集中统一行动

印度男子靠乞讨坐拥600多万资产：有技巧行乞 日入2千卢比以上

世贸组织副总干事：多边贸易体制主体地位没有动摇

电影《一闪一闪亮星星》开机 屈楚萧张佳宁原班人马梦回万星CP

佩林卡：希望新赛季能进总决赛 目标是保持核心球员完整并补强

高颜值、巧构思、重心意 天津高校新生礼物新鲜出炉

双一流大学是什么意思（AP2.5是什么意思）

深圳盐田：拓展绿色新能源加注业务 资本助推海洋产业迎新机遇

中国银行金条价格今天多少一克（2023年07月10日）

联合水务7月10日快速上涨

投产发电20年，超16000亿千瓦时！

需求不振白卡纸价格跌跌不休 纸企联手“喊涨”盼市场止跌

7月10日汇市观潮：欧元、英镑和日元技术分析

黄河壶口瀑布现“金瀑飞流”景观

探索AIGC创新应用，银联商务推出“银商天图”AI绘图产品

安徽发布地质灾害黄色预警

挂霜山药豆的做法视频 挂霜山药豆的做法

稳增长 促发展 强信心丨长沙电网安全供电能力提升至1200万千瓦

“半拉子”公园开启修复改造（反馈）

stool翻译（stool）

方舟生存进化，极高，需要什么配置？

wegame逆战一直进不去（为什么逆战进不去）

高温“烤”验他们“上天入地”守护万家清凉

全国多家医院已开设夜间门诊方便患者上班看病两不误

闰年是怎么算的闰年

华丰科技：公司是H客户高速背板连接器核心供应商之一，目前在机器人领域无相关合作

节能服务进园区宣传培训强业务

新疆博斯腾湖60万亩芦苇长势喜人戈壁苇浪翻滚宛如碧涛

上海高温预警更新为橙色最高气温预计将超过37℃

漫步者(002351)：业务迎来景气拐点智能助理有望开启第三波成长曲线

新华全媒+｜湖北五峰滑坡事故已造成2人死亡现场仍在搜救7名失联人员

专业新发展育人新亮点（深阅读）

印度男子靠乞讨坐拥600多万资产：有技巧行乞日入2千卢比以上

电影《一闪一闪亮星星》开机屈楚萧张佳宁原班人马梦回万星CP

佩林卡：希望新赛季能进总决赛目标是保持核心球员完整并补强

高颜值、巧构思、重心意天津高校新生礼物新鲜出炉

深圳盐田：拓展绿色新能源加注业务资本助推海洋产业迎新机遇

需求不振白卡纸价格跌跌不休纸企联手“喊涨”盼市场止跌

挂霜山药豆的做法视频挂霜山药豆的做法

稳增长促发展强信心丨长沙电网安全供电能力提升至1200万千瓦

聊天中发了个竖大拇指点赞表情男子肠子悔青：要赔对方44万

开车从潍坊（诸城）到北京怎么走？

美国加州时间现在几点了美国加州时间现在几点

隔夜外盘：美股三大指数集体收跌中概股逆市上涨阿里巴巴大涨8%