通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
成色18k.8.35mb菠萝陶哲轩: 嗯,问题在于我使用了概率论中的论证,而且总存在这种异常事件。所以在概率论中,我们有大数定律,它会告诉你,如果你在赌场玩一个预期会输的游戏,随着时间的推移,你几乎可以肯定,或者说,以你希望的接近百分之百的概率,你肯定会输钱。但总有这种异常的离群值,比如,即使当游戏胜算不利于你时,在数学上仍然可能你只是赢的次数略多于输的次数。除此之外,这台车还可以选装23扬声器的音响系统、第二排座椅加热通风按摩功能、二排座椅前后和靠背调节,配置上其实是不虚比亚迪汉的。成色18k.8.35mb菠萝www.51cao.gov.cn拉菲尼亚表示:“拜仁这是给我出难题呢(笑)?这是一场梦幻对决,我其实并不希望它这么早到来。对于这两支球队我都满怀感情,也很幸运能为它们效力,对它们非常了解。最终受益的是球迷,他们将看到一场精彩绝伦的比赛,但我确实不希望八分之一决赛就上演这样的对决。现在这场比赛就是硬仗,想成为冠军就得直面最强对手。这会是一场巅峰对决,两队都已做好准备。”毕竟,新能源汽车已经是一片红海,车企之间已经到了“短兵相接”的地步,竞争空前激烈,如果想要进一步扩展规模增收,除了借助现有技术跳入新的圈子,已经很难有更好的选择。
20251207 ✅ 成色18k.8.35mb菠萝开幕式上举行了农业人工智能研究所揭牌仪式。该研究所组建了跨农业、计算机、机械等领域的科研团队,将致力于打造集人才培养、科技攻关、成果转化于一体的创新平台。zjzjzjzjzjy.gov.cn当你刷到“‘钢铁保姆’机器人引发市民抢购”的消息时,需警惕这不过是条假资讯;看到“霸总创业三年成功买下8000平办公楼”这类内容,也别急着羡慕,所谓的“霸总”只是用来吸引流量的“假人设”;而当知名艺人在视频中推荐“三无”化妆品,同样不必惊讶,这很可能是AIGC(人工智能生成内容)造假的产物。
📸 崔正光记者 王爱军 摄
20251207 ❤️ 成色18k.8.35mb菠萝西班牙人官方宣布,俱乐部与葡萄牙布拉加俱乐部就前锋罗伯托-费尔南德斯的转会达成协议。西班牙人已购买该球员50%的所有权,并与他签约六个赛季。根据协议,西班牙人未来有权购买剩余50%的所有权。www.xjxjxj55.gov.cn就在坠机发生第二天,印度航空又出“险情”。13日,一架从泰国普吉岛飞往印度新德里的客机在飞行途中收到疑似炸弹威胁,被迫紧急返航并安全降落普吉国际机场。
📸 金卫邦记者 范吉发 摄
🍒 目前担任国际足联全球足球发展总监的温格从奥兰多南部ESPN体育综合中心的看台上观看了拜仁慕尼黑的训练,他认为拜仁慕尼黑在即将到来的对阵巴西传统豪门弗拉门戈的八分之一决赛中占据优势。香蕉.com






