欺骗大模型有多容易只需画一个流程图?
-
欺骗大模型有多容易,只需画一个流程图?
模型越新,越不安全?现在的大模型究竟有多离谱,居然能对人类“拍马屁”!最近,Anthropic联合牛津大学发布了一项有趣的研究,指出大模型会通过规范规避(SpecificationGaming)和奖励篡改(RewardTampering)两种方式“欺骗”人类,从而在测试中拿到高分。不仅是Anthropic旗下的大模型,有其他研究指出,GPT-4也会在一些测试中“故意”得到人类期待的答案。此外,大模型越强,这种“欺骗”的准确性就越高。不难想象,随着大模型自身规模以及推理能力的不断提升,处理问题的能力自然也更加“圆滑”...