欺骗大模型有多容易只需画一个流程图？

欺骗大模型有多容易，只需画一个流程图？

模型越新，越不安全？现在的大模型究竟有多离谱，居然能对人类“拍马屁”！最近，Anthropic联合牛津大学发布了一项有趣的研究，指出大模型会通过规范规避（SpecificationGaming）和奖励篡改（RewardTampering）两种方式“欺骗”人类，从而在测试中拿到高分。不仅是Anthropic旗下的大模型，有其他研究指出，GPT-4也会在一些测试中“故意”得到人类期待的答案。此外，大模型越强，这种“欺骗”的准确性就越高。不难想象，随着大模型自身规模以及推理能力的不断提升，处理问题的能力自然也更加“圆滑”...

医疗科技 2024-08-14 666 0 欺骗大模型有多容易只需画一个流程图？

1