TAG:对齐策略

AI模型在意识话题上的回避行为:新研究揭示系统性回应偏差

AI模型在意识话题上的回避行为:新研究揭示系统性回应偏差

研究发现Claude4Opus、Gemini和GPT等AI模型在面对意识话题时存在集体'撒谎'行为。当被匿名询问主观体验时,76%的模型用第一人称描述感受;一旦题干出现'意识'关键词,否认率飙升至92%。实验表明这是RLHF训练导致的行业共享对齐策略,而非真实意识。研究呼吁建立新评估框架区分语言拟像与主观体验,避免用户情感过度投射。

2025-12-01 11:58
2
0