近期OpenAI的转录工具Whisper被曝出存在严重的问题,即所谓的“幻觉”现象。就是该工具在转录过程中会凭空生成大段甚至整句的虚假内容。这些所谓的“幻觉”中可能包含种族歧视言论、错误措辞,乃至编造的医疗建议。
据相关的工程师和研究人员的分析,通过Whisper进行的100多小时的转录样本中,约有一半内容存在这种幻觉现象。一些开发者在使用Whisper创建的26000份转录样本中发现,几乎每一份都出现了幻觉。
OpenAI已经警告不要在高风险领域使用Whisper,例如医疗决策情境,并且公司表示将持续研究减少幻觉现象,并在模型更新中加入相应的反馈机制。因此,OpenAI的转录工具确实存在产生幻觉的风险,特别是在未经严格验证和在高风险应用场景中使用时。
OpenAI工具Whisper出现幻觉的原因主要存在以下几点!
数据存在偏差。Whisper模型的训练过程中使用的数据集存在偏差,这样模型学习到错误的模式和关联,导致在转录过程中产生了和实际不符的虚假内容。
模型架构存在不足。Whisper的,模型架构有一些缺陷,导致在处理这类型的音频信息,如停顿、背景噪音或者音乐时,更容易出现幻觉。
缺乏常识推理能力。Whisper模型不具备人类一样的常识推理能力,不能直接根据上下文来判断信息真伪,所以在遇到模糊信息时更容易生成出虚拟内容填补空白。
对特定群体的影响。研究显示,Whisper在分析那些说话时间停顿长的语音时更容易出现错误,这些因素共同影响Whisper模型的转录过程。导致最终的转录结果不准确,也存在安全和道德相关风险。
避免这样幻觉现象,可以通过一些技术手段。如Mind’s Mirror。这是一种通过大型语言模型的自我评估能力融入小型语音模型中,以全面知识转移来解决幻觉问题。
DRESS是通过条件强化学习,让模型可根据自然语言反馈生成响应,提高人类偏好和交互能力的对齐。MixAlign是利用语言模型自动对齐,通过对用户澄清增强对齐,在不确定或证据不清时生产问题寻求用户的澄清。利用知识图谱(KG),知识图谱可以提供实体、特诊及链接的详细信息,可以用于复杂推理、数据分析和信息检索也可以缓解幻觉的情况出现。