• 全国 [切换]
  • 二维码
    微商筹货

    手机WAP版

    手机也能找商机,信息同步6大终端平台!

    微信小程序

    微信公众号

    当前位置: 首页 » 行业新闻 » 热点新闻 » 正文

    为啥AI配音的情感总觉得怪怪的?

    放大字体  缩小字体 发布日期:2025-07-07 14:30:56   浏览次数:1  发布人:2f79****  IP:124.223.189***  评论:0
    导读

    有没有注意到——现在AI语音配音的视频越来越多了:短视频里的语音讲解,播客、广告、小说朗读,新闻解说,都开始采用AI配音。除了最基础的TTS(Text-to-Speech)语音合成技术,现在的AI语音已经进入了拟真阶段。比如VALL-E、ChatTTS、OpenVoice等技术,能自动根据语义生成AI语音,甚至可以做声音风格迁移。只要你上传原声,AI就能克隆声音,复刻你的音色、语速、语调、情绪特征

    有没有注意到——
    现在AI语音配音的视频越来越多了:短视频里的语音讲解,播客、广告、小说朗读,新闻解说,都开始采用AI配音。

    除了最基础的TTS(Text-to-Speech)语音合成技术,现在的AI语音已经进入了拟真阶段。比如VALL-E、ChatTTS、OpenVoice等技术,能自动根据语义生成AI语音,甚至可以做声音风格迁移。只要你上传原声,AI就能克隆声音,复刻你的音色、语速、语调、情绪特征,甚至模仿地方口音,让马斯克也能说上一口东北话。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    技术确实进步得令人惊艳。声音清晰标准、节奏平稳、语调自然。挑不出毛病但就是感觉怪怪的,带着一种不自然的违和感。仿佛在听一个没有灵魂的演员在念台词。

    为什么会这样?

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    人类的情感雷达有多灵

    你听不出问题,但你就是知道“它不是人”。

    这其实是人类大脑的奇妙能力。我们对人声的识别感知是超强的,尤其对于语气、情绪、真假感这些层面的感知,很多时候听到的话还没过脑子,潜意识就已经都识别好了。

    人类听声音并不是听字面,而是在听情绪底色:

    女友打电话说:“你开心就好”
    你一听就知道自己能不能好得了。

    上司说:“这个项目你来负责吧。”
    你能瞬间感受到这是一句信任还是推锅试探。

    心理学家 Klaus Scherer 早在1994年就提出:人类对语音中的情绪真实性具有极高敏感性 ,能从中分辨真假情绪、心理状态和意图。

    演化心理学认为,人类对语音中的细微情绪差异有极强的识别力,是因为在远古社会有语言之前,我们通过声音判断敌意、愉快、求助。人类社会极度依赖协作与信任,判断「对方在想什么」至关重要;而声音是最即时的线索,它包含了说话者的肌肉张力、呼吸频率、情绪流动等无法隐藏的信号。

    AI声音为什么总差点意思?

    所以,AI配音的问题出在哪?我们先从底层机制开始聊起。

    一、模型结构决定了它只能“模仿”

    尽管AI语音合成技术(TTS, Text-to-Speech)已经非常成熟,甚至能模仿特定人的音色、语调和语速,但它的生成逻辑本质上是一套“拼装合成”流程,而不是一种带有动机的表达行为。

    TTS 的常规工作流包括这几个步骤:

    • 文本分析:把输入文字转成音素(比如汉语拼音)和语法标签。

    • 韵律预测:模型尝试预测每个音节的音高、时长、停顿、重音。

    • 声学建模:用深度神经网络生成声谱图(频率-时间图)。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    • 波形合成:最后通过Vocoder(如WaveNet、HiFi-GAN)还原成音频。


    听起来复杂,核心就是两件事:模式识别 + 生成拼接。这种机制像是在完成一次高质量朗读,但缺少人类语言中最本质的东西:临场的情绪驱动和表达动因。像 FastSpeech2、VITS这类模型,引入emotion embedding 和 style control,确实可以让AI声音在快乐、悲伤、愤怒间切换。但这种控制都是外部标签驱动,不基于上下文,更不是基于理解人类说话时的微妙心理博弈。

    人类复杂的情感决定了天生是潜台词高手,说话的含义高度依赖于当时的文化、关系、语境:

    “你开心就好” 其实不太好,AI以为是欣慰;

    “你行你上” 其实破防了,AI以为是鼓励;

    “你可真棒啊” 有嘲讽的可能,但AI用了赞叹语气;

    AI在理解人类文字游戏(比如暗示、高级黑、反讽、含蓄委婉)的能力还不够,情绪和真实语义一旦分离,表达就会失真。


    另外,TTS模型的“中庸主义”也导致了情感的扁平。

    当前主流的TTS模型大多是通过学习海量语音样本的平均说法来合成声音,最终生成一个最“合理”的声音版本。这种方式虽然听起来自然通顺,但也导致每一句话的情绪都被磨平了,失去了人类语言中的个性、突发性和情绪张力,就像套了个情绪模版。所以说,韵律模型学的是“常态”而不是“状态”,少了临场变化。比如人生气时,说话会变得高频 + 不规则,但AI仍然在平稳地表达愤怒,所以听起来就少了点活人感。

    即便是当前最先进的生成式语音模型,如微软的 VALL-E,也并未跳出这一结构。它采用类似语言模型(可以理解为GPT for Speech)的机制,将3秒音频样本压缩成离散Token,然后根据文本预测下一个声音片段,从而实现音色+语气+风格的保留与复现。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    ▲ 图 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

    在音色和语速上无限接近真人,但本质上仍是TTS框架上的优化 —— 用数据拼出一个最可能的音轨,并不是理解你在说什么,也不是在用你的动机说话。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    ▲ 图 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

    VALL-E原始论文也明确表示,虽然咱训练了 60000 小时的数据,但训练语料偏向朗读风格,没法很好地处理日常社交语境下的临场语言变调。简单说就是:它很会“读”,但不会“聊”。

    本质上,人说话是流露情绪,AI是表演情绪,是依靠风格迁移或标签控制。就比如你告诉AI这句话是悲伤的,AI 就像演员照着“哭戏模板”演一场戏,缺少根本上的情绪动因。


    二、AI声音太干净,因为它没有“身体”

    我们常说一个人“听起来像刚哭过”、“说话带着笑意”,就是因为人类的声音从来不是一个孤立的音频,而是整个身体与情绪系统协同工作的结果。而AI配音只是一段合成音轨,声波的真实感都被压平了。虽然在音色上可以拟真,但缺少身体的痕迹:没有微喘气声、喉咙的不稳定震动,肌肉张力变化、吞咽、停顿、情绪导致的呼吸节奏改变,就像水煮声音,干净到不真实。

    AI语音合成的技术美,恰恰成了它最大的“不自然”之源 —— 它太规则、太理性,而人声是情绪、混乱、张力与身体的共鸣。

    但这一切并不是AI的问题,是人类的说话方式太高级。人说话时,说的不只是内容,也在表达“我是谁”、“我对你的态度”、“我现在的心情”。

    它本质上包含了:多模态信号(语音+表情+姿势+节奏)、动态反馈机制(根据对方反应调整语气)、高度文化依赖(不同场合、不同关系说话完全不同)。 这三者之间要高度一致,才会让人觉得自然。

    AI语音会变得更好吗?

    会。

    现在很多研究正在努力让AI的声音更像人, “Speaking Style Modeling” 是近年来TTS研究的新方向,尝试加入更多变异性与即兴性。 比如 EmotionFlow 试图模拟情绪随语义流动的自然曲线 (semantic-aware prosody modeling) ,替代以往贴情绪标签的方式;Context-Aware TTS 加入上下文建模来预测说话语境与角色身份、StyleSpeech、GST-Tacotron等模型聚焦于模仿人类说话风格,比如开玩笑、叹气、嘲讽的语调。但这一切离“有灵魂的表达”还有段距离,因为对情绪动因和表达意图的理解, 还需要人类的社会化经验。

    核心问题在于:AI没有“心”。


    它没有动机,没有关系感,也没有“对谁说”的意识。只要它不能理解自己说这句话的目的和状态,它的语音就永远是模拟,而不是表达。

    人类交流的本质,其实是在感知一个灵魂在用身体表达自己,而AI说话,是一个程序在模仿这个过程,这之间的差距是生命。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    但话又说回来,当未来某一天,AI声音真实到你无法分辨“是谁在说话”时,你还在乎那是不是“人”吗?

    AI可以代替人说话了,那么谁来对这些话负责?我们是否愿意相信一个没有动机、没有关系、没有情感内驱力的说话者?

    说话的本质,是表达、是共情、是人际的回应。如果这也被彻底外包给算法,我们与AI的界限又还剩多少?

    end

    [1] Shen, J. et al. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884. https://arxiv.org/abs/1712.05884

    [2] Ren, Y. et al. (2020). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv preprint arXiv:2006.04558. https://arxiv.org/abs/2006.04558

    [3] Kim, J. et al. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Emotional Speech Synthesis. arXiv preprint arXiv:2106.06103. https://arxiv.org/abs/2106.06103

    [4] Wang, C. et al. (2023). VALL-E: Zero-Shot Text-to-Speech with Audio Codec Models. arXiv preprint arXiv:2301.02111. https://arxiv.org/abs/2301.02111

    [5] Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press. https://yalebooks.yale.edu/book/9780300209570/atlas-of-ai/

    [6] Resemble.ai. (n.d.). Resemble.ai – Voice Cloning & AI Speech Generation. https://www.resemble.ai/

    [7] EmotionFlow Team. (n.d.). EmotionFlow: Let AI Speak with Emotions. https://emotionflow-demo.github.io/

    [8] The Verge. (2023). AI voice is getting eerily good. Are we ready? https://www.theverge.com/2023/7/12/ai-voice-deepfake-elevenlabs-ethics

    来源:DataCafe

    编辑:月

    转载内容仅代表作者观点

    不代表中科院物理所立场

    如需转载请联系原公众号


     
    (文/匿名(若涉版权问题请联系我们核实发布者) / 非法信息举报 / 删稿)
    打赏
    免责声明
    • 
    本文为昵称为 2f79**** 发布的作品,本文仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,发布者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们154208694@qq.com删除,我们积极做(权利人与发布者之间的调停者)中立处理。郑重说明:不 违规举报 视为放弃权利,本站不承担任何责任!
    有个别老鼠屎以营利为目的遇到侵权情况但不联系本站或自己发布违规信息然后直接向本站索取高额赔偿等情况,本站一概以诈骗报警处理,曾经有1例诈骗分子已经绳之以法,本站本着公平公正的原则,若遇 违规举报 我们100%在3个工作日内处理!
    0相关评论
     

    (c)2008-现在 chouhuo.com All Rights Reserved.