AI如何“读懂”你的喜悲

发布日期：2026-04-28 06:49 点击次数：198

01张克俊团队开发的“悟韵”AI模型在4月8日浙大活动中，通过舞蹈视频生成配乐，展现情感识别能力。
02AI通过三层控制逻辑解析《牡丹亭·游园》舞剧，生成与画面情绪高度契合的音乐，体现多模态数据处理能力。
03“悟韵”模型由浙江大学与阿里联合研发，相比2021年“余音”在速度和自由度上实现显著提升。
04AI可依据提示词快速生成30秒纯音乐，8秒内完成创作，获现场舞者高度评价，展示应用潜力。
05张克俊指出AI尚无法完全理解复杂情绪，未来需收集更多多模态数据以提升情感模拟精度。
以上内容由传播大模型和DeepSeek生成，仅供参考
张克俊（右二）在演示AI生成的配乐片段。受访者供图
眼眶含泪、喜上眉梢、含羞带怯……AI，能读懂这些人类情感吗？4月8日，记者在浙江大学举办的一场AI与舞蹈的对谈中，找到了这种可能性。
屏幕上播放着舞剧片段《牡丹亭·游园》——衣袂翻飞、墨色流转，与之相随的配乐气势磅礴、层次分明。令人惊叹的是，这段音乐并非出自作曲家之手，而是由AI模型在“观看”舞蹈视频几分钟后自动生成的。
舞者现场跟随AI生成的音乐片段即兴起舞。受访者供图
这短短几分钟内，AI的“大脑”里发生了什么？
“为了精准契合《游园》的情绪，我们采用了三层递进的控制逻辑。”模型开发团队负责人、浙江大学计算机科学与技术学院教授张克俊解释。
首先，在语义层锚定风格，识别出古典舞“诗性留白”的整体特征。接着，在氛围层提取画面色彩质感，“比如刀枪冷色，模型就会生成更尖锐的音色，而《游园》的高饱和暖色调则对应更柔和的节奏。”最后一步，是由静到动，在动态层“把静态定格帧连成电影”，通过捕捉舞蹈动作的整体趋势，在和声等层面赋予音乐动态呼吸感。
“读懂”画面之外，AI也能“命题作乐”。现场，张克俊在电脑输入提示词：“生成一段安静、治愈、细腻、有呼吸感、适用于现代舞表演的纯音乐。”仅用时8秒，这个“悟韵”模型便生成了一段30秒的旋律，赢得现场舞者连声称赞。
模型的前身，是2021年由浙江大学人工智能省部共建协同创新中心、阿里巴巴-浙江大学前沿技术联合研究中心联合研发的“余音”。相较“余音”，“悟韵”在算法逻辑、生成速度、创作自由度上都有较大提升。
对谈现场。受访者供图
“目前，AI已经能通过多模态数据的对齐、映射与概率生成，在毫秒间捕捉瞳孔扩张或面部微表情等情绪信息。”张克俊说，但对于复杂情绪，AI尚不能完全理解。收集这些复杂情绪的深度数据，以及视听嗅触等多模态数据，是模型未来发展的方向。
“与其说是‘读懂’，不如说是在统计意义上，通过物理信号模拟拟合了情绪的样本数据。”张克俊说，AI对情感的认知，是在语义与数据间构建关联，而非人类的“共情”。

AI如何“读懂”你的喜悲

热点资讯

相关资讯