AI如何“读懂”你的喜悲
01张克俊团队开发的“悟韵”AI模型在4月8日浙大活动中,通过舞蹈视频生成配乐,展现情感识别能力。
02AI通过三层控制逻辑解析《牡丹亭·游园》舞剧,生成与画面情绪高度契合的音乐,体现多模态数据处理能力。
03“悟韵”模型由浙江大学与阿里联合研发,相比2021年“余音”在速度和自由度上实现显著提升。
04AI可依据提示词快速生成30秒纯音乐,8秒内完成创作,获现场舞者高度评价,展示应用潜力。
05张克俊指出AI尚无法完全理解复杂情绪,未来需收集更多多模态数据以提升情感模拟精度。
以上内容由传播大模型和DeepSeek生成,仅供参考

张克俊(右二)在演示AI生成的配乐片段。受访者供图
眼眶含泪、喜上眉梢、含羞带怯……AI,能读懂这些人类情感吗?4月8日,记者在浙江大学举办的一场AI与舞蹈的对谈中,找到了这种可能性。
屏幕上播放着舞剧片段《牡丹亭·游园》——衣袂翻飞、墨色流转,与之相随的配乐气势磅礴、层次分明。令人惊叹的是,这段音乐并非出自作曲家之手,而是由AI模型在“观看”舞蹈视频几分钟后自动生成的。

舞者现场跟随AI生成的音乐片段即兴起舞。受访者供图
这短短几分钟内,AI的“大脑”里发生了什么?
“为了精准契合《游园》的情绪,我们采用了三层递进的控制逻辑。”模型开发团队负责人、浙江大学计算机科学与技术学院教授张克俊解释。
首先,在语义层锚定风格,识别出古典舞“诗性留白”的整体特征。接着,在氛围层提取画面色彩质感,“比如刀枪冷色,模型就会生成更尖锐的音色,而《游园》的高饱和暖色调则对应更柔和的节奏。”最后一步,是由静到动,在动态层“把静态定格帧连成电影”,通过捕捉舞蹈动作的整体趋势,在和声等层面赋予音乐动态呼吸感。
“读懂”画面之外,AI也能“命题作乐”。现场,张克俊在电脑输入提示词:“生成一段安静、治愈、细腻、有呼吸感、适用于现代舞表演的纯音乐。”仅用时8秒,这个“悟韵”模型便生成了一段30秒的旋律,赢得现场舞者连声称赞。
模型的前身,是2021年由浙江大学人工智能省部共建协同创新中心、阿里巴巴-浙江大学前沿技术联合研究中心联合研发的“余音”。相较“余音”,“悟韵”在算法逻辑、生成速度、创作自由度上都有较大提升。

对谈现场。受访者供图
“目前,AI已经能通过多模态数据的对齐、映射与概率生成,在毫秒间捕捉瞳孔扩张或面部微表情等情绪信息。”张克俊说,但对于复杂情绪,AI尚不能完全理解。收集这些复杂情绪的深度数据,以及视听嗅触等多模态数据,是模型未来发展的方向。
“与其说是‘读懂’,不如说是在统计意义上,通过物理信号模拟拟合了情绪的样本数据。”张克俊说,AI对情感的认知,是在语义与数据间构建关联,而非人类的“共情”。
