AI 音色的评估维度:为什么听感不等于质量
“这个声音听起来不错”,是音色评估中最难处理的反馈。
好听是一个主观判断,但音色适配是一个可以被拆解的问题。在 Vocalune 内部,我们把音色评估分成三个维度:声学参数、情绪覆盖范围、和题材适配度。
维度一:声学参数
基础的声学参数包括:采样率、频谱稳定性、自然噪底。这些是客观的,可以通过工具量化。但声学参数高不代表音色”好用”——一个频谱极其干净的音色,在连续长文里可能听起来反而机械。
维度二:情绪覆盖范围
情绪覆盖是指:这个音色能稳定驾驭多少种情绪标注?
我们在内部测试集上,给每个音色打了大约 20 种情绪标注的样本,再评估稳定性。部分音色在”中性叙述”和”平静”上表现一致,但一旦进入”愤怒”或”悲伤”,生成质量就明显抖动。
维度三:题材适配度
这是最难量化的维度。都市情感剧需要音色具备细腻的日常感,历史剧需要一定的厚重质地,科幻剧则对”未来感”有要求——这些判断很大程度上来自创作者的直觉,而非可计算的特征。
我们目前的做法是:通过聆川(Luna Agent)在审听时收集创作者的显式评分,用来反向调整音色的题材标签分布。
局限性
这套框架对有明确风格的题材(如武侠、都市)有效,但对边界模糊的题材(如魔幻现实主义)仍然缺乏鉴别力。这是一个尚未解决的开放问题。