您是否曾希望自己能理解狗想对您说什么?密歇根大学的研究人员正在探索人工智能的可能性,开发可以识别狗叫声是表达嬉戏还是攻击性的工具。
同样的模型还可以从动物的叫声中收集其他信息,例如动物的年龄、品种和性别。这项研究与墨西哥普埃布拉国家天体物理、光学和电子研究所(INAOE)合作,发现最初以人类语言训练的人工智能模型可以作为训练针对动物交流的新系统的起点。
研究结果在计算语言学、语言资源与评估联合国际会议上发表。该研究发表在arXiv预印本服务器上。
“通过使用最初针对人类语音进行训练的语音处理模型,我们的研究为如何利用迄今为止在语音处理方面建立的基础来理解狗叫声的细微差别打开了一扇新的窗口,”JaniceM.Jenkins计算机科学与工程学院教授、密歇根大学人工智能实验室主任RadaMihalcea说道。
“我们对与我们共享这个世界的动物还有太多不了解的地方。人工智能的进步可以彻底改变我们对动物交流的理解,我们的研究结果表明,我们可能不必从头开始。”
开发能够分析动物发声的人工智能模型的主要障碍之一是缺乏公开可用的数据。虽然有大量的资源和机会可以记录人类的语音,但从动物身上收集这些数据却更加困难。
“从逻辑上讲,动物的叫声很难采集和记录,”论文第一作者、密歇根大学计算机科学与工程博士生ArtemAbzaliev说道。“它们必须在野外被动记录,或者,对于家养宠物,则需要主人的许可。”
由于可用数据匮乏,用于分析狗叫声的技术很难开发,现有的技术也因缺乏训练材料而受到限制。研究人员通过重新利用最初设计用于分析人类语音的现有模型克服了这些挑战。
这种方法使研究人员能够利用强大的模型,这些模型构成了我们今天使用的各种语音技术的基础,包括语音转文本和语言翻译。这些模型经过训练可以区分人类语音中的细微差别,例如声调、音调和口音,并将这些信息转换为计算机可以用来识别所说单词、识别说话人等的格式。
“这些模型能够学习和编码人类语言和语音的极其复杂的模式,”阿布扎利夫说。“我们想看看我们是否可以利用这种能力来辨别和解释狗叫声。”
研究人员使用了一组狗叫声数据集,这些狗叫声记录了74只不同品种、年龄和性别的狗在不同环境下发出的声音。INAOE的合作者HumbertoPérez-Espinosa领导了收集数据集的团队。Abzaliev随后利用这些录音修改了一个机器学习模型——一种识别大型数据集中模式的计算机算法。该团队选择了一个名为Wav2Vec2的语音表示模型,该模型最初是在人类语音数据上进行训练的。