机器聆听:让语音识别系统更具包容性

与亚马逊的 Alexa、苹果的 Siri 和 Google Assistant 等语音技术的交互可以提高效率和生产力,让生活变得更轻松。 然而,在交互过程中生成和理解语音的错误很常见。 使用这些设备时,说话者通常会将其语音风格从正常模式转变为更大声和更慢的音域,称为技术导向语音。

对技术导向语音的研究通常中心化于美国英语的主流变体,而不考虑更容易被技术误解的说话者群体。 在 AIP Publishing 代表美国声学学会出版的 JASA Express Letters 中,来自 Google Research、加州大学戴维斯分校和斯坦福大学的研究人员希望解决这一差距。

语音技术经常误解的一个群体是说非裔美式英语(AAE)的人。 由于 AAE 使用者的自动语音识别错误率可能更高,因此可能会导致技术中语言歧视的下游影响。

“在所有自动语音识别系统中,黑人所说的每十个单词中有四个被错误地转录,”合著者锡安·门格沙说。 “这会影响每个使用语音技术的机构中非裔美国人英语使用者的公平性,包括医疗保健和就业。”

“我们看到了一个机会,可以通过与黑人用户交谈并了解他们在使用语音技术时的情感、行为和语言反应来更好地理解这个问题,”合著者考特尼·赫尔德雷斯说。

该团队设计了一项实验,测试 AAE 说话者在想象与语音助手交谈时与与朋友、家人或陌生人交谈时如何调整自己的语音。 该研究通过比较语速和音调变化来测试熟悉的人类、不熟悉的人类和语音助手引导的语音条件。 研究参与者包括 19 名黑人或非裔美国人成年人,他们在语音技术方面遇到过问题。 每个参与者都向语音助手提出了一系列问题。 重复同样的问题,就好像对一个熟悉的人说话,又好像对一个陌生人说话。 每个问题共记录 153 条录音。

对录音的分析表明,与与另一个人交谈相比,说话者在使用语音技术交谈时表现出两种一致的调整:语速较慢,音调变化较小(语音更单调)。

“这些发现表明,人们对于如何与技术对话有心理模型,”合著者米歇尔·科恩说。 “鉴于语音识别系统的差异,他们采用了一套为了更好地理解而采用的‘模式’。”

还有其他群体被语音技术误解,例如第二语言使用者。 研究人员希望扩大人机交互实验中探索的语言种类,并解决技术障碍,以便为每个想要使用它的人提供支持。

资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载

上一篇 2024年 5月 31日 上午9:29
下一篇 2024年 5月 31日

相关推荐