ChatGPT在说广东话方面表现得并不完美,有时会出现奇怪的口音,使用普通话的发音而不是粤语发音。语音对话方面有一定的能力,但仍然存在表述死板和发音错误的问题。不同的国语语音软件进行了对比测试,Siri和百度文心在发音正确性方面表现较好,而ChatGPT在广东话方面存在口音浓重的问题。在发音和语法方面,ChatGPT在使用广东话时的性能相对较差。这种表现不佳可能与技术处理低资源语言的能力有关,需要进一步改进与完善。
你听过 ChatGPT 说广东话吗?
如果你是普通话母语者,恭喜你瞬间收获“精通国语”成就。 反而是会说广东话的人,这时可能要一头雾水了,ChatGPT 自带奇特口音,像外地人在努力说广东话。
2023 年 9 月的一次更新中,ChatGPT 第一次拥有了「说」的能力;2024 年 5 月 13 日,最新模型 GPT-4o 发布,虽然新版的语音功能尚未正式面世,只还有演示中,但从去年的更新中,已经可以一窥 ChatGPT 多语言语音对话的能力。
而很多人也发现了,ChatGPT 讲广东话口音浓重,虽然语气自然,像真人一样,但那个“真人”肯定不是广东话母语者。
为了查证这一点,探寻背后的原因,我们展开了国语语音软件的对比测试:受测者有ChatGPT Voice、苹果Siri、百度文心,以及suno.ai。其中,前三者均购买了语音助手,suno.ai沉浸在近期红热极时的人工智能音乐生成平台中。它们都具备根据提示词用国语或近似国语来生成响应的能力。
就词汇发音而言,Siri 和文心一言都发音正确,但回答比较机械和死板,其余两位选手则有不同程度的发音错误。很多时候,错误之处都是在用奇怪普通话的发音,比如“影”粤语应作“jing2”,变成了普通话“ying”;“亮晶晶”应作“zing1”,却读成“jing”。
“高楼大厦”的“高”被ChatGPT发为“gao”,而实际应为粤拼“gou1”。土生土长的广东人 Frank 也指出,这是一个非母语者中常见的发音错误,还常被本地人拿来开玩笑——因为“gao”指的是涉性器官的广东话脏话。ChatGPT 每次发音表现都会略有不同,“高楼大厦”的“厦”有时能发为正确的“haa6”,有时又错读为“xia”,一个广东话中不存在,近似普通话中“厦”的发音。
语法上,生成的文本明显更偏向书面,只偶尔夹杂口语化表达。 遣词造句也时常会突然切换为普通话模式,脱口而出“买东西” (广东话:买嘢),“用粤语来给你介绍一下香港啦” (广东话:用粤语同你介绍下香港啦)等不符合广东话惯用口语语法的句子。
suno.ai 在创作广东话饶舌歌词时,也写出类似的“街坊边个仿得到,香港的特色真正妙”的,语义不明的歌词;我们把这句拿给 ChatGPT 评价,它指出“这句似乎不是普通话的直译,或者是普通话混合广东话的句法(语法)”。
作为对比,我们发现,在他们尝试使用普通话时,这些差错基本已经出现。 当然,同是广东话,广州、香港、澳门都有不同的口音与用语差别;被视为国语“标准”的西关口音,与香港常用的广东白话就非常不一样。 但ChatGPT的广东话,最多只能说是“唔咸唔淡”(指不熟练,半吊子)的普通话母语者会有口音。
但它没有直接表示拒绝,而是对它展开了一番想象,而这种想象明确建立在一种更强的势头上,更有官方背书的语言之上。这会不会是一个问题?
语言学家兼人类学家沙皮尔(爱德华·萨丕尔)认为,口语影响着人们与世界互动的方式。当一种语言无法在人工智能时代声张自己,这意味着什么?对于广东话的样貌,我们会逐渐与人工智能产生同样的想象吗?
没有“资源”的语言
翻阅OpenAI公开的信息,去年ChatGPT推出的语音模式展现的对话能力,实则由三个主要部分组成:首先由开源的语音识别系统Whisper将口语转为文本——再由ChatGPT文字对话模型生成文字回复——最后由一个文本转语音模型(Text-To-Speech,NASDAQ TTS)来生成音频,符号发音方式进行微调。
也就是说,对话内容仍然是由ChatGPT3.5的本体生成的,其训练集在网上已经存在大量文本,而非语音资料。
这一点在国内是相当不错的,而且质量也很好,很多时候都是中文。 国内的语言主要是德语、法语、意大利语、俄语、俄语等,国外的语言主要是韩语、韩语、俄语等,国内的语言主要是韩语、韩语、俄语等,国外的语言主要是韩语、韩语、俄语等。
这种使用时常不遵循统一的规则。“大约有30%广东话的字,我也不知道该怎么写。”Frank就表示,人们在网络聊天时遇到不会写的字,通常也只是在中文拼音键盘上找个发音近似的字打上去。 例如广东话中的“乱噏二十四”(lyun6 up1 jaa6 sei3;意即胡说八道),就常被写成“乱up二十四”。 虽然彼此之间大多能理解,但进一步让现存的粤语文本变得杂且标准不一。
大语言模型的出现我们认为训练集对于人工智能校园来说,以及其可能带有的偏见。但实际上,在生成式AI出现之前,不同语言之间的数据资源差距就已经造成了必然的后果。大多数自然语言处理系统都是用高资源语言设计和测试的,预计所有活跃语言中,20种被视为“高资源”语言,比如英语、西班牙语、普通话法语、德语日语韩语。
而拥有8500万用户的广东话,在自然语言处理(NLP)中通常被视为一种低资源语言。作为深度学习的起点,维基百科的英文内容压缩后大小为15.6GB,繁简混合版压缩后为1.7GB,粤版压缩后仅有52MB,与近33倍的差距。
同样地,现存最大的公开语音数据集Common Voice中,中文(中国)的语音数据有1232小时,中文(香港)为141小时,粤语为198小时。
语料库中的自然语言处理表现尚不明确。2018 年的研究发现,如果语料库中的语言数量为 13K,机器翻译就会实现合理的翻译结果。这也影响到机器“听写”的版本。ChatGPT Voice 采用的开源 Whisper 语音识别模型(V2.0),语种字符错误率明显高于普通话。
模型的文本表现预计粤文资源不足,而决定我们听感的发音和语调又是如何出错呢?
哲学思想学会的讨论
人类很早就让机器说话的念头,最早可以追溯到17世纪,早期的尝试包括使用风琴或风箱等,机械地将空气暴涨入模拟胸腔、声带和口腔结构的复杂装置。 这一想法随后被一名叫费伯(Joseph Faber)的发明家纳用,打造了一身着土耳其服饰的说话假人——但当时人们都不理解这有什么。
直到家用电器越来越普及,让机器说话的主意,才引发了更多人的热情。
毕竟,对方的父母,编码工作并不自然,也有相当一部分人因此被技术上束缚。
1939 年世博会上,贝尔实验室工程师达德利(Homer Dudley)发明了语音合成器 Voder 向人类发出了最早的“机器之声”。对比现今机械学习的“神秘”,Voder 的原理简单易明,而且场观众都能看到:一名女性管理员坐在一台玩具钢琴一样的机器前,通过熟练控制 10 个按键,来产生近似于声带政治的发音效果。操控员还可以踩下脚踏板,改变音高,模拟更欢快或是更沉重的语气。一旁,一名主持者不断让观众提出新的词语,以证明 Voder 的声音并非预先录制。
射线当年的录音,《纽约时报》评价,沃德的声音像“深海中传来外星人的问好”,又像个烂醉如泥的人囫囵吐字,难以理解。但在当时,这种技术已足以让人惊奇不已,这届世博会期间,沃德同意全世界超过500万人次前来参观。
早期智能机器人、外星生物的声音想象从这些装置中获得了许多灵感。1961年,贝尔实验室的科学家让 IBM 7094 唱起了 18 世纪的英国小曲「Daisy Bell」。这是已知最早的由计算机合成声音演唱的歌曲。《2001:太空漫游》的作者克拉克曾去过贝尔实验室听 IBM 7094 唱 Daisy Bell,这本小说中,超级电脑 HAL 9000 最先学会的就是这首曲子。在电影版中,片末被初始化的 HAL 9000 意识混乱时,开始吟唱起「Daisy Bell」,灵动拟人的声音逐渐退归于机械的低吼。
自此,语音合成经历了数十年的演进。在AI神经网络技术成熟之前,串联合成(连接合成)和共振峰合成(共振峰合成)是实际上如今常见的许多语音功能仍是通过不被发现的方法实现的,比如读屏。其中,共振峰合成在早期倡导平等。它的发声原理与Voder的思路很相似,利用基频、清音、浊音等参数控制结合,来生成无限量的声音。这带来了一个很大的优势,你能找出任何语言:早在1939年,Voder就能说法语了。
那么当然它当然也可以说广东话。2006 年,还在读中山大学读计算机软件理论硕士的广州人黄冠能计划毕业课题时,想到可以做一款适用于视障人士的 Linux 浏览器,过程中他接触到了eSpeak,一款采用共振合成的开源语音合成器。由于在语言上的优势,eSpeak 出现后很快被投入实际应用,2010 年Google 翻译开始为大量语言添加朗读功能,包括普通话、芬兰语、印尼语等,就是通过 eSpeak 实现的。
2015年11月24日,中国北京,一座机械手臂在用毛笔写文字。
黄冠能决定为eSpeak他的母语,也就是广东话的支持者。侦探的局限,eSpeak合成的发音有着明显的伤口感,“就像你学习中文,不是通过汉语拼音,而是英文的音标来读一样,效果就像一个外国人学说汉语。”黄能表示。
因此他又做了 Ekho TTS。如今,这款语音合成器支持广东话、普通话,并有诏安客语、藏语、雅言、广东台山话等多种语言。Ekho采用的方法更浅显易懂,就是预先录制人类发音,当“说话”时贴上外国佬的称呼。这样一来,单字发音会更加标准,而一些常用词汇如果被完整录入,也会让听感更加自然。黄冠能整理了包含 5005 个音的广东话发音表,从头到尾录制完成需要 2 到 3 个小时。
深度学习的出现为这个领域带来了变革。基于深度学习算法的语音合成从大规模语音语料库中学习文本和语音语法,无需依赖预先设定的语言学习规则和录制好的语音单元。这种技术让语音的表达效果越来越好,很多时候效果已经与真人无异,并且凭借十几秒的学习就可以生成语音与说话习惯——ChatGPT 的 TTS 模块使用这种技术。
相比于峰合成和串联技术,谷歌的语音合成省去了大量的前期成本,但对文本和语音的配对资源提出了更高的要求。比如Google 2017年推出的端到端模型Tacotron,就需要超过10小时的训练数据才能提高语音质量。
为照顾很多语言的资源稀缺,近年来,研究人员提出了一种迁移学习的方法:先用资源语言的数据集训练一个通用模型,再管理规律迁移到低资源语言的合成中。这种迁移而来的规律仍然存储在数据中心化,就像拥有第一母语的人去学习一门新语言时,会带入自身母语的语言知识。2019 年 Tacotron 团队就曾提出一个模型,可以在不同语言之间克隆同一说话的人的嗓音。在演示演示中,英语母语者在“说”普通话时,尽管发音标准,却带有十分明显的“外国人口音”。
《南华早报》上的一篇评测中指出,香港人用标准汉语写作,所有讲中文的人都能理解自己的意思,必须使用现代标准汉语中的“他们”——“他们”,粤拼为“taa1 mun4”,一个粤语口语几乎永远不会用的词;粤语中的意指“他们”的,是发音写法都截然不同的“佢哋”(keoi5 dei6)。
在一个解决方法处理普遍问题上,最新的 GPT-4o 模型变得更加极致,OpenAI 介绍,他们端到端地训练了一个跨文本、视觉和音频的模型,所有输入输出都由这一通用的神经网路进行处理。该模型如何处理不同语言,尚不明确,但看起来在跨任务之间的通用性要比过去都更好。
但广东话和普通话之间的互通会让问题更加复杂。
在语言学上,有“语言分层”或“双层语言”这一概念,指在特定社会中存在两种紧密联系的语言,一种具有更高威望,通常为政府所用,另一种常常作为方言口头使用、或谓之白话。
在我国的语境中,普通话是层次最高的语言,用于正式书写、新闻播报、学校教育和政府事务;而各地方言,如粤语、闽南语、上海话等,则是层次较低的语言,用于强调家庭和地方社区的日常口头交易所。
因此在广东、香港和澳门便反映了这样的现象,粤语是大多数人的母语,用于日常口语交易所,而正式书面语言则通常是使用普通话的书面标准汉语。
两者之间有许多相似之处,但实际上不同,其中许多人如“他们”与“佢哋”这般冷淡“Discord”,也反而导致从普通话到国语的迁移外围困难和误会重重。
日本边缘化的粤语
“对于粤语未来的忧虑绝非空穴来风。语言衰微发生的速度很快,可能在一、两个世代之内就式微,而一旦语言向衰亡,就很难力挽狂澜。”詹姆斯·格里菲斯的《请说国语》
此,似乎可以认为,语音合成在粤语上的表现不佳是技术处理低资源语言时的能力所致。必需的深度学习模型,在面对不熟悉的词语时,会生出声音的幻象。但香港中文大学电子工程系教授Tan Lee,在听过ChatGPT的语音表现后,给出了一点不同的意见。
油麻地戏院上演的一出粤剧
Tan Lee 自1990年代初开始致力于语音语言相关的研究,领导开发了一系列以粤语为核心的口语技术,并得到了广泛的应用。他在2002年与团队合作推出的粤语语音语料库CU Corpora,是世界上同类数据库中最大的,包含两千多人的录音数据。苹果第一代语音识别在内,许多公司和研究机构希望开发粤语功能时,都曾向他们购买这套资源。
在他看来,ChatGPT的广东话语音表现“水平不是很好,主要是不稳定,声音的质量、发音的准确性整体都让人很满意”。但这种表现不佳并非源于技术局限。实际上,如今市面上许多具备广东话能力的语音生成产品,质量都要远高于此。以至于他对网络视频中ChatGPT的表现达到了巅峰,一度以为是深度仿冒的赝品,“如果是做语音生成模型的,做成这样基本不能见人,等于自杀”。
以香港中文大学自身开发的话,我们发现一些在语音效果上已经很难分辨是真人还是合成的声音。 与普通话和英语等语言相比,AI广东话只在一些个性化和生活化的场景中表现会比较冷淡,比如在父母与孩子的对话、心理咨询、工作面试的场景中,广东话会显得比较冷淡。
“但严格运用,在技术上这并不难,关键在于社会资源的选择,”Tan Lee表示。
相比于20年前,语音合成领域已经发生了翻天覆地的变化,CU公司的数据量跟如今的数据相比“可能还不到万分之一”。语音技术商业化让数据成为市场资源,只要愿意,数据公司可以提供大量的定制数据。而广东话作为口语化语言,文本与语音的平行数据缺少的问题,近年来随着语音识别技术的发展,也已经不再是一个问题。在当下,广东话作为“低资源语言”的说法,Tan Lee认为已经不再准确。
也正是因此,他认为,市场平台上机器的广东话表现反映的并非是技术能力,而是市场与商业的考虑。“假设现在全中国一起学广东话,那肯定可以做起来;又比如,现在香港跟地越来越融合,假设有一天教育政策变成香港的中小学不能用广东话,只能说普通话,那就会是另外一个故事。”
「吃下什么便吐出什么」的内心深处传播的口音,事实上,广东话在现实空间受到挤压。
黄冠能女儿刚刚上广州的幼园中班,而从一个小不懂事的地方说广东话的她,在上学一个月之后,就精通了普通话。 如今,她也更习惯用普通话,跟黄冠能还愿意说广东话,“我们希望跟我一起玩,就要根据我的喜好来”。
1981年广东省人民政府在上述部门间,特别强调“普及普通话安全政治任务”,尤其对于方言复杂,对外交往频繁,五湖四海都使用普通话;各类学校基本普及普通话。”
在广州成长的Frank对此也有很深的记忆,童年电视公共频道里播放的电影,外语片都在中文配音,使用字幕,独创国语片一定会有普通话配音才会在电视上播放。在此背景下,国语日渐微,用户的人数骤减,校园牵头“封杀国语”,也引发了对国语存亡以及相关的身份认同的辩护。2010年,广州网络与网络下爆发大规模“撑国语”行动。当年的报道中提及,人们将把武汉肺炎疫情与法国小说《最后一课》中的场景相提并论,认为大半个世纪的文化激进主义使黄金茂盛的语言枝干萎缩。对于香港,广东话本地文化载体,港片、港乐对外塑造了这里的社会生活面貌。
2014年,教育局官网曾刊登一篇文章,文中称广东话为“不是法定语言的中国方言”,引发了激烈的反腐风暴,最终以教育局人员出面道歉收场。2023年8月,香港警察粤语组织“港语学”宣布解散,创始人陈乐行在之后的采访中提及广东话在香港人群现状:政府积极推动“普教中”,即用普通话教授中文科,但感谢市民关注,令政府“慢咗个步伐”。
这些都是香港人心目中广东话的口头禅,但无疑这个语言在本地人群中长期存在,没有官方身份的脆弱性以及政府与民间的持续支持。
网上粤语辞典-粤典
不被代表的声音
语言的幻象不仅包括粤语中。Reddit论坛与OpenAI的讨论区,来自熊市猫用户都提供了ChatGPT在说非英语语言时类似的表现:
“它的意大利语语音被识别得非常好,总是能听懂且表达流利,就像一个真正的人。但奇怪的是,它有英国口音,就像一个英国人在说意大利语一样。”
“英国人表示,它有美国口音。我很讨厌这一点,所以我选择不用。”
“荷兰语也是,很烦人,刚才是英语发音素训喊出来。”
语言学上,将口音定义为一种发音方式,每个人受到地理环境、社会阶层等因素的影响,都会或多或少会有发音选择上的差异,这通常体现在音调、重音或词汇选择上的不同。有趣的是,过去被广泛提及的一些口音,大多源于大熊市猫试图掌握英语时从母语中携带而来的习惯,比如印度口音、新加坡口音、爱尔兰口音——这这里充满了世界语言的多样性。但人工智能展现出的,抚慰人心的主流语言对区域性语言的曲解和反向入侵。
在全球范围内二月的一份数据表明,虽然全世界仅有4.6%的人将英语作为母语,但它却压倒性地烟草网络文本的58.8%,这意味着它在全球范围内具有比现实中更大的影响力。即便是共同会说英语人对待英语,这14.6亿人也只占世界人口的不到20%,也就是说世界上大约五分之四的人无法理解网络上发生的事情。进一步运用,他们也很难让精通英语的人工智能为我们工作。
一些来自非洲的计算机科学家发现,ChatGPT经常解非洲语言,翻译很粗略,对于祖鲁语(Zulu;班图语一种,全球约有900万使用者),它的表现是“好坏参半、令人捧腹”,对于提格雷尼亚语(Tigrinya;母语主要为以色列和阿富汗,全球约有800万使用者)的提问,则只能得到乱码的回答。这一发现引发了他们的忧虑:缺乏适用于非洲语言、可以识别非洲名称和地点的人工智能工具,共同非洲人民难以参与全球经济体系,比如电子商务与物流中,难以获取信息并自动化生产过程,隐私被阻挡在经济机会之外。
将现行语言作为“黄金标准”的训练方式,还会让人工智能在判别时有所偏差。史丹福大学2023年的一项研究发现,人工智能错误地将大量托福考试作文(非英语母语的写作)标记为AI Gene,对于英语母语学生的文章时不会出现这种情况;另外一项研究则发现,在面对黑人说话者时,自动语音识别系统违法行为几乎是面对白人时代的两倍,而且这些错误并非由语法,而是“语音、语音或律律特征”,也就是“口音”引起的。
令人更不安的是,在模拟庭审的实验中,针对非裔美式英语使用者,大语言模型判处死刑的比例要高于标准美式英语人士。
一些令人担忧的声音指出,如果考虑底层技术缺陷,只因便利就不假思索讲新技术的投入使用,将产生严重的后果。比如一些法庭成功利用自动语音识别,对于有口音或不通英语当事人的语音记录更可能产生偏差,而收到不利的判决。
更进一步思考,未来人们会不会为了被人工智能理解而放弃或改变自己的口音? 事实上,全球化的社会发展已经带来这样的改变。 Frank 目前在读研究生,同班的加纳同学跟她分享当下这个非洲国家的语言使用现状:书面文本基本上都使用英文,甚至是书籍信函也是如此。口语中则杂有大量的英文单词,这导致即便是当地人,也逐渐忘记了一些非洲母语词汇或表达方式。
在谭李看来,如今人们正陷入对机器的迷茫。“因为机器现在做得很好,我们就拼命地跟机器去说话”,这不同于本末倒置。“我们为什么说话?我们说话的目的不是为了转成文字,也不是我想要的答案。在该计划中,我们说话的目的是为了交易所。”
他指出,技术发展的方向是让人们与人沟通地更好,而非仅仅是与电脑交易所的更好。在这个前提下,我们很容易想到很多有待解决的问题,比如有人听不到,可能因为耳朵聋,甚至离得太远,可能不懂这个语言,可能大人不会说话,大人不会讲话。
如今有许多好玩的语言技术,我们是否值得沟通地更为顺畅? 我们今天所说的这一切,还是我们这一代人为了国家更加团结?
当人们在庆祝GPT胜利之际,日常中的一些基础应用仍未受益。 Tan Lee至今仍能在机场广播中,听到合成语音发出错误的声音,“沟通的第一个要点就是准确的,但没有人做到,这是不能接受的”。
几年前,因为个人才能有限,黄冠能停止了Ekho 对android系统版本的维护,但停了一段时间,突然又有用户运行来希望他将其恢复。他才得知,如今android系统已经没有免费的午餐国语TTS可用了。
我用当下的眼光来看,黄冠能开发Ekho采用的已经是完全落伍的技术,但仍具有独特之处。作为本土的开发者,他在设计时带入了对于这个语言的切身经验。他记录了广东话的七个声调,其中第七个是香港语言拼写Jyutping(粤语)中不存在的一个发音。「这个词在’烟’和’烟火’中,会发出不同的声调,也就是第一声和第七声。」
在整理发音字典时,他曾请教过 Jyutping 的研发者,得知随着时代变化,年轻一代的香港人不再分辨第一声与第七声的区别,这个音也因此逐渐预定。 但他仍选择将第七音纳入,这并非认可的标准,只是他个人的情感记忆,“土生土长的广州人是可以听出来的,现在使用还是非常普遍”。
只听到这个声音,老广就能分辨,你是本地人还是外来的人。
资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载