【雷火UX全球本地化】ChatGPT测评：它是一个好用的翻译工具吗？

近年来，人工智能技术不断进步，其应用场景持续拓展和深化。AIGC，即利用人工智能技术来生成内容，已经突破了大众对AI技术的认知和想象边界。随着其在语音、文本、图像、视频等内容创作及其他方面上表现出的出众能力，可能对艺术家、工程师、设计师等各行各业的大批从业者带来了巨大的挑战，其引发的时代变革显而易见。

ChatGPT(Chat Generative Pre-trained Transformer)，是人工智能技术驱动的自然语言处理工具，即AIGC的一款具体的应用和产品。它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

对于游戏行业来说，AIGC可能应用的场景包括：AI绘图，AI配音，文案策划，收集素材和资料更加快捷，运营可以使用模板进行写作，程序员可以用它来编写和调试计算机程序等。

那么，对于本地化业务而言，ChatGPT的翻译功能是否能够在实际应用场景落地呢？本文将选取《永劫无间》不同风格译文，以人工译员翻译结果为标准，使用BLEU打分和人工测评的方式，比较Deepl和ChatGPT两款机器翻译工具的翻译结果，以期得到一个初步结论。

测试准备

首先我们进行了一系列测试前准备，确定了测试工具、数据、标准等维度的选取。

ChatGPT版本：3.5

测评数据：选取了《永劫无间》译文库中的4组代表性文本作为测评数据

机器翻译工具：Deepl

选择Deepl的原因是它在翻译质量方面表现相对更准确，尤其在单词和短语的翻译上表现更佳。相对来说，Google Translate适用于一般性的翻译任务，例如日常用语、简单的商务沟通等，但翻译质量相对普通。Deepl则适用于更加专业的翻译任务，例如翻译技术文档、学术论文等，或者需要对翻译质量有较高要求的场合。

测试语言：中文，英文，西班牙语

测评标准：BLEU分数

BLEU（Bilingual Evaluation Understudy），即双语评估替补。它是用来评估机器翻译跟专业人工翻译之间的对应关系，核心思想就是机器翻译越接近专业人工翻译，质量就越好。BLEU是机器翻译领域最悠久、最常用、最经典的指标。大部分机器翻译论文甚至只使用这一个指标作为系统的评价标准，其重要性可见一斑。

BLEU评分虽然是一种广泛使用的自动评估方法，但也存在一些缺点：无法考虑语义和上下文信息，对标准参考文本数量敏感，只能基于n-gram匹配，无法处理稀有词汇，因此，需要结合其他评估方法进行综合评估，以准确地评估翻译质量。

测试方法

本文选取了《永劫无间》的四个不同类型的现有译文，包括技能描述、故事背景、动作描述和文学古风。为了比较Deepl和ChatGPT的翻译效果，我们分别使用它们进行“中译英”、“中译西”、“英译西”操作。同时，我们将人工译员翻译结果作为标准，使用BLEU对上述译文进行打分。通过对比各种译文的BLEU得分，可以评估Deepl和ChatGPT在翻译质量方面的表现，为后续分析提供依据。

测试结果与分析

机器测评

首先我们通过BLEU得分来初步比较一下Deepl和ChatGPT二者的表现。

与人工译文的相似度

绝对得分，BLEU的分数高低能够说明机器翻译的质量好坏，分数越高表示机器翻译结果与参考翻译之间的匹配程度越高，机器翻译的质量越好。通常来说，评分高于40可以认为是较好的机器翻译结果。而在我们的测评结果中，Deepl和ChatGPT各自仅有一项得分超过40。说明目前阶段，机器翻译结果与人工翻译结果的相似程度较低，实践效果欠佳。

相对得分，12个BLEU评分中，ChatGPT仅有5个评分高于Deepl，这说明ChatGPT译文与人工译文相似度低于Deepl；

为了验证这一结果的可靠性，我们查询了其他学者的测试结果，针对50个句子进行BLEU测评的结果显示，Deepl和ChatGPT中译英的平均得分均低于40，且ChatGPT译文与人工译文相似程度低于Deepl；

英翻西优于中翻西

纵向来看，无论是Deepl还是ChatGPT，英翻西的分数都高于中翻西的分数。这主要有两个原因：

一是因为语料库规模，Deepl和ChatGPT的翻译都是基于各自的互联网语料库，而显然英翻西的语料库比中翻西更为丰富。据估计，目前用于机器翻译的英语-西班牙语语料库数量已经达到数百万到千万级别；而中文翻译成西班牙语的语料库数量则只有数万到十万级别。

二是因为语言相似程度，中文和西班牙语相似度较低，中文属于汉藏语系，西班牙语属于罗曼语系，语法和词汇差异很大；虽然英文属于日耳曼语系，西班牙语属于罗曼语系，但是两者都属于印欧语系，语法和词汇有很多相似；同时相对于亚洲文化，同处于西方世界的英语和西班牙语的文化背景差异较小。

人工分析

语法

凭借着庞大的互联网语料库和巧妙的语法规则设置，机器翻译的语法几乎都是合规的。在翻译长句时，机器翻译可以熟练地运用各种状语和从句，将原文完整地表达出来，呈现出了一个较好的翻译结果。

但是，在需要主观判断时，有一些细微的不足。例如，英翻西的英雄技能，英语在翻译英雄技能时，省略了整段话的主语，人工译员处理的时候，考虑到描述的是英雄技能，所以将英雄作为主语，而Deepl将玩家作为了主语，ChatGPT直接处理成了无人称句式。相比之下，在需要主观判断的时候，人工译员更胜一筹；

用词

机器翻译在用词方面的表现一般。对于简单的动作描写和故事叙述，机器翻译能够胜任。然而，一旦遇到需要深入理解的词语，比如游戏术语、成语俗语、文化背景以及神话典故等等，机器翻译就会面临巨大的挑战，往往难以准确地翻译，甚至可能出现严重错误。这是因为这些词语具有复杂的含义和文化背景，需要结合上下文和语境进行理解，而 机器翻译目前还难以达到完全的人类理解水平 。

游戏术语

“单双排”是一种最基本的游戏术语，用于描述游戏中玩家参与的模式。人工译员正确处理成了“Solo and Duos”。

而机器翻译表现不佳，都处理成了“single and double rows”（Deepl）和“single and double formations”（ChatGPT）。这说明，机器翻译在识别和理解游戏术语方面仍然存在缺陷。

成语俗语

“老当益壮”比喻年纪老，但体力和精神更加健壮。人工译员没有进行直译，而是采用了意译的方法，“move with the energy of a man half your age”；

Deepl处理则很直接，“old and strong”，简单粗暴；ChatGPT则相对智能了一些，“is aging like wine”，意思是“get better over time”（随着时间的流逝，越来越好），虽然进行了解读，但是和夸赞体力和精神意思不完全一致。而且用在此处“沈妙夸赞爷爷老当益壮”的语境下，也不合适。

神话典故

“鱼化龙”是中国古代的一个传说故事，讲述了一个普通的鲤鱼通过不断努力，最终成功地变成了一条神龙的故事。中国玩家理解这个词，几乎没有文化障碍，但是西方玩家基本上没有这个文化背景。因此，人工译员为了更好的传达典故的内涵，在简单解释的基础上进行了翻译，“Like the ancient fish of legend, growing legs and rising to become dragons”。

而机器翻译都简单按照字面意思进行了翻译，“transform from a fish to a dragon”（Deepl），“rise like a dragon from a fish”（ChatGPT）。

文化背景

“神机营”是明代京城禁卫军中三大营之一，是明朝军队中专门掌管火器的特殊部队。因此，人工译员在处理的时候，翻译成了“Firearms Division”（火器部门）。

而Deepl翻译成了“Divine Machine Camp”（神奇机器的营地），ChatGPT翻译成了“Divine Machine Corps”（神奇机器兵团），不知道外国玩家在看到神奇机器的时候，作何感想。

文学性

在描述宁红夜捆绑包梨园白素的时候，策划引用了越剧《白蛇传》唱词：“冲出峨嵋万重山，踏破云层往人间”。是白娘子化身为人类走出峨嵋山后的自白。这句唱词的主要含义是，白蛇冲破峨嵋重重山峰的阻隔，踏破云层，从天空来到人间。这表达了白蛇为了与许仙相守而不惜冒险出山，越过重重障碍，化身为人类形态来到人间。

人工译员的译文为：“Lo, she bursts forth from the myriad peaks of Emei, Clouds treaded underfoot, down from heavens high in the sky.” 用词华丽，富有诗意。“Lo”用来表示惊叹或者注意的意思，比较常见于文学作品或者宗教文本中。“bursts forth”用来描述冲破，具有冲破障碍、突破束缚的意思，比较形象生动。“myriad peaks”表达了山峰众多、数不胜数的意思，比较华丽。“Clouds treaded underfoot”指脚踏云朵，具有魔幻和浪漫的意境。“down from heavens high in the sky”表达了从天而降、高高在上的神秘感，比较诗意。

Deepl译文为“Break out of Emeis ten thousand mountains and step through the clouds to earth.” ChatGPT译文为“Breaking through the Emei Mountains, stepping through the clouds towards the mortal realm.” 虽然都能够表达原文的意思，但是使用了较为直白的表述，缺乏美感和神秘主义。其中，“Break out of”和“Breaking through”直接翻译为“冲出”，缺少了动作的细节和美感；“万重山”被Deepl直译为“ten thousand mountains”，而ChatGPT则忽略了“万重”这一形容词，这样就丧失了原文中对山峦高耸的描绘；“to earth”和“towards the mortal realm”虽然表达了“往人间”的意思，但缺乏一定的神秘主义色彩，让读者无法感受到原文中的情感。

机器翻译主导尚需时日。

目前阶段，以Deepl和ChatGPT为代表的机器翻译在语法方面表现良好，但是在涉及游戏术语、成语俗语、文化背景以及神话典故的理解，或者需要进行文学演绎时，表现欠佳。

整体来看，机器翻译结果和人工翻译结果相差较大，在实践中，需要译员对机器翻译结果做较大调整，方能满足要求；目前理想的工作模式还是人工为主，机器为辅；

以烹饪打比方，目前机器翻译的水平相当于准备并搭配好了部分原材料，等待厨师下锅烹饪，方能做出美味菜肴，厨师的水平对最终结果影响较大；

而和Deepl等机器翻译工具相比，ChatGPT作为一个可以不断迭代和学习的模型，将来可以到达的程度可能是速食食品的水平，简单加热即可食用，对人类烹饪水平几乎没有要求。但至于味道如何嘛，还需要时间来检验。不过可以预料到的是，ChatGPT未来可期！

参考文献：

1. https://www.letsmt.eu/Bleu.aspx

2. https://cloud.tencent.com/developer/article/1159767

3. https://arxiv.org/pdf/2301.08745.pdf

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章