翻译技术 | 双语语料整理教程

语料整理教程 写在前面:最近一直在忙其他时,没有太多时间撰写一些技术翻译文章,就把去年自己给某公司写的语料整理 […]

语料整理教程

写在前面:最近一直在忙其他时,没有太多时间撰写一些技术翻译文章,就把去年自己给某公司写的语料整理教程拿出来,分享给各位技术翻译爱好者吧。
:该教程主要是对网络上已翻好的海量生语料进行整理和对齐。

经过对翻译稿件排版进行格式统一,我们采用了中在前英在后的段落式对照形式。但是,鉴于有些段落过长,不利于译者快速定位查找到所需信息。所以,需将原有语料再加工,处理成便于后期快速检索的中英对应文本。

语料格式统一后,其优势是,可以批量汇总已翻好的双语文档,可以批量删除空行、图片等无关信息。其不足是,有些段落信息变动大,常常处理成表格形式便于读者阅读,但也导致中英段落数不一致,不利于使用工具对齐。以下操作步骤主要针对格式统一后的语料。

步骤一:汇总语料
如:以下是已翻好的双语稿件,新建一个空文档——插入——对象——文件中的文字——导入文档。
         注:每次导入的文档不宜过多,每次导入文档总字数在3万字左右,过多会导致部分内容丢失。

译生不轻松
译生不轻松

汇总后的文档如下。文档有批注、超链接、多种字体格式、空行、图片、记者信息等,这些因素也导致文档占用很大内存。我们第一步就是删除冗余信息,统一字体格式,先处理成段落对照式双语文本。

译生不轻松

步骤二:删除图片、超链接、换行符等

1) 删除图片:快捷键Ctrl+H替换——查找内容:^g; 替换为:不填——全部替换

译生不轻松

2) 删除超链接
查找内容:http*^13——替换为:^p——勾选使用通配符——全部替换

注:
① “*”可以代表任意多个字符。如:输入“*国”就可以找到“中国”、“美国”、 “孟加拉国”等字符
② ^13合起来就是回车,因为13这个数在ASCII码是回车符,所以在WORD通过^这个转义符号把变成了回车符这样实现将该行网址选中替换为空值。

译生不轻松

3) 删除英文记者信息
查找内容:Photo/*^13——替换为:^p——勾选使用通配符——全部替换
查找内容:Photo by*^13——替换为:^p——勾选使用通配符——全部替换

译生不轻松

4)删除英文记者信息剩下的左括号

      查找内容:. (——替换为:.——不勾选使用通配符——全部替换

      查找内容:.(——替换为:.——不勾选使用通配符——全部替换

译生不轻松

5)删除中文记者信息

      查找内容:湖南日报记者*^13——替换为:^p——勾选使用通配符——全部替换

      查找内容:见习记者*^13——替换为:^p——勾选使用通配符——全部替换

      查找内容:以上图片均为*^13——替换为:^p——勾选使用通配符——全部替换

      注:中文记者信息来源格式建议采取以上常见三种,不建议使用“人名 摄”或者“人名 摄影报道”标注,这两种不太适合用通配符批量处理。

6)删除其他来源信息,译者信息

      查找内容:Please refer to *^13——替换为:^p——勾选使用通配符——全部替换

      查找内容:Translator: *^13——替换为:^p——勾选使用通配符——全部替换

      查找内容:Key words:*^13——替换为:^p——勾选使用通配符——全部替换

      查找内容:Chinese source: *^13——替换为:^p——勾选使用通配符——全部替换

译生不轻松

7)删除换行符

      查找内容:^p^p——替换为:^p——全部替换 (需多次点击,才能尽可能减少空行)

译生不轻松

8)统一字体格式,去除批注

Ctrl+A全选内容——右键粘贴选项(只保留文本)

Ctrl+A全选内容——字体设置为默认等线,字体大小为5号,行间距1.5倍。

步骤三:调整段落内特殊段落,如下图。确保一段中文对应一段英文。

译生不轻松

步骤四:通过文件奇偶行分离器验证文档有没有实现中英段落对应。该软件只支持txt格式文档,故需要先将文档转为txt格式。

译生不轻松

1)操作:快捷键F12将Word文档另存为纯文本txt格式——工具——Web选项——编码选择UTF-8保存。

译生不轻松
译生不轻松

2)打开文件奇偶行分离器,选择txt文档,即可生成两个txt文档,分别是奇数行(中文)和偶数行(英文),打开其中一个,浏览有无中英夹杂,出现中英夹杂处常常是没有做到中英对应,常见问题如中英同段落,空行,中英多对一或一对多

译生不轻松
译生不轻松译生不轻松

3)快捷键Ctrl+F查找,粘贴出问题的部分内容,快速定位,修改原文档,将其切分好。检查确保无误后,再次保存为docx格式。

译生不轻松

步骤五:使用在线对齐工具Tmxmall(网址:https://www.tmxmall.com/aligner )对docx文档进行细致切分。

该在线对齐工具相对于其他对齐工具有很大的优势。操作简单,可以一键导出四种格式的语料,功能和效率上大大提高。但是其也有一些不足之处。第一,这是一款收费的在线对齐软件,使用一次收费2元(好像是2018年9月开始收费的);第二,虽然它可以在不同时间进行操作,但是,它是通过电脑浏览器缓存进行保存的,因此,在进行语料对齐操作时,务必将电脑浏览器缓存选项取消,否则每次操作完成后,浏览器会将此清理。

译生不轻松

1)对齐操作

单文档对齐——导入文档——确保英文总行数和中文总行数一致——开始调整——对齐(先智能对齐,点击后会自动切分句段)。

译生不轻松
译生不轻松

2)人工对齐

主要操作键可点击右侧帮助。

编辑:双击合并:选中合并项,右键合并拆分:双击内容成编辑状态,在切分处按快捷键Ctrl+Enter进行切分。

注:Tmxmall在线自动对齐存在三个缺陷

第一,对于中英对照段落,若英文中含有中文字,例如:Changsha’s high-speed railway lines have intersected to form the pattern similar to the Chinese character “米";则会导致整个对齐好的段落错乱,对于这种极少数的情况,我们可以在导入前删除这小段中英文本;

第二,对于时政中领导人讲话,英文中常常补充一些直接引语,Tmxmall对于英文双引号对齐还不够智能,常常会出错,因此在对齐时需要额外注意,遇到通过合并拆分进行对齐。

第三,日期时间(简写加句点)在每句开头结尾时,容易引起段落之间的错乱。

译生不轻松

3)保存

左侧点击导出,可导出四种语料格式,分别是:

①tmx国际标准语料格式,这种适用于常见的机器辅助翻译软件;
②xlsx格式,即Excel表格格式,适用于网络检索网站使用;
③txt纯文本上下对齐格式,适用于离线语料检索软件,如Search and Replace、Xbench等;
④txt纯文本左右对齐格式,同上。

步骤六:离线语料使用操作

1)具体操作:双击Search and Replace.exe打开,设置语料的路径——搜索框输入关键词进行搜索。

译生不轻松

2)使用通配符搜索

有时候有些句型比较常见,如……主办,……承办。虽然具体对象不同,但是句型表达相似,因此,可以使用通配符进行检索更加符合需要的内容。新闻检索最常用的通配符为“*”, “*”可以代表任意多个字符。其他通配符可以参考:https://www.krisshang.com/1271.html/

译生不轻松
译生不轻松

总结:翻译效率依赖于强大的专业语料库,将前人的翻译结晶整理出来,可以避免做重复劳动,提高翻译的质量和效率。前人栽树,后人要懂得乘凉,这样才对得起前人,对得起知识。

大家看完记得点击下站内广告,你的点击就是对我最大的支持!

常见语料软件教程和下载地址:

1)翻译辅助工具| ApSIC Xbench:https://www.krisshang.com/1301.html/
2)Search and Replace:https://www.lanzous.com/i2rrgda 密码:2019
3)文件奇偶行分离器:https://www.lanzous.com/i2rrgbi 密码:2019

本文由 语料库 作者:Tmxchina 发表,其版权均为 语料库 所有,文章内容系作者个人观点,不代表 语料库 对观点赞同或支持。如需转载,请注明文章来源。
10

发表评论