英汉语料拆分与上下对照处理

英汉语料拆分与上下对照处理 在网络上,双语语料浩如烟海,但是,这些资源并不符合我们的要求,格式上不便于我们进一 […]

英汉语料拆分与上下对照处理

在网络上,双语语料浩如烟海,但是,这些资源并不符合我们的要求,格式上不便于我们进一步分析研究。这次拿英汉热词为例。
微博微信英语大V很多,分享了很多英汉热词,但是由于个人编辑形式不同,热词的排版样式各不相同。例如翻译情报官、韩刚翻硕、卢敏的微博三位微博大V分享了很多高质量的英汉热词,将三位发布的热词进行数据挖掘,得到所示的左右对照的英汉热词。

01 

数据拆分

为了便于后期语料检索,我们要将同一单元格中的英汉语料拆分,分布到B列和C列。由于双语语料长短不一,规律不是很明显,故使用Ctrl+E无法智能拆分。这次介绍两个Excel函数,实现数据拆分。
如图所示,在B1单元格输入=LEFT(A1,LENB(A1)-LEN(A1)),下拉列,即可实现中文内容的提取。同样的道理,在C1单元格输入=RIGHT(A1,LEN(A1)*2-LENB(A1)),下拉列,即可实现英文内容的提取。

Len和LenB函数介绍

Left和Right函数分别表示从左和右提取几位字符串;
Len和LenB都用于返回文本的长度,Len 返回文本的字符个数,LenB 返回文本的字节个数;区别在于,len是按字符数计算的,lenB是按字节数计算的。数字、字母、英文、标点符号(半角状态下输入的哦)都是按1计算的,汉字、全角状态下的标点符号,每个字符按2计算。简言之,LenB函数,计算字符长度的时候,一个中文算做2,而1个西文字符算做1;而 Len函数,不管中西文,每个字符都算做1。

案例分析

例如:Len("强哥abc") 返回5,而 LenB("强哥abc") 返回7;
因此,Left("强哥abc",LenB("强哥abc") - Len("强哥abc"))
= Left("强哥abc",7 - 5 )。所以,结果将"强哥abc "中最左边的汉字“强哥”分离出来了
由示例可知,上面的B1单元格中=LEFT(A1,LENB(A1)-LEN(A1)) 就是从左向右开始提取汉字内容;而C1单元格中=RIGHT(A1,LEN(A1)*2-LENB(A1)) 从右向左开始提取英文内容。

02

隔行空行和隔行粘贴

 
以上就是这一期的所有内容,喜欢的老铁点个赞哦!

—END—

本文由 语料库 作者:Tmxchina 发表,其版权均为 语料库 所有,文章内容系作者个人观点,不代表 语料库 对观点赞同或支持。如需转载,请注明文章来源。
7

发表评论