CQPweb | 网络语料库分析系统CQPweb的建设及应用

网络语料库分析系统CQPweb的建设及应用 ——以 HZAU CQPweb 为例 刘 萍 吴良平 摘 要:新一 […]

网络语料库分析系统CQPweb的建设及应用
——以 HZAU CQPweb 为例

刘 萍 吴良平

摘 要:新一代网络语料库分析系统 CQPweb 具有词频分析、搭配分析、分布分析、索引行以及主题词分析等多种分析功能。CQPweb 于 2014 年首次引入国内,目前国内已建成三个 CQPweb,更多语料库研究者期待着创建自己的 CQPweb。 鉴于此,本文以 HZAU CQPweb 为例,详细介绍了 CQPweb 的创建流程,所要求的环境条件、技术要求、CQPweb 的体系结构、管理权限等。HZAU CQPweb 建成后,被应用于学术写作教学,探讨了CQPweb 的三个主要分析功能,即词频、搭配、分布分析功能在解答写作困惑方面的作用。应用研究揭示:基于 CQPweb 的数据驱动学习在提高学生的语言意识、促进主动学习和知识内化等诸多方面优势凸显。本研究旨在促进 CQPweb 在国内的推广应用。

关键词:CQPweb;平台建设;数据驱动学习;学术写作教学

一、引言

近年来,随着计算机技术的进步,语料库开发与建设迅猛发展。然而技术门槛与版权问题阻碍了语料库资源的共享。最新一代网络语料库分析系统 CQPweb 极大地简化了语料库检索操作,很大程度上消除了技术障碍。同时,CQPweb 将语料库文本储存于网络服务器,用户无法复制或重构语料库文本,使语料库版权得到保护。因而,有很多语料库研究者期待架构自己的 CQPweb,上载自建的语料库,用于教学与科研。鉴于此,本文以 HZAU CQPweb为例,介绍 CQPweb 的建构流程及其应用。集易用性、兼容性与强大功能于一体的 CQPweb特别适合数据驱动学习 (data-driven learning)。在教学中采用 CQPweb,引入数字驱动学习的教学理念,将促进教学方法、教学手段的更新。CQPweb 充分利用数据索引,能对大规模文本进行快速处理,符合大数据时代特征,代表着今后语料库分析工具的发展趋势。

二、概述

1.CQPweb 的发展历程

CQPweb 是第四代基于网络的语料库分析系统(McEnery & Hardie 2012:44),其主要分析功能包括:索引行、搭配、词频、关键词、分布分析等。CQP(Corpus Query Processor)最初由德国斯图加特大学于 1994 年在 Solaris平 台 开 发(Christ 1994)。1998 年,Stefan Evert 以 Linux 为平台继续开发(Evert 2008)。2006 年 Hoffman & Evert 结合了两个单独的查询技术:语料库工作平台Corpus Workbench (CWB,CQP 为其核心组件)和 MySQL 关系数据库,产生了新一代以 CWB/CQP 和 MySQL 为后台的语料库分析系统 BNCweb,既提高了系统的操作性能,又给予 CWB/CQP 一个更友好的用户界面。但是,该系统只能检索英国国家语料库 BNC,不兼容其他语料库。为了突破此局限,兰卡斯特大学 Andrew Hardie 用 PHP 语言改写了 BNCweb,更全面的数据模型使其兼容几乎所有类型的语料库,他将改进后的系统命名为CQPweb。2008 年,首个 CQPweb 问世,它以开源软件形式发布,此后不断推出新版本。

2.CQPweb 的优势特征

CQPweb 采 用 浏 览 器 - 服 务 器 的 分 布 式数据处理方式,能实现跨平台检索,在功能性、易用性、灵活性三个方面实现了重大突破。Hardie 认为对语料库兼容并收的灵活性是 CQPweb 的 主 要 创 新 特 点(Hardie 2012:380)。相对于其他语料库分析工具,CQPweb优势突显。目前广泛使用的第三代语料库分析 工 具, 如 WordSmith Tools、MonoConc、AntConc 等,虽然拥有良好的图形用户界面,易用性高,但是它们不支持数据索引或复杂检索,因而检索速度和功能大为逊色。还有一些语料库工具虽然检索功能强大,但易用性差。例如德国斯图加特大学的 CWB/CQP 支持大型语料库的快速、复杂检索,但其检索技术门槛高,多数普通研究者不会使用。另外一些语料库检索工具虽然易用,并且功能强大,但是兼容性差。例如上述 BNCweb 仅能针对 BNC 检索,无法加载用户自建语料库。相比之下,CQPweb 以常人熟知的浏览器为用户端,采用标准化的语料格式,能加载和检索任意语料,在功能、易用、灵活三者之间取得了较好平衡,成为目前功能最为全面的网络语料库分析系统。

3.国内外 CQPweb 的开发与应用

在国外,CQPweb 以其独特的优势受到用户青睐,目前,英、美、德、西班牙、加拿大等多个国家的大学和研究机构采用了 CQPweb,服务于教学和科研(许家金、吴良平 2014:12),取得了良好的效果。例如兰卡斯特大学在语料库语言学教学中采用了 CQPweb,因为语料库检索操作被大大简化,学生有更多精力聚焦于教学内容本身,因而学习效率得到提高(Hardie 2012:387)。另一方面,CQPweb 的兼容性极大地拓展了其适用范围,它甚至成为人文科学、社会科学领域研究者的研究利器。例如 Maatz(2014)利用 CQPweb 进行对比研究,发现精神分裂症患者对第一人称代词“I”的使用多于正常人,这一发现有助于精神分裂症患者的病理研究。

在国内,CQPweb 作为一个新概念、新事物,2014 年由许家金、吴良平(2014)发表的专题论文首次引介。同年,国内第一个 CQPweb 系统“北京外国语大学多语种在线语料库检索平台 BFSU CQPweb”问世。该系统公开发布了代表 7 种语言的 33 个不同类型的语料库,促进了语料库资源与工具的共享,同时促进了基于语料库网络平台的语言研究。在 BFSU CQPweb示范效应的影响下,香港理工大学、华中农业大学也先后架构了各自基于校园网的CQPweb。这些先驱 CQPweb 系统使国内语料库研究者体验了 CQPweb 的强大功能、便利操作,以及它对语料库版权有良好的保护,因而激发了一批语料库研究者创建 CQPweb 的热情。他们纷纷在论坛、网站等学术阵地寻求创建 CQPweb 的技术与流程。然而,现有的相关文献少之又少,仅有的一篇中文文献(许家金、吴良平 2014)未有涉及 CQPweb 的具体创建流程及其在学科教学中的具体应用。

鉴于此,本研究详细介绍华中农业大学CQPweb(以下简称 HZAU CQPweb)的创建流程及应用研究,旨在为同类研究提供参考借鉴。

三、HZAU CQPweb 的创建流程

HZAU CQPweb 为农科英语语料库网络系统平台,采用 CQPweb v3.0.7 作为建构基础。建构网络型 CQPweb 需要两个基本条件:(1)CQPweb 系 统;(2)CQPweb 专 有 格 式 语 料库。CQPweb(自带安装说明文档)可从其官方网站自行下载与安装。专有格式语料库安装到 CQPweb 系统后,用户方能检索。以 HZAU CQPweb 为例,我们从环境条件、技术要求、体系结构、管理权限等方面阐述 CQPweb 的建设流程。

1.创建 CQPweb 的技术参数与准备条件

CQPweb 系统实为运行在 Linux 操作系统的一套开源程序,其主要构成元素为后台 Open Corpus Workbench 3.0+ 和用户界面 CQPweb。软件条件为:GNU Linux 2.6+、Apache-2.0+、MySQL-5.0+、PHP5.3+、Perl-5.8+。 硬 件 条件为:32 位或 64 位 Intel/AMD 处理器、双倍于语料库大小的空闲硬盘空间,以及适量内存(假设 1 亿词次规模的语料大小为 1GB,将其架设在 CQPweb 平台上所需的硬盘空间则约为2GB。依此类推)。HZAU CQPweb 采用 64 位Linux,4GB 内存,目前运行良好。

CQPweb 可处理复杂数据类型语料,但对输入文件格式要求严苛。在上载文本前,需要对文本进行清洁与处理,以减少出错几率,涉及多个步骤:(1)删除源文本中的页眉、页脚、图表及说明、参考文献等语言学信息不强的部分;(2)切割与提取论文的各章节部分;(3)统一采用 UTF-8 编码;(4)去除空行、行首与行尾空格等空白;(5)转换全角符号至半角;(6)删除异字(如英文文本中夹杂的汉字);(7)添加词性赋码;(8)转换语料格式为 CQPweb专有格式。专有格式是 CQPweb 能加载任意语料,成为通用语料库分析系统的关键。其中论文章节部分的切割、提取需要专业背景知识。HZAU CQPweb 建设中,调动了不同农科专业方向的博士生参与此项工作,以确保语料提取、加工的质量。

2.HZAU CQPweb 两个数据模型与语料库的三层构架

CQPweb 的检索功能的实现依靠两个数据模型:语料库文本数据模型和语料库元信息模型。前者支持一般检索,后者支持分类检索。两个数据模型的结构描述如下:

语料库文本数据模型采用一行一单词的竖排格式,每个单词后面可带词性、词形还原等若干标注成分(Hardie 2012:390)。在文本数据模型中,每个单词都标注了词性赋码,单词与词性赋码之间由制表符分隔,并排成CQPweb专有竖排格式。
语料库元信息指与语料相关的文本结构信息或社会语言学信息,如章节号、刊物来源等信息。语料库元信息模型分为两栏,左边为文本的 ID,右边为文本的学科分类元信息。如果有一文本的 ID 为 D01, 其对应的学科元信息为 DWKX,那么元信息模型中的 D01 DWKX 解读为“动物科学(DWKX)文本库中的第 1 个文本”。文件 ID 与元信息之间由制表符分隔。元信息用于 CQPweb 限定条件检索(Restricted query),例如将带有 DWKX(动物科学)元信息数据的所有文本可作为一个学科大类进行检索。HZAU CQP web 能够实现章节部分的分类检索也是基于同样的原理。
上述两个数据模型运行在 CQPweb 后台的服务器上,而在 HZAU CQPweb 前端的浏览器网页上(http://211.69.132.28/)呈现给用户的是语料库的三层架构:第一层是农科专业期刊论文语料库,收录英语母语者发表的期刊论文。第二层是汉语母语学习者语料库,收录农科专业的硕士生、博士生撰写的英语学术论文。这两个语料库构架一样,均由按照章节部分和学科分类的两个子库构成:章节子库包含摘要(ABS)、引言(INT)、方法(MET)、结果(RET)、讨论(DIS)、结论(CON)6 个库;学科子库包含植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、农业经济(NYJJ)等 9 个库。第三层是对比语料库,包括经过授权的英语母语学习者语料库 BAWE 和文学作品语料库 DICKENS,主要用于对比研究。

3.CQPweb 的系统结构与管理员权限

作为一套开源程序的集合,CQPweb 系统主要分为服务器端和用户端两个部分,包括多个相互联系的组件。检索过程开始于用户在浏览器的用户界面输入查询语句,服务器端收到查询请求后,与 CWB 和 MySQL 两者进行交互,将最终结果通过浏览器呈现给查询用户,至此检索完毕。在检索过程中,用户的任务仅为输入恰当查询语句(参看许家金、吴良平 2014:14),而后一切交由 CQPweb 自动运行处理。

系统管理员权限为:(1)语料库管理;(2)用户管理。在语料库管理方面,管理员可安装、修改、删除语料库,根据需要随时展示或隐藏特定语料库,还可以修改系统配置文件,对用户界面进行视觉效果调整。例如使用不同背景颜色区分不同语料库,降低认知负荷,便于同一系统上大批量部署语料库。在用户管理方面,系统管理员可创建单个用户或批量用户,并根据实际需要对用户进行分组,赋予不同访问权限,例如仅对某一特定用户组开放某一特定语料库。这种灵活的用户组策略便于管理不同权限的语料库,也为同一系统部署不同权限的语料库提供了可能。

四、CQPweb 的多种分析功能在学术写作教学中的应用

HZAU CQPweb 建成后, 我们将其应用于农科专业博士生学术英语写作课程教学,在教学中,引入数据驱动学习(Data Driven Learning,简称 DDL)的教学理念。数据驱动学习由 Tim Johns (1991) 提出,其主要思想为:学习者作为研究者,通过对大量语料数据的观察,自己归纳、发现语言使用规律。教师作为引导者,为学生提供语料库资源与工具,指引学习者探索、发现。在 DDL 教学理念的指导下,传统上由教师讲授的部分内容被转化成学生的自主学习任务,以促进学生借助语料库,自己探求语言困惑的答案,从而掌握 DDL 学习方法,达到授人以渔的目的。

采用 DDL 的学习方式后,教师引导学生尝试利用 CQPweb 平台上的各种检索分析工具,如词频、搭配、分布、索引行以及主题词分析等,解答写作实践中的疑问。限于篇幅,在此仅展示 CQPweb 的三个主要的分析功能:词频分析、搭配分析与分布分析在写作教学中的应用情况。

1.词频分析与搭配分析

在英语写作过程中学生常遭遇选词与搭配方面困惑,例如学术英语论文写作中一篇论文常要多次用到“研究”一词,写作者常纠结于多用 research,还是多用 study,表示“关于……的研究”这两个名词到底与介词 of 还是 on 的搭配更为频繁?英、汉母语写作者在选词与搭配上有无差异呢? CQPweb 的检索结果如表 1 所示:

CQPweb 的频数解析(Frequency breakdown)功能显示的数据表明:表达“研究”之意时,英、汉母语者都更多地倾向使用 study(studies) 而不是 research(es)。study of 的出现频率比 study on 高。相反,research on 的搭配比 research of 多。虽然英、汉母语者对这二词的选词与搭配倾向总体一致,但是期刊论文语料库与学习者语料库的对比结果表明:英、汉语母语者在搭配用法的频次上存在显著差异,汉语母语者使用study on、research on 以及 research of 这三词的搭配显著高于英语母语者(p<0.05, 见表 1)。以英语母语者的语言使用为判断依据,可以得出这样的结论:汉语母语者过度使用上述三个名词与介词的搭配。此外,CQPweb 数据显示:在期刊论文语料库 373 例检索结果中,并无一例 researches,这说明英语母语者一般不用research 的复数形式。而在学习者语料库检索结果中,researches 出现频次高达 24(占 6.33%),这表明汉语母语者在一定程度上误用了 research 的单复数形式(数据未在表 1 展示)。

频次与搭配分析结果不言而喻地解决了学生写作中选词用语的困惑。CQPweb 分析数据呈现出英、汉母语者在语言使用上的差异,揭示出汉语母语者总体上存在对某些语言现象的过度使用或误用。该分析有利于学生提高其语言敏感性,使其有意识地在选词用语上接近英语母语者,从而提高语言使用的准确性和适切性,该分析也有利于教师提高教学针对性。

2.分布分析

本研究中的学术英语写作主要涉及科技英语论文写作。时态的使用时常困惑着科技论文的写作者。把握不同时态在科技论文各部分的总体分布, 有助于提高时态使用的准确性。现在时与过去时是科技英语论文最常用的两种时态,这两种时态在科技论文不同部分的分布情况如何呢?

科技英语论文常用被动语态,作为被动语态标志的 be 动词在科技论文中使用频繁,具有一定的代表性。我们不妨以 be 动词的现在时和过去时为例,研究两种时态在科技论文各部分的分布情况。 我们以 is 和 are 代表现在时(科技论文中少有 be 动词的第一人称单数形式am),以 was 和 were 代表过去时。CQPweb 的分布分析功能(distribution)以图表形式呈现出be 动词的现在时与过去时在论文各部分的分布情况如下:

图 1 显示:be 动词的现在时在讨论(DIS)、引言(INT)、结论(CON)部分用得较多,在结果(RES)使用较少,方法部分(MET)使用最少。图 2 的显示结果与图 1 互补:be 动词的过去时在方法部分(MET)使用最多,结果部分(RES)次之,在结论(CON)和讨论(DIS)部分较少。从 DDL 教学理念出发,在学生观察CQPweb 提供的数据及图表之后,教师应引导学生对数据进行讨论分析,以便学生自己发现时态使用的规律。讨论得出以下结论:时态的使用因论文各部分写作内容的差异而不同:方法部分主要描述实验材料的获取,陈述事件,因而多用过去式;结果部分描述瞬时观察到的事实与数据,具有时效性,因而多用过去式;结论部分描述对观察结果提炼后得出的一般规律,因而多用现在时。

传统教学中,时态的使用规律往往由教师传授,采用 DDL 学习方法后,语言使用规律通过学生自己观察、讨论而发现。数据驱动的探究式、发现式的 DDL 学习方式比教师的生硬灌输更能发挥学习者的主观能动性,促使学习者主动探究,有利于语言知识内化吸收。而 CQPweb 系统平台为 DDL 学习提供了便捷条件。

基于 HZAU CQPweb 的学术英语写作课程结束后,DDL 学习情况的问卷调查结果表明:总体来说,师生对教学中采用 CQPweb 持积极肯定的态度。师生一致认同:利用 CQPweb提供的语料库资源与工具,进行数据驱动学习,有利于提高教学的针对性和学生的语言意识、促进主动学习和知识内化。但是,HZAU CQPweb 的实际应用也表明:初次使用 CQPweb的师生普遍认为语料库检索操作仍然不够方便,对词汇层面以上语言现象的检索感觉困难。

五、结语

本 文 概 述 了 新 一 代 网 络 语 料 库 分 析 系统 CQPweb 的发展历程、功能优势、国内外CQPweb 的开发与应用。总体而言,CQPweb 在国外发展快,应用广,在国内处于起步阶段,尚 需 推 广。 本 文 以 HZAU CQPweb 为 例, 介绍了 CQPweb 的建设流程,包括建设的环境条件、技术要求、体系结构、管理权限等。HZAU CQPweb 建成后,应用于学术英语写作教学。应用研究表明,师生普遍认同 CQPweb 对写作教学的促进作用,支持基于 CQPweb 的数据驱动学习方式,同时,用户也反映 CQPweb 易用性有待进一步提高。目前,作为新生事物的 CQPweb的开发与应用发展迅速,几乎每月都有新版的CQPweb 推出(源自 CQPweb 系统信息)。国内学者应该实时跟进国外的新发展,同时也尝试开发一些本土化的分析功能,以满足国内基于网络语料库分析系统的语言教学与研究之需。

参考文献:
[1] Christ, O. A modular and flexible architecture for an integrated corpus query system [A]. In Papers in Computational Lexicography [C]. Budapest: COMPLEX.1994, 22-32.
[2] Evert, S. 2008. Inside the IMS Corpus Workbench [R]. Presentation at the IULA, Universitat Pompeu Fabra, Barcelona, Spain [OL]. http://cwb.sourceforge.net/files/Evert2008_InsideCWB.pdf, accessed 11/10/2012.
[3] Hardie, A. CQPweb – Combining power, flexibility and usability in a corpus analysis tool [J]. International Journal of Corpus Linguistics, 2012(3): 380-409.
[4] Johns, T. Should you be persuaded: Two examples of data-driven learning [J]. English Language Research Journal, 1991 (4): 1-16.
[5] Maatz, A. Use of the first-person pronoun in schizophrenia[J]. British Journal of Psychiatry, 2014 (5): 409-409.
[6] McEnery, T. & A. Hardie. Corpus Linguistics:Method, Theory and Practice [M]. Cambridge: Cambridge University Press. 2012.
[7] 许家金,吴良平 . 基于网络的第四代语料库分析工具 CQPweb 及应用实例 [J]. 外语电化教学,2014(5):10-15+56。

本文由 语料库 作者:Tmxchina 发表,其版权均为 语料库 所有,文章内容系作者个人观点,不代表 语料库 对观点赞同或支持。如需转载,请注明文章来源。
4

发表评论