崔希亮:"全球汉语学习者语料库"建设方案

一、汉语中介语语料库建设现状

1.1

语料库的建设与作用

汉语中介语语料库的建设始于上世纪90年代,第一个语料库即北京语言学院于1995年建成的“汉语中介语语料库检索系统”。此后有南京师范大学的“外国学生汉语中介语偏误信息语料库”、中山大学的“留学生中介语语料库”、暨南大学华文学院的“留学生汉语中介语语料库”、北京语言大学的《HSK动态作文语料库》问世。目前还有一些语料库在建设中,例如北京语言大学的《首都外国留学生汉语文本语料库》。

这些语料库在对外汉语教学的相关研究中发挥了巨大作用。研究者通过这些语料库发现了前人未曾发现的一些语言现象,并把定性研究与定量研究相结合,使研究结论具有较强的客观性、普遍性和稳定性,极大地提高了对外汉语教学研究的水平。例如赵金铭教授主持的“基于中介语语料库的汉语句法研究”、张博教授主持的“基于中介语语料库的汉语词汇专题研究”、肖奚强教授主持的“外国学生汉语句式学习难度及分级排序研究”,都是基于语料库的具有代表性的研究成果。

1.2

语料库建设中存在的主要问题

数量较少,规模较小,语料不够全面;语料库建设没有统一标准,建库实践带有很强的随意性;功能不够完善,有些中介语现象检索不便,甚至无法检索;语料标注效率不高,标注质量存在一定问题;语料库资源尚不能充分共享(详见张宝林,2010)。

1.3

建设新语料库的设想

目前,汉语中介语语料库的建设已经为汉语的教学与研究带来了明显效益,引起了学界的广泛关注。但总体来看,汉语中介语语料库的建设还处于初创阶段,尚不能满足汉语教学与研究中的多种需要。

因此,我们试图建设一个语料样本多、规模大、来源广、阶段全、背景信息完备、标注内容全面、标注质量优异、设计周密、功能完善、检索便捷、向各界用户开放、能够反映各类汉语学习者的汉语学习过程与特征、可以满足任何研究需求的汉语中介语语料库,即“全球汉语学习者语料库”,以弥补现有语料库的不足,更好地为汉语教学与研究服务。

二 、“全球汉语学习者语料库”的基本内容

2.1

关于语料

2.1.1样本多:指语料作者众多,预期达到数万人。

2.1.2规模大:指语料数量大,预计规模为5000万字。其中书面表达生语料2500万字,熟语料2000万字,合计4500万字;口头表达生语料500万字,其中熟语料200万字,生语料300万字。在后续建设中,将逐渐把全部语料都加工为熟语料。

2.1.3来源广:指语料类型广泛。从表达方式看,有书面语语料,也有口语语料;从地域角度看,有来自中国大陆的外国汉语学习者产出的语料,也有在学习者本国或其他国家和地区学习汉语的学习者的语料;从学生类别角度看,有汉语言专业或中文专业的学生产出的语料,也有其他专业的学生的语料;有本科生、研究生的语料,也有长期进修生、短期进修生的语料;有华侨华裔学习者的语料,也有非华侨华裔学习者的语料;从文体角度看,有记叙文、议论文、说明文语料;从语料性质看,有平时的作业,有成绩考试试卷,有水平考试试卷;有作文,也有回答问题时的成段表达。

语料样本多、规模大、来源广给研究带来的直接效益是:可以使研究及其结论具有很强的客观性、普遍性与稳定性,所得到的结论不会因语料的变化而产生变异。由于“比较大的样本可以减低样本统计量的变异”(戴维·S.穆尔,2003:162),因而可以保证结论的可靠性。

2.1.4阶段全:指包括汉语学习的整个过程,即有初级、中级、高级等各个学习阶段的学习者的语料。因而既可以对各个阶段的学习者的学习情况进行横向的断面考察,也可以对学习的整个过程进行全面研究和对各个学习阶段进行对比分析。

2.1.5收集部分母语者语料:为了和母语者的汉语使用情况进行对比分析,还将收入部分母语者小学生、初中生、高中生的作文语料。

2.2

关于背景信息

(1)背景信息包括学生及语料的相关信息。

(2)学生信息包括:学生代码、性别、国籍、是否华裔、母语或第一语言、掌握的其他语言及程度,专业、年级、汉语学习时间、学习地点、学习目的;是否参加过HSK考试、作文考试分数、口语考试分数、考试总分、是否获得水平证书、证书等级。

(3)语料信息包括:标题、文体、字数下限、写作时间、写作地点(课上、课下、考场等)、得分。

2.3

关于标注

2.3.1标注模式:偏误标注+基础标注。

2.3.2偏误标注:指对字、词、短语、句、篇、标点符号的各种偏误的标注。

(1)汉字偏误标注,包括错字、别字、漏字、多字、繁体字、异体字、拼音字。

(2)词语偏误标注,包括错序词、错用词、离合词偏误、生造词、外文词、多词、缺词。

(3)短语偏误标注,包括词类搭配偏误、音节搭配偏误、用法搭配偏误、词语重叠偏误。

(4)句子偏误标注,包括各种句类、句型、句式、句子成分偏误、语序偏误、句式杂糅、未完句。

(5)语篇偏误标注,包括形式连接偏误、语义连接偏误。

(6)标点符号偏误标注,包括标点错误、标点缺失、标点多余。

2.3.3基础标注:指对语料中正确的语言现象的标注。

(1)分词及词类序列标注;

(2)句子成分序列标注;

(3)句类、句型、句式类别标注;

句类标注包括:陈述句、疑问句、祈使句、感叹句;

陈述句标注只对双重否定句进行标注,而肯定句、否定句则不进行标注;

疑问句标注包括:是非问句、特指问句、选择问句、正反问句、反问句;

句型标注包括:形容词谓语句、名词谓语句、主谓谓语句,动词主语句、形容词主语句,名词非主谓句、动词非主谓句、形容词非主谓句、叹词非主谓句、象声词非主谓句;而主谓句、动词谓语句不标。

句式包括:把字句、被字句、比字句、有字句、是字句、“是……的”句(一)、“是……的”句(二)、双宾语句、连字句、连动句、兼语句、存现句、重动句、供用句。

(4)语体标注:口语词、书面语词,口语句、书面语句。

(5)句标记标注:标示单句,据此可以得到全库句数。这样在基于语料库的相关研究中就可以在全部句子中得出偏误句所占比例,从而避免在全库字数中统计偏误句比例那样的不合逻辑的尴尬做法。

2.3.4标注方式:

(1)手工标注:根据目前标注的实际水平,在建库前期这将是主要的标注方式。

(2)尝试进行自动标注:

总结概括现有汉语中介语语料库中熟语料的偏误种类,建立偏误模型,先在小规模语料中试标并修改完善,然后对大规模语料实施标注。机器所做的各种标注还需经过人工校对与修改。

采用数字墨水技术进行标注。其优越性是可以直接在扫描版语料中勾画存在偏误的字、词、短语、句、篇、标点符号,并可以与录入版语料建立联系,使各种偏误可以在两版语料上同时体现,直接定位。这将为用户检索各类偏误带来极大的方便。(参张宝林,2010)

2.4

关于统计

2.4.1字信息统计:字量及字频、错字数量、别字数量、繁体字数量、异体字数量、拼音字数量。

2.4.2词信息统计:词量及词频统计、词类统计、各类熟语的数量统计、词的各类偏误统计。

2.4.3句信息统计:句量及句频统计、句类统计、句型统计、句式统计、各类偏误句统计。

2.4.4语篇信息统计:形式连接偏误统计、语义连接偏误统计。

2.4.5标点符号信息统计:各种标点符号的用量统计,各种标点符号的偏误统计。

2.5

关于库结构

2.5.1语料库包括5个子库:生语料库、熟语料库、统计信息库、相关信息库、母语者中小学生语料库。

(1)生语料库:存放未经任何标注的语料,但信息完备,可以按相关信息库提供的各种信息进行检索与输出。

(2)熟语料库:存放经过各种标注加工的语料。

(3)统计信息库:存放各种统计数据;

(4)相关信息库:存放学生信息和语料相关信息。

(5)母语者中小学生语料库:存放母语者中小学生产出的语料。

2.5.2生语料库有2个子库:文本语料库、口语语料库。

(1)文本语料库:存放书面表达形式的语料,即写作语料。其中部分语料有电子扫描版,可以直接呈现语料原貌,特别是可以为汉字研究提供原始素材。

(2)口语语料库:存放口头表达形式的语料,即口语语料。

2.5.3熟语料库有2个子库:偏误标注库、基础标注库。

(1)偏误标注库:存放从字、词、短语、句、篇、标点符号等角度进行偏误标注的语料。

(2)基础标注库:存放以句子为单位、经过分词及词类序列标注、句子成分序列标注、句类句型句式类别标注、语体信息标注、句标记标注的语料。

2.6

关于成果形式

(1)网络版语料库:放在专用网站上,用户注册后即可登录使用。

(2)单机版语料库:以光盘形式出版发行,供用户在网下使用。

三 、建库的基本原则

3.1

注重语料的真实性

语料录入采取“实录”原则,语料标注也要忠实原作,最大限度地保持语料原貌。录入时对语料不做任何修改订正,字、词、短语、句、篇、标点符号等方面的错误和书写格式均原样录入,以全面反映学生的实际语言表现。标注时除字、词方面的偏误需要“既标且改”以保证分词和标注词性的正确之外,短语、句、篇等方面的偏误均“只标不改”。

3.2

注重语料的平衡性与系统性

平衡性指不同类型的语料在分布上应尽可能均匀,也要根据实际情况有所区别。从学习阶段和年级角度看,初级、中级、高级3个学习阶段、四个年级的语料数量应完全相同。从国别角度看,有些国家的学生很少,语料要全部收入;有些国家的学生很多,语料必须有所删减。从文体角度看,叙述性语料占40%,议论性语料占40%,说明性语料占20%。

系统性指各类语料及其相关信息完备,且能一一对应。特别注重收集同一名学生/同一个学生群体在不同学习阶段/不同年级的语料。这样的语料能够反映学生的整个学习过程,在研究上有重要意义,也是本语料库的一大特色。

3.3

注重语料的动态性

语料可以按学期或学年充实与更新。

3.4

注重语料标注的全面性与科学性

语料标注内容全面,才能保证语料库功能的全面,才能避免以往研究中存在的某些语言现象无法查询的尴尬情况,从而更好地为汉语的教学与研究服务。毫无疑问,语料标注的全面性是以科学性为前提的。否则,再全面的标注也毫无意义。

3.5

注重语料库的界面友好,使用便捷

语料库结构清晰,界面简洁,响应迅捷,使用方便。

用户可以从国别/母语、年级/学习时间、华裔/非华裔、字、词、短语、句、篇、标点符号、语料性质、语体等各种角度,对语料中存在的各种偏误和正确表现进行检索查询。语料输出时还可以带有写作时间、地点、标题、文体、分数、HSK证书等级,以及语料作者的相关信息。

四、建库方式——多方合作,互利共赢

建库目标是通过学界的共同努力,建设一个最大最好的汉语中介语语料库,为全球的汉语教学与研究服务。显而易见,目前汉语中介语语料库建设普遍采用的“独家建设、自给自足”的个体生产方式与这一目标是不相适应的。因为一家的研究成果、实践经验和语料总是有限的,所建设的语料库也难免有所不足,很难使语料库建设达到一个很高的水平。因此,语料库建设应打开大门,与国内外汉语教学单位真诚合作,共襄盛举,互利共赢,实现最充分的资源共享。

语料是语料库建设的基础,合作应从语料开始。应广泛收集汉语中介语语料,包括国内外的、特别是欧美汉语学习者的语料。这样就可以改变汉语中介语语料库规模较小,语料不全的缺陷,建成一个面向全球、语料充足、可以满足一切相关研究需要的语料库。

合作方式可以是多种多样的。例如可以单纯提供语料,不同单位也可以根据自身条件各负责语料库建设的一个方面,已经建好的语料库还可以搭建语料库网,为用户提供最好最全的研究资源。

合作的前提是平等自愿、互利共赢。不论何种教学单位、不论以何种方式进行合作、不论做了何种具体工作,都是实际参加语料库建设的共建单位,都应在语料库的相关说明中予以公开标示;共建单位的任何人都可以高级用户身份无偿地使用语料库;如果需要,提供语料的单位可以获得一个用自己提供的语料建成的小型语料库,用来研究自己单位的教学情况,研究自己的学生的汉语习得情况。

我们设想成立一个面向国内外的“全球汉语学习者语料库建设委员会”,负责领导、设计、安排语料库建设的具体建设事宜。在学界同仁的支持与配合下,建设委员会经过周密策划,精心施工,一定可以实现既定的目标,建成一个最理想的汉语中介语语料库。

五、语料库的主要特点

(1)语料来源广,规模大,书面语口语并存,5000万字的规模在汉语中介语语料库中将是空前的,可以满足对外汉语教学与研究的任何需求。

(2)可以多方面反映外国汉语学习者的学习情况,开展多方面的研究。

例如可以对外国汉语学习者在初级、中级、高级等各个阶段的汉语习得情况进行横向的断面考察,也可以对他们从初级阶段到高级阶段的整个学习过程进行全面研究;可以考察非华人华裔学习者的汉语习得过程及特点,也可以研究海外华人华裔的汉语学习及使用情况。这样就可以对汉语学习者的习得情况得到一个真实、全面、具体、准确的认识,进而全面揭示学生的汉语学习规律,极大地提高对外汉语教学的效率与水平。

(3)语料标注方法具有前沿性。

汉语中介语语料库的语料标注一向采用手工方式或人标机助方式进行,本语料库则将以现有语料库为训练语料尝试自动标注,其效益一方面可以提高语料库的建设速度与水平,另一方面也将为汉语信息处理提供参考,起到一定的促进作用。

(4)进一步实践并验证“偏误标注+基础标注”标注模式。

张宝林(2008)提出了“偏误标注+基础标注”这一语料标注的新模式;在“首都外国留学生文本语料库”的建设中,我们采用了这一标注模式。实践证明,这一标注模式是可行的。这样标注语料将可以使研究者在考察各种语言偏误现象的同时,还可以看到学习者正确的语言表现,可以从各种角度对学生的汉语习得情况进行全方位的对比、考察与研究,彻底避免在以往的研究中存在的一些尴尬现象。例如查到了学生的偏误,却查不到学生相应的正确语言表现;查到了带有标志词的病句(例如“把”字句、“得”字补语句),却查不到回避了标志词的病句。从而使研究更全面,结论更可靠,使汉语教学与研究达到新的水平。

(5)语料库免费开放,为各界用户提供使用的方便。

本语料库建设周期预计为6年,随建设随开放,供各界用户研究使用(限于非商业目的)。语料库的最终目标是服务社会,服务于汉语国际推广事业。

六、建库的可行性

(1)基于大规模真实文本的、定量分析与定性分析相结合的研究方法正在逐渐成为汉语教学与习得研究的主要方法之一。(张宝林,2009)汉语中介语语料库的建设符合研究方法的这种转变与实际需要,因此,我们的建库设想得到了部分院校的大力支持。例如我们已得到北京语言大学、北京大学、中国人民大学、对外经贸大学、苏州大学、西北师范大学、哈佛大学等国内外高校的语料支持。学界同道的支持是我们建成语料库的根本保证。

(2)汉语中介语语料库经过十多年的建设,已经积累了比较丰富的实践经验。

例如,在语料标注方面,北语建设的《HSK动态作文语料库》和《首都外国留学生汉语文本语料库》共有500多万字的偏误标注语料和约100万字的基础标注语料,已经积累了比较丰富的标注经验和比较充足的熟语料积累,完全可以尝试进行计算机自动标注。

鉴于汉语篇章研究的不充分,外国汉语学习者汉语表达的不规范,以及自然赋码的实际水平(参杨惠中2002:30),在语料库的标注过程中由计算机自动标注的内容并不多,除分词与词性标注可以由机器自动完成之外(仍需人工校正),大部分标注任务需要由人工完成。例如语误附码目前尚需手工进行,极为费时费力。(王建新2002:70-71)但自动标注是方向,也是建设大规模语料库的客观需要。应该积极尝试,不断改进,以获取最终的成功。

(3)计算机软硬件技术的发展为语料库建设提供了必要的技术支持。例如计算机存储与运算技术所达到的水平使我们无需考虑语料库的容量大小,汉字自动识别与数字墨水技术为语料自动标注提供了技术保障。

(4)汉语中介语语料库的建设得到了国家相关机构的高度重视。例如在《2008年度国家社会科学基金项目/课题指南》中共有3处提到语料库。尤其是在“对外汉语教学研究”部分提出:“今后应以教学模式研究为突破口,取得教材的创新;以汉字研究为突破口,加强书面语的教学;以语料库建设和多媒体、网络教学等现代教育技术研究和运用为突破口,指导和带动教学理论、学习理论的研究。”这为汉语中介语语料库的建设提供了重要的政策支持。

综上所述,“全球汉语学习者语料库”已经充分具备了建库的主客观条件,完全具有实施建设的现实可行性。

七、结语

汉语中介语语料库在汉语教学与研究中发挥着越来越重要的作用,其价值正在被越来越多的人所认识。正如冯志伟先生所说(2006:14):“语料库是语言知识的宝库,是最重要的语言资源。”“语料库同时也是语言学家有力的研究工具。语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言‘直觉’和‘内省’判断,从而克服研究者本人的主观性和片面性,逐渐成为语言学研究的主流方法。……从某种意义上说,语料库的使用,是语言学研究的一次革命性的进步。”

鉴于汉语中介语语料库建设的现状,我们提出了“全球汉语学习者语料库”的建设构想,试图建设一个最大最好的汉语中介语语料库。我们真诚欢迎有志于此项事业的学界同仁参与我们的语料库建设,同心协力,共同奋斗,争取尽早建成我们共同的“全球汉语学习者语料库”,实现最充分的资源共享,为全球的汉语教学与研究服务。

参考文献

戴维·S.穆尔(2003)《统计学的世界》(第5版),北京:中信出版社。

冯志伟(2006)《应用语言学中的语料库·导读》,北京:世界图书出版公司。

王建新(2005)《计算机语料库的建设与应用》,北京:清华大学出版社。

杨惠中(2002)《语料库语言学导论》,上海:上海外语教育出版社。

张宝林(2008)“外国留学生汉语学习过程语料库”总体设计,见张普、徐娟、甘瑞媛主编《数字化汉语教学进展与深化》,北京:语文出版社。

张宝林(2009)汉语习得研究的现状与对策,“第四届韩汉语言对比国际学术研讨会”论文。

张宝林(2010)汉语中介语语料库建设的现状与对策,《语言文字应用》第3期。

选自《首届汉语中介语语料库建设与应用国际学术讨论会论文选集》

首届汉语中介语语料库建设与应用国际学术讨论会论文选集

编    者:肖奚强  张旺熹

I S B N:978-7-5100-3811-2

定    价:46.00元

一、汉语中介语语料库建设现状

1.1

语料库的建设与作用

汉语中介语语料库的建设始于上世纪90年代,第一个语料库即北京语言学院于1995年建成的“汉语中介语语料库检索系统”。此后有南京师范大学的“外国学生汉语中介语偏误信息语料库”、中山大学的“留学生中介语语料库”、暨南大学华文学院的“留学生汉语中介语语料库”、北京语言大学的《HSK动态作文语料库》问世。目前还有一些语料库在建设中,例如北京语言大学的《首都外国留学生汉语文本语料库》。

这些语料库在对外汉语教学的相关研究中发挥了巨大作用。研究者通过这些语料库发现了前人未曾发现的一些语言现象,并把定性研究与定量研究相结合,使研究结论具有较强的客观性、普遍性和稳定性,极大地提高了对外汉语教学研究的水平。例如赵金铭教授主持的“基于中介语语料库的汉语句法研究”、张博教授主持的“基于中介语语料库的汉语词汇专题研究”、肖奚强教授主持的“外国学生汉语句式学习难度及分级排序研究”,都是基于语料库的具有代表性的研究成果。

1.2

语料库建设中存在的主要问题

数量较少,规模较小,语料不够全面;语料库建设没有统一标准,建库实践带有很强的随意性;功能不够完善,有些中介语现象检索不便,甚至无法检索;语料标注效率不高,标注质量存在一定问题;语料库资源尚不能充分共享(详见张宝林,2010)。

1.3

建设新语料库的设想

目前,汉语中介语语料库的建设已经为汉语的教学与研究带来了明显效益,引起了学界的广泛关注。但总体来看,汉语中介语语料库的建设还处于初创阶段,尚不能满足汉语教学与研究中的多种需要。

因此,我们试图建设一个语料样本多、规模大、来源广、阶段全、背景信息完备、标注内容全面、标注质量优异、设计周密、功能完善、检索便捷、向各界用户开放、能够反映各类汉语学习者的汉语学习过程与特征、可以满足任何研究需求的汉语中介语语料库,即“全球汉语学习者语料库”,以弥补现有语料库的不足,更好地为汉语教学与研究服务。

二 、“全球汉语学习者语料库”的基本内容

2.1

关于语料

2.1.1样本多:指语料作者众多,预期达到数万人。

2.1.2规模大:指语料数量大,预计规模为5000万字。其中书面表达生语料2500万字,熟语料2000万字,合计4500万字;口头表达生语料500万字,其中熟语料200万字,生语料300万字。在后续建设中,将逐渐把全部语料都加工为熟语料。

2.1.3来源广:指语料类型广泛。从表达方式看,有书面语语料,也有口语语料;从地域角度看,有来自中国大陆的外国汉语学习者产出的语料,也有在学习者本国或其他国家和地区学习汉语的学习者的语料;从学生类别角度看,有汉语言专业或中文专业的学生产出的语料,也有其他专业的学生的语料;有本科生、研究生的语料,也有长期进修生、短期进修生的语料;有华侨华裔学习者的语料,也有非华侨华裔学习者的语料;从文体角度看,有记叙文、议论文、说明文语料;从语料性质看,有平时的作业,有成绩考试试卷,有水平考试试卷;有作文,也有回答问题时的成段表达。

语料样本多、规模大、来源广给研究带来的直接效益是:可以使研究及其结论具有很强的客观性、普遍性与稳定性,所得到的结论不会因语料的变化而产生变异。由于“比较大的样本可以减低样本统计量的变异”(戴维·S.穆尔,2003:162),因而可以保证结论的可靠性。

2.1.4阶段全:指包括汉语学习的整个过程,即有初级、中级、高级等各个学习阶段的学习者的语料。因而既可以对各个阶段的学习者的学习情况进行横向的断面考察,也可以对学习的整个过程进行全面研究和对各个学习阶段进行对比分析。

2.1.5收集部分母语者语料:为了和母语者的汉语使用情况进行对比分析,还将收入部分母语者小学生、初中生、高中生的作文语料。

2.2

关于背景信息

(1)背景信息包括学生及语料的相关信息。

(2)学生信息包括:学生代码、性别、国籍、是否华裔、母语或第一语言、掌握的其他语言及程度,专业、年级、汉语学习时间、学习地点、学习目的;是否参加过HSK考试、作文考试分数、口语考试分数、考试总分、是否获得水平证书、证书等级。

(3)语料信息包括:标题、文体、字数下限、写作时间、写作地点(课上、课下、考场等)、得分。

2.3

关于标注

2.3.1标注模式:偏误标注+基础标注。

2.3.2偏误标注:指对字、词、短语、句、篇、标点符号的各种偏误的标注。

(1)汉字偏误标注,包括错字、别字、漏字、多字、繁体字、异体字、拼音字。

(2)词语偏误标注,包括错序词、错用词、离合词偏误、生造词、外文词、多词、缺词。

(3)短语偏误标注,包括词类搭配偏误、音节搭配偏误、用法搭配偏误、词语重叠偏误。

(4)句子偏误标注,包括各种句类、句型、句式、句子成分偏误、语序偏误、句式杂糅、未完句。

(5)语篇偏误标注,包括形式连接偏误、语义连接偏误。

(6)标点符号偏误标注,包括标点错误、标点缺失、标点多余。

2.3.3基础标注:指对语料中正确的语言现象的标注。

(1)分词及词类序列标注;

(2)句子成分序列标注;

(3)句类、句型、句式类别标注;

句类标注包括:陈述句、疑问句、祈使句、感叹句;

陈述句标注只对双重否定句进行标注,而肯定句、否定句则不进行标注;

疑问句标注包括:是非问句、特指问句、选择问句、正反问句、反问句;

句型标注包括:形容词谓语句、名词谓语句、主谓谓语句,动词主语句、形容词主语句,名词非主谓句、动词非主谓句、形容词非主谓句、叹词非主谓句、象声词非主谓句;而主谓句、动词谓语句不标。

句式包括:把字句、被字句、比字句、有字句、是字句、“是……的”句(一)、“是……的”句(二)、双宾语句、连字句、连动句、兼语句、存现句、重动句、供用句。

(4)语体标注:口语词、书面语词,口语句、书面语句。

(5)句标记标注:标示单句,据此可以得到全库句数。这样在基于语料库的相关研究中就可以在全部句子中得出偏误句所占比例,从而避免在全库字数中统计偏误句比例那样的不合逻辑的尴尬做法。

2.3.4标注方式:

(1)手工标注:根据目前标注的实际水平,在建库前期这将是主要的标注方式。

(2)尝试进行自动标注:

总结概括现有汉语中介语语料库中熟语料的偏误种类,建立偏误模型,先在小规模语料中试标并修改完善,然后对大规模语料实施标注。机器所做的各种标注还需经过人工校对与修改。

采用数字墨水技术进行标注。其优越性是可以直接在扫描版语料中勾画存在偏误的字、词、短语、句、篇、标点符号,并可以与录入版语料建立联系,使各种偏误可以在两版语料上同时体现,直接定位。这将为用户检索各类偏误带来极大的方便。(参张宝林,2010)

2.4

关于统计

2.4.1字信息统计:字量及字频、错字数量、别字数量、繁体字数量、异体字数量、拼音字数量。

2.4.2词信息统计:词量及词频统计、词类统计、各类熟语的数量统计、词的各类偏误统计。

2.4.3句信息统计:句量及句频统计、句类统计、句型统计、句式统计、各类偏误句统计。

2.4.4语篇信息统计:形式连接偏误统计、语义连接偏误统计。

2.4.5标点符号信息统计:各种标点符号的用量统计,各种标点符号的偏误统计。

2.5

关于库结构

2.5.1语料库包括5个子库:生语料库、熟语料库、统计信息库、相关信息库、母语者中小学生语料库。

(1)生语料库:存放未经任何标注的语料,但信息完备,可以按相关信息库提供的各种信息进行检索与输出。

(2)熟语料库:存放经过各种标注加工的语料。

(3)统计信息库:存放各种统计数据;

(4)相关信息库:存放学生信息和语料相关信息。

(5)母语者中小学生语料库:存放母语者中小学生产出的语料。

2.5.2生语料库有2个子库:文本语料库、口语语料库。

(1)文本语料库:存放书面表达形式的语料,即写作语料。其中部分语料有电子扫描版,可以直接呈现语料原貌,特别是可以为汉字研究提供原始素材。

(2)口语语料库:存放口头表达形式的语料,即口语语料。

2.5.3熟语料库有2个子库:偏误标注库、基础标注库。

(1)偏误标注库:存放从字、词、短语、句、篇、标点符号等角度进行偏误标注的语料。

(2)基础标注库:存放以句子为单位、经过分词及词类序列标注、句子成分序列标注、句类句型句式类别标注、语体信息标注、句标记标注的语料。

2.6

关于成果形式

(1)网络版语料库:放在专用网站上,用户注册后即可登录使用。

(2)单机版语料库:以光盘形式出版发行,供用户在网下使用。

三 、建库的基本原则

3.1

注重语料的真实性

语料录入采取“实录”原则,语料标注也要忠实原作,最大限度地保持语料原貌。录入时对语料不做任何修改订正,字、词、短语、句、篇、标点符号等方面的错误和书写格式均原样录入,以全面反映学生的实际语言表现。标注时除字、词方面的偏误需要“既标且改”以保证分词和标注词性的正确之外,短语、句、篇等方面的偏误均“只标不改”。

3.2

注重语料的平衡性与系统性

平衡性指不同类型的语料在分布上应尽可能均匀,也要根据实际情况有所区别。从学习阶段和年级角度看,初级、中级、高级3个学习阶段、四个年级的语料数量应完全相同。从国别角度看,有些国家的学生很少,语料要全部收入;有些国家的学生很多,语料必须有所删减。从文体角度看,叙述性语料占40%,议论性语料占40%,说明性语料占20%。

系统性指各类语料及其相关信息完备,且能一一对应。特别注重收集同一名学生/同一个学生群体在不同学习阶段/不同年级的语料。这样的语料能够反映学生的整个学习过程,在研究上有重要意义,也是本语料库的一大特色。

3.3

注重语料的动态性

语料可以按学期或学年充实与更新。

3.4

注重语料标注的全面性与科学性

语料标注内容全面,才能保证语料库功能的全面,才能避免以往研究中存在的某些语言现象无法查询的尴尬情况,从而更好地为汉语的教学与研究服务。毫无疑问,语料标注的全面性是以科学性为前提的。否则,再全面的标注也毫无意义。

3.5

注重语料库的界面友好,使用便捷

语料库结构清晰,界面简洁,响应迅捷,使用方便。

用户可以从国别/母语、年级/学习时间、华裔/非华裔、字、词、短语、句、篇、标点符号、语料性质、语体等各种角度,对语料中存在的各种偏误和正确表现进行检索查询。语料输出时还可以带有写作时间、地点、标题、文体、分数、HSK证书等级,以及语料作者的相关信息。

四、建库方式——多方合作,互利共赢

建库目标是通过学界的共同努力,建设一个最大最好的汉语中介语语料库,为全球的汉语教学与研究服务。显而易见,目前汉语中介语语料库建设普遍采用的“独家建设、自给自足”的个体生产方式与这一目标是不相适应的。因为一家的研究成果、实践经验和语料总是有限的,所建设的语料库也难免有所不足,很难使语料库建设达到一个很高的水平。因此,语料库建设应打开大门,与国内外汉语教学单位真诚合作,共襄盛举,互利共赢,实现最充分的资源共享。

语料是语料库建设的基础,合作应从语料开始。应广泛收集汉语中介语语料,包括国内外的、特别是欧美汉语学习者的语料。这样就可以改变汉语中介语语料库规模较小,语料不全的缺陷,建成一个面向全球、语料充足、可以满足一切相关研究需要的语料库。

合作方式可以是多种多样的。例如可以单纯提供语料,不同单位也可以根据自身条件各负责语料库建设的一个方面,已经建好的语料库还可以搭建语料库网,为用户提供最好最全的研究资源。

合作的前提是平等自愿、互利共赢。不论何种教学单位、不论以何种方式进行合作、不论做了何种具体工作,都是实际参加语料库建设的共建单位,都应在语料库的相关说明中予以公开标示;共建单位的任何人都可以高级用户身份无偿地使用语料库;如果需要,提供语料的单位可以获得一个用自己提供的语料建成的小型语料库,用来研究自己单位的教学情况,研究自己的学生的汉语习得情况。

我们设想成立一个面向国内外的“全球汉语学习者语料库建设委员会”,负责领导、设计、安排语料库建设的具体建设事宜。在学界同仁的支持与配合下,建设委员会经过周密策划,精心施工,一定可以实现既定的目标,建成一个最理想的汉语中介语语料库。

五、语料库的主要特点

(1)语料来源广,规模大,书面语口语并存,5000万字的规模在汉语中介语语料库中将是空前的,可以满足对外汉语教学与研究的任何需求。

(2)可以多方面反映外国汉语学习者的学习情况,开展多方面的研究。

例如可以对外国汉语学习者在初级、中级、高级等各个阶段的汉语习得情况进行横向的断面考察,也可以对他们从初级阶段到高级阶段的整个学习过程进行全面研究;可以考察非华人华裔学习者的汉语习得过程及特点,也可以研究海外华人华裔的汉语学习及使用情况。这样就可以对汉语学习者的习得情况得到一个真实、全面、具体、准确的认识,进而全面揭示学生的汉语学习规律,极大地提高对外汉语教学的效率与水平。

(3)语料标注方法具有前沿性。

汉语中介语语料库的语料标注一向采用手工方式或人标机助方式进行,本语料库则将以现有语料库为训练语料尝试自动标注,其效益一方面可以提高语料库的建设速度与水平,另一方面也将为汉语信息处理提供参考,起到一定的促进作用。

(4)进一步实践并验证“偏误标注+基础标注”标注模式。

张宝林(2008)提出了“偏误标注+基础标注”这一语料标注的新模式;在“首都外国留学生文本语料库”的建设中,我们采用了这一标注模式。实践证明,这一标注模式是可行的。这样标注语料将可以使研究者在考察各种语言偏误现象的同时,还可以看到学习者正确的语言表现,可以从各种角度对学生的汉语习得情况进行全方位的对比、考察与研究,彻底避免在以往的研究中存在的一些尴尬现象。例如查到了学生的偏误,却查不到学生相应的正确语言表现;查到了带有标志词的病句(例如“把”字句、“得”字补语句),却查不到回避了标志词的病句。从而使研究更全面,结论更可靠,使汉语教学与研究达到新的水平。

(5)语料库免费开放,为各界用户提供使用的方便。

本语料库建设周期预计为6年,随建设随开放,供各界用户研究使用(限于非商业目的)。语料库的最终目标是服务社会,服务于汉语国际推广事业。

六、建库的可行性

(1)基于大规模真实文本的、定量分析与定性分析相结合的研究方法正在逐渐成为汉语教学与习得研究的主要方法之一。(张宝林,2009)汉语中介语语料库的建设符合研究方法的这种转变与实际需要,因此,我们的建库设想得到了部分院校的大力支持。例如我们已得到北京语言大学、北京大学、中国人民大学、对外经贸大学、苏州大学、西北师范大学、哈佛大学等国内外高校的语料支持。学界同道的支持是我们建成语料库的根本保证。

(2)汉语中介语语料库经过十多年的建设,已经积累了比较丰富的实践经验。

例如,在语料标注方面,北语建设的《HSK动态作文语料库》和《首都外国留学生汉语文本语料库》共有500多万字的偏误标注语料和约100万字的基础标注语料,已经积累了比较丰富的标注经验和比较充足的熟语料积累,完全可以尝试进行计算机自动标注。

鉴于汉语篇章研究的不充分,外国汉语学习者汉语表达的不规范,以及自然赋码的实际水平(参杨惠中2002:30),在语料库的标注过程中由计算机自动标注的内容并不多,除分词与词性标注可以由机器自动完成之外(仍需人工校正),大部分标注任务需要由人工完成。例如语误附码目前尚需手工进行,极为费时费力。(王建新2002:70-71)但自动标注是方向,也是建设大规模语料库的客观需要。应该积极尝试,不断改进,以获取最终的成功。

(3)计算机软硬件技术的发展为语料库建设提供了必要的技术支持。例如计算机存储与运算技术所达到的水平使我们无需考虑语料库的容量大小,汉字自动识别与数字墨水技术为语料自动标注提供了技术保障。

(4)汉语中介语语料库的建设得到了国家相关机构的高度重视。例如在《2008年度国家社会科学基金项目/课题指南》中共有3处提到语料库。尤其是在“对外汉语教学研究”部分提出:“今后应以教学模式研究为突破口,取得教材的创新;以汉字研究为突破口,加强书面语的教学;以语料库建设和多媒体、网络教学等现代教育技术研究和运用为突破口,指导和带动教学理论、学习理论的研究。”这为汉语中介语语料库的建设提供了重要的政策支持。

综上所述,“全球汉语学习者语料库”已经充分具备了建库的主客观条件,完全具有实施建设的现实可行性。

七、结语

汉语中介语语料库在汉语教学与研究中发挥着越来越重要的作用,其价值正在被越来越多的人所认识。正如冯志伟先生所说(2006:14):“语料库是语言知识的宝库,是最重要的语言资源。”“语料库同时也是语言学家有力的研究工具。语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言‘直觉’和‘内省’判断,从而克服研究者本人的主观性和片面性,逐渐成为语言学研究的主流方法。……从某种意义上说,语料库的使用,是语言学研究的一次革命性的进步。”

鉴于汉语中介语语料库建设的现状,我们提出了“全球汉语学习者语料库”的建设构想,试图建设一个最大最好的汉语中介语语料库。我们真诚欢迎有志于此项事业的学界同仁参与我们的语料库建设,同心协力,共同奋斗,争取尽早建成我们共同的“全球汉语学习者语料库”,实现最充分的资源共享,为全球的汉语教学与研究服务。

参考文献

戴维·S.穆尔(2003)《统计学的世界》(第5版),北京:中信出版社。

冯志伟(2006)《应用语言学中的语料库·导读》,北京:世界图书出版公司。

王建新(2005)《计算机语料库的建设与应用》,北京:清华大学出版社。

杨惠中(2002)《语料库语言学导论》,上海:上海外语教育出版社。

张宝林(2008)“外国留学生汉语学习过程语料库”总体设计,见张普、徐娟、甘瑞媛主编《数字化汉语教学进展与深化》,北京:语文出版社。

张宝林(2009)汉语习得研究的现状与对策,“第四届韩汉语言对比国际学术研讨会”论文。

张宝林(2010)汉语中介语语料库建设的现状与对策,《语言文字应用》第3期。

选自《首届汉语中介语语料库建设与应用国际学术讨论会论文选集》

首届汉语中介语语料库建设与应用国际学术讨论会论文选集

编    者:肖奚强  张旺熹

I S B N:978-7-5100-3811-2

定    价:46.00元


相关内容

  • 汉语在国际地位中的发展趋势
  • 汉语在国际地位中的发展趋势 摘要:随着中国经济的发展,汉语也不断发展.汉语的国际影响力日趋增加,在国际中的地位也日益提高,真可谓国强语盛.目前汉语成为国际强势交流语言已成趋势,但真正让汉语成为国际强势交流语言,还有很远的距离.为此,我们必须研究了解汉语目前所处国际地位,与强势交流语言英语相比较,客观 ...

  • 2005年中国语言生活状况报告
  • 访谈(五) 语言文字信息管理司王铁琨副司长 谈2005年中国语言生活状况报告 2006-11-10 [王铁琨]很高兴在这里跟各位网友一道交流"2005年中国语言生活状况报告"及其有关的一些问题.前不久我被派到外地学习了一段时间,刚回来,所以访谈推迟了一些天,请大家原谅.现在回答大 ...

  • 中国语言生活状况报告(2006)总述
  • 来源:中国语言生活状况报告(2006)上编,1-16页 总述 2006年中国语言生活生机盎然,语言文字观念正在发生重大变化. 新事物如雨后春笋,新观念不断涌现,社会的快速进步和思想的空前活跃,带来了大量新词语和词语的新用法,带来了话语表达方式的不断更新变化,并围绕社会热点常常形成流行语.伴随着通信. ...

  • 国内英汉双语平行语料库建构与研究现状及展望_黄立波
  • 第1期 2013年1月 当代外语研究 No.1 Jan.2013·45· 主持人语: ().印象式"imressionistic 传统翻译研究因其"p "()随感式"的研究方式而被认为有失严essaisticy谨.二战后,语言学派翻译研究横空出世,从语音到语篇 ...

  • 跨入新世纪后我国汉语应用研究的三个主要方面
  • 作者:陆俭明 <中国语文> 2001年03期 0 引言 <中国语文>2000年第1期在"本刊编辑部"的文章<迎接新世纪>里,把"加强语言本体研究与语言应用研究的沟通"列为<中国语文>编辑部在新世纪"特别 ...

  • 语料库研究综述
  • 语料库研究与应用综述 目录 一概述 二中国语料库建设的基本情况 三语料库的加工.管理和规范 四语料库在语言研究中的的应用 五参考文献 语料库研究与应用综述 一概述 语料库通常指为语言研究收集的.用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体.经过科学选 ...

  • 谷歌翻译将升级:实时听译并转文字|谷歌|翻译|Skype
  • 查看最新行情 导语:<纽约时报>网络版周日刊文称,Skype近期开始测试英语和西班牙语之间的实时语音翻译,而谷歌也将对翻译应用进行升级.这表明,全球主要科技公司仍在继续尝试消除人们之间沟通的主要障碍,并已经取得了不错的成果. 以下为文章全文: 科技行业正在竭尽全力推翻阻碍全球之间相互交流 ...

  • [转载]语言学参考书籍
  • 语言学.语用学.翻译.跨文化交际.二语习得.测试.教学法等方向的参考书籍 社会心理语言学 上海外教 王德春 2000 对比语言学概论 上海外教 许余龙 2000 语义学 上海外教 李瑞华 2000 语义理论与语言教学 上海外教 王 寅 2001 国俗语义研究 上海外教 吴友富 1999 当代西方语法 ...

  • 自然语言处理技术综述
  • [摘要]自然语言处理技术的发展,最终导致计算机拥有了客观的信息处理功能.本文主要介绍了自然语言处理与中文信息处理发展情况.介绍了自动分词技术的发展概况,一些常用的中文自动分词方法以及目前已经实现的一些分词系统.探讨了自然语言处理技术,特别是自动分词技术,在对外汉语教学的实践中应用的可能性. [关键词 ...