语料库幻灯片课件

上传人:仙*** 文档编号:167490781 上传时间:2022-11-03 格式:PPT 页数:22 大小:442.50KB
收藏 版权申诉 举报 下载
语料库幻灯片课件_第1页
第1页 / 共22页
语料库幻灯片课件_第2页
第2页 / 共22页
语料库幻灯片课件_第3页
第3页 / 共22页
资源描述:

《语料库幻灯片课件》由会员分享,可在线阅读,更多相关《语料库幻灯片课件(22页珍藏版)》请在装配图网上搜索。

1、语料库与语料库应用语言学1.definitions2.charcateristics3.historical development4.Classification5.development tendency6.coupus-based teaching7.corpus-based translation8.some important figures1.1 corpus A collection of naturally occuring language data,chosen to characterize a state of variety of language.Sinclair

2、1991 指一个由大量语言实际使用的信息所组成的,专供语言研究,分析和描述的语言资料库。在随机采样的基础上收集人们实际使用的具有代表性的真实语言样本而创建起来的,是语言研究和教学的重要基础,是编写字典,语法书和教材的重要源泉。刘满堂 1 definitions1.2 Corpus linguistic CL uses large collections of both spoken and written natural texts that are stored on computer。什么是应用语言学入门 以真实的语料数据为研究对象(语料库),对大量语言事实进行系统分析,所研究的语言行为而

3、非语言能力,即通过考察语言的实际运用来寻找语言使用规律。刘满堂 2.1 分析自然语篇中语言运用的实际模式 语言的最终目的是成功交流,脱离了语境的语言研究,只关注语言的固定形式是没有意义的。2.2 使用庞大的,根据原则收集起来的自然语篇结合,即语料库为分析的基础2.3 广泛运用电脑进行分析,结合相关软件使用自动技术 为大量的数据化统计提供了手段,为定量研究提供了保证 Wordsmith,Tact,Mircoconcordance2 charcateristics2.4 人工分析仍是必要的 语料库所提供的频率信息知只是一个大体上的宏观把握 量,对这些信息还需要结合具体的研究任务进行有针对性地分析和

4、判断 质,从而得出结论。有量的统计分析和有质的研究分析 2.5 定量与定性相结合的方法研究相结合量化的说明对所评价的现象做出解释,提供了准确的宏观层面的特征,质的评价则可以反映事物的另一个方面,则补充性的提供了微观层面的特征。要想反映事物的全面情况,就应该把数量和质量结合起来评价。数量和质量是一个事物的两个方面,既没有离开数量的质量,也没有离开质量的数量。3.1 Foreign 起源动机:17C的时候,由于受到经验主义(empricism)经验主义通常指相信对现代科学方法,认为理论应建立于对于事物的观察,而不是直觉或迷信。意即通过实验研究而后进行理论推导优于单纯的逻辑推理 的影响,语言学的研究

5、开始重视观察自然发生的语料,开始大料的收集外部语言数据,在客观分析语言的基础上进行相关研究。3 historical development1)20C60S以前 手工语料库阶段(前电子,前计算机化,传统语料库)收集全真文本进行语言分析主要用于一些传统的领域 词典编纂,语法目的:1928 牛津英语字典 Oxford English Dictionary 1961 韦伯斯特新国际字典 Websters New International Dictionary教学为目的:1959 英语用法调查 The Survey of EEnglish Usage SEC 英国伦敦大学方言调查 英美两国都做过我国

6、的汉语方言学的第一部著作You 轩使者绝代语释别国方言杨雄 历经27年处于人工检索的初级阶段,制作周期长,检索效率低弊端计算机化语料库,现代语料库2)20C 60S80S60S初受到乔姆斯基的转换生成语法的影响,研究方法转为内省法第一代电子语料库 Brown Corpus 196-1964(Francais and Kucera)布朗大学当代美国英语标准语料库LOB语料库 The Lancaster-Oslo/Bergen Corpus 英国的兰卡斯特大学和挪威的奥斯陆大学 1970-1978LLC语料库 London-lund Corpus of Spoken English 瑞典的隆德大学

7、 口语语料库 1975 兰开斯特/IBM 英语口语语料库 Lancaster/IBM spoken English corpus弊端所含语料基本上为书面语料,口语语料库数量较少 不能做共时比较3)20C80S90S计算机的快速发展,研究者认识到内省法的不足 第二代电子语料库 COBUILD语料库 Collins BIirmingham University International Language Database 柯林斯伯明翰大学国际语言资料库 1980-1984英国国家语料库 British National Corpus 1991-1995 国际英语语料库 International

8、 Corpus of English 英国伦敦大学 Greenbaum 和美国的威斯康星-密尔沃基大学Meyer相对优势采用了更加先进的电脑技术,检索的速度和效率进一步提高,在研究目的上,二代以通用语料库为主应用范围也更加广阔4)20C90S第三代电子语库特点1语料:从单语到多语2数量:从百万级到千万级再到亿级和万亿级3加工:从词法级到句法级再到语义和语用级4文本:从抽样到全文特大型语料库动态监控语料库:可以实时记录语言变化,监控某种语言的发展过程 例如国际互联网上,英国的COBUILD语料库每周向电子邮件用户发送Word Watch 词语监控的邮件,报告社会用语的动态变化情况3.2 dome

9、stic70s末80s初兴起 1982 黄人杰和杨惠中 科技英语语料库(JDEST)语料库1989 中国石油大学 广州石油英语语料库 700篇英国英语和美国英语的书面文本1992 北京语言文化大学 当代北京口语语料库 收录了80年代北京人的口语录音1993 香港科技大学 计算机科学英语语料库 取材于 90年代早期所使用的166种计算机英语课本 1995 北京语言文化大学 现代汉语语法研究语料库 1996 广州外国语学院 中国学生交际英语语料库2003 桂诗春 杨惠中 中国英语学习者语料库 第一部公开发布的学习者语料库中文语言资源联盟 Chinese Linguistic Data Consor

10、tium Chinese LDC吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。方兴未艾 4 Classification1)用途:通用语料库 general corpus专用语料库 specialized corpus2)介质:文字语料库 声音语料库3)

11、语体:书面语料库 口语语料库4)时间:共时语料库 历时语料库5)状态:静态语料库 动态语料库6)语种:单语语料库 双语语料库 多语语料库 平行语料库parallel corpus 非平行语料库 母语语料库 外语学习者语料库learner corpus7)处理程度:生语语库 raw/untagged corpus 熟语语库(标注语料库)tagged/annotated corpus5.1 容量将进一步增大 计算机技术的不断发展,其储存容量也越来越大5.2 分析软件以及应用软件的开发和推广5.3 专用语料库的进一步发展,一些通用语料库无法深入分析某一专业领域的现象5.4 跨学科性进一步增强,与其他

12、领域相结合1)多模态语料库:收集数字化的语言和交流相关的材料,材料使用多种模态,预料不在限制于口笔文本,而包括视频,图片等媒体形式2)多纬度语料库:能使研究者从多个不同的角度去研究和语料库标注,例如语言中的地域和历史变化,通过跨学科研究,会产生新的研究方法和新的研究领域5 development tendency3)网络语料库:现代的一些网络领域,例如,电子邮件,博客.产生了一些网络语言5.5 自身学科地位的发展 Tognini Bonelli 2001 认为语料库只是一种应用前的方法论,并不只是真正意义上的科学领域,只不过为语言学的研究提供了一种方法论基础。corpus-based 基于语料

13、库的研究 即把语料库看成是一个工具,用来证实,解释某个以前就存在的语言学理论。corpus-driven语料库驱动 从原始语料出发,通过研究语料本身,发现探究新的语言理论,建立新的概念和范畴体系。这些表明,语料库语言学正在超越一种单纯的语言研究方法,具有自己的研究对象并且形成新的理论 6.1 充分利用当前已有的语料库6.2 教师6.3 学生6.4 国家加大投入力度,支持发展;将语料库列入到本科教育中6.5 自身实力的培养和提高(可以与他人建库享库,运用多模态语料库教学,提高课堂趣味性因材施教由被动转为主动,注重自身实践操作,充分利用网络相关资源6 coupus-based teaching7.

14、1 经验总结 译者往往分析不透彻,不深,理论体系也不健传统的翻译学研究 归纳思辨法 从实践中归纳翻译思辨,原则,规律(抽象总 结)重凝练重规约轻了描述和解释 总体评价宏观上把握 缺乏连贯性的体系特点模糊:抽象的定性概括,缺乏量的支持注重个人的翻译实践与经验,很难通过与他人进行对比,验证,假设,上升为理论7 corpus-based translation7.2 王克非、黄立波(2007)指出,语料库翻译研究“在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究”。1)corpus linguistic+traditional transla

15、tion 提供 翻译理论基础优势natural or authentic data 自然真实的语料数据emprical research 实证研究statistical+theorical analysis定量与定性2)当前,用于翻译学研究的语料库有平行语料库,翻译语料库,可比语料库和口译语料库等。现已建成的比较成熟的译学研究语料库有翻译英语语料库、Babel汉英平行语料库、北外双语对应语料库、中国法律法规汉英平行语料库、全国公示语翻译语料库、莎士比亚戏剧英汉平行语料库、奥斯陆多语语料库等,很多语料库资源是共享的,研究者可以根据需要选择合适的语料库3)发展前景 加强翻译学语料库的建设与应用,推

16、进资源共享 紧密结合翻译学的跨学科属性,结合语言学,文学,文化等理论对其进 行深 度研究 梁茂成北京外国语大学中国外语教育研究中心专职研究员、教授、博士生导师。研究兴趣:语料库语言学、计算语言学、第二语言习得、语言对比。Keywords plus,语料库研究中的主题词分析工具Chi-square and loglikelihood Calculator,卡方检验和对数似然率计算工具TreeTagger for Windows,(语料库词性标注工具TreeTagger的Windows界面)PatCount 1.0,文本特征分析及提取工具Colligator 1.0&2.0,语料库类联接分析工具8 some important figures胡开宝现任上海交通大学外国学院院长,上海交通大学翻译与词典学研究中心常务副主任在外语教学与研究、外国语、中国翻译和外语学刊等外语类核心期刊及CSSCI期刊,以及光明日报和中国教育报等重要报纸上发表学术论文近40篇,出版各类著作20余种,其中专著英汉词典历史文本与汉语现代化进程(上海译文出版社,2005)获上海市社科著作出版基金资助负责举办翻译与跨学科研究国际学术研讨会、语料库与译学研究国际学术研讨会和全国首届语料库翻译学研讨会等学术会议,并获得成功

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!