计算语言学导论

上传人:jin****ng 文档编号:183681476 上传时间:2023-01-31 格式:DOCX 页数:5 大小:126.90KB
收藏 版权申诉 举报 下载
计算语言学导论_第1页
第1页 / 共5页
计算语言学导论_第2页
第2页 / 共5页
计算语言学导论_第3页
第3页 / 共5页
资源描述:

《计算语言学导论》由会员分享,可在线阅读,更多相关《计算语言学导论(5页珍藏版)》请在装配图网上搜索。

1、第一章计算语言学导论计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立 形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和 处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。计算语言学的研究内容:(1)从计算的角度来研究语言的性质( 2)将语言 作为计算对象来研究相应的算法。从计算角度研究语言:所谓从计算的角度来看语言的性质,就是要求将人们 对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不 是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形 式。将语言作为计算对象来研究相应的算法

2、,是研究如何以机械的、规定了 严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式 语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识 别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言1. 有限状态自动机(FSA)的形式定义:一个有限状态自动机M是一个五元组:(Q,红qO, F, 6) 有限个状态组成的状态集: Q有限字母组成的字母表:工开始状态qO三Q终止状态的集合 F Q状态转移函数6 (q,i): Q xZ fQ但是FSA:无法描述自然语言的层次结构特性2. 上下文无关文法字母表:有限个任意符号组成的非空集合Z 例 1:所有汉字

3、组成的集合构成一个字母表。 例 2:汉语中所有的词也构成一个字母表。 例3:字母a, b, c也组成一个字母表。字符串:由字母表Z上的字符组成的长度有限的序列 若字母表Z = a, b,则 a, b, ab, aba, aabb 等等 都是字母表上的字符串。语言:是字母表上的字符串的任意集合。3. 形式文法:形式文法:一个形式文法G由四个部分组成,可记作G=VN , VT , S , P , 其中:VN :称为文法G的非终结符号字母表,VN不出现在G所表示的语言集合的句子中;VT :称为文法G的终结符号字母表,G所表示的语言的句子由VT中的元 素组成,VN nVT =(p ;S :代表句子符号

4、,se VN。P :代表一组式子组成的集合,P中的式子具有如下形式:a p4产生式规则(production rule)a p 重写规则(rewriting rule)产生式需要满足下面的条件:1) a可以是VN和VT上的任意字符串,不能是空字符;2) p可以是VN和VT上的任意字符串,可以是空字符;3) P中至少有一个产生式中的a得由S来充当;5. 对产生式规则a p做如下约定:这样的形式文法就是“上下文无关文法”例子:一个上下文无关文法的例子设文法 GO = (VN, VT, S, P ),其中 VN = S, NP, VP, N, V ,VT = 喜欢,知 道, 董永, 七仙女,P 中产

5、生式如下:1. S - NP VP4. VP - V7. N - 七仙女2. VP - VP NP5. NP - N8. V - 喜欢3. VP - VP S6. N - 董永9. V - 知道直接推导: S = NP VP推导: S= NP VP = NP V = N V上式可以简写为: S *N V句型: NP VP , NP V, N V, 是 GO 的句型句子:仅含终结符号的句型, N V语言:给定一个文法GO,该文法所产生的所有句子组成的集合,称为该文 法所定义的语言S8董永5 NPN69NP14 N12 V10 N1知道句法结构分析树喜欢七仙女6. 文法的三个作用:生成;产生语言L

6、中所有的句子;判定:一个字符串(String)是否属于语言L;分析:得到 L 中句子的结构树7. 范畴划分有不同的颗粒度和不同的角度8. 特征结构与合一运算(引入特征结构弥补简单范畴的不足) 特征结构(Feature Structure)复杂特征集(Complex Feature Set) 特征结构定义为“特征”的集合所谓“特征”,是一个由“属性”和“值”组成的二元组,“属性”也称 为“特征名”,“值”也称为“特征值”在特征结构中,要求所有的“特征”的“属性”互不相同 空特征结构:不含任何特征的特征结构 引入特征结构弥补简单范畴的不足9. 特征结构的嵌套与共享1) “特征值”可以是一个字符串值

7、或数值等简单类型,也可以是另一个特 征结构,这就是所谓的特征结构的“嵌套” ;为了区别于特征结构形式的特征 值,我们把简单的字符串形式的特征值称为原子2 )两个特征可以共享一个值,这是所谓的特征值的“共享”(也称为“重 入”)。特征结构不例(框式表不法)主语:词语:听听 词性:动词 重叠:是音节:2a.简单 特征结构谓语:词语:董永 词性:名词 数:单数述语:宾语:词语:喜欢 词性:动词 词语:七仙女 词性:名词 数:单数b.复杂特征结 构(嵌套)论元词语:喜欢词性动词词语:董永 词性名诃 词谨七仙女 词性:名词施事:受事:c.复杂 特征结构特征结构的表表示法(主语: (词语:董永)(词性:名

8、词)(数:单数)(谓语: (述语:(词语:喜欢)(词性:动词)(宾语:(词语:七仙女)(词性:名词)(数:单数)特征结构的图表示法寫词数机谓语主语边(edge)表示持征节点(node)表示特征ffl述语宾语叫O七仙立名词.O词性帝永两个特征结构的值共享:例子:He is a student.在特征结构表示中, 一般用数字表示重入 的特征结构在重入的多个特征结 构中,只需在一处说 明其特征值zrat:Vlex:beper:3 uum: singular sub:SEM=ICONJSEM =田argcat:Nftigi:at:V lex:答应“同慧湘“答应啲区别urgi:cat:Ncat:V le

9、蓋:同意cat:N哑:cat:V:SITgJ arg5:cat:Nflt:V 刊理工:我我aigaigarg3args同意答应叨天明天你NP匸特征结构间的包孕关系subsum ption特征结构Fl包孕F2,记作F匕F2 ,当且仅当(1) 若特征,则/話2 ,并且(2) 若f的值是特征结构,则valued/) valueF2(f)(3) 若f的值是简单原子,则vaJueFl(f) = valueF2(f) 空特征结构包孕任何特征结构Number SG特征结构的共享(有向图表示)Number SGPERSON 3Agree NumbersgRNimiber SGPERSON 3NumberPERSON

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!