泰米尔文英文翻译

上传人:daj****de2 文档编号:126577529 上传时间:2022-07-28 格式:DOCX 页数:5 大小:16.99KB
收藏 版权申诉 举报 下载
泰米尔文英文翻译_第1页
第1页 / 共5页
泰米尔文英文翻译_第2页
第2页 / 共5页
泰米尔文英文翻译_第3页
第3页 / 共5页
资源描述:

《泰米尔文英文翻译》由会员分享,可在线阅读,更多相关《泰米尔文英文翻译(5页珍藏版)》请在装配图网上搜索。

1、基于向量空间模型和人工神经网络的泰米尔语文件的自动分类摘要:基于向量空间模型( VSM ) ,人工神经网络( ANN ) , K 近邻( KNN ) , Naives贝叶斯(NB)和支持向量机(SVM )模型的自动文本分类已经被应用于 英语语言的文件,并在文本挖掘和信息检索( IR )研究人员当中很流行。本文 提出了 VSM 人工神经网络在泰米尔语的分类当中的应用文档。泰米尔语是形态 丰富的达罗毗荼古典语言。互联网的发展导致了一个潜在的增长在电子文档的 数量上,这些电子文档不仅仅是用英语写的,也包括用其他区地区性语言写的。 泰米尔语的文档至今没有详细的自动分类。在本文中,语料库是用近于构建和

2、测试 VSM 和人工神经网络的模型。反映每一项重要性的文档表示,分配权重, 的方法都被讨论了。在传统的基于字匹配分类系统,最流行的文档表示为 VSM 。 该方法需要一个高维空间中表示的文件。人工神经网络分类器需要较少的特点。 实验结果表明,人工神经网络模型达到 93.33 ,比对泰米尔文档分类收益率 90.33 的 VSM 的表现还要好。2009Elsevier 公司保留所有权利1 介绍:今天,大量网上的文档,电子书,期刊文章,技术报告和数字图书馆的信息在 网上是可用的。此内容的主要部分是用自然语言主要是英语写的自由格式文本 互联网的发展导致了一个潜在的增长,在电子文本的数量上,这些电子文本不

3、 仅仅是用英语写的,也有的是用其他的地区性语言写的,因此,对自动文档分 类的需求是非常快速增长的。自动文档分类是一项任务,这项任务的目的是将预先定义的类分配给事先未被 定义的文档,当一个未知的文档被给予系统时,系统会把与他最匹配的类分给 它,在有效率的文档管理中文本数据分类是非常具有现实意义的。特别是,随 着可获得的网上信息的日益增多,在没有适当的分类的情况下,管理和检索这些文档是非常困难的。有 2 种主要的文档分类方法监督和无监督学习,在监督学习中分类器是首先被 训练用许多训练行的数据,在这些训练性数据当中文档时用他们的类进行划分 的,然后这这些被训练的系统被用来给新的文档进行分类,这些未被

4、监督的学 习方法主要是基于聚类的。由于信息技术的快速发展,关于文档分类的额外研究也已经被开展起来,许多 统计和机器学习已经被应用于文档分类上例如 KNN (Chiang & Chen, 2001), NB (Tan, 2005), SVM (Joachims, 1998), Neural network (Lin & Chen, 1996; Miguel & Padmini, 1998), 等。在监督行性学习方法当中最受欢迎的方式之一就是VSM,他是基于分配权重正比 于现在的类词的文档频率给其余的类别。在 VSM 表示文本文件,向量,其中每 个不同的单词是一个单独的组件。它分配一些权重向量的每

5、个分量视该组件的 重要性。支持向量机的应用是最重要的进展之一 文档分类,这是非常流行和被证明是 一个用于文档分类(塞巴斯蒂亚尼最好的算法, 2002 年)。神经网络也是一种 流行的分类方法,它 可以处理线性和非线性问题,文档分类,无论是线性和非 线性分类器取得了良好的结果(郑华不久 Choel, 2006)。对于神经网络, 训练文档和测试文档表示为向量输入矢量和相应的目标矢量用来训练,直到它 可以逼近一个函数,联营输入向量与特定目标的载体。文本的自动分类中起着 的主要作用语料库的建设进程。提供的文件可以在网上通过这些文件的正确分 类添加到语料库。文本分类可以在应用中有使用的流需要被有组织的动态

6、信息。 在本文中,由印度语言的中央研究所研制的语料库( CIIL ),迈索尔,( CIIL 语料库)用于训练和测试模型。这些模型中自动语料库的方法中使用建设过程 中,新的泰米尔文件分为其中一个预定义的类,并在语料库补充说。本文的其 余部分安排如下:在第 2 节中,泰米尔文件的性质,和泰米尔语语料库的特点 是提供。在Section3the向量空间模型解释。在Section4 ,神经网络模型是如 何训练的分类的文件,进行了讨论。该实验结果和性能分析在Section5进行总 结。2. 泰米尔语泰米尔是最古老的语言之一,它属于南德拉威家庭。所有的达罗毗荼语言,泰 米尔语具有最长文学传统。最早的记录是从

7、洞穴铭文公元前二世纪泰米尔是一 个形态丰富,粘着语。词形变化的标志是附在词汇基地后缀,其可以通过派生 后缀来扩充。当语素或词结合起来,一定形态音位变化发生(安马 Steever , 1999) 。也就是说在泰米尔有很强的后置屈折成分。对于动词,这些词形变化 进行人称,数和性别主体的信息。此外,模型和时态信息的动词也搭配在语调。 对于名词,词形变化起到标记的情况下,名词(莱曼, 1993) 。泰米尔人的屈折性质也就是说防止像一个这是一个简单的过程中所产生用于英文文档。一个完整的形态分析找到干也麻烦,因为它需要一个干词典。2.1 泰米尔语语料库泰米尔语语料库(CIIL语料库)在CIIL-迈索尔印度

8、开发的,包括书面泰米尔 约3.5万字。主题的泰米尔语语料库areliterature,美术,社会科学的自然, 物理和专业的科学,商业,官方和媒体的语言和翻译的材料。另外泰米尔语料 库是“莫知语料库”,这已经从广泛的 150000 句子当代不等,泰米尔语的著作 (拉詹,Ramalingam,与GANESAN,2002年a)。该在CIIL语料库提供的文件数 量显示在表 1(略)。2.2 特征提取文本文件的特点是词或短语出现中的文件。对于文本表示,在极端的情况下, 我们可以考虑每个单词作为一个功能。但是这将导致更多的计算时间和存储要 求。它会影响分类精度为好。精心挑选的话是需要的而不是所有的话(马文

9、 - 斯 科特, 1999 年) 。一个简单的无序列表字和相关联的权重通常足以代表一个文 件。有研究表明,通过意义可以不使用命令字(兰道尔, LAHAM ,渲染提取, 的 Schreiner , 1972)。要构建文档表示,文档的集合被索引,而不是个别的 文件。创建索引的主要目的是使其易于区分文档。的大小索引可以的话,当被 用来代替茎减小的单词的各种形式(索尔顿,黄,杨和, 1975) 。索引有两 个子任务,即(i)分配的令牌为一个文件(ii)权重分配给这些令牌。文件索 引这样的一个简单的方法是通过定义以下步骤:1。找到的集合中的每个文件中的唯一字培训文件。2。计算发生这些独特的频率也就是说在

10、数据库中的每个文件。3。横跨计算发生的每个单词的总频率在数据库中的所有文档。4。排序词语的频率依次递增。5。具有非常高和非常低的频率除去的话从出现的列表。6。删除无效的字符和其词的话小于3个字节2.3。停止字噪声通常被定义在 IR 为微不足道,无关紧要 词或停用词,它们通常存在于任 何自然语言文字。停止的话在任何标准语言语料库的平均分布,通常不会带来 任何资料分类任务。这些停用词具有较高的频率出现的。2.4。权重计算的重量是一个数值是直接正比于 该单词的文档中的重要性。每个文档的文本被 分成标记和独特的标记在发生 文中列出。只有实词被认为是在索引中。我们用这个词出现在索引中的绝对计数。 这使得

11、它很难比较不同长度的文件。 文档的索引是归一化。归一化频率 对于一个字是一个介于 0和1之间。每个单 词的频率由内容单词的文档中的总数除以。3。向量空间模型在任何数字文本可以通过机器学习处理(ML )的分类器,一个映射必须是这样 的数据来执行 在某种程度上能够代表所要求的特性或功能成更紧凑,计算适 当的形式 (Rijsbergen, 1979)。历史最悠久的和众所周知的方法 的文档权重 的方法是向量空间模型。 VSM 的是,编码一个所谓的袋 - 字的方法“表示, 其中明确顺序信息不明确抓获。最常见的和经典的统计方法 在使用红外和文本 挖掘是TFIDF (词频逆文档频率)测量(索尔顿和巴克利,1

12、988)。TFIDF给出 了如何重要的一个字是一个加权或相关性文件在向量空间模型中 documentdi 是由一组代表字(T1, T2TN),其中eachtj是出现在文本中的单词documentdi 和 ndenotes 的各个单词的总数该索引用来识别文本文件的含义。字 TJ具有计算的组合的对应weightw统计术语frequencyTF (TJ,二)和逆文档 频率。TheTFvalue是成正比的单词的出现频率在文件中并thelDFvalue成反比其在频 语料库。函数编码的直觉:(i)该更经常的单词出现在一个文档中,更多的是 代表性的文本的内容;(ii)本更多的文字这个词出现在,少 判别它是(

13、法布 里兹欧, 2002)。它已被观察到的 逆文档频率是一本有用的一个良好指标 词的分类(武宣&诚,1994)。测试文件也受到TF和IDF权重,用在 培训文件。 一旦文档被表示为权重矩阵的基础上,对TF和IDF,我们可以应用中的任何一 个 的距离的措施,例如欧几里得距离, Mahalanobis 距离,曼哈坦距离或余弦 度量找到的相似文件(Sushmita&Tinku, 2003年)5 实验结果与讨论:5.1 。向量空间模型向量空间模型和神经网络模型已经申请泰米尔语文档的分 类。为了衡量这两款车型的各项性能指标的收集从训练语料条款使用。我们使 用了 CIIL的一个子集语料库。我们的数据已经从五

14、大类386107令牌。从每个 类别收集单词的编号列在theTable 2。这些字组合和排序。长度少的话超过3 个字节,超过25字节从列表中删除。有些单词结束字符将被删除。唯一的话是 确定和排列出现的他们的频率的基础上。停止的话,甚高频词和非常低的高频 词被删除。该条款被分配的权重基于对 TF 和 IDF 从方程(1 ) 。对于列表中 的每个字,权重由与逆文档乘法计算频率。 TheTable 3 示出了与它们的权重的 话的部分列表。共有5753预处理后索引词被选为的功能,这被表示为一个术语 - 文档矩阵。 TheTable 图4显示的话,在每个类别的总数和只在一个特定的类 别,它发生的话。这些字

15、多作贡献的分类,不是的话这整个文档传播。试验样 品是从测试文件随机制备的下列方法:?从文档中选择几个段落。?从测试文 件选择特定页面。?选择文档作为一个整体。我们为了使用基于长期的向量空间,以证明其有效性测试的模型上泰米尔文件。为了测试模式,从五大类 100个文档的使用 随机。遵循用于测试相同的预处理 步骤 文件还。根据该相似性度量,则返回类别靠近测试文件。文本的片段 存储为单独的文件中,并用于测试。实验 结果 VSM 显示 90.3的性能测试分类 文档。5.2 神经网络模型对于一个神经网络模型5753 功能都非常大,训练网络。具有大量术语的固有的高维不仅不适合于神经 网络(鲍姆和大卫, 19

16、89 ),而且还提高了过拟合问题。我们减少了的功能通 过选择前 1000 ,其中有更多的大小权重。向量的缩小的尺寸大大减小在 BP 神 经网络计算(训练)时间。每次训练文档的功能被应用到网络随机。用于测试 的文件相同的号码的神经网络也。的性能进行了比较。该神经网络有 1000 个神 经元对应的特征数目的输入层。该网络有 5 个神经元输出层为五类。在神经网 络中使用IS1000的L结构- 25 N - 5 L。在神经网络结构,该整数代表在每 个层的神经元数目(输入,隐藏和输出),字母L和N分别表示线性和非线性 单元分别。非线性单元 usetanh (次),为激活函数, wheresis 单位的激

17、活值。 神经网络模型得出 93.3 作为它的整体性能在泰米尔语文档分类。的正确分类 文件的百分比是最高94. 66 %的自然科学文件。的性能对不同类别的VSM和NN 模型示于6 结论在本文中我们开发了泰米尔文本分类系统基于向量空间模型和神经网络模型。 自目前有更多可用的预分类的数字文件英语,大部分在现有文档分类任务文献 中对英语语言的文件执行。由于泰米尔是粘着性的,建立特征向量为需要特别 注意以限制字的数目的文件形式。我们使用屈折规则来切断的结局,减少项数。 上泰米尔语语料库的实验已经证明,在VSM和NN模型是有效的表示和分类泰米 尔文档也。神经网络的性能是比较有代表性的集合更好。结果表明该神经网络 模型更能够捕捉到非线性关系输入文档向量和文档类别之间比 VSM 的。可扩展 性的问题必须通过测试非常大的文档集合。作为一名未来的工作中,我们有计 划尝试不同的机器学习模型的 N-gram 特征选择。还文档可以被用来改善模型的 语言学习能力。致谢这项研究已经进行了在AICTE (全印度技术教育委员会,新德里,印度政府) 资助(卢比15万卢比)。神经模糊系统实验室,计算机科学与工程学院工程系 技术,安马大学与中心合作高级研究语言学,安马大学,泰米尔纳德邦,印度 中央研究所研制的语料库语言,迈索尔。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!