[毕业设计精品]分词技术在电子商务信息查询中的应用

上传人:仙*** 文档编号:32732266 上传时间:2021-10-15 格式:DOC 页数:30 大小:516.51KB
收藏 版权申诉 举报 下载
[毕业设计精品]分词技术在电子商务信息查询中的应用_第1页
第1页 / 共30页
[毕业设计精品]分词技术在电子商务信息查询中的应用_第2页
第2页 / 共30页
[毕业设计精品]分词技术在电子商务信息查询中的应用_第3页
第3页 / 共30页
资源描述:

《[毕业设计精品]分词技术在电子商务信息查询中的应用》由会员分享,可在线阅读,更多相关《[毕业设计精品]分词技术在电子商务信息查询中的应用(30页珍藏版)》请在装配图网上搜索。

1、分词技术在电子商务信息查询中的应用摘 要通过近几年的发展,电子商务已经离我们不再遥远。电子商务上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,如果是查询中分词信息多,那么结果就会令人不满意。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,那么“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。 所以中文分词的应用会改善

2、我们的生活,使人们真正体会到科技为我所用。本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,此外,讨论了中文分词算法,结合电子商务行业的特点对分词算法进行描述,和阐述了电子商务查询中分词技术的应用并进行了分析。关键词:搜索引擎 中文分词 电子商务ABSTRACTSegmentation information in e-commerce application a queryAbstractThrough years of development, electronic commerce is no longer far

3、away from us. Information on e-commerce is also rapidly expanding, in this mass of information, the kinds of information mixed together, in order to take advantage of these information resources is necessary to organize them, if the person do the job, has not possible, and if the face of Chinese wor

4、d segmentation information is not used, then the order of the results to be too rough, which led to resources not available, check if it is carved the word information and more, then the result will be unsatisfactory. Through the introduction of word segmentation, we can make the collation of the ma

5、chine on the mass of information more accurate and reasonable, then, are two different manufacturing and service industries in the Kimono will not be treated as a word processing, then search kimono Of course it will not be retrieved, making search results more accurate and efficie will be greatly e

6、nhanced. Therefore, the application of Chinese word segmentation to improve our lives, so people really understand science and technology for our use. In this paper, the concept of e-commerce search engine, through the analysis of general search engine technology, combined with e-commerce industry,

7、the demand for search engine part to the need for improvement, in addition, discussed the Chinese word segmentation algorithm and the characteristics of e-commerce segmentation algorithm is described, and elaborated carved the word of e-commerce echnology application query and analyzed.Keywords: sea

8、rch engine Chinese word e-commerce目录目录目录前言前言6第章第章电子商务综述电子商务综述 81.1电子商务的定义81.2电子商务的产生的背景91.3电子商务发展现状9第章第章探究分词技术探究分词技术 122.1 分词技术简述 122.1.1 基于字符串匹配的分词方法 122.1.2基于统计的分词方法132.1.3基于理解的分词方法132.2 分词技术及错误流程 142.2.1 歧义识别和新词识别 142.2.2 分词技术错误提示流程 152.3 分词技术的最新发展 17第章第章探究搜索引擎探究搜索引擎 183.1 搜索引擎 183.1.1 搜索引擎的理解 18

9、3.1.2 我国搜索引擎的背景 183.1.3搜索引擎的现状193.2 搜索引擎的实现原理 203.2.1 从互联网上抓取网页 203.2.2建立索引数据库213.2.3在索引数据库中搜索213.2.4对搜索结果进行处理排序213.3 电子商务搜索引擎的形式 23第章第章分词技术案例分析分词技术案例分析 244.1 百度分词技术分析 244.1.1 最大分词词长 244.1.2分词算法254.2 分析语句“红色摇滚很搞笑” 26目录结论结论27参考文献参考文献 28致谢致谢29前言第 6 页 共 29 页前前言言随着互联网的迅速发展,电子商务让消费方式变得更为快捷,更多的人涌向网上商店,网络市

10、场前景巨大,拥有更为广阔的发展空间。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如 Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大 ,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的 “瓶颈” 。许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎

11、等。由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率,本文就是深入研究在电子商务查询中分词技术的应用来提高搜索查询的速度,首先在本文的第一章大体概述了电子商务的定义、电子商务的背景、以及电子商务的发展前景。在第二章中阐述了在电子商务查询中应用广泛的分词技术,在这一章本文首先阐述了分词技术的概念,然后介绍了分词技术的分类,在最后两章中介绍了搜索引擎的概念和用一些具体例子介绍了分词技术的具体应用。

12、面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对前言第 7 页 共 29 页信息的挖掘神队不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想,因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。电子商务综述第 8 页 共 29 页第第章章电电子子商商务务综综述述1.1电电子子商商务务的的定定义义电子商务(Electronic Commerce)的定义:以

13、电子及电子技术为手段,以商务为核心,把原来传统的销售、购物渠道移到互联网上来,打破国家与地区有形无形的壁垒,使生产企业达到全球化,网络化,无形化,个性化、一体化。通俗的讲电子商务是指利用简单、快捷、低成本的电子通信方式,买卖双方不谋面地进行的各种商业和贸易活动。电子商务是运用数字信息技术,对企业的各项活动进行持续优化的过程。电子商务涵盖的范围很广,一般可分为企业对企业 (Business-to-Business),或企业对消费者(Business-to-Consumer)两种。另外还有消费者对消费者(Consumer-to-Consumer)这种大步增长的模式。随着国内 Internet 使用

14、人数的增加,利用 Internet 进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在迅速增长,电子商务网站也层出不穷。电子商务最常见之安全机制有 SSL(安全套接层协议)及 SET(安全电子交易协议)两种。电子商务是一个不断发展的概念,电子商务的先驱 IBM 公司于 1996 年提出了 Electronic Commerce(E-Commerce)的概念,到了 1997 年,该公司又提出了 Electronic Business(E-Business)的概念。但我国在引进这些概念的时候都翻译成电子商务,很多人对这两者的概念产生了混淆。事实上这两个概念及内容是有区别的, E-Comme

15、rce 应翻译成电子商业,有人将E-Commerce 称为狭义的电子商务。将 E-Business 称为广义的电子商务。E-Commerce 是指实现整个贸易过程中各阶段贸易活动的电子化。 E-Business是利用网络实现所有商务活动业务流程的电子化。 E-Commerce 集中于电子交分词技术在电子商务信息查询中的应用第 9 页 共 29 页易,强调企业与外部的交易与合作,而 E-Business 则把涵盖范围扩大了很多。广义上指使用各种电子工具从事商务或活动。狭义上指利用 Internet从事商务或活动。1.2电电子子商商务务的的产产生生的的背背景景中国电子商务在 20 世纪 90 年代

16、开始出现,这个时候电子商务只是一种概念,根源在于中国互联网的接入以及世界一些知名企业的影响!在这一阶段中国出现了一些比较典型的电子商务企业,如 8848,易趣等!随着人们对电子商务的逐渐认识,在新的一世纪里产生了若干电子商务企业,涉及的范围从 B2B 向 B2C 以及 C2C 等多方面发展!随着网络产业向纵深层次的不断发展,更多的人参与到网络产业中,往往是利益的驱使使得人们行为过于盲目,从 03 年开始中国互联网进入低潮,一部分人放弃互联网,一部分企业不得不采取一定的收索策略甚至转变业务!这些使得他们不得不从新定位和思考如何发展新一代的电子商务!那么可以说现阶段中国电子商务真正得到发展的第一步

17、应当从这个时候开始!从大的范围上讲,人们对电子商务的认识更加深刻!十年前,人们对电子商务十分陌生,而现在几乎很少人不知道电子商务的!中国出现的一些极具代表性的电子商务企业的影响,一个行业的发展往往是这个行业的巨头所引起的技术的突破,物流的发展,人才的兴起改变了以前电子商务发展的一些瓶颈!一些中国大的电子商务平台改变了中国商务环境!相关互联网产业的兴起也带动了电子商务的发展,如典型的搜索业务、视频业务、SNS、IM 等兴起。1.3电电子子商商务务发发展展现现状状近年来,在全球经济保持平稳增长和互联网宽带技术迅速普及的背景下,世界主要国家和地区的电子商务市场保持了高速增长态势 。以美国为首电子商务

18、综述第 10 页 共 29 页的发达国家,仍然是世界电子商务的主力军;而中国等发展中国家电子商务异军突起,正成为国际电子商务市场的重要力量。 2008 年,中国电子商务市场前期延续了 2007 年电子商务持续高速增值的势头,后期则受全球金融危机和发展瓶颈影响,交易额增长放缓。但总体来说,中国电子商务市场的发展仍在稳步前行。2008 年中国电子商务市场交易额达到 24000 亿元,同比增值达到 41.2%,其中 B2B 市场仍是总交易额的构成主体, C2C 基本维持现状,B2C 将提速发展。2010 年中国电子商务市场除在扩大资金来源、支撑体系建设方面有所成就外,不可避免的需要面临全球金融危机所

19、带来的影响,但随着中国电子商务与行业发展结合的更广、更深,充分利用电子商务 B2C 手段已经成为中国行业企业在度过经济寒冬中的重要选择。因此, 2008 年投资机构对中国电子商务市场的关注度不降反升,其中 B2C 行业无论在投资案例数量还是在投资金额上都呈快速增值趋势。 2010 年政府加强了在电子商务领域的引导性投资,用以改善中国电子商务市场的投资环境,政府通过将投资收益返还社会投资人支持社会投资回购政府所持股份等政策,将大量资金引入电子商务的发展。随着国内 Internet 使用人数的增加,利用 Internet 进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在快速增长,电子商务

20、逐渐成为业界热议的一个焦点话题,相关的电子商务网站也层出不穷。 2011 年中国电子商务市场可谓机遇和挑战并存,而政府和企业的通力合作是抓住机遇并赢得挑战的基础。在此基础上,中国电子商务市场才有可能逐步向发达国家电子商务水平接近。眼看网络购物市场不断扩大,一些搜索网站瞄准了B2C 市场。同时,越来越多的传统经销商也开始切入 B2C 电子商务领域拓展其在线零售业务。苏宁、国美、迪信通等全国性连锁以及广州的广州百货等也都开辟了自己的 B2C 网站,越来越多的 B2C 厂商已做好进入垂直细分市场的准备。对新渠道的需求催生了 B2C 市场在被 C2C 市场超越之后,开始了前言第 7 页 共 29 页新

21、一轮分词技术在电子商务信息查询中的应用第 11 页 共 29 页的急速上升。B2C 是面对金融危机却依然能蓬勃发展的国内少数行业之一,不过即使没有 2008 年的这场波及全球的金融危机,电子商务 B2C 行业在 2010 年仍然会卯足劲儿大踏步前进,金融危机的影响只是更加加速了中国 B2C 行业的发展。未来几年,C2C 增速将趋缓,而 B2C 市场规模增速将赶超 C2C。预计,B2C 市场规模从 2011 年开始快速增长,市场份额将逐步上升,有望成为电子商务行业新的增长点。预计未来三年中国 B2C 市场复合增长率可达到41%,以后中国电子商务 B2C 市场交易额有望达到千亿元 。我国互联网电子

22、商务交易规模图 1.1探究分词技术第 12 页 共 29 页第第章章探探究究分分词词技技术术2 2. .1 1 分分词词技技术术简简述述语言本身也是在不停的进化和发展的,新的词语层出不穷,一些老的词语渐渐被弃用。作为中文分词的基础 -词库,其新词补充和老词删除就是非常重要的工作。 “超级女声” 、 “超女” 、 “李宇春” 、 “八荣八耻” 、 “非典” ,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要来源于新闻和网络 BBS 论坛,主要机制是依靠统计程序,统计上升速度最高的词。另外作为搜索引擎公司,对众多

23、用户的搜索词进行 “用户行为”分析,也能提高其“新词补充”效果。2 2. .1 1. .1 1 基基于于字字符符串串匹匹配配的的分分词词方方法法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(

24、由右到左的方向) ;最少切分(使每一句中切出的词数最小)。分词技术在电子商务信息查询中的应用第 13 页 共 29 页2 2. .1 1. .2 2基基于于统统计计的的分分词词方方法法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y 的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度

25、进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如 “这一” 、 “之一” 、 “有的” 、 “我的” 、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。2 2. .1 1. .3 3基基于于理理解解的的分分词词方方法法这种分词方法是通过让计算机模拟人对句子的理解

26、,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式, 因此目前探究分词技术第 14 页 共 29 页基于理解的分词系统还处在试验阶段。图 2.12 2. .2 2 分分词词技技术术及及错错误误流流程程2 2. .2 2. .1 1 歧歧义义识识别别和

27、和新新词词识识别别歧义识别是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成 “表面的”和“表 面的” 。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错。“化妆和服装”可以分成“化妆 和 服装”或者“化妆和服装” 。由于没有人的知识去理解, 计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容分词技术在电子商务信息查询中的应用第 15 页 共 29 页易处理,组合歧义就必需根据整个句子来判断了。例如,在句子 “这个门把手坏了”中, “把手”是个词,但在句子“请把手拿开

28、”中, “把手”就不是一个词;在句子“将军任命了一名中将”中, “中将”是个词,但在句子“产量三年中将增长两倍”中, “中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了” ,可以切分成“乒乓球拍 卖 完 了” 、也可切分成“乒乓球 拍卖 完 了”如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。新词专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子

29、 “王军虎去广州了”中, “王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把 “王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中, “王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。2 2. .2 2. .2 2 分分词词技

30、技术术错错误误提提示示流流程程目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译( MT) 、语音合成、自动分类、自动摘要 、探究分词技术第 16 页 共 29 页自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。分词准确性对搜索引擎来说十分重要,但如果

31、分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。下图是错误提示流程:图 2.2分词技术在电子商务信息查询中的应用第 17 页 共 29 页2 2. .3 3 分分词词技技术术的的最最新新发发展展无长度限制,并且在歧义内容方面将出现歧义的各种可能性都包含进去,作为分词的参考。例如:感冒、感冒解痛散、感冒解痛颗粒、感冒解痛灵茶等都能匹配。图 2.3探究搜索引擎第 18 页 共 29 页第第章章探探究究搜搜索索引引擎擎3 3.

32、.1 1 搜搜索索引引擎擎3 3. .1 1. .1 1 搜搜索索引引擎擎的的理理解解搜索引擎(SearchEngine)通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息 整理建立数据库提供查询)我们就称之为 “搜索引擎” 。3 3. .1 1. .2 2 我我国国搜搜索索引引擎擎的的背背景景百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家( )技术总监冉征处了解到,联络家正

33、在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象 Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢? CNNIC 第十四次互联网调查显示,搜索以 71.9的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,

34、在海量的网页里找信息按照传统方式需要 用户非前言第 7 页 共 29 页常分词技术在电子商务信息查询中的应用第 19 页 共 29 页麻烦的寻找,要耗费大量的精力和时间,几乎是不可能实现的任务。3 3. .1 1. .3 3搜搜索索引引擎擎的的现现状状随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂直搜索引擎针对专业特

35、定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一大部分都是“垃圾”并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去 Google 上找,如果你想找一份工作,是会去专门的工作搜索引擎上找还是会去百度上找?答案很明显,更多的用户会舍弃后者,即使前者品牌小名声小,但结果

36、往往是最令网民看重的。联络家 LINKIST 一直做人脉交际圈的拓展,也就是现在炙手可热的 SNS 网站,SNS 网站的目的就是要建立一个庞大的人脉圈,参与其中的人都能通过站内人脉的搜索引擎找到自己想找的人,可以找工作、搜罗人才、寻找合作商机。联络家 LINKIST 短短几个月的时间已经聚敛起了近 7 万多位高级商务人士。有了一定的用户基础做铺垫,联络家 LINKIST 目前大力开发人脉专业领域的垂直搜索引擎,如工作搜索引擎的人脉搜索引擎,而这比以往的 “贴简历、翻招聘信息”的机械作法要灵活的多。而且,能做出这样的预测显然并不是空穴来风。据记者了解,现在搜索市场大量的的垂直专业搜索引擎的诞生如

37、雨后春笋般 , 如比价探究搜索引擎第 20 页 共 29 页购物搜索引擎,工作搜索引擎,博客搜索引擎等等,占了百度几乎一半以上的流量的 MP3 搜索,其实也可以说是专业的搜索 MP3 的垂直搜索引擎,许多垂直门户也纷纷推出了自己的搜索引擎系统。那么,像 Google、百度能会不会通过“补课”挤掉这部分专用搜索市场呢? 冉先生对记者表示,Google、百度注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要对做内容的深度挖掘,做精细的分类,构建专业领域的知识库体系等等,而这些都是 Google、百度等无法做到的,他们根本就没有精力做这些,也不可能针对每个行业领域都能做透,“术业有专攻”

38、就是这个道理。就象门户网站与专业垂直的行业性网站可以共存一样,网民也有不同的胃口,有的仅仅是简单模糊的信息就已经满足了,而一些寻找精确内容的网民则更青睐于专业引擎,比如你打算换一份工作,以前去人才招聘网站贴简历往往都尿杳无音信,现在,就可以去联络家 LINKIST 试试,还能跟同行的朋友交换下最新的行业信息,探讨下行业发展趋势。而且,以后联络家 LINKIST 推出人脉引擎后,只需轻轻点击便能收获颇丰。有专家预测,未来,专业的垂直搜索将掀起一轮热潮,而且,垂直搜索引擎不会是一个简单的文本框、一个按纽就走遍天下了,更需要专业的信息辅助和配套的增值内容的支持,也就是对相关内容的二次“加工” 。而这

39、恰恰是 Google、百度类所不能提供的。相信,届时很多 VC 的眼球会聚焦于此,而 Google、百度又将面临怎样的挑战呢?我们只能拭目以待了 。3 3. .2 2 搜搜索索引引擎擎的的实实现现原原理理3 3. .2 2. .1 1 从从互互联联网网上上抓抓取取网网页页利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。分词技术在电子商务信息查询中的应用第 21 页 共 29 页3 3. .2 2. .2 2建建立立索索引引数数据据库库由索引系统程序对收集回来的网页进行分析,提取相关网页信息

40、 (包括网页所在 URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等 ),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度 (或重要性),然后用这些相关信息建立网页索引数据库。3 3. .2 2. .3 3在在索索引引数数据据库库中中搜搜索索当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。3 3. .2 2. .4 4对对搜搜索索结结果果进进行行处处理理排排序序所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,

41、然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:探究搜索引擎第 22 页 共 29 页图 3.1“网络蜘蛛”从互联网上抓取网页,把网页送入 “网页数据库” ,从网页中“提取 URL” ,把 URL 送入“URL 数据库” , “蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成“索引数据库” 。同时进行“链接信息提取”

42、,把链接信息(包括锚文本、链接本身等信息)送入“链接数据库” ,为“网页评级”提供依据。“用户”通过提交查询请求给“查询服务器” ,服务器在“索引数据库”中进行相关网页的查找,同时 “网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过 “查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给 “用户” 。分词技术在电子商务信息查询中的应用第 23 页 共 29 页3 3. .3 3 电电子子商商务务搜搜索索引引擎擎的的形形式式目前电子商务搜索引擎主要有以下两种实现形式: 以生意经、商务搜、金泉网、企搜为代表的独立搜索引擎,该类搜索网站的页面与通用搜索引

43、擎网站的页面形式几乎完全一致,区别在于内容主要是针对商业用户使用者。独立搜索引擎的优势在于访问者和投放广告者在参与上更为自由,可以获得更多的信息和受众。但同时这也是其缺陷所在,由于开放度过高,将不可避免的出现诚信问题。以阿里巴巴、淘宝网、慧聪网为代表, 表现形式为电子商务网站站内搜索。这类搜索引擎由于以网站的会员制为基础,有资质认证体系为保障,因此诚信问题出现的概率较小。但站内搜索的缺点在于开放性不够,搜索和推广只局限在会员之间。分词技术案例分析第 24 页 共 29 页第第章章分分词词技技术术案案例例分分析析看一下中国三大搜索引擎的分词技术。我们的三大搜索引擎都在他们的快照里把查询语句拆分,

44、然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上 Google 去,并且需要使用代理服务器或者用一点小技巧才能看到。4 4. .1 1 百百度度分分词词技技术术分分析析4 4. .1 1. .1 1 最最大大分分词词词词长长对于大于等于 4 个汉字的词将被分词。如下图:图 4.1分词技术在电子商务信息查询中的应用第 25 页 共 29 页4 4. .1 1. .2 2分分词词算算法法查询:“工地方向导”正向最大匹配: 工地/方向

45、/导;反向最大匹配: 工/地方/向导。百度采用正向最大匹配算法 :图 4.2分词技术案例分析第 26 页 共 29 页4.2 分分析析语语句句“红红色色摇摇滚滚很很搞搞笑笑”从拆词的情况来看,谷歌竟然并没有把 “摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索 “摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”图 4.3雅虎比谷歌更懂中文!图 4.4最后一个,就是业界一直盛传的百度的分词技术了,把 “红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!结论第 27 页 共 29 页结结论论本文在借鉴传统搜索引擎的相关技

46、术并结合电子商务自身的特点基础上,构建出了一个电子商务行业搜索引擎的原型系统,并对其中涉及到得若干关键性问题进行了研究和探讨,并提出了解决方案,可以应用于需要对网络信息进行深层次加工、处理的相关应用中。本系统的涉及与实现也可以加以改进,如加入文本分类模块、关键字识别模块,进而用来开发情报采集系统,帮助企业及时掌握市场动态,随时了解竞争对手的信息,准确把握行业发展趋势和国家最新政策,从而在市场竞争中获胜。当然本搜索引擎还是很初步的,在获取信息的全面性和准确性等方面还可以改进,另外,应能在人工智能和数据挖掘领域深入研究,使该搜索引擎的搜索性能更优。参考文献第 28 页 共 29 页参参考考文文献献

47、【1】杨佩璐.未来电子商务的发展趋势与产业化应用前景分析。【2】史海燕,王勃侠,王少非.搜索引擎在电子商务中的应用分析。【3】陈苏毅.搜索引擎在电子商务中的运用.商场现代化【4】张春霞,郝永天 汉语自动分词的研究现状及困难。【5】李家福,张亚非 基于 EM 算法的汉语自动分词方法J 情报学报,2002,21(3),【6】 谭琼,史忠植 分词中的歧义处理J计算机工程与应用,2002,38(11),P125-127【7】孙茂松等 利用汉字二元语法关系解决汉语自动分词中的交集型歧义J 计算机研究与发展,1997,34(5),P332-339.【8】吕雅娟,赵铁军,杨沐昀,于浩,李生 基于分解与动态规

48、划策略的汉语未登录词识别J 中文信息学报,2000,15(1),P28-33致谢第 29 页 共 29 页致致谢谢在论文完成之际,我要特别感谢我的指导老师?的热情关怀和悉心指导。在我撰写论文的过程中, ?老师倾注了大量的心血和汗水,无论是在论文的选题、构思和资料的收集方面,还是在论文的研究方法以及成文定稿方面,我都得到了?老师悉心细致的教诲和无私的帮助,特别是他广博的学识、深厚的学术素养、严谨的治学精神和一丝不苟的工作作风使我终生受益,在此表示真诚地感谢和深深的谢意。在论文的写作过程中,也得到了许多同学的宝贵建议,在此一并致以诚挚的谢意。感谢所有关心、支持、帮助过我的良师益友。最后,向在百忙中抽出时间对本文进行评审并提出宝贵意见的各位老师表示衷心地感谢!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!