如何让百度收录你

上传人:s**** 文档编号:102720241 上传时间:2022-06-07 格式:DOC 页数:16 大小:93.50KB
收藏 版权申诉 举报 下载
如何让百度收录你_第1页
第1页 / 共16页
如何让百度收录你_第2页
第2页 / 共16页
如何让百度收录你_第3页
第3页 / 共16页
资源描述:

《如何让百度收录你》由会员分享,可在线阅读,更多相关《如何让百度收录你(16页珍藏版)》请在装配图网上搜索。

1、 . . . 如何让我的(独立或者blog)被百度收录?百度会收录符合用户搜索体验的和网页。为促使百度Spider更快的发现您的站点,您也可以向我们提交一下您的的入口网址。提交地址是:.baidu./search/url_submit.html。您只需提交首页即可,无需提交详细的容页面。百度的网页收录机制,只和网页价值有关,与竞价排名等商业因素没有任何关联。如何让我的网页不被百度收录?百度严格遵循搜索引擎Robots协议(详细容,参见 robotstxt.org/)。您可以写一个Robots文件以限制您的全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。如果您的

2、是在被百度收录之后再设置Robots文件,则Robots文件通常在两周生效,被文件限制的容,将从百度搜索结果中移除。如果您的拒绝被收录需求非常急迫,也可以发给webmasterbaidu 请求处理。为什么我的一些不设的私密性网页,甚至是需要访问权限的网页,也会被百度收录?百度Spider对网页的抓取,是通过网页与网页之间的实现的。网页之间的类型,除了站点部的页面之外,还有不同之间的互相。因此,某些网页即便通过您的部无法访问到,但是,如果别人的上有指向这些页面的,那么这些页面还是会被搜索引擎所收录。百度Spider的访问权限,和普通用户是一样的。因此,普通用户没有权限访问的容,Spider也没有

3、权限访问。之所以看上去某些访问权限限制容被百度收录,原因有两点:A. 该容在Spider访问时是没有权限限制的,但抓取之后,容的权限发生了变化B. 该容有权限限制,但是由于安全漏洞问题,导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上,则Spider就会循着这条路径抓出受限容如果您不希望这些私密性容被百度收录,一方面可以通过Robots协议加以限制;另一方面,也可以联系webmasterbaidu 进行解决。我的网页为什么会从百度搜索结果中消失?百度并不允诺所有网页都可从百度搜索到。如果您的网页长时间无法从百度搜索到,或者突然从百度的搜索结果中消失,可能的原因有:A. 您

4、的所在服务器不稳定,被百度暂时性去除;稳定之后,问题会得到解决B. 您的网页容有不符合国家法律和法规规定的地方C. 您的网页不符合用户的搜索体验D. 其他技术性问题以下的说法是错误的和毫无根据的:A. 参与了百度竞价排名但未续费,会从百度搜索结果中消失B. 参与了其他搜索引擎的广告项目,会从百度搜索结果中消失C. 与百度旗下产生了竞争,会从百度搜索结果中消失D. 从百度获得的流量太大,会从百度搜索结果中消失发贴人: 121.20.236.*08-08-20 11-11什么样的网页会被百度认为是没有价值而不被百度收录或者从现有搜索结果中消失?百度只收录百度认为有价值的网页。任何网页在搜索结果中的

5、去留变化,都是机器算法计算和调整的结果。下述类型的网页,百度明确不会欢迎:A. 网页做了很多针对搜索引擎而非用户的处理,使得用户从搜索结果中看到的容与页面实际容完全不同,或者使得网页在搜索结果中获得了不恰当的排名,从而导致用户产生受欺骗感觉。如果您的中有较多这种页面,那么这可能会使您的整个的页面收录和排序受到影响。B. 网页是复制自互联网上的高度重复性的容。C. 网页中有不符合中国法律和法规的容。如果我的因为作弊行为而从百度搜索结果中消失,是否还有被重新收录可能?凡是作出完全修正的,是有机会被百度重新收录的。百度会定期对被处理站点进行自动评估,并对符合条件者重新收录。需要说明的是,百度技术和产

6、品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的:A. 我成为百度的广告客户或者联盟,就可以重新被收录B. 我给百度若干钞票,就可以重新被收录C. 我认识百度的某某人,就可以重新被收录我的更新了,可是百度收录的容还没更新怎么办?百度会定期自动更新所有网页(包括去掉死,更新域名变化,更新容变化)。因此请耐心等一段时间,您的上的变化就会被百度察觉并修正网页排序问题我的首页被收录了,但搜索名称却排不到第一个,怎么办?答:排序算法非常复杂。我们的目标,即在于通过算法改进,让用户以最小的成本,搜索到所需要的信息。这个过程中还是会有各种各样不尽如人意的地方。我们会非常欢迎您把您遇到的困惑和问题

7、,反馈给我们。我们的工程师,对每一个问题都会有细致的跟踪和分析,以期将之最终解决。百度搜索结果页下方的搜索框右侧,有“与百度对话”,您可以在那里提交您的问题,以协助我们改进。我们一直在改进搜索算法,以使得百度的搜索结果更加符合用户的搜索需求。搜索某关键词,我的网页在百度搜索结果的排序短期变化剧烈,这正常吗?答:通常情况下,这是正常的变化。一般来说,有三类原因导致排序发生变化:A. 特定关键词所涉与的您的网页发生了变化B. 特定关键词所涉与的其他网页发生了变化C. 百度的排序算法发生了变化搜索某关键词,我的网页在百度的排序位置,和在其他搜索引擎的排序位置,差异非常大,这正常吗?答:通常情况下,这

8、是正常的现象。因为不同搜索引擎的算法,都是不同的。我请一些“SEO”来为我的或者网页做优化,会有什么后果?答:合理的搜索引擎优化,参见百度的“给站长的建站指南”。外界很多打着SEO旗号的公司或者个人,也许能为您的带来短期的排序收益,但是,这会使您将面临更大损失的风险。在您把资源交托给别人之后,很多SEO甚至会利用您的资源进行他们个人的运营项目,最终导致您的利益受损。不要因为SEO们以下的说法,而冒险将自己的托付给他们随意处置:A. 我和百度的人很熟,想怎么干就怎么干,没风险B. 我是搜索引擎专家,对百度的算法一清二楚,玩玩火也不要紧C. 我把xxx、yyy、zzz这些关键词都搞到第一了,所以我

9、是牛人啊您也可以向百度投诉搜索中遇到的垃圾或者网页,帮助百度保持搜索结果的质量。广告:推广业务,防止被版主删除的最佳方法简单引用回复人: 121.20.236.*08-08-20 11-12商业客户相关的问题我是百度的竞价排名客户,如果我不续费,百度是否会因此对我进行惩罚?答:这是绝对不可能的。百度的网页搜索策略的唯一标准,在于用户的搜索体验。竞价排名和网页搜索自然排名,是完全独立的两个技术服务系统。一个是否是百度竞价排名客户,对于网页搜索自然排序无任何影响。如果您收到任何类似威胁的说辞,请您直接发至askbaidu 举报。我的因为作弊而从百度消失了,是否可以通过成为百度竞价排名客户、广告客户

10、或者联盟站点的方式重新被百度收录?答:不可以。我们对的收录,唯一标准是用户搜索体验。被惩罚重新被百度收录的说明,见网页收录问题6中的叙述。我的加入百度竞价排名、百度联盟,或者成为百度的广告客户,是否能在网页的收录和排序上获得特别的照顾?答:不可能。给站长的建站建议只有当搜索引擎、站长、互联网用户之间,能有一种默契的利益均衡,这个行业才会顺畅发展。竭泽而渔式的建设,只会使您与用户、与搜索引擎越来越远。搜索引擎与站长之间,宜和谐发展,共同拥抱美好的愿景。以下是我们给出的一些建站建议:站点结构宜简洁明晰答:不要让你的用户一进你的站点就因为纷繁芜杂而不知所措。从某种意义上来说,百度的Spider也是一

11、个相对特殊的访客而已。每一个子域名,每一个目录,都最好有明确的容区隔,避免不同子域名或者目录对一样容的互相串用。创造属于您自己的独特容答:百度更喜欢独特的原创容。所以,如果您的站点容只是从各处采集复制而成,很可能不会被百度收录。保持经常的更新答:经常的更新,蜘蛛程序就会经常的光顾;而长期不更新的,蜘蛛到访会日趋减少。谨慎设置您的友情答:如果您上的友情,多是指向一些垃圾站点,那么您的站点可能会受到一些负面影响。参与各类以SEO为目的的自助活动,很可能“过犹不与”。把自己的做成常青树答:如果没有搜索引擎,你的仍然访客盈门,那么你的就属于“常青树”了。面向用户做,而不要面向搜索引擎做,这是成为常青树

12、的真谛。回复人: 121.20.236.*08-08-20 11-12让百度重新收录的方法1,是收费我想这个大家都知道了.2,将的域名绑定到,例如可以绑定到一级域名的博客,或网页,这样重新提交百度就可以收录了.baidu./search/url_submit.html3,将的域名作跳转,跳转到百度,新浪,163,sohu等门户,重新提交后就可以了,.baidu./search/url_submit.html4,注册百度的联盟,加入百度的代码,在重新提交.急不来的通常的步骤是:- 提交到百度,正常情况是1个月后将你的添加到搜索引擎的index- 整理你的页面,让你的页面变得search engi

13、ne friend,你可以到这个去看看 53371.- 到处去做你的的连接(提高搜索引擎访问你的的速度)如何让百度收录百度给站长的建站指南如何使您的站点被百度有效收录给每个网页加上与正文相关的标题。如果是首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余容页面,标题建议做成正文容的提炼和概括。这可以让您的潜在用户快速的访问到您的页面。请不要在标题中堆积与正文无关的关键词。确保每个页面都可以通过一个文本到达。百度无法识别Flash中的,这些单元上的所指向的网页,百度就无法收录了。页面间的,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被百度丢弃。尽量少使用frame

14、和iframe框架结构。如果是动态网页,请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。在同一个页面上,不要有过多。在那些站点地图类型的页面上,请把重要的容给出,而不是所有细枝末节。太多,也可能会导致无法被百度收录。什么样的站点会受到百度欢迎站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果您的站点做了很多针对百度的优化,但却给用户带来大量负面体验,那么,您的站点最终可能还是会受到百度的冷落。百度更喜欢有独特容的网页,而不是简单抄袭和重复互联网上已有容的网页。对于已经被重复了千百遍的容,百度可能会不予收录。回复人: 121.2

15、0.236.*08-08-20 11-13请谨慎使用您的站点。与一些垃圾站点做友情,很可能会使您的受到负面影响。因此,当有人很热情的要求您为他的站点提供友情时,请审视以下两点:一,对方的站点在他那个领域是否是高质量的?站长间所谓的流量以与排名,很多都是用欺骗手段获取的,无法保持长久。二,对方要求的名称是否和对方地位相称?用一个涵盖围广泛的关键词来做一个容非常局限的的名称,很可能会使您的受到负面影响。经常保持容更新。经常有新容产生的站点,百度是会注意到,并且大力欢迎,而且会频繁造访。登录问题我的更新了,可是百度收录的容还没更新怎么办?答:百度会定期自动更新所有网页(包括去掉死,更新域名变化,更新

16、容变化)。因此请耐心等一段时间,您的上的变化就会被百度察觉并修正。怎样使我的被百度收录?答:百度免费自动收录您的站点。如果您希望百度尽快收录,可以到登录提交您的网址;只需提交首页,部页面百度会自动抓取。从提交到被收录,大约需要多久?答:通常需要14周时间。我不想让百度收录我的站点,该怎么办?答:百度尊重和遵守robots协议,您可以写一个robots文件限制您的全部或部分不被百度收录。详情参见禁止搜索引擎收录的办法。我的站点为什么在百度中搜不到?答:可能的原因如下:您可能还没向百度提交您的;您已经登录了,但由于时间短,百度还未收录;如果百度检测到您的无法访问,您的站点就有可能被百度暂时删除;如

17、果您的容有不符合中国法律的地方,则无法被百度收录;如果您的站点页面结构复杂,则可能无法被百度收录(详见如何使您的站点被百度有效收录);如果您的被百度判别为垃圾站点,则可能被百度拒绝收录或者随时删除(详见百度关于垃圾的处理)。如果您的的首页在百度搜索不到,则可能是由于您的不稳定使首页被判别为死导致丢失。您的稳定后,首页会重新在百度中被搜索到。 百度并不允诺能收录所有站点。如果有上述回答无法说明的问题,也可以发信到webmasterbaidu 询问。我的站点在百度搜索结果中排名下降了,该怎么办?答:排序变动很正常。一般情况下,只要您不断提高容质量,让更多的用户喜欢您的,成为您的忠实用户,您的在百度

18、的排名一般就不会很差。百度关于垃圾的处理如果您的站点中的网页,做了很多针对搜索引擎而非用户的处理,使得:用户从搜索结果中看到的容与页面实际容完全不同,或者站点质量与站点在搜索结果中的排名极不相称,从而导致用户产生受欺骗感觉,那么,您的就有可能被百度丢弃。如果您的站点上的网页,大量都是复制自互联网上的高度重复性的容,那么,您的站点也有可能被百度丢弃。所以,当您的从百度消失,请先审视一下自己的站点有无问题。有任何意见,也可以反馈到webmasterbaidu.。您也可以向百度投诉搜索中遇到的垃圾或者网页,帮助百度保持搜索结果的质量。让百度等搜索引擎收录您的当您发现在以下搜索引擎里,无法搜索到您或者

19、您客户的时,您就打开以下登录口,填好申请表提交,等这些的工作人员审核通过后,您的就可以在上面搜索到了。回复人: 121.20.236.*08-08-20 11-13百度免费登录入口 .baidu./search/url_submit.htm新浪免费登录入口 搜狐免费登录入口db.sohu./regurl/regform.asp?Step=REGFORM&class=一搜免费登录入口 .yisou./search_submit.html?source=yisou_hp天网免费登录入口 雅虎免费登录入口./docs/info/suggest.htmlGoogle免费登录入口 .google./in

20、tl/zh-CN/add_url.html慧聪行业免费登录入口202.108.33.161/web/frontward/free/free_speedlogin.asp搜豹免费登录入口 search.sobao./Computers_and_Internet/Personal/焦点网免费登录入口 协通免费登录入口 银河免费登录入口 中国假日免费登录入口 .china-holiday./newterms/hall/it/sort.asp?sortid=259互连网免费登录入口 网络奇兵登陆入口 net7b./net7b_site/denglu/index.asp6128搜索引擎免费登陆入口 网狐

21、登陆入口 .szfox./search/中国搜索同盟免费登录入口 北极星免费登录入口 亦凡信息娱乐网络亦凡搜索 .gotofind./opendir/法律网免费登录入口 .law-lib./lawseek/wzdl.asp银河免费登录入口 信息港免费登录入口 建设免费登录入口 cnjjl./other/悟空免费登录入口 猫头鹰 .owlchina./publish.asp?l=pub凯希 www2d.biglobe.ne.jp/kinryou/cgi/url.htmlebsee .ebsee./cgi-bin/find/find.cgi?menu=addfocus zhao5 登陆入口 .zh

22、ao5./deng_9.htm三百六十行在线登陆入口 .360hang./中国168免费登录入口 .china168./chaoshi/it/regsta1.asp?sortid=242中国车网免费登录入口 绿界免费登录入口 天上人间中文搜索引擎 .6mj./search/企业搜索引擎 好东西网址登陆 dir.haodx./computer/internet/search/search_egines/中国搜索登陆入口 网讯快车 .ne163./在线 .gdyj./泰达搜索引擎 .tedanet./search/index.aspY28 Search .y28./cgi-bin/link/joi

23、n.pl回复人: 121.20.236.*08-08-20 11-14怎样才能让百度与时更新的收录数据?你有没有发现搜索引擎已经很久没有收录你的了,有没有方法能让搜索引擎与时更新你的收录数据,不知道那么就跟我来吧!(此处以百度搜索引擎为例)1.在百度搜索引擎输入:site: (此处就是你的网址)得到收录数据.百度一下,找到相关网页29600篇,用时0.001秒2.在百度最底下找到1 2 3 4 5 6 7 8 9 10 下一页每10页点下去,一直点到最后一页,当出现提示:为了提供最相关的结果,我们省略了一些容相似的条目,点击这里可以看到所有搜索结果。再点击提示上的连接.3.最后再次输入:sit

24、e:,是不是发现比原来少了很多页数了?不要害怕,已经达到让百度更新收录数据的目的了.一天以后就会发现重新收录更多了!注意:如果你的有新的容,而又未被收录的话,经验证会有有明显效果的。什么?没有新容?那就增加你的容吧怎样避免被搜索引擎视为作弊 一个要想成功注册,它起码应具备两个条件,一是本身要有较好的容和设计,二是没有作弊行为。这里所谓的“作弊”,是指采用一些特殊的、有悖常规的网页设计手法,以期提高排名的行为。如何设计好,相关的资料很多,本文就不废话了。这里主要谈谈后者,即在提高排名的同时,如何避免被搜索引擎视为作弊而拒绝注册。 那么,在搜索引擎看来,哪些行为算作弊呢?这里罗列了一下,从中你可看

25、到,现在有些人还视为“密技”的东西,其实已经过时了。回复人: 121.20.236.*08-08-20 11-14堆砌页面关键字:为了增加某个词汇在网页上的出现频率,而故意重复它。这是有人常用的花招,不过,现在很多搜索引擎都能识破它。它们通过统计网页单词总数,判断某个单词出现的比例是否正常。一旦超过“定标准”,就对你的网页说“ByeBye”了。放置隐形文本:所谓的“鬼页法”。为了增加关键字数量,网页中放一段与背景颜色一样的、包含密集关键字的文本,访客看不到,可搜索引擎却能找到,过去一度还真能提高排名,但现在,主要搜索引擎都能识别出来,照样玩不通了。安插微型文本:与“鬼页法”相似,只是文本更些更

26、分散、更隐蔽。但是,对于敏感的搜索引擎来说,仍然是枉费心机。网页重定向:使用META刷新标记、CGI程序、Java、Javascript或其它技术,当用户点击一个时,自动跳到另一个网页。有人正是用这种方法,欺骗人们进入并不想去的地方。因此,有些搜索引擎(如Infoseek),对此类网页也很反感,一般不予登记。滥用Meta标记关键字:有人为增加关键字的出现次数,在语句中,重复关键字,或者加入与容毫不相关的热门词汇。这种作弊行为,大部分搜索引擎也能识破。滥用门户网页:门户网页(也称“桥页”),是指为了获得好的排名,而专门针对各搜索引擎排序算法设计的网页。尽管今天,多数搜索引擎并不反对这种作法。但俗

27、话说:“物极必反。”建立太多具有相近关键字的门户网页,会招致搜索引擎的反感而无法成功注册。连续注册:有人为加大保险系数,在一天之,将一个网页重复提交给同一个搜索引擎,其实,这种作法适得其反。重复注册:有人以为,将一个网页简单复制成多个网页,然后,给它们安上不同的名字,并分别予以注册,会增大访问量,结果,搜索引擎会认为你在滥用它,而拒绝登记你的。偷换网页:是指一个网页成功注册并获得较好排名后,用另一个容无关的网页(如产品广告)来替换它的行为。冠戴:上面提到的门户网页,只适用于Altavista这类自动登录的搜索引擎,如果提交给Yahoo这类人工分类的目录式搜索引擎,它就会认为你在作弊。突破页数限

28、制:一些搜索引擎允许每个用户每天或每周提交的网页数量是有限制的。例如,Altavista每天允许10页;HotBot允许每天50页;Excite允许每周25页;Infoseek允许每天50页(但使用注册,没有页数限制)。请注意,这并不是说,搜索引擎每天或每周只能为你登录以上页数,而只是允许你提交的页数。还不明白?那就举个例吧,对于Excite而言,每周只允许你提交25页,如果你的有1000页,那该怎么办呢?就提交25页即可!余下的Excite会自己检查到,并将编入索引中。如果你强行突破这个限制,那么,搜索引擎就会认为你在作弊,反而不予注册。上面这些条款似乎很明显、很容易区分,但有时我们却可能不

29、知不觉犯上。例如,你有一个网页,背景是白色,在这个网页上,你设计了一个表格,其背景为蓝色、文字为白色,这种设计应该说也是完全正常的,但如果你到搜索引擎Infoseek去注册,它却不理你。为什么呢?它认为你在作弊!在Infoseek看来,表格中的白色文本,实际是置于白色的网页背景上,也就是说,网页文本与背景颜色一样,这就符合“鬼页法”的作弊特征。而这一点,可能你自己根本没有意识到。还有一例,有时因设计需要,或者已迁移到其它地方,通常我们会用到网页重定向,但对于Infoseek等搜索引擎而言,这也是不可容忍的作弊行为。另外,Infoseek等搜索引擎还要求,不要在多个网页上布置指向同一个网页的。例

30、如,很多人喜欢在各个网页放上“返回主页”的,其实就属于这种情况。这种司空见惯的设计,居然也被看成作弊,真是太苛刻了。不过,对此Infoseek在真正执行时,似乎也并不是很严格,一些这样设计的网页,它照样登录了(你也碰碰运气?)。总体上说,这些限制都是为了对付真正的作弊者,使搜索引擎的检索结果更加准确有效,但事实上,的确也错怪了一些好人。如果万一你碰上这种情况怎么办,搜索引擎到底会怎样处罚你呢?跟不少网主一样,笔者以前对此不甚了解,以为自己的某个网页违项,会导致整个被封杀。其实,事实并非如此!因为运作搜索引擎的人也知道,有时他们搜索引擎判定的“作弊”,实际是一种正常合法的设计,只是因为搜索引擎自

31、身还不够“聪明”,无法准确判断是故意作弊,还是偶然巧合。所以,他们通常不会因为某网页象在作弊,就拒绝登记整个,而只是对有违规嫌疑的网页进行处罚降低排名或不予登记,而其它的合法网页不会受到影响。此时,你只需将这个网页修改,并重新注册即可。除非你有意作弊,肆无忌惮违反上述多项规则,或者由于你提交的大量垃圾网页,对搜索结果造成明显不良影响,那么,你的整个将被永远踢出门外。当然,也有个别搜索引擎(如HotBot)政策更加宽松,甚至对故意作弊者,也没有永远拒绝登记的规定。只要它认为你没有攻击或侵害到它,一般不会删掉你整个的索引,不过,这个尺度掌握在人家手里,劝你还是别去试它的耐性。回复人: 121.20

32、.236.*08-08-20 11-17作为一名网主,明白了哪些行为是作弊,你就应该在允许围,去探索如何获得较高排名,以增大访问量,让尽可能多的人知道你的产品、服务或了解你本人,只有这样,成功注册才有实际意义。使百度有效收录百度喜欢结构简单的网页,具有复杂结构的网页可能无法顺利登录百度。您在进行网页设计时应尽量:1. 给每个网页加上标题首页的标题,建议您使用您的名称或公司名称,其它网页的标题建议与每个网页容相关,容不同的网页不用一样的标题。2. 不要把整个网页做成一个Flash或是一图片百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一图片,百度在网页中找

33、不到汉字,就有可能不收录您的网页。3. 不对网页做重定向重定向的网页可能不容易登录百度。4.不在网页中使用Frame(框架结构)5.不在网页中使用过分复杂的JavaScript某些Java Script的容对于搜索引擎是不可见的,所以不能被识别和登录。5.静态网页能更顺利登录百度,动态生成的网页不容易登录百度如果您的网页url中含有如asp、?等动态特征,网页就可能被认为是动态网页。如果您的中有很多网页必须做成Frame结构或动态网页,那么建议您至少把首页做成简单的网页,并且对的一些重要网页,在首页加上。6. 不要对搜索引擎进行作弊作弊的不能登录百度,即使登录后也随时可能被删除。作弊定义对搜索

34、引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。以下行为都可能被认为是作弊: 在网页源代码中任何位置,故意加入与网页容不相关的关键词; 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页容相关的关键词,故意重复也被视为作弊行为; 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为; 故意制造大量指向某一网址的行为; 对同一个网址,让搜索引擎与用户访问到不同容的网页(包括利用重定向等行为); 作弊行为的定义是针对而不是网页的。一个即使只有一个网页作弊,该也被认为是有作弊行

35、为; 有指向作弊的,负连带责任,也会被认为是作弊(但是,作弊上指向的,不算作弊)。作弊害处根据网页的作弊情况,会受到不同程度的惩罚: 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名; 较常见的惩罚,是作弊的某些关键词(或所有关键词)的排名降到其它任何之后; 较严厉的惩罚,对于作弊行为和后果特别恶劣的,将从百度中消失; 特别补充,含恶意代码或恶意插件等用户极端反感容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录;回复人: 121.20.236.*08-08-20 11-17Google官方确认AdSense有助于网页收录Google官方确认AdSense有助于网页收录G

36、oogle的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页容。类似地,Google的AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页容进行分析,以投放与网页容相关的广告。但一直以来都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时候,会不会也对这个在Google收录与排名等方面有一定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的的Google收录与

37、排名呢?根据SEJ的消息,Google的一名高级工程师与主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页容后,会把部分结果提交至BigDaddy的数据库里。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的提供给MediaBot的容与提供给Googlebot的容完全不同,那么你就会“有麻烦”。因为Google会认为你在作弊。我认为从Matt给出的讯息里可以证明,在上投放了AdSense的广告,的确是有助于你的被Google收录。比如,收录得更

38、快更多。但并不一定会提高你的排名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。来自幻灭的麦克风搜索引擎原理网络蜘蛛和ROBOTS搜索引擎原理网络蜘蛛和ROBOTS一、网络蜘蛛基本原理网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的地址来寻找网页,从某一个页面(通常是首页)开始,读取网页的容,找到在网页中的其它地址,然后通过这些地址寻找下一个网页,这样一直循环下去,直到把这个所有的网页都抓取完为止。如果把整个互联网当成一个,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。对于搜索

39、引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是1002000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要 340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的

40、时候评价重要性主要的依据是某个网页的深度。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中的所有网页,然后再选择其中的一个网页,继续抓取在此网页中的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个一个跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F

41、属于第1层,G、H属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于设计者来说,扁平化的结构设计有助于搜索引擎抓取其更多的网页。网络蜘蛛在访问网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的,他们希望搜索引擎能搜索到他们的报告,但又不能完全*的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索

42、者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。与网络蜘蛛网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起服务器负担过重。今年4月,淘宝 taobao.)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让和网络蜘蛛进行交流。一方面让管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User agent,用于标识此网络蜘蛛的

43、身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在上有访问日志记录,管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以与读了多少数据等等。如果管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中 blogchina.)2004年5月15日的搜索引擎访问日志:网络蜘蛛进入一个,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在服务器的根目录下,.w3.org/robots.txt。管理员可以通过robots.txt来定义哪些目录网络

44、蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:User-agent: *Disallow:当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这

45、些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页的需要被跟踪。关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献4现在一般的都希望搜索引擎能更全面的抓取自己的网页,因为这样可以让更多的访问者能通过搜索引擎找到此。为了让本的网页更全面被抓取到,管理员可以建立一个地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网页爬取的入口,管理员可以把部所有网页的放在这个文件里面,那么网络蜘蛛可以很方便的把整个抓取下来,避免遗漏某些网页,也会减小对服务器的负担回复人: 121.

46、20.236.*08-08-20 11-19Google官方确认AdSense有助于网页收录Google官方确认AdSense有助于网页收录Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的,也就是说,Google派出它自己的网络蜘蛛,主动去抓取有价值的网页容。类似地,Google的AdSense也有自己的bot,它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页,然后对网页容进行分析,以投放与网页容相关的广告。但一直以来都有一个争论,那就是到底AdSense的MediaBot与Googlebot有什么区别?MediaBot在判断广告相关网页的时

47、候,会不会也对这个在Google收录与排名等方面有一定的好处呢?也就是说,投放了AdSense广告,会不会有助于改善自己的的Google收录与排名呢?根据SEJ的消息,Google的一名高级工程师与主管Matt Cutts已经正式确认,AdSense派出来的MediaBot在抓取网页容后,会把部分结果提交至BigDaddy的数据库里。Matt解释说,这是因为两种bot都在不断地抓取网页,因此为了节省资源,MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告,如果你的提供给MediaBot的容与提供给Googlebot的容完全不同,那么你就会“有麻烦”。因为Goo

48、gle会认为你在作弊。我认为从Matt给出的讯息里可以证明,在上投放了AdSense的广告,的确是有助于你的被Google收录。比如,收录得更快更多。但并不一定会提高你的排名。有这方面经验的朋友应该会想到其它办法,从Matt的话出发。来自幻灭的麦克风搜索引擎原理网络蜘蛛和ROBOTS搜索引擎原理网络蜘蛛和ROBOTS一、网络蜘蛛基本原理网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的地址来寻找网页,从某一个页面(通常是首页)开始,读取网页的容,找到在网页中的其它地址,然后通过这些地址寻找下一个网页,这样

49、一直循环下去,直到把这个所有的网页都抓取完为止。如果把整个互联网当成一个,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是1002000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要 340台机器不停的下载一年时间,才

50、能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的深度。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中的所有网页,然后再选择其中的一个网页,继续抓取在此网页中的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个一个跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会

51、更加明确。由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于设计者来说,扁平化的结构设计有助于搜索引擎抓取其更多的网页。网络蜘蛛在访问网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的,他们希望搜索引擎能搜索到他们的报告,但又

52、不能完全*的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。与网络蜘蛛网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起服务器负担过重。今年4月,淘宝 taobao.)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让和网络蜘蛛进行交流。一方面让管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。每个网络蜘蛛都有自己的名字,在抓

53、取网页的时候,都会向标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在上有访问日志记录,管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以与读了多少数据等等。如果管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中 blogchina.)2004年5月15日的搜索引擎访问日志:网络蜘蛛进入一个,一般会访问一个特殊的文本文件Ro

54、bots.txt,这个文件一般放在服务器的根目录下,.w3.org/robots.txt。管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:User-agent: *Disallow:当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且管理员还

55、可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页的需要被跟踪。关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献4现在一般的都希望搜索引擎能更全面的抓取自己的网页,因为这样可以让更多的访问者能通过搜索引擎找到此。为了让本的网页更全面被抓取到,管理员可以建立一个地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网页爬取的入口

56、,管理员可以把部所有网页的放在这个文件里面,那么网络蜘蛛可以很方便的把整个抓取下来,避免遗漏某些网页,也会减小对服务器的负担回复人: 121.20.236.*08-08-20 11-20容提取搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页与其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它有一定影响。对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接

57、口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告以与公共的频道,这些和文本正文一点关系也没

58、有,在提取网页容的时候,也需要过滤这些无用的。例如某个有“产品介绍”频道,因为导航条在每个网页都有,若不过滤导航条,在搜索“产品介绍”的时候,则每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。对于多媒体、图片等文件,一般是通过的锚文本(即,文本)和相关的文件注释来判断这些文件的容。例如有一个文字为“曼玉照片”,其指向一bmp格式的图片,那么网络蜘蛛就知道这图片的容是“曼玉的照片”。这样,在搜索“曼玉”和“照片”的时候都能让搜索引擎找到这图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的容。动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和ja

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!