• 首 页

网站建设|北京网站建设|北京网站制作|北京网站建设首选品牌【企通互联】

http://www.qt-net.com 网站建设咨询热线:010-65587978/77/76/75

相关文章

北京网站设计解除Google“该网站可能含有恶意软件...”的简单技巧
网站设计产品页面的搜索引擎优化技巧
北京网站设计SEO如何部署流量诱饵?
网页设计网站链接质量判断方法
北京网站制作利用搜狗指数+搜狐论坛来实现高流量
北京网页设计7天提高网站访问量四:如何采取合适的页外优化策略
北京网站建设SEO与互联网创业(个人体验)
北京网页设计如何从百度获取优质长尾流量
北京网站设计为什么你的网站被搜索引擎封杀
北京网站制作如何提高网站的搜索排名


品牌理念

北京网站建设最佳合作伙伴
北京网站建设专家企通互联
竭诚为您提供网站建设服务!


友好连接

    • 网站建设
    • 网页设计
    • 网站设计
    • 网站制作
    • 网站优化
    • 百度优化
    • google优化
    • seo
    • 网站推广
    • 网络营销
    • 北京网站建设
    • 北京网站制作
    • 北京网页设计
    • 北京网站设计

文章搜索

你的位置:首页 >> 网站优化 >> 北京网站制作北京网站设计百度、谷歌搜索引擎原理及新网站应对

北京网站制作北京网站设计百度、谷歌搜索引擎原理及新网站应对


作者: 北京网站建设   日期:2008-03-27 06:01:48  来源: http://www.qt-net.com

资深北京网站建设公司企通互联,专业致力于北京网站建设,北京网站制作,北京网站设计, 北京网站建设北京网页设计领域,千余网站建设案例,公司拥有国内一流的网站建设、网站制作、网页设计团队,如果您已经有网站的,看看我们精美的网站建设案例也无妨.北京网站建设网址:http://www.qt-net.com =======================================================================================网站建设
字体:【大】【中】【小】

上一篇:网站设计正确的心态去对待搜索引擎优化

下一篇:北京网站制作如何为自己的网站找到更多的内容

这是一个与众不同的品牌,企通互联只专注于网站建设领域!中小型企业网站建设最佳合作伙伴!网站建设咨询热线:010-65587978/77/76/75!

Copyright © 2008 网站建设|北京网站建设|北京网站制作|北京网站建设首选品牌【企通互联】. Designed by www.qt-net.com Free Website Templates

网站制作第一节 搜索引擎原理

1、基本概念 企通互联

来源于中文wiki百科的解释:(网络)搜索引擎指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。网页设计
来源于英文wiki百科的解释:Web search engines provide an interface to search for information on the World Wide Web.Information may consist of web pages, images and other types of files.(网络搜索引擎为用户提供接口查找互联网上的信息内容,这些信息内容包括网页、图片以及其他类型的文档)

2、分类

按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。

全文搜索引擎通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容,并按事先设计好的规则分析整理形成索引,供用户查询。

两者的区分可用一句话概括:分类目录是人工方式建立网站的索引,全文搜索是自动方式建立网页的索引。(有些人经常把搜索引擎和数据库检索相比较,其实是错误的)。

3、全文搜索的工作原理 网站建设

全文搜索引擎一般信息采集、索引、搜索三个部分组成,具体的可由搜索器、分析器、索引器、检索器和用户接口等5个部分组成

(1)信息采集(Web crawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用称为网络爬虫(crawlers)、网络蜘蛛(spider)或者叫做网络机器人(robots)的自动搜索机器人程序来查询网页上的超链接。 网站设计

进一步解释一下:"机器人"实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每碰到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,假如为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个Web空间的网页。

网上后很多开源的爬虫程序,可以到一些开源社区中查找。

要害点1:核心在于html分析,因此严谨的、结构化的、可读性强、错误少的html代码,更轻易被采集机器人所分析和采集。例如,某个页面存在<body这样的标签或者没有</body></html>这样的结尾,在网页显示是没有问题的,但是很有可能会被采集拒绝收录,在例如类似../../***.htm这样的超链接,也有可能造成蜘蛛无法识别。这也是需要推广web标准的原因之一,按照web标准制作的网页更轻易被搜索引擎检索和收录。

要害点2:搜索机器人有专门的搜索链接库,在搜索相同超链接时,会自动比对新旧网页的内容和大小,假如一致,则不采集。因此有人担心修改后的网页是否能被收录,这是多余的。

( 北京网页设计2)索引(Indexing):搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分,涉及到网页结构分析、分词、排序等技术,好的索引能极大的提高检索速度。

要害点1:虽然现在的搜索引擎都支持增量的索引,但是索引创建依然需要较长的时间,搜索引擎都会定期更新索引,因此即便爬虫来过,到我们能在页面上搜索到,会有一定的时间间隔。 北京网站设计

要害点2:索引是区别好坏搜索的重要标志。

(3)检索(Searching):用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank 后文会介绍),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。

要害点1:不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同要害词,排序是不同的。 www.qt-net.com

北京网站制作
第二节 百度搜索引擎工作方式

我所知道的百度搜索:由于工作的关系,小生有幸一直在使用百度的百事通企业搜索引擎(该部门现已被裁员,主要是百度的战略开始向谷歌靠拢,不再单独销售搜索引擎,转向搜索服务),据百度的销售人员称,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小异。下面是一些简单介绍和注重点:

1、关于网站搜索的更新频率

百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会天天更新。因此,假如你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoo sina 网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。

2、关于采集的深度

百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。

3、关于对时常不通网站的采集

百度对于网站的通断是有专门的判定的,假如一旦发现某个网站不通,尤其是一些中小网站,百度的自动停止往这些网站派出爬虫,所以选择好的服务器,保持网站24小时畅通非常重要。

4、关于更换IP的网站

百度搜索能够基于域名或者ip地址,假如是域名,会自动解析为对应的ip地址,因此就会出现2个问题,第一就是假如你的网站和别人使用相同的IP地址,假如别人的网站被百度惩罚了,你的网站会受到牵连,第二就是假如你更换了ip地址,百度会发现你的域名和先前的ip地址没有对应,也会拒绝往你的网站派出爬虫。因此建议,不要随意更换ip地址,假如有可能尽量独享ip,保持网站的稳定很重要。北京网页设计
(阅读次数:)

上一页12 3 下一页