Feb 06, 2013 PHP

搜索引擎工作过程与 SEO

        搜索引擎的工作的过程非常复杂,而简单的讲搜索引擎的工作过程大体可以分成三个阶段。         (1)、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问页面,获取页面 HTML 代码存入数据库。         (2)、预处理:搜索赢球对抓取来的页面数据文字进行文字提取、中文分词、索引等处理,以备排名程序调用。         (3)、排名:用户输入关键字后,排名调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。 一、爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集任务。 1.1、蜘蛛         搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 各大SEO引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量,有时候就必须屏蔽一些蜘蛛浏览我们的站点。掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;这里搜集了各大搜索引擎的蜘蛛爬虫UA,便于需要时查看。 1.2、蜘蛛代理名称 1.2.1、百度蜘蛛:BaiduSpider         常见的Baiduspider和Baiduspider-image(抓取图片),百度公司还有其它几个蜘蛛:Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap),都不常见。         百度蜘蛛爬虫UA:         PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)           移动端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46…