Month: February 2013
Feb 06, 2013 PHP
搜索引擎工作过程与 SEO
搜索引擎的工作的过程非常复杂,而简单的讲搜索引擎的工作过程大体可以分成三个阶段。 (1)、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问页面,获取页面 HTML 代码存入数据库。 (2)、预处理:搜索赢球对抓取来的页面数据文字进行文字提取、中文分词、索引等处理,以备排名程序调用。 (3)、排名:用户输入关键字后,排名调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。 一、爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集任务。 1.1、蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 各大SEO引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量,有时候就必须屏蔽一些蜘蛛浏览我们的站点。掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;这里搜集了各大搜索引擎的蜘蛛爬虫UA,便于需要时查看。 1.2、蜘蛛代理名称 1.2.1、百度蜘蛛:BaiduSpider 常见的Baiduspider和Baiduspider-image(抓取图片),百度公司还有其它几个蜘蛛:Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap),都不常见。 百度蜘蛛爬虫UA: PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) 移动端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46…