搜索引擎的收集方式

咱们既然做SEO,是研究搜索引擎排名,和修汽车差不多,要先搞搞他们的工作原理再说。

还是先看一个图,这个是搜索引擎工作的工作流程:

这篇文章先聊聊第一步,网页搜集。

我们都知道网上有非常多的网页,这些网页不可能主动的跑到搜索引擎的索引库里面,而是需要搜索引擎的蜘蛛去抓取才行。

首先我们想抓取的方式,我们的网页是事先抓好的还是你去搜索的时候搜索引擎才去抓取的?

我们都知道我们的网速下载一个页面很快的话也要几十毫秒,甚至一秒,如果等用户搜索的时候,弄几十万的页面来处理,估计搜索引擎就爆掉了。

看看搜索“SEO”这个关键词他的搜索结果,有一亿个。

所以搜索引擎肯定是事先收集好的。

具体这些网页是怎么搜集到的,一般有两种形式。

第一是定期收集,这个在网上就非常多啦,我直接找一篇论文给截图一下好了:

这一篇文章里面还提到了谷歌每隔28天来一次的频率,包括现在的百度,我们很多时候发现我们的网站的索引量一般都是在每周四发生比较大的变动。这个也是定期收集和更新的结果。

在很久时间,很多人都说网站有定期更新一说,其实是有道理的。

 

第二种收集方式,就是增量收集,他主要解决三个问题,还是用论文里面提到的概念好了。

就是上面的三个点到的问题。

其实一个搜索引擎牛叉不牛叉,就是看他的增量收集策略做的好不好,实时不实时。

因为这个增量收集一方面是考验技术,另外一个方面考验了一个搜索引擎的硬件能力。

如果一个搜索引擎的硬件达不到要求,有再好的技术也是白搭。

 

当然这个网站收集会有一个比较有意思的概念,不知道大家想到没有,就是搜索引擎在开始抓取互联网的时候,他总得有一个开始的点吧,也就是说搜索引擎从哪个网页作为他的第一个页面开始抓呢?

这个开始的点,搜索引擎也给他有一个命名,叫做种子站点。

了解到这个概念,我们如果能够判断出来哪个网站是种子站点,当我们发外链的时候或者换友情链接的时候,找一个和种子站点近的网站或者页面,是不是就有利于我们网站的收录呢?

呵呵,今天就说道这个吧!

我是邻村小五我的QQ号:253280463,欢迎与您一起交流SEO,欢迎您在转载我的文章的时候带上出处!

SEO实操小组招募,百分百学会做排名,如果不会,加价退款,详情点击了解

本文:【搜索引擎的收集方式】--SEO基础
文章地址:http://zhengzhou.seosrx.net/jichu/23.html 转载请保留链接地址

上一篇:搜索引擎结果的三要素
下一篇:正排索引和倒排索引