第一点:蜘蛛的爬行和抓取
就是搜索引擎派出一个“人”以用户的身份去访问你的网站,这个“人”我们通常叫它为蜘蛛,或者叫它机器人。在搜索引擎出现的前期,蜘蛛最开始是从人为选取的网站做为出发点开始爬去的,这些人为选取的网站都是值得信赖的,然后在从这人为选取的网站里面提取新出现的域名地址开是爬取,这个过程叫做爬行,从此蜘蛛对新网站的抓取就开始呈几何式增长,可以这么说,反向链接已经成为搜索引擎优化的基本因素之一,要是没有方向链接的话,搜索引擎很难发现新出现的页面,那时候就不用谈优化了,连页面都没有怎么去优化,还怎么去排名?既然是以用户的身份访问,那么蜘蛛就会对页面内容产生印象,它就会把页面内容带走也就是抓取保存到自己的数据库中。
第二点:页面索引
无论是谷歌还是百度只要是搜索引擎它们都有自己的一套索引模式,它们会把储存在自己数据库中的网页文件分解开来,按照自己的索引模式进行分析,抛开无法识别或者认为不重要的内容后,用海量的表格形式出入数据库,在索引数据库中被记录下来的基本有页面内容、关键词出现的位置和频率、字体大小、字体颜色等。
第三点:关键词处理
当你输入一个关键词搜索后,搜索引擎就会对你说输入的词语进行处理和分析,比如百度特有的中文分词技术(百度可是申请专利了的),不知道谷歌有没有,我想应该会有的,估计叫中文词干技术,上面纯属YY,继续说,扯到什么地方了?我看看先,哦,从分词技术开始,好像涉及到分词技术去了?打住,只浅谈,哈哈。最后在YY一句,搜索引擎对关键词的处理要非常的迅速,无论处理步骤有多复杂都要以最快的速度处理完。
第四点:搜索排名
把第三点拿下来再说,当搜索引擎对关键词进行自家技术处理后,就开始正式排序了,它会冲索引列表中找出所有包含用户搜索的关键词的网页,并再根据自己家的算法进行排序,就是把谁排在前面谁排在后面,这个复杂程度我是一般人无法想象的,世界上做搜索的也就那么几家要是很简单估计也没什么人去研究了。