建站运营知识

免费体验
当前位置: 首页 > 知识库 > 建站运营知识 >

搜索引擎技术解密:搜索引擎的工作原理

分享到:
时间:2017-01-07 01:03来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
搜索引擎技术解密:搜索引擎的工作原理 三联

  有人说,搜索引擎技术似乎不需要本地化,这一看就是彻底不懂这个领域的人讲的。当然,实话说,如果有人说,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能会比google工程师少一些。但我相信google工程师也会告诉你,搜索引擎是需要本地化的。

  今天写篇科普文,讲讲搜索引擎的技术机理和市场竞争的一些特点。当然,作为从事或有兴趣从事流量运营的朋友,是可以用另一个角度去理解本文。

  搜索引擎的核心技术架构,大体包括以下三块:第一,是蜘蛛/爬虫技术;第二,是索引技术;第三是查询展现的技术; 当然,我不是搜索引擎的架构师,我只能用比较粗浅的方式来做一个结构的切分。

  1、 蜘蛛,也叫爬虫,是将互联网的信息,抓取并存储的一种技术实现。

  搜索引擎的信息收录,很多不明所以的人会有很多误解,以为是付费收录,或者有什么其他特殊的提交技巧,其实并不是,搜索引擎通过互联网一些公开知名的网站,抓取内容,并分析其中的链接,然后有选择的抓取链接里的内容,然后再分析其中的链接,以此类推,通过有限的入口,基于彼此链接,形成强大的信息抓取能力。

  有些搜索引擎本身也有链接提交入口,但基本上,不是主要的收录入口,不过作为创业者,建议了解一下相关信息,百度,google都有站长平台和管理后台,这里很多内容是需要非常非常认真的对待的。

  反过来说,在这样的原理下,一个网站,只有被其他网站所链接,才有机会被搜索引擎抓取。如果这个网站没有外部链接,或者外部链接在搜索引擎中被认为是垃圾或无效链接,那么搜索引擎可能就不抓取他的页面。

  分析和判断搜索引擎是否抓取了你的页面,英文seo,或者什么时候抓取你的页面,只能通过服务器上的访问日志来查询,如果是cdn就比较麻烦。 而基于网站嵌入代码的方式,不论是cnzz,百度统计,还是google analytics,都无法获得蜘蛛抓取的信息,因为这些信息不会触发这些代码的执行。

  一个比较推荐的日志分析软件是awstats。

  在十多年前,分析百度蜘蛛抓取轨迹和更新策略,是很多草根站长每日必做的功课,比如现在身价几十亿的知名80后上市公司董事长,当年在某站长论坛就是以此准确的分析判断而封神,很年轻的时候就已经是站长圈的一代偶像。

  但关于蜘蛛的话题,并不只基于链接抓取这么简单,延伸来说

  第一,网站拥有者可以选择是否允许蜘蛛抓取,有一个robots.txt的文件是来控制这个的。

  一个经典案例是 https:// taobao.com/robots.txt

  你会看到,淘宝至今仍有关键目录不对百度蜘蛛开放,但对google开放。

  另一个经典案例是 baidu.com/robots.txt

  你看出什么了?你可能什么都没看出来,我提醒一句,百度实质上全面禁止了360的蜘蛛抓取。

  但这个协议只是约定俗成,实际上并没有强制约束力,所以,你们猜猜,360遵守了百度的蜘蛛抓取禁止么?

  第二,最早抓取是基于网站彼此的链接为入口, 但实际上,并不能肯定的说,有可能存在其他抓取入口,比如说,

  客户端插件或浏览器, 免费网站统计系统的嵌入式代码。

(整理:英文推广TuiGuang123.com)

分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号