当前位置: 首页> SEO资讯> 你知道搜索引擎如何搜索你要找的网页吗?
你知道搜索引擎如何搜索你要找的网页吗?
发布日期:2020-10-27 17:00:00

搜索引擎并不是真的在互联网上搜索。它搜索的实际上是预先安排好的网页索引数据库。

真正的搜索引擎通常是指一个全文搜索引擎,它在互联网上收集了几千万到几十亿个网页,并将网页中的每一个单词(即关键字)建立索引数据库。当用户搜索关键字时,页面内容中包含该关键字的所有页面都将作为搜索结果进行搜索。经过复杂算法排序后,这些结果将根据搜索关键字的关联度进行排序。

目前,搜索引擎普遍采用超链接分析技术。除了分析索引页本身的内容外,它还分析和索引URL、anchortext,甚至链接周围的文本。因此,有时候,即使一个网页中没有一个单词,比如“合肥首页”,如果其他页面指向该页面链接“合肥首页”,那么用户在搜索“合肥首页”时也可以找到上一个页面。而且,如果有更多的页面指向这个页面,链接名为“合肥首页”,或者该链接的源页面越好,那么当用户搜索“合肥首页”时,该页面也会被认为更有相关性,排名也会更高。

搜索引擎的工作原理可以分为三个步骤:从网上抓取网页、建立索引数据库、在索引数据库中进行搜索和排序。

spider系统程序可以从Internet上自动收集web页面,自动访问Internet,沿着任何web页面中的所有url爬行到其他web页面,重复这个过程,并收集所有已爬网的页面。

利用分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页的URL、代码类型、网页内容中包含的关键字、关键字位置、生成时间、大小以及与其他网页的链接关系等)。根据一定的关联算法,对每个网页进行大量复杂的计算,得到每个网页中每个关键词在超链接中的相关性(或重要性),进而建立网页索引数据库。

当用户输入关键字搜索时,搜索系统程序将从网页索引数据库中查找与关键字匹配的所有相关页面。因为所有相关网页对于关键词的相关性都已经计算得很好,所以只需要根据现有的相关性值进行排序,相关性越高,排名就越高。

然后,页面生成系统将搜索结果的链接地址和页面的内容摘要组织给用户。

一般来说,搜索引擎的蜘蛛应该定期访问所有网页(每个搜索引擎的周期不同,可能是几天、几周或几个月,或者对不同重要性的页面可能有不同的更新频率),更新网页索引数据库以反映网页内容的更新,添加新的网页信息,删除死链接,并根据网页内容和链接关系对系统的变化进行重新排序。这样,网页的具体内容和变化就会反映在用户的查询结果中。

虽然只有一个互联网,但是每个搜索引擎的功能和偏好是不同的,因此抓取的网页也不同,排名算法也不同。大型搜索引擎的数据库在互联网上存储着数亿到数十亿的网页索引,数据量达到数千甚至几万克,然而,没有任何一个个搜索引擎建立的索引数据库超过20亿页,而这也只能占普通网页的不到30%在互联网上,不同搜索引擎之间网页数据的重叠率一般小于70%。我们使用不同搜索引擎的重要原因是它们可以分别搜索不同的内容。互联网上有更多的内容是搜索引擎无法获取索引的,我们也无法使用搜索引擎进行搜索。

您应该记住这个概念:搜索引擎只能搜索其索引数据库中存储的内容。你也应该有这样的概念:如果在搜索引擎的索引数据库中应该有一个,但是你没有找到它,那是你的能力问题。

在线咨询 电话咨询