首页 > 华企学院 > 优化教程 > 百度搜索引擎_索引系统概述

百度搜索引擎_索引系统概述

作者:华企商城小编  浏览量:167   发布时间:2015-12-03 17:25:08

众所周知,搜索引擎的首要工作进程包含:抓取、存储、页面剖析、索引、检索等几个首要进程。曩昔几周给咱们介绍了抓取有关的扼要进程。今日扼要介绍一下索引体系,以亿为单位的页面库中查找特定的某些关键字犹如大海里边捞针,或许必定的时间内可以完结查找,可是用户等不起,从用户体会视点咱们必须在毫秒等级给予用户满足的成果,否则用户只能丢失。怎样才能到达这种请求呢?

如果能知道用户查找的关键字(query切词后)都出现在哪些页面中,那么用户检索的处理进程即可以幻想为包含了query中切词后不一样有些的页面调集求交的进程,而检索即变成了页面称号之间的对比、求交。这么,在毫秒内以亿为单位的检索成为了也许。这便是通常所说的倒排索引及求交检索的进程。如下为树立倒排索引的基本进程:

(1)页面剖析的进程实际上是将初始页面的不一样有些进行辨认并标记,例如:title、keywords、content、link、anchor、谈论、别的非主要区域等等;

(2)分词的进程实际上包含了切词分词同义词变换同义词更换等等,以对某页面title分词为例,得到的将是这么的数据:term文本、termid、词类、词性等等;

(3)之前的准备工作完结后,接下来便是树立倒排索引,构成{termàdoc},可以大略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?

上述便是索引体系中的倒排索引进程,是搜索引擎完成毫秒级检索非常主要的一个环节。

华企商城更多商品介绍:快手刷评论    易推微信营销工具  微信朋友圈广告方案

文章转载请注明出处:http://www.netshop168.com/article-2727.html


精品推荐
下一篇:分享一下最新的网站seo方案(纯干货)
上一篇:建立符合搜索抓取习惯的网站
相关文章

华人企业网
关注微信公众号
享受更多优惠

 

消费者最喜爱的网站TOP100 | | 网络社会征信网 | 北京工商 | 法律顾问 | 京ICP备07504386号-6 | 网站地图