华企商城欢迎您! 登录 注册 总站[切换城市]
中国优秀的企业全生态服务平台 我的购物车0

咨询热线: 010-85755626

售后服务: 010-85779318

首页 >华企学院 >优化教程 > 百度搜索引擎_索引系统概述

百度搜索引擎_索引系统概述

作者:华企商城 阅读次数:349次 发布时间:2015-12-03 17:25:08评论:0

众所周知,搜索引擎的首要工作进程包含:抓取、存储、页面剖析、索引、检索等几个首要进程。曩昔几周给咱们介绍了抓取有关的扼要进程。今日扼要介绍一下索引体系,以亿为单位的页面库中查找特定的某些关键字犹如大海里边捞针,或许必定的时间内可以完结查找,可是用户等不起,从用户体会视点咱们必须在毫秒等级给予用户满足的成果,否则用户只能丢失。怎样才能到达这种请求呢?

如果能知道用户查找的关键字(query切词后)都出现在哪些页面中,那么用户检索的处理进程即可以幻想为包含了query中切词后不一样有些的页面调集求交的进程,而检索即变成了页面称号之间的对比、求交。这么,在毫秒内以亿为单位的检索成为了也许。这便是通常所说的倒排索引及求交检索的进程。如下为树立倒排索引的基本进程:

(1)页面剖析的进程实际上是将初始页面的不一样有些进行辨认并标记,例如:title、keywords、content、link、anchor、谈论、别的非主要区域等等;

(2)分词的进程实际上包含了切词分词同义词变换同义词更换等等,以对某页面title分词为例,得到的将是这么的数据:term文本、termid、词类、词性等等;

(3)之前的准备工作完结后,接下来便是树立倒排索引,构成{termàdoc},可以大略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?

上述便是索引体系中的倒排索引进程,是搜索引擎完成毫秒级检索非常主要的一个环节。

华企商城更多商品介绍:快手刷评论    易推微信营销工具  微信朋友圈广告方案

文章转载请注明出处:http://www.netshop168.com/article-2727.html

有好的文章希望华企帮您分享推广,猛戳这里我要投稿

【版权声明】本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 1324939756@qq.com 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

我来说两句 0条评论

最新评论

栏目最新文章

找到您想要的文章

快速发布任务

  • 频道热点
  • 全站热点