搜索引擎倒排列表压缩算法
单词对应的倒排列表一般记载3类信息:文档编号、词频信息及单词位置序列信息。因为文档编号及单词位置序列是依次递增的,所以通常的做法是存储其差值,而非原始数据。经过差值转换,文档编号和单词位置信息往往会被转换成大量的小整数,而词频信息大部分是小整数,因为一个单词在正文中出现的频率通常都不高。压缩算法的处理对象就是这3类信息,从以上描述可以看出,倒排列表数据有其特点,即数字分布严重不均衡,小数值占了相当大的比例。
评价索引压缩算法的指标
目前有很多种倒排列表压缩算法可供选择,但是评判算法的优劣需要定量指标。一般来说,评价倒排列表压缩算法会考虑3方面的指标:压缩率、压缩速度和解压速度。
所谓压缩率,就是数据压缩前大小和压缩后大小的比例关系.很明显.压缩率越高.就越节省磁盘空间,同时也节省了倒排列表从磁盘读入到内存的时间。
压缩速度是指压缩一定量的数据所花费的时间,相对而言,这个指标不如其他两个指标重要.因为压缩往往是在建立索引过程中进行的,而建立索引是一个后台运行过程,不需要即时响应用户查询,即使速度慢些也没有太大关系。另外,建立索引的次数相对而言也不算多,所以从几个方面考虑,压缩速度不是一个重要指标。
解压速度在3个指标中是最重要的,其含义是将压缩数据再次恢复为原始数据所花的时间。因为搜索引擎在响应用户查询时,从磁盘读入的是压缩后的数据,需要实时解压以快速响应用户,所以解压速度直接关系到系统的用户体验,其重要性不言而喻。
本文由梦创义网站建设(www.mcykj.com)收集于网络或网友投稿,对于内容系文章作者个人观点,不代表本站观点.我们每日更新最新网站建设教程,网站制作教程,网站建设方案报价等,如果你想了解更多建站知识,请收藏并持续关注我们网站.
本文地址:https://www.mcykj.com/show-77-256-1.html转载请注明出处!
界面设计日新月异,梦创义坚持基于用户需求的界面创新设计……
互联网的格局发生的改变,在我们进行设计服务时更是考虑不同用户、不同……
洞察用户有意识和无意识的行为以及心理特征通过构造一系列的服务来促进……
北京梦创义科技有限公司成立于2012年
创始人以及初创团队成员均来自各大互联网公司
目前公司拥有员工近百人 平均3年以上从业经验
核心团队成员均有10年以上互联网从业经验
手机:13910811300
电话:010-52661970
传真:010-82694569
网址:www.mcykj.com
邮箱:13910811300@126.com
朝阳一部:朝阳区紫芳路九号院广顺园2号楼2605A
海淀二部:回龙观黄平路19号院泰华龙旗广场E座1212室(距西三旗桥2公里,8号线育新站海淀昌平交界)