图书介绍

网络信息检索技术及搜索引擎系统开发【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

高凯，郭立炜，许云峰编著著
出版社：北京：科学出版社
ISBN：9787030261434
出版时间：2010
标注页数：243页
文件大小：167MB
文件页数：257页
主题词：计算机网络－情报检索；计算机网络－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1afb3d976f7cf3e2722f511151985f2e

下载说明

网络信息检索技术及搜索引擎系统开发PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章　绪论1

1.1　引言1

1.2　信息检索的起源和发展4

1.2.1　手工检索4

1.2.2　脱机批处理检索5

1.2.3　联机检索5

1.2.4　光盘检索5

1.2.5　网络信息检索5

1.3　信息检索模型及方法6

1.3.1　传统布尔检索与扩展布尔检索模型6

1.3.2　向量空间模型9

1.3.3　概率检索模型10

1.3.4　模糊检索模型10

1.3.5　逻辑检索模型10

1.3.6　概念检索11

1.3.7　案例检索12

1.4　网络信息检索的过程12

1.4.1　网络信息获取13

1.4.2　信息加上13

1.4.3　信息检索与结果提供13

1.5　网络信息检索的性能评价13

1.6　网络信息智能化处理15

1.7 网络信息检索技术的未来16

1.7.1　以智能化技术为核心的智能检索16

1.7.2　多媒体信息检索17

1.7.3　跨语言检索17

1.7.4　个性化检索18

本章小结18

参考文献18

第2章　网络信息处理21

2.1 网络信息采集21

2.2　网络信息抽取23

2.3 网络信息的标引与索引24

2.3.1　标引25

2.3.2　索引25

2.4　基于链接分析的网页相关性算法及检索结果排序26

2.4.1　链接分析26

2.4.2　HITS算法27

2.4.3　PageRank算法及网页相关性评价28

2.4.4　HITS算法和PageRank算法的比较29

2.5　基于自然语言处理的检索29

2.5.1　自然语言理解的发展30

2.5.2　基于规则分析的方法31

2.5.3　基于统计分析的方法31

2.5.4　自然语言检索31

本章小结32

参考文献32

第3章　搜索引擎34

3.1　搜索引擎概述34

3.2　搜索引擎的发展历程35

3.3　搜索引擎的分类36

3.3.1　目录索引式搜索引擎36

3.3.2　自动式搜索引擎36

3.3.3　元搜索引擎37

3.3.4　分布式搜索引擎37

3.4　搜索引擎开发平台简介38

3.4.1　Lucene38

3.4.2　Lemur38

3.4.3　LIUS38

3.4.4　Egothor38

3.4.5　Xapian39

3.5 开源的Web搜索引擎系统简介39

3.5.1　Nutch39

3.5.2　YaCy39

3.5.3　Compass40

3.6　相关资源40

3.6.1　权威教材40

3.6.2 国际著名研究机构41

3.6.3　著名国际会议42

本章小结42

参考文献42

第4章　Lucene的索引与检索机制及其应用43

4.1　Lucene简介43

4.2　Lucene的下载、安装与部署44

4.2.1 下载Lucene44

4.2.2　配置环境变量45

4.2.3　对Lucene Demo的测试45

4.3　Lucene的索引与检索机制概述48

4.3.1 文本分析48

4.3.2　Lucene的索引方式48

4.3.3　Lucene索引文件的构成50

4.3.4　Lucene的检索51

4.3.5　Lucene的索引和检索主要流程52

4.4　管理和操作索引53

4.4.1　设定增量索引53

4.4.2　更新索引53

4.4.3　优化索引56

4.4.4　管理索引56

4.5　Lucene的检索57

4.5.1 构建检索57

4.5.2　完成检索的主要步骤58

4.6　根据用户提交的检索词构造查询59

4.6.1　对单一域字段检索60

4.6.2 对逻辑关系检索60

4.6.3 对范围的检索61

4.6.4 对前缀通配的检索62

4.6.5 对Query的前缀和后缀通配的检索63

4.6.6　模糊检索的实现63

4.6.7 对多关键词的检索64

4.6.8　通过Query的SpanNearQuery方式完成近似检索65

4.7　基于Lucene应用程序：开源搜索引擎系统Nutch66

4.7.1　Nutch简介66

4.7.2　在Eclipse中加载Nutch68

本章小结76

参考文献76

第5章　分词处理77

5.1 概述77

5.1.1 基于词典匹配的中文分词77

5.1.2　基于词频统计的无词典中文分词78

5.1.3　Lucene的分析器78

5.2　常用的中英文分词器及分词效果79

5.2.1　停用词分析器79

5.2.2　标准分析器81

5.2.3　简单分析器82

5.2.4　空格分析器83

5.2.5　关键词分析器84

5.2.6　ChineseAnalyzer85

5.2.7　CJKAnalyzer87

5.2.8 第三方分词工具ICTCLAS89

5.2.9　第三方分析软件JE90

5.2.10　第三方分析软件IK_CAnalyzer91

5.2.11　第三方分析软件MIK_Canalyzer93

本章小结94

参考文献94

第6章　检索结果排序及处理95

6.1　检索结果集Hits95

6.2　检索结果的排序及控制96

6.2.1　Lucene的排序机制96

6.2.2 通过改变文档的Boost因子来改变排序结果98

6.2.3　使用Lucene的Sort类定制排序结果100

6.2.4 对多个指定Field进行综合排序101

6.3 检索结果的分页102

6.4　检索结果的高亮显示104

6.5　检索日志处理107

6.5.1　下载及配置Log4J107

6.5.2　配置信息107

6.5.3 Servlet启动文件108

6.5.4 测试112

本章小结113

参考文献113

第7章　网络信息获取114

7.1 网络蜘蛛的工作原理114

7.2　开源网络蜘蛛简介115

7.2.1　Weblech115

7.2.2　J-spider117

7.3　Nutch网络蜘蛛的工作机制及其使用118

7.3.1　确定种子集118

7.3.2 下载网页119

7.3.3　查阅爬行日志120

7.3.4　修改配置文件122

本章小结127

参考文献127

第8章　网络信息预处理128

8.1 使用PDFBOX预处理PDF文档129

8.2　使用JACOB预处理WORD文档132

8.3　使用HTMLParser预处理HTML文档134

8.4　使用POI处理OFFICE文档138

8.4.1 处理EXCEL文档138

8.4.2　处理WORD文档139

8.5　使用Lucene处理SQL Server数据表142

本章小结148

参考文献149

第9章　信息采集中的网页去重与相似网页聚类150

9.1 概述150

9.2　相关工作152

9.3　对同源网页的去重153

9.4 同源网页去重性能评测155

9.4.1 测试数据集与测试环境155

9.4.2 同源网页去重算法性能比较与分析156

9.5　相似网页聚类157

9.5.1 网页主题概念的自动标引158

9.5.2　主题概念权值的确定159

9.5.3　主题概念抽取的主要流程与示例160

9.5.4　对主题概念标引过程中可能存在的问题的说明162

9.5.5　网页间相似关系的度量与聚类处理162

9.6　对内容雷同网页聚类的性能评测163

9.6.1　应用环境163

9.6.2　网页聚类示例164

9.6.3　召回率与聚类准确率统计168

9.6.4　可能存在的问题及改进计划170

本章小结172

附录172

参考文献177

第10章　信息的动态采集与更新179

10.1　概述179

10.2　相关工作180

10.3　泊松过程181

10.4　用泊松过程描述更新事件182

10.5　更新事件到达时间的条件分布182

10.6　网页动态采集及调整策略184

10.7　基于相关性的网页动态采集调整187

10.8　网页动态采集实验结果与分析190

10.8.1 网页更新事件的分布与统计190

10.8.2　更新效果分析及对可能存在问题的说明192

10.8.3　系统资源利用分析193

10.8.4　局限性及下一步的工作194

本章小结194

参考文献195

第11章　面向自然语言提问的理解与处理196

11.1　概述196

11.2　相关工作197

11.3　基于句模分析的自然语言提问处理199

11.3.1　概述199

11.3.2　句模199

11.3.3　核心检索项的抽取200

11.3.4　概念检索202

11.4　核心检索项间逻辑关系的识别与处理203

11.4.1　研究背景203

11.4.2　对自然语言提问的形式化表示203

11.4.3　基于产生式规则的归约204

11.4.4 对二义性问题的处理206

11.4.5　对语义的处理及其局限性206

11.5　性能评测207

11.5.1　对检索数量的定量分析207

11.5.2　对检索项间逻辑关系处理的分析209

11.5.3　查全率和查准率统计与分析211

11.5.4　对尚存问题的说明214

本章小结215

参考文献215

第12章　相关概念反馈217

12.1 概述217

12.2　相关工作217

12.3　相关概念反馈的实现218

12.3.1 基于用户检索提问的相关概念获取218

12.3.2　基于FPR算法的相关概念获取219

本章小结223

参考文献223

第13章　相近检索与检索结果排序225

13.1 查询纠错与相近检索概述225

13.2　性能测试与分析226

13.3　可能存在的问题229

13.4　有关检索结果排序的相关工作230

13.5　检索结果排序策略230

13.6　相关性权值的确定231

13.7　检索效果示例及对可能存在问题的说明232

本章小结233

参考文献233

第14章　基于用户浏览兴趣的网页预取234

14.1 概述234

14.2　相关工作235

14.2.1　个性化技术235

14.2.2 网页预取236

14.3　基于Session-tree的网页预取237

14.3.1　用户行为分析237

14.3.2　Session-tree结构及算法流程238

14.4　性能分析及对可能存在问题的说明240

本章小结241

参考文献242