图书介绍

解密搜索引擎技术实战 Lucene&Java精华版【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

解密搜索引擎技术实战 Lucene&Java精华版
  • 罗刚编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121133930
  • 出版时间:2011
  • 标注页数:548页
  • 文件大小:102MB
  • 文件页数:550页
  • 主题词:互联网络-情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

解密搜索引擎技术实战 Lucene&Java精华版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

2.4存储URL地址54

2.4.1 BerkeleyDB54

2.4.2布隆过滤器56

2.5并行抓取59

2.5.1多线程爬虫59

2.5.2垂直搜索的多线程爬虫61

2.5.3异步I/O63

2.6 RSS抓取66

2.7抓取FTP68

2.8下载图片69

2.9图像的OCR识别70

2.9.1图像二值化71

2.9.2切分图像73

2.9.3 SVM分类76

2.10 Web结构挖掘80

2.10.1存储Web图80

2.10.2 PageRank算法84

2.10.3 HITS算法91

2.10.4主题相关的PageRank95

2.11部署爬虫96

2.12本章小结96

第3章 索引内容提取100

3.1从HTML文件中提取文本101

3.1.1字符集编码101

3.1.2识别网页的编码104

3.1.3网页编码转换为字符串编码107

3.1.4使用HTMLParser实现定向抓取107

3.1.5使用正则表达式提取数据112

3.1.6结构化信息提取113

3.1.7网页的DOM结构116

3.1.8使用NekoHTML提取信息118

3.1.9网页去噪123

3.1.10网页结构相似度计算128

3.1.11提取标题130

3.1.12提取日期131

3.2从非HTML文件中提取文本131

3.2.1提取标题的一般方法132

3.2.2 PDF文件136

3.2.3 Word文件140

3.2.4 Rtf文件141

3.2.5 Excel文件152

3.2.6 PowerPoint文件155

3.3提取垂直行业信息155

3.3.1医疗行业155

3.3.2旅游行业156

3.4流媒体内容提取157

3.4.1音频流内容提取157

3.4.2视频流内容提取161

3.5存储提取内容162

3.6本章小结163

第4章 中文分词原理与实现165

4.1 Lucene中的中文分词166

4.1.1 Lucene切分原理166

4.1.2 Lucene中的Analyzer168

4.1.3自己写Analyzer169

4.1.4 Lietu中文分词172

4.2查找词典算法172

4.2.1标准Trie树173

4.2.2三叉Trie树176

4.3中文分词的原理180

4.4中文分词流程与结构184

4.5形成切分词图185

4.6概率语言模型的分词方法191

4.7 N元分词方法195

4.8新词发现197

4.9未登录词识别199

4.10词性标注200

4.10.1隐马尔可夫模型203

4.10.2基于转换的错误学习方法211

4.11平滑算法213

4.12机器学习的方法217

4.12.1最大熵218

4.12.2条件随机场221

4.13有限状态机221

4.14本章小结228

第5章 让搜索引擎理解自然语言230

5.1停用词表231

5.2句法分析树233

5.3相似度计算237

5.4文档排重240

5.4.1语义指纹241

5.4.2 SimHash244

5.4.3分布式文档排重254

5.5中文关键词提取255

5.5.1关键词提取的基本方法255

5.5.2 HITS算法应用于关键词提取257

5.5.3从网页中提取关键词259

5.6相关搜索词260

5.6.1挖掘相关搜索词260

5.6.2使用多线程计算相关搜索词262

5.7信息提取263

5.8拼写检查与建议268

5.8.1模糊匹配问题271

5.8.2英文拼写检查274

5.8.3中文拼写检查275

5.9自动摘要278

5.9.1自动摘要技术278

5.9.2自动摘要的设计279

5.9.3基于篇章结构的自动摘要285

5.9.4 Lucene中的动态摘要285

5.10文本分类288

5.10.1特征提取290

5.10.2中心向量法294

5.10.3朴素贝叶斯296

5.10.4支持向量机305

5.10.5多级分类313

5.10.6规则方法314

5.10.7网页分类317

5.11自动聚类318

5.11.1聚类的定义318

5.11.2 K均值聚类方法318

5.11.3 K均值实现320

5.11.4深入理解DBScan算法324

5.11.5使用DBScan算法聚类实例326

5.12拼音转换328

5.13概念搜索329

5.14多语言搜索337

5.15 跨语言搜索338

5.16情感识别339

5.16.1确定词语的褒贬倾向342

5.16.2实现情感识别343

5.16.3用户协同过滤345

5.17本章小结346

第6章Lucene原理与应用348

6.1 Lucene深入介绍349

6.1.1常用查询349

6.1.2查询语法与解析350

6.1.3查询原理354

6.1.4使用Filter筛选搜索结果355

6.1.5遍历索引库355

6.1.6索引数值列357

6.2 Lucene中的压缩算法360

6.2.1变长压缩360

6.2.2 PForDelta362

6.2.3前缀压缩365

6.2.4差分编码366

6.2.5设计索引库结构368

6.3创建和维护索引库369

6.3.1创建索引库369

6.3.2向索引库中添加索引文档370

6.3.3删除索引库中的索引文档373

6.3.4更新索引库中的索引文档373

6.3.5索引的合并374

6.3.6索引文件格式374

6.3.7分发索引377

6.3.8修复索引380

6.4查找索引库380

6.5读写并发控制381

6.6优化使用Lucene382

6.6.1索引优化382

6.6.2查询优化383

6.6.3实现时间加权排序386

6.6.4实现字词混合索引389

6.6.5重用Tokenizer394

6.6.6定制Tokenizer394

6.7检索模型396

6.7.1向量空间模型396

6.7.2 BM25概率模型401

6.7.3统计语言模型406

6.8查询大容量索引408

6.9实时搜索409

6.10本章小结410

第7章 搜索引擎用户界面411

7.1实现Lucene搜索412

7.2搜索页面设计413

7.2.1 Struts2实现的搜索界面413

7.2.2翻页组件414

7.3实现搜索接口415

7.3.1编码识别415

7.3.2布尔搜索418

7.3.3指定范围搜索419

7.3.4搜索结果排序420

7.3.5搜索页面的索引缓存与更新420

7.4历史搜索词记录423

7.5实现关键词高亮显示424

7.6实现分类统计视图426

7.7实现相似文档搜索431

7.8实现AJAX搜索联想词433

7.8.1估计查询词的文档频率433

7.8.2搜索联想词总体结构434

7.8.3服务器端处理434

7.8.4浏览器端处理435

7.8.5服务器端改进440

7.8.6拼音提示443

7.8.7部署总结444

7.9集成其他功能444

7.9.1拼写检查444

7.9.2分类统计445

7.9.3相关搜索447

7.9.4再次查找450

7.9.5搜索日志450

7.10搜索日志分析452

7.10.1日志信息过滤452

7.10.2信息统计454

7.10.3挖掘日志信息456

7.11本章小结457

第8章 使用Solr实现企业搜索458

8.1 Solr简介459

8.2 Solr基本用法460

8.2.1 Solr服务器端的配置与中文支持461

8.2.2把数据放进Solr466

8.2.3删除数据468

8.2.4 Solr客户端与搜索界面469

8.2.5 Solr索引库的查找471

8.2.6 索引分发475

8.2.7 Solr搜索优化478

8.3从FAST Search移植到Solr481

8.4 Solr扩展与定制482

8.4.1 Solr中字词混合索引483

8.4.2相关检索484

8.4.3搜索结果去重486

8.4.4定制输入/输出490

8.4.5分布式搜索494

8.4.6 Solr查询分析器495

8.4.7扩展Solr503

8.4.8扩展Solr504

8.4.9查询Web图508

8.5 Solr的.NET客户端510

8.6 Solr的PHP客户端516

8.7本章小结519

第9章 地理信息系统案例分析520

9.1新闻提取522

9.2 POI信息提取526

9.2.1提取主体531

9.2.2提取地区533

9.2.3指代消解534

9.3本章小结536

第10章 户外活动搜索案例分析537

10.1爬虫538

10.2信息提取539

10.3活动分类542

10.4搜索543

10.5本章小结544

参考资料545

热门推荐