Web挖掘技术王仲明

AnalyzerluceneAnalyzer=newStandardAnalyzer();

这条语句创建了类StandardAnalyzer的一个实例,这个类是用来从文本中提取出索引项的。它只是抽象类Analyzer的其中一个实现。Analyzer也有一些其它的子类,比如SimpleAnalyzer等。我们接着看另外一条语句:

IndexWriterindexWriter=newIndexWriter(indexDir,luceneAnalyzer,true);

这条语句创建了类IndexWriter的一个实例,该类也是Lucene索引机制里面的一个关键类。这个类能创建一个新的索引或者打开一个已存在的索引并为该所引添加文档。我们注意到该类的构造函数接受三个参数,第一个参数指定了存储索引文件的路径。第二个参数指定了在索引过程中使用什么样的分词器。最后一个参数是个布尔变量,如果值为真,那么就表示要创建一个新的索引,如果值为假,就表示打开一个已经存在的索引。接下来的代码演示了如何添加一个文档到索引文件中。

1Documentdocument=newDocument();23document.add(Field.Text("content",textReader));4document.add(Field.Text("path",textFiles[i].getPath()));5indexWriter.addDocument(document);

首先第一行创建了类Document的一个实例,它由一个或者多个的域(Field)组成。你可以把这个类想象成代表了一个实际的文档,比如一个HTML页面,一个PDF文档,或者一个文本文件。而类Document中的域一般就是实际文档的一些属性。比如对于一个HTML页面,它的域可能包括标题,内容,URL等。我们可以用不同类型的Field来控制文档的哪些内容应该索引,哪些内容应该存储。如果想获取更多的关于Lucene的域的信息,可以参考Lucene的帮助文档。代码的第二行和第三行为文档添加了两个域,每个域包含两个属性,分别是域的名字和域的内容。在我们的例子中两个域的名字分别是"content"和"path"。分别存储了我们需要索引的文本文件的内容和路径。最后一行把准备好的文档添加到了索引当中。当我们把文档添加到索引中后,不要忘记关闭索引,这样才保证Lucene把添加的文档写回到硬盘上。下面的一句代码演示了如何关闭索引。indexWriter.close();利用清单1中的代码,你就可以成功的将文本文档添加到索引中去。接下来我们看看对索引进行的另外一种重要的操作,从索引中删除文档。从索引中删除文档类IndexReader负责从一个已经存在的索引中删除文档,如清单2所示。

1FileindexDir=newFile("C:2\\luceneIndex");3IndexReaderir=IndexReader.open(indexDir);4ir.delete(1);5ir.delete(newTerm("path","C:\\file_to_index\lucene.txt"));6ir.close();

在清单2中,第二行用静态方法IndexReader.open(indexDir)初始化了类

IndexReader的一个实例,这个方法的参数指定了索引的存储路径。类IndexReader提供了两种方法去删除一个文档,如程序中的第三行和第四行所示。第三行利用文档的编号来删除文档。每个文档都有一个系统自动生成的编号。第四行删除了路径为"C:\\file_to_index\lucene.txt"的文档。你可以通过指定文件路径来方便的删除一个文档。值得注意的是虽然利用上述代码删除文档使得该文档不能被检索到,但是并没有物理上删除该文档。Lucene只是通过一个后缀名为.delete的文件来标记哪些文档已经被删除。既然没有物理上删除,我们可以方便的把这些标记为删除的文档恢复过来,如清单3所示,首先打开一个索引,然后调用方法ir.undeleteAll()来完成恢复工作。

FileindexDir=newFile("C:\\luceneIndex");IndexReaderir=IndexReader.open(indexDir);ir.undeleteAll();ir.close();

你现在也许想知道如何物理上删除索引中的文档,方法也非常简单。清单4演示了这个过程。4

1FileindexDir=newFile("C:\\luceneIndex");2AnalyzerluceneAnalyzer=newStandardAnalyzer();3IndexWriterindexWriter=new4IndexWriter(indexDir,luceneAnalyzer,false);5indexWriter.optimize();6indexWriter.close();在清单4中,第三行创建了类IndexWriter的一个实例,并且打开了一个已经

THE END
1.Web技术什么是web技术web:超文本,超媒体,超文本传输协议 web技术指的是开发互联网应用的技术总称,一般包括WEB服务端技术和WEB客户端技术。 Internet和web的关系: web是Internet上最流行的应用之一,Internet为web提供了网络运行环境 web的出现极大的推动了Internet的普及和推广。 https://blog.csdn.net/m0_51709479/article/details/112511705
2.Web程序设计:构建网络世界的艺术与科学那么,Web程序设计究竟是什么呢?本文将对这一问题进行深入探讨。#百享新春分亿金# 定义 Web程序设计,也称为Web开发,是指利用Web技术(如HTML、CSS、JavaScript等)来创建和开发Web应用程序的过程。这些应用程序可以是简单的静态网页,也可以是复杂的动态网站、电子商务平台、社交网络等。Web程序设计涉及前端、后端https://baijiahao.baidu.com/s?id=1791491533002562655&wfr=spider&for=pc
3.计算机web技术介绍计算机web技术介绍 Web 客户端的主要任务是展现信息内容。Web客户端设计技术主要包括:HTML语言、Java Applets、 脚本程序、 CSS、 DHTML、插件技术以及VRML技术。下面是YJBYS小编给你带来的web技术相关知识,欢迎阅读! 1) HTML语言。 HTML是Hypertext Markup Language(超文本标记语言)的缩写,它是构成Web页面的主要工具。https://m.oh100.com/peixun/wangluojishu/244684.html
4.Web技术概述51CTO博客HTTP(Hypertext Transfer Protocol,超文本传输协议)是Web技术的核心,HTTP设计了一套相当简单的规则,用来支持客户端主机和服务器主机的通信。 HTTP采用客户/服务器(C/S)结构,定义了客户端和服务器之间进行“对话”的请求响应规则。客户端的请求程序与运行在服务器端的接收程序建立连接,客户端发送请求给服务器,HTTP规则https://blog.51cto.com/u_15060467/4192613
5.Web3是什么?能实现吗?区块链技术区块链相较之下,Web3引入去信任性,因此使用者可以在不信任任何特定方的情况下进行交易和互动。语义Web可让应用程式透过了解Web资料的内容和情境来执行复杂的任务。语义Web使用中继资料和人工智慧为使用者产生的资料提供含义(语义)。 Web3.0旨在更全面地转向目前于现有Web技术的某些方面发现的语义Web技术。例如,搜寻引擎提供更https://www.jb51.net/blockchain/935182.html
6.Web开发技术的发展Web 开发技术一直在不断发展,各种新的技术层出不穷。但是技术发展的本质是不变的,就是为了不断提高生产效率、创造更好的产品和服务和解决更多更难的问题。 一、静态页面时代 静态页面时代 缺点 只能显示静态内容 二、动态页面 前后端不分 1.CGI 时代 https://www.jianshu.com/p/8962ce3a5d07
7.Web3D技术综述AET摘要:WEB 3D(又称网络三维)技术是随着互联网与虚拟现实(Virtual Reality)技术的发展而产生的,其目的是在互联网上建立三维的虚拟世界,让人们更加清晰明了地了解真实的物体。目前,Web 3D技术在电子商务、教育、娱乐、虚拟社区等领域获得了广泛的应用。从该项技术的发展现状出发,归纳、总结了其主流技术和应用领域,对目前http://www.chinaaet.com/article/218191
8.Web前端技术Web前端技术 作者:张晓如 ISBN:9787560659077 出版社:西安电子科技大学出版社 出版年:2020 Web前端开发技术 作者:吴志祥等编著 ISBN:9787568043656 出版社:华中科技大学出版社 出版年:2019 Web前端开发技术 作者:张娅 ISBN:9787518432189 出版社:中国轻工业出版社 出版年:2021 Web前端开发技术 作者:章慧 ISBN:97873https://www.las.ac.cn/front/book/detail?id=3ac04f78857063d0e351a5b17acc01ac
9.Web开发技术(Java)教程(第四版)软件工程类定价:52 元样章下载:Web开发技术(Java)教程(第三版)—样章.pdf 购买地址: 教材简介教材简介 一、教材的基本信息 1.适用对象 本教材适用于计算机相关专业基于Java的Web开发课程的教学。 2.具备的知识和能力基础 学习本教材,需要具备基本的Java语言程序设计和数据库原理的相关知识,并且已经具有了基本的计算机基础知识http://www.neubooks.com/press/books!type1!m2/1032.htm
10.Web媒体技术MDN逐年来,Web 呈现、创建并管理音频、视频和其他媒体的能力以不断增长的步伐发展。今日有着大量可用的 API、HTML 元素、DOM 界面和其他不仅仅限于完成这些任务,而是为了将媒体和其他技术联合使用以实现非凡事物的特性可供使用。这篇文章列出了可能对你掌握这些技术有帮助的http://developer.mozilla.org/zh-CN/docs/Web/Media/
11.Web前端开发技术实验与实践HTML5CSS3JavaScript(第4版本书是重量实验教学示范中心联席会计算机学科组“十四五”规划教材,是中国大学出版社图书奖优秀教材、首批江苏省优秀培育教材《Web前端开发技术——HTML5、CSS3、JavaScript》(第4版·题库·微课视频版)的配套实验与实践教材。本书提供“实验教学大纲”“项目源码”“实训素材”“课外拓展训练答案”等配套资源。 https://item.winxuan.com/1202796760
12.Web日志安全分析浅谈随着Web技术不断发展,Web被应用得越来越广泛,所谓有价值的地方就有江湖,网站被恶意黑客攻击的频率和网站的价值一般成正比趋势,即使网站价值相对较小,也会面对“脚本小子”的恶意测试攻击或者躺枪于各种大范围漏洞扫描器,正如安全行业的一句话:“世界上只有两种人,一种是知道自己被黑了的,另外一种是被黑了还不知道的https://xz.aliyun.com/t/1121
13.《Web框架技术(Struts2+Hibernate+Spring3)教程(高等学校计算机当当网图书频道在线销售正版《Web框架技术(Struts2+Hibernate+Spring3)教程(高等学校计算机专业教材精选·算法与程序设计)》,作者:张志锋,出版社:清华大学出版社。最新《Web框架技术(Struts2+Hibernate+Spring3)教程(高等学校计算机专业教材精选·算法与程序设计http://product.dangdang.com/23257161.html
14.Web前端开发技术2024pdfepubmobi电子书Web前端开发技术 2024 pdf epub mobi 电子书 图书描述 本书全面、系统地介绍了网页设计与制作所涉及的各方面的内容和技巧,涵盖网页设计流程和各种Web前端技术:HTML、CSS、JavaScript和HTML5。各章都配置了大量的实用案例,图文并茂,效果直观。 Web前端开发技术 2024 pdf epub mobi 电子书 https://onlinetoolsland.com/books/26785200