博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Lucene 8 简单的介绍
阅读量:4111 次
发布时间:2019-05-25

本文共 5103 字,大约阅读时间需要 17 分钟。

Lucene 8 简单的介绍

Lucene 简介

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

上面这段摘自百度百科,复制粘贴来的.ElasticSearch 就是基于Lucene开发的搜索引擎,但是这篇文章我们不介绍ES

原理

比如现在主流的Bing Google Baidu Shodan 等等,都应用到了搜索技术

而这种技术实现,只用关系型存储数据库是无法实现的,哪怕你使用模糊查询,这样效率是极其低下的。
也许你会想,我也可以先建个表用来存储分词,然后多对多关系映射文章id,实际上如果你有这个想法,那么恭喜你,这差不多就是倒排索引的思路。

  • 通过下面这个例子 可以简单的了解搜索引擎的原理

    一篇文章的标题为 “21世纪以来最大的数据泄露事件”
    如果单纯使用存储数据库,人家搜索21世纪,数据泄露,等等关键词,你只能通过模糊查询多次,匹配这些关键词,然后自己计算分值,再排序
    如果数据量偏大,这种实现是根本不可能应用的,所以出现了倒排索引这种想法。

  • 倒排索引在这里插入图片描述

    这个图是我复制来的,清晰明了的看懂这种实现方式的具体原理。

  • 分词

    举个例子:“今天的天气真好啊”
    那么我们可以先排除用不到的冠词、介词、副词或连词等,也就是Lucene中的停止词StopWord
    上面这句话先将 “的” 、“啊”这两个字排除掉,剩下的再分词
    “今天”、“天气”、“真好”

  • 得分算法

    Lucene会对搜索结果打分,用来表示文档数据与词条关联性的强弱,得分越高,表示查询的匹配度就越高,排名就越靠前!
    具体可以看这里

Lucene 代码例子

Maven Pom依赖

8.5.0
junit
junit
4.12
org.apache.lucene
lucene-core
${lunece.version}
org.apache.lucene
lucene-queryparser
${lunece.version}
org.apache.lucene
lucene-analyzers-common
${lunece.version}
com.jianggujin
IKAnalyzer-lucene
8.0.0

创建 索引 文档

可以批量创建文档写入时直接传Collection对象,下面只创建了一个

@Test    public void testCreate() throws Exception{
//1 创建文档对象 Document document = new Document(); // 创建并添加字段信息。参数:字段的名称、字段的值、是否存储,这里选Store.YES代表存储到文档列表。Store.NO代表不存储 //由于 6x版本以后 IntField LongField都没了 document.add(new LongPoint("id", 1));//可以用来范围搜索 document.add(new NumericDocValuesField("id", 1));//可以用来sort排序 document.add(new StoredField("id", 1));//单纯用来获得ID值 document.add(new StringField("tag", "小道消息", Field.Store.YES)); // 这里我们title字段需要用TextField,即创建索引又会被分词。StringField会创建索引,但是不会被分词 document.add(new TextField("title", "谷歌突然宕机三小时", Field.Store.YES)); //2 索引目录类,指定索引在硬盘中的位置 //新版本不是给File对象,需要传一个Path对象 Directory directory = FSDirectory.open(Paths.get("D:\\indexTestDir\\")); //如果不想存储在硬盘可以使用RAM存储。Directory directory=new RAMDirectory(); //3 创建分词器对象 //标准分词器,并不合适中文分词,因此一般我们会用第三方提供的分词器:(比如 ChineseAnalyzer CollationAnalyzer等等,不过ChineseAnalyzer已经废弃了),这里使用的是IK分词器 Analyzer analyzer = new IKAnalyzer(); //4 索引写出工具的配置对象 IndexWriterConfig conf = new IndexWriterConfig(analyzer); conf.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND); //5 创建索引的写出工具类。参数:索引的目录和配置信息 IndexWriter indexWriter = new IndexWriter(directory, conf); //6 把文档交给IndexWriter indexWriter.addDocument(document); //7 提交 indexWriter.commit(); //8 关闭 indexWriter.close(); }

搜索

@Test    public void testSearch() throws Exception {
// 索引目录对象 Directory directory = FSDirectory.open(Paths.get("D:\\indexTestDir\\")); // 索引读取工具 IndexReader reader = DirectoryReader.open(directory); // 索引搜索工具 IndexSearcher searcher = new IndexSearcher(reader); // 创建查询解析器,两个参数:默认要查询的字段的名称,分词器 QueryParser parser = new QueryParser("title", new IKAnalyzer()); //如果想同时匹配多个 //QueryParser parser = new MultiFieldQueryParser(new String[]{"field1", "field2"}, new IKAnalyzer()); // 创建查询对象 Query query = parser.parse("谷歌"); // 搜索数据,两个参数:查询条件对象要查询的最大结果条数 // 返回的结果是 按照匹配度排名得分前N名的文档信息(包含查询到的总条数信息、所有符合条件的文档的编号信息)。 TopDocs topDocs = searcher.search(query, 10); // 获取总条数 System.out.println("本次搜索共找到" + topDocs.totalHits + "条数据"); // 获取得分文档对象(ScoreDoc)数组.SocreDoc中包含:文档的编号、文档的得分 ScoreDoc[] scoreDocs = topDocs.scoreDocs; for (ScoreDoc scoreDoc : scoreDocs) {
// 取出文档编号 int docID = scoreDoc.doc; // 根据编号去找文档 Document doc = reader.document(docID); System.out.println("id: " + doc.get("id")); System.out.println("tag: " + doc.get("tag")); System.out.println("title: " + doc.get("title")); // 取出文档得分 System.out.println("得分: " + scoreDoc.score); } }

更多用法

  • 精准匹配
    Query query = new TermQuery(new Term(“title”,“谷歌”));
  • 模糊查询
    Query query = new WildcardQuery(new Term(“title”, “”));
  • LongPoint 范围匹配
    Query query=LongPoint.newRangeQuery(“id”,0,10);
  • 搜索排序
    Sort sort = new Sort(new SortField(“id”, SortField.Type.LONG, true));
    TopDocs topDocs = searcher.search(query, 10,sort);

转载地址:http://ltlsi.baihongyu.com/

你可能感兴趣的文章
Cannot read property compilation of undefined vue 打包运行npm run build 报错
查看>>
vue解决 有ts语法,vscode提示错误问题
查看>>
vue打包时候提示:Cannot read property compilation of undefined
查看>>
推荐:vue解决引入外部css问题和解决css引入背景问题
查看>>
vue.js页面加载数据时加载动画过渡效果
查看>>
推荐Node.js跨域问题实用解决方法
查看>>
初始化一个React项目create-react-app
查看>>
npm安装json-stable-stringify使用
查看>>
react 解决警告Warning: Each child in a list should have a unique “key” prop.
查看>>
安装react初始化项目报错 :无法加载文件 C:\Users\Administrator\AppData\Roaming\npm\create-react-app.ps1,因为在此系统上禁止运行
查看>>
babel-plugin-import配置babel按需引入antd模块
查看>>
浏览器对ES6新语法支持兼容处理
查看>>
ajax请求中自定义添加请求头token两种方式
查看>>
前端常用加密处理vue使用md5加密
查看>>
vue 前端常用加密处理 md5 加密
查看>>
Vue前端常用加密处理base64加密解密
查看>>
VUE前端常用加密处理des加密和解密
查看>>
nodemon代替node自动重启项目
查看>>
react 解决重命名生命周期componentWillMount
查看>>
vs code编写react代码 jsx中html标签Tab键自动补全
查看>>