Lucene.Net 全文检索以及盘古分词(.net core)

C#语言基础

下载此实例

开发语言：C#
实例大小：35.63M
下载次数：45
浏览次数：1045
发布时间：2020-05-29
实例类别：C#语言基础
发布人：lxtql
文件格式：.zip
所需积分：10

实例介绍

[下载地址]

【实例简介】

【实例截图】

from clipboard

【核心代码】

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using Lucene.Net.Analysis.PanGu;
using Lucene.Net.Documents;
using Lucene.Net.Index;
using Lucene.Net.QueryParsers;
using Lucene.Net.Search;
using Lucene.Net.Store;
using Lucene.Net.Util;
using Lucene_PanGu.Common;
using Lucene_PanGu.Models;
using Microsoft.AspNetCore.Mvc;
using PanGu;
using Directory = System.IO.Directory;

namespace Lucene_PanGu.Controllers
{
    [Route("api/search")]
    [ApiController]
    public class SearchController : Controller
    {
        /// <summary>
        /// 创建索引
        /// </summary>
        /// <returns></returns>
        [HttpGet]
        [Route("createIndex")]
        public string CreateIndex()
        {
            //索引保存位置
            var indexPath = Directory.GetCurrentDirectory()   "/Index";
            if (!Directory.Exists(indexPath)) Directory.CreateDirectory(indexPath);
            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());
            if (IndexWriter.IsLocked(directory))
            {
                //  如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁
                //  Lucene.Net在写索引库之前会自动加锁，在close的时候会自动解锁
                IndexWriter.Unlock(directory);
            }
            //Lucene的index模块主要负责索引的创建
            //  创建向索引库写操作对象  IndexWriter(索引目录,指定使用盘古分词进行切词,最大写入长度限制)
            //  补充:使用IndexWriter打开directory时会自动对索引库文件上锁
            //IndexWriter构造函数中第一个参数指定索引文件存储位置；
            //第二个参数指定分词Analyzer，Analyzer有多个子类，
            //然而其分词效果并不好，这里使用的是第三方开源分词工具盘古分词；
            //第三个参数表示是否重新创建索引，true表示重新创建（删除之前的索引文件），
            //最后一个参数指定Field的最大数目。
            IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), true,
                IndexWriter.MaxFieldLength.UNLIMITED);
            var txtPath = Directory.GetCurrentDirectory()   "/Upload/Articles";
            for (int i = 1; i <= 1000; i  )
            {
                //  一条Document相当于一条记录
                Document document = new Document();
                var title = "天骄战纪_"   i   ".txt";
                var content = System.IO.File.ReadAllText(txtPath   "/"   title, Encoding.Default);
                //  每个Document可以有自己的属性（字段），所有字段名都是自定义的，值都是string类型
                //  Field.Store.YES不仅要对文章进行分词记录，也要保存原文，就不用去数据库里查一次了
                document.Add(new Field("Title", "天骄战纪_"   i, Field.Store.YES, Field.Index.NOT_ANALYZED));
                //  需要进行全文检索的字段加 Field.Index. ANALYZED
                //  Field.Index.ANALYZED:指定文章内容按照分词后结果保存，否则无法实现后续的模糊查询 
                //  WITH_POSITIONS_OFFSETS:指示不仅保存分割后的词，还保存词之间的距离
                document.Add(new Field("Content", content, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));
                writer.AddDocument(document);
            }
            writer.Close(); // Close后自动对索引库文件解锁
            directory.Close(); //  不要忘了Close，否则索引结果搜不到
            return "索引创建完毕";
        }
        /// <summary>
        /// 盘古分词
        /// </summary>
        /// <param name="words"></param>
        /// <returns></returns>
        [HttpGet]
        [Route("standard")]
        public object Standard(string words)
        {
            var str = Participle.PanGu(words);
            return str;
        }
        /// <summary>
        /// 搜索
        /// </summary>
        /// <returns></returns>
        [HttpGet]
        [Route("search")]
        public object Search(string keyWord, int pageIndex, int pageSize)
        {
            Stopwatch stopwatch = new Stopwatch();
            stopwatch.Start();
            string indexPath = Directory.GetCurrentDirectory()   "/Index";
            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());
            IndexReader reader = IndexReader.Open(directory, true);
            //创建IndexSearcher准备进行搜索。
            IndexSearcher searcher = new IndexSearcher(reader);
            // 查询条件
            keyWord = GetKeyWordsSplitBySpace(keyWord, new PanGuTokenizer());
            //创建QueryParser查询解析器。用来对查询语句进行语法分析。
            //QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
            QueryParser msgQueryParser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "Content", new PanGuAnalyzer(true));
            Query msgQuery = msgQueryParser.Parse(keyWord);
            //TopScoreDocCollector:盛放查询结果的容器
            //numHits 获取条数
            TopScoreDocCollector collector = TopScoreDocCollector.create(1000, true);
            //IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。
            // 使用query这个查询条件进行搜索，搜索结果放入collector
            searcher.Search(msgQuery, null, collector);
            // 从查询结果中取出第n条到第m条的数据
            ScoreDoc[] docs = collector.TopDocs(0, 1000).scoreDocs;
            stopwatch.Stop();
            // 遍历查询结果
            List<ReturnModel> resultList = new List<ReturnModel>();
            var pm = new Page<ReturnModel>
            {
                PageIndex = pageIndex,
                PageSize = pageSize,
                TotalRows = docs.Length
            };
            pm.TotalPages = pm.TotalRows / pageSize;
            if (pm.TotalRows % pageSize != 0) pm.TotalPages  ;
            for (int i = (pageIndex - 1) * pageSize; i < pageIndex * pageSize && i < docs.Length; i  )
            {
                var doc = searcher.Doc(docs[i].doc);
                var content = HighlightHelper.HighLight(keyWord, doc.Get("Content"));
                var result = new ReturnModel
                {
                    Title = doc.Get("Title"),
                    Content = content,
                    Count = Regex.Matches(content, "<font").Count
                };
                resultList.Add(result);
            }

            pm.LsList = resultList;
            var elapsedTime = stopwatch.ElapsedMilliseconds   "ms";
            var list = new { list = pm, ms = elapsedTime };
            return list;
        }
        /// <summary>
        /// 对关键字进行盘古分词处理
        /// </summary>
        /// <param name="keywords"></param>
        /// <param name="ktTokenizer"></param>
        /// <returns></returns>
        private static string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer)
        {
            StringBuilder result = new StringBuilder();
            ICollection<WordInfo> words = ktTokenizer.SegmentToWordInfos(keywords);

            foreach (WordInfo word in words)
            {
                if (word == null)
                {
                    continue;
                }
                result.AppendFormat("{0}^{1}.0 ", word.Word, (int)Math.Pow(3, word.Rank));
            }
            return result.ToString().Trim();
        }
    }
}

标签： Lucene pangu

实例下载地址

Lucene.Net 全文检索以及盘古分词(.net core)

点此下载实例

不能下载？内容有错？点击这里报错 + 投诉 + 提问

好例子网口号：伸出你的我的手 — 分享！

网友评论

我要评论

第 1 楼 paul__he 发表于: 2020-12-11 10:13 25: 这是拿别人的成果卖钱啊
支持(0) 盖楼(回复)

小贴士

感谢您为本站写下的评论，您的评论对其它用户来说具有重要的参考价值，所以请认真填写。

类似“顶”、“沙发”之类没有营养的文字，对勤劳贡献的楼主来说是令人沮丧的反馈信息。
相信您也不想看到一排文字/表情墙，所以请不要反馈意义不大的重复字符，也请尽量不要纯表情的回复。
提问之前请再仔细看一遍楼主的说明，或许是您遗漏了。
请勿到处挖坑绊人、招贴广告。既占空间让人厌烦，又没人会搭理，于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享，对搜索内容的合法性不具有预见性、识别性、控制性，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论平台是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定，若资源存在侵权或相关问题请联系本站客服人员，点此联系我们。关于更多版权及免责申明参见版权及免责申明

Lucene.Net 全文检索以及盘古分词(.net core)

同类人气实例

实例介绍

实例下载地址

Lucene.Net 全文检索以及盘古分词(.net core)

相关软件

相关文章

网友评论

小贴士

关于好例子网

下载周排行

下载总排行

Lucene.Net 全文检索 以及盘古分词(.net core)

同类人气实例

实例介绍

实例下载地址

Lucene.Net 全文检索 以及盘古分词(.net core)

相关软件

相关文章

网友评论

小贴士

关于好例子网

下载周排行

下载总排行

Lucene.Net 全文检索以及盘古分词(.net core)

Lucene.Net 全文检索以及盘古分词(.net core)