Elasticsearch之中文分词器

一心同学 2023-11-18 原文

📢📢📢📣📣📣

哈喽！大家好，我是【一心同学】，一位上进心十足的【Java领域博主】！😜😜😜

✨【一心同学】的写作风格：喜欢用【通俗易懂】的文笔去讲解每一个知识点，而不喜欢用【高大上】的官方陈述。

✨【一心同学】博客的领域是【面向后端技术】的学习，未来会持续更新更多的【后端技术】以及【学习心得】。

✨如果有对【后端技术】感兴趣的【小可爱】，欢迎关注【一心同学】💞💞💞

❤️❤️❤️感谢各位大可爱小可爱！❤️❤️❤️

一、问题引入

二、集成IK分词器

🔥 使用ik_max_word（最细粒度划分）

一、问题引入

我们在使用elasticsearch官方默认的分词插件时会发现，其对中文的分词效果不佳，我们对中文分词时会遇到很尴尬的问题——中文词语被分成了一个一个的汉字，当用Kibana作图的时候，按照term来分组，结果一个汉字被分成了一组。

例如我们对“一心同学在看书”这句话进行分词，那么其会被分为：“一”，“心”，“同”，“学”，“在”，“看”，“书”，然而这并不是我们想要的，所以我们需要安装中文分词器ik来解决这个问题。

二、集成IK分词器

2.1 下载

注意：选择的版本要与ElasticSearch版本对应。

下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

2.2 安装

（1）进入 elasticsearch的plugins目录中，创建一个ik文件夹。

（2）将我们刚才下载的文件解压到ik文件夹里面。

（3）重启ES即可

2.3 使用IK分词器

🌵 介绍

IK提供了两个分词算法:

ik_smart：最少切分。

ik_max_word：最细粒度划分。

🔥 使用ik_smart（最少切分）

我们这里使用kibana进行测试。

输入：

GET _analyze
{
  "analyzer": "ik_smart",
  "text": "一心同学在看书"
}

结果：

🔥 使用ik_max_word（最细粒度划分）

输入：

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "一心同学在看书"
}

结果：

🚀分析：可以发现使用ik_max_word算法进行分词会比ik_smart算法分得更细，因为ik_max_word是以穷尽词库的可能来进行分词的。

三、自定义分词器

3.1 问题引入

我们在使用IK分词器时会发现其实有时候分词的效果也并不是我们所期待的，例如我们输入“一心同学在看书”，但是分词器会把“一心同学”进行拆开，分为“一心”和“同学”，但我们希望的是“一心同学”可以不被拆开。

3.2 解决方案

🚀 对于以上的问题，我们只需要将自己要保留的词，加到我们的分词器的字典中即可。

（1）进入elasticsearch目录/plugins/ik/config中，创建我们自己的字典文件yixin.dic，并添加内容：

（2）扩展字典

进入我们的elasticsearch目录：/plugins/ik/config，打开IKAnalyzer.cfg.xml文件，进行如下配置：

（3）重启ElasticSearch，再次使用kibana测试

可以发现，现在我们的词汇“一心同学”就不会被拆开了，达到我们想要的效果了！也就是说如果我们需要自己配置分词就在自定义的dic文件进行配置即可。

小结

以上就是【一心同学】讲解的关于【IK分词器】的下载和配置使用，以及【自定义分词器】的使用，现在对我们的【中文词汇】已经可以进行我们期待中的分割了！

如果这篇【文章】有帮助到你，希望可以给【一心同学】点个赞👍，创作不易，相比官方的陈述，我更喜欢用【通俗易懂】的文笔去讲解每一个知识点，如果有对【后端技术】感兴趣的小可爱，也欢迎关注❤️❤️❤️ 【一心同学】❤️❤️❤️，我将会给你带来巨大的【收获与惊喜】💕💕！

Elasticsearch 之中 strong span xff 中文分词 ik 自定义分词器

有关Elasticsearch之中文分词器的更多相关文章

ruby - Rails Elasticsearch 聚合 - 2
不知何故，我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>
ruby-on-rails - 使用 Rails (Tire) 和 ElasticSearch 进行模糊字符串匹配 - 2
我有一个Rails应用程序，现在设置了ElasticSearch和Tiregem以在模型上进行搜索，我想知道我应该如何设置我的应用程序以对模型中的某些索引进行模糊字符串匹配。我将我的模型设置为索引标题、描述等内容，但我想对其中一些进行模糊字符串匹配，但我不确定在何处进行此操作。如果您想发表评论，我将在下面包含我的代码!谢谢!在Controller中:defsearch@resource=Resource.search(params[:q],:page=>(params[:page]||1),:per_page=>15,load:true)end在模型中:classResource'Us
美团外卖搜索基于Elasticsearch的优化实践 - 2
美团外卖搜索工程团队在Elasticsearch的优化实践中，基于Location-BasedService（LBS）业务场景对Elasticsearch的查询性能进行优化。该优化基于Run-LengthEncoding（RLE）设计了一款高效的倒排索引结构，使检索耗时（TP99）降低了84%。本文从问题分析、技术选型、优化方案等方面进行阐述，并给出最终灰度验证的结论。1.前言最近十年，Elasticsearch已经成为了最受欢迎的开源检索引擎，其作为离线数仓、近线检索、B端检索的经典基建，已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景，目前可参考的资料并不多。因此
【详解】Docker安装Elasticsearch7.16.1集群 - 2
开门见山|拉取镜像dockerpullelasticsearch:7.16.1|配置存放的目录#存放配置文件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/config#存放数据的文件夹mkdir-p/opt/docker/elasticsearch/node-1/data#存放运行日志的文件夹mkdir-p/opt/docker/elasticsearch/node-1/log#存放IK分词插件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/plugins若你使用了moba，直接右键新建即可如上图所示依次类推创建
【Elasticsearch基础】Elasticsearch索引、文档以及映射操作详解 - 2
文章目录概念索引相关操作创建索引更新副本查看索引删除索引索引的打开与关闭收缩索引索引别名查询索引别名文档相关操作新建文档查询文档更新文档删除文档映射相关操作查询文档映射创建静态映射创建索引并添加映射概念es中有三个概念要清楚，分别为索引、映射和文档（不用死记硬背，大概有个印象就可以）索引可理解为MySQL数据库；映射可理解为MySQL的表结构；文档可理解为MySQL表中的每行数据静态映射和动态映射上面已经介绍了，映射可理解为MySQL的表结构，在MySQL中，向表中插入数据是需要先创建表结构的；但在es中不必这样，可以直接插入文档，es可以根据插入的文档（数据），动态的创建映射（表结构），这就
ruby-on-rails - Elasticsearch 问题 : Cannot connect AWS elasticsearch service - 2
我有一个关于配置elasticsearch以连接AWSelasticsearch服务以在生产环境中运行项目的问题。我的gem文件:gem'searchkick'gem'faraday_middleware-aws-signers-v4'gem'aws-sdk','~>2'gem"elasticsearch",">=1.0.15"引用:https://github.com/ankane/searchkick我的config/initializers/elasticsearch.rb文件:require"faraday_middleware/aws_signers_v4"ENV["ELAS
linux查看es节点使用情况,elasticsearch（es）如何查看当前集群中哪个节点是主节点（master） - 2
elasticsearch查看当前集群中的master节点是哪个需要使用_cat监控命令，具体如下。查看方法es主节点确定命令，以kibana上查看示例如下：GET_cat/nodesv返回结果示例如下：ipheap.percentram.percentcpuload_1mload_5mload_15mnode.rolemastername172.16.16.188529952.591.701.45mdi-elastic3172.16.16.187329950.990.991.19mdi-elastic2172.16.16.231699940.871.001.03mdi-elastic4172
ruby - 在 Elasticsearch 中计算地理距离 - 2
我在查询中使用geo_distancefilter和tire，它工作正常:search.filter:geo_distance,:distance=>"#{request.distance}km",:location=>"#{request.lat},#{request.lng}"我预计结果会以某种方式包括到我用于过滤器的地理位置的计算距离。有没有办法告诉elasticsearch在响应中包含它，这样我就不必在ruby中为每个结果计算它？==更新==我在谷歌群组中的foundtheanswer:search.sortdoby"_geo_distance","location"=>"
ruby - 有没有办法计算 ElasticSearch 或 Tire 中索引的所有元素？ - 2
如果不必像这样进行搜索就可以对元素进行计数，那就太好了Obj.search("id:*").count这可能吗？最佳答案在ElasticSearch中，您可以使用计数API对所有元素进行计数curl-XGEThttp://localhost:9200/index/_count参见CountAPI他们网站上的文档。关于ruby-有没有办法计算ElasticSearch或Tire中索引的所有元素？，我们在StackOverflow上找到一个类似的问题： ht

Elasticsearch之中文分词器

一、问题引入

二、集成IK分词器

2.1 下载

2.2 安装

2.3 使用IK分词器

🌵 介绍

🔥 使用ik_smart（最少切分）

🔥 使用ik_max_word（最细粒度划分）

三、自定义分词器

3.1 问题引入

3.2 解决方案

小结

有关Elasticsearch之中文分词器的更多相关文章

随机推荐