jjzjj

nltk关键字抽取与轻量级搜索引擎(Whoosh, ElasticSearcher)

背景有时候你想用一句完整的话或一个文本在基于关键字的搜索引擎里搜索,但是如果把整个文本放进去搜索的话,效果不是很好,因为你的搜索引擎是基于关键字而不是sematicsearch。那怎么抽取关键字呢?利用NLTK抽取关键的代码importnltkfromnltk.corpusimportstopwordsfromnltk.tokenizeimportword_tokenizefromnltk.probabilityimportFreqDist#DownloadNLTKresourcesnltk.download('punkt')nltk.download('stopwords')defextra

python - Haystack 对多对多字段的搜索不起作用

我正在尝试对具有多对多字段的模型运行搜索,并且我想使用该字段过滤搜索。这是我当前的代码:搜索索引.pyclassListingInex(indexes.SearchIndex,indexes.Indexable):text=indexes.CharField(document=True,use_template=True)business_name=indexes.CharField(model_attr='business_name')category=indexes.MultiValueField(indexed=True,stored=True)city=indexes.Char

python - Django-Haystack 给出属性错误?

我正在尝试将Haystack和Whoosh与我的Django应用程序结合使用。我按照Haystack文档上的步骤操作,但在搜索时出现此错误AttributeErrorat/search/'module'objecthasnoattribute'get_model'search_indexes.py-importdatetimefromhaystackimportindexesfrommovies.modelsimportMovieclassMovieIndex(indexes.SearchIndex,indexes.Indexable):text=indexes.CharField(d

python - 在 Python 中使用 Whoosh 进行模糊字符串搜索

我在MongoDB中建立了一个大型银行数据库。我可以很容易地获取这些信息并快速创建索引。例如,我希望能够匹配银行名称“EagleBank&TrustCoofMissouri”和“EagleBankandTrustCompanyofMissouri”。以下代码适用于简单的模糊此类,但无法实现上述匹配:fromwhoosh.indeximportcreate_infromwhoosh.fieldsimport*schema=Schema(name=TEXT(stored=True))ix=create_in("indexdir",schema)writer=ix.writer()test_

python - Django haystack whoosh 超慢

我有一个简单的django-haystack和whoosh引擎设置。搜索产生19个对象花了我8秒。我使用django-debug-toolbar来确定我有一堆重复的查询。然后我将搜索View更新为预取关系,这样就不会发生重复查询:classMySearchView(SearchView):template_name='search_results.html'form_class=SearchFormqueryset=RelatedSearchQuerySet().load_all().load_all_queryset(models.Customer,models.Customer.o

python - Whoosh 索引查看器

我正在使用带有whoosh的haystack作为Django应用程序的后端。有什么方法可以查看whoosh生成的索引的内容(以易于阅读的格式)?我想看看索引了哪些数据以及如何索引,以便更好地理解它的工作原理。 最佳答案 您可以从python的交互式控制台很容易地做到这一点:>>>fromwhoosh.indeximportopen_dir>>>ix=open_dir('whoosh_index')>>>ix.schema您可以直接在索引上执行搜索查询并执行各种有趣的操作。要获取每份文件,我可以这样做:>>>fromwhoosh.qu

python - Whoosh 索引查看器

我正在使用带有whoosh的haystack作为Django应用程序的后端。有什么方法可以查看whoosh生成的索引的内容(以易于阅读的格式)?我想看看索引了哪些数据以及如何索引,以便更好地理解它的工作原理。 最佳答案 您可以从python的交互式控制台很容易地做到这一点:>>>fromwhoosh.indeximportopen_dir>>>ix=open_dir('whoosh_index')>>>ix.schema您可以直接在索引上执行搜索查询并执行各种有趣的操作。要获取每份文件,我可以这样做:>>>fromwhoosh.qu

python - 全文搜索: Whoosh Vs SOLR

我正在开发一个Django项目,我需要在其中实现全文搜索。我看过SOLR并找到了一些很好的评论。但是由于它是在Java中实现的,因此需要将Java环境与Python一起安装在系统上。在寻找SOLR的python等效项时,我见过Whoosh,但我不确定Whoosh是否与SOLR一样高效和强大。或者我应该只使用SOLR选项,还是有比Whoosh和SOLR与python更好的选项?请提出建议。提前致谢 最佳答案 Whoosh对于纯Python实现来说实际上非常快。也就是说,它仍然至少慢了一个数量级。根据您需要索引和搜索的数据量以及对最大允

python - 全文搜索: Whoosh Vs SOLR

我正在开发一个Django项目,我需要在其中实现全文搜索。我看过SOLR并找到了一些很好的评论。但是由于它是在Java中实现的,因此需要将Java环境与Python一起安装在系统上。在寻找SOLR的python等效项时,我见过Whoosh,但我不确定Whoosh是否与SOLR一样高效和强大。或者我应该只使用SOLR选项,还是有比Whoosh和SOLR与python更好的选项?请提出建议。提前致谢 最佳答案 Whoosh对于纯Python实现来说实际上非常快。也就是说,它仍然至少慢了一个数量级。根据您需要索引和搜索的数据量以及对最大允

python - Whoosh 有多快?

Whoosh是一个用纯Python(officialwebsite)实现的快速、功能强大的全文索引和搜索库。但我找不到与其他搜索引擎相比的任何速度/性能比较,尤其是基于Lucene的搜索引擎(pyLucene、Lupyne...)?我习惯使用pyLucene,它以速度快着称,但非常非pythonic且不易处理(直接java-Lucene包装器)。有一个pyLucene的pythonic包装器;羽扇bean。但是,当需要Lucene的核心功能时,这并不方便。Whoosh和其他之间的任何性能提示将不胜感激。 最佳答案 {1}Whoosh
12