jjzjj

java - 确认实体的最佳方法

coder 2024-03-07 原文

我想了解解决以下问题的最佳方法。

我有与简历/简历非常相似的文档,并且我必须提取实体(名称,姓氏,生日,城市,邮政编码等)。

要提取这些实体,我要组合不同的查找器(正则表达式,字典等)

这些查找器没有问题,但是,我正在寻找一种方法/算法或类似的方法来确认实体。

“确认”是指我必须在邻近位置(更接近我找到的实体)中找到特定的术语(或实体)。

例子:

My name is <name>
Name: <name>
Name and Surname: <name>

我可以确认实体<name>,因为它与让我理解“上下文”的特定术语更为接近。如果我在实体附近有“名字”或“姓”字,那么我可以说我很有可能找到了<name>

因此,目标是编写此类规则以确认实体。另一个示例应该是:

My address is ......, 00143 Rome



意大利语邮政编码是5位数字(仅数字),很容易在我的文档中找到5位数字(我使用上面写的regex),并且我还通过查询数据库来检查该数字是否存在。这里的问题是我需要再进行一次检查以确认(肯定)它。

我必须查看该数字是否在实体<city>附近,如果可以,好的...我有很好的概率。

我也尝试训练模型,但我实际上并没有“上下文”(句子)。
使用以下方法训练模型:
My name is: <name>John</name>
Name: <name>John</name>
Name/Surname: <name>John</name>
<name>John</name> is my name

听起来对我不好,因为:
  • 我读过,我们需要很多句子来训练一个好的模型
  • 那些不是“句子”,我没有“上下文”(请记住我说过的文档类似于简历/简历)
  • 也许这些短语太短了

  • 我不知道有多少种不同的方式可以说出确切的意思,但是我肯定找不到15000种方式:)

    我应该使用哪种方法来确认我的实体?

    非常感谢!

    最佳答案

    问题陈述

    首先,我认为您最好将任务分解为两个步骤(提取并确认),如果我不遗漏问题的某些细节,那是最好的。如果我理解正确,那么您的目标是从一组文档中以最大的精度和召回率提取结构化信息,例如Name/City/etc。任一个指标都可能更重要,但通常将它们以相等的权重考虑-例如通过使用F1措施。

    先评估

    “你无法控制无法测量的东西” Tom DeMarco

    我建议首先准备评估系统并标记数据集:为每个文档找到正确的名称/城市/等-可以完全手动(这是更``真实'',但更困难的方式)或半自动完成的操作,例如通过应用某些方法(包括正在开发的方法)并更正其错误(如果有)。
    评估系统应该能够计算Precision和Recall(请参阅Confusion matrix,以便您自己轻松实现它们)。

    至于它的大小,我不必为准备太大的数据集感到害怕:当然,更多的数据集会更好,但是对于具有复杂(显着非线性)任务和许多功能的情况而言,这是至关重要的。我认为100至200个文档足以满足您的需求-准备工作将需要几个小时。

    然后,您可以基于RegExps和Dictionaries评估您的简单提取器-最好在不同方面(名称或城市)具有单独指标的情况下使用。根据结果​​,您的操作可能会有所不同。

    低精度-添加更多特定功能

    如果该方法显示的精度太低,即提取了太多错误的项目,则应添加特定性或特定功能;我会在致力于信息提取的科学论文中搜索这些信息,这些论文针对的是那些针对特定信息类型的人,例如姓名/姓氏或地址,或者如果您对此类信息感兴趣的话,则会使用一些更模糊的技能。例如,许多专门用于继续解析的论文(例如[2]和[3])都指出,名称/姓氏通常放在文本的开头;或城市通常以“at”开头。
    我不知道您的文件细节,但我怀疑它们是否违反了这种模式。

    同样,处理命名实体识别器的输出可能是有用和容易的,例如Standord NLP,作为一个功能(另请参见relevant question)

    同样,更难但更好的方法是分析NERC所使用的方法,并使它们适应您的任务和文档的细节。

    这些功能可以通过任何有监督的机器学习来汇总(如果您没有太多经验,可以从Logistic回归和随机森林开始):您可以从评估数据集中知道肯定和否定(所有但不是肯定)答案,只需将它们转换为特征空间并喂像Weka这样的ML库。

    召回率低-提取更多候选人

    如果该方法显示的召回率太低,即错过了很多项目,则应扩展候选集-例如,开发限制性较小的模式,向字典查找中添加模糊匹配(查看Jaro-WinklerSoundex字符串指标)。

    另一种选择是应用词性标记,并将每个名词用作候选者-也许某些信息项的每个专有名词,或采用名词双字母组,或添加其他弱限制。在这种情况下,您的精度很可能会降低,因此必须考虑以上段落。

    注意:如果您的数据来自网络(例如来自LinkedIn的个人资料),请尝试通过关键字“网络数据提取”进行搜索或查看import.io

    文学

    只是随机一些,请尝试从Google scholar搜索,最好从调查开始

  • Renuka S. Anami,Gauri R. Rao。自动轮廓提取和
    用斯坦福算法进行分类。国际期刊
    创新技术与探索工程(IJITEE)ISSN:
    2278-3075,第4卷第7期,2014年12月(link)
  • Swapnil声纳。使用命名实体群集恢复解析
    算法。 2015(link)
  • 关于java - 确认实体的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32400289/

    有关java - 确认实体的最佳方法的更多相关文章

    1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

      我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

    2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

      类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

    4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

      很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

    5. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

      我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

    6. Ruby 方法() 方法 - 2

      我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby​​-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco

    7. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

      我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

    8. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

      我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

    9. ruby - Highline 询问方法不会使用同一行 - 2

      设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline,但已经有几个月没有使用它了。现在,在Ruby1.9.2上全新安装时,它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗? 最佳答案

    10. ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2

      我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby​​1.9+ 关于ruby-主要:Objectwhenrun

    随机推荐