jjzjj

php - N-gram : Explanation + 2 applications

coder 2023-06-14 原文

我想用 n-gram 实现一些应用程序(最好用 PHP)。


哪种类型的 n-gram 更适合大多数用途?单词级别还是字符级别的 n-gram?如何在 PHP 中实现 n-gram-tokenizer?


首先,我想知道 N-gram 到底是什么。这个对吗?这就是我对 n-gram 的理解:

句子:“我住在纽约。”

词级二元组(n 为 2):“# I”、“I live”、“live in”、“in NY”、“NY #”<​​>

字符级二元组(2 个代表 n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in” ", "n#", "#N", "NY", "Y#"

当您拥有这个 n-gram-parts 数组时,您可以删除重复的部分并为每个部分添加一个计数器以给出频率:

词级二元组:[1, 1, 1, 1, 1]

字符级二元组:[2, 1, 1, ...]

这是正确的吗?


此外,我想进一步了解您可以使用 n-gram 做什么:

  • 如何使用 n-gram 识别文本的语言?
  • 是否可以使用 n-gram 进行机器翻译,即使您没有双语语料库?
  • 如何构建垃圾邮件过滤器(垃圾邮件、非垃圾邮件)?将 n-gram 与贝叶斯过滤器相结合?
  • 如何进行主题定位?例如:有关篮球或狗的文字?我的方法(用维基百科关于“狗”和“篮球”的文章执行以下操作):为两个文档构建 n-gram 向量,对其进行归一化,计算曼哈顿/欧几里德距离,结果越接近 1 越高相似度

您如何看待我的申请方法,尤其是最后一个?


我希望你能帮助我。提前致谢!

最佳答案

对于您提到的大多数文本分析应用程序,单词 n-gram 通常会更有用,但语言检测可能除外,在这种情况下,诸如字符三元组之类的东西可能会提供更好的结果。实际上,您将为您有兴趣检测的每种语言的文本语料库创建 n-gram 向量,然后将每个语料库中三元组的频率与您正在分类的文档中的三元组进行比较。例如,三元组 the 在英语中的出现频率可能比在德语中的出现频率高得多,并且会提供某种程度的统计相关性。获得 n-gram 格式的文档后,您可以选择多种算法进行进一步分析、Baysian 滤波器、N-最近邻、支持向量机等。

在您提到的应用程序中,机器翻译可能是最牵强的,因为单独的 n-gram 不会让您走得很远。将输入文件转换为 n-gram 表示只是将数据转换为格式以进行进一步特征分析的一种方式,但是由于您会丢失大量上下文信息,因此可能对翻译没有用处。

需要注意的一点是,为一个文档创建一个向量 [1,1,1,2,1] 为另一个文档创建一个向量 [2,1,2,4] 是不够的,如果尺寸不匹配。也就是说,向量中的第一个条目不能是一个文档中的 the 和另一个文档中的 is ,否则算法将不起作用。你最终会得到像 [0,0,0,0,1,1,0,0,2,0,0,1] 这样的向量,因为大多数文档不会包含你感兴趣的大多数 n-gram。这个“衬里”特征的增加是必不可少的,它要求您“提前”决定您将在分析中包含哪些 ngram。通常,这是作为两遍算法实现的,首先确定各种 n-gram 的统计显着性以决定保留什么。谷歌“功能选择”了解更多信息。

基于单词的 n-gram 和支持向量机以一种出色的方式执行主题定位,但是您需要预先分类为“主题”和“主题外”的大量文本语料库来训练分类器。您会在 citeseerx 等网站上找到大量研究论文,解释解决此问题的各种方法。 .我不会推荐欧几里得距离方法来解决这个问题,因为它不会根据统计显着性对单个 n-gram 进行加权,因此两个文档都包含 theaisof 将被视为比两个都包含 Baysian 的文档更好的匹配。从您感兴趣的 n-gram 中删除停用词会有所改善。

关于php - N-gram : Explanation + 2 applications,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1032288/

有关php - N-gram : Explanation + 2 applications的更多相关文章

  1. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  2. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  3. ruby - 使用 `+=` 和 `send` 方法 - 2

    如何将send与+=一起使用?a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案 恐怕你不能。+=不是方法,而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:

  4. ruby - 如何计算 Liquid 中的变量 +1 - 2

    我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止,这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。 最佳答案 因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量,我

  5. arrays - Ruby 数组 += vs 推送 - 2

    我有一个数组数组,想将元素附加到子数组。+=做我想做的,但我想了解为什么push不做。我期望的行为(并与+=一起工作):b=Array.new(3,[])b[0]+=["apple"]b[1]+=["orange"]b[2]+=["frog"]b=>[["苹果"],["橙子"],["Frog"]]通过推送,我将推送的元素附加到每个子数组(为什么?):a=Array.new(3,[])a[0].push("apple")a[1].push("orange")a[2].push("frog")a=>[[“苹果”、“橙子”、“Frog”]、[“苹果”、“橙子”、“Frog”]、[“苹果”、“

  6. += 的 Ruby 方法 - 2

    有没有办法让Ruby能够做这样的事情?classPlane@moved=0@x=0defx+=(v)#thisiserror@x+=v@moved+=1enddefto_s"moved#{@moved}times,currentxis#{@x}"endendplane=Plane.newplane.x+=5plane.x+=10putsplane.to_s#moved2times,currentxis15 最佳答案 您不能在Ruby中覆盖复合赋值运算符。任务在内部处理。您应该覆盖+,而不是+=。plane.a+=b与plane.a=

  7. ruby - Sinatra + Heroku + Datamapper 使用 dm-sqlite-adapter 部署问题 - 2

    出于某种原因,heroku尝试要求dm-sqlite-adapter,即使它应该在这里使用Postgres。请注意,这发生在我打开任何URL时-而不是在gitpush本身期间。我构建了一个默认的Facebook应用程序。gem文件:source:gemcuttergem"foreman"gem"sinatra"gem"mogli"gem"json"gem"httparty"gem"thin"gem"data_mapper"gem"heroku"group:productiondogem"pg"gem"dm-postgres-adapter"endgroup:development,:t

  8. ruby - Ruby 中字符串运算符 + 和 << 的区别 - 2

    我是Ruby和这个网站的新手。下面两个函数是不同的,一个在函数外修改变量,一个不修改。defm1(x)x我想确保我理解正确-当调用m1时,对str的引用被复制并传递给将其视为x的函数。运算符当调用m2时,对str的引用被复制并传递给将其视为x的函数。运算符+创建一个新字符串,赋值x=x+"4"只是将x重定向到新字符串,而原始str变量保持不变。对吧?谢谢 最佳答案 String#+::str+other_str→new_strConcatenation—ReturnsanewStringcontainingother_strconc

  9. ruby-on-rails - Rails - 理解 application.js 和 application.css - 2

    rails新手。只是想了解\assests目录中的这两个文件。例如,application.js文件有如下行://=requirejquery//=requirejquery_ujs//=require_tree.我理解require_tree。只是将所有JS文件添加到当前目录中。根据上下文,我可以看出requirejquery添加了jQuery库。但是它从哪里得到这些jQuery库呢?我没有在我的Assets文件夹中看到任何jquery.js文件——或者直接在我的整个应用程序中没有看到任何jquery.js文件?同样,我正在按照一些说明安装TwitterBootstrap(http:

  10. ruby - rails 3.2.2(或 3.2.1)+ Postgresql 9.1.3 + Ubuntu 11.10 连接错误 - 2

    我正在使用PostgreSQL9.1.3(x86_64-pc-linux-gnu上的PostgreSQL9.1.3,由gcc-4.6.real(Ubuntu/Linaro4.6.1-9ubuntu3)4.6.1,64位编译)和在ubuntu11.10上运行3.2.2或3.2.1。现在,我可以使用以下命令连接PostgreSQLsupostgres输入密码我可以看到postgres=#我将以下详细信息放在我的config/database.yml中并执行“railsdb”,它工作正常。开发:adapter:postgresqlencoding:utf8reconnect:falsedat

随机推荐