jjzjj

minscore

全部标签

ruby - 如何在 Ruby 中进行模糊子串匹配?

我发现了很多关于模糊匹配的链接,将一个字符串与另一个字符串进行比较,看看哪个获得最高的相似度分数。我有一个很长的字符串,它是一个文档,还有一个子字符串。子字符串来自原始文档,但已被多次转换,因此可能引入了奇怪的人工制品,例如这里有一个空格,那里有一个破折号。子字符串将与原始文档中的一段文本匹配99%或更多。我不匹配以查看该字符串来自哪个文档,我试图在文档中找到该字符串开始的索引。如果字符串是相同的,因为没有引入随机错误,我会使用document.index(substring),但是即使只有一个字符差异,这也会失败。我认为可以通过删除字符串和子字符串中除a-z之外的所有字符来解决差异,