字符串匹配算法(BF&&KMP)

平行线也会相交 2023-06-30 原文

个人主页：平行线也会相交
欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由平行线也会相交原创
收录于专栏【数据结构初阶（C实现）】

字符串匹配算法

在学习这个算法之前，我们先来看看什么时字符串匹配算法，简单来说有一个主串和一个子串，查找子串在主串的位置，然后返回这个位置的下标。
想要实现这个功能其实有很多方法，比较有名的算法有两种：一种是BF算法又称暴力算法，另一种就是KMF算法。

BF算法

BF算法：思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配，如果相等，则继续比较S的第二个字符和T的第二个字符；如果不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的酦醅结果。
举个例子：

代码实现

#define _CRT_SECURE_NO_WARNINGS 1
//BF算法

#include<assert.h>

#include<stdio.h>

//str为主串，sub为子串
int BF(char* str, char* sub)
{
	assert(str != NULL && sub != NULL);
	if (str == NULL || sub == NULL)
		return -1;
	int lenStr = strlen(str);
	int lenSub = strlen(sub);
	int i = 0;
	int j = 0;
	while (i < lenStr && j < lenSub)
	{
		if (str[i] == sub[j])
		{
			i++;
			j++;
		}
		else
		{
			i = i - j + 1;
			j = 0;
		}
	}
	if (j >= lenSub)//如果j>=lenSub说明子串遍历完成，即匹配成功，返回i的下标。
	{
		return i - j;
	}
	//不存在直接返回-1
	return -1;
}

int main()
{
	printf("%d\n", BF("ababcabcdabcde", "abcd"));
	printf("%d\n", BF("ababcabcdabcde", "abcdf"));
	printf("%d\n", BF("ababcabcdabcde", "ab"));
	return 0;
}

KMP算法

KMP算法就是对BF算法是一种对BF算法的改进，该算法核心就是可以利用匹配失败后的信息，尽量减少模式串与字串的匹配次数以到达快速匹配的目的（具体shi）。
KMP与BF算法的区别就是KMP算法主串的并不会回退；并且j不会移动到0号位置，而是移动到一个特定的位置。
我们直接来举个例子：

此时i和j位置的字符不匹配了。此时i是不进行回溯的，而是要对j进行回溯，那么j应该回溯到哪个位置呢？

由于每个位置要回溯的位置可能不一样，所以就引出了next数组。即用next[j]=k来表示。不同的j对应一个K值。这个K就是将来j要进行回溯的位置。如上图我们求的是当j=5的时候，K的值就是2，即将来j要回溯到下标为2的位置。即next[5]=2;。再比如说，当j是4的时候，K的值就是1，即next[4]=1;。

关于K值求取的规则如下：

1.找到匹配成功部分的两个相等的真串（不包含本身），一个以下标0开始，另一个j-1下标结束。
2.无论是什么数据，如果我们是从0开始计数（这里按照数组下标从0开始的习惯所以从0开始计数），那么next[0]=-1;next[1]=0；如果我们从1开始计数，那么next[0]=0;next[1]=1。

来练习一下：
"a b a b c a b c d a b c d e ",求其next数组。
答案如下图：

代码实现

#include<stdio.h>
#include<assert.h>
#include<stdlib.h>
#include<string.h>

void GetNext(char* sub, int* next, int lenSub)
{
	next[0] = -1;
	next[1] = 0;
	int i = 2;
	int k = 0;
	while (i < lenSub)
	{
		if (k == -1 || sub[i - 1] == sub[k])
		{
			next[i] = k + 1;
			i++;
			k++;
		}
		else
		{
			k = next[k];
		}
	}
}

int KMP(char* str, char* sub, int pos)
{
	assert(str != NULL && sub != NULL);
	int lenStr = strlen(str);
	int lenSub = strlen(sub);
	if (lenStr == 0 || lenSub == 0)
		return -1;
	if (pos < 0 || pos >= lenStr)
		return -1;

	int* next = (int*)malloc(sizeof(int) * lenSub);
	assert(next != NULL);

	GetNext(sub, next, lenSub);

	int i = pos;//遍历主串
	int j = 0;//遍历子串

	while (i < lenStr && j < lenSub)
	{
		if (j == -1 || str[i] == sub[j])
		{
			i++;
			j++;
		}
		else
		{
			j = next[j];
		}
	}
	if (j >= lenSub)
	{
		return i - j;
	}
	return -1;
}

int main()
{

	printf("%d\n", KMP("ababcabcdabcde", "abcd", 0));
	printf("%d\n", KMP("ababcabcdabcde", "abcdf", 0));
	printf("%d\n", KMP("ababcabcdabcde", "ab", 0));
	return 0;
}

nextval数组改进

下面来看nextval数组的求解规则。

1.无论是什么数据，nextval[0]=-1;(这里还是默认数组的习惯从0开始计数)。如果是从1开始计数，则nextval[0]=0;。
2.从第二位开始，我们用next[i]值对应的字符与i值对应的字符进行比较。如果相等，则nextval[i]就等于next[i]值对应字符的nextval[i]值；如果不相等，则nextval[i]值就等于当前字符对应的next值。

我们还是来进行举例：

求模式串"a b c a a b b c a b c a a b d a b"。

下面来看详细过程：
第一个字符a对应的nextval[0]一定为-1（按照从0开始计数的话）。即nextval[0]=-1;
第二个字符b的next值即next[1]=0;所以第二个字符和下标为0的字符进行比较。发现不相等，所以nextval[1]=第二个字符所对应的next值，即nextval[1]=0;。
第三个字符c的next值即next[2]=0;所以第三个字符和下标为0的字符进行比较。发现不相等，所以nextval[2]=第三个字符所对应的next值，即nextval[2]=0;。
第四个字符a的next值即next[3]=0;所以第四个字符和下标为0的字符进行比较。发现相等了，所以nextval[3]=下标为0的字符所对应的nextval值，在这里就是nextval[3]=nextval[0]。
第五个字符a的next值即next[4]=1;所以第五个字符a和下标为1的字符b进行比较。发现不相等，所以nextval[4]=当前字符(即指的是第五个字符)所对应的next值，所以最终nextval[4]=next[4]=1。
依此类推进行分析，所以最终该串的nextval数组就如上图所示。

好了，以上就是关于字符串BF和KMP算法的一个记录。
就到这里吧，各位，再见啦！！！

有关字符串匹配算法(BF&&KMP)的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身，new.html.erb，有代码:当我运行rspec时，它失败了:1)messages/new.html.erbshou
ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

字符串匹配算法(BF&&KMP)

目录

字符串匹配算法

BF算法

代码实现

KMP算法

代码实现

nextval数组改进

有关字符串匹配算法(BF&&KMP)的更多相关文章

随机推荐