KMP算法

原创已于 2023-10-08 19:22:49 修改 · 104 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法 #笔记

于 2023-10-07 10:37:06 首次发布

KMP算法是一种高效的字符串匹配方法，核心在于next数组（前缀表），用于记录已匹配部分，当出现不匹配时，根据前缀表快速回退。时间复杂度为O(n+m)，显著优于暴力匹配的O(n*m)。

KMP 算法（Knuth-Morris-Pratt 算法）是一个著名的字符串匹配算法，效率很高，但是确实有点复杂。

KMP有什么用

KMP主要应用在字符串匹配上。主要思想是当出现字符串不匹配时，可以知道一部分之前已经匹配的文本内容，可以利用这些信息避免从头再去做匹配了。
所以如何记录已经匹配的文本内容，是KMP的重点，也是next数组肩负的重任。
如果面试官问：next数组里的数字表示的是什么，为什么这么表示？
估计大多数候选人都是朦胧的。下面就把KMP的精髓，next数组弄清楚。

什么是前缀表

写过KMP的同学，一定都写过next数组，那么这个next数组究竟是个啥呢？
next数组就是一个前缀表（prefix table）。

前缀表有什么作用呢？

前缀表是用来回退的，它记录了模式串与主串(文本串)不匹配的时候，模式串应该从哪里开始重新匹配。为了清楚的了解前缀表的来历，我们来举一个例子：
要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。
请记住文本串和模式串的作用，对于理解下文很重要，要不然容易看懵。所以说三遍：
要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。
要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。
要在文本串：aabaabaafa 中查找是否出现过一个模式串：aabaaf。
如果暴力匹配，会发现不匹配，此时就要从头匹配了。
但如果使用前缀表，就不会从头匹配，而是从上次已经匹配的内容开始匹配。

前缀表是如何记录的呢？

首先要知道前缀表的任务是当前位置匹配失败，找到之前已经匹配上的位置，在重新匹配，此也意味着在某个字符失配时，前缀表会告诉你下一步匹配中，模式串应该跳到哪个位置。

什么是前缀表：记录下标i之前（包括i）的字符串中，有多大长度的相同前缀后缀。

为什么一定要用前缀表

在下标5的地方遇到不匹配，模式串是指向f
在这里插入图片描述
然后就找到了下标2，指向b，继续匹配

下标5之前这部分的字符串（也就是字符串aabaa）的最长相等的前缀和后缀字符串是子字符串aa，
因为找到了最长相等的前缀和后缀
匹配失败的位置是后缀子串的后面
那么我们找到与其相同的前缀的后面从新匹配就可以了。
所以前缀表具有告诉我们当前位置匹配失败，跳到之前已经匹配过的地方的能力。

如何计算前缀表

在这里插入图片描述
长度为前1个字符的子串a，最长相同前后缀的长度为0。
注意:
字符串的前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串；
字符串的后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。
在这里插入图片描述
长度为前2个字符的子串aa，最长相同前后缀的长度为1。

长度为前3个字符的子串aab，最长相同前后缀的长度为0。
以此类推：
长度为前4个字符的子串aaba，最长相同前后缀的长度为1。
长度为前5个字符的子串aabaa，最长相同前后缀的长度为2。
长度为前6个字符的子串aabaaf，最长相同前后缀的长度为0。
那么把求得的最长相同前后缀的长度就是对应前缀表的元素。
在这里插入图片描述
可以看出模式串与前缀表对应位置的数字表示的就是：
下标i之前（包括i）的字符串中，有多大长度的相同前缀后缀。
如何利用前缀表找到当字符不匹配的时候应该指针应该移动的位置
找到的不匹配的位置，那么此时我们要看它的前一个字符的前缀表的数值是多少。
为什么要前一个字符的前缀表的数值呢，因为要找前面字符串的最长相同的前缀和后缀。
所以要看前一位的前缀表的数值。
前一个字符的前缀表的数值是2，所有把下标移动到下标2的位置继续比配。
在这里插入图片描述
最后就在文本串中找到了和模式串匹配的子串了。

前缀表与next数组

很多KMP算法的时间都是使用next数组来做回退操作，那么next数组与前缀表有什么关系呢？
next数组就可以是前缀表，但是很多实现都是把前缀表统一减一（右移一位，初始位置为-1）之后作为next数组。
为什么这么做呢，其实也是很多文章视频没有解释清楚的地方。
其实这并不涉及到KMP的原理，而是具体实现，next数组既可以是前缀表，也可以是前缀表统一减一（右移一位，初始位置为-1）。

时间复杂度分析

其中n为文本串长度，m为模式串长度，因为在匹配的过程中，根据前缀表不断调整匹配的位置，可以看出匹配的过程是O(n)，之前还要单独生成next数组，时间复杂度是O(m)。所以整个KMP算法的时间复杂度是O(n+m)的。
暴力的解法显而易见是O(n*m)，所以KMP在字符串匹配中极大的提高的搜索的效率。