bzoj 3555 企鹅QQ

最新推荐文章于 2020-07-19 01:39:34 发布

原创最新推荐文章于 2020-07-19 01:39:34 发布 · 231 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

探讨了在PenguinQQ网站中，如何通过哈希算法高效地找出所有相似的账户名称，即仅在一个位置上字符不同的账户对。文章详细解释了字符串哈希原理及其实现过程，包括哈希值计算、减字符哈希值、结果排序和相似账户对计数。

在网上搜，看到很多题解的帖子，大咖们都很惜言，能一个字说的，绝不两个字，我看了一些，就把自己的理解详细写下了，所以写的比较啰嗦了

Description

PenguinQQ是中国最大、最具影响力的SNS（Social Networking Services）网站，以实名制为基础，为用户提供日志、群、即时通讯、相册、集市等丰富强大的互联网功能体验，满足用户对社交、资讯、娱乐、交易等多方面的需求。
小Q是PenguinQQ网站的管理员，他最近在进行一项有趣的研究——哪些账户是同一个人注册的。经过长时间的分析，小Q发现同一个人注册的账户名称总是很相似的，例如Penguin1，Penguin2，Penguin3……于是小Q决定先对这种相似的情形进行统计。
小Q定义，若两个账户名称是相似的，当且仅当这两个字符串等长且恰好只有一位不同。例如“Penguin1”和“Penguin2”是相似的，但“Penguin1”和“2Penguin”不是相似的。而小Q想知道，在给定的个账户名称中，有多少对是相似的。
为了简化你的工作，小Q给你的个字符串长度均等于，且只包含大小写字母、数字、下划线以及‘@’共64种字符，而且不存在两个相同的账户名称。

Input

第一行包含三个正整数，，。其中表示账户名称数量，表示账户名称长度，用来表示字符集规模大小，它的值只可能为2或64。
若等于2，账户名称中只包含字符‘0’和‘1’共2种字符；
若等于64，账户名称中可能包含大小写字母、数字、下划线以及‘@’共64种字符。
随后行，每行一个长度为的字符串，用来描述一个账户名称。数据保证个字符串是两两不同的

Output

仅一行一个正整数，表示共有多少对相似的账户名称

Sample Input

4 3 64
Fax
fax
max
mac

Sample Output

Hint

4对相似的字符串分别为：Fax与fax，Fax与max，fax与max，max与mac。N<=30000,L<=200,S<=64

题目分析

找相似的字符串，两个字符串相似，指的是只在某一个相同的位置上不同，其余的字符都相同。如 Fax和fax，max和mac

首先，还是字符串哈希，
如果两个字符串，仅在某一个相同位置上的字符不同，那么这两个字符串的hash值减掉这个位置上字符的hash值，剩余部分的值应该都相同

举个例子：Fax和fax
Fax的hash值：‘F’*p²+‘a’*p+‘x’，fax的hash值：‘f’*p²+‘a’*p+‘x’
他们都减掉第一个字符对应的hash值’F’*p²和’f’*p²
第一个字符串Fax： ( ‘F’*p²+‘a’*p+‘x’ ) - (‘F’*p²) = ‘a’*p+‘x’
第二个字符串fax： ( ‘f’*p²+‘a’*p+‘x’ ) - (‘F’*p² ) = ‘a’*p+‘x’

再比如： dog 和dag，他们中间的一个字符不同
dog的hash值： ‘d’*p² + ‘o’*p + ‘g’
dag的hash值： ‘d’*p² + ‘a’*p + ‘g’
当他们都减掉中间一个字符的hash值后，剩余的结果应该相同

对于本题，对于所有的字符串，先计算好每一个字符串的hash值，然后循环L次（字符串长度为L），每次用每个字符串的hash值减掉第一个字符的hash值、减掉第二个字符的hash值…检查减掉后的值是否相同即可。

数据结构

计算字符串hash值是，p进制数的p取13331
用一个二位字符数组存放n个字符串，char s[30010][210];
用long long的数组h[ ]存放每个字符串的hash值
用long long的数组a[ ]存放每个字符串的hash值减掉相应字符hash后的值
用pow[ ]数组存放各位的权值

代码解读

//--------准备好pow数组存放各位权值-------
pow[0]=1;
for (i=1;i<=205;i++)
  pow[i]=pow[i-1]*p;

读入Input

   scanf("%d%d%*d",&n,&l);		//n是字符串个数，l是每个字符串长度，
   // 第三个参数 %*d的作用是读取但不存储，也就是跳过这个数据

接下来读入n个字符串到二维字符数组中，注意后面应用时下标都从1开始，因此读入字符串的时候，也是从s[i]+1读入

     for (i=1;i<=n;i++)
      scanf("%s",s[i]+1);

为每一个字符串计算hash值，存入h[i]中

   for (i=1;i<=n;i++)
      for (j=1;j<=l;j++)
        h[i]=h[i]*p+s[i][j];

做一个二重循环，依次对每一个字符串减掉第1个、第2个…字符，得到减掉后的结果，每次减掉第i个字符后，检查结果是否有相同的并计数

    ans=0;
    for (j=1;j<=l;j++)		//j控制是要减掉第几个字符
    {
        for (i=1;i<=n;i++)	//i控制从1到n，每个字符串都减掉第j个字符
          a[i]=h[i]-s[i][j]*pow[l-j];	//减后的结果放在数组a[]中
        sort(a+1,a+n+1);	//对a[]中的结果进行排序
        temp=1;
        for (i=2;i<=n;i++)	//a[]中的结果已经排好序
          if (a[i]==a[i-1])	//a[]中的结果两两比较
          {
            ans+=temp;		//相同，ans就增加
            temp++;
          }
          else
            temp=1;
    }

这里要对这段程序的几个细节搞清楚：
1、二重循环

for (j=1;j<=l;j++)		//j控制是要减掉第几个字符
        for (i=1;i<=n;i++)	//i控制从1到n，每个字符串都减掉第j个字符
          a[i]=h[i]-s[i][j]*pow[l-j];	//减后的结果放在数组a[]中

j=1时，i=1：a[1] = h[1] - s[1][1]*pow[2] //第1个字符串减掉第1个字符
j=1时，i=2：a[2] = h[2] - s[2][1]*pow[2] //第2个字符串减掉第1个字符
j=1时，i=3：a[3] = h[3] - s[3][1]*pow[2] //第3个字符串减掉第1个字符
j=1时，i=4：a[4] = h[4] - s[4][1]*pow[2] //第4个字符串减掉第1个字符

j=2时，i=1：a[1] = h[1] - s[1][1]*pow[1] //第1个字符串减掉第2个字符
j=2时，i=2：a[2] = h[2] - s[2][1]*pow[1] //第2个字符串减掉第2个字符
j=2时，i=3：a[3] = h[3] - s[3][1]*pow[1] //第3个字符串减掉第2个字符
j=2时，i=4：a[4] = h[4] - s[4][1]*pow[1] //第4个字符串减掉第2个字符
……

2、sort（a+1,a+n+1）
Sort（）函数是c++一种排序方法之一，它使用的排序方法是类似于快排的方法，时间复杂度为n*log2(n)，执行效率较高！它是c++标准库里的排序函数，使用方法：
I）Sort函数包含在头文件为#include的c++标准库中，调用标准库里的排序方法可以不必知道其内部是如何实现的，只要出现我们想要的结果即可！
II）Sort函数有三个参数：
（1）第一个是要排序的数组的起始地址。
（2）第二个是结束的地址（最后一位要排序的地址）
（3）第三个参数是排序的方法，可以是从大到小也可是从小到大，还可以不写第三个参数，此时默认的排序方法是从小到大排序。

3、统计相似的个数
这个统计还是有点技巧的，一定要搞明白细节
初始时，ans=0、temp=1
相减之后的结果在数组a[]中，且进行了排序，这时候做一个循环，对a[]中的结果进行两两比较，如果相同，则ans+=temp，且temp++，接下来两个结果如果还相同，则在ans上再加temp，为什么不是每次ans++呢

例子中，Fax、fax、max三个串去掉第一个字符后结果都相同，假设结果是5，那a[]={ 5,5,5,4}，当循环i=2时，a[2] = a[1]，找到了一对相似字符串：Fax和fax，ans+temp = 1；temp也加到2
接下来当循环i=3时，a[3]=a[2]，也相同，又找到了一对相似字符串fax和max，同时，也意味着刚才的Fax和max也是一对相似字符串，因此ans要加2才对

如果两两比较时不同了，temp再回到1

完整代码如下（参考了冬令营讲师尹昊萱博客，感谢！：https://blog.csdn.net/sdfzyhx/article/details/51589779 ）

#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
char s[30010][210];
unsigned long long a[30010],pow[210],h[30010];
int p=13331;
int main()
{
    int i,j,k,l,m,n,q,x,y,z,ans,temp;
    pow[0]=1;
    for (i=1;i<=205;i++)
      pow[i]=pow[i-1]*p;
    scanf("%d%d%*d",&n,&l);
    for (i=1;i<=n;i++)
      scanf("%s",s[i]+1);
    for (i=1;i<=n;i++)
      for (j=1;j<=l;j++)
        h[i]=h[i]*p+s[i][j];
    ans=0;
    for (j=1;j<=l;j++)
    {
        for (i=1;i<=n;i++)
          a[i]=h[i]-s[i][j]*pow[l-j];
        sort(a+1,a+n+1);
        temp=1;
        for (i=2;i<=n;i++)
          if (a[i]==a[i-1])
          {
            ans+=temp;
            temp++;
          }
          else
            temp=1;
    } 
    printf("%d\n",ans);
}