bzoj 3555 企鹅QQ

探讨了在PenguinQQ网站中,如何通过哈希算法高效地找出所有相似的账户名称,即仅在一个位置上字符不同的账户对。文章详细解释了字符串哈希原理及其实现过程,包括哈希值计算、减字符哈希值、结果排序和相似账户对计数。

在网上搜,看到很多题解的帖子,大咖们都很惜言,能一个字说的,绝不两个字,我看了一些,就把自己的理解详细写下了,所以写的比较啰嗦了

Description

PenguinQQ是中国最大、最具影响力的SNS(Social Networking Services)网站,以实名制为基础,为用户提供日志、群、即时通讯、相册、集市等丰富强大的互联网功能体验,满足用户对社交、资讯、娱乐、交易等多方面的需求。
小Q是PenguinQQ网站的管理员,他最近在进行一项有趣的研究——哪些账户是同一个人注册的。经过长时间的分析,小Q发现同一个人注册的账户名称总是很相似的,例如Penguin1,Penguin2,Penguin3……于是小Q决定先对这种相似的情形进行统计。
小Q定义,若两个账户名称是相似的,当且仅当这两个字符串等长且恰好只有一位不同。例如“Penguin1”和“Penguin2”是相似的,但“Penguin1”和“2Penguin”不是相似的。而小Q想知道,在给定的 个账户名称中,有多少对是相似的。
为了简化你的工作,小Q给你的 个字符串长度均等于 ,且只包含大小写字母、数字、下划线以及‘@’共64种字符,而且不存在两个相同的账户名称。

Input

第一行包含三个正整数 , , 。其中 表示账户名称数量, 表示账户名称长度, 用来表示字符集规模大小,它的值只可能为2或64。
若 等于2,账户名称中只包含字符‘0’和‘1’共2种字符;
若 等于64,账户名称中可能包含大小写字母、数字、下划线以及‘@’共64种字符。
随后 行,每行一个长度为 的字符串,用来描述一个账户名称。数据保证 个字符串是两两不同的

Output

仅一行一个正整数,表示共有多少对相似的账户名称

Sample Input

4 3 64
Fax
fax
max
mac

Sample Output

4

Hint

4对相似的字符串分别为:Fax与fax,Fax与max,fax与max,max与mac。N<=30000,L<=200,S<=64

题目分析

找相似的字符串,两个字符串相似,指的是只在某一个相同的位置上不同,其余的字符都相同。如 Fax和fax,max和mac

首先,还是字符串哈希,
如果两个字符串,仅在某一个相同位置上的字符不同,那么这两个字符串的hash值 减掉 这个位置上字符的hash值,剩余部分的值应该都相同

举个例子:Fax和fax
Fax的hash值:‘F’*p2+‘a’*p+‘x’,fax的hash值:‘f’*p2+‘a’*p+‘x’
他们都减掉第一个字符对应的hash值’F’*p2和’f’*p2
第一个字符串Fax: ( ‘F’*p2+‘a’*p+‘x’ ) - (‘F’*p2) = ‘a’*p+‘x’
第二个字符串fax: ( ‘f’*p2+‘a’*p+‘x’ ) - (‘F’*p2 ) = ‘a’*p+‘x’

再比如: dog 和dag,他们中间的一个字符不同
dog的hash值: ‘d’*p2 + ‘o’*p + ‘g’
dag的hash值: ‘d’*p2 + ‘a’*p + ‘g’
当他们都减掉中间一个字符的hash值后,剩余的结果应该相同

对于本题,对于所有的字符串,先计算好每一个字符串的hash值,然后循环L次(字符串长度为L),每次用每个字符串的hash值减掉第一个字符的hash值、减掉第二个字符的hash值…检查减掉后的值是否相同即可。

数据结构

计算字符串hash值是,p进制数的p取13331
用一个二位字符数组存放n个字符串,char s[30010][210];
用long long的数组h[ ]存放每个字符串的hash值
用long long的数组a[ ]存放每个字符串的hash值减掉相应字符hash后的值
用pow[ ]数组存放各位的权值

代码解读

//--------准备好pow数组存放各位权值-------
pow[0]=1;
for (i=1;i<=205;i++)
  pow[i]=pow[i-1]*p;

读入Input

   scanf("%d%d%*d",&n,&l);		//n是字符串个数,l是每个字符串长度,
   // 第三个参数 %*d的作用是读取但不存储,也就是跳过这个数据

接下来读入n个字符串到二维字符数组中,注意后面应用时下标都从1开始,因此读入字符串的时候,也是从s[i]+1读入

     for (i=1;i<=n;i++)
      scanf("%s",s[i]+1);

为每一个字符串计算hash值,存入h[i]中

   for (i=1;i<=n;i++)
      for (j=1;j<=l;j++)
        h[i]=h[i]*p+s[i][j];

做一个二重循环,依次对每一个字符串减掉第1个、第2个…字符,得到减掉后的结果,每次减掉第i个字符后,检查结果是否有相同的并计数

    ans=0;
    for (j=1;j<=l;j++)		//j控制是要减掉第几个字符
    {
        for (i=1;i<=n;i++)	//i控制从1到n,每个字符串都减掉第j个字符
          a[i]=h[i]-s[i][j]*pow[l-j];	//减后的结果放在数组a[]中
        sort(a+1,a+n+1);	//对a[]中的结果进行排序
        temp=1;
        for (i=2;i<=n;i++)	//a[]中的结果已经排好序
          if (a[i]==a[i-1])	//a[]中的结果两两比较
          {
            ans+=temp;		//相同,ans就增加
            temp++;
          }
          else
            temp=1;
    } 

这里要对这段程序的几个细节搞清楚:
1、二重循环

for (j=1;j<=l;j++)		//j控制是要减掉第几个字符
        for (i=1;i<=n;i++)	//i控制从1到n,每个字符串都减掉第j个字符
          a[i]=h[i]-s[i][j]*pow[l-j];	//减后的结果放在数组a[]中

j=1时,i=1:a[1] = h[1] - s[1][1]*pow[2] //第1个字符串减掉第1个字符
j=1时,i=2:a[2] = h[2] - s[2][1]*pow[2] //第2个字符串减掉第1个字符
j=1时,i=3:a[3] = h[3] - s[3][1]*pow[2] //第3个字符串减掉第1个字符
j=1时,i=4:a[4] = h[4] - s[4][1]*pow[2] //第4个字符串减掉第1个字符

j=2时,i=1:a[1] = h[1] - s[1][1]*pow[1] //第1个字符串减掉第2个字符
j=2时,i=2:a[2] = h[2] - s[2][1]*pow[1] //第2个字符串减掉第2个字符
j=2时,i=3:a[3] = h[3] - s[3][1]*pow[1] //第3个字符串减掉第2个字符
j=2时,i=4:a[4] = h[4] - s[4][1]*pow[1] //第4个字符串减掉第2个字符
……

2、sort(a+1,a+n+1)
Sort()函数是c++一种排序方法之一,它使用的排序方法是类似于快排的方法,时间复杂度为n*log2(n),执行效率较高!它是c++标准库里的排序函数,使用方法:
I)Sort函数包含在头文件为#include的c++标准库中,调用标准库里的排序方法可以不必知道其内部是如何实现的,只要出现我们想要的结果即可!
II)Sort函数有三个参数:
(1)第一个是要排序的数组的起始地址。
(2)第二个是结束的地址(最后一位要排序的地址)
(3)第三个参数是排序的方法,可以是从大到小也可是从小到大,还可以不写第三个参数,此时默认的排序方法是从小到大排序。

3、统计相似的个数
这个统计还是有点技巧的,一定要搞明白细节
初始时,ans=0、temp=1
相减之后的结果在数组a[]中,且进行了排序,这时候做一个循环,对a[]中的结果进行两两比较,如果相同,则ans+=temp,且temp++,接下来两个结果如果还相同,则在ans上再加temp,为什么不是每次ans++呢

例子中,Fax、fax、max三个串去掉第一个字符后结果都相同,假设结果是5,那a[]={ 5,5,5,4},当循环i=2时,a[2] = a[1],找到了一对相似字符串:Fax和fax,ans+temp = 1;temp也加到2
接下来当循环i=3时,a[3]=a[2],也相同,又找到了一对相似字符串fax和max,同时,也意味着刚才的Fax和max也是一对相似字符串,因此ans要加2才对

如果两两比较时不同了,temp再回到1

完整代码如下(参考了冬令营讲师尹昊萱博客,感谢!:https://blog.csdn.net/sdfzyhx/article/details/51589779

#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
char s[30010][210];
unsigned long long a[30010],pow[210],h[30010];
int p=13331;
int main()
{
    int i,j,k,l,m,n,q,x,y,z,ans,temp;
    pow[0]=1;
    for (i=1;i<=205;i++)
      pow[i]=pow[i-1]*p;
    scanf("%d%d%*d",&n,&l);
    for (i=1;i<=n;i++)
      scanf("%s",s[i]+1);
    for (i=1;i<=n;i++)
      for (j=1;j<=l;j++)
        h[i]=h[i]*p+s[i][j];
    ans=0;
    for (j=1;j<=l;j++)
    {
        for (i=1;i<=n;i++)
          a[i]=h[i]-s[i][j]*pow[l-j];
        sort(a+1,a+n+1);
        temp=1;
        for (i=2;i<=n;i++)
          if (a[i]==a[i-1])
          {
            ans+=temp;
            temp++;
          }
          else
            temp=1;
    } 
    printf("%d\n",ans);
}
内容概要:本研究聚焦于绿电直连型电氢氨园区的优化运行,提出一种集成绿色电力直接供给、电解水制氢及氢气合成氨工艺的综合能源系统架构。通过建立包含风光发电、电解槽、氨合成反应器、储氢罐、电网交互及多类型负荷在内的系统模型,综合考虑绿电直供优先、能量梯级利用与多能互补原则,构建以系统综合运行成本最小化为目标的优化调度模型。研究采用Matlab与Python工具进行算法求解和仿真分析,利用实际气象与负荷数据完成案例验证,评估了不同运行策略下系统的经济性、可再生能源消纳能力与碳减排效益,为新型电氢氨一体化园区的规划与运行提供了理论依据和技术支撑。; 适合人群:具备一定电力系统、新能源或化工背景的研究生、科研人员及从事综合能源系统规划与优化工作的工程技术人员。; 使用场景及目标:①用于科研学习,理解电-氢-氨多能转换系统的建模与优化方法;②为工业园区的低碳化、智能化改造提供技术参考与决策支持;③作为开发类似综合能源管理系统的理论基础。; 阅读建议:此资源包含完整的模型代码、数据与论文,使用者应结合代码仔细研读论文中的模型构建部分,重点关注目标函数与约束条件的设计逻辑,并尝试修改参数进行仿真,以深入掌握优化算法在实际系统中的应用。
内容概要:本文深入探讨了RS485通信协议在芯片行业自动化测试系统中的实际开发与应用,涵盖其关键概念、电气特性、通信机制及与Modbus RTU协议的结合使用。文章重点介绍了差分信号完整性设计、主从时序控制、CRC校验与重传机制等核心技术要点,并通过一个基于Python的完整代码实例,展示了如何实现RS485主站对探针台、自动分选机等芯片测试设备的控制与数据采集。此外,还分析了RS485在晶圆探针台、ATE设备集群和环境监控等典型场景的应用,并展望了其与工业以太网融合、智能化诊断、高速化及AI集成的发展趋势。; 适合人群:具备一定嵌入式系统或工业通信基础,从事芯片测试、自动化设备开发及相关领域的研发人员,尤其是工作1-3年希望提升现场总线应用能力的工程师。; 使用场景及目标:①理解RS485在高干扰芯片测试环境中稳定通信的设计原理;②掌握Modbus RTU协议在Python下的实现方法,用于实际控制探针台、Handler等设备;③构建可靠的数据采集与设备控制系统,支持CRC校验、异常处理和日志追踪;④为后续向高速通信和智能诊断系统升级提供技术储备。; 阅读建议:此资源强调实战开发,建议结合硬件环境动手调试代码,重点关注线程锁、CRC计算、帧解析和超时控制等关键环节,在真实产线中验证通信稳定性,并利用日志系统进行故障分析与优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值