AIPD 美国人工智能专利数据集

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 195 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #大数据 #搜索引擎

📊 数据核心速览

数据编号：1871
官方底层数据源：USPTO 美国专利商标局 AIPD 2023 官方数据集、谷歌全量美国专利库
时间跨度：1976–2023，覆盖美国 AI 技术完整发展周期
存储格式：CSV 分年度文件，分86% 全量版、高精 Top1% 精版两套子库
识别模型：官方 BERT 专利文本模型，基于专利标题 / 摘要 / 权利要求识别八大 AI 细分技术
对标文献：Giczy (2022)、Pairolero (2025)、NBER Jiang & Park (2025) 国际顶刊标准测算框架

🎯 一、八大 AI 细分技术维度（核心分项得分指标）

数据集对每条专利输出 8 类 AI 技术匹配得分，量化专利内含对应技术强度：

ai_score_ml 机器学习
ai_score_nlp 自然语言处理
ai_score_speech 语音处理
ai_score_vision 计算机视觉
ai_score_evo 进化计算
ai_score_kr 知识处理
ai_score_planning 规划控制
ai_score_hardware AI 专用硬件

二、专利 AI 判定阈值规则（官方标准）

设置 3 档概率二元标识： predict50_any_ai（50% 阈值）、predict86_any_ai（86% 基准筛选）、predict93_any_ai（高置信度）本数据集主样本采用predict86_any_ai=1筛选，仅保留 AI 属性高置信专利，规避噪音样本。

🎯 两套子库编制逻辑

1. 86% 全版基础库

基于 USPTO 官方 AIPD 2023 原始识别结果筛选；
与谷歌美国专利库通过appl_id申请号、公开日期匹配合并；
完整保留八大 AI 分项得分、专利基础元数据、分类、申请人、法律信息；
不做引用筛选，覆盖全部高置信 AI 专利，适合宏观行业、跨国 AI 创新总量研究。

2. Top1% 高精精版（论文高质量专利专用）

参照 NBER 工作论文测算逻辑，构造调整前向引用数区分突破性核心 AI 专利：

提取每条专利原始向前引用量\(C_{raw}\)；
分组基准：同年份 + 同季度 + 同一 CPC 专利子类，计算组平均引用\(\overline{C}_{YQS}\)；
调整引用指标：\(C_{adjust}=C_{raw}/\overline{C}_{YQS}\)，消除技术赛道、年份差异干扰；
按调整引用值每年取前 1% 专利标记为核心创新专利；
配套字段：季度、首要 CPC 子类、组均引用、调整后引用计数，适配突破性技术、高质量创新、企业核心研发研究。

专利 CPC 分类处理规则

原始 CPC 为多嵌套重复列表，数据仅保留每条专利首个首要发明分类代码作为标准子类，统一聚合口径，避免重复统计偏差。

📋 完整核心字段

1. AIPD 原生 AI 识别字段

doc_id、格式化申请号、公开日期、flag_patent predict86_any_ai、predict93_any_ai ai_score_ml /nlp/speech /vision/evo /kr/planning /hardware

2. 谷歌专利基础元字段

专利公开编号、申请号、国家 US、专利种类、PCT 编号、专利族 ID、受让人、审查员、CPC 分类

3. 高精版独有引用指标

原始引用次数、授予季度、首要 CPC 子类、同组平均引用、调整后向前引用计数

🔍 适配实证研究方向

全球 AI 创新对比：美国 AI 专利总量、细分赛道时序演化，中美 / 欧美人工智能研发格局对比。
企业 AI 研发质量：利用调整引用指标区分渐进式创新与突破性 AI 专利，研究企业研发投入、并购、高管背景对高质量 AI 产出影响。
劳动力与技术冲击：匹配企业经营数据，检验 AI 专利扩张对用工结构、技能溢价、劳动生产率的重塑效应（对标 NBER 文献）。
产业政策评估：美国 AI 法案、芯片补贴、税收激励等政策对企业 AI 专利产出的 DID 评估。
技术溢出与知识流动：依托专利引用网络，分析 AI 技术跨企业、跨行业、跨国溢出效应。
细分赛道专项研究：单独提取大模型、计算机视觉、AI 硬件等分项得分，聚焦单一技术领域创新周期。
跨国知识产权与贸易：AI 专利布局对企业出口、海外市场准入、国际竞争优势的影响。

时间跨度	1976-2023
区域跨度	美国人工智能专利
数据格式	数据格式为csv形式

数据简介

在人工智能技术革命的浪潮中，美国始终保持着全球创新的前沿地位。为应对技术变革带来的挑战，USPTO 于 2025 年发布人工智能战略，强调通过优化专利审查流程、培养专业人才、加强国际合作等举措，进一步推动人工智能技术的创新与应用。该战略依托其专利数据库（AIPD 2023）的技术升级，采用改进的 BERT 模型提升专利文本分析精度，确保对人工智能相关发明的高效识别与分类。这些数据不仅为学术界和产业界提供了研究支撑，主要以工作场景中的AI暴露度相关指数为研究核心，也为政策制定者评估技术趋势、制定创新政策提供了重要依据。

美国专利商标局（USPTO）在2021 年公开发布了“the Artificial Intelligence Patent Dataset (AIPD)”，即《人工智能专利数据集》。该数据是由Giczy等专家使用专门开发的机器学习模型，从1976 年至 2020 年公布的美国专利整体中识别出来的人工智能专利所组成，主要基于专利标题、专利摘要文本、专利权力要求来识别各项专利中的8个人工智能技术构成要素，分别是

- machine learning（机器学习）：包含从数据中学习的计算方法。

- vision（此等语境指计算机视觉）：通过从视觉输入中提取信息来理解图像和视频

- natural language processing（自然语言处理）：包含理解语言的方法

- speech（此等语境指语音处理）：通过处理音频来解析词语序列

- evolutionary computation（进化计算）：包含受生物启发的方法（如遗传算法），这类程序通过从随机生成的突变集合中选择最优方案实现自我优化

- AI hardware（人工智能硬件）：包括专门设计用于执行人工智能软件的物理硬件

- knowledge processing（知识处理）：包含表征信息并从现有知识库中提取新事实的方法

- planning and control（规划与控制）：包含生成实现特定目标计划的系统

根据美国专利商标局（USPTO）的描述，Pairolero等人（2023）对数据进行了扩展，以识别 1976 年至 2023 年公布的包含人工智能内容的美国专利文件。AIPD提供了专利与人工智能相关的预测概率，依照派罗莱罗等人（2023）的做法，8个人工智能技术构成要素分别以“模型评估分数”的形式来衡量一项专利中各项要素中的含量，同时以用二元变量的形式代表该专利是否为人工智能专利，分别在50%、86%、93%的预测阈值情况下。若预测概率超过 86% 的阈值，就将该专利归类为人工智能专利。

因此，本数据集基于AIPD 2023版中“predict86_any_ai”进行筛选，若该专利在这项指标中为1，则判定为人工智能专利。与此同时，我们还保留了原始数据中的其他指标，仅排除了“predict50_any_ai”。另外，我们将该筛选出来的数据，与谷歌专利数据-美国全量专利数据进行匹配合并，基于“appl_id”= “格式化申请号”，同时“pub_dt”= “专利公开日期”。据观察，谷歌美国专利中的“格式化申请号”是基于“appl_id”8位数代码加上“US”，而且部分申请号有两个专利公开日期，可能是因为专利的预公开和正式公开、持续案件或分案申请、修正和重新公开、行政错误或特殊情况等原因导致，所以我们在未做任意排除。最后，该筛选版本为AIPD美国人工智能专利（1976-2023）——86%全版，为方便大家研究使用，我们将它按照公开日期年份进行数据划分为不同年份csv。

接下来，我们参照Wei Jiang和Junyoung Park等（2025）的做法，整理并制作了一份AIPD美国人工智能专利（1976-2023）——86%精版。他们的研究中指出，大概有四分之一的专利从未被引用过，且少于1%的专利被引用过超过100次，因此需做精度筛选来找出能够重塑生产过程的技术专利，具体而言是选出每年的顶尖1%的AI专利，它是基于adjusted forward citation counts（调整后的向前引用计数）所衡量的，并且计算方式为其原始引用次数除以同年同季度在相同合作专利分类（CPC）子类中授予的人工智能专利的平均引用次数。我们根据该描述设计出以下公式：

我们基于前文所述的86%全版做出以上计算。需要注意的是，所合并用的谷歌美国专利数据中，合作专利分类（CPC）为嵌套形式，打个比方，以下是其中一条专利的CPC信息：

[{'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}]

因为CPC信息中分类繁多，且个别有重复，所以我们只选择每份专利的首次出现的首要分类的分类代码用作“首要首选CPC subclass”进行计算，该条件一定是基于首要分类为True的情况。

数据指标

核心指标（仅限精版）

doc_id	格式化申请号	专利公开日期
引用次数	季度	首要首选CPC subclass
平均引用次数	调整后的向前引用计数

源于美国专利商标局（USPTO）的原始数据AIPD自带指标

doc_id	flag_patent	predict86_any_ai
predict93_any_ai	ai_score_ml	ai_score_evo
ai_score_nlp	ai_score_speech	ai_score_vision
ai_score_planning	ai_score_kr	ai_score_hardware

由于篇幅有些，仅展示部分谷歌专利数据指标

专利公开编号	专利申请号	国家/地区代码
种类代码	专利申请种类	PCT编号
专利族id	spif专利公开编号	spif专利申请编号
专利受让人	统一的专利受让人信息	专利审查员

数据展示

参考文献

[1] Jiang, W., Zhang, S., Xiao, R. (Jiqiu), & Park, J. (2025). AI and the Extended Workday: Productivity, Contracting Efficiency, and Distribution of Rents. NBER Working Paper Series. https://doi.org/10.3386/w33536

[2] Giczy, A.V., Pairolero, N.A. & Toole, A.A. Identifying artificial intelligence (AI) invention: a novel AI patent dataset. J Technol Transf 47, 476–505 (2022). https://doi.org/10.1007/s10961-021-09900-2

[3] Pairolero, N.A., Giczy, A.V., Torres, G. et al. The artificial intelligence patent dataset (AIPD) 2023 update. J Technol Transf (2025). https://doi.org/10.1007/s10961-025-10189-8

[4] https://www.uspto.gov/ip-policy/economic-research/research-datasets/artificial-intelligence-patent-dataset