2025年泰迪杯数据挖掘挑战赛A题
完整论文:建模与求解Python代码


1问题一的思路与求解
1.1 问题一的思路
首先,题目要求对竞赛论文的基本信息进行统计,保存到result1.xlsx中。附件1提供了参赛队伍的信息,其中加密号对应附件3的文件名。
根据附件4中的result1.xlsx模板,需要统计的列包括论文标题、总页数、总字数、摘要页数和字数、目录页数、正文页数和字数,还有图片数、表格数、独立公式数、参考文献数量等。此外,还包括一些比例,比如图片所占比例,以及平均句子数和平均字数等。
1.1.1对统计数据进行必要说明:
- 总页数:PDF文件的总页数,使用PyPDF2或pdfplumber获取。
- 总字数:提取所有文本后统计字符数(包括空格和标点)。
- 摘要页数与字数:定位包含“摘要”或“Abstract”的页面,统计其页数和字数。
- 目录页数:定位“目录”或“Contents”部分,统计其页数。
- 正文页数与字数:正文起始页为目录结束页+1,结束于参考文献起始页-1,统计页数和字数。
- 正文图片数:统计正文中所有Image对象的数量。
- 正文图片所占比例:正文图片数 / 总图片数。
- 正文表格数:使用pdfplumber提取表格数量。
- 正文独立公式数:正则表达式匹配LaTeX公式块(如[…])。
- 正文段落平均句子数与字数:使用句号、问号、感叹号分句,计算句子数和平均字数。
- 参考文献数量:统计参考文献部分的条目数(以[数字]开头)。
1.1.2统计流程:
(1)读取PDF文件:使用Python库如PyPDF2、pdfplumber或PyMuPDF来读取PDF内容,提取文本、图片、表格等信息。
(2)提取元数据:获取总页数。
(3)分部分统计页数和字数:
- 摘要:识别摘要部分,通常位于开头,可能有“摘要”或“Abstract”作为标题。需要找到该部分的起始页和结束页,统计该部分的页数和字数。
- 目录:查找“目录”或“Contents”部分,统计其页数和字数。
- 正文:正文可能从引言开始,直到参考文献之前。需要确定正文的起始和结束位置。
(4)统计图片数:遍历每一页,检测PDF中的图片对象,统计总数。
(5)统计表格数:检测PDF中的表格结构,可能需要使用pdfplumber的表格提取功能。
(6)统计独立公式数:可能需要分析文本中的公式模式,如识别被括号包围的公式编号,或者使用正则表达式匹配公式结构。
(7)参考文献数量:找到参考文献部分,统计条目数量,通常每个条目以编号或作者开头。
(8)计算平均句子数和平均字数:以句号、问号、感叹号作为句子分隔符,对正文文本进行分句和分词统计。
1.1.3特殊情况的考虑:
- 摘要和目录的灵活匹配:有些论文可能将“摘要”写成“摘 要”或“摘 要”等变体形式,存在空格或其他格式变化。
解决方案:使用正则表达式模糊匹配,忽略空格和特殊字符。例如,匹配“摘\s要”或“目\s录”。 - 正文范围的优化:若参考文献起始页与正文最后一页同一页时,以参考文献的前一页推算正文页数的方法可能错误地将部分正文页排除。
解决方案:定位参考文献起始段落的位置,而不是整个页面。例如,找到“参考文献”所在的段落起始位置,正文结束于该段落的开始位置。 - 独立公式数的统计优化:表格中的公式可能未被检测。
解决方案:在提取表格内容后,对表格内的文本也进行公式匹配。 - PDF为图片型文档的处理:对于整个页面为图片的PDF,无法提取文本,导致字数统计为0。
解决方案:使用OCR工具(如Tesseract)对图片型PDF进行文本提取。 - 标题跨行:如果标题跨越多行,不进行特殊处理只会获取到第一行,标题不完整。
解决方案:提取第一页的所有行,合并从第一行开始,直到遇到分隔线、空行或特定关键词(如“摘要”)。 - 正文页数的判定:若论文格式不规范,当论文没有目录或参考文献时,正文页数会统计错误。
解决方案:修改判断逻辑:
正文起始页判定:①如果存在目录,正文从目录页后一页开始;②如果没有目录,则尝试从摘要后的页面开始正文;③如果连摘要也未找到,默认正文从第一页开始(假设标题页后即为正文)。
正文结束页判定:①仍然以参考文献或附录作为结束标志;②若无参考文献或附录,则以总页数为结束页。
1.2 问题一的求解
1.2.1代码实现
Step1:使用pandas读取附件1.xlsx,创建字典,键为加密号,值为参赛队号和其他信息,从而获取加密号与参赛队号的对应关系。
Step2:遍历附件3中的PDF文件,对于每个PDF文件:
a. 使用pdfplumber打开,获取总页数。
b. 提取所有页面的文本,并存储每页的文本和对象(图片、表格等)。
c. 定位摘要、目录、正文、参考文献部分:
- 摘要:搜索页面中的“摘要”或“Abstract”,确定其起始页和结束页(可能摘要仅在一页)。
- 目录:同样通过关键词定位。
- 正文:可能从目录后的页面开始,或者根据章节标题判断。
- 参考文献:找到“参考文献”或“References”部分,统计条目数。
d. 统计图片数:遍历每页的images属性,统计总数。
e. 统计表格数:使用pdfplumber的extract_tables(),统计所有页面的表格数量。
f. 独立公式数:使用正则表达式匹配公式块,同时结合公式编号进行考虑。
g. 参考文献数量:统计参考文献部分的条目数。
h. 计算总字数:所有文本的总字符数,或者分词后的词语数。
i. 计算平均句子数和平均字数:对正文文本进行处理。
Step3:保存结果到result1.xlsx:使用pandas将统计结果写入Excel文件。
1.2.2 问题一结果
注意:本文档使用示例数据求解
展示部分输出结果:

对结果可视化:给大家提供了很多种图像参考,如果图像绘制出来后不明白如何分析,可以将代码和输入数据上传给AI,让它给出建议。




代码分享
import os
import pandas as pd
import pdfplumber
import re
from PyPDF2 import PdfReader
from pdf2image import convert_from_path
import pytesseract
def flexible_keyword_match(text, keywords):
pattern = r'[\s\u3000]*'.join(list(keywords))
return re.search(pattern, text or '') is not None
def ocr_pdf(pdf_path):
images = convert_from_path(pdf_path)
full_text = []
for img in images:
text = pytesseract.image_to_string(img, lang='chi_sim+eng')
full_text.append(text)
return full_text
def extract_title(first_page_text):
"""提取论文标题,更准确地区分标题与摘要等其他内容"""
if not first_page_text:
return '无标题'
# 按行分割
lines = first_page_text.split('\n')
non_empty_lines = [line.strip() for line in lines if line.strip()]
# 检查是否有明确的"摘要"标记,这常常是标题与摘要的分界线
abstract_index = -1
for i, line in enumerate(non_empty_lines):
if re.search(r'^摘\s*要$|^摘\s*[要約][\s\::]|^ABSTRACT$|^Abstract$', line):
abstract_index = i
break
# 如果找到了摘要标记,则摘要标记之前的行(最多2行)可能是标题
if abstract_index > 0:
# 一般标题在摘要之前的1-2行
potential_title_lines = non_empty_lines[max(0, abstract_index-2):abstract_index]
# 过滤掉明显不是标题的行
title_lines = []
for line in potential_title_lines:
# 过滤掉包含特定关键词的行,如学院、作者等
if not re.search(r'(学院|大学|指导老师|作者|姓名|学号|导师|系|专业|年级|班级)', line):
title_lines.append(line)
if title_lines:
# 取最长的一行作为标题,或者合并多行
if len(title_lines) == 1 or len(title_lines[0]) > 15: # 如果只有一行或第一行够长
return title_lines[0]
else:
return ' '.join(title_lines) # 合并多行标题
# 如果没有找到摘要标记,或者摘要标记之前没有合适的标题行
# 尝试查找文档最开始的几行中可能的标题
# 1. 论文标题通常是文档开头的1-3行中最长的那一行(长度适中,不会太短也不会太长)
potential_titles = []
for i, line in enumerate(non_empty_lines[:5]): # 只考虑前5行
line_length = len(line)
if 4 < line_length < 50 and not re.search(r'(摘要|abstract|关键词|keywords|目录|contents)', line.lower()):
# 根据行长度和位置计算可能性得分 - 通常标题比较靠前且长度适中
score = (5-i) + min(line_length, 30)/10 # 位置越靠前分数越高,长度适中加分
potential_titles.append((line, score))
# 按得分排序
potential_titles.sort(key=lambda x: x[1], reverse=True)
if potential_titles:
return potential_titles[0][0] # 返回得分最高的行
# 2. 如果上述方法失败,尝试更简单的方法:取文档第一个非空行
if non_empty_lines:
first_line = non_empty_lines[0]
# 确保第一行不是太长,如果太长可能是段落而非标题
if len(first_line) < 100:
return first_line
return first_line[:50] + "..." # 截断过长的行
# 3. 实在找不到合适的标题
return "无标题"
def count_code_lines(text):
"""计算代码行数"""
total_lines = 0
# 查找代码块
code_blocks = re.findall(r'```.*?```', text, re.DOTALL)
for block in code_blocks:
lines = block.split('\n')
# 减去代码块标记
total_lines += max(0, len(lines) - 2)
# 查找附录中的代码行 - 搜索常见的代码模式
code_patterns = [
r'^\s*function\s+\w+', # 函数定义
r'^\s*def\s+\w+', # Python函数定义
r'^\s*for\s+\w+\s*=', # for循环
r'^\s*if\s+', #


1万+

被折叠的 条评论
为什么被折叠?



