今天在爬虫的时候,爬了二十条程序就莫名卡着不动了,还以为是被服务器禁止访问。还去加了user-agent池,随机获得user-agent构成headers,没想到居然是最后文件命名的时候出问题了。
1、用于命名的字符串出现了非法的字符。通过正则表达式除去字符串中非法字符:
import re
def validateTitle(title):
rstr = r"[\/\\\:\*\?\"\<\>\|]" # '/ \ : * ? " < > |'
new_title = re.sub(rstr, "_", title) # 替换为下划线
return new_title
2、去除前后空格:
new_title = title.strip()
本文分享了一次爬虫过程中遇到的文件命名问题,详细介绍了如何使用正则表达式去除非法字符,以及如何去除字符串前后空格,确保文件名的正确性。

6429

被折叠的 条评论
为什么被折叠?



