python爬虫扇贝单词库

最新推荐文章于 2026-04-01 09:54:57 发布

原创

最新推荐文章于 2026-04-01 09:54:57 发布 · 3.4k 阅读

标签

#python #爬虫

收录于

为准备考研面试的计算机专业英语词汇，博主使用Python爬虫从扇贝网站抓取单词库，以导入到更习惯使用的墨墨背单词应用。虽然扇贝网页静态且无需登录，但设置Python爬虫环境花费了一些精力。由于扇贝单词库能顺利抓取，而墨墨的单词注释库不全，导致部分单词无法注释，最终博主仍选择使用扇贝进行单词学习。

考研面试需要准备一些计算机相关的英语单词，所以扇贝单词上找了一些词库，但是扇贝的记忆机制不太好，我一般用墨墨，所以想把扇贝的词库用爬虫提取出来再导入墨墨中，顺便学习一下之前很感兴趣的爬虫，搭建python环境废了比较大的功夫，扇贝的词库网页都是静态的也不涉及登录什么的，还是比较简单，主要是用用第三方库就完事了，如果要登录和处理js估计就比较麻烦了，python本身作为脚本语言，跟我之前接触的差别比较大，用起来不太习惯。最后能完整导出来但是墨墨自带的单词注释库不全，很多词没法注释，还是用回扇贝

from bs4 import BeautifulSoup
from lxml import html
import xml
import re
import requests

file=open("data.txt",'w')
pattern='<strong>([a-z,A-Z]*?)</strong>'

def spider(url):
    f = requests.get(url)
    soup