考研面试需要准备一些计算机相关的英语单词,所以扇贝单词上找了一些词库,但是扇贝的记忆机制不太好,我一般用墨墨,所以想把扇贝的词库用爬虫提取出来再导入墨墨中,顺便学习一下之前很感兴趣的爬虫,搭建python环境废了比较大的功夫,扇贝的词库网页都是静态的也不涉及登录什么的,还是比较简单,主要是用用第三方库就完事了,如果要登录和处理js估计就比较麻烦了,python本身作为脚本语言,跟我之前接触的差别比较大,用起来不太习惯。最后能完整导出来但是墨墨自带的单词注释库不全,很多词没法注释,还是用回扇贝
from bs4 import BeautifulSoup
from lxml import html
import xml
import re
import requests
file=open("data.txt",'w')
pattern='<strong>([a-z,A-Z]*?)</strong>'
def spider(url):
f = requests.get(url)
soup

为准备考研面试的计算机专业英语词汇,博主使用Python爬虫从扇贝网站抓取单词库,以导入到更习惯使用的墨墨背单词应用。虽然扇贝网页静态且无需登录,但设置Python爬虫环境花费了一些精力。由于扇贝单词库能顺利抓取,而墨墨的单词注释库不全,导致部分单词无法注释,最终博主仍选择使用扇贝进行单词学习。

2245

被折叠的 条评论
为什么被折叠?



