python爬虫扇贝单词库

为准备考研面试的计算机专业英语词汇,博主使用Python爬虫从扇贝网站抓取单词库,以导入到更习惯使用的墨墨背单词应用。虽然扇贝网页静态且无需登录,但设置Python爬虫环境花费了一些精力。由于扇贝单词库能顺利抓取,而墨墨的单词注释库不全,导致部分单词无法注释,最终博主仍选择使用扇贝进行单词学习。

考研面试需要准备一些计算机相关的英语单词,所以扇贝单词上找了一些词库,但是扇贝的记忆机制不太好,我一般用墨墨,所以想把扇贝的词库用爬虫提取出来再导入墨墨中,顺便学习一下之前很感兴趣的爬虫,搭建python环境废了比较大的功夫,扇贝的词库网页都是静态的也不涉及登录什么的,还是比较简单,主要是用用第三方库就完事了,如果要登录和处理js估计就比较麻烦了,python本身作为脚本语言,跟我之前接触的差别比较大,用起来不太习惯。最后能完整导出来但是墨墨自带的单词注释库不全,很多词没法注释,还是用回扇贝

from bs4 import BeautifulSoup
from lxml import html
import xml
import re
import requests

file=open("data.txt",'w')
pattern='<strong>([a-z,A-Z]*?)</strong>'

def spider(url):
    f = requests.get(url)
    soup 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值