高性能爬取携程网景区评论数据

最新推荐文章于 2026-05-10 09:17:16 发布

原创

最新推荐文章于 2026-05-10 09:17:16 发布 · 7.8k 阅读

标签

#python爬虫 #携程网 #数据挖掘

收录于

本文分享了作者花费一天时间优化爬虫，成功高效抓取携程网景区评论数据的过程。通过不断调整，实现了代码的高性能运行。数据集已存储于GitHub，供进一步的数据挖掘使用。

昨天花了一天时间写的，改来改去，不断提升性能，终于可以把代码放出来了，如果发现服务域名无效，只需要更改Origin为http形式就行。

import csv

import requests
from bs4 import BeautifulSoup as bs
from  multiprocessing import Pool
import  gevent,time



class Comment(object):
    #请求头
    headers = {
        "Cookie":"_abtest_userid=dc18ac38-f25f-488b-8535-e709964f2257; gad_city=a4f35f7b1b0a14c597bf3a50fb024f55; MKT_Pagesource=PC; _ga=GA1.2.7662667.1551412569; _gid=GA1.2.815726266.1551412569; _RSG=Wd46GhfGxU6uCJw.ghACmB; _RDG=2808fbf74f24dd23c52c70ca0da70efd1f; _RGUID=67bb429a-d018-49e0-bc0c-2ababee93338; appFloatCnt=25; manualclose=1; TicketSiteID=SiteID=1006; StartCity_Pkg=PkgStartCity=1; Session=smartlinkcode=U130026&smartlinklanguage=zh&SmartLinkKeyWord=&SmartLinkQuary=&SmartLinkHost=; Union=AllianceID=4897&SID=130026&OUID=&Expires=1552049736787; ASP.NET_SessionSvc=MTAuOC4xODkuNjJ8OTA5MHxqaW5xaWFvfGRlZmF1bHR8MTU1MDU2ODM3MDEyOQ; _gat=1