今天我要更新我自己写的一个爬虫程序,哇。厉害了,我一个菜鸟居然有勇气些爬虫程序,简直胆大包天,但是,不管怎样,我也要上传,没办法,我就是脸皮厚,我是不怕别人笑。
# -*- coding: utf-8 -*-
'''
此爬虫程序实现的是每天23:55自动的去抓取凤凰新闻网站当天更新的所有新闻,然后存入数据库.抓取的目标为:图 片,标题,出处,时间,新闻内容之所以要在当天的23:55开始抓取,是因为凤凰新闻网站的新闻为不定时更新的,基本每天会在23之后还会更新一条新闻,为了不漏掉,所以定在23:55开始抓取,第二天就会有前一天所有的新闻数据了.
'''
import csv
from selenium import webdriver
import pymysql
import time
class new(object):
#初始化数据
def __init__(self):
#定义访问路径
self.url='https://news.ifeng.com/'
#下面创建数据库对象
self.db = pymysql.connect('localhost','root','123456','newsdb',charset='utf8')
#创建游标对象
self.cursor = self.db.cursor()
#获取页面节点
def getweb(self):
driver = webdriver.PhantomJS() #这里也可以声明普通浏览器
#打开凤凰新闻网
driver.get(self.url)
driver.implicitly_wait(10) #等待10秒
driver.maximize_window() # 最大化窗口
driver.implicitly_wait(5) #等待5秒
#先循环点击更多信息按钮,加载足够的新闻,一般点击三次肯定就能看得到前一天的新闻
i = 1
while i<4:
#获取更多信息按钮节点
button = driver.find_element_by_class_name('n


1万+

被折叠的 条评论
为什么被折叠?



