Pandas统计分析——导入外部数据

目录

前言

一、导入.xls或.xlsx文件

1.常规导入示例: 

2.通过行、例索引导入

3.常用方法

二、导入CSV文件 

1.导入.csv文件主要使用Pandas的read_csv()方法

三、导入.txt文本文件 

1. 使用 read_csv() 方法导入 1月的 .txt 文件示例:

四、导入HTML网页

1.使用 read_html() 方法导入 NBA 球员的薪资数据示例:


前言

pandas主要包括两个数据结构,即Series对象和DataFrame对象,本文主要分别介绍导入外部数据(.xls或.xlsx和.csv或.txt或html网页)。

一、导入.xls或.xlsx文件

常用Pandas的read_excel( )方法,语法如下:

pandas.read_excel(
    io,sheet_name=0,header0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_default_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True, **kwds)

参数说明:

io:字符串,.xls或.xlsx文件路径或文件对象(数据的加载路径)

sheet_name:None、字符串、整数、字符串列表或整数列表,默认值为 0。字符串用于工作表名称,整数为索引表示工作表位置,字符串列表或整数列表用于请求多个工作表,为 None时获取所有工作表。参数值如下图所示

说明
sheet_name=0 第一个Sheet页中的数据作为DataFrame
sheet_name=1 第二个Sheet页中的数据作为DataFrame
sheet_name=''Sheet1'' 名为Sheet的Sheet页的数据作为DataFrame
sheet_name=[0,1,'Sheet3'] 第一个、第二个和名为Sheet的Sheet页中的数据作为DataFrame

header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据;若数据不包含列名,则改首 header-None。


names:默认值为 None,要使用的列名列表。


index_col:指定列为索引列,默认值为 None,索引0是 DataFrame 的行杯签。


usecols:int、list 列表或子符串,默认值为 None。


  >>如果为 None,则解析所有列。
  >>如果为int,则解析最后一列。
  >>如果为 list 列表,则解析列号列表的列。
  >>如果为字符串,则表示以逗号分隔的 Excel 列字母和列范围列表 (例如“A:E”或
“A,C,E:F”)。范围包括双方。


squeeze:布尔值,默认值为 False, 如果解析

评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值