目录
1.导入.csv文件主要使用Pandas的read_csv()方法
1. 使用 read_csv() 方法导入 1月的 .txt 文件示例:
1.使用 read_html() 方法导入 NBA 球员的薪资数据示例:
前言
pandas主要包括两个数据结构,即Series对象和DataFrame对象,本文主要分别介绍导入外部数据(.xls或.xlsx和.csv或.txt或html网页)。
一、导入.xls或.xlsx文件
常用Pandas的read_excel( )方法,语法如下:
pandas.read_excel(
io,sheet_name=0,header0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_default_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True, **kwds)
参数说明:
io:字符串,.xls或.xlsx文件路径或文件对象(数据的加载路径)
sheet_name:None、字符串、整数、字符串列表或整数列表,默认值为 0。字符串用于工作表名称,整数为索引表示工作表位置,字符串列表或整数列表用于请求多个工作表,为 None时获取所有工作表。参数值如下图所示
| 值 | 说明 |
| sheet_name=0 | 第一个Sheet页中的数据作为DataFrame |
| sheet_name=1 | 第二个Sheet页中的数据作为DataFrame |
| sheet_name=''Sheet1'' | 名为Sheet的Sheet页的数据作为DataFrame |
| sheet_name=[0,1,'Sheet3'] | 第一个、第二个和名为Sheet的Sheet页中的数据作为DataFrame |
header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据;若数据不包含列名,则改首 header-None。
names:默认值为 None,要使用的列名列表。
index_col:指定列为索引列,默认值为 None,索引0是 DataFrame 的行杯签。
usecols:int、list 列表或子符串,默认值为 None。
>>如果为 None,则解析所有列。
>>如果为int,则解析最后一列。
>>如果为 list 列表,则解析列号列表的列。
>>如果为字符串,则表示以逗号分隔的 Excel 列字母和列范围列表 (例如“A:E”或
“A,C,E:F”)。范围包括双方。
squeeze:布尔值,默认值为 False, 如果解析


2484





