Pandas统计分析——导入外部数据

原创

已于 2023-12-07 09:02:49 修改 · 2k 阅读

标签

#pandas

于 2023-12-06 21:51:24 首次发布

1.导入.csv文件主要使用Pandas的read_csv()方法

三、导入.txt文本文件

1. 使用 read_csv() 方法导入 1月的 .txt 文件示例：

四、导入HTML网页

1.使用 read_html() 方法导入 NBA 球员的薪资数据示例：

前言

pandas主要包括两个数据结构，即Series对象和DataFrame对象，本文主要分别介绍导入外部数据（.xls或.xlsx和.csv或.txt或html网页）。

一、导入.xls或.xlsx文件

常用Pandas的read_excel( )方法，语法如下：

pandas.read_excel(
    io,sheet_name=0,header0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_default_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True, **kwds)

参数说明：

io：字符串，.xls或.xlsx文件路径或文件对象（数据的加载路径）

sheet_name：None、字符串、整数、字符串列表或整数列表，默认值为 0。字符串用于工作表名称，整数为索引表示工作表位置，字符串列表或整数列表用于请求多个工作表，为 None时获取所有工作表。参数值如下图所示

值	说明
sheet_name=0	第一个Sheet页中的数据作为DataFrame
sheet_name=1	第二个Sheet页中的数据作为DataFrame
sheet_name=''Sheet1''	名为Sheet的Sheet页的数据作为DataFrame
sheet_name=[0,1,'Sheet3']	第一个、第二个和名为Sheet的Sheet页中的数据作为DataFrame

header：指定作为列名的行，默认值为0，即取第一行的值为列名。数据为除列名以外的数据；若数据不包含列名，则改首 header-None。

names：默认值为 None，要使用的列名列表。

index_col：指定列为索引列，默认值为 None，索引0是 DataFrame 的行杯签。

usecols：int、list 列表或子符串，默认值为 None。

>>如果为 None，则解析所有列。
>>如果为int，则解析最后一列。
>>如果为 list 列表，则解析列号列表的列。
>>如果为字符串，则表示以逗号分隔的 Excel 列字母和列范围列表（例如“A:E”或
“A,C,E:F”）。范围包括双方。

squeeze：布尔值，默认值为 False，如果解析

最低0.47元/天解锁文章

5 条评论

CSDN-Ada助手 2023.12.08
恭喜你开始了博客创作，这是一个很棒的开始！导入外部数据是数据分析中的重要一环，你可以在接下来的博客中继续深入探讨Pandas的统计分析功能，比如数据清洗、数据可视化等方面的内容。希望你可以继续坚持下去，分享更多有价值的知识给大家。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1