基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析（一）——创建Glue

原创

已于 2022-08-29 20:06:57 修改 · 967 阅读

标签

#数据分析 #etl #python #serverless #大数据

于 2022-08-23 21:43:15 首次发布

本文介绍了如何使用AWS Glue进行ETL操作，从通过Athena查询s3数据开始，详细讲解了创建Glue数据库、设置爬网程序、手动与自动创建表的过程，并阐述了Athena在查询中的作用。最后总结了实验中的关键步骤，为后续的数据转换和无服务架构查询奠定基础。

1 通过Athena查询s3中的数据

此实验使用s3作为数据源

ETL:

E    extract         输入
T    transform     转换
L    load             输出

在这里插入图片描述

首先我们需要创建一个数据库。我们将会使用爬网程序来填充我们的数据目录。

在任务中，我们经常会使用Glue爬网程序来填充我们的数据目录。
爬虫可以在一次运行中爬取多个数据存储。在爬取完成后，我们会在数据目录中看到由爬虫创建的一个或多个表。
创建表后，我们就可以在接下来的Athena查询或ETL作业中使用表来作为源或目标了。

步骤	图例
1、入口
2、输入爬虫名称