1 通过Athena查询s3中的数据
此实验使用s3作为数据源
ETL:
E extract 输入
T transform 转换
L load 输出
大纲
1.1 架构图

1.2 创建Glue数据库
首先我们需要创建一个数据库。我们将会使用爬网程序来填充我们的数据目录。
| 步骤 | 图例 |
|---|---|
| 1、入口 | ![]() |
| 2、创建数据库 只需输入一个数据库名称即可 | ![]() |
| 3、结果 | ![]() |
1.3 创建爬网程序
在任务中,我们经常会使用Glue爬网程序来填充我们的数据目录。
爬虫可以在一次运行中爬取多个数据存储。在爬取完成后,我们会在数据目录中看到由爬虫创建的一个或多个表。
创建表后,我们就可以在接下来的Athena查询或ETL作业中使用表来作为源或目标了。
| 步骤 | 图例 |
|---|---|
| 1、入口 | ![]() |
| 2、输入爬虫名称 |

本文介绍了如何使用AWS Glue进行ETL操作,从通过Athena查询s3数据开始,详细讲解了创建Glue数据库、设置爬网程序、手动与自动创建表的过程,并阐述了Athena在查询中的作用。最后总结了实验中的关键步骤,为后续的数据转换和无服务架构查询奠定基础。




903

被折叠的 条评论
为什么被折叠?



