GALAXY'sDream-CSDN博客

GALAXY'sDream

码龄15年

6,004

总访问量
13

原创
2

粉丝
23

关注

IP 属地：中国

加入CSDN时间： 2011-05-29

查看详细资料

个人成就

获得1次点赞
内容获得0次评论
获得1次收藏
博客总排名267,491名

TA的专栏

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域设置

大数据

hadoophivestormsparketl

创作活动更多

「谁说嵌入式只是调包和焊板子？」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”？2026嵌入式全栈技术征锋令正式启幕！本次活动专为硬核硬件/软件开发者打造，无论你是刚玩转裸机外设的萌新，还是精通RTOS调度、死磕底层驱动的行业老手，亦或是执掌系统架构的大神，这里都是你证明实力的舞台！拒绝表面功夫，每一行代码，都有撬动硬件的力量！晒出你的硬核工程实战，为嵌入式开发者的全栈硬实力正名！

211人参与去参加

更多

Hive 运算符与函数

批处理模式：处理完一次就结束 -e -f $HIVE_HOME/bin/hive -e'show databases' --service 启动服务 set(临时) > hiveconf> hive-site.xml 内置运算符 show funtions; --展示所有运算符 desc funtion [+]; --查看运算符功能 desc function extend [+]； --查看更详细信息创建空表测试函数关键运...

博文更新于 2023.02.15 ·

Apache Spark初学入门笔记

Spark和Hadoop根本差异是作业之间的数据通信问题，Spark多个作业之间数据通信是基于内存，Hadoop是基于磁盘。

博文更新于 2022.09.05 ·

Hive DQL 查询

从哪里查询关键在from后面的table_reference，可以是表、视图、join结果等后接 Where 后接布尔表达式，用于查询过滤。支持任何函数和运算符，聚合函数除外 Group by 分组 Order by 排序 HAVING 其他 Distinct 去重 Limit 限制 ·可用两个数字，比如 2,100。范围为(2,100] 聚合函数： Count 、 max 、 min 、 sum 、avg 基础语法 Select select cur...

博文更新于 2022.03.14 ·

Hadoop-MapReduce初学入门笔记

MapReduce用于处理海量数据计算，由谷歌论文而来，从论文角度来讲是一种思想，从技术角度来讲。是一种计算框架 MR JAVA变量：Text=String，其他变量+Writeable 1.1 Mapper 1.用户定义的Mapper类药继承父类 2.Mapper输入数据是泛型KV对的形式 Key 是偏移量，value 是值（内容） 3.Mapper业务逻辑写在map（）方法 4.Mapper输出也是KV对 5.Map()方法对每个<K,V>...

博文更新于 2022.01.18 ·

Hadoop-Yarn初学入门笔记

0 概念对整个集群中的所有节点的软件和硬件资源进行管理和协调 yarn不是hadoop独有的，它是一种规范，凡是符合这种资源调度规范的，都可以使用yarn做资源调度器，比如spark Yarn组成 ResourceManager ·资源管理者，全局只有一个，一般在namenode 上管理整个资源调度的整体情况 NodeManager ·每个节点的资源管理者，每个可以使用的节点上都有一个NodeManager,一般DataNode上都会有一个管理当前这个节点内的资源...

博文更新于 2022.01.18 ·

Hadoop-HDFS笔记

1、HDFS是文件管理系统（分布式的），常见的还有NTFS，FAT32 2、一次写入，多次读出，写入后不能修改

博文更新于 2021.12.19 ·

Spark Resilient Distributed Dataset

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。来源：Spark学习之路（三）Spark之RDD - 扎心了，老铁 - 博客园 ...

博文更新于 2021.12.08 ·

Spark Core内核

宽窄依赖、DAG有向无环图、Stage

博文更新于 2021.12.08 ·

Spark SQL

SparkSQL支持对结构化和半结构化数据（如json）加载为一张分布式的表，并提供SQL和DSL（面向对象，调用API）对数据进行操作。

博文更新于 2021.12.08 ·

HBase

基于HDFS的分布式NoSQL（非关系型）数据库。面向海量数据的存储。在太小的数据量反而不如普通关系型数据库。特点：支持大量数据的随机、实时读写，在海量数据中可实现毫秒级的读写强一致性 1、HBase数据结构 5种模型：列、Row Key、store + 纵向横向切分 Row列： ·有一个RowKey和多个Column(列)组成，按照字典顺序存储。查询时根据RowKey检索，所以RowKey的设计十分重要。 Row Key：按字典序列族：将几个列划...

博文更新于 2021.12.08 ·

新闻亿级流量采集与监控

数据类型行为日志：由客户端上报、用户的行为，如点赞、收藏内容日志：公司的产品，如一条新闻、一条商品业务日志：服务器端日志、元数据，一般在表格中行为日志与内容日志都采用HTTP接口，服务器端推送的模式 1、项目架构 ...

博文更新于 2021.11.28 ·

大数据生态体系与Hadoop入门

博文更新于 2021.10.08 ·

IDEA命令技巧与Debug入门

快捷键 Alt + Enter = throw Ctrl + P = 参数提示在对象后输入的命令 .var 自动补全 .for 循环遍历 .sout 输出当前鼠标右键一键封装：右键general -> getter and setter 一键构造函数（空参）：右键general -> Constructer IDEA Debug ...

博文更新于 2021.09.29 ·