人生之光荣在于屡仆屡起-CSDN博客

人生之光荣在于屡仆屡起

码龄7年

63,981

总访问量
46

原创
17

粉丝
32

关注

IP 属地：上海市

目前就职：工信部中国医药工业中心

加入CSDN时间： 2019-02-19

查看详细资料

个人成就

获得28次点赞
内容获得7次评论
获得206次收藏
博客总排名1,031,435名

TA的专栏

大数据
7篇
数仓
1篇
数据集市
1篇
kafka
1篇
机器学习
1篇
随机森林
1篇
sqoop
1篇
hadoop
1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域设置

大数据

hive

创作活动更多

「谁说嵌入式只是调包和焊板子？」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”？2026嵌入式全栈技术征锋令正式启幕！本次活动专为硬核硬件/软件开发者打造，无论你是刚玩转裸机外设的萌新，还是精通RTOS调度、死磕底层驱动的行业老手，亦或是执掌系统架构的大神，这里都是你证明实力的舞台！拒绝表面功夫，每一行代码，都有撬动硬件的力量！晒出你的硬核工程实战，为嵌入式开发者的全栈硬实力正名！

213人参与去参加

更多

史上最强superset 使用宝典 ----公司内部使用整理

前场安装请直接看方案二一、方案一（已弃用） 1、安装python3以上 #安装依赖包 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel #下载安装 cd /usr/local/src #进⼊源码⽂件夹 wget www.python.org/ftp/python/3

博文更新于 2022.05.09 ·

site-packages.zip

发布资源 2021.12.09 ·

scala模型分析.emmx

发布资源 2020.09.10 ·

Flume+Kafka双剑合璧玩转大数据平台日志采集

Flume+Kafka双剑合璧玩转大数据平台日志采集大数据平台每天会产生大量的日志，处理这些日志需要特定的日志系统。一般而言，这些系统需要具有以下特征：构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。为此建议将日志采集分析系统分为如下几个模块：数据采集模块：负责从各节点上实时采集数据，建议选用Flume-NG来实现。数据接入模块：由于采集数据的速度和数据处理

博文更新于 2020.12.10 ·

hive的优化

分类: Hive系列 undefined 概述 1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件； Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎；它提供类似sql的查询语句HiveQL对数据进行分析处理；数据的存储格式有多种，比如数据源是二进制格式，普

博文更新于 2020.12.02 ·

数据集市与数据仓库的区别

1.什么是数据集市？数据集市与数据仓库的区别？数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate )、相对稳定的(Non -Volatile )、反映历史变化( Time Variant)的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重...

博文更新于 2020.12.01 ·

12029 阅读 ·

Kafka的简介与结构

Kafka学习之路（一）Kafka的简介目录一、简介 1.1　概述 1.2　消息系统介绍 1.3　点对点消息传递模式 1.4　发布-订阅消息传递模式二、Kafka的优点 2.1　解耦 2.2　冗余（副本） 2.3　扩展性 2.4　灵活性&峰值处理能力 2.5　可恢复性 2.6　顺序保证 2.7　缓冲 2.8　异步通信三、常用Message Queue对比 3.1　RabbitMQ 3.2　Redis 3.3　.

博文更新于 2020.11.30 ·

https://www.cnblogs.com/wang3680/p/11538451.html

https://www.cnblogs.com/wang3680/p/11538451.html

博文更新于 2020.11.28 ·

数据库分层设计概述

一、文章主题本文主要讲解数据仓库的一个重要环节：如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。【漫谈数据仓库】如何优雅地设计数据分层本文对数据分层的讨论适合下面一些场景，超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步，大部分的数据经过粗暴的数据接入后就直接对接业务。数据建设发展到一定阶段，发现数据的使用杂乱无章，各种业务都是从原始数据直接计算而得。各种重复计算，严重浪费了计算资源，需要优化性能。二、文章结构最初在做数据仓库的时候遇到了很多坑，由于

博文更新于 2020.11.28 ·

数仓事实表与维度表

事实表： 1.0事务事实表：（->明细事实表->聚合事实表）记录的是事务层面的事实，保存的是最原子的数据，也叫做“原子事实表”。事务事实表中的数据在事务事件发生后产生，数据的粒度通常是每个事务一条记录。一旦事务被提交，事实表数据被插入，数据就不再进行更改，其更新方式为增量更新。 1.1.0明细事实表（单事件事实表，流程事实表）：一般位于DWD层，该层事实表设计不进行聚合，汇总等动作，仅做数据规范化，数据降维动作，同时数据保持业务事务粒度，确保数据信息无丢失。单事件事实表： 1.更方便跟踪业

博文更新于 2020.11.28 ·

逻辑回归与随机森林

1.逻辑回归逻辑回归从统计学的角度看属于非线性回归中的一种，它实际上是一种分类方法，主要用于两分类问题 Regression问题的常规步骤为：寻找h函数（即假设估计的函数）；构造J函数（损失函数）；想办法使得J函数最小并求得回归参数（θ）；数据拟合问题 1）利用了Logistic函数（或称为Sigmoid函数），函数形式为最常见的 1.png 2）代价函数J 下面的代价函数J之所有前面加上1/m是为了后面”梯度下降求参数θ时更方便“，也即这里不加1/m也可以。 2.png

博文更新于 2020.11.05 ·

sqoop从安装到操作

一．sqoop的简单概论 1.sqoop产生的原因： A. 多数使用hadoop技术的处理大数据业务的企业，有大量的数据存储在关系型数据中。 B. 由于没有工具支持，对hadoop和关系型数据库之间数据传输是一个很困难的事。依据以上的原因sqoop产生的。 2. sqoop的介绍 sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)： A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase B. 将数据从Hadoop 系统里抽取并

博文更新于 2020.10.21 ·

JVM 垃圾回收器工作原理及使用实例介绍

垃圾收集基础 Java 语言的一大特点就是可以进行自动垃圾回收处理，而无需开发人员过于关注系统资源，例如内存资源的释放情况。自动垃圾收集虽然大大减轻了开发人员的工作量，但是也增加了软件系统的负担。拥有垃圾收集器可以说是 Java 语言与 C++语言的一项显著区别。在 C++语言中，程序员必须小心谨慎地处理每一项内存分配，且内存使用完后必须手工释放曾经占用的内存空间。当内存释放不够完全时，即存在分配但永不释放的内存块，就会引起内存泄漏，严重时甚至导致程序瘫痪。以下列举了垃圾回收器常用的算法及实验原理

博文更新于 2020.10.19 ·

java链接elasticsearch

目录 java连接es，构建client java控制es增删改查 1.查询 2.删除 3.更新 4.增加 java连接es，构建client 1.pom.xml ，构建maven依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <...

博文更新于 2020.09.30 ·

ElasticSearch的CRUD操作

ElasticSearch的CRUD操作 1.CREATE elasticsearch会自动建立index和type，不需要提前创建，而且elasticsearch默认会对document的每个filed建立倒排索引，方便搜索；操作命令 PUT /index/type/id { "filed":"value" } 1 2 3 4 操作示例 #操作例子 PUT /accounting_tools/voucher_detail/111 { "subjectId" : "1.

博文更新于 2020.09.30 ·

elasticsearch 倒排索引

一切设计都是为了提高搜索的性能倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。先来回忆一下我们是怎么插入一条索引记录的： curl -X PUT "localhost:9200/user/_doc/1" -H 'Content-Type: application/json' -d' { "name" : "Jack", "gender" : 1, "ag.

博文更新于 2020.09.30 ·

Hbase数据存储原理与读写详解

Hbase数据存储原理与读写详解 1、HBase的数据存储原理一个HRegionServer会负责管理很多个region 一个*region包含很多个store 一个列族就划分成一个store** 如果一个表中只有1个列族，那么每一个region中只有一个store 如果一个表中有N个列族，那么每一个region中有N个store 一个store里面只有一个memstore memstore是一块内存区域，写入的数据会先写入memstore进行缓冲，然后再把数据刷到磁盘 .

博文更新于 2020.09.28 ·

hbase原理架构总结

什么是Hbase Hbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价的PC Server上搭建大规模结构化存储集群。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库） Hbase是Google BigTable的开源实现，与Google BigTable利用GFS作为其文件存储系统类似，H

博文更新于 2020.09.28 ·

关于reducebykey在spark的使用

package njbdqn import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ListBuffer object demo { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local[2]").setAppName("myjob") val sc=new Sp.

博文更新于 2020.09.23 ·

reducebyKey与groupby使用差别

在spark中，我们知道一切的操作都是基于RDD的。在使用中，RDD有一种非常特殊也是非常实用的format——pair RDD，即RDD的每一行是（key, value）的格式。这种格式很像Python的字典类型，便于针对key进行一些处理。针对pair RDD这样的特殊形式，spark中定义了许多方便的操作，今天主要介绍一下reduceByKey和groupByKey，因为在接下来讲解《在spark中如何实现SQL中的group_concat功能？》时会用到这两个operations。 ..

博文更新于 2020.09.23 ·