人生之光荣在于屡仆屡起
码龄7年
求更新 关注
提问 私信
  • 博客:63,980
    社区:1
    63,981
    总访问量
  • 46
    原创
  • 17
    粉丝
  • 32
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
目前就职: 工信部中国医药工业中心
加入CSDN时间: 2019-02-19
博客简介:

qq_44671288的博客

查看详细资料
个人成就
  • 获得28次点赞
  • 内容获得7次评论
  • 获得206次收藏
  • 博客总排名1,031,435名
创作历程
  • 1篇
    2022年
  • 48篇
    2020年
成就勋章
TA的专栏
  • 大数据
    7篇
  • 数仓
    1篇
  • 数据集市
    1篇
  • kafka
    1篇
  • 机器学习
    1篇
  • 随机森林
    1篇
  • sqoop
    1篇
  • hadoop
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hive
创作活动更多

「谁说嵌入式只是调包和焊板子?」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”?2026嵌入式全栈技术征锋令正式启幕! 本次活动专为硬核硬件/软件开发者打造,无论你是刚玩转裸机外设的萌新,还是精通RTOS调度、死磕底层驱动的行业老手,亦或是执掌系统架构的大神,这里都是你证明实力的舞台! 拒绝表面功夫,每一行代码,都有撬动硬件的力量!晒出你的硬核工程实战,为嵌入式开发者的全栈硬实力正名!

213人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

史上最强superset 使用宝典 ----公司内部使用整理

前场安装请直接看方案二 一、方案一(已弃用) 1、安装python3以上 #安装依赖包 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel #下载安装 cd /usr/local/src #进⼊源码⽂件夹 wget www.python.org/ftp/python/3
原创
博文更新于 2022.05.09 ·
2027 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

site-packages.zip

发布资源 2021.12.09 ·
zip

scala模型分析.emmx

发布资源 2020.09.10 ·
emmx

Flume+Kafka双剑合璧玩转大数据平台日志采集

Flume+Kafka双剑合璧玩转大数据平台日志采集 大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。 一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 为此建议将日志采集分析系统分为如下几个模块: 数据采集模块:负责从各节点上实时采集数据,建议选用Flume-NG来实现。 数据接入模块:由于采集数据的速度和数据处理
原创
博文更新于 2020.12.10 ·
369 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive的优化

分类: Hive系列 undefined 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎; 它提供类似sql的查询语句HiveQL对数据进行分析处理; 数据的存储格式有多种,比如数据源是二进制格式,普
原创
博文更新于 2020.12.02 ·
377 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据集市与数据仓库的区别

1.什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate )、相对稳定的(Non -Volatile )、反映历史变化( Time Variant)的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重...
原创
博文更新于 2020.12.01 ·
12029 阅读 ·
8 点赞 ·
0 评论 ·
50 收藏

Kafka的简介与结构

Kafka学习之路 (一)Kafka的简介 目录 一、简介 1.1 概述 1.2 消息系统介绍 1.3 点对点消息传递模式 1.4 发布-订阅消息传递模式 二、Kafka的优点 2.1 解耦 2.2 冗余(副本) 2.3 扩展性 2.4 灵活性&峰值处理能力 2.5 可恢复性 2.6 顺序保证 2.7 缓冲 2.8 异步通信 三、常用Message Queue对比 3.1 RabbitMQ 3.2 Redis 3.3 .
原创
博文更新于 2020.11.30 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

https://www.cnblogs.com/wang3680/p/11538451.html

https://www.cnblogs.com/wang3680/p/11538451.html
转载
博文更新于 2020.11.28 ·
937 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据库分层设计概述

一、文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。 【漫谈数据仓库】 如何优雅地设计数据分层 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 各种重复计算,严重浪费了计算资源,需要优化性能。 二、文章结构 最初在做数据仓库的时候遇到了很多坑,由于
原创
博文更新于 2020.11.28 ·
1679 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数仓事实表与维度表

事实表: 1.0事务事实表:(->明细事实表->聚合事实表) 记录的是事务层面的事实,保存的是最原子的数据,也叫做“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。 1.1.0明细事实表(单事件事实表,流程事实表): 一般位于DWD层,该层事实表设计不进行聚合,汇总等动作,仅做数据规范化,数据降维动作,同时数据保持业务事务粒度,确保数据信息无丢失。 单事件事实表: 1.更方便跟踪业
原创
博文更新于 2020.11.28 ·
653 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

逻辑回归与随机森林

1.逻辑回归 逻辑回归从统计学的角度看属于非线性回归中的一种,它实际上是一种分类方法,主要用于两分类问题 Regression问题的常规步骤为: 寻找h函数(即假设估计的函数); 构造J函数(损失函数); 想办法使得J函数最小并求得回归参数(θ); 数据拟合问题 1)利用了Logistic函数(或称为Sigmoid函数),函数形式为最常见的 1.png 2)代价函数J 下面的代价函数J之所有前面加上1/m是为了后面”梯度下降求参数θ时更方便“,也即这里不加1/m也可以。 2.png
原创
博文更新于 2020.11.05 ·
3460 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

sqoop从安装到操作

一.sqoop的简单概论 1.sqoop产生的原因: A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。 B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。 依据以上的原因sqoop产生的。 2. sqoop的介绍 sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出): A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase B. 将数据从Hadoop 系统里抽取并
原创
博文更新于 2020.10.21 ·
453 阅读 ·
0 点赞 ·
3 评论 ·
1 收藏

JVM 垃圾回收器工作原理及使用实例介绍

垃圾收集基础 Java 语言的一大特点就是可以进行自动垃圾回收处理,而无需开发人员过于关注系统资源,例如内存资源的释放情况。自动垃圾收集虽然大大减轻了开发人员的工作量,但是也增加了软件系统的负担。 拥有垃圾收集器可以说是 Java 语言与 C++语言的一项显著区别。在 C++语言中,程序员必须小心谨慎地处理每一项内存分配,且内存使用完后必须手工释放曾经占用的内存空间。当内存释放不够完全时,即存在分配但永不释放的内存块,就会引起内存泄漏,严重时甚至导致程序瘫痪。 以下列举了垃圾回收器常用的算法及实验原理
原创
博文更新于 2020.10.19 ·
247 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java链接elasticsearch

目录 java连接es,构建client java控制es增删改查 1.查询 2.删除 3.更新 4.增加 java连接es,构建client 1.pom.xml ,构建maven依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <...
原创
博文更新于 2020.09.30 ·
656 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ElasticSearch的CRUD操作

ElasticSearch的CRUD操作 1.CREATE elasticsearch会自动建立index和type,不需要提前创建,而且elasticsearch默认会对document的每个filed建立倒排索引,方便搜索; 操作命令 PUT /index/type/id { "filed":"value" } 1 2 3 4 操作示例 #操作例子 PUT /accounting_tools/voucher_detail/111 { "subjectId" : "1.
原创
博文更新于 2020.09.30 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

elasticsearch 倒排索引

一切设计都是为了提高搜索的性能 倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过key找value,反向索引则是通过value找key。 先来回忆一下我们是怎么插入一条索引记录的: curl -X PUT "localhost:9200/user/_doc/1" -H 'Content-Type: application/json' -d' { "name" : "Jack", "gender" : 1, "ag.
原创
博文更新于 2020.09.30 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase数据存储原理与读写详解

Hbase数据存储原理与读写详解 1、HBase的数据存储原理 一个HRegionServer会负责管理很多个region 一个*region包含很多个store 一个列族就划分成一个store** 如果一个表中只有1个列族,那么每一个region中只有一个store 如果一个表中有N个列族,那么每一个region中有N个store 一个store里面只有一个memstore memstore是一块内存区域,写入的数据会先写入memstore进行缓冲,然后再把数据刷到磁盘 .
原创
博文更新于 2020.09.28 ·
1296 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

hbase原理架构总结

什么是Hbase Hbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价的PC Server上搭建大规模结构化存储集群。 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 Hbase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库) Hbase是Google BigTable的开源实现,与Google BigTable利用GFS作为其文件存储系统类似,H
原创
博文更新于 2020.09.28 ·
2874 阅读 ·
8 点赞 ·
0 评论 ·
90 收藏

关于reducebykey在spark的使用

package njbdqn import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ListBuffer object demo { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local[2]").setAppName("myjob") val sc=new Sp.
原创
博文更新于 2020.09.23 ·
779 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

reducebyKey与groupby使用差别

在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。 针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为在接下来讲解《在spark中如何实现SQL中的group_concat功能?》时会用到这两个operations。 ..
原创
博文更新于 2020.09.23 ·
574 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多