willyan2007-CSDN博客

willyan2007

码龄9年

53,481

总访问量
39

原创
18

粉丝
75

关注

IP 属地：湖南省

加入CSDN时间： 2017-11-13

查看详细资料

个人成就

获得35次点赞
内容获得10次评论
获得64次收藏
博客总排名2,386,153名

TA的专栏

Flink
3篇
Spark
12篇
Python
7篇
Lbs
1篇
实时大数据
5篇
基础架构
11篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 12

TA参与的活动 0

兴趣领域设置

大数据

hadoopstormsparketl

创作活动更多

「谁说嵌入式只是调包和焊板子？」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”？2026嵌入式全栈技术征锋令正式启幕！本次活动专为硬核硬件/软件开发者打造，无论你是刚玩转裸机外设的萌新，还是精通RTOS调度、死磕底层驱动的行业老手，亦或是执掌系统架构的大神，这里都是你证明实力的舞台！拒绝表面功夫，每一行代码，都有撬动硬件的力量！晒出你的硬核工程实战，为嵌入式开发者的全栈硬实力正名！

211人参与去参加

更多

Python查询连续三天成交量较前5天平均值

rs = bs.query_all_stock(day=last_trade_date) # 使用最近一个交易日获取股票列表。output_file = f"{local_path}/成交量放大股票_{last_trade_date}.xlsx"rs = bs.query_all_stock(day=last_trade_date) # 使用最近一个交易日获取股票列表。elif 'stock_name' in stock_info.columns: # 也可能是stock_name。

博文更新于 2025.04.16 ·

Python查询连续两天成交量

df_result = df_result.sort_values(by="成交量倍数", ascending=False) # 按成交量倍数倒序排序。df_result = df_result.sort_values(by="成交量倍数", ascending=False) # 按成交量倍数倒序排序。last_trade_date = get_trade_date() #小于当天18时，取前一个交易日，大与18时，采取当前天。"成交量倍数": round(volume_multiple, 2)

博文更新于 2025.04.16 ·

Spark Streaming状态管理函数

Spark Streaming状态管理函数引用

博文更新于 2022.09.07 ·

以写Hbase表的方式更新Phoenix索引

索引的主键是原表的字段组合而成的，索引表会把所有索引字段+rowkey拼接起来写进Hbase ,做索引的主键为索引表的RowKey。并且组合的时候还要加上\x00这样的字符串。在插入数据的时候直接以byte[] 的形式往hbase表插。

博文更新于 2022.09.07 ·

shszAmount沪深两市总成交量

import baostock as bsimport pandas as pd# 沪深两市，总成交金额统计# 沪深两市，总成交金额统计# 沪深两市，总成交金额统计# 登陆系统lg = bs.login()# 显示登陆返回信息print('login respond error_code:'+lg.error_code)print('login respond error_msg:'+lg.error_msg)# 获取指数(综合指数、规模指数、一级行业指数、二级行业指数、策略指.

博文更新于 2021.05.28 ·

All PE值入数据库

import baostock as bsimport pandas as pdimport numpy as npdef get_all_stocks_codes(): rs = bs.query_stock_basic() bank_stocks = [] while (rs.error_code == '0') & rs.next(): # 获取一条记录，将记录合并在一起 bank_stocks.append(rs.get_ro.

博文更新于 2021.05.28 ·

ApacheKylin-3.1.0-Windows本地开发环境搭建

官网地址搭建开发环境http://kylin.apache.org/cn/development/dev_env.html准备源码下载Kylin源码上到github官网，找到kylin-3.1.0的源码，下载。导入eclipse新建立好eclipse的workspace，再以导入maven工程的方式，将源码导入进来。初始导入时，eclipse Package Explorer目录下会有很多异常。异常修改方案一：修改父工程pom...

博文更新于 2021.05.28 ·

ApacheKylin-3.1.0-Windows本地开发环境测试

排查yarn详细日志yarn logs -applicationId application_1590551653017_0033准备数据准备hive表Load hive table 操作创建Model和CubeCube Build构建Build操作问题列表基于MR Build Cube六大步骤，第一个大步骤“Create Intermediate Flat Hive Table”时就报错了。第一个问题bash: hive: comman.

博文更新于 2021.05.18 ·

Jenkins Blueocean 版本安装与配置

为什么要安装 Jenkins 海洋版？普通的 Jenkins 在部署的时候，插件下不下来，但是在海洋版没有这个问题； blueocean 的页面更加人性化，流程的监控上看着让人舒服。拉镜像docker pull jenkinsci/blueocean创建自定义的jenkinsci/blueocean镜像，以便后续自定义JDK、Maven等工具。dockerfile_blueocean文件内容启动镜像注意：“\”后不要用空格，也可以不加--rm..

博文更新于 2021.05.17 ·

Apache Kylin IDEA远程调试

前言咱们通用的IDE工具是eclipse，eclipse远程连接tomcat实现本地代码调试也是比较常见，但KYLIN的部署与一般JAVA WEB服务部署存在较大差异，eclipse远程连接KYLIN没有成功，暂时用IDEA连接远程KYLIN实现本地代码DEBUG调试的目的。前提条件1.远程服务器上的KYLIN已经安装成功，随时可以启动。见下图，可以查看远程KYLIN服务。2.本地安装IntelliJ IDEA工具，并引入了KYLIN的源码。用idea引入maven工程.

博文更新于 2021.05.17 ·

Apache Kylin-3.0.1-安装启动

版本Apache独立版本，kylin-3.0.1，下载包apache-kylin-3.0.1-bin-hadoop3.tar.gz安装准备如下部分要预先对配置进行修改、或者准备好spark等部件，因为Kylin启动依赖的部件较多，最好预先准备，否则在启动时，会陆续报错。修改Hbase的“hbase”脚本cd $HBASE_HOME/binvim hbase在CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar后面添加:/$HBASE_HO

博文更新于 2021.05.17 ·

Spark2.3.2-单节点伪分布式OnYarn测试

下载spark-2.3.2-bin-hadoop2.7.tgz设置环境变量修改配置cd $SPARK_HOME/confcp spark-env.sh.template spark-env.shvim spark-env.sh注意：由于是On Yarn的配置，无需配置worker、slaves这些启动spark-shell根据启动日志，spark-shell启动的本地模式，不是OnYarn的模式。我们查看Hadoop ResoureManager的界面，没

博文更新于 2021.05.14 ·

Livy调度Spark任务

安装配置LIVY下载首页：https://livy.incubator.apache.org/下载：https://livy.incubator.apache.org/download/下载文件apache-livy-0.7.0-incubating-bin.zip配置解压后的目录结构配置文件在conf目录下先用mv 命令生成红框中两个文件livy.conf改如下三个地方Spark master配置yarn，表示执行SparkOnYarn模式。

博文更新于 2021.05.14 ·

Presto340 Connector 配置手册

前提条件Presto340版本需要安装在jdk11的环境下，请预先进行安装。

博文更新于 2021.05.14 ·

Docker 搭建 Harbor 仓库

搭建 harbor 仓库docker 官方提供的私有仓库 registry，用起来虽然简单，但在管理的功能上存在不足。Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器，harbor使用的是官方的docker registry(v2命名是distribution)服务去完成。harbor在docker distribution的基础上增加了一些安全、访问控制、管理的功能以满足企业对于镜像仓库的需求。接下来，咱们安装harbor。安装docker-compose.

博文更新于 2021.05.13 ·

Docker入门

Docker概述Docker是什么？为什么会出现Docker？跟openstack、vmware workstation有啥区别？问题一Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。虚拟化应用与依赖包隔离机制问题二传统开发模式：多个环境开发、测试、生成环境流程...

博文更新于 2021.05.13 ·

Flink一：初识Flinlk，并与Spark做对比！

初识Flink，flink stream是无边界的数据，咱们用一个例子，对比下Flink与Spark的差异。Flink是基于的，且Event是独立的，操作、算子都是基于当个的Event的；Spark是基于RDD的，操作、算子都是基于集合实现的，这是Spark与Flink最本质的差别。1：Spark WordCount例子import org.apache.spark.{Spark...

博文更新于 2020.09.06 ·

Flink二：IngestionTime与ProcessingTime

IngestionTime进入Flink系统的时间；ProcessingTime Flink算子操作的时间。有个程序描述下它们的差异：//订单对象(userid、消费总额total)case class Order(userid: Long, total: Long)case class OrderSummary(startTime: String, endTime: Strin...

博文更新于 2020.01.15 ·

Flink三：EventTime与WaterMark生成记录

import java.text.SimpleDateFormatimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarksimport org.apache.flink.stre...

博文更新于 2020.01.15 ·

Spark程序模块化的处理

import org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.{DoubleType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, Sp...

博文更新于 2019.10.10 ·