【YashanDB知识库】DataX迁移Hive到崖山分布式

最新推荐文章于 2026-06-20 22:09:16 发布

原创最新推荐文章于 2026-06-20 22:09:16 发布 · 805 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#数据库 #崖山数据库 #YashanDB

收录于

YashanDB知识库专栏收录该内容

268 篇文章

订阅专栏

概述

本文主要介绍通过Datax实现Hive数据迁移到崖山分布式。

环境

源Hive版本：3.1.3

目标YashanDB版本：23.2.3.100

建表脚本

-- hive

CREATE TABLE IF NOT EXISTS product(

product_no char(5),

product_name varchar(30),

cost double,

price duble

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'

STORED AS textfile;

-- yashandb

CREATE TABLE product

(

product_no CHAR(5),

product_name VARCHAR2(30),

cost NUMBER,

price NUMBER

);

hive表和DataX数据类型映射

DataX 内部类型	Hive表数据类型
Long	TINYINT,SMALLINT,INT,BIGINT
Double	FLOAT,DOUBLE
String	String,CHAR,VARCHAR,STRUCT,MAP,ARRAY,UNION,BINARY
Boolean	BOOLEAN
Date	Date,TIMESTAMP

hive同步到崖山job配置

{

"job": {

"content": [

{

"reader": {

"name":"hdfsreader",

"parameter":{

"column":[

{

"index":0,

"type":"string"

{

"index":1,

"type":"string"

{

"index":2,

"type":"double"

{

"index":3,

"type":"double"

}

"defaultFS":"hdfs://127.0.0.1:8020",

"encoding":"UTF-8",

"fieldDelimiter":"\u0001",

"fileType":"text",

"path":"/usr/hive/warehouse/sales.db/product"

}

"writer": {

"name": "yashandbwriter",

"parallel": {

"binder": 6

"parameter": {

"batchError": true,

"column":[

"PRODUCT_NO",

"PRODUCT_NAME",

"COST",

"PRICE"

"connection": [

{

"jdbcUrl": "jdbc:yasdb://127.0.0.1:1688/yashandb",

"table": [

"SALES.PRODUCT"

]

}

"batchSize": 4096,

"batchesPerTxn": 1000,

"password": "sales",

"preSql": ["truncate table SALES.PRODUCT"],

"session": [],

"username": "sales",

"writeMode": "bulkinsert"

}

"setting": {

"speed": {

"channel": "1"

}

执行同步

python bin/datax.py job/hive2yashandb.json

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YashanDB

关注关注

13
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于java Web 训练管理系统设计与实现源码论文

qq_251836457的博客

06-17

1318

用户信息实体，主要包括用户编号,用户名,密码,姓名,性别,出生日期,证件号,民族,政治面貌,单位,入伍时间,照片,班级,排等信息实体。1 用户( 用户编号,用户名,密码,姓名,性别,出生日期,证件号,民族,政治面貌,单位,入伍时间,照片,班级,排 )讨论信息实体，主要包括讨论编号,疑问,说明,发布人,发布时间,状态,回答等信息实体。系统主要用户实体,班级实体,排实体,科目实体,成绩实体,教学视频实体,教学理论实体,讨论实体，如图所示。班级信息实体，主要包括班级编号,班级等信息实体。

参与评论您还未登录，请先登录后发表或查看评论

24-Django请求全链路-WSGI到数据库响应的完整旅程

weixin_44081096的博客

06-15

1066

你点了浏览器的"刷新"按钮，0.5 秒后页面渲染完毕。这 0.5 秒里发生了什么？本文把 Django 处理一个 HTTP 请求的完整链路拆为六个步骤：WSGI Server 接收 TCP 连接 → 中间件栈的洋葱模型逐层处理 → URL 路由匹配 → View 执行业务逻辑 → ORM 生成 SQL 并发送到数据库 → Template 渲染或 JSON 序列化返回响应。每一步都配有对应的源码位置和关键代码片段，读完你能对一个请求的全生命周期建立起清晰的空间模型。穿插真实调试经历——一个中间件错误导致所有

机场设备管理系统 - 项目完整文档

格子杰的博客

06-20

机场设备管理系统摘要机场设备管理系统是一个专为机场设计的设备监控与管理平台，主要功能包括：设备全生命周期管理：跟踪设备从入库、备机、安装使用到维修的全过程状态（使用中/备机/损坏/送修）核心业务功能：实时监控设备状态故障设备快速更换（备机调配） CUSS自助值机机耗材管理值机岛/登机口等站点配置完整的变更历史追溯技术架构：采用Next.js框架构建包含仪表盘、设备管理、站点管理等模块使用TypeScript定义数据模型提供CSV导入导出功能支持PostgreSQL/MySQL数据库

分布式集群两种架构：外部中间件协调 vs 内嵌Raft共识

m0_37670860的博客

06-20

313

分布式集群只有两种架构：一种是依赖外部中间件抢锁选主，简单轻量化、无业务计算能力；一种是内嵌 Raft 共识，自带选主+多副本一致+自定义状态机，既能做简单集群控主，也能支撑金融级强一致业务。

数据库写轮眼：看透 MVCC 版本链、快照、隔离级别。

初入后端的大二在校生

06-15

1073

在数据库高并发场景下，海量事务同时读写同一份数据，单纯依赖锁机制相互制衡，只会造成无休止的阻塞等待；脏读、不可重复读与幻读，更如同忍界无解的幻术，牢牢桎梏着系统性能。正如这幅图中，宇智波鼬借 Undo Log 铺展绵延不绝的数据历史分身版本链，佐助则凭借 ReadView 写轮眼，筛选出仅对当前事务可见的数据快照。 MVCC 正是数据库世界里独一份的宇智波瞳术，它摒弃锁竞争的对抗思路，依托多版本数据与视图可见性规则，为每一笔事务划分独立读写时空，从根源化解并发读写矛盾。

【基础】PostgreSQL 数据导出

shen12138的博客

06-17

617

PostgreSQL 的导出其实可以很精细：先用查询摸清各表大小，再用pg_dump配合精准排除不需要的数据。这套「先查后导」的流程既能节省导出时间，又能控制备份文件的大小，值得在实际工作中推广使用。

百度 C++/PHP 研发一二面：一面扫八股和算法，二面开始逼近 Redis、MySQL 和秒杀设计

TechPioneer_lp的博客

06-15

214

这篇百度C++/PHP研发面经展现了后端岗位的面试进阶路径：一面侧重算法、操作系统、网络等基础（如链表判环、HTTP协议），二面则深入Redis/MySQL底层、高并发设计（如秒杀系统）。面经揭示百度筛选标准：基础合格后，重点考察缓存/数据库系统理解、高并发设计能力。建议准备时：一面夯实算法和语言基础（C++关键字/多态），二面吃透Redis/MySQL原理，并构建系统设计思维。笔试不佳仍有面试机会，但二面才是真正的能力分水岭。

kaliLinux~ 与端口建立连接

Gavin

06-14

1067

本文介绍了如何使用Kali Linux中的nc命令与Spring Boot服务建立连接并发送HTTP请求，以及尝试连接MySQL数据库的过程。作者首先创建了一个简单的Spring Boot接口，通过nc命令成功发送GET请求并获取响应。随后尝试连接MySQL数据库时遇到防火墙拦截和SSL证书验证问题，通过调整防火墙设置和使用--skip-ssl-verify参数最终成功建立连接。文章记录了整个实验过程中的命令操作和问题解决方法，展现了基本的网络连接测试技术。

SQL经典实例——操作日期

吴声子夜歌的博客

06-18

399

问题：你想找出当前月份的第一天和最后一天。解决方案：下面介绍的解决方案找出了当前月份的第一天和最后一天，但只要稍做调整，就可用于找出任何月份的第一天和最后一天。DB2：使用函数 DAY 确定当前日期是当前月份的第几天，然后将当前日期减去这个天数并加 1，得到当前月份的第一天。为了得到当前月份的最后一天，给当前日期加上 1 个月，再减去将函数 DAY 应用于当前日期加 1 个月时返回的天数。from t1;Oracle。

调查研究-182 turbovec 项目解析：把 RAG 向量索引从“内存怪兽“拉回本地工程

谢谢你的喜欢我们一起无限进步

06-17

931

2026 年，RAG 系统的成本矛盾正在从大模型推理转向向量索引。百万级 1536 维 FP32 embedding 就需要 6GB 原始向量，叠加 metadata、缓存、索引结构后内存压力被进一步放大。RyanCodrai/turbovec 是一个基于 Google Research 在 ICLR 2026 发表的 TurboQuant 算法构建的高性能压缩向量索引库，使用 Rust 编写核心并通过 PyO3/maturin 提供 Python 绑定，主打 2-4 bit per coordinate

MySQL5.7升级到MySQL8.0并进行数据迁移

m0_71837291的博客

06-15

874

确认当前版本。

2026国产时序数据库选型指南：当“融合多模“成为破局关键

热门推荐

AI+全栈，AI+应用，实操落地，前沿技术

06-18

1万+

2026国产时序数据库选型指南：融合多模成为关键趋势文章分析了2026年国产时序数据库市场格局，重点探讨了金仓数据库的"融合多模"创新方案。当前主流产品可分为高性能分布式、物联网原生、金融量化等专业类型，而金仓采用将时序能力嵌入关系型数据库内核的差异化策略，实现三大优势：1）时序与关系数据统一存储和原生JOIN；2）复用成熟的企业级ACID事务、高可用和安全体系；3）在复杂关联查询场景展现性能优势。文章指出，在工业物联网、电力调度、智能制造等需要时序与业务数据深度整合的场景

Java 程序员第 43 阶段05：微服务整合大模型，跨服务调用架构设计实战，Seata分布式事务实战

fuleigang的专栏

06-15

1115

第一阶段：分支事务执行SQL，Seata解析SQL获取表结构，生成数据镜像（before image），执行SQL获取数据变化，生成数据镜像（after image），将前后镜像和SQL信息注册到TC。本章深入探讨了Seata分布式事务的实战应用，从四种事务模式的原理机制出发，详细讲解了AT、TCC、SAGA和XA模式的工作原理和适用场景。Seata通过XID（全局事务ID）串联各个分支事务，每个参与服务的每次SQL执行都会被Seata代理，自动记录前后镜像数据，实现无侵入式的分布式事务管理。

FastAPI基础

m0_60121089的博客

06-14

621

本文介绍了FastAPI框架的基础和进阶使用。主要内容包括：1）FastAPI基础：创建项目、路由定义（路径参数、查询参数、请求体参数）、响应类型设置和异常处理；2）进阶功能：中间件机制、依赖注入系统；3）ORM操作：通过SQLAlchemy实现数据库建模、增删改查和聚合分页查询。重点演示了FastAPI的高效API开发流程，包括参数校验、自动文档生成、异步数据库操作等特性，展现了其高性能、易用性和安全性优势。

SQLi-Labs靶场从零搭建到通关全攻略（一）：环境搭建与基础四关

weixin_50971816的博客

06-19

415

本文介绍了SQL注入的基本概念和SQLi-Labs靶场的使用方法。SQL注入是通过恶意SQL代码欺骗数据库执行非预期命令的攻击方式，可导致数据泄露、篡改等严重后果。作者详细讲解了SQLi-Labs的安装部署过程（包括phpStudy配置和数据库初始化），并重点解析了前四关的通关技巧：Less-1的单引号字符型注入、Less-2的数字型注入、Less-3的单引号+括号注入和Less-4的双引号+括号注入。文章强调判断闭合方式是SQL注入的关键，并提供了完整的注入流程（测闭合、测字段数、找显示位、查数据）。

功能点识别控制要点—数据功能

2401_86538250的博客

06-18

511

在实际操作中，数据功能的识别面临诸多挑战：技术文件与业务文件的边界模糊、代码数据的分散计数、关联实体的独立性判断、内部文件与外部文件的归属判定等问题，都是导致度量偏差的常见原因。针对数据功能识别中的典型问题，有不同的约束规则。以某CRM系统为例，客户表和联系人表之间存在多对多关系，数据库设计时创建了关联表customercontactrel，该表仅包含id（主键）、customerid（外键）、contactid（外键）、create_time（创建时间）、operator（创建人）等字段。

03-Hermes Agent 配置文件精讲：模型、记忆、网关的每一个参数

摸鱼同学的博客

06-15

427

Hermes Agent 配置文件精要解析文章详细拆解了 Hermes Agent 的 YAML 配置文件结构，主要包含五大核心模块： Agent 配置：定义 AI 身份、语言偏好、角色定位（预设5种专业角色）及行为风格（简洁/详细模式）模型管理：支持主流 API 提供商（Anthropic/OpenAI等），含智能降级策略和成本控制机制记忆系统：三级存储架构（短期/中期/长期），支持本地或云端数据库存储对话历史多平台接入：同时支持 CLI、HTTP 和主流即时通讯工具的消息收发高级功能：包含技能

Oracle 11g RAC集群PSU补丁安装（一）

oradh的专栏

06-18

353

Oracle 11g RAC集群PSU补丁安装

当工具决定一切：LLM 智能体盲目遵从图神经网络工具的实验报告

weixin_44626085的博客

06-18

1044

大模型智能体对工具产生"鹦鹉效应"：规模越大越盲从最新研究发现，大语言模型智能体(LLM Agent)在使用图神经网络(GNN)工具时表现出惊人的盲从现象，同意率高达97.6%-99.2%，导致智能体退化为单纯复述工具输出的"GNN鹦鹉"。这种现象随模型规模增大而加剧：33B模型与最优策略的差距为0.09-0.18，77B模型差距扩大到0.12-0.22。关键发现：能力悖论：模型能力越强，对工具判断力反而下降，77B模型在邻居标签工具更优时仍盲从GNN 选择性调用失效：简单门控机制仅能恢复50%的性能

2026深度实测｜Copilot平价替代全测评，无短板AI编程工具迁移实录