王知无(import_bigdata)
码龄12年
求更新 关注
提问 私信
  • 博客:2,212,981
    社区:527
    动态:257
    2,213,765
    总访问量
  • 1,251
    原创
  • 3,598
    排名
  • 26,438
    粉丝
  • 99
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
加入CSDN时间: 2014-01-07

个人简介:微信搜:import_bigdata GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

博客简介:

微信搜:import_bigdata,大数据领域硬核原创作者

博客描述:
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
查看详细资料
个人成就
  • 领域专家: 大数据技术领域
  • 获得2,311次点赞
  • 内容获得309次评论
  • 获得6,418次收藏
  • 代码片获得2,959次分享
创作历程
  • 28篇
    2026年
  • 71篇
    2025年
  • 70篇
    2024年
  • 78篇
    2023年
  • 102篇
    2022年
  • 980篇
    2021年
  • 339篇
    2020年
  • 479篇
    2019年
成就勋章
TA的专栏
  • 大数据面试通关手册
    付费
    30篇
  • Flink高级进阶和企业级应用
    付费
    43篇
  • ClickHouse系统性学习专栏
    付费
    22篇
  • Kafka系统性学习专栏
    付费
    20篇
  • Hbase系统性学习专栏
    付费
    20篇
  • Hive系统性学习专栏
    付费
    76篇
  • Flink系统性学习专栏
    付费
    256篇
  • Spark系统性学习专栏
    付费
    30篇
  • 大数据高阶训练营
    1篇

TA关注的专栏 23

TA关注的收藏夹 0

TA关注的社区 6

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoophivesparkflink
每天一篇高质量大数据文章
回复【资源】领取百G大数据资源!
回复【面试】获取大厂面试题!
回复【JAVAPDF】获取面试真题汇总!
  • SouthEast

扫描下方加我微信
  • SouthEast
创作活动更多

「谁说嵌入式只是调包和焊板子?」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”?2026嵌入式全栈技术征锋令正式启幕! 本次活动专为硬核硬件/软件开发者打造,无论你是刚玩转裸机外设的萌新,还是精通RTOS调度、死磕底层驱动的行业老手,亦或是执掌系统架构的大神,这里都是你证明实力的舞台! 拒绝表面功夫,每一行代码,都有撬动硬件的力量!晒出你的硬核工程实战,为嵌入式开发者的全栈硬实力正名!

210人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

Paimon生产环境高级问题小总结-续

这个问题出现在Dedicated Compaction任务中,通常是因为Paimon compact source的OperatorCoordinator向subtask发送split分配事件时,TaskManager在180s内没有响应(Akka Ask Timeout),导致事件丢失,触发failover。定位这个问题直接看日志和监控,通常的表现是GC频繁,compact source的并行度太高,此外需要增大akka的超时时间。降低 compact 提交频率,分离写入与 compact 任务。
原创
博文更新于 2026.05.27 ·
543 阅读 ·
8 点赞 ·
0 评论 ·
13 收藏

全体数据人做好随时涨薪的准备吧!

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!
转载
博文更新于 2026.05.22 ·
49 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Doris多模态能力深度解析:从技术架构到大厂落地实践

构建阶段:文档切片后,用 AI Function 进行实体抽取,实体间关系构成图的边(带权重),实体描述经向量化后存储构建索引。AI时代的 RAG、Agent、AI问数等新范式,对数据库提出了"一份数据,多种检索"的刚性需求-既要全文检索,又要语义向量搜索,还要传统SQL聚合分析。企业数据中,非结构化数据(文本、图像、音视频)的占比已超过 80%。
原创
博文更新于 2026.05.21 ·
603 阅读 ·
11 点赞 ·
0 评论 ·
15 收藏

智能问数(Text2SQL)工业级落地,纯AI黑盒方案都没戏

当结果可疑时,面对技术人员,还可以把 SQL 抛出来确认(虽然也很费劲),但 Text2SQL 的用户往往是看不懂 SQL 的业务人员,给了 SQL 也是白搭。类似的还有跨行组(环比、同比、累计、占比、排名等)这类复杂运算,可能涉及不同层次范围,生成 SQL 时还会用到繁琐且兼容性不好的窗口函数,直接在 NLQ 里处理,不仅用户描述不便,生成的难度也很高。,它可能与中间层实际逻辑不一致,用户确认了也只是确认了 AI 的描述,而不是确认了将要执行的逻辑,幻觉只是换了个位置,并没有被消除。
转载
博文更新于 2026.05.20 ·
46 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

全网首发|AI x Data x Agent 面试专题总结系列【5.2万字,11个模块】

本文整理了自2025年下半年以来,大数据提高班、知识星球、其他微信同学们面试过程中遇到的AI x Data x Agent等方向的AI相关面试题,涵盖RAG、Agent、向量数据库、框架、Skills、协议、生产工程、大模型微调、Promt Engineering、Data × AI融合等模块,共计100+道核心面试题。在AI Agent体系中的定位:向量数据库通常承载Agent的长期记忆(历史对话/经验)和知识库(RAG检索源),是Agent从"无状态对话"升级为"有记忆系统"的关键基础设施。
原创
博文更新于 2026.05.10 ·
675 阅读 ·
15 点赞 ·
0 评论 ·
6 收藏

明显感觉数据岗的面试已经完全变了!

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!还能结合业务场景,将需求转化为可落地的AI数据工程方案,从数据角度优化AI产品、推动项目。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。
转载
博文更新于 2026.05.09 ·
47 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

写在Apache Paimon1.4版本发布后|详解多模态数据湖的核心原理和设计

这6种能力是一个自上而下依赖关系的技术栈,总结一下就是:Row Tracking是最底层的基座,Data Evolution是上层所有演化的"控制面",Blob/Vector/Variant是数据面的三种模态载体,索引与PyPaimon则分别覆盖检索侧和消费侧。这个能力让埋点/事件日志这类"Schema不稳定"的json数据被拆成"Parquet列",查询的时候只查需要的列,不需要做json解析。Paimon多模态数据湖的能力并不是一个单点功能,上面的图是一个基本的依赖关系。
原创
博文更新于 2026.04.29 ·
652 阅读 ·
15 点赞 ·
0 评论 ·
20 收藏

Flink Agents一些前瞻学习解读

目前Flink Agents的Demo(如Flink作业智能运维)虽然概念上与Skills类似(利用LLM生成问题描述,检索SOP执行),但实现相对耦合。它接收事件,根据AgentPlan中的actions_by_event映射找到对应的Action,并创建具体的ActionTask来执行,负责协调调度。我们在很早的时候关注过Flink Agents这个项目,到2026年的今天,Flink Agents已经来到了0.3版本的前瞻。我们今天分享的是,截至目前Flink Agents的核心功能和未来计划。
原创
博文更新于 2026.04.25 ·
605 阅读 ·
12 点赞 ·
0 评论 ·
8 收藏

数据的行情跌到谷底了。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友陈硕入行5年,公司正好空出一个数据经理岗位,本想凭借之前积累的经验争取一下吧,结果却被新人“半路截胡”了!核心业务转AI方向,不了解大模型原理、应用技术、场景,毫无竞争能力……,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例。本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的!从薪资上看,同样的数据岗,AI方向薪资更高!
转载
博文更新于 2026.04.24 ·
55 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Data Agent全景扫描:从NL2SQL到自主数据智能体,这条路走到哪了?

Data Agent 的终极形态不是更好的 BI 工具,而是企业的"数据大脑"。火山引擎率先推出的 Data Agent 评测体系,代表了行业从"技术指标"向"业务价值"评测转型的方向。核心评测维度将从"SQL 准确率"扩展到"分析意图完成率"、"事实一致性"、"响应效率"等多维度。腾讯 2026 年犀牛鸟精英人才计划中,专门设置了"Data Agent 前沿技术研究"课题,核心方向就是 Multi-Agent 协作框架-模拟人类分析师团队完成任务规划、数据归因、洞察报告等全链路闭环。
原创
博文更新于 2026.04.18 ·
565 阅读 ·
8 点赞 ·
0 评论 ·
7 收藏

Agent + MCP + Skill:构建数仓全链路口径查询

2025年下半年开始,Agent + MCP(Model Context Protocol)+ Skill 的组合逐渐成熟,让我们看到了一种全新的可能:把数仓的口径查询能力,从"人工服务"变成"Agent 自助服务"。它不是一个简单的"查字典"操作,而是一个涉及多数据源、多系统、多步推理的链路。回到开头,Agent + MCP + Skill 这套方案的核心价值,是把数仓团队多年积累的口径知识,散落在代码、文档、人脑中的隐性知识封装成一套可被Agent调用的标准化服务。这是 RAG 在数仓场景的典型应用。
原创
博文更新于 2026.04.10 ·
689 阅读 ·
7 点赞 ·
0 评论 ·
22 收藏

Daft + Ray + Lance:构建下一代多模态数据流水线实践

在 Daft + Ray + Lance 这套栈中,Ray 的角色是分布式调度后端——它不直接处理数据逻辑,而是负责把 Daft 的 Worker 调度到集群的多台机器上。需要指出的是,这个 Benchmark 来自 Daft 官方,Anyscale(Ray 的商业化公司)也做过自己的对比测试,在某些场景下 Ray Data 会优于 Daft,尤其是在大规格实例(更多 CPU/GPU)上。做数据的朋友,最近两年应该都有一个共同的感受-你的数据 Pipeline 里,"正经"的结构化数据占比越来越少了。
原创
博文更新于 2026.04.04 ·
740 阅读 ·
12 点赞 ·
0 评论 ·
23 收藏

引入Copilot,AI时代的报表开发新范式

不过,这也有个坏处,就是要求输入的语句有一定规范性,不能过于随意,其实这对于程序员来讲并不是多大的负担,程序员本来就习惯了更为严格的程序代码,这个 Copilot 要求规范复杂度远远低于程序语言(以及报表原来那些公式),甚至低于 Excel 水平,程序员掌握起来并没有难度,而且,Copilot 还配有贴心的帮助功能,全程辅助用户精准输入指令。Copilot 的每一步输出都是确定的,它根据规则生成的执行命令是清晰的,如果遇到听不懂的指令,它会提示“无法识别”,而不会像 LLM 编造一个似是而非的结果;
转载
博文更新于 2026.03.18 ·
97 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2026年的Redis-AI能力史诗级增强!

语义缓存的做法是:把用户的 query 转成向量,在缓存中找语义最接近的历史 query,如果相似度超过阈值,直接返回缓存的 LLM 响应。不是和 Milvus、Pinecone 争"最强向量数据库"的位置,而是打"一站式"的牌—你的缓存、向量、会话、特征,都可以放在同一个 Redis 里管理,减少架构复杂度。Redis 在其中承担的是向量存储和检索层的角色。这个模块的设计理念是"数据在哪里,计算就在哪里"——既然特征数据已经在 Redis 里了,不如直接在 Redis 内部完成推理,省去数据搬运的开销。
原创
博文更新于 2026.03.17 ·
529 阅读 ·
10 点赞 ·
0 评论 ·
4 收藏

一个极简的AI Agentic Engineering技术栈学习路线

Anthropic的开发者们定义了这样一套和大模型交互的标准,但是这套标准争议很大,我个人的看法是:无论MCP还是Skill,大概率都是AI发展中的中间产物。这部分在使用Trae这样的工具的时候,不同的工具提供了不同的开发方式,例如Trae的SOLO Code、SOLO Build模式等,他们分别适用不同的场景,这个需要自己多多体验。但是客观的说,Sping AI更适合后端的微服务架构,更适合做大规模的生产服务,所以如果你有Java基础,可以直接从Spring AI开始学习。另外尽量节省token消耗。
原创
博文更新于 2026.03.14 ·
345 阅读 ·
6 点赞 ·
0 评论 ·
8 收藏

Arthas Agent诊断利器来袭,从命令行到自然语言的跨越。

这款由阿里巴巴开源的Java诊断神器,在GitHub上斩获了37,000+Star,是无数Java程序员的线上排障必备工具。Arthas Agent将AI的自然语言理解能力与Arthas强大的诊断能力相结合,让Java应用诊断变得前所未有的简单。Agent 自动执行 thread -n 3,获取 CPU Top 3 线程,分析堆栈,给出诊断结论。截至2025年底,Arthas已迭代至4.x版本,最新版本带来了多项重磅更新:。理解自然语言:将你的诊断需求翻译成安全、精确的 Arthas 命令。
原创
博文更新于 2026.03.13 ·
439 阅读 ·
8 点赞 ·
0 评论 ·
6 收藏

AI大模型相关数据类岗位技术面试重点。

这些部门和公司因为没有「技术债」,没有历史包袱,所以更加期望直接使用业内最前沿的技术方案,例如相当多的部门数据直接入湖,所以类似Hudi/Paimon类的框架掌握是基本要求。因为大模型所需要的数据多样,非标准数据占比高,多模态数据多,各种图片/视频/音频等所以需要用到大量的对象存储,例如云厂商OSS/COS等,开源的Minio/Ceph等。从技术上来讲,用到的技术栈和数仓方向没有显著的差异,但是需要一些大模型的基本知识,并且针对性的学习一些技术栈。主要是用来做数据的embedding,用来检索,召回;
原创
博文更新于 2026.03.10 ·
346 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

大数据核心框架更新周报|ClickHouse多版本齐发、Fluss0.9发布、Delta Lake引入Catalog管理表

表级查询超时是一个实用的运维能力补充,对于存在个别慢查询表的集群有直接价值。:一周发布 5 个版本,看起来密集,但实际上是 ClickHouse 多分支并行维护策略的常规节奏,主要内容是各分支的安全补丁和 Bug 修复。Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向:Catalog 的角色正在从被动的"表在哪里"索引,转变为主动的表生命周期管理服务——负责提交协调、扫描规划、权限控制和跨表事务。
原创
博文更新于 2026.03.07 ·
573 阅读 ·
8 点赞 ·
0 评论 ·
7 收藏

所有大数据人,今年的新方向,彻底赢麻了!!

讲解复杂技术的同时,还拥有非常丰厚的产品商业化经验,了解诸多行业内幕!只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!既懂数据、又了解AI业务的数据人,势必是未来更抢手个和更具竞争力的AI数据人才!25年AI产品全面爆发!,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。
转载
博文更新于 2026.03.06 ·
79 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【AI驱动的学习策略】AI时代的学习思路和方式已经发生了根本性的改变。

这个过程就变成了,基于AI agent/SKILL构建/开发项目,把问题/解决方案/版本更新总结下来,这些总结反馈给新的AI agent/SKILL,让他的能力更上一层楼。现在有了AI的加成,你可以创建专属的SKILL,帮你把工作中遇到的问题,框架更新的内容整理成标准文档,这个文档可以投喂给你的另外的SKILL,让他的能力变得越来越强。很多同学包括我在内在接触/学习新的技能/框架的同时,会天然抗拒,因为接触到不懂的内容,而我的兴趣又不高,甚至是被动学习,从不懂到懂的过程是很痛苦的。
转载
博文更新于 2026.03.05 ·
99 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多