Kamille Bidan
码龄1年
求更新 关注
提问 私信
  • 博客:14,225
    14,225
    总访问量
  • 19
    原创
  • 51
    粉丝
  • 1
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2025-06-02
博客简介:

Sunnyrain_X的博客

查看详细资料
个人成就
  • 获得214次点赞
  • 内容获得1次评论
  • 获得255次收藏
  • 博客总排名63,612名
  • 原力等级
    原力等级
    2
    原力分
    160
    本月获得
    0
创作历程
  • 1篇
    2026年
  • 18篇
    2025年
成就勋章
TA的专栏
  • 数据采集与数据预处理
    1篇
  • 数据结构与算法
    5篇
  • 大数据导论
    13篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 2

创作活动更多

「谁说嵌入式只是调包和焊板子?」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”?2026嵌入式全栈技术征锋令正式启幕! 本次活动专为硬核硬件/软件开发者打造,无论你是刚玩转裸机外设的萌新,还是精通RTOS调度、死磕底层驱动的行业老手,亦或是执掌系统架构的大神,这里都是你证明实力的舞台! 拒绝表面功夫,每一行代码,都有撬动硬件的力量!晒出你的硬核工程实战,为嵌入式开发者的全栈硬实力正名!

212人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

数据采集与数据预处理 第01章 文本信息提取

本文介绍了文本数据提取的实现方法,主要包括Word和PDF转TXT格式的技术方案。对于Word文档,使用Pywin32库通过Windows API实现自动化操作;对于PDF文档,采用pymupdf库进行内容读取。两种方法均涉及文件路径处理、内容提取和保存等关键步骤,最终将不同格式文档统一转换为TXT文本,为后续数据分析和智能应用提供标准化数据源。文中提供了完整的Python代码示例,涵盖文件操作、格式转换等具体实现细节。
原创
博文更新于 2026.03.10 ·
47 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

单链表(1)-单链表尾插法

摘要:本文介绍了单链表的基本概念和C++实现。单链表由节点组成,每个节点包含数据和指向下个节点的指针。头节点用于简化操作,头指针指向链表的首个节点。文中详细讲解了一个带头节点的单链表类Clink的实现,包括构造函数、尾插法插入节点等核心功能。代码示例展示了如何使用尾插法在链表末尾添加新节点,通过遍历找到尾节点后插入。文章还涉及C++命名空间std的使用及其潜在风险。链表通过动态内存分配实现,但示例中未完成内存释放的析构函数实现。
原创
博文更新于 2025.11.19 ·
1075 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

双指针解决元素逆序问题

这段C++代码演示了使用双指针技术逆序字符串的实现方法。通过定义指向字符串首尾的指针p和q,代码在while循环中交换指针所指元素,同时向中间移动指针,直到p≥q时完成逆序。核心算法时间复杂度为O(n),空间复杂度为O(1),展示了指针操作、内存解引用和双指针技术的典型应用。代码还包含了对边界情况的处理建议,并比较了其他逆序方法(如数组下标和标准库函数)。这种实现方式在字符串处理、回文判断等场景具有实际应用价值,也是算法面试中的常见考察点。
原创
博文更新于 2025.11.18 ·
607 阅读 ·
7 点赞 ·
0 评论 ·
30 收藏

数组(2)——数组操作详细解析

本文详细介绍了数组的基本操作及其实现原理,包括元素添加(尾部添加push_back和指定位置插入insert)、元素删除(尾部删除pop_back和指定位置删除erase)、查找操作(线性查找find),并分析了内存布局和CPU执行过程。重点说明了容量检查、扩容策略(2倍扩容)、元素移动方式等关键实现细节,并对各项操作的时间复杂度进行了总结。数组适合频繁随机访问和尾部操作的场景,但不适合频繁中间插入删除或大小剧烈变化的场景。文章通过具体示例演示了每个操作的执行步骤和最终状态变化。
原创
博文更新于 2025.11.16 ·
803 阅读 ·
17 点赞 ·
0 评论 ·
15 收藏

数组(1)

/ 指向可扩容的数组内存int mCap;// 数组的容量int mCur;// 数组有效元素个数封装:将数据和操作封装在类中动态内存mpArr指向堆上分配的内存三要素:容量、当前大小、数据指针是动态数组的核心动态数组原理:在堆上分配内存,可以动态调整大小扩容策略:通常以2倍扩容,平衡时间和空间效率时间复杂度随机访问:O(1)插入删除:平均O(n)尾部操作:分摊O(1)内存管理:手动管理堆内存,注意避免内存泄漏边界检查:防止数组越界访问RAII原则。
原创
博文更新于 2025.11.16 ·
333 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

数据结构与算法的宏观了解-数据结构基本概念:算法时间空间复杂度

程序设计是计算机处理问题的核心过程,涉及问题抽象、数据建模和算法设计。数据作为程序处理对象,可分为数值和非数值数据,其组织方式包括逻辑结构(如二元组)和存储结构(顺序/链式)。抽象数据类型(ADT)通过封装数据与操作实现问题抽象。算法需满足有穷性、确定性等要求,其效率通过时间/空间复杂度衡量,常用O(n)表示法分析最好、最坏和平均情况。伪代码因其抽象性和易实现性成为算法描述的有效工具。
原创
博文更新于 2025.09.08 ·
530 阅读 ·
7 点赞 ·
0 评论 ·
15 收藏

电商商品数据统计分析实验

本实验通过Python的pandas库对网页商品数据进行统计分析。实验内容主要包括:1)读取网页商品数据;2)按出版社和出版年份分组统计图书数量;3)将统计结果保存为CSV、JSON和Excel格式文件。实验过程演示了数据分组的操作方法,包括使用groupby()进行分组统计,以及结果输出的多种格式转换。该实验帮助理解描述性数据分析的基本流程,掌握数据统计的基本技能,为后续机器学习数据分析奠定基础。
原创
博文更新于 2025.06.29 ·
454 阅读 ·
10 点赞 ·
0 评论 ·
1 收藏

大数据导论复习(下)

摘要:本文介绍了四项大数据实践实验重点:1)网页数据采集与存储;2)词频统计MapReduce改造;3)使用pandas进行统计分析(计数、均值等);4)利用echarts实现数据可视化(直方图、饼图等)。每项实验均强调代码理解与实际操作,对应CSDN博客中的电商数据处理案例,包括网页商品采集、文本存储及多维度分析可视化实践。(149字)
原创
博文更新于 2025.06.27 ·
328 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

电商商品数据可视化实验

本实验旨在掌握数据可视化技术,特别是基于电商数据的可视化应用。实验通过HBuilderX工具创建网页项目,使用Echarts库实现商品销售数据的图表展示。实验中编写HTML页面,包含柱状图可视化代码,展示衬衫、羊毛衫等六类商品的销售量数据,并设置图表标题、坐标轴等元素。实验要求完成操作并验证可视化结果,帮助理解数据可视化的基本流程和实际应用。
原创
博文更新于 2025.06.23 ·
373 阅读 ·
7 点赞 ·
0 评论 ·
4 收藏

电商商品数据处理实验

摘要:本实验通过VMware虚拟机搭建大数据处理环境,使用MapReduce框架从网页商品数据中提取关键信息。主要步骤包括:1)安装VMware虚拟机软件;2)加载大数据系统;3)启动Hadoop集群服务;4)提交Python脚本执行MapReduce任务;5)验证提取结果。实验旨在帮助学生理解大数据存储管理方式及其操作命令,掌握分布式计算框架的实际应用。实验环境为Windows10系统下的VMware Workstation 15.5.1。
原创
博文更新于 2025.06.19 ·
463 阅读 ·
4 点赞 ·
0 评论 ·
4 收藏

大数据导论复习重点(上)

一、复习重点。
原创
博文更新于 2025.06.19 ·
1005 阅读 ·
10 点赞 ·
0 评论 ·
17 收藏

08 大数据可视化

本文概述了数据可视化的概念、发展历史和作用,介绍了数据可视化的视觉要素、常见图表类型和基本流程。文章详细列举了编程类(如Python、R、JavaScript相关库)和其他类型(商业工具、在线工具等)的可数据可视化工具及其特性。最后通过HBuilderX和Echarts等工具案例,展示了数据可视化的实际应用,并提供学习建议。全文系统性地介绍了数据可视化的理论基础、技术实现和实用工具。
原创
博文更新于 2025.06.16 ·
877 阅读 ·
27 点赞 ·
0 评论 ·
24 收藏

06 大数据计算框架

本文摘要:文章系统介绍了大数据计算框架,包括单机计算资源受限等缺陷,以及分布式计算的复杂性等挑战。重点分析了四大主流框架:MapReduce(吞吐量大)、Spark(速度快)、Flink(实时性强)、Storm(延迟低)的特点。详细阐述了MapReduce的Map和Reduce两阶段处理机制及其与HDFS的协同关系,并通过词频统计案例说明执行流程。最后提出9个关键问题,涵盖计算模式对比、框架差异及MapReduce工作原理等要点。
原创
博文更新于 2025.06.13 ·
784 阅读 ·
11 点赞 ·
0 评论 ·
30 收藏

05 大数据存储与管理

1. 数据存储与管理主要完成的任务是什么?2. 数据存储与管理有哪些方式?3. 关系型数据库的存储与管理基本逻辑?4. 关系型数据库的典型代表?5. 非关系型数据库的存储与管理基本逻辑?6. 非关系型数据库的典型代表?7. 分布式文件系统的存储与管理基本逻辑?8. 分布式文件系统的典型代表?
原创
博文更新于 2025.06.08 ·
722 阅读 ·
24 点赞 ·
0 评论 ·
29 收藏

04-1 完成网站商品数据采集,提取关键信息并写入文本文档

本文介绍了采集当当网Python程序设计类图书数据的爬虫实现步骤:1. 通过开发者工具分析页面结构,定位商品列表所在的<ul>标签及单个商品<li>标签;2. 观察分页机制,测试URL规律;3. 编写Python爬虫,使用urllib发送请求并添加User-Agent反爬;4. 通过正则表达式提取商品<li>标签内容;5. 将提取的60条商品数据以UTF-8编码写入books.txt文件。整个过程包含页面分析、请求模拟、数据解析和存储环节,重点解决了GBK编码和解码问题。
原创
博文更新于 2025.06.06 ·
1658 阅读 ·
15 点赞 ·
0 评论 ·
13 收藏

04 大数据采集与清洗

本文系统介绍了大数据处理的五个关键环节:数据来源、采集方法、采集工具、清洗方法和清洗工具。数据来源包括测量数据、人工录入数据和计算机生成数据;采集方法涵盖网页采集和网络爬虫等技术;主流采集工具有Scribe、Chukwa和Flume等。在数据清洗方面,文章阐述了完整性、准确性等质量标准和缺失值处理、异常值识别等方法,并推荐了DataWrangler、GoogleRefine和R语言等清洗工具。全文构建了从数据获取到预处理的全流程技术框架,为大数据分析提供了方法论指导。
原创
博文更新于 2025.06.06 ·
1646 阅读 ·
21 点赞 ·
0 评论 ·
19 收藏

03 大数据应用开发流程及岗位介绍

本文系统介绍了大数据应用开发的完整流程,包括数据采集、清洗、统计分析、导出和可视化五大环节,重点阐述了日志分析项目的实施过程。项目通过Hadoop、Hive等技术栈处理Web服务器日志,最终以可视化图表形式展示网站运行状况。文章还剖析了大数据部门的典型架构(平台组、数据仓库组等)及岗位需求,为从业者提供了从技术实施到组织架构的全面认知框架,涵盖大数据应用开发的核心要素和实践场景。
原创
博文更新于 2025.06.04 ·
958 阅读 ·
5 点赞 ·
0 评论 ·
14 收藏

02 大数据技术基础

1. 操作系统在大数据领域扮演什么角色?2. 大数据领域首选什么操作系统?3. 在本地电脑学习Linux需要安装哪些软件?4. 什么是编程语言?有哪些类型?5. 大数据领域比较关键的语言有哪些?6. 数据库的作用是什么?7. 数据库系统包含哪些关键组件?8. 数据库有哪些类型?9. 什么是算法?10. 大数据时代算法的重点是什么?11. 大数据系统的作用是什么?12. Hadoop提供什么功能?13. Spark提供什么功能?
原创
博文更新于 2025.06.03 ·
804 阅读 ·
8 点赞 ·
0 评论 ·
12 收藏

01 大数据与大数据时代

本文系统介绍了大数据的相关知识体系。首先阐明数据的概念与类型,指出90%以上数据为非结构化。其次解析大数据的定义与特征(体量大、速度快、多样性强、价值密度低),并探讨其对思维模式的改变。接着分析大数据处理流程(采集、管理、分析、可视化)及面临的技术挑战,强调近似处理等计算特性。同时说明硬件性价比提升和分布式处理技术进步推动大数据发展。最后介绍2015年《关于促进大数据发展的行动纲要》将大数据上升为国家战略。全文通过12个思考题系统梳理了大数据从概念到应用的关键知识点。
原创
博文更新于 2025.06.02 ·
758 阅读 ·
25 点赞 ·
1 评论 ·
5 收藏
加载更多