小曹小曹喜欢吃草-CSDN博客

小曹小曹喜欢吃草

码龄6年

23,464

总访问量
13

原创
4

粉丝
36

关注

IP 属地：浙江省

加入CSDN时间： 2020-01-12

查看详细资料

个人成就

获得8次点赞
内容获得3次评论
获得23次收藏
博客总排名1,950,881名

TA的专栏

TA关注的专栏 1

TA关注的收藏夹 0

TA关注的社区 2

TA参与的活动 0

创作活动更多

「谁说嵌入式只是调包和焊板子？」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”？2026嵌入式全栈技术征锋令正式启幕！本次活动专为硬核硬件/软件开发者打造，无论你是刚玩转裸机外设的萌新，还是精通RTOS调度、死磕底层驱动的行业老手，亦或是执掌系统架构的大神，这里都是你证明实力的舞台！拒绝表面功夫，每一行代码，都有撬动硬件的力量！晒出你的硬核工程实战，为嵌入式开发者的全栈硬实力正名！

213人参与去参加

更多

新闻推荐系统【DAY1】

赛题简介赛题以新闻APP中的新闻推荐为背景，要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为，即用户的最后一次点击的新闻文章，测试集对最后一次点击行为进行了剔除。赛题数据赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测

博文更新于 2022.04.25 ·

Task01逻辑回归&线性回归

逻辑回归&线性回归

博文更新于 2021.12.16 ·

有关SQL

SQL进阶及工作中常用SQL1.工作中常用sql排行2.工作中常用sql小技巧3.SQL进阶(这是重点)1.关于null值null值常见问题null值克星(重点): 1.工作中常用sql排行 ①group by(用来聚合也时常用来去重注意用groupby select 后要跟聚合字段) ②where(SQL计算之前进行过滤,对性能是极大的提高,代码测试阶段where条件下尽量跟分区) ③having(SQL计算之后进行过滤,它的使用会极大提升的代码的简洁性,同样它的功能十分强大) ④时间函数(时间与我们息息

博文更新于 2021.06.16 ·

基于统计学的方法.

1、概述异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该模型。根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率。该值越小，x越可能是异常点。非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方

博文更新于 2021.05.15 ·

异常类别与检测

什么是异常检测异常检测（Outlier Detection），顾名思义，是识别与正常数据不同的数据，与预期行为差异大的数据。识别如信用卡欺诈，工业生产异常，网络流里的异常（网络侵入）等问题，针对的是少数的事件。 1.1 异常的类别点异常（point anomalies）指的是少数个体实例是异常的，大多数个体实例是正常的，例如正常人与病人的健康指标；条件异常（conditional anomalies），又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的，例如在特定时间下的温度

博文更新于 2021.05.12 ·

Hive sql 易错点

rank()over()、dense_rank() over()、row_number() over()区别区别（1）rank() over()例子（2）dense_rank() over()例子（3）row_number() over()例子

博文更新于 2020.11.08 ·

Baseline

import pandas as pd import os import gc import lightgbm as lgb import xgboost as xgb from catboost import CatBoostRegressor from sklearn.linear_model import SGDRegressor,LinearRegression,Ridge from sklearn.preprocessing import MinMaxScaler import math impo

博文更新于 2020.10.11 ·

Task2 数据分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime import warnings warnings.filterwarnings('ignore') #在python中代码可以正常运行但是会提示警告，我们可以通过警告过滤器进行控制是否发出警告消息。 data_train=pd.read_csv('train.csv') data_test_

博文更新于 2020.10.06 ·

Task01：赛题理解

Task01：赛题理解本次新人赛是Datawhale与天池联合发起的金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。 1.1 学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡，熟悉比赛流程。 1.2 了解赛题 1.2.1赛题概况比赛要求参赛选手根据

博文更新于 2020.10.06 ·

Task4 建模与调参

此部分为零基础入门金融风控的 Task4 建模调参部分，带你来了解各种模型以及模型的评价和调参策略 4.1学习目标学习在金融风控领域常见的机器学习模型学习机器学习模型的建模任务与调参流程完成相应的学习打卡任务 4.2内容介绍逻辑回归模型理解逻辑回归模型；逻辑回归模型的应用；逻辑回归的优缺点；树模型理解树模型；树模型的应用；树模型的优缺点；集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型 XGBoost模型 Lig

博文更新于 2020.10.06 ·

TASK 3：特征工程

3.1学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务 3.2内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱（选做作业）特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试（选做作业）特征编码 one-hot编码 l

博文更新于 2020.10.05 ·

泰勒公式

https://www.matongxue.com/madocs/7

博文更新于 2020.10.03 ·

两个重要极限及其推导过程

一、证明：由上图可知，即二、证明：首先证明此极限存在构造数列而对于n+1 ...

博文更新于 2020.10.03 ·

14296 阅读 ·

补充学习内容（数据挖掘：理论与算法）

清华大学-数据挖掘：理论与算法（国家级精品课） B站地址https://www.bilibili.com/video/BV154411Q7mG?p=38 笔记地址https://blog.csdn.net/qq_43724306/article/details/104531299

博文更新于 2020.09.27 ·

Task5 模型融合

5.1学习目标将之前建模调参的结果进行模型融合。尝试多种融合方案，提交融合结果。（模型融合一般用于A榜比赛的尾声和B榜比赛的全程） 5.2内容介绍模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式。平均简单平均加权平均投票简单投票法加权投票法综合排序融合 log融合 stacking 构建多层模型 blen

博文更新于 2020.09.27 ·