Data mining related
文章平均质量分 53
chenwq1988
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
帕累托分布
19世纪末期,意大利经济学家维弗雷多·帕累托认为,贫与富的存在,既是经济问题,也有政治原因。 帕累托在研究英国人的收入分配问题时发现,绝大部分社会财富最终总会流向少数人群;他还发现,某一部分人口占总人口的比例,与这一部分人所拥有的财富的份额具有比较确定的计量经济关系;进一步的研究证实,这种不平衡模式可以重复出现,甚至可以预测。经济学把这一社会财富的分布状态,称为“帕累托分布”。 帕...原创 2011-10-14 10:14:53 · 1683 阅读 · 0 评论 -
POS Tagger in Java
LingPipeStanfordLBJFastTagOther java implementations include:MontyLinguaBerkeley Parser (Not really a POS tagger but all full blown parsers will typically include POS taggers. Google f...2011-11-23 10:24:23 · 168 阅读 · 0 评论 -
10-fold cross-validation 十折交叉验证 .
10-fold cross-validation 就是十折交叉验证,用来测试精度是常用的精度测试方法将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。 ...原创 2011-11-24 19:48:26 · 2508 阅读 · 0 评论 -
F1-Measure
F1-Measurea是一个评价指标,经常在信息检索和自然语言处理中使用。 F1-Measure是根据准确率Precision和召回率Recall二者给出的一个综合的评价指标,具体定义如下: F1 = 2rp / ( r +p ) 其中r为recall,p为precision. 参考:http://people.csail.mit.edu/jrenn...原创 2011-11-24 20:13:06 · 250 阅读 · 0 评论 -
K最近邻(KNN)算法原理和java实现
原理部分:请参考:KNN演算法 代码实现: KNN结点类,用来存储最近邻的k个元组相关的信息/** * KNN结点类,用来存储最近邻的k个元组相关的信息 */public class KNNNode { private int index; // 元组标号 private double distance; // 与测试元组的距离 pri...原创 2011-11-25 22:07:58 · 499 阅读 · 0 评论 -
paper report《Finding high-quality content in social media》
1、我讲得太搓了,理解的不够深入,不知道哪里这paper的优点缺点是哪些... 2、paper分段内容之间怎么衔接的也不大清楚... 3、表示不适合搞科研......2011-11-26 21:05:27 · 174 阅读 · 0 评论 -
朴素贝叶斯分类器算法
算法部分参考:基于朴素贝叶斯分类器的文本分类算法(上) Java代码实现参考:数据挖掘贝叶斯(Bayes)算法java实现原创 2011-11-28 11:53:00 · 204 阅读 · 0 评论 -
研究生能力培养手册
1. 如果平时几乎没看过英文原文,读不懂怎么办? 其实我以前也根本没读过原文,也看不懂。这儿有个好办法:找一本中文经典的书籍,仅看某一节你感兴趣或与你相关的内容,然后先找一两篇英文的综述(review)认真阅读一下,不会的单词可用金山词霸查一查,也许你读第一篇文章需要花两天,你过两天再读第2遍时,你也许只要一天;然后你再读第2篇时也许你只要半天!然后你一定会真正发现读英文文献的快感...原创 2012-06-10 21:00:02 · 195 阅读 · 0 评论 -
[转]学术论文的标准格式是什么?写论文有哪些小技巧
我有一篇谈研究生开题报告的文章,你可以参考下: 刚开始不清楚方向和研究目标是重要的,所以需要的只是大量的阅读和资料文献的收集和消化。从阅读和理解的过程中来找寻关键的研究方向,论文本身就是为了解决问题,因此研究方向一定是问题驱动的,而问题本身又可能是在不断的阅读和分析比较中产生出来的。阅读和分析过程本身也是深入学习的过程。 在阅读的过程中需要对业界的标准研究方...原创 2012-02-08 21:45:29 · 639 阅读 · 0 评论 -
book reading plan
Mining of Massive Datasets 机器学习2012-02-09 15:50:09 · 165 阅读 · 0 评论 -
分类器的动态选择
XMU DM一师兄写的动态集成分类器的选择,内容挺新颖的,而且实用!http://59.77.16.75/main/~qc/libDSCCBC.htm2012-02-18 17:15:20 · 773 阅读 · 0 评论 -
数据挖掘数据集
收集数据挖掘过程中用到的数据集。欢迎补充! TREC UC Irvine Machine Learning Repository2012-02-18 17:35:41 · 298 阅读 · 0 评论 -
Hadoop Browse the filesystem无法访问
问题如题.解决方法:修改/windows/system32/driver/etc/host添加,比如如下:192.168.1.100 master192.168.1.101 slave01192.168.1.102 slave02192.168.1.103 slave032012-02-23 22:17:31 · 212 阅读 · 0 评论 -
Porter Stemming
摘要:在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 先记下,以后用到研究。 iPie 残阳似血的博客 ...原创 2012-02-29 10:57:15 · 869 阅读 · 0 评论 -
EM算法小结
描述EM是一种基于模型的聚类算法,假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上个参数获得。 混合模型的定义是几个模型的线性加和,也就是说给每一个模型加上一个权重,几个模型都乘以一个权重数,权重的和是1。因此上述高斯混合模型就是多个高斯模型的加和,并给每一个模型...2012-07-20 12:16:38 · 348 阅读 · 0 评论 -
LDA(线性判别分析)&PCA(主成分分析)
推荐解释得非常好的两篇博文 http://blog.csdn.net/warmyellow/article/details/5454943 http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html原创 2012-03-23 21:16:06 · 159 阅读 · 0 评论 -
PageRank&HITS算法
HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。 其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。 HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权...2011-11-20 15:09:54 · 364 阅读 · 0 评论 -
[转]中科院分词工具ICTCLAS Java JNI接口
ICTCLAS,网址:http://www.ictclas.org中科院计算所ICTCLAS 5.0ICTCLAS的含义是:Institute of Computing Technology, Chinese Lexical Analysis System(中科院)计算技术研究所,中文词法分析系统开源版本下载:http://www.ictclas.org/ictc...原创 2012-06-04 15:07:36 · 507 阅读 · 0 评论 -
正则表达式学习资源
不懂正则表达式,怎么好意思说是玩文本挖掘的? 下面给出一些正则表达式的学习资源,希望一起补充、交流、学习 1、正则表达式30分钟入门教程 入门教程,涵盖了正则表达式的知识点,有理论,有示例,以及正则表达式测试工具 2、http://www.regular-expressions.info/ 3、More......原创 2012-05-30 11:37:15 · 154 阅读 · 0 评论 -
学习笔记——正态分布
1、很多自然现象近似地服从正态分布,虽然根本原因经常是未知的,但是理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布。2、说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。3、正态分布的概率密度函数均值为μ 方差为σ2 (或标准差σ)是高斯函数的一个实例 4、如果一个随机变量X服从这个分布,我们写作 X...2011-10-25 17:14:15 · 667 阅读 · 0 评论 -
Spearman Rank Correlation
Spearman's rank correlation coefficient 2. 斯皮尔曼等级相关原创 2011-10-31 22:02:34 · 358 阅读 · 0 评论 -
聚类与分类区别
分类(classification ):找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给...2011-12-12 11:26:24 · 821 阅读 · 0 评论 -
个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到 同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖...原创 2011-12-13 21:11:20 · 899 阅读 · 0 评论 -
How To Write an Academic Paper in Text Mining
摘要:关于发表文本挖掘Paper的几点建议 I'm completing a set of reviews for a reasonably high quality conference that touches on data mining and text mining problems. Perhaps the industrial setting has jaded me ...2011-12-13 22:16:45 · 447 阅读 · 0 评论 -
克服长尾挑战 (Overcoming the Long Tail Challenge)
意义:数据挖掘中的用户行为数据也遵循着幂律分布 1. 幂律分布无处不在 自然和社会中,许多事物的特征,其发生频率遵循幂律分布(power law distribution)。幂律分布的密度函数是如图所示的幂函数。幂律分布的特点是,20%的高频特征的频率大约占整体的80%,称为头部(head,图中浅绿色部分);另一方面...原创 2011-12-14 13:02:54 · 482 阅读 · 0 评论 -
淘宝海量数据库——Oceanbase
OceanBase 是淘宝研发的一套分布式 NoSQL 数据库系统。 OceanBase是一个支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务,由淘宝核心系统研发部、运维、DBA、广告、应用研发等部门共同完成。 参考材料可以看: 李震老师(花名楚材)的《Ocean...原创 2011-12-14 22:45:40 · 529 阅读 · 0 评论 -
多标记(multi-label)学习和Mulan
概念澄清: 传统的单标签分类(中国也有翻译成单标记,不过我个人认为还是应该翻译成一个名词)学习是从一个只属于一个标签l的样本集合中学习,其中每一个标签属于一个互斥的标签集合L,|L| > 1。在多标签分类中,每个样本属于一个L样本集合的一个子集。 多标记: 在过去,多标签分类由文本分类和医学分析而产生和推动的。现在,我们发现现代的许多应用...2011-12-21 20:33:00 · 969 阅读 · 0 评论 -
一淘背后的数据野心
摘要:马云你能创造奇迹吗?如果把阿里系所掌握的所有数据,再配以先进的数据挖掘技术,阿里巴巴将从一个B2B、B2C、C2C交易平台变身成为一家超级商业智能(BI)企业 谁对中国20-40岁女性的身材(三围)最了解?这个人不是别人,而是阿里巴巴的老大马云——他只要下个命令,让数据挖掘工程师把淘宝某段时间内20-40岁女性购买相关商品的数据汇总,再做个简单的挖掘,答案就放...原创 2012-01-05 23:11:47 · 206 阅读 · 0 评论 -
基于密度的局部离群点检测
算法:基于密度的局部离群点检测(lof算法)输入:样本集合D,正整数K(用于计算第K距离)输出:各样本点的局部离群点因子过程:计算每个对象与其他对象的欧几里得距离对欧几里得距离进行排序,计算第k距离以及第K领域计算每个对象的可达密度计算每个对象的局部离群点因子对每个点的局部离群点因子进行排序,输出。Node.java:import...原创 2012-04-24 16:49:58 · 1523 阅读 · 0 评论 -
Bloom filter
Bloom filter的优点: 大小固定,增加更多元素到一个Bloom filter不会增加它的大小,仅增加误报的概率冲突概率低,为了降低冲突概率,Bloom filter引入多个Hash函数,其误报率可近似为:1-exp(-kn/m)Java实现:import java.util.BitSet;public class BloomFilter { /* ...2012-04-24 21:08:36 · 163 阅读 · 0 评论 -
Weka分析结果参数解释
Kappa Statistic假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0;Mean Absolute Error是N次实验绝对误差的均值.绝对误差就是预测值与实际值之差的绝对值.比如某实例的预测值就是它的正确分类标签,而实际值就是classifier指定给它的分类标签...Root Mean Squared Error即均方...2012-01-17 17:20:02 · 2089 阅读 · 0 评论 -
Rapid-I, 一个JAVA的数据挖掘开源平台
当前主要使用的weka3.6,Hadoop的MapReduce和Mahout还不大熟悉。而Rapid-i集成了weka里面的lib,估计会更加强大。但是复杂,光tutorial就又有vedio又有document的。 查看图片...2012-01-30 18:29:26 · 198 阅读 · 0 评论 -
再往前一步,学会更专业地看待问题,尝试去解决问题。
在科研工作中,有一个很基本的技能,就是对自己和别人的工作进行评估(review):分析该项工作的长处、不足和改进方案。事实上,整个科学研究都建立在这种评估的体系中。严肃的科学杂志,顶级的国际科研会议,都会对投稿的文章进行严格的评估。 在研究生或者博士生的某些课程中,老师会要求学生对已经发表的论文进行评估,并且重点说出这些论文的问题。最开始的时候,一般学生很难发现这些论文的不足之处,因为...原创 2012-05-22 14:11:27 · 216 阅读 · 0 评论 -
基于向量空间模型的文本聚类算法
1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容...原创 2012-05-29 18:26:17 · 265 阅读 · 0 评论 -
[转]非均衡数据集的分类问题
传统的机器学习分类研究大多基于如下假设:(1)分类以最大正确率为目标;(2)所有的分类错误会带来相同的错误代价;(3)数据集中的各类样本数目基本均衡,即各类所含的样本数大致相当。 显然,这三个假设在现实应用领域中很多时候是不成立的。很多类别并不均衡,数据集中某个类别的样本数可能会远多于其他类别;不同的分类错误往往会带来显著不同的损失。例如信用卡交易中的欺诈识别。非均衡数据集(Imbala...原创 2012-03-31 21:36:34 · 528 阅读 · 0 评论
分享