关于网站数据挖掘的方向或者实战内容有哪些好的网站、博客或者书籍等资料? - 知乎...

本文探讨了网站数据挖掘的方向及实战资源,包括文本挖掘、自然语言处理、主题发现、用户行为分析等领域,推荐了多个实用的网站、博客、书籍及工具,如scikit-learn、Natural Language Toolkit、Gensim等。

关于网站数据挖掘的方向或者实战内容有哪些好的网站、博客或者书籍等资料? - 知乎

如果是要对网站上的文字进行挖掘分析的话,其实可以归类为文本挖掘相关问题。聚类、分类、找主题啊啥的,这个方面所使用的方法和传统数据挖掘机器学习的方法没有差别,请参考右侧相关问题中的问题答案或者看一下我回答过的关于数据挖掘教材的答案。要说文本挖掘与数据挖掘的区别,就是前期需要对进行文本特征抽取,推荐你看一下  scikit-learn.org/stable ,有代码,照着运行一下就能有个大概感受。其他具体任务的例子,比如  scikit-learn.org/stable 和  scikit-learn.org/stable 都是不错的例子。
如果要深入进入进入自然语言处理方面的话,推荐  Natural Language Toolkit。如果要进行主题发现的话,推荐  Gensim – Topic Modelling for Humans

如果是网站日志挖掘啥的,用的方法也是数据挖掘方法,我的其他回答中也涉及到了。

如果是用户行为分析的话,可以考虑非常古老的通常是没有啥用的关联规则挖掘,和最近非常时髦的推荐系统。中间的领域其实也都能转化成现有的机器学习问题,这个要说起来就没完没了了,你问题中也没说太详细,所以也没法针对性的回答。

真的觉得写的挺泛的,没啥针对性,赶紧折叠我吧!
posted on 2013-02-07 21:45  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2013/02/07/2909002.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值