人人都应该掌握的9种数据分析方法

人人都应该掌握的9种数据分析方法

说到数据分析,啤酒和尿布的例子咱们应该都听腻了。再详细、深化一些的内容,往往因为数学就令很多人望而却步了。下面就为大家分享9个不带数学推导的数据分析思路,希望能帮助大家。

1. 分类

分类分析:给一批人(或许物)分为几个类别,对他们属于每个类别的概率进行预测。

举例:“京东的用户中,有哪些会在618中下单?”这便是个典型的二分类问题:买or不买。

分类分析(依据历史信息)会产出一个模型,来猜测一个新的人(或物)会归于哪个类别,或许归于某个类别的概率。一般会有两种方式:

方式1:京东的一切用户中分为两类,要么会买,要么不会买。

方式2:每个用户有一个“会买”,或许“不会买”的概率(明显这两个是等效的)。“会买”的概率越大,咱们以为这个用户越有或许下单。

如果为方式2画一道线, 比方0.5,大于0.5是买,小于0.5是不买,方式2就转变成方式1了。

人人都应该掌握的9种数据分析方法

2. 回归

回归任务:给每个人(或物)依据一些特点变量来产出一个数字(来衡量他的好坏)。

举例:每个用户在618会为京东下单多少钱的?

回归和分类的区别在:分类产出的成果是固定的几个选项之一,而回归的成果是连续的数字,可能的取值是无限量的。

3. 聚类

聚类任务:给定一批人(或物),在不指定目标的前提下,看看哪些人(或物)之间更相似。

聚类和上面的分类和回归的本质区别:分类和回归都会有一个给定的目标(是否下单,借款是否违约,房子价格等等),聚类是没有给定目标的。

举例:给定一批用户的购买记录,或许可以分成几种类型?(零食狂魔,电子爱好者,美妆达人……)

4. 相似匹配

相似匹配:依据已知数据,判别哪些人(或物)跟特定的一个(一批)人(或物)更类似。

举例:已知一批在上一年双十一下单超过10000元的用户,哪些用户跟他们比较类似?

5. 频繁集发现

频繁集发现:找出经常一起出现的人(或物)。这便是大名鼎鼎的“啤酒和尿布”的例子了。这个例子太容易扩展,就不再举例子啦。

6. 统计(特点、行为、状态)描述

统计描述是最好理解的:具有哪些特点的人(或物)在什么状态下做什么什么事情。

举例:5月份一个月内每个用户在京东7天内无条件退货的次数

统计描述可用于用户欺诈检测,试想一个用户一个月退货100+次,这会是一种什么情况?

7. 连接预测

连接预测的目标是:预测本应该有联系(暂时还没有)的人(或物)。

举例:你或许认识xxx?你或许想看xxx?

8. 数据压缩

数据压缩的目标是:减少数据集规模,增加信息密度。

举例:豆瓣想分析用户关于国外电影的喜爱,讲国内电影的评分数据都排除。

大数据,也不是数据越多越好,数据多带来的信息多,随之而来的噪声也会变多。

9. 因果分析

顾名思义,因果分析的目标是:找出事物间相互影响的关系。

举例:广告的作用提升的原因是广告内容好?仍是投放到了更精准的用户?

这里最常见的手段便是A/B test啦

数据分析是十分强大的,当然也是需要在详细的情形下,严格的选择假设,选用科学的分析方法才能产出有价值的成果。

分享扩散:

改版

反馈