肥宅钓鱼网
当前位置: 首页 钓鱼百科

从零进阶数据分析师的统计基础(做数据分析应当了解的五个统计基本概念)

时间:2023-08-21 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

做数据分析应当了解的五个统计基本概念文章原标题《The5BasicStatisticsConceptsDataScientistsNeedtoKnow》作者:GeorgeSeif译者:奥特曼转载:网络大数据(raincent_com)本。

文章原标题《The 5 Basic Statistics Concepts Data Scientists Need to Know》

作者:George Seif

译者:奥特曼

转载:网络大数据(raincent_com)

本文讲述了数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计。

从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。

利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构,如何能够以最佳的形式来应用其它相关的技术以获取更多的信息。今天,我们来看看数据科学家需要掌握的5个基本的统计学概念,以及如何有效地进行应用。

特征统计

特征统计可能是数据科学中最常用的统计学概念。它是你在研究数据集时经常使用的统计技术,包括偏差、方差、平均值、中位数、百分数等等。理解特征统计并且在代码中实现都是非常容易的。请看下图:

上图中,中间的直线表示数据的中位数。中位数用在平均值上,因为它对异常值更具有鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第三个四分位数是第七十五百分位数,即数据中的75%要低于该值。而最大值和最小值表示该数据范围的上下两端。

箱形图很好地说明了基本统计特征的作用:

  • 当箱形图很短时,就意味着很多数据点是相似的,因为很多值是在一个很小的范围内分布;
  • 当箱形图较高时,就意味着大部分的数据点之间的差异很大,因为这些值分布的很广;
  • 如果中位数接近了底部,那么大部分的数据具有较低的值。如果中位数比较接近顶部,那么大多数的数据具有更高的值。基本上,如果中位线不在框的中间,那么就表明了是偏斜数据;
  • 如果框上下两边的线很长表示数据具有很高的标准偏差和方差,意味着这些值被分散了,并且变化非常大。如果在框的一边有长线,另一边的不长,那么数据可能只在一个方向上变化很大;

概率分布

我们可以将概率定义为一些事件将要发生的可能性大小,以百分数来表示。在数据科学领域中,这通常被量化到0到1的区间范围内,其中0表示事件确定不会发生,而1表示事件确定会发生。那么,概率分布就是表示所有可能值出现的几率的函数。请看下图:

常见的概率分布,均匀分布(上)、正态分布(中间)、泊松分布(下):

  • 均匀分布是其中最基本的概率分布方式。它有一个只出现在一定范围内的值,而在该范围之外的都是0。我们也可以把它考虑为是一个具有两个分类的变量:0或另一个值。分类变量可能具有除0之外的多个值,但我们仍然可以将其可视化为多个均匀分布的分段函数;
  • 正态分布,通常也称为高斯分布,具体是由它的平均值和标准偏差来定义的。平均值是在空间上来回变化位置进行分布的,而标准偏差控制着它的分布扩散范围。与其它的分布方式的主要区别在于,在所有方向上标准偏差是相同的。因此,通过高斯分布,我们知道数据集的平均值以及数据的扩散分布,即它在比较广的范围上扩展,还是主要围绕在少数几个值附近集中分布。
  • 泊松分布与正态分布相似,但存在偏斜率。象正态分布一样,在偏斜度值较低的情况下,泊松分布在各个方向上具有相对均匀的扩散。但是,当偏斜度值非常大的时候,我们的数据在不同方向上的扩散将会是不同的。在一个方向上,数据的扩散程度非常高,而在另一个方向上,扩散的程度则非常低。

如果遇到一个高斯分布,那么我们知道有很多算法,在默认情况下高思分布将会被执行地很好,因此首先应该找到那些算法。如果是泊松分布,我们必须要特别谨慎,选择一个在空间扩展上对变化要有很好鲁棒性的算法。

降维

降维这个术语可以很直观的理解,意思是降低一个数据集的维数。在数据科学中,这是特征变量的数量。请看下图:

上图中的立方体表示我们的数据集,它有3个维度,总共1000个点。以现在的计算能力,计算1000个点很容易,但如果更大的规模,就会遇到麻烦了。然而,仅仅从二维的角度来看我们的数据,比如从立方体一侧的角度,可以看到划分所有的颜色是很容易的。通过降维,我们将3D数据展现到2D平面上,这有效地把我们需要计算的点的数量减少到100个,大大节省了计算量。

另一种方式是我们可以通过特征剪枝来减少维数。利用这种方法,我们删除任何所看到的特征对分析都不重要。例如,在研究数据集之后,我们可能会发现,在10个特征中,有7个特征与输出具有很高的相关性,而其它3个则具有非常低的相关性。那么,这3个低相关性的特征可能不值得计算,我们可能只是能在不影响输出的情况下将它们从分析中去掉。

用于降维的最常见的统计技术是PCA,它本质上创建了特征的向量表示,表明了它们对输出的重要性,即相关性。PCA可以用来进行上述两种降维方式的操作。

过采样和欠采样

过采样和欠采样是用于分类问题的技术。例如,我们有1种分类的2000个样本,但第2种分类只有200个样本。这将抛开我们尝试和使用的许多机器学习技术来给数据建模并进行预测。那么,过采样和欠采样可以应对这种情况。请看下图:

在上面图中的左右两侧,蓝色分类比橙色分类有更多的样本。在这种情况下,我们有2个预处理选择,可以帮助机器学习模型进行训练。

欠采样意味着我们将只从样本多的分类中选择一些数据,而尽量多的使用样本少的分类样本。这种选择应该是为了保持分类的概率分布。我们只是通过更少的抽样来让数据集更均衡。

过采样意味着我们将要创建少数分类的副本,以便具有与多数分类相同的样本数量。副本将被制作成保持少数分类的分布。我们只是在没有获得更多数据的情况下让数据集更加均衡。

贝叶斯统计

完全理解为什么在我们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。大多数人在听到“概率”这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的概率,明确地说,我们唯一计算的数据是先验数据(prior data)。

假设我给了你一个骰子,问你掷出6点的几率是多少,大多数人都会说是六分之一。

但是,如果有人给你个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑之前的数据,而给你作弊的骰子的因素并没有被考虑进去。

贝叶斯统计确实考虑了这一点,我们可以通过贝叶斯法则来进行说明:

在方程中的概率P(H)基本上是我们的频率分析,给定之前的关于事件发生概率的数据。方程中的P(E|H)称为可能性,根据频率分析得到的信息,实质上是现象正确的概率。例如,如果你要掷骰子10000次,并且前1000次全部掷出了6个点,那么你会非常自信地认为是骰子作弊了。

如果频率分析做的非常好的话,那么我们会非常自信地确定,猜测6个点是正确的。同时,如果骰子作弊是真的,或者不是基于其自身的先验概率和频率分析的,我们也会考虑作弊的因素。正如你从方程式中看到的,贝叶斯统计把一切因素都考虑在内了。当你觉得之前的数据不能很好地代表未来的数据和结果的时候,就应该使用贝叶斯统计方法。

小白学方法

社科方法网RMSSEDU·规范科学做学问

秋冬学期·社会科学研究方法系列课程,关注微信公众号社科方法网零基础入门了解详情。

点击公众号底部菜单栏【学员服务】

❶注册账户:学员注册社科方法网学习平台开通学习账户,免费试听课程;

❷APP下载:移动端学习app已开通,查看下载使用办法;

❸咨询助教:咨询报名课程,人工开通课程,辅助解答扫码联系助教。


责编/黄衍华 编辑/booley 主创/社科方法网编辑团队

    推荐阅读
  • 广州白云区幼儿园招生时间及安排2023 2021年广州白云区幼儿园招生

    (二)参加区属教育部门办公办园电脑派位的,由幼儿父(母)或其他法定监护人在规定时间内登陆指定网站进行报名。其他幼儿园具体报名办法由幼儿园及其举办单位严格按照疫情防控工作要求自行制定,并向社会公布后实施。符合政策性照顾类别的适龄儿童,根据广州市义务教育阶段政策性照顾学生清单等要求提供相关证明材料。如在资格审核或入学注册中发现身份信息不符或弄虚作假等情形,将取消录取资格。

  • 喝青汁怎么反而胖了(喝青汁会变胖吗)

    作为一种保健饮品,青汁的热量其实是十分低的,而且其中还含有丰富的纤维素,可以增加饱腹感,还能促进肠道的蠕动,帮助食物的消化以及排泄,所以对于减肥有一定的帮助。

  • 如何鼓励孩子大胆自信(鼓励孩子大胆自信应该怎么做)

    如何鼓励孩子大胆自信鼓励法。每个孩子都是单纯善良的,孩子的认知能力比大人要差,大多数孩子是缺乏自信的,我们能做的就是多多鼓励孩子,每个人都是需要鼓励,需要正能量的,尤其是孩子,最亲近的人鼓励,会让孩子有翻天覆地的变化。大声的自我介绍。微笑可以给一个人力量,当孩子不知道如何应对情况时,一定要教孩子多多微笑,微笑的跟每个人打招呼,微笑的面对生活的不开心,微笑是世界上最美丽的语言。

  • 相公在古代有几个意思(相公在古代有哪些意思)

    科举时代,一般人对秀才的俗称。妻对丈夫的敬称。雅称少年俊美的男性艺人,甚至男妓。麻将的一种多拿或少拿了牌的犯规行为,分别称大相公和小相公。郎根据“说文解字”,在“良”字音义上加以区别;在“良”右边加“阝”,变成“郎”;在“良”左边加“女”,衍成“娘”。“郎”就代表丈夫了,李白有“郎骑竹马来,绕床弄青梅“,义山诗有“刘郎已恨蓬山远,又隔蓬山一万丛”,花间词中有“问郎花好侬颜好”。

  • 怎么申请qq号不要手机号(这里有答案)

    下面内容希望能帮助到你,我们来一起看看吧!怎么申请qq号不要手机号首先需要了解的是,若是通过官方渠道申请QQ账号的话,是必须要要填写手机号码进行验证的,而若通过非官方渠道的话,也是具有一定的风险性的,而且即便是不用手机号码注册了QQ,在登陆之后也是需要进行手机号码验证的,若不进行验证也是不能够正常使用的。

  • 孝义市四套班子领导同志义务植树(孝义市四套班子领导同志义务植树)

    植树期间,刘世庆同在场的干部群众亲切交谈,询问树种习性,交流管护经验,他说,良好的生态环境是人民群众的共有财富,要持之以恒开展国土绿化,坚持因地制宜,科学栽植,真正把造林绿化贯穿到生态文明建设、乡村振兴战略全过程。刘世庆还叮嘱相关部门,下一步要精心做好后期养护工作,确保树木成活率,持续提高国土绿化率。

  • 青岛市公租房怎么申请购买(公租房线上申请)

    办理时,公租房租赁信息可通过政务数据共享方式取得,极大简化审核流程。目前“青岛市住房保障公共服务系统”已实现住房保障家庭从资格申请、审核进度、计分排序、合同管理、提取公积金等功能,基本满足公租房保障家庭的全流程办理需求。下一步,市住房城乡建设局将加快建设住房保障政务办理集成化平台,加大政务数据共享力度,让数据多跑路、群众少跑腿,进一步提升住房保障政务服务效能。

  • 怎么清洗羊毛衫(清洗羊毛衫窍门)

    羊毛衫不能水洗,可以干洗干洗的方法:将羊毛衫挂在通风处掸去灰尘,用毛刷刷一下再用干洗剂或溶剂汽油将领口及袖口油污处由外向里擦,然后晾一晾,我来为大家科普一下关于怎么清洗羊毛衫?再用干洗剂或溶剂汽油将领口及袖口油污处由外向里擦,然后晾一晾。再把羊毛衫放在桌子上,用干净湿布铺在羊毛衫上。再用熨斗将领口、袖口、前后身熨烫一遍。这样,羊毛衫上尘土都被吸到湿布上去了,熨好后挂在背阴处晾干即可。

  • 珍惜粮食的名人名言(珍惜粮食的名人名言推荐)

    珍惜粮食的名人名言推荐惜衣有衣,惜食有食存粮如存金,有粮不担心有荒节约度荒,天荒节约备荒一粥一饭当思来之不易,一丝一缕恒念物力维艰谁知盘中餐,粒粒皆辛苦良田万顷,日食一升广厦千间,夜眠七尺黄金本无种,出自勤俭家粒米虽小君莫。

  • 冰鉴是什么意思(何谓冰鉴)

    跟着小编一起来看一看吧!冰鉴是什么意思冰鉴,拼音bīngjiàn,注音ㄅㄧㄥㄐㄧㄢˋ,[utensilscontainingice]∶古代盛冰的器具,[judgement]∶指明镜,比喻鉴别事物的眼力,[themoon]∶指月亮。古籍《周礼》中提到过一种用来储存食物的“冰鉴”。这种“冰鉴”其实是一个盒子似的东西,内部是空的。只要把冰放在里面,然后把食物再放在冰的中间,就可以对食物起到防腐保鲜的作用了。这显然就是现今地球上人类使用最早的冰箱。