python机器学习-中心趋势的测量

作者 : 慕源网 本文共1016个字,预计阅读时间需要3分钟 发布时间: 2021-10-20 共82人阅读

python机器学习-中心趋势的测量

本文是Python 机器学习系列的一部分。您可以在此处找到本系列之前所有帖子的链接

在上一章中,我们从统计开始。

在本章中,我们将继续讨论并讨论集中趋势的度量,即均值、众数和中位数。

中心趋势的测量

数据已经结束,但数据可能会被扭曲或歪曲。获得排序或标准化数据的机会很少。要将这些数据用于工作,我们需要将其转换为我们想要的形式。

为了将其转换为所需的形式,我们采用了测量集中趋势的过程

python机器学习-中心趋势的测量

集中趋势

集中趋势的度量是从代表数据集中心点的数据集中得出的汇总统计量。它是可用于通过定位或识别数据中的中心位置来描述数据集的单个值。

这些度量指示数据分布中的大多数值所在的位置,它们也称为分布的中心位置。这是围绕中间值聚集的趋势。

集中趋势的三种主要方法,即均值、中位数和众数。

平均值

平均值或平均值是众所周知的集中趋势计算方法之一。它可以用于连续和离散数据集。我们已经在本文上一节的数据集中讨论了这两者。平均值等于数据值的总和除以数据集中的大小或值的数量。

python机器学习-中心趋势的测量

均值也可以是不同的类型:

  1. 算术平均值

    算术平均值是数字的平均值:一组数字的计算“中心”值。

  2. 几何平均数

    几何平均数是一种特殊类型的平均数,我们将数字相乘,然后取平方根(两个数字)、立方根(三个数字)等。

    它为我们提供了一种在截然不同的价值观之间寻找价值的方法。

    当我们想要比较事物或值时,它很有用。

  3. 谐波平均值

    它是几种平均值中的一种,尤其是毕达哥拉斯平均值之一。

    它适用于需要平均利率的情况。调和平均值可以表示为给定观测值的倒数的算术平均值的倒数。

python机器学习-中心趋势的测量

中位数

中位数是按数量级排列的一组数据的中间分数。它受异常值和偏斜数据的影响较小。

它适用于奇数个数据。对于偶数个数据,我们将中间的两个值相加并取其平均值。

python机器学习-中心趋势的测量

Mode

它是我们数据集中最常见的分数。

在直方图中,它代表条形图或直方图中的最高条。它有时被认为是最受欢迎的选择。

当我们想知道最常见的类别时,它用于分类数据。

python机器学习-中心趋势的测量

当我们拥有连续数据时这是有问题的,因为我们不可能比另一个更频繁地获得任何价值。 

现在的问题是何时使用哪种方法。因此,我提供了变量的摘要和要使用的最佳实践集中方法。

变量类型 – 中心趋势的最佳度量

数据类型 中心趋势的最佳度量
小(Small )或标称(nominal) Mode
Large或Ordinal Median
间隔/比率(不偏斜) Mean
间隔/比率(偏斜) Median

结论

在本章中,我们学习了统计中的集中趋势测度。在下一章中,我们将研究数据科学,它旨在将数据转换为所需的形式。

慕源网 » python机器学习-中心趋势的测量

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用?
本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

发表评论

开通VIP 享更多特权,建议使用QQ登录