sample()函数,Pandas DataFrame.sample()随机采样及使用示例(15)

作者 : 慕源网 本文共2854个字,预计阅读时间需要8分钟 发布时间: 2021-12-1 共1.84K人阅读

Pandas DataFrame.sample() 介绍

在 Pandas DataFrame.sample() 中。采样是任何操作中的关键过程之一。总是需要从实际列表中抽取一小组元素,并在这个小集合上应用预期的操作,以确保操作中涉及的过程正常工作。在pandas库中,这个采样过程是通过sample()方法实现的。抽样方法负责从给定的数据实体中选择一组随机值,​​可以对预期过程进行抽样测试。

本文是Python Pandas教程系列的一部分,您可以点击Python Pandas使用教程查看所有。

语法

DataFrame.sample(self:
~FrameOrSeries, n=None, frac=None, replace=False, weights=None, random_s
tate=None, axis=None)
参数 描述
n 此参数是一个 int 参数,用于提及作为此采样过程的一部分要返回的项目总数。此参数不能与 frac 参数组合使用。n 参数的默认值为 1,因此当这是默认值时, frac 参数需要为 None。
frac 与 n 参数不同, frac 参数用于提及要处理的数据的比例, 用于提及要考虑进行采样的数据的比例。此参数不能与 n 参数组合使用。
weights 这是一个可选参数,当值为None时,可以实现相等的加权概率。如果值作为系列传递,则目标对象可以在索引上对齐。未在采样对象中建立的指标值的权重将不被观察,采样对象中的指标值没有任何分配为零的权重。当数据框的轴为零时,这将接受该列。除非权重是一个系列,否则权重必须与采样轴的长度相同。当所有权重的总和不等于 1 时,将应用归一化过程将其加起来 o 1。当权重中没有指定值时,将考虑为零。
axis 此参数表示需要应用 sample() 函数的列或轴。此参数中指定的值表示数据框中的列、位置或位置。为了实现这种在数据帧上灵活移动的能力,轴值被框定在下面的方法中,{index (0), columns (1)}。
random_state 这是随机数生成器的基础

实现 Pandas DataFrame.sample() 的示例

下面是提到的例子:

示例#1

代码:

import pandas as pd
Core_Series = pd.Series([ 1, 6, 11, 15, 21, 26])
print("   THE CORE SERIES ")
print(Core_Series)
sample_Series = Core_Series.sample(n=2)
print("")
print("   THE SAMPLE SERIES ")
print(sample_Series)

输出:

说明:  这里最初导入的是Pandas的库,导入的库用于创建系列。系列中的值以这样的方式表述,即它们是 1 到 n 的系列。apply() 方法与 lambda 函数一起放置在这个系列上。本系列中的 sample() 方法具有 2 个采样集,将样本记录单独返回到控制台。

示例#2

代码:

import pandas as pd
Core_Dataframe = pd.DataFrame({'A' :  [ 1, 6, 11, 15, 21, 26],
'B' :  [2, 7, 12, 17, 22, 27],
'C' :  [3, 8, 13, 18, 23, 28],
'D' :  [4, 9, 14, 19, 24, 29],
'E' :  [5, 10, 15, 20, 25, 30]})
print("   THE CORE DATAFRAME ")
print(Core_Dataframe)
sample_Dataframe = Core_Dataframe.sample(n=3)
print("")
print("   THE SAMPLE DATAFRAME ")
print(sample_Dataframe)

输出:

说明:  这里最初导入的是panda 的库,导入的库用于创建形状为(6,6) 的数据框。数据框中的所有列都分配有按字母顺序排列的标题。数据框中的值以这样的方式表示,即它们是 1 到 n 的序列。此数据框在此处以编程方式命名为核心数据框。n 为 3 的 sample() 方法将三个记录的采样集返回到控制台。

示例 #3

代码:

import pandas as pd
Core_Dataframe = pd.DataFrame({'Column1' :  [ 'A', 'B', 'C', 'D', 'E', 'F'],
'Column2' :  [ 'G', 'H', 'I', 'J', 'K', 'L'],
'Column3' :  [ 'M', 'N', 'O', 'P', 'Q', 'R'],
'Column4' :  [ 'S', 'T', 'U', 'V', 'W', 'X'],
'Column5' :  [ 'Y', 'Z', None, None, None, None]})
print("   THE CORE DATAFRAME ")
print(Core_Dataframe)
print("")
sample_Dataframe = Core_Dataframe.sample(frac=0.5)
print("   THE SAMPLE DATAFRAME ")
print(sample_Dataframe)

输出:

说明:  在本例中,首先制定了核心数据帧。pd.dataframe() 用于制定数据帧。数据框的每一行都连同它们的列名一起插入。一旦数据框被完全公式化,它就会被打印到控制台上。我们可以注意到,在这个例子中,数据框与英语词典中的字母值相关联。字典中的每一列都标有合适的列名。sample() 方法用于从核心数据帧中采样 50% 的记录,这在数据帧参数中使用 frac 参数提及。要通知 50%,将 frac 参数设置为 0.5。

示例 #4

代码:

import pandas as pd
Core_Dataframe = pd.DataFrame({'A' :  [ 1.23, 6.66, 11.55, 15.44, 21.44, 26.4 ],
'B' :  [ 2.345, 745.5, 12.4, 17.34, 22.35, 27.44 ],
'C' :  [ 3.67, 8, 13.4, 18, 23, 28.44 ],
'D' :  [ 4.6788, 923.3, 14.5, 19, 24, 29.44 ],
'E' :  [ 5.3, 10.344, 15.556, 20.6775, 25.4455, 30.3 ]})
print("   THE CORE DATAFRAME ")
print(Core_Dataframe)
print("")
sample_Dataframe = Core_Dataframe.sample(frac=30 , replace = True , random_state=1)
print("   THE SAMPLE DATAFRAME ")
print(sample_Dataframe)

输出:

说明:  在本例中,首先制定了核心数据帧。pd.dataframe() 用于制定数据帧。数据框的每一行都连同它们的列名一起插入。一旦数据框被完全公式化,它就会被打印到控制台上。本例中使用了典型的浮动数据集。此处再次使用 sample() 方法从核心数据帧中采样多条记录。

结论

pandas 中的 sample() 方法允许以非常简单的方式灵活地对 pandas 的数据结构执行优化的采样过程。

 


慕源网 » sample()函数,Pandas DataFrame.sample()随机采样及使用示例(15)

常见问题FAQ

程序仅供学习研究,请勿用于非法用途,不得违反国家法律,否则后果自负,一切法律责任与本站无关。
请仔细阅读以上条款再购买,拍下即代表同意条款并遵守约定,谢谢大家支持理解!

发表评论

开通VIP 享更多特权,建议使用QQ登录