sample()函数,Pandas DataFrame.sample()随机采样及使用示例(15)
Pandas DataFrame.sample() 介绍
在 Pandas DataFrame.sample() 中。采样是任何操作中的关键过程之一。总是需要从实际列表中抽取一小组元素,并在这个小集合上应用预期的操作,以确保操作中涉及的过程正常工作。在pandas库中,这个采样过程是通过sample()方法实现的。抽样方法负责从给定的数据实体中选择一组随机值,可以对预期过程进行抽样测试。
本文是Python Pandas教程系列的一部分,您可以点击Python Pandas使用教程查看所有。
语法
DataFrame.sample(self:
~FrameOrSeries, n=None, frac=None, replace=False, weights=None, random_s
tate=None, axis=None)
参数 | 描述 |
n | 此参数是一个 int 参数,用于提及作为此采样过程的一部分要返回的项目总数。此参数不能与 frac 参数组合使用。n 参数的默认值为 1,因此当这是默认值时, frac 参数需要为 None。 |
frac | 与 n 参数不同, frac 参数用于提及要处理的数据的比例, 用于提及要考虑进行采样的数据的比例。此参数不能与 n 参数组合使用。 |
weights | 这是一个可选参数,当值为None时,可以实现相等的加权概率。如果值作为系列传递,则目标对象可以在索引上对齐。未在采样对象中建立的指标值的权重将不被观察,采样对象中的指标值没有任何分配为零的权重。当数据框的轴为零时,这将接受该列。除非权重是一个系列,否则权重必须与采样轴的长度相同。当所有权重的总和不等于 1 时,将应用归一化过程将其加起来 o 1。当权重中没有指定值时,将考虑为零。 |
axis | 此参数表示需要应用 sample() 函数的列或轴。此参数中指定的值表示数据框中的列、位置或位置。为了实现这种在数据帧上灵活移动的能力,轴值被框定在下面的方法中,{index (0), columns (1)}。 |
random_state | 这是随机数生成器的基础 |
实现 Pandas DataFrame.sample() 的示例
下面是提到的例子:
示例#1
代码:
import pandas as pd
Core_Series = pd.Series([ 1, 6, 11, 15, 21, 26])
print(" THE CORE SERIES ")
print(Core_Series)
sample_Series = Core_Series.sample(n=2)
print("")
print(" THE SAMPLE SERIES ")
print(sample_Series)
输出:
说明: 这里最初导入的是Pandas的库,导入的库用于创建系列。系列中的值以这样的方式表述,即它们是 1 到 n 的系列。apply() 方法与 lambda 函数一起放置在这个系列上。本系列中的 sample() 方法具有 2 个采样集,将样本记录单独返回到控制台。
示例#2
代码:
import pandas as pd
Core_Dataframe = pd.DataFrame({'A' : [ 1, 6, 11, 15, 21, 26],
'B' : [2, 7, 12, 17, 22, 27],
'C' : [3, 8, 13, 18, 23, 28],
'D' : [4, 9, 14, 19, 24, 29],
'E' : [5, 10, 15, 20, 25, 30]})
print(" THE CORE DATAFRAME ")
print(Core_Dataframe)
sample_Dataframe = Core_Dataframe.sample(n=3)
print("")
print(" THE SAMPLE DATAFRAME ")
print(sample_Dataframe)
输出:
说明: 这里最初导入的是panda 的库,导入的库用于创建形状为(6,6) 的数据框。数据框中的所有列都分配有按字母顺序排列的标题。数据框中的值以这样的方式表示,即它们是 1 到 n 的序列。此数据框在此处以编程方式命名为核心数据框。n 为 3 的 sample() 方法将三个记录的采样集返回到控制台。
示例 #3
代码:
import pandas as pd
Core_Dataframe = pd.DataFrame({'Column1' : [ 'A', 'B', 'C', 'D', 'E', 'F'],
'Column2' : [ 'G', 'H', 'I', 'J', 'K', 'L'],
'Column3' : [ 'M', 'N', 'O', 'P', 'Q', 'R'],
'Column4' : [ 'S', 'T', 'U', 'V', 'W', 'X'],
'Column5' : [ 'Y', 'Z', None, None, None, None]})
print(" THE CORE DATAFRAME ")
print(Core_Dataframe)
print("")
sample_Dataframe = Core_Dataframe.sample(frac=0.5)
print(" THE SAMPLE DATAFRAME ")
print(sample_Dataframe)
输出:
说明: 在本例中,首先制定了核心数据帧。pd.dataframe() 用于制定数据帧。数据框的每一行都连同它们的列名一起插入。一旦数据框被完全公式化,它就会被打印到控制台上。我们可以注意到,在这个例子中,数据框与英语词典中的字母值相关联。字典中的每一列都标有合适的列名。sample() 方法用于从核心数据帧中采样 50% 的记录,这在数据帧参数中使用 frac 参数提及。要通知 50%,将 frac 参数设置为 0.5。
示例 #4
代码:
import pandas as pd
Core_Dataframe = pd.DataFrame({'A' : [ 1.23, 6.66, 11.55, 15.44, 21.44, 26.4 ],
'B' : [ 2.345, 745.5, 12.4, 17.34, 22.35, 27.44 ],
'C' : [ 3.67, 8, 13.4, 18, 23, 28.44 ],
'D' : [ 4.6788, 923.3, 14.5, 19, 24, 29.44 ],
'E' : [ 5.3, 10.344, 15.556, 20.6775, 25.4455, 30.3 ]})
print(" THE CORE DATAFRAME ")
print(Core_Dataframe)
print("")
sample_Dataframe = Core_Dataframe.sample(frac=30 , replace = True , random_state=1)
print(" THE SAMPLE DATAFRAME ")
print(sample_Dataframe)
输出:
说明: 在本例中,首先制定了核心数据帧。pd.dataframe() 用于制定数据帧。数据框的每一行都连同它们的列名一起插入。一旦数据框被完全公式化,它就会被打印到控制台上。本例中使用了典型的浮动数据集。此处再次使用 sample() 方法从核心数据帧中采样多条记录。
结论
pandas 中的 sample() 方法允许以非常简单的方式灵活地对 pandas 的数据结构执行优化的采样过程。
常见问题FAQ
- 程序仅供学习研究,请勿用于非法用途,不得违反国家法律,否则后果自负,一切法律责任与本站无关。
- 请仔细阅读以上条款再购买,拍下即代表同意条款并遵守约定,谢谢大家支持理解!