首页技术文章正文

常用的抽样方法介绍

更新时间:2020-08-07 来源:黑马程序员 浏览量:

学习目标

·知道总体、样本、样本大小、样本数量

·知道样本统计量和总体统计量

·知道总体分布、样本分布和抽样分布

·知道常用的抽样方法



某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成检验,结果却让人大跌眼镜!

抽样和抽样方法


没文化,真可怕!我该怎么办?

有时候数据很容易收集,例如参加健身俱乐部的人的年龄,后这一家游戏公司的销售数据。但有时候不太容易,该怎么办呢?

是时候拿出终极武器了——抽样

1.抽样相关概念

总体:是指研究对象的整个群体。

·公司生产的一批糖果

抽样

样本:是从总体中选取的一部分,用于代表总体的整体情况。

·在这批糖果中随机抽取50颗糖果

抽样和方法

样本数量:又叫样本空间,是表示有多少个样本。

·在这批糖果中随机抽取50颗糖果,抽5次:样本数量=5

样本方法


样本大小:也叫样本容量,表示每个样本里有多少个数据。

·每个样本50颗糖果:样本大小=50

统计量:

统计量是对数据进行统计得到的量,例如:均值、方差、标准差、比例等。

总体统计量:总体XX

对总体进行统计得到的统计量

·总体均值$$\mu$$:整批所有糖果数据的均值

·总体方差$$\sigma^2$$:整批所有糖果数据的方差

样本统计量:样本XX

对样本进行统计得到的统计量

·样本均值$$\bar{X}$$:抽取的某个样本糖果数据的均值

·样本方差$$S^2$$:抽取的某个样本糖果数据的方差

分布:

·总体分布

总体数据的概率分布:整批所有糖果数据的概率分布

·往往未知,很多时候无法获得总体所有元素的观测值

·可以通过理论计算进行假定

样本分布

抽取的样本中数据的概率分布:抽取的某个样本糖果数据的概率分布

假设总体大小为m,样本大小为n,n趋近于m时,样本分布趋近于总体分布

·样本分布又称经验分布

·注意:样本分布与总体分布近似(抽样正确的前提下)

抽样分布

对样本统计量概率分布的一种描述:所有样本均值的概率分布

抽样分布


2.抽样方法

抽样的目的是为了通过样本获得总体的信息,所以关键点是怎么抽样才能保证获得的样本具有代表性,下面,我们简单介绍几种常用的抽样方法。

·简单随机抽样(simple random sampling)。原理和我们抽扑克牌、抽奖一样,就是从一个固定的总体中(比如有N个对象),利用抽签或其他随机方法(如随机数表)抽取n个对象。所谓随机,是指总体中每一个对象被抽中的概率相等。假设两个人抽扑克牌比大小,两个人抽中大王的概率其实一样,都是1/54。

·系统抽样(systematic sampling)。这种抽样方法的核心在于确定一个所谓的“抽样间隔”。比如将总体对象随机编号,从1至100,我们只抽取编号个位数是7的对象,即编号为7,17,27,…的样本,本质上他们相邻的编号有一个固定的间隔——10。

·分层抽样(stratified sampling),是指先将总体按照某种特征分为若干层,比如按照性别分为男女两层,然后再从每一层内进行简单随机抽样。分层的目的就在于提升样本对总体的代表性,提高估计的精确度,比如一般的理工院校男生多女生少,采用分层抽样可以保证男性和女性样本都能被抽中。

·整群抽样(cluster sampling),是将总体分成几个群,比如我国开展的大型调查一般会以省或地区为群,先采用简单随机抽样的方法抽取群,然后从抽中的群中再抽取相关的个体进行研究。现实过程中可以将抽中的群中的所有对象作为研究样本,也可以在群内部再次进行抽样获得部分调查对象作为样本。

3.小结

抽样相关概念 【知道】

·总体:是指研究对象的整个群体。

·样本:从总体中选取的一部分

·样本大小:每个样本里有多少个数据

·样本数量:表示有多少个样本。

统计量

总体XX

·总体均值$$\mu$$

·总体方差$$\sigma^2$$

样本XX

·样本均值$$\bar{X}$$

·样本方差$$S^2$$

分布:

·总体分布

·样本分布

·抽样分布

抽样方法 【知道】

·简单随机抽样:随机抽

·系统抽样:等间隔抽

·分层抽样:每种分别抽

·整群抽样:直接抽一拨


猜你喜欢:

Python编程加入日志的方法

“栈”是什么?如何实现一个“栈”?

Python培训课程

分享到:
在线咨询 我要报名
和我们在线交谈!