01_统计
简单随机抽样
概念
一般地,设一个总体含有
不放回简单随机抽样
从总体中,逐个不放回地随机抽取 n 个个体作为样本,一次性批量随机抽取 n 个个体作为样本,两种方法是等价的。
实践中多采用不放回简单随机抽样,除非特殊说明,本章所称的简单随机抽样指不放回简单随机抽样.
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本
(不放回) 简单随机抽样的特征
(1) 有限性:简单随机抽样要求被抽取样本的总体中所含个体的个数 是有限的,便于通过样本对总体进行分析。
(2) 逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作。
(3) 不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算。
(4) 等可能性:简单随机抽样中各个个体被抽到的可能性 (机会) 都相等 (与第几次抽取无关),从而保证了抽样的公平性。
TIP
以上 4 个特征是判断一个抽样方法是否属于简单随机抽样的标准,若有其中一条不满足,则不是简单随机抽样.
体均值与样本均值

求和符号 ∑ 的性质

分层随机抽样
概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。
例题 1

Details

例题 2

Details

总体百分位数
概念
一般地,一组数据的第 p 百分位数是这样一个值,它使得这组数据中至少有 p% 数据小于或等于这个值,且至少有 (100-p)% 数据大于或等于这个值。
求解步骤

几个重要的百分位数
(1) 我们在初中学过的中位数,相当于是第 50 百分位数。
(2) 在实际应用中,除了中位数外,常用的分位数还有第 25 百分位数,第 75 百分位数。以上三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第 25 百分位数也称为第一四分位数或下四分位数等,第 75 百分位数也称为第三四分位数或上四分位数等
(3) 像第 1 百分位数,第 5 百分位数,第 90 百分位数,第 95 百分位数和第 99 百分位数在统计中也经常被使用.
例题 1


百分位数的特点
1.一组数据的百分位数可能是这组数据中的数,也可能不是这组数据中的数
2.第 0 百分位数为这组数据中的最小的数,第 100 百分位数为这组数据中的最大的数。
3.一组数据的某些百分位数可能是同一数。
平均数、中位数和众数

特别提醒
一组数据的平均数、中位数都是唯一的。众数不唯一,可以有一个,也可以有多个 (如 1,2,2,3,3,4,5,6 这组数的众数是 2 和 3),还可以没有 (如 1,2,3,4,5,6 这组数就没有众数).
众数一定是原数据中的数,平均数和中位数都不一定是原数据中的数。
方差与标准差
方差
假设一组数据是
有时为了计算方差的方便,把方差写成

标准差

总体 (样本) 方差和总体 (样本) 标准差

平均数和方差的计算方法
平均数的计算方法

方差的计算方法

推导

有线性关系的数据的平均数和方差

证明:

频率分布直方图中的统计参数
频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个 (些) 点的横坐标为这组数据的众数。一般用中点近似代替。
频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有 50% 个体小于或等于中位数,也有 50% 个体大于或等于中位数。因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值。
频率分布直方图中的“平均数”
因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替。