第一章

统计学：是收集、处理、分析、解释数据并从数据中得出结论的科学。

描述统计：研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计：是研究如何利用样本数据来推断总体特征的统计方法。

总体：是包含所研究的全部个体（或数据）的集合，它通常由所研究的一些个体组成。

个体：组成总体的每个元素称为个体。

有限总体和无限总体：为了判别在抽样中每次抽取是否独立，将总体分为了有限总体和无限总体

样本：是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本量。

样品构成了样本

参数：是用来描述总体特征的概括性数字度量，它是研究者想要了的总体的某种特征值。

统计量：是用来描述样本特征的概括性数字度量。

变量：是说明现象某种特征的概念，其特点是从一次观察到下一次观察结果会呈现出差样或变化。

基本类型有：分类变量和数值变量

分类变量：根据有序和无序分为无序分类变量和有序分类变量两种。

数据变量：是取值于数字的变量，也称为定量变量。根据其取值的不同，可以分为离散变量和连续变量。

离散变量是只能取有限个值的变量；连续变量是可以在一个或多个区间中取任何值的变量，它的取值是连续不断的。

第二章

初始调查：

观测数据
实验数据

使用者：

直接来源 —— 一手数据
间接来源 —— 二手数据

二手数据的评估与特点：

二手数据：原信息已经存在，对其重新加工、整理，间接来源的数据可以取自系统外部，也可以取自系统内部。

特点：

搜集比较容易，采集数据的成本低，并且能很快得到。
作用也非常广泛，提供研究问题的背景，研究问题的思路和途径。
研究中优先考虑二手数据。

注意事项：使用二手数据时，应注明数据的来源。

组织形式：

普查
抽样调查
- 概率抽样调查
- 非概率抽样调查

概率抽样：也称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。

随机不等于随便。

概率抽样的方法：

简单随机抽样：有完整的抽样框，又称“抽签法”。优点：比较方便。缺点：估计的精度不够高。
分层抽样：层和层之间差异要大。优点：包含有各种特征的抽样单位。
整群抽样：群和群之间差异要小。优点：大大减少了编制抽样框的工作量。缺点：估计的精度较差。
多阶段抽样：二阶段抽样，群为初级单位。优点：保证的样本相对集中，从而节省了调查费用。

统计分析的样本主要是概率样本，即样本是采用概率抽样方法得到的。

非概率抽样的方法：

方便抽样：样本单位的确定带有随机性
判断抽样：优点：抽取样本成本比较低，也容易操作。缺点：是主观的，不能用于对总体的有关参数进行估计。
自愿样本：与抽样的随机性无关，样本的组成往往集中于某类特定的人群。
滚雪球抽样：用于对稀少群体的调查
赔额抽样：按一定的标志分为若干类，然后每类中采用方便抽样或判断抽样的方式选取样本单位。

交叉变量控制可以保证样本的分布更为均匀，但现场调查中为了保证配额的实现，操作难度可能要大一些。

概率抽样和非概率抽样的区别

类别	概率抽样	非概率抽样
样本分布	理论分布存在	不确切
精度	有要求	没有要求
特点	研究对象总体的数量特征，对精度提出要求	操作简便、时效快、成本低

搜集数据的基本方法：

自填式
面访式
电话式
观察式

数据搜集方法的选择：

抽样框中的有关信息
目标总体的特征
调查问题的内容
有形辅助的使用
实施调查的资源
管理与控制
质量要求

实验组和对照组：其产生遵循随机原则。

实验设计本身就是一个统计问题，要确定实验所需单位的个数。

抽样误差：是由抽样的随机性引起的样本结果与总体真值之间的差异，描述的是所有样本可能的结果与总体真值之间的平均差异。

抽样误差大小的因素：样本的大小、总体的变异性。

非抽样误差：是指除抽样误差之外的，由其他原因引起的样本观测结果与总体真值之间的差异。

非抽样误差因素：

抽样框误差
回答误差
无回答误差
调查员误差
测量误差

第三章

数据的预处理包括：数据审核、数据筛选、数据排序。

数据审核注重审核数据的适用性和时效性。

频数：是落在某一特定类别或组中的数据个数。

分类数据的整理表有：

频数分布表（简单频数表）
列联表
条形图
帕累托图
饼图
环形图

数据分组：是根据统计研究的需要，将数据按照某种标准分成不同的组别，分组后的数据称为分组数据，一个组中最小值称为下限值，一个组中最大值称为上限值。

数值数据分组方法：单变量分组、组距式分组。

组距式分组的步骤/对数值型数据进行数据分组的步骤：

确定组数，不少于5组且不多于15组，即5<=k<=15。
确定各组的组距，组距=(最大值-最小值)/组数
根据分组制作频数分布表

组中值：是每一组中下限值与上限值中间的值，即组中值=(下限值+上限值)/2

直方图：矩形的宽度是组距，高度是频数。

直方图和条形图的区别：

条形图是用条形的长度表示各类别频数的多少，其宽度则是固定的
直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或百分比，宽度则表示各组的组距，其高度与宽度均有意义
直方图的各矩形通常是连续排列，条形图则是分开排列
条形图主要用于分类数据，直方图为数值型数据

箱形图看课本P48-49页

散点图、雷达图

第四章

数据分布特征的描述：

分布的集中趋势
分布的离散程度
分布的形状

集中趋势是指一组数据向某一中心考虑的程度，它反映了一组数据中心点的位置，统计量主要有平均数、中位数、四分位数。

平均数在参数估计和假设检验中经常用到。

下开口的组中值=相邻组的组中值-相邻组的组距

上开口的组中值=相邻组的组中值+相邻组的组距

众数、中位数和平均数的比较：

众数是一组数据分布的峰值，其缺点是不具有唯一性。只有在数据量较大时才有意义。适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的值，不受数据极端值的影响。当一组数据的分布偏斜程度较大时有意义。适合作为顺序数据的集中趋势测度值。
平均值是针对数值数据计算的，而且利用了全部数据信息，是应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时有意义。缺点是易受数据极端值的影响。

Starlit Astrologos

统计学复习

第一章

第二章

概率抽样和非概率抽样的区别

第三章

第四章

计算机择校大观——皆与忘川

Comments NOTHING

取消回复