1.“样本”
样本实质上就是数据,但是,统计学中涉及的数据往往是具有随机性的。还是回到“学生的身高”这个问题上来。在抽样之前,我们并不可能知道具体数据的大小,这些数据对于我们是随机的;为了讨论出一个好的方法,我们假想能够得到这些数据,并且假想这些数据的出现是依据某种规律的,这种规律就是数据出现的可能性的大小,我们称之为“概率”。比如,高年级学生出现大数据(高个子)的可能性要大于低年级学生,就是说,出现大数据的概率要大。但是,只有当抽样之后,我们才能得到真实的数据,才能进行实质的计算与分析。这样,我们所要研究的数据既具有随机性又具有真实性。为了方便起见,我们称这样的数据为样本。
- 统计学中哲学式的思考
传统数学可以根据假设和规定的原则进行计算或者推理,但是统计学往往要问你所采用的方法是不是有道理,是不是还有更为合理的方法。
3.判断统计方法的好坏很大程度上也是依赖传统数学
假如我们得到了数据,由于数据看起来是杂乱无章的,就需要进行必要的整理,整理的实质是对大量的数据进行“压缩”。根据问题的不同,压缩的方法也有所不同。比如,希望知道学生的平均身高,称之为“总体均值”。我们可以计算样本的平均数,然后用样本的平均数去估计总体均值。样本平均数就是对于数据的一种压缩方法。当然还可以用其他的方法,比如计算中位数,或者计算最大数和最小数的平均数。那么,哪一个方法要好一些呢?虽然我刚才谈了平均数和中位数的使用条件,但这仅仅是一种描述性的。对于数据压缩也有一个原则,就是不能失去我们所要研究问题的信息,满足这个条件的压缩后的值被称为“充分统计量”。因此,统计学需要哲学的思考,也需要严格的数学推理。事实上,对于总体均值,上面的三个压缩后的量中只有样本平均数是充分统计量。直观地想,样本平均数以局部的特征估计总体的特征,可能要好一些。
这是因为,虽然样本平均数依赖样本的选取也是随机的,但是我们可以想象,当我们反复取样本计算时,这些样本平均数应当在总体均值附近摆动。当然,我们还可以建立其他的准则来判别方法的好坏,只要这个准则是合理的。比如,我们可以验证,样本平均数是使“与所有数据差的平方的和达到最小”的数;样本中位数是使“与所有数据差的绝对值的和达到最小”的数。这两个准则都是有道理的。
作为教师,在统计课程实施的过程中,不仅仅需要知道如何去计算,还需要知道之所以这样计算的道理。只有这样,在讲课的时候才可能心里更有底,才可能根据学生的反应随时调节教学策略。再比如统计图表,是为了更直观地表达数据,这也是数据整理的一种形式。根据我们所要研究问题的不同,表达方式也可以有所不同。
4.
统计学研究方法的本质
(严士健)统计学的研究方法是基于归纳,而传统数学是基于演绎。
(史宁中)推理分为演绎和归纳。传统数学在本质上研究的问题是确定性的,基础是定义和假设,遵循约定原则进行严格的计算或者推理,因此更多的是演绎;统计学在本质上研究的问题是随机的,是非确定性的,通过较多的数据进行推断,也就是通过许多的个别来推断一般,可以认为是一种归纳。但是,正如我在上面也谈到过的那样,在许多情况下,哲学思考后的数学表达也是严格依赖于演绎的。
统计学的基本思路是,根据所关心的问题寻求好的方法,对数据进行分析和判断,得到必要的信息去解释实际背景。
小学阶段,统计学的教育价值:
第一,养成通过数据来分析问题的习惯。其实质是通过事实来分析问题,当遇到问题时,应当去调查研究,应当去收集数据,在此基础上进行的推断才可能客观地反映实际背景。
第二,建立随机的概念。有些事情可能发生,有些事情可能不发生,这在日常生活中是大量存在的。即便如此,只要我们掌握的信息多了,也能够合理地推断实际背景。
第三,学习如何去判断事情的主要因素。