中学数学部分概率内容的教学策略

引用格式:曹广福,罗荔龄.中学数学部分概率内容的教学策略[J].数学教育学报,2018,27(5):17-24.

作者信息                

曹广福,罗荔龄

(广州大学 数学与信息科学学院,广东 广州  510006)

曹广福(1960—),男,江苏海安人,教授,博士生导师,首届国家高等学校教学名师奖获得者,入选国家“万人计划”领军人才,主要从事数学研究与数学教育研究.

基金项目                

国家“万人计划”领军人才、广东省“特支计划”、广州市教育名家工作室联合资助


摘要        
针对超几何分布、条件概率、离散型随机变量与分布列、相互独立的随机事件与二项分布、数学期望与方差以及正态分布等中学数学概率中几个重要概念,创设了真实的问题情境引导课堂教学,为教师的实际教学提供了具有可操作性的教学方案.特别对于正态分布密度函数的处理既不同于大学教材中的公式化定义,也不同于中学教材中频率直方图的极限定义.公式化的定义对于中学生显得有些抽象,但利用频率直方图的极限定义,正态密度函数超出了中学生的知识点和认知能力,实际教学的可操作性不大.首先,从函数模拟现实图象出发,通过现实的图形与频率直方图的相似性找出模拟这类图形的函数;其次,讨论这类函数中的参数与图象之间的关系;最后,再回到概率,讨论参数与数学期望与方差的关系,既很好地解释了正态分布密度函数的几何意义与参数的概率意义,也适应中学生的认知能力.


关键词:超几何分布;条件概率;离散型随机变量;分布列;数学期望;方差;正态分布
中图分类号:G420  文献标识码:A  文章编号:1004–9894(2018)05–0017–08


1引言        

相比于大学的概率论,中学数学概率部分涵盖的内容虽然比较浅显,但涉及的概念并不少,除了古典概型、几何概型,还包括随机变量、超几何分布、离散型随机变量及其分布列、二项分布、数学期望与方差、标准差以及正态分布,其中正态分布是中学概率教学中的一大难点,根据研究者对不同地区一线教师的了解,学生普遍对这部分内容的理解有困难,尤其是教材的处理方法似乎超越了学生的认知范围.例如,通过频率直方图的极限定义正态密度曲线存在几个方面的认知困难:(1)中学阶段并不专门介绍极限概念,而且频率直方图的极限与微积分里的函数极限还有所不同,它是指图形的极限;(2)随着样本量的增加(频率直方图的加细),对应的是不同的随机变量,换句话说,正态密度函数实际是频率直方图对应的随机变量分布列的极限,学生对通常函数序列的极限尚且不知,如何保证对随机变量分布列的极限能真正理解?(3)正态密度函数是连续型随机变量的密度函数,但教材并不介绍连续型随机变量的分布函数,忽然冒出一个正态密度函数显得有些突兀.这里拟针对这些问题重组课堂教学,使之适应学生的认知能力.


2超几何分布与条件概率        

即使一个随机试验的样本空间是有限的,也并不意味着这是个古典概型,因为出现每一个结果的可能性未必相等.这就引出了概率分布列的概念.当然,理论上讲,概率分布列也可以是无限的,但既然教材限于有限情形,不必节外生枝.不过教材中总是以抛硬币和抽球问题作为例子显得单调了一点,这里完全可以通过商品抽检出现不合格品的概率为例说明概率分布列.例如可以通过下面的问题引导学生分析.

问题1:n件被抽检的商品中,有m (<n)件不合格,从这些商品中随机抽取一件,请用合适的随机变量表示这个抽检过程并写出该随机变量的分布列.

如果希望稍微复杂一点,不妨以优、良、中、合格、不合格等若干等级设计一个问题,就可以得到一般的概率分布列了.

教材中超几何分布的正文虽然仅有两页纸,但依然有些啰嗦.如果仅仅是介绍超几何分布的概率,寥寥数语就可以说清楚,但超几何分布涉及组合问题,其中会出现一些比较复杂的问题,尤其是如果出现重复试验的过程,问题则更复杂,也就是紧接着超几何分布之后的条件概率.但教材中“2.3独立性”不如换成“2.3条件概率”更合适,因为条件概率本身不仅重要,而且还是全概率公式、贝叶斯公式中必不可少的概念,事件的独立性也是通过条件概率来描述的.

教材中这部分内容的编写模式也值得斟酌.有些传统还是值得肯定的,例如传统教材中一个概念的出现一定会以“定义”的方式呈现,一个定理的出现也一定会以“定理”的字样出现,这样既突出了概念与定理,以便引起读者的注意,也可以让逻辑层次更清晰.以超几何分布为例,虽然一般概率论教材并不单独定义超几何分布,但既然定义了这个概念,还是严格化一点比较好.可以由一个具体的例子切入,引入超几何分布的定义.

定义1:假设集合A 含n 个元素,其中m 个元素具有性质an-m 个元素具有性质b,从A 中任意抽取p 个元素,0≤p≤n,其中q 个元素具有性质a,q=0, 1, 2,…, l,l=min(p, m) ,则称该随机事件的概率分布为超几何分布

在此基础上引导学生回答这样几个问题:在这个随机试验中,样本空间是什么?含多少样本点?如何设置随机变量?如何用随机变量表示概率分布?

条件概率有两种类型,一种是随机试验可能是重复进行的,也就是先有事件A,再有事件B,然后问在事件A发生的情况下,事件B发生的概率是多少?最典型的例子就是产品的抽检,假设n 件产品中有m 件不合格(事件A),从这批产品中任意选取一件,发现是一件不合格产品,然后再抽取一件,第二次抽取的产品不合格(事件B)的概率是多少?这就是一个条件概率问题,也就是事件A发生的条件下事件B发生的概率.教材以两次掷骰子为例显得更简单,更容易理解.还有一种条件概率问题与重复试验无关,但与随机事件的性质有关,例如随机掷一枚骰子,出现的是奇数(事件A),计算出现的奇数大于1(事件B)的概率,这也是条件概率.在通过一些具体的例子给出条件概率的直观描述后,应该给条件概率一个严格的数学定义.

定义2:AB是随机试验的两个事件,且P(B)>0,则称P(A|B)=P(AB)/P(B) 为事件B已经发生的条件下,事件A发生的条件概率

在此基础上可以再通过一些例子强化.

问题2:很多随机试验相互之间可能是有关系的,而且随机事件的发生有先后之分,能否举例说明这种现象?

这个问题与抓阄问题很容易混淆,学生比较容易犯迷糊,两者之间的本质是不同的.第一个抓阄的人是不能看结果的,只有大家都抓到之后才能看,所以无论先抓还是后抓,抓到某个阄的可能性都是一样的.但如果先抓的人知道了结果,情况就不一样了.如果学生能找到合适的例子,可以针对学生的例子进行分析,如果学生找不到,可以参考下面的问题.

问题3:假设箱子里有10个白球,20个黑球,这些球除了颜色不同,质地、大小、形状完全一样.两个人分别从箱子里各摸一个球,但第一个人摸出来后不再放回,第一个人摸球的结果对第二个人有没有影响?如何计算第二个人摸到白球的概率?

在这个问题中,如果第一个人摸到白球,第二个人摸到白球的概率为C19 /C129 =9/29,如果第一个人摸到黑球,第二个人摸到白球的概率则为C110 /C129 =10/29.由此可见,第一个人的结果会影响到第二个人的结果.

这里有一个概念需要向学生解释清楚,否则很容易给学生带来困惑,事件AB指的是AB同时发生,不能写成两者的交集AB,虽然有些情况下AB的确与AB一样.例如在问题3中,AB是什么呢?A表示第一个人摸到了白球,B表示第二个人摸到了白球,AB同时发生意味着第一次与第二次均摸到了白球,这相当于从箱子里按次序摸到了两个白球,同时摸到两个白球的概率为A210 /A230 =(10•9/30•29),除以P(A)=A110 /A130 =10/30 得9/29,这就是A发生的情况下B发生的概率.为什么会出现这种情况?原因在于这个随机试验中,样本空间并非30个球,而是由这30个球两两排序而成的集合.所以如果需要将样本空间写出来,就要将白球与黑球编号,例如记10个白球为a1,a2,…,a10,20个黑球为b1,b2,…,b20,然后将他们两两排序构成一个新的集合Ω,Ω是这个随机试验的样本空间,Ω含A230 个样本点,事件ABA210 个样本点,所以P(AB) =A210/A230,这与前面的计算结果是一样的.

当然对学生说清楚AB不能写成AB的交就可以了,除非样本空间是清楚的,AB也明确表示成了样本空间的子集.

P(A)>0时,将条件概率的定义变换一下形式便得到
            P(AB)=P(B|A)•P(A)
称该式为概率的乘法公式.

问题4:P(B|A)是否具有与概率类似的性质?即非负性、规范性、可加性.


3离散型随机变量与分布列        

离散型随机变量是针对随机变量的取值来定义的,与样本空间的大小无关,例如假设样本空间是单位圆,设Ωr 是半径为r (r <1)的圆,记

X(a)显然是一个随机变量,而且仅取两个值,所以它是一个离散型随机变量.

定义3:如果随机变量的取值是一个数列,则称该随机变量为离散型随机变量(discrete random variable).

问题5:100件产品中有10件次品,任意抽取4件,其中可能含多少件次品?如何用随机变量表示这个随机试验?

随机变量的重要意义是可以利用它表示随机事件.

问题6:假设X 是问题5中的随机变量,{X<3}表示什么事件?如何用X 表示“抽出3件以上次品”这一随机事件?

有这样一个问题:“灯泡的寿命X 是不是随机变量?”X 的取值固然是清楚的,它是灯泡坏了的时间点,那么基本事件是什么?学生或许会理解成:任取一个灯泡,该灯泡的寿命是多少?这个随机试验的样本空间实际是时间,也就是任取一个时刻,灯泡可能坏了也可能没坏,所以灯泡的寿命理论上可以是任意的时间长度.

如果随机试验是任取一个灯泡,检验其寿命,样本空间是什么?随机变量是不是离散的?

由于灯泡的寿命不可能是无限的,每个灯泡有其特定的寿命,所以如果随机试验是随机取一个灯泡,检验其寿命,按照随机变量的定义,有限样本空间上的随机变量只能取有限个值,它当然是离散的随机变量.

根据以上分析,教师如果以灯泡寿命作为随机变量的例子,最好解释清楚样本空间是什么.

一般情况下,厂家或管理部门判断一个灯泡是否合格,往往是规定其使用寿命不能低于多少小时,所以也可以根据使用时间是否达到要求定义随机变量.例如,假若规定灯泡的使用寿命超过2000小时为合格,低于2000小时为不合格,则可以定义随机变量X 如下:设样本空间Ω为一批灯泡,灯泡a 对应的值X(a)为

这里X 仅取0和1两个值,显然是一个离散随机变量.

连续型随机变量在中学阶段的确不适合深究,因为其结构非常复杂,不妨稍微直观一点.如果课堂上介绍分布函数概念,则可以简单地把连续型随机变量定义为分布函数连续的随机变量.如果课堂上不介绍分布函数,则可以采用如下定义.

定义4:如果随机变量的取值范围是某一个区间,这样的随机变量称为连续型随机变量

但要注意的是,这个定义与分布函数连续的随机变量并不等价.

既可以找到符合定义4,但分布函数间断的随机变量,也可以找到具有连续分布函数的随机变量,其取值范围并不充满任何区间.

通过下面一系列问题可以逐步引导学生认识离散型随机变量的基本特征与性质.

问题7:回忆一下随机变量的定义,能否用图表表示离散随机变量的概率分布?如何表示?

问题8:ξ 是随机变量,η=+bab是常数,则η 也是随机变量,如果ξ 是离散型随机变量,η 是不是离散的?更一般地,一个离散型随机变量的函数是不是离散的?

通过这两个问题引导学生搞清楚两个问题:(1)离散型随机变量可以用图表来表示其概率分布,从而可以一目了然地看出概率的变化规律;(2)随机变量的函数不会改变其属性,即离散型随机变量的函数仍是离散的,连续型随机变量的函数仍是连续的.

问题9:设离散型随机变量ξ 可能取的值为

x1,x2,…,x3,…,

ξ 取每一个值xi(i=1, 2, …)的概率为P(ξ=xi )=pi,请用合适的图表表示这个概率分布.

通常称上述图表为随机变量ξ 的概率分布,简称ξ 的分布列

问题10:回忆任何随机事件发生的概率都满足:0≤P(A)≤1,并且不可能事件的概率为0,必然事件的概率为1.请据此总结分布列具有什么性质.

(1)pi ≥0,i=1, 2, …;

(2)p1+p2+…=1.

问题11:假设离散变量ξ 的分布列为

如何求随机事件{ξ<Xk}的概率?{ξ>Xk}的概率呢?


4相互独立的随机事件与二项分布        

学生对随机事件的独立性不会有太多理解上的困难,可以让学生自己寻找一些例子,从而更好地辨别相互独立的随机事件,下列问题可以作为参考.

问题12:箱子里有3个白球,2个黑球,某人从箱子里随机摸一个球后发现是白球,于是又放回去,然后再次从箱子里摸一个球,希望能摸出一个黑球来,他第二次摸到黑球的概率会不会受到第一次摸球的影响?

由于是有放回地抽样,后一次抽样的样本空间与前一次的样本空间是一样的,所以前一次抽样不会对后一次抽样产生影响.

问题13:请举出几个相互对结果不会产生影响的随机事件.

定义5:AB为两个事件,如果P(AB)=P(A)P(B),则称事件A与事件B相互独立(mutually independent).

事件A(或B)是否发生对事件B(或A)发生的概率没有影响,这样的两个事件叫做相互独立事件

问题14:AcBc分别是AB的对立事件,如果AB是相互独立事件,则ABcAcBAcBc是否相互独立?

问题15:如果事件A1,A2,…,An相互独立,如何计算这n个事件同时发生的概率?

P(A1A2An)=P(A1)•P(A2)…P(An)

问题16:如果反复抛掷一枚质地均匀的硬币10次,出现4次正面的概率是多少?出现5次正面的概率是多少?出现几次正面的可能性最大?

这个问题是独立重复试验的简单模型,有了前面的独立事件概念做基础,在教师引导下,学生应该不难回答这个问题,它可以帮助学生复习组合数的性质.

定义6:一个随机试验如果在同等条件下重复进行n次,则称这个实验为n次独立重复试验,也称为贝努利试验

贝努利试验是概率论中非常重要的试验,也有着十分重要的现实意义,但有了组合的基础与独立事件的概念,学生在理解上应该没有本质的困难.课堂可以直接从组合的角度进行分析,也就是按照教材的第二种分析法讲授,远比第一种分析法简单明了.

问题17:如果在一次随机试验中某事件发生的概率为p,那么在同等条件下进行n次重复试验,这个事件恰好发生k(kn)次的概率是多少?

这个问题与问题16的唯一差别在于,问题16中抛掷硬币出现正反面的概率都是1/2,但一般的随机试验出现某个结果和不出现某个结果的概率可能是不同的,然而处理这类问题的方法与问题16并无本质区别,所以教师可以由学生归纳总结出一般规律.

一般地,如果在一次试验中某事件发生的概率是p,那么在n次独立重复试验中这个事件恰好发生k 次的概率Pn(k)=Ckn pk(1-p)n-k,k=0,1,2,3,…,n,它恰好是[(1-p)+p]n展开式的第k+1项.

n次独立重复试验中某事件发生的次数为ξ,则ξ 是一个随机变量.如果在一次试验中该事件发生的概率是p,那么在n 次独立重复试验中这个事件恰好发生k 次的概率是Pn(ξ=k)=Cknpk(q)n-k,k=0,1,2,…,n,q=1-p

于是得到随机变量ξ 的概率分布如下.

由于Cknpkqn-k恰好是二项展开式 (q+p)n=C0np0qn+C1np1qn-1+…+Cknpkqn-k+…+Cnnpnq0中各项的值,所以称这样的随机变量ξ 服从二项分布(binomial distribution),记作ξ~B(np),其中np为参数,并记Cknpkqn-k=b(k,n,p).


5数学期望与方差        

数学期望类似加权平均,学生对算术平均耳熟能详,但对加权平均了解不多,现实中加权平均的例子并不鲜见.方差则是学生比较陌生的概念,可以从生活中常见的问题入手引导学生进行思考.

问题18:当我们考完试之后,教师通常需要进行考试情况分析,帮老师想想看,需要做哪些分析?

最高分、最低分以及平均分是学生最容易想到的,但方差就不是学生能独立思考出来的了,教师可能需要围绕着问题18作进一步提示,如何分析考试成绩的分布状况?通常最集中的分数段是什么?这可以让学生对后面要学习的正态分布有一个直观体验.

问题19:高考中,语文、数学、英语满分各150分,物理满分110分,化学满分100分,生物满分90分,总分750分.但150分的题量显得有些大,因此决定将各门课程都统一成满分100分,但仍然要体现各门课程所占比重的差别,如果总分仍然为750分,你能否为此设计一个方案?

通过这个问题可以让学生对加权概念有初步了解.类似这样加权计分的情况生活中很常见,例如在很多评价指标中,各项指标的分值是有差别的,这就反映了不同指标的权重是不同的.

问题20:假设随机变量ξ的取值分别为x1,x2,…,xn,对应的概率分布为P(ξ=xi)=pi,其分布列是什么?如果ξ表示射手n次射击过程中每次命中的环数,如何计算该射手的平均命中环数?

这个问题与问题19有相似之处,不同点是,问题19是一个确定性问题,问题20则是随机性问题.有问题19做铺垫,学生应该可以想到该如何定义离散型随机变量的“均值”.不过正式的定义最好不要称之为均值,使用通用的术语“数学期望”更合适一点.

如果ξ 是射手n 次射击过程中每次命中的环数,则xi 取0,1,2,3,…,10十一个可能的值,不妨设xi=i-1,i=1,2,…,11.根据其分布列可以估计,在n次射击中,预计大约有

P(ξ=x1)•n=p1n次得x1环;

P(ξ=x2)•n=p2n次得x2环;

…………

P(ξ=x11)•n=p11n次得x11环;

n次射击的总环数大约为

x1p1n+x2p2n+…+x11p11n=(x1p1+x2p2+…+x11p11)n,

因此,n次射击的“平均”环数约为

(x1p1n+x2p2n+…+x11p11n)/n=x1p1+x2p2+…+x11p11

这个“平均数”与问题19中的加权平均很相似,通常称之为数学期望.

定义7:若离散型随机变量ξ的概率分布为

则称=x1p1+x2p2+…+xnpn+…为ξ 的数学期望,简称期望

数学期望是随机变量的一个重要特征数,它反映了随机变量取值的平均水平.如果ξ 的概率分布满足

p1=p2=…=pn,则有p1=p2=…=pn=1/n

=(x1+x2+…+xn)×1/n

这是通常的算术平均,也是把ξ的数学期望称为平均数或均值的原因.对于连续型随机变量则需要利用积分计算其数学期望.

问题21:甲乙两家企业员工规模差不多,两家员工(包括总经理、中层管理人员及普通员工)年平均收入也差不多,但乙单位的普通员工总是埋怨收入不高,甲单位的员工则心态比较平和,没人抱怨,你能分析一下两家员工的心态为什么有差别吗?

问题18虽然不属于随机问题,但与随机现象有相似之处,乙单位员工之所以心态不平衡,是因为收入的两极分化现象比较严重,极少数人的高收入把平均收入拉高了,普通员工的实际收入远低于平均水平,甲单位相对均衡一些,大多数人的收入集中在平均水平.如何建立数学模型反映两个企业员工的收入差别?

经过对这个问题的分析,后面引入方差概念就不难理解了.在问题21中,如果简单地用每个员工的收入减去平均收入然后求和,未必能反映出两个企业员工的真实差别来,因为两个企业员工的构成可能有所差别.例如假设甲乙两个企业各有员工m 人,平均收入均为L,其中甲企业低收入员工有n1人,收入为l1,中等收入员工有n2人,收入为l2,高收入员工有n3人,收入为l3n1+n2+n3=m.乙企业低收入员工有m1人,收入为k1,中等收入员工有m2人,收入为k2,高收入员工有m3人,收入为k3m1+m2+m3=m.比较两个企业员工收入差别的合理指标应该是:

E=(l1-L)2(n1/m)+(l2-L)2(n2/m)+(l3-L)2(n3/m),

E=(k1-L)2(m1/m)+(k2-L)2(m2/m)+(k3-L)2(m3/m).

问题22:如果离散随机变量ξ的分布列为

离散随机变量η的分布列为

如何分析这两个随机变量之间的差别?

有问题21作基础,学生应该不难理解,仅仅比较两个随机变量的数学期望是不够的,还需要比较这两个随机变量的取值偏离数学期望的程度.

定义8:假设随机变量ξ的分布列为

=(x1-)2p1+(x2-)2p2+…+(xn-)2pn+… 称为随机变量ξ 的均方差,简称为方差,其中 是ξ 的数学期望. 的算术平方根叫做随机变量ξ 的标准差,记作σξ

问题23:随机变量的方差与标准差反映了随机变量的何种特征?

随机变量ξ 的方差与标准差都是随机变量ξ 的特征数,它们反映了随机变量的取值偏离期望值的程度.

问题24:既然有了方差,为什么又定义标准差?

标准差与随机变量本身有着相同的量纲,在描述随机变量偏离数学期望的范围时标准差比方差更方便.例如,甲企业的平均年收入是200000,标准差是20000,那么方差就是200002.可以进行的比较简便的描述是该企业员工收入分布是200000±20000,使用方差就无法做到了.

应该注意的是,数学期望未必对任何概率分布都存在,无论是无穷的分布列还是连续型分布,数学期望都可能不存在.例如,可以取分段函数如下:

f (x)=-(α+1)g (x),则f (x≥0),且

这说明f (x)是某个随机变量的分布密度函数,其分布函数为

由于α>-2,所以α+2>0,于是

这说明该概率分布的数学期望是无穷大.

对于无穷的分布列也可能出现数学期望不存在的现象,读者不妨自己构造这样的例子.也可以取适当的f (x),使得数学期望不存在,事实上,只需要将上述g (x)修改成

其中-2<α<-1,再取适当系数c 使得f (x)=cg (x)满足,则f (x)是一个分布密度函数,且该概率分布的数学期望不存在.

著名的柯西分布f (x)=1/[π(1+x2)],-∞<x<+∞也是个数学期望不存在的例子,它可以描述物理学中受迫共振微分方程的解.

直观地看,任何连续型分布密度函数当x 趋于无穷时都是趋于0的,但密度函数趋于0的速度比较缓慢,乘上权函数x 之后,其趋于0的速度就变得更缓慢了,以至于变成一个不可积函数.由此也可以看出,由于随机变量X 的方差是密度函数与函数(x-EX)2乘积的积分,不难构造出随机变量X,使得其数学期望是存在的,但方差不存在.

离散随机变量的分布列也可能没有数学期望,例如,令xi=2ipi=1/2ii=1,2,3,…,n,…,则如下的分布列

没有数学期望,或者说数学期望为∞.

有限的分布列虽然不会出现数学期望不存在的现象,但可以利用类似方法解释某些现象.例如社会群体中低收入者占绝大多数(随机变量取值很小的概率很大),极少数人的收入非常高(随机变量取值很大的概率很小),数学期望可能会比较高.举个简单的例子,10个人中,有9个人的月收入为10000,另一个人的月收入为100000,这10个人的平均月收入为9000+10000=19000,其标准差为V=[(10000-19000)2•0.9+(100000-19000)2•0.1]1/2=27000,可见标准差之大.这说明,仅仅靠均值是不能说明问题的,虽然平均值比较高,但由于标准差比较大,说明两极分化现象严重,9个低收入的人与一个高收入的人收入被平均后,平均收入翻了近一倍.


6正态分布        

正态分布可能是中学概率教学中难度最大的一个知识点,数学期望与方差之后可以仅限于介绍正态分布直方图,完全没有必要引入所谓的正态密度曲线.虽然正态分布(也称高斯分布)的确是概率论中最重要的分布之一,但其定义中的两个参数是根据正态密度函数反推出来的.理论上看,参数μ可以取任意实数,σ可以是任意正数,对于满足上述条件的任意两个数μσ,函数

都是一个连续型分布密度函数.如果一个随机变量X 以p (x)为密度函数,则称该随机变量的分布是以μσ为参数的正态分布,记为N (μ,σ2),也称随机变量X 服从正态分布N (μ,σ2).根据这个分布可以推出X 的数学期望恰好是μ,标准差恰好是σ.在学明白微积分之前是不可能讲清楚正态分布的,学生更不可能真正理解正态分布,更何况正态密度函数中的数学期望与标准差并非教材针对离散随机变量定义的数学期望与标准差,它是积分形式的.为什么一定要介绍一个准备知识很不充分的概念呢?既浪费了时间也增加了学生的学习负担,而且这种负担是毫无意义的.

大学教材通常是采用公式化的方法定义正态分布密度函数,然后反推以这个函数为分布密度的随机变量,其数学期望与方差刚好是该函数中的两个参数,接着通过参数的变化解释其数学期望及方差与图形的形状之间的关系,这个方法对于中学生显然有些困难(参见文[1]和文[2]).但中学通过频率直方图不断加细(数据量越来越大)来说明正态密度函数需要经过3个质的飞跃:从直方图经过极限过程得到概率密度曲线,再从概率密度曲线过渡到具有两个参数的正态分布密度函数,最后根据正态分布密度函数指出数学期望和方差恰好是函数的两个参数.很难想象,初学微积分的中学生如何在短短一节课的时间内完成这3个飞跃.因为此前学生对连续型分布一无所知,什么叫概率密度曲线?它跟概率是什么关系?是哪个随机变量的概率密度?数据越来越多,意味着样本空间在发生变化,换言之,随机变量在发生变化,那么经历了极限过程后,这些随机变量变成了什么?恐怕没有哪个教师能回答这些问题.

教材的确针对不同的参数分析了正态密度曲线将呈现何种变化,问题是,其中的参数是什么?哪里来的?教材并未作出解释,教师在课堂上能作出解释吗?

这里做一个大胆尝试,结合现实中常见的问题以及教材中的例子,从图象的特征出发寻找可以模拟这类图象的函数.以函数模拟曲线作为出发点给予阐述是学生容易接受的一种方式,进一步通过函数的参数与函数图象形状的关系解释清楚随机变量的数学期望及方差与正态分布密度函数中参数的关系.

无论是连续型正态分布还是离散型频率直方图,教学的重点在于让学生理解这两类图形的高低、宽窄及位置的变化与数学期望、方差之间的关系.是连续曲线还是分块矩形本身并不重要,它们不过是外表,关键是要搞清楚内在的本质关系.

问题25:观察下面的图片,它们有什么共同点?有什么不同点?

问题26:上述两幅图的剖面图是什么形状?

可以通过板书或PPT形式画出大概的剖面图,此处不必急于讲正态分布概念,不妨对这类图形用数学方法进行模拟,得到一般图象的数学表达,再过渡到正态分布概念.

在研究了上述问题之后,有条件的话不妨介绍高尔顿实验板,还可通过Matlab等数学软件进行演示,效果可能会好得多.

问题27:如果用频率直方图将班级某门课程的考试成绩表示出来,这个直方图大概是什么形状?

不妨以几次真实的班级考试成绩作为例子画出直方图,正常情况下,成绩的分布是呈正态分布的,教师可以事先拿几份统计数据试做一下.

某版教材通过一组身高数据得到一个直方图也是可以的,教师课堂上直接使用这个例子也未尝不可,不管这个例子是不是杜撰的,无伤大雅,至少还是有一定现实意义的.

从某中学的男生中随机地选出84名,测量其身高,数据(单位:cm)如下:

上述数据的分布有怎样的特点?

为了研究身高的分布,可以先根据这些数据作出频率分布直方图.

第一步  对数据分组(取组距d=4);

第二步  列出频数(或频率)分布表,如图所示;

第三步  作出频率分布直方图,如图所示.

然而,中学讲授微积分并不介绍极限概念,在没有正式讲授微积分之前,从频率直方图过渡到连续的分布密度曲线,对学生而言有本质的困难.事实上,无论你的样本空间有多大,统计出来的总是一个频率直方图,所谓数据无限增多只能凭想象,在建立极限概念之前,学生是无法真正理解这个过程的.而且,某版教材简单一句话便从频率直方图过渡到概率密度曲线,紧接着便写出了正态密度曲线的函数表达式,并针对密度函数的两个参数对函数性质进行了大量分析.最后指出,两个参数分别是随机变量的数学期望与均方差.恐怕再高明的教师也没有能力在课堂上给学生来一个三级跳:从频率直方图跳到概率密度曲线,从概率密度曲线跳到正态分布密度函数,再从正态分布密度函数跳到参数的内涵描述.

中学阶段的正态分布教学应适可而止,或者只介绍频率直方图,最多做一番直观解释.当数据越来越大时,频率直方图中每一个小矩形条会越来越窄,其形状很像一个倒挂的金钟.待到大学阶段,系统学习了微积分之后再来学习连续型的正态分布为时不晚.或者引入问题1,从纯函数的角度模拟这个形状,得到正态分布密度曲线.

问题28:比较问题26与问题27所得到的两个图,虽然两者细节上的差别很大,但形状有什么特点?能不能用数学模型把问题26中的图形模拟出来?

可以引导学生进行分析,曾经学过的哪些函数其形状与这个图形有相似之处?如何对熟悉的函数做适当改进使其图象与这个图形接近?下图中的指数为什么是x2而不是x

(a)

通过对问题26与问题27的比较,引导学生分析两者之间的共同特点,虽然前者是曲面的剖面,它是连续的曲线,后者是一些矩形图构成的,但其形状颇为相似,当数据非常庞大时,矩形的宽会变得很窄,通过下面两幅图片可以说明这个过程.

问题29:问题28图(a)与图(b)及图(c)的形状虽然相似,但由于坐标系的建立有所不同,其函数的形式也有所不同.能不能通过对图(a)中的函数做适当修改得到类似图(b)或图(c)的函数关系?

显然图(b)、图(c)与图(a)相比,不仅对称轴有偏移,高度也不尽相同,如何对函数做修正,使得新的函数具有给定的最大值与对称轴?

如果图(b)的对称轴为x=μ,最大值为,需要对函数做什么样的修改?显然,与图(c)相吻合的函数应该是类似的函数.暂时不必对参数μσ作解释,先搞清楚与图象对应的函数大概是什么样子.到目前为止,图象与函数大体可以对应起来了,但还有两个问题.

(1)那个函数指数前面的系数是怎么回事?

(2)图象的形状也许相似,但宽窄很可能有差别,这种差别如何通过函数反映出来?

系数不是关键,因为这里的p (x)表示的并非概率分布,而是概率的密度,类似离散情况下的分布列中随机变量取某个值时的概率.所以这个系数是根据对概率的计算得到的,假定学生已经学过微积分,那么密度函数满足

其中是随机变量的分布函数,根据这个等式便可以计算出那个系数.

现在的问题是函数如何反映出图象的宽窄?显然,只要指数上加一个正的参数,便会改变图象的宽窄,既然是正数,不妨设这个数为σ2,为什么是平方而不是直接假设σ是正数?这又是个细节问题,目的是便于积分的计算.σ2放在指数的分母上还是分子上呢?这个问题就不是技术问题了,涉及这个参数的概率意义.在这里,应该暂时中止对函数的讨论,回头讨论参数的意义.

通过问题29观察一下,对称轴在哪里?学生只要仔细观察,会发现对称轴实际上就是平均值,但正如前面所说,平均值不足以反映一个班级或一堆数据的状态,还需要一个指标,那就是这些数据偏离平均值的程度,反映这个偏离程度的指标有两个:方差与标准差,方差大意味着什么?如果结合图形来分析,方差大说明图形呈现出什么变化?方差小,图形又呈现什么变化?不难发现,方差大意味着数据偏离均值的程度大,所以图形比较宽,方差小则意味着数据相对集中在均值附近,所以图形比较窄,这就是方差与图形的关系.由此可见,可以在密度函数的指数上选择参数为方差,而这个方差显然应放在分母上,即密度函数应该是这样的形式:

学生对指数函数的性质应该是比较熟悉的,所以不难理解指数中为什么方差在分母上.指数函数的系数如前所说,根据分布函数来确定,可以计算出来恰好是.这就是著名的正态分布密度函数.

为什么叫正态分布?顾名思义,正常状态下的分布,现实中很多随机现象都服从正态分布,这类分布是应用中最为广泛的分布之一.如果随机变量服从正态分布,且其数学期望为μ,方差为σ2,则记X~N(μ,σ2) .

问题并没有完全得到解决,因为是在假定数学期望与方差已知的情况下得到的分布密度函数,如果问题反过来呢?

问题30:如果随机变量X的分布密度为

是否确有EX=μDX=σ2

别指望学生能回答这个问题,抛出这个问题的目的不是为了解决这个问题,而是告诉学生,正态分布有一个公理化的定义,即形如的函数都定义了一个分布密度函数,且其数学期望恰好是μ,方差恰好是σ2,不过,要证明这件事需要利用一点积分知识,建议学有余力的同学不妨尝试着算一算.

问题31:如果已知随机变量的密度函数,如何求其概率分布函数?

只要是了解一点积分理论的学生不难回答这个问题,但有些学校也许在微积分之前讲授概率论.如何解决这个矛盾?可以利用直方图来解释这个问题,频率直方图中每个小的矩形代表离散型随机变量X取某个值的概率,如何求随机变量小于某个值x的概率?显然

换言之,将所有取值小于x的概率相加就得到P (X<x)了.离散型随机变量的分布列相当于连续型随机变量的密度函数,对于连续型随机变量来说,其分布函数为

如果时间允许,在上述分析的基础上,不妨针对不同的参数绘制几个正态密度函数的图象.


参考文献        

[1]  苏淳.概率论[M].北京:科学出版社,2010:43-106.
[2]  盛骤,谢式千.概率论与数理统计及其应用[M].北京:高等教育出版社,2004:25-68.


Teaching Strategy of Part Probability Content in Middle School Mathematics
CAO Guang-fu, LUO Li-ling
(Faculty of Mathematics and Information Science, Guangzhou University, Guangdong Guangzhou 510006, China)


Abstract:  In this paper, several important concepts in probability, such as hypergeometric distribution, conditional probability, discrete random variables and distribution column, independent random events and binomial distribution, mathematical expectation and variance, and normal distribution, were created to guide classroom teaching in real problem situations, which provided practical teaching scheme for teachers. In particular, the normal distribution density function was not the same as the formulaic definition in college textbooks and the limit definition of frequency histogram in middle school textbooks. According to the authors, the definition of formulaic was abstract for middle school students, but using the limit of frequency histogram to define normal density function was beyond the knowledge point and cognitive ability of middle school students, and the practical teaching was not operable. This paper starts from the function simulation of the real image, through the similarity between the real graph and the frequency histogram to find out the function to simulate such graph. Then discuss the relation between the parameters and the image, finally, return to the probability, discuss the relation between the parameters and the mathematical expectation and the variance.
Key words:  hypergeometric distribution; conditional probability; discrete random variable; distribution column; mathematical expectation; variance; normal distribution



数学教育学报JME


长按二维码关注

    发送中

    本站仅按申请收录文章,版权归原作者所有
    如若侵权,请联系本站删除
    觉得不错,分享给更多人看到