统计学中几个基本理论的释疑
文章摘要:如果仍用教材中的公式计算样本成数,则所计算出来结果就会与实际不符。 在计算加权算术平均数时,即使各组的单位数相等,权数也不一定会失去其应有的作用。正确的说法应该是:当各组权数相等且都等于某一任意常数时,权数就失去了其应有作用。此时,加权算术平均数就变成了简单算术平均数。也正是因为如此,所以我们说简单算术平均数是加权算术平均数的一个特例,是各组权数相等时的一种特殊的加权算术平均数。
对“下限在内,上限不在内”原则的辨析现行统计学教材在讲到组距式变量数列的编制时,指出 “凡遇到某单位的变量值刚好等于相邻两组界限时,例行规定是将这个单位归入作为下限的组内,即所谓„下限在内,上限不在内‟的原则。”代写理论统计学论文笔者认为,对其变量值刚好等于相邻两组界限值的单位,究竟是归入作为下限的组内,还是归入作为上限的组内,不应简单地像教材中所说的那样用一条“下限在内,上限不在内”的原则去解决,而是应当视变量的取值是越大越好还是越小越好来分别解决。具体说来,对于其取值越大越好的变量,当某一单位的变量值刚好等于相邻两组的界限值时,应按“下限在内
,上限不在内”的原则归组;而对于其取值越小越好的变量,当某一单位的变量值刚好等于相邻两组的界限值时,则应按“上限在内,下限不在内”的原则归组。因为只有这样,才能将性质不同的单位分别划归到不同的组里去,从而实现统计分组的目的。否则,就不能做到这一点。以下分别举例说明。
“下限在内,上限不在内”原则的例题资料如表6所示。表 6 按耐穿时间分组 (天) 鞋数 (双) 280~300 300~320 320~340 340~360 360~380 2 000 3 000 26 000 8 000 1 000 ∑40 000 注:国家规定,该种鞋的耐穿时间在300天以上(含300 天)为合格。此例中,由于鞋的耐穿时间是一个取值越大越好的变量, 因此,当某一双鞋的耐穿时间刚好等于300天时,理应将其归入300天作为下限的第二组,而不应将其归入300天作为上限的第一组。因为只有这样,才能保证第一组的鞋都是不合格的,第二组的鞋都是合格品。现在如果硬要将耐穿时间刚好等于300天的鞋划归到第一组中去,则第一组的全部鞋中,既有合格品,又有不合格品,这样就达不到统计分组的目的。 “上限在内,下限不在内”的原则的例题资料如表7所示 因为只有这样,才能确保第三组中的零件都为不合格品。否则的话,如果硬要将尺寸误差刚好等于3mm 的零件划归到第三组中去,则就会使第三组的全部零件中,既有合格品,又有不合格品,从而也就不能 达到统计分组的目的。对“整群抽样中样本成数计算公式”的质疑与释疑现行统计学教材中, 在谈到整群抽样方式下样本成数的计算公式时,往往是这样介绍的:若已知样本中各群的成数分别 P1, P2, P3,…Pr,则样本成数计算公式为: P=P1+P2+P3+…Prr=∑Pir(i=1, 2, 3,…, r) 例如,从某县的50个村中随机不重复抽取5个村,对被抽中的5个村的所有养猪专业户进行全面调查,以推算该县存栏牲猪数及其优良品种率。调查结果,各村养猪专业户存栏牲猪的优良品种率分别为90%、80%、50%、70%和55%,则该县养猪专业户样本存栏牲猪的优良品种率为: P =∑Pir =90%+80%+50%+70%+55%5 =69% 笔者认为,用上述公式计算样本成数是不正确的 一方面,在介绍平均数时,所有教材都讲到如果只知道若干个比率而要求计算其平均数,则最合适的方法应是简单几何平均法,而不应是简单算术平均法;另一方面,在实际抽样中,所获取的信息往往是计算各样本群成数的原始信息,此时,如果仍用教材中的公式计算样本成数,则所计算出来结果就会与实际不符。
因此,我认为,在计算样本成数时,应针对不同的已知条件,采取不同的计算方法: (1)当已知样本中各样本群内具有某种特征的单位数n1i、不具有某种特征的单位数noi和样本单位总数n三个中的任意两个时,可采用下列公式计算样本成数: P=∑n1i∑ni或=∑(ni-noi)∑ni=∑n1i∑(n1i+noi)(i=1, 2, 3, …, r) 如,假设原例中被抽中的5个村养猪专业户的存栏牲猪数分别为5 000头、8 000头、7 000头、8 800头和6 500头, 且其中的优良品种数分别为4 500头、6 400头、3 500头、 6 160头和3 575头,则该县养猪专业户样本存栏牲猪
的优良品种率为: P =∑n1i∑ni =4 500+6 400+3 500+6 160+3 5755 000+8 000+7 000+8 800+6 500 =68·37% (2)当已知样本中各样本群内具有某种特征的单位数占各样本群内单位总数的比重Pi和各样本群的单位总数ni时,可采用下列公式计算样本成数: P= Pini ni(i=1, 2, 3,…, r) 如,假设原例中被抽中的5个村中各村养猪专业户的牲猪存栏数分别为5 000头、8 000头、7 000头、8 800头和 6 500头,且其优良品种率分别为90%、80%、50%、70%和 55%,则该县养猪专业户样本存栏牲猪的优良品种率为: P = Pini ni =68·37%
统计学中几个基本理论的释疑
文章摘要:如果仍用教材中的公式计算样本成数,则所计算出来结果就会与实际不符。 在计算加权算术平均数时,即使各组的单位数相等,权数也不一定会失去其应有的作用。正确的说法应该是:当各组权数相等且都等于某一任意常数时,权数就失去了其应有作用。此时,加权算术平均数就变成了简单算术平均数。也正是因为如此,所以我们说简单算术平均数是加权算术平均数的一个特例,是各组权数相等时的一种特殊的加权算术平均数。
对“下限在内,上限不在内”原则的辨析现行统计学教材在讲到组距式变量数列的编制时,指出 “凡遇到某单位的变量值刚好等于相邻两组界限时,例行规定是将这个单位归入作为下限的组内,即所谓„下限在内,上限不在内‟的原则。”代写理论统计学论文笔者认为,对其变量值刚好等于相邻两组界限值的单位,究竟是归入作为下限的组内,还是归入作为上限的组内,不应简单地像教材中所说的那样用一条“下限在内,上限不在内”的原则去解决,而是应当视变量的取值是越大越好还是越小越好来分别解决。具体说来,对于其取值越大越好的变量,当某一单位的变量值刚好等于相邻两组的界限值时,应按“下限在内
,上限不在内”的原则归组;而对于其取值越小越好的变量,当某一单位的变量值刚好等于相邻两组的界限值时,则应按“上限在内,下限不在内”的原则归组。因为只有这样,才能将性质不同的单位分别划归到不同的组里去,从而实现统计分组的目的。否则,就不能做到这一点。以下分别举例说明。
“下限在内,上限不在内”原则的例题资料如表6所示。表 6 按耐穿时间分组 (天) 鞋数 (双) 280~300 300~320 320~340 340~360 360~380 2 000 3 000 26 000 8 000 1 000 ∑40 000 注:国家规定,该种鞋的耐穿时间在300天以上(含300 天)为合格。此例中,由于鞋的耐穿时间是一个取值越大越好的变量, 因此,当某一双鞋的耐穿时间刚好等于300天时,理应将其归入300天作为下限的第二组,而不应将其归入300天作为上限的第一组。因为只有这样,才能保证第一组的鞋都是不合格的,第二组的鞋都是合格品。现在如果硬要将耐穿时间刚好等于300天的鞋划归到第一组中去,则第一组的全部鞋中,既有合格品,又有不合格品,这样就达不到统计分组的目的。 “上限在内,下限不在内”的原则的例题资料如表7所示 因为只有这样,才能确保第三组中的零件都为不合格品。否则的话,如果硬要将尺寸误差刚好等于3mm 的零件划归到第三组中去,则就会使第三组的全部零件中,既有合格品,又有不合格品,从而也就不能 达到统计分组的目的。对“整群抽样中样本成数计算公式”的质疑与释疑现行统计学教材中, 在谈到整群抽样方式下样本成数的计算公式时,往往是这样介绍的:若已知样本中各群的成数分别 P1, P2, P3,…Pr,则样本成数计算公式为: P=P1+P2+P3+…Prr=∑Pir(i=1, 2, 3,…, r) 例如,从某县的50个村中随机不重复抽取5个村,对被抽中的5个村的所有养猪专业户进行全面调查,以推算该县存栏牲猪数及其优良品种率。调查结果,各村养猪专业户存栏牲猪的优良品种率分别为90%、80%、50%、70%和55%,则该县养猪专业户样本存栏牲猪的优良品种率为: P =∑Pir =90%+80%+50%+70%+55%5 =69% 笔者认为,用上述公式计算样本成数是不正确的 一方面,在介绍平均数时,所有教材都讲到如果只知道若干个比率而要求计算其平均数,则最合适的方法应是简单几何平均法,而不应是简单算术平均法;另一方面,在实际抽样中,所获取的信息往往是计算各样本群成数的原始信息,此时,如果仍用教材中的公式计算样本成数,则所计算出来结果就会与实际不符。
因此,我认为,在计算样本成数时,应针对不同的已知条件,采取不同的计算方法: (1)当已知样本中各样本群内具有某种特征的单位数n1i、不具有某种特征的单位数noi和样本单位总数n三个中的任意两个时,可采用下列公式计算样本成数: P=∑n1i∑ni或=∑(ni-noi)∑ni=∑n1i∑(n1i+noi)(i=1, 2, 3, …, r) 如,假设原例中被抽中的5个村养猪专业户的存栏牲猪数分别为5 000头、8 000头、7 000头、8 800头和6 500头, 且其中的优良品种数分别为4 500头、6 400头、3 500头、 6 160头和3 575头,则该县养猪专业户样本存栏牲猪
的优良品种率为: P =∑n1i∑ni =4 500+6 400+3 500+6 160+3 5755 000+8 000+7 000+8 800+6 500 =68·37% (2)当已知样本中各样本群内具有某种特征的单位数占各样本群内单位总数的比重Pi和各样本群的单位总数ni时,可采用下列公式计算样本成数: P= Pini ni(i=1, 2, 3,…, r) 如,假设原例中被抽中的5个村中各村养猪专业户的牲猪存栏数分别为5 000头、8 000头、7 000头、8 800头和 6 500头,且其优良品种率分别为90%、80%、50%、70%和 55%,则该县养猪专业户样本存栏牲猪的优良品种率为: P = Pini ni =68·37%