《卫生统计学》考试题(A 卷)
一、填空 (每空1分,共15分) 1、统计工作的基本步骤分
1. 正态分布曲线的特征有哪些? 2.试述标准差与变异系数的异同点。 3.统计学中常见的变量类型有哪些?
为 、 、 举例说明。 、。 2、常用的定量资料集中趋势的描述指标
有 、 、 。
3、正态分布N (μ,σ2)曲线下,从
μ-1.96σ到μ+2.58σ的面积占曲线下总面积的百分比是 。 4、方差分析的应用条件是 、 、。
5、常用的相对数指标
有 、 、 。 6、χ
2
检验的基本公式
为 。
二、名词解释(每小题5分,共20分)
1、样本 2、抽样误差 3、第Ⅱ类错误 4、同质 三、问答题(每题10分,共40分):
4、某医师对一组高血压病人在治疗过程中作追踪观察,记录其死因,并与未作治疗的高血压病人组作比较,两组死因构成比见表1。有人据此提出:“高血压患者经过治疗虽然可以降低充血性心力衰竭等的病死率,但却使因冠状动脉硬化性心脏病和心脏病猝死的死亡危险性增加了。”这样的认识是否正确,为什么?
表1 高血压患者治疗组与未治疗组的死因
构成比(%) 死亡原因 治疗组 未治疗组 充血性心力4.3 23.2 衰竭 脑血管病 23.2 39.6 尿毒症 9.8 12.2 冠状动脉病48.7
17.1
和心脏病猝死
其它原因
14.0 7.9 合计 100.0
100.0
四、计算题:(25分)
1、某医师调查了当地100名健康成年男性的总补体溶血活性,得均数为
37.0U/ml ,标准差为4.0 U/ml。请
根据上述资料估计: ①该地健康成年男性总补体溶血活
性的95%正常值范围;
②该地健康成年男性总补体溶血活性总体均数95%的可信区间。(10分) 2、某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为2组,结果见表2。问2种药物治疗脑血管疾病的有效率是否相等?(15分)
表2 两种药物治疗脑血管疾病有效率的比
较
组 有别 效 无效
合有效计 率(%)
胞磷
胆46 6 52 88.46
碱组 神经节
苷18 8
26
69.23
酯组 合
1计 64 4
78 82.05
《卫生统计学》考试题(B 卷)
一、填空 (每空1分,共15分)
1、正态分布的两个参数分别为 和 。
2、定量资料离散趋势的描述指标
有 、 、 、。
3、标准正态分布曲线下,从-∞到+2.58的面积占曲线下总面积的百分比是 。
4、方差分析的应用条件是
5、常用的相对数指标有 、 、 。
6、对于四格表资料χ2检验,当 且 ,应该选用χ2检验基本公式。
二、名词解释(每小题5分,共20分)
1、总体 2、小概率事件 3、第Ⅰ类错误 4、同质
三、问答题(每题10分,共40分): 1. 定量资料集中趋势的描述指标有哪些?分别写出其计算公式及适用的资料类型。
2.正态分布曲线的特征有哪些?
3.两样本均数比较的t 检验和u 检验
的应用条件分别有哪些?
4 、试述标准差与标准误的区别与联
系。
四、计算题:(25分) 1、某地随机测量360名男性与255名
女性的血红蛋白含量,其中男性平均为13.45 g/100ml,标准差为0.71 g/100ml;女性为11.76 g/100ml,标准差为1.02 g/100ml,问该地区男、女性的血红蛋白是否相同?(10分) 2、某研究人员用磁疗法分别治疗扭挫伤患者708人和腰肌劳损患者347人,治疗有效人数分别为673人和312人,有效率分别为95.06%和89.91%,问两组患者的总体有效率有无差别? (15分)
表2 两种药物治疗脑血管疾病有
效率的比较 组 有别 效 无效
合有效计
率(%)
扭挫伤
患673 35708 95.06
者组 腰肌劳
损312 患35
347 89.91
者组 合
7
计
985 0
1055
93.36
【试题】2012-06-##/山东大学/公共卫生学院/卫生统计学 一、问答(10*7)
1、常用的相对数指标及使用注意事项 2、统计描述常用指标、计算公式及适用范围
3、什么是抽样误差?在正态分布、二项分布、poisson 分布中的计算公式
4、对于四格表资料的计算公式及使用范围 5、多元线性回归方程、各系数的意义及评价方程好坏的指标
6、实验设计的三个要素和基本原则 7、A 、B 两因素各有两个水平,设计一个实验看两个因素的单独效应及交互效应。每个作用条件有6只小鼠,问共需几只小鼠。 二、计算(15*2)
1、给与一组数据,求X 和Y 之间直线回归关系(画散点图时注意X 的数值比Y 大) 2、求一组完全随机设计(不均衡资料)的方差分析
【试题】2011-12-16/山东大学/医学院/09级/临八/医学统计学
1、填表题。计算死亡构成比、死亡率
2、给了一段材料以及结论,分析结论正误。结论错在“用构成比代替率”
3、抽样误差的概念。如何衡量正态、二项、poiss
on 分布的抽样误差,写出公式
4、举例解释P 值、I 型错误、II 型错误、检验效能 5、方差分析的基本思想、应用条件、用途
6、写出多元线性回归、logistic 回归方程的模型公式,两模型中β的意义
7、实验设计题。用到析因设计。写出设计方案,随机分组的步骤
8、计算题。求直线回归方程以及95%的可信区间
9,10两题给出了一些SPSS 计算结果,根据材料进行选择并写出假设的步骤,分别用到卡方检验和t 检验
【试题】2011-12-1/山东大学/口腔医学院/08级/口腔七年制/医学统计学
1. 举例说明总体和样本
2. 数据变量资料集中趋势的指标、适用范围、公式
3. 大学生身高的样本,给出均值和标准差,求一定范围内样本所占比例 4. 标准差和标准误的区别
5. 给出两组资料,写出两样本均数t 检验分析思路
6. 给出三组资料,写出分析思路(方差分析) 7. 完全随机四格表资料分析思路 8. 直线相关和回归的区别与联系
【试题】2011-6-24/山东大学/公共卫生学院
/2007级/卫检预防卫管/医学统计学
一、单选 10*2=20分
二、简答题
1、何为抽样误差,标准差与标准误的区别与联系
2、常用的概率抽样方法及各自如何操作 3、回归方程中b 的意义
4、Logistic 分析的方程式,其中β的实际意义
三、分析题 2*15=30分
1、给出三组数据,对其进行整理 2、两个定量资料 a 判断其有无相关 b 其回归性如何
2011-6-24/山东大学/公共卫生学院 2007级 预防医学 卫生检验班
统计学
1. 抽样误差 均数标准误和标准差之间的区别和联系?
2. Ⅰ型错误和Ⅱ型错误 检验效能 是什么
之间的联系?
3. 最小二乘法的假设条件
4.logistic 的变量类型 回归方程 偏回归系数的流行病学意义? 5. 抽样方法? 还有两道论述
1. 疫苗注射后不同滴度 抗体效价 有效无
效 给了一些数据 要求整理表格 写出描述性指标 不要求计算
2. 实际身高 和 自报身高 有无差别的检
验方法 要求写公式
自报体重和实际体重的相关与回归的步骤 不要求写公式
【试题】2011-6-8/山东大学/医学院/ 07级/七年制/统计学
总共9个题
1 举例说明总体和样本?
2就是往年题里甲地乙地出生婴儿体重的那个题,一共4问
3数值变量集中趋势指标,适用范围,公式 4总体率的可信区间的含义与怎么估计 5实验设计的原则,目的是什么?
6A,B 两个药治疗某疾病,疗效为二分类变量(有效为1,无效为0),A ,B 两药使用有两个水平(使用为1,不用为0),先得
logit(P)=0.25xA+0.8XB+某常数,什么A B两药使用过程相互独立什么的。(1)是评价AB 良药的疗效(2)同时使用两药与两药都不使用的优势比 7完全随机设计的方差分析(1)完善方差分析表SS 总和SS 组间已知,k=3(2)得出结论 8一个直线回归分析,题中说明存在散点图存在线性趋势
9是一个配对四个表的题,给出了SAS 配对卡方检验的结果
(1)问给的资料是什么类型?设计方案
(2)所用的统计分析方法,给出假设,统计量,P 值与最后结论
【试题】2011-01-12/山东大学/口腔医学院/2007级/口七/医学统计学
共九个大题(80分) 1。举例说明总体和样本
2。如何对一组资料进行描述性分析 3。四格表资料的分析思路
4。方差分析的用途和应用条件(5分)
5。对一组变量进行分类,并说明各分类的定义(题中给了一些变量及他们的变量值,让你进行分类) 6。给了某地区血红蛋白的检测结果,给了样本含量,均数,标准差。说“有人认为,该地区的男女的血红蛋白都偏低,并且男性比女性的高”问你对不对。
7。两种药甲药与乙药。给了各10个治疗前后的白细胞数值。第一问:甲药乙药对白细胞数量的变化有无影响,第二问是甲药与乙药对白细胞数量变化的影响有无差别。 甲药(治疗前) 甲药(治疗后) 乙药(治疗前) 乙药(治疗后)
8。给了一组数据,要你计算两变量的相关回归分析。(相关跟回归都写)
9。医学参考值范围与可信区间的区别。 10。上机(20分)
【试题】2010-6-28/山东大学/公共卫生学院/2006级/预防管理检验/卫生统计学
1、何谓总体并举例说明 5'
2、均数、几何均数、中位数的适用范围有何异同 10' 3、相对数应用的注意事项 5' 4、标准差和标准误的区别和联系 10' 5、t 检验的应用条件 5'
6、简述假设检验中的两类错误和检验效能 10' 7、两个样本率比较的方法有哪些,并写出计算公
式 10'
8、直线相关和回归分析的主要步骤,相关系数和回归系数的统计学意义 15'
9、多元线性回归中偏回归系数的统计学意义,回归效果评价的指标以及如何评价10'
10、完全随机设计和配对设计的实验设计方法以及数据的统计学分析思路 20'
【试题】2010-01-15/山东大学/医学院/2007级/临床八年制/医学统计学
1 方差分析的基本思想,用途和条件
2什么是抽样误差?如何衡量正态分布,二项分布和poisson 的抽样误差 3标准差和标准误的区别与联系 4什么是截尾值?出现的原因?
5多元线性回归分析中R2和Sy123m 的统计学意义
6完成交叉设计的方差分析表
7根据两独立样本推断两总体率相等的方法有哪些?如何正确选用?分析思路? 8随机区组设计的分组方案 9问一例回归分析的步骤和公式 10实验操作
【试题】2010-6-28/山东大学/医学院/2006级临七/医学统计学
12道题 8个简答 4个计算 简答
1. 医学参考值和可信区间的区别 2. 错用构成比代替率的一个例子 3. 方差分析的基本思想,应用条件,用途 4. 析因设计, 计算需要多少只动物 5.logistic 回归的偏回归系数含义 6. 假设检验的两类错误的概念 7. 二项,破送,正态分布的联系
8.r*c表的一个题, 分哪几种, 每一种用什么方法检验 题中的是单向有序? 这部分没看, 七年制的那白皮课本上没这概念啊.... 不会, 绿皮书上有 计算
1. 可信区间计算, 两样本的均数比较,u 检验 2. 四格表资料 3. 直线回归计算
4. 完全随机设计的方差分析
计算中间结果都给了, 计算器会加减乘除开方就行
计算很简单, 注意下计算题的假设检验的步骤, 直线回归画散点图
9. 假设检验的相关问题
10. 随机区组设计的一份数值变量资料,共分三组,要求统计学分析思路
【试题】山东大学/医学院/2003级/临床医学七年制/医学统计学
一.问答题(每题10分)
【试题】2009-6-24/山东大学/医学院/2005
级/临七/医学统计学
1 举例说明参数和统计量。5分 2 集中趋势的指标,公式,应用范围。5 3 假设检验的基本思想。10
4 医学参考值范围和区间估计的题。 10 5 多元线性回归的共线性和其诊断指标。10 6 生存分析定义和方法。10 7 R*C表计算,15 8 线性回归分析计算,15
9 拉丁方设计 5只兔子,5个注射部位,5个注射顺序,编一个方案。15分 10 实验 15
计算题和课本上一个难度,不难。
【试题】2009-7-3/山东大学/公共卫生学院/05级预防检验管理/医学统计学
简答题(ten points each)
1. 标准差与标准误的区别与联系,医学参考值范围与置信区间的两个表达式的统计学意义。 2. 相对数应用的注意事项 3. 简述影响样本含量的关键因素 4. 四格表的统计学分析思路 5.R×C 列联表的统计学分析思路 6. 双变量相关分析的统计学分析思路 7.(1)泊松分布 二项分布 正态分布的联系 (2)总体均数 总体率 泊松分布95%样本数的估计 8. 回归分析中,总变异,回归变异,剩余变异,决定系数,剩余标准差的统计学意义
1.举例说明何谓总体,何谓样本?抽样研究的目的是什么?
2.为研究赖氨酸对儿童生长发育指标(身高和体重)的影响,分别以添加赖氨酸的面包和普通面包喂养幼儿,并观察比较两组儿童的发育情况。现以随机整群的方法抽中4所幼儿园(分别包括大、中、小三个年级各4个班)。请写出试验分组的方案。
3.在一次临床试验中需用200例病人。研究者根据病人就诊顺序编号,将前100名病人分入A 组,后100名病人分入B 组。你认为这种设计方案是否遵循了有关统计学原则?理由是什么?若你有不同的分配方案,请写出来。
4.某医师观察罗布麻降血压的效果,对80名高血压患者进行临床试验,患者服药半月后复查,收缩压平均下降了2.8kPa ,该医生就认为此汤剂有降压作用。你同意这一结论吗?为什么?
5.为了考察C 、D 和E 3因素(皆为2水平)对某生理指标的影响,采用析因设计方案,每种试验组合随机选取7只雄性大白鼠为试验对象。请根据试验结果写出下列方差分析表。(20分)
(1) 试完成方差分析表;
(2) 根据方差分析表能判断D 因素两水平间差别无统计学意义吗?为什么?
(3) 如不考虑二级交互作用,请列出新的方差分析表。 方差分析表
变异来源 自由度 离均差平方和 均方 F 值 总变异 ( ) 215.0 C ( ) 31.6 ( ) ( ) D ( ) 0.3 ( ) ( ) E ( ) 17.0 ( ) ( ) C*D ( ) 0.7 ( ) ( )
C*E ( ) 9.7 ( ) ( ) D*E ( ) 13.1 ( ) ( ) C*D*E ( ) 2.6 ( ) ( ) 误 差 ( ) ( ) ( )
6.甲、乙两人分别独立分析处理同一资料,两人选用检验方法相同并且合理,计算所得的统计量也相同且均正确,不同之处为:假设检验中甲将 定为0.05,乙将 定为0.01。两人所有检验结果的可能组合为:
(1) > , ≤ (2) ≤ , > (3) ≤ , ≤ 请分别写出每种组合中甲乙两人所犯的错误及其概率的大小,如果两人所犯错误的类型相同,请比较两人所犯错误概率的大小。 7.用卡方检验分析分类变量(两行两列、多行多列)时,对资料有何要求?如果资料不满足条件应如何解决?
二、计算题(每题15分)
1.某地检测了120份中药黄连中的小蘖碱含量,其数据近似正态分布,均数=4.38mg/100g,标准差=0.18mg/100g。 ①估计该地黄连中小蘖碱含量的总体水平。 ②95%的黄连样品中小蘖碱含量分布范围。 ③今测得该地一份黄连样品的小蘖碱含量为4.01mg/100g,应如何评价?
④这120份样品中小蘖碱含量低于4.20mg/100g的,理论上有多少份? ⑤从这120份样品中随机抽查10份,测得其 ≥4.44mg/100g的可能性有多少?
⑥该地另检测了100份新法培育的中药黄连,其小蘖碱含量的均数=4.33mg/100g,标准差=0.16mg/100g,这两批黄连样品中小蘖碱含量有无不同?
⑦从药典中查得黄连中小蘖碱含量为4.40mg/100g,该地黄连中小蘖碱含量有否偏低?
2 .随机抽查13名8岁健康男童的体重(x )与心脏横径,结果见下表,请问二者间有无线性关系?
13名8岁健康男童的体重与心脏横径 编号 体重(Kg) 心脏横径(cm) 1 25.5 9.2
2 19.5 7.8 3 24.0 9.4 4 20.5 8.6 5 25.0 9.0 6 22.0 8.8 7 21.5 9.0 8 23.5 9.4 9 26.5 9.7 10 23.5 8.8 11 22.0 8.5 12 20.0 8.2 13 28.0 9.9
【试题】2009-01-16/山东大学/口腔医学院/2005级/口腔七年/医学统计学
1,举例说明假设检验的基本思想(5分) 2,正态分布,二项分布,poisson 分布的95%可信区间(10分)
3,两个数值变量相关关系分析(5分)
4,卡方分布,行×列表使用条件(原题是拐着弯问的)(10分)
5,多元共线性诊断指标(给了个例子问是怎么回事)(10分)
6,随机区组设计分组(实例,给了随机数字表,让你自己分)(10分)
7,一个2×2×2析因设计,分组,分析思路(10分) 8,一个献血者和非献血者骨什么含量的分析,调查了200个献血者和1400个非献血者,记录其性别和年龄,……问原来的资料整理方法和分析方法对不对,为什么,应该怎样(10分)
9,一个原始资料,问包含是哪些类型的资料,将其整理并描述(10分)
题感觉大部分有点难,直来直去的题不多,很多都是应用题类型的。而且题量有点多,时间很紧。最
近找题,愣是没找到口腔以前的考题,这次把我们的发上,希望能方便后来人~
2001年七年制临床医学专业考
试试题
一、解释以下概念 1、 同质与变异 2、 均数的抽样误差
3、 假设检验P 值得含义,以及与α的关系 4、 变量及其变量类型,并举例说明 二、简述标准差与标准误的异同与关系 三、常用得抽样分布及其参数的区间估计 四、方差分析的应用条件及其用途
五、某实验需在5%和15%两种氧浓度下进
行,每种氧浓度下分别使用甲、乙、丙、
丁四种药物对K 562细胞进行抑制,每个试验条件下均重复4次实验(独立的4个样品),其观测指标为计量资料(数值变量资料)。问该实验适于用何种实验设计,并写出设计方案
六、简述完全随机设计的两样本比较的分
析思路,并写出相应统计量的计算公式 七、分别写出非条件logistic 回归和条件
logistic 回归模型的一般形式,并解释其中各符号的含义。 八、上机 A、B 、C 、D
2001级七年制临床医学专业考
试试题答案
一、解释以下概念:
1、同质:对研究指标影响较大的、可以控制得主要因素尽可能相同。 变异:同质基础上各观察单位的某变量值得差异称为变异。
2、均数的抽样误差:由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。
3、假设检验P 值含义:P 值是指从所规定得总体中随机抽样时,获得等于及大(负值时为等于及小于)现有样本统计量的概率。 若, 按检验水准不拒绝,可认为现有样本所代表的总体与已知总体的差别是由抽样误差造成的。若,依据“小概率事件在一次随
机试验中认为不可能发生”的定理,拒绝,接受;可认为从已知总体抽到现有样本得可能性很小,该样本可能来自另一总体。 4、变量及其变量类型:
变量:在搜集资料时,对每个观察单位得某项特征进行测量或观察,该特征称为变量。 变量类型:
1. 数值变量其变量值是定量的,表现为数值得大小,通常用仪器或某种尺度测定出来,多有度量衡单位。由数值变量的测定值组成的资料称为数值变量资料或计数资料。如:身高、体重、心律、住院天数、血压等。 2. 分类变量亦称定性变量,表现为互不相容的类别或属性。分类变量可分为无序与有序两类:
(1)无序分类分类是指所分类别或属性之间无程序或顺序上的差别。分析无序分类变量时,应先按类别分组,计各组的观察单位数,所得资料称为无序分类变量资料或计数资料。如:性别(男、女),血型(O 、A 、B 、AB )等。
(2)有序分类变量是指所分类别或属性之间无程序或顺序上的差别。分析有序分类变量时,应先按等级顺序分组,计各组的观察单位数,所得资料称为有序分类变量资料或等级资料。如:尿糖化验结果按-、±、+、++、+++分类,疗效按治愈、好转、无效、恶化分组。 二、
标准差:计算公式:s =
X -n —1
(1) 表示观察值的变异程度 (2) 计算变异系
数
CV =
s
⨯100% (3) 确定医学参考值范围 (4) 计算标准误
(5) 与样本含量没有关系 标准误:计算公式:s s =
n
(1) 估计均数的抽样误差的大小 (2) 估计总体均数可信区间 :
(-t αν
s ,+t αs )
22ν
(3) 进行假设检验 (4) 与样本含量成反比
三、1、t 分布,均数的区间估计: 1)δ未知且n 小
(-t
α2,νs +t α,νs )
:
P =
exp (β0+β1X 1+β2X 2+ +βm X m )
1+exp (β0+β1X 1+β2X 2+ +βm X m )
2)δ未知,但n 足够大时(n>100),t 分布逼近u 分布:-u α2s +u αs 3)δ已知:-u α2σ+u α2σ 2、二项分布:当样本含量n 足够大,且样本率p 或1-p 均不太小,如np 与n (1-p )均大于5时,样本率p 的抽样分布近似正态分布,总体率π的可信区间:p -u αs p ,p +u α2s p
()
,
其中β0是常数项,β1、β2 βm 为偏回归系数。
条件logistic 回归模型:
()
P i =
exp (β0i +β1X 1+β2X 2+ +βm X m )1+exp (β0i +β1X 1+β2X 2+ +βm X m )
()
3、Poisson 分布:当样本阳性数X>50时,可按正态近似原理先求总体平均数μ的95%或99%可信区间:
(i=1,2,…n ),
其中β0i 表示各层的效应,β1、β2 βm 为待估计的参数。
(X -u
αX ,X +u αX
)
四、方差分析的应用条件:
1)各样本是相互独立的随机样本;2)个样本来自正态分布总体;3)各总体方差相等,即方差齐。
应用:1)两个或多个样本的均数间的比较;2)分析两个或多个因素间的交互作用;3)回归方程的线性假设检验;4)多元线性回归分析中偏回归系数的假设检验等。
五、该设计是2*4析因设计
设计方案如下, 如图所示,可将八个样品随
5、6、7、8,再用随机数字表将其标上随机数字,(随机数字表略去)将随机数字排秩,按秩次的1到8,分别取从A1B1、A1B2、A2B1、...、A4B2。进行实验。
六、先将受试对象编号,再利用随机列表或随机数字表或计算机软件产生的随机数字,按某一行将受试对象编上随机数字,然后将其随机数字编秩,秩次为奇数的分为一组,秩次为偶数的分为一组进行实验。这就是完全随机设计两样本比较的分析思路。 其检验统计量t值是:
2002级临床医学七年制《医学统计学》期末考试题(A 卷)
一、试述标准差与标准误的联系与区别。 二、请以完全随机设计资料为例说明方差分析的基本思想。
α=0.05,所得的概率
为P
三、在某次假设检验中, 义?
四、研究人员调查了2005年某社区全部居民的全
死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息? (10分)
表1 某社区居民2005年死亡人口调查
年龄 0~ 20~ 40~ 60~ 合计
人口数 82920 46639 28161 9370 167090 全死因 死亡人数 138 63 172 342 715
2
恶性肿瘤 死亡人数
4 12 42 32 90
五、请解释多元线性回归分析中R 和s y ⋅123 m 的统计学意义。
六、什么是随访资料中的截尾值?出现截尾值的原因有哪些?
七、中国人民解放军总后卫生部军需装备研究所研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验
-2
, ν=n 1+n 2-2 t =1
s 1-s 2
七、
非条件logisti 回归模型:
组?请写出设计方案。
八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分)
血清胆固醇(mmol/L) 频数
2.5~ 1 3.0~ 8 3.5~ 9 4.0~ 23 4.5~ 25 5.0~ 17 5.5~ 9 6.0~ 6 6.5~ 2 7.0~7.5 1 合 计 101
九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同?
十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分)
表3 10名男20岁男青年的身高与前臂长 编 号 1 2 3 4 5 6 7 8 9 10 身1111111111高7765787886(c0 3 0 5 3 8 8 3 0 5 m) 前 臂4444454444长5
2
4
1
7
7
6
9
3
(cm)
可能用到的界值: t 0. 05, 8
=1. 860,
2002级临床医学七年制《医学统计学》期末考试
试题(A )参考答案
一、试述标准差与标准误的区别和联系 答:区别:
⑴意义:标准差是描述数据分布离散程度的指标;标准误是样本统计量的标准差。 ⑵公式:S =
(X
-) 2
;
n -1
S S =
n
(2分)
⑶用途:标准差①用于表示数据离散程度的
大小;②也可用于计算变异系数、估计频数分布、制定参考值范围、进行质量控制;③很多统计处理方法中要用到标准差。 标准误①用于反映抽样误差的大小;②计算
总体均数的可信区间;③统计处理方法的基础,如t 检验。
联系:标准误与标准差成正比;若标准差固定不变,可通过增加样本含量来减少抽样误差。 二、请以完全随机设计为例说明方差分析的基本思想
答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:
SS 总分解为SS 组间和SS 组内;ν总分解为ν组间
和ν组内,得组间变异和组内变异分别为
MS SS 组间
组间=
ν和MS 组内=
SS 组内
组间
ν,若各组的
组内
来自同一总体,则各组间的变异与组内变异一样,均由随机误差所致,MS 组间=MS 组内,F
值
(F
=
MS 组间MS )服从F 分布,查F 界值表得到
组内
相应的P 值,然后根据所取的检验水准α做出推断结论。答案难以统一,只要基本意思表达正确,
均应给分,阅卷时需灵活掌握,注意把握尺度。 三、在某次假设检验中,检验水准为α=0.05,
所得的概率为P
P
的意义?
答:α称检验水准,是预先给定的概率值,它确定了小概率事件的标准;P 的含义是指从H 0规定的总体随机抽得等于及大于(或等于及小于)现有样
本获得的检验统计量值的概率,即抽样误差的概率。将获得的概率P 与检验水准α进行比较可得出结论。本例α
=0.05,P
绝H 0,接受H 1,结论具有统计学意义,可以认为不同或不等。
四、研究人员调查了2005年某社区全部居民的全
死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息?
答:可以得到以下统计信息:各年龄组人口构成比、
各年龄组全死因构成比、恶性肿瘤死因构成比和各年龄组恶性肿瘤死亡构成比、粗死亡率和年龄别死亡率、恶性肿瘤死亡率和年龄别恶性肿瘤死亡率。(不要求:肿瘤后的死亡人数占全死因死亡人数的比例、全死因寿命表死亡概率、全死因寿命表生存概率、去肿瘤死亡后的生存概率、去肿瘤死亡后的尚存人数、去肿瘤死亡后的死亡人数、去肿瘤死亡后的生存人年数、去肿瘤死亡后的生存总人年数、去肿瘤死亡后各年龄尚存者的平均预期寿命。)
五、请解释多元线性回归分析中R 2
和s y ⋅123 m 的
统计学意义。
答:R 2
为决定系数,其意义是回归平方和SS 回归占
总离均差平方和SS 总的比例,用R 2
可定量评价在
y 的总变异中,由x 变量组建立的线性回归方程所
能解释的比例。s y ⋅123 m 为剩余标准差,可以说明估计值的精确度,剩余标准差越小,表示回归方程的估计精度越高。
六、什么是随访资料中的截尾值?出现的原因有哪些?
答:由于某种原因使得部分病人不能随访到底,称之为截尾,从起点至截尾点所经历的时间称为截尾值。出现截尾值的原因主要有随访对象失访、治疗措施改变、研究工作结束时事件尚未发生等情况。 七、研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验组?请写出设计方案。
答:应采用2×2析因设计,需安排4个实验组。具体设计方案如下:
状态1 状态2 环境1
1 2 3 4 5
1 2 3 4 5
环境2 1 2 3 4 5 1 2 3 4 5
八、今测得101名30~49岁正常成年男子的血清总胆固醇(表2)。据此资料进行全面的统计分析。(10分)
答:⑴由频数表可看出,资料近似服从正态分布,可用均数和标准差描述其集中趋势和离散趋势。
=
∑fX
f
=4. 74
,
∑fX
2
-
(fX ) 2
S =
f
f
-1
=0. 8816
⑵制定95%参考值范围:
±1. 96S =4. 74±1. 96*0. 8816=(3. 0071,6. 4631)
⑶估计总体均数的可信区间:n=101>50
±u S α2
n
=4. 74±1. 96
0. 8816=(4. 5632, 4. 9071)
九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同? 答:首先将资料整理成下表形式:
是否患高血压 是 否 合计 工人 386 895 1281 农民 65 322 387 合计
451
1217
1668
1.建立检验假设,确定检验水准
H 0:π1=π2, 工人与农民的高血压患病率相同 H 0:π1≠π2, 工人与农民的高血压患病率不同
α=0. 05
2.选定检验方法,计算检验统计量(可选用下列两种方法之一): (1)χ2
检验:
χ2=
(ad -bc ) 2⨯n (a +b )(c +d )(a +c )(b +d ) =(386*322-895*65) 2*1668
1281*387*451*1217
=26. 80
(2)u 检验:
u =
p 1-p 2
p c (1-p c )(
11+) n 1n 2
=
0. 3013-0. 168011
0. 2704(1-0. 2704+)
1281387
=5. 17
二、 请以完全随机设计资料为例说明方差分析的
基本思想。
三、 什么是假设检验的检验效能?其大小与哪些
因素有关系?
四、某医师对一组高血压病人在治疗过程中作追踪观察,记录其死因,并与未作治疗的高血压病人组作比较,两组死因构成比见表1。有人据此提出:“高血压患者经过治疗虽然可以降低充血性心力衰竭等的病死率,但却使因冠状动脉硬化性心脏病和心脏病猝死的死亡危险性增加了。”这样的认识是否正确,为什么?
因 充血性心力衰竭 脑血管病 尿毒症 冠状动脉病和心脏病猝死 其它原因 合 计
五、请分别解释Logistic 回归模型和Cox 回归模型
4.3 23.2 9.8 48.7
23.2 39.6 12.2 17.1
⑶确定P 值,作出推断结论
(或u =5. 17>1. 96),χ2=26. 80>3. 84,
所以P <0.05。拒绝H 0,接受H 1,可以认为工人和农民的高血压患病率不同。
十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分) ⑴作散点图(略) ⑵求相关系数
,,,∑X =1725∑Y =454∑XY =78541∑X
2
=298525,∑Y 2=20690
l xy
454*1725
=78541-=226,
10
l xx =298525-l yy =20690-r =
l xy l xx l yy
=
1725
=962. 510
2
2
,
454
=78. 4 10
22678. 4*962. 5
=0. 8227
14.0 100.0 7.9 100.0
中偏回归系数的意义。
六、生存时间资料有哪些特点?生存分析常用的分析方法有哪些?
七、某研究室人员为研究5个不同剂量的甲状腺提取液对豚鼠甲状腺重的影响,考虑到豚鼠的种系和体重对观测指标可能有一定的影响,选用5个种系的豚鼠作实验,并按5个不同的体重标准选择受试
⑶相关系数的假设检验 ①H 0
:ρ=0, 两变量间无线性相关关系
两变量间有线性相关关系 H 1:ρ≠0,
α=0. 05
②
t =
r 1-r
n -2
2
=
0. 82-0. 82
8
2
=4. 05
对象,根据专业知识得知,药液、豚鼠种系、体重之间不存在交互作用。本研究应采用何种设计类型?共需多少只豚鼠?请写出实验设计方案。 八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分) 血清胆固醇(mmol/L)
2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~
频数 1 8 9 23 25 17 9 6
③t >1. 860, 所以
P <0.05,拒绝H 0,接受
H 1,可以认为两变量间存在线性相关关系,并且
呈正相关,即身高越长,前臂长越长。
2002级临床医学七年制《医学统计学》期末考试题(B 卷)
一、 试述t 分布与u 分布的联系与区别。
6.5~ 2 7.0~7.5 1 合 计 101
九、某医院收集了305例手术患者的资料,其中手术时间≥5小时者242人,感染者13人;手术时间<5小时者63人,感染者7人。试据此分析手术时间长短对患者切口感染是否有影响? 十、某地10名一年级女大学生的胸围(cm )与肺活量(L )数据如表3所示,试进行直线回归分析。(10分) 学生
编1 2
3
4
5
6
7
8
9
1
号 胸7878787777围2. 3. 8. 8. 7. 1. 8. 4. 3. 9. X 5 9 3 4 1 7 3 8 7 4 肺
活
2. 3. 1. 3. 2. 2. 3. 1. 2. 3. 量
5192881992Y 1 1
1
8
3
6
6
1
8
8
可能有用到的界值:
t 0. 05, 8=1. 860,
t 0. 05, 9=1. 833
,
t 0. 05=2. 306
,
2, 8
t 0. 05=2. 262。
2, 9
方差分析用F 界值:
F 0. 05(1, 8) =5. 32
2002级临床医学七年制《医学统计学》期末
考试
试题参考答案(B 卷)
一、试述t 分布与u 分布的异同与联系 (10分) 答:相同点: t 分布与u 分布均为以0为中心的单峰对称分布。
不同点:(1)t 分布是一个分布族,t 曲线的形状与自由度有关,自由度越小,t 值越分散,曲线越低平;自由度越大,t 值越往中间集中,曲线峰值越高。而u 分布即标准正态分布的图形,是唯一的一条曲线。
(2)特定自由度的t 分布曲线与u 分布曲线相比,峰值低而尾部高翘,相应区间内曲线下的面积小于u 分布。
联系:t 分布的极限形式是u 分布。随着自由度
的增加,t 分布逐渐接近u 分布,当自由度ν→∞时,t 分布→u 分布。
二、请以完全随机设计为例说明方差分析的基本思想
答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:
SS 总分解为SS 组间和SS 组内;ν总分解为ν组间
和ν组内,得组间变异和组内变异分别为
MS 组间
SS 组内
组间=
SS ν和MS 组内=
,若各组的
组间
ν组内
来自同一总体,则各组间的变异与组内变异一样,均由随机误差所致,MS 组间=MS 组内,F
值
(F
=
MS 组间MS )服从F 分布,查F 界值表得到
组内
相应的P 值,然后根据所取的检验水准α做出推断结论。
三、什么是检验效能?其大小与哪些因素有关? (10分)
答:检验效能是指,在假设检验中,当无效假设H 0不正确时,用现有统计方法能够检验出其错误的能力,其概率用1-β表示。其中β为犯第二类错误即当H0不正确但不拒绝H 0的概率。
检验效能的大小与设定的检验水准α、样本含量n 、两总体参数的差值δ 有关。其它条件一定时,α越大,检验效能越高;样本量n 越大,检验效能越高;两总体参数的差值δ 越大,检验效能越高。反之,检验效能越低。
四、答:这种认识不正确。错在以构成比代替率作分析。表中两列数据分别为治疗组和非治疗组中,高血压患者死亡病例中各种死亡原因的构成比,说明治疗组的死亡病例中,主要死因为冠状动脉病和心脏病猝死,其次为脑血管病;而非治疗组的死亡病例中,主要死因为脑血管病,其次为充血性心力衰竭。 至于两组的病死率,孰高孰低,仅根据本表无法分析。
五、请分别解释Logistic 回归模型和Cox 回归模型中偏回归系数的意义。
答:Logistic 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 比数比的自然对数(ln OR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。 Cox 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 相对危险度的自然对数(ln RR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。 六、生存时间资料有哪些特点?常用分析方法有哪些? 答:特点:
(1)分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布、Weibull 分布、Gompertz 分布等,多数情况下往往不服从任何规则的分布类型。
(2)生存时间的影响因素多而复杂且不易控制。
(3)根据研究对象的结局,生存时间数据可分为两种类型:①完全数据和②截尾数据。
常用的分析方法:
(1)非参数法:非参数法的特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。对于两个及多个生存率的比较,其无效假设只是假定两组或多组总体生存时间分布相同,而不对其具体的分布形式及参数进行推断。
(2)参数法:参数法的特点是假定生存时间服从于特定的参数分布,然后根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull 分布法、对数正态回归分析法和对数logistic 回归分析法等。参数法通过估计的参数得到生存率的估计值。对于两组及以上的样本,可根据参数估计对其进行统计推断。
(3)半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,其典型方法及Cox 模型分析法。
七、答:应采用拉丁方设计,共需25只实验动物。具体设计方案如下:
(1)选择5⨯5基本型拉丁方;
(2)对基本型的拉丁方进行随机化,例如先将第1行与第4行交换,再将第2列与第5列交换。如下所示:
(3重。按照随机化后的拉丁方安排实验,如第一行第一列代表种系为I 、体重为1的豚鼠接受D 剂量的药物处理,其它各格意义依此类推。 八、答:⑴由频数表可以看出,资料近似服从正态分布,可以用均数和标准差描述其集中趋势和离散趋势。
=
∑fX f =4. 74
,
2
∑f X
2
-
(f X ) S =
f
f -1
=0. 8816
⑵制定95%参考值范围:
±1. 96S =4. 74±1. 96*0. 8816=(3. 0071,6. 4631)
⑶估计总体均数的可信区间
±u S 8816αn
=4. 74±1. 96
0. =(4. 5632, 4. 9071)
九、答:首先将资料整理成下表形式:
手术时
是否感染
间 是 否 合计 <5小时 13 229 242 ≥5小时 7 56 63 合计
20 285
305
1.建立检验假设,确定检验水准
H 0:π1=π2, 两组患者总体感染率相同 H 0:π1≠π2, 两组患者总体感染率不同
α=0. 05
2.选定检验方法,计算检验统计量(可用两法之一):
(1)χ2
检验:
(ad -bc -n ) 2⨯n (⨯56-229⨯7-305) 2
⨯305
χ2=2(a +b )(c +d )(a +c )(b +d ) =2242⨯63⨯20⨯285
=1. 832
(2)u 检验:
p -p -1⎛11⎫1⎛11⎫12u =2 +⎪⎝n ⎭0. 0537-0. - +⎪1n 2⎪=2⎝24263⎭=1p 1111
. 354
c (1-p c )(n +) 0. 0656(1-0. 0656)(+)
1n 224263
⑶确定P 值,作出推断结论
χ2=1. 832
,(或
u =1. 3540.05。按α=0. 05
的检验水准, 不拒绝H 0,尚不能认为手术时间长短对患者切口感染有影响。
十、答:⑴作散点图,散点图呈直线趋势。 ⑵求回归方程
,,∑X =788. 1,∑Y =27. 83∑XY =2204. 618∑X
2
=62322. 19, ∑Y 2=79. 8397
l xy =2204. 618-
,
l xx
788. 1*27. 83
=11. 3357
10
,
788. 12
=62322. 19-=212. 029
10
l yy
27. 832
=79. 8397-=2. 3888
10
b =
l xy l xx
=
11. 3357
=0. 0535
212. 029
,
a =-b =2. 783-0. 0535⨯78. 81=-1. 4304
ˆ=-1. 4304+0. 0535X 。 故回归方程为Y
⑶回归方程的假设检验 ①H 0
:β=0, 两变量间无线性关系
两变量间有线性关系 H 1:β≠0,
α=0. 05
②
SS 总=l yy =2. 3888, ν总=n -1=9
2
l XY 11. 33572===0. 6060, l XX 212. 029
SS 回归=bl XY
ν回归=1
SS 剩余=SS 总-SS 回归=2. 3888-0. 6060=1. 7828
ν剩余=n -2=8
F =
③F
MS 回MS 剩
=
0. =2. 72。
1. 8
0.05,不拒绝H 0,尚
不能认为两变量间存在线性关系。
《卫生统计学》考试题(A 卷)
一、填空 (每空1分,共15分) 1、统计工作的基本步骤分
1. 正态分布曲线的特征有哪些? 2.试述标准差与变异系数的异同点。 3.统计学中常见的变量类型有哪些?
为 、 、 举例说明。 、。 2、常用的定量资料集中趋势的描述指标
有 、 、 。
3、正态分布N (μ,σ2)曲线下,从
μ-1.96σ到μ+2.58σ的面积占曲线下总面积的百分比是 。 4、方差分析的应用条件是 、 、。
5、常用的相对数指标
有 、 、 。 6、χ
2
检验的基本公式
为 。
二、名词解释(每小题5分,共20分)
1、样本 2、抽样误差 3、第Ⅱ类错误 4、同质 三、问答题(每题10分,共40分):
4、某医师对一组高血压病人在治疗过程中作追踪观察,记录其死因,并与未作治疗的高血压病人组作比较,两组死因构成比见表1。有人据此提出:“高血压患者经过治疗虽然可以降低充血性心力衰竭等的病死率,但却使因冠状动脉硬化性心脏病和心脏病猝死的死亡危险性增加了。”这样的认识是否正确,为什么?
表1 高血压患者治疗组与未治疗组的死因
构成比(%) 死亡原因 治疗组 未治疗组 充血性心力4.3 23.2 衰竭 脑血管病 23.2 39.6 尿毒症 9.8 12.2 冠状动脉病48.7
17.1
和心脏病猝死
其它原因
14.0 7.9 合计 100.0
100.0
四、计算题:(25分)
1、某医师调查了当地100名健康成年男性的总补体溶血活性,得均数为
37.0U/ml ,标准差为4.0 U/ml。请
根据上述资料估计: ①该地健康成年男性总补体溶血活
性的95%正常值范围;
②该地健康成年男性总补体溶血活性总体均数95%的可信区间。(10分) 2、某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为2组,结果见表2。问2种药物治疗脑血管疾病的有效率是否相等?(15分)
表2 两种药物治疗脑血管疾病有效率的比
较
组 有别 效 无效
合有效计 率(%)
胞磷
胆46 6 52 88.46
碱组 神经节
苷18 8
26
69.23
酯组 合
1计 64 4
78 82.05
《卫生统计学》考试题(B 卷)
一、填空 (每空1分,共15分)
1、正态分布的两个参数分别为 和 。
2、定量资料离散趋势的描述指标
有 、 、 、。
3、标准正态分布曲线下,从-∞到+2.58的面积占曲线下总面积的百分比是 。
4、方差分析的应用条件是
5、常用的相对数指标有 、 、 。
6、对于四格表资料χ2检验,当 且 ,应该选用χ2检验基本公式。
二、名词解释(每小题5分,共20分)
1、总体 2、小概率事件 3、第Ⅰ类错误 4、同质
三、问答题(每题10分,共40分): 1. 定量资料集中趋势的描述指标有哪些?分别写出其计算公式及适用的资料类型。
2.正态分布曲线的特征有哪些?
3.两样本均数比较的t 检验和u 检验
的应用条件分别有哪些?
4 、试述标准差与标准误的区别与联
系。
四、计算题:(25分) 1、某地随机测量360名男性与255名
女性的血红蛋白含量,其中男性平均为13.45 g/100ml,标准差为0.71 g/100ml;女性为11.76 g/100ml,标准差为1.02 g/100ml,问该地区男、女性的血红蛋白是否相同?(10分) 2、某研究人员用磁疗法分别治疗扭挫伤患者708人和腰肌劳损患者347人,治疗有效人数分别为673人和312人,有效率分别为95.06%和89.91%,问两组患者的总体有效率有无差别? (15分)
表2 两种药物治疗脑血管疾病有
效率的比较 组 有别 效 无效
合有效计
率(%)
扭挫伤
患673 35708 95.06
者组 腰肌劳
损312 患35
347 89.91
者组 合
7
计
985 0
1055
93.36
【试题】2012-06-##/山东大学/公共卫生学院/卫生统计学 一、问答(10*7)
1、常用的相对数指标及使用注意事项 2、统计描述常用指标、计算公式及适用范围
3、什么是抽样误差?在正态分布、二项分布、poisson 分布中的计算公式
4、对于四格表资料的计算公式及使用范围 5、多元线性回归方程、各系数的意义及评价方程好坏的指标
6、实验设计的三个要素和基本原则 7、A 、B 两因素各有两个水平,设计一个实验看两个因素的单独效应及交互效应。每个作用条件有6只小鼠,问共需几只小鼠。 二、计算(15*2)
1、给与一组数据,求X 和Y 之间直线回归关系(画散点图时注意X 的数值比Y 大) 2、求一组完全随机设计(不均衡资料)的方差分析
【试题】2011-12-16/山东大学/医学院/09级/临八/医学统计学
1、填表题。计算死亡构成比、死亡率
2、给了一段材料以及结论,分析结论正误。结论错在“用构成比代替率”
3、抽样误差的概念。如何衡量正态、二项、poiss
on 分布的抽样误差,写出公式
4、举例解释P 值、I 型错误、II 型错误、检验效能 5、方差分析的基本思想、应用条件、用途
6、写出多元线性回归、logistic 回归方程的模型公式,两模型中β的意义
7、实验设计题。用到析因设计。写出设计方案,随机分组的步骤
8、计算题。求直线回归方程以及95%的可信区间
9,10两题给出了一些SPSS 计算结果,根据材料进行选择并写出假设的步骤,分别用到卡方检验和t 检验
【试题】2011-12-1/山东大学/口腔医学院/08级/口腔七年制/医学统计学
1. 举例说明总体和样本
2. 数据变量资料集中趋势的指标、适用范围、公式
3. 大学生身高的样本,给出均值和标准差,求一定范围内样本所占比例 4. 标准差和标准误的区别
5. 给出两组资料,写出两样本均数t 检验分析思路
6. 给出三组资料,写出分析思路(方差分析) 7. 完全随机四格表资料分析思路 8. 直线相关和回归的区别与联系
【试题】2011-6-24/山东大学/公共卫生学院
/2007级/卫检预防卫管/医学统计学
一、单选 10*2=20分
二、简答题
1、何为抽样误差,标准差与标准误的区别与联系
2、常用的概率抽样方法及各自如何操作 3、回归方程中b 的意义
4、Logistic 分析的方程式,其中β的实际意义
三、分析题 2*15=30分
1、给出三组数据,对其进行整理 2、两个定量资料 a 判断其有无相关 b 其回归性如何
2011-6-24/山东大学/公共卫生学院 2007级 预防医学 卫生检验班
统计学
1. 抽样误差 均数标准误和标准差之间的区别和联系?
2. Ⅰ型错误和Ⅱ型错误 检验效能 是什么
之间的联系?
3. 最小二乘法的假设条件
4.logistic 的变量类型 回归方程 偏回归系数的流行病学意义? 5. 抽样方法? 还有两道论述
1. 疫苗注射后不同滴度 抗体效价 有效无
效 给了一些数据 要求整理表格 写出描述性指标 不要求计算
2. 实际身高 和 自报身高 有无差别的检
验方法 要求写公式
自报体重和实际体重的相关与回归的步骤 不要求写公式
【试题】2011-6-8/山东大学/医学院/ 07级/七年制/统计学
总共9个题
1 举例说明总体和样本?
2就是往年题里甲地乙地出生婴儿体重的那个题,一共4问
3数值变量集中趋势指标,适用范围,公式 4总体率的可信区间的含义与怎么估计 5实验设计的原则,目的是什么?
6A,B 两个药治疗某疾病,疗效为二分类变量(有效为1,无效为0),A ,B 两药使用有两个水平(使用为1,不用为0),先得
logit(P)=0.25xA+0.8XB+某常数,什么A B两药使用过程相互独立什么的。(1)是评价AB 良药的疗效(2)同时使用两药与两药都不使用的优势比 7完全随机设计的方差分析(1)完善方差分析表SS 总和SS 组间已知,k=3(2)得出结论 8一个直线回归分析,题中说明存在散点图存在线性趋势
9是一个配对四个表的题,给出了SAS 配对卡方检验的结果
(1)问给的资料是什么类型?设计方案
(2)所用的统计分析方法,给出假设,统计量,P 值与最后结论
【试题】2011-01-12/山东大学/口腔医学院/2007级/口七/医学统计学
共九个大题(80分) 1。举例说明总体和样本
2。如何对一组资料进行描述性分析 3。四格表资料的分析思路
4。方差分析的用途和应用条件(5分)
5。对一组变量进行分类,并说明各分类的定义(题中给了一些变量及他们的变量值,让你进行分类) 6。给了某地区血红蛋白的检测结果,给了样本含量,均数,标准差。说“有人认为,该地区的男女的血红蛋白都偏低,并且男性比女性的高”问你对不对。
7。两种药甲药与乙药。给了各10个治疗前后的白细胞数值。第一问:甲药乙药对白细胞数量的变化有无影响,第二问是甲药与乙药对白细胞数量变化的影响有无差别。 甲药(治疗前) 甲药(治疗后) 乙药(治疗前) 乙药(治疗后)
8。给了一组数据,要你计算两变量的相关回归分析。(相关跟回归都写)
9。医学参考值范围与可信区间的区别。 10。上机(20分)
【试题】2010-6-28/山东大学/公共卫生学院/2006级/预防管理检验/卫生统计学
1、何谓总体并举例说明 5'
2、均数、几何均数、中位数的适用范围有何异同 10' 3、相对数应用的注意事项 5' 4、标准差和标准误的区别和联系 10' 5、t 检验的应用条件 5'
6、简述假设检验中的两类错误和检验效能 10' 7、两个样本率比较的方法有哪些,并写出计算公
式 10'
8、直线相关和回归分析的主要步骤,相关系数和回归系数的统计学意义 15'
9、多元线性回归中偏回归系数的统计学意义,回归效果评价的指标以及如何评价10'
10、完全随机设计和配对设计的实验设计方法以及数据的统计学分析思路 20'
【试题】2010-01-15/山东大学/医学院/2007级/临床八年制/医学统计学
1 方差分析的基本思想,用途和条件
2什么是抽样误差?如何衡量正态分布,二项分布和poisson 的抽样误差 3标准差和标准误的区别与联系 4什么是截尾值?出现的原因?
5多元线性回归分析中R2和Sy123m 的统计学意义
6完成交叉设计的方差分析表
7根据两独立样本推断两总体率相等的方法有哪些?如何正确选用?分析思路? 8随机区组设计的分组方案 9问一例回归分析的步骤和公式 10实验操作
【试题】2010-6-28/山东大学/医学院/2006级临七/医学统计学
12道题 8个简答 4个计算 简答
1. 医学参考值和可信区间的区别 2. 错用构成比代替率的一个例子 3. 方差分析的基本思想,应用条件,用途 4. 析因设计, 计算需要多少只动物 5.logistic 回归的偏回归系数含义 6. 假设检验的两类错误的概念 7. 二项,破送,正态分布的联系
8.r*c表的一个题, 分哪几种, 每一种用什么方法检验 题中的是单向有序? 这部分没看, 七年制的那白皮课本上没这概念啊.... 不会, 绿皮书上有 计算
1. 可信区间计算, 两样本的均数比较,u 检验 2. 四格表资料 3. 直线回归计算
4. 完全随机设计的方差分析
计算中间结果都给了, 计算器会加减乘除开方就行
计算很简单, 注意下计算题的假设检验的步骤, 直线回归画散点图
9. 假设检验的相关问题
10. 随机区组设计的一份数值变量资料,共分三组,要求统计学分析思路
【试题】山东大学/医学院/2003级/临床医学七年制/医学统计学
一.问答题(每题10分)
【试题】2009-6-24/山东大学/医学院/2005
级/临七/医学统计学
1 举例说明参数和统计量。5分 2 集中趋势的指标,公式,应用范围。5 3 假设检验的基本思想。10
4 医学参考值范围和区间估计的题。 10 5 多元线性回归的共线性和其诊断指标。10 6 生存分析定义和方法。10 7 R*C表计算,15 8 线性回归分析计算,15
9 拉丁方设计 5只兔子,5个注射部位,5个注射顺序,编一个方案。15分 10 实验 15
计算题和课本上一个难度,不难。
【试题】2009-7-3/山东大学/公共卫生学院/05级预防检验管理/医学统计学
简答题(ten points each)
1. 标准差与标准误的区别与联系,医学参考值范围与置信区间的两个表达式的统计学意义。 2. 相对数应用的注意事项 3. 简述影响样本含量的关键因素 4. 四格表的统计学分析思路 5.R×C 列联表的统计学分析思路 6. 双变量相关分析的统计学分析思路 7.(1)泊松分布 二项分布 正态分布的联系 (2)总体均数 总体率 泊松分布95%样本数的估计 8. 回归分析中,总变异,回归变异,剩余变异,决定系数,剩余标准差的统计学意义
1.举例说明何谓总体,何谓样本?抽样研究的目的是什么?
2.为研究赖氨酸对儿童生长发育指标(身高和体重)的影响,分别以添加赖氨酸的面包和普通面包喂养幼儿,并观察比较两组儿童的发育情况。现以随机整群的方法抽中4所幼儿园(分别包括大、中、小三个年级各4个班)。请写出试验分组的方案。
3.在一次临床试验中需用200例病人。研究者根据病人就诊顺序编号,将前100名病人分入A 组,后100名病人分入B 组。你认为这种设计方案是否遵循了有关统计学原则?理由是什么?若你有不同的分配方案,请写出来。
4.某医师观察罗布麻降血压的效果,对80名高血压患者进行临床试验,患者服药半月后复查,收缩压平均下降了2.8kPa ,该医生就认为此汤剂有降压作用。你同意这一结论吗?为什么?
5.为了考察C 、D 和E 3因素(皆为2水平)对某生理指标的影响,采用析因设计方案,每种试验组合随机选取7只雄性大白鼠为试验对象。请根据试验结果写出下列方差分析表。(20分)
(1) 试完成方差分析表;
(2) 根据方差分析表能判断D 因素两水平间差别无统计学意义吗?为什么?
(3) 如不考虑二级交互作用,请列出新的方差分析表。 方差分析表
变异来源 自由度 离均差平方和 均方 F 值 总变异 ( ) 215.0 C ( ) 31.6 ( ) ( ) D ( ) 0.3 ( ) ( ) E ( ) 17.0 ( ) ( ) C*D ( ) 0.7 ( ) ( )
C*E ( ) 9.7 ( ) ( ) D*E ( ) 13.1 ( ) ( ) C*D*E ( ) 2.6 ( ) ( ) 误 差 ( ) ( ) ( )
6.甲、乙两人分别独立分析处理同一资料,两人选用检验方法相同并且合理,计算所得的统计量也相同且均正确,不同之处为:假设检验中甲将 定为0.05,乙将 定为0.01。两人所有检验结果的可能组合为:
(1) > , ≤ (2) ≤ , > (3) ≤ , ≤ 请分别写出每种组合中甲乙两人所犯的错误及其概率的大小,如果两人所犯错误的类型相同,请比较两人所犯错误概率的大小。 7.用卡方检验分析分类变量(两行两列、多行多列)时,对资料有何要求?如果资料不满足条件应如何解决?
二、计算题(每题15分)
1.某地检测了120份中药黄连中的小蘖碱含量,其数据近似正态分布,均数=4.38mg/100g,标准差=0.18mg/100g。 ①估计该地黄连中小蘖碱含量的总体水平。 ②95%的黄连样品中小蘖碱含量分布范围。 ③今测得该地一份黄连样品的小蘖碱含量为4.01mg/100g,应如何评价?
④这120份样品中小蘖碱含量低于4.20mg/100g的,理论上有多少份? ⑤从这120份样品中随机抽查10份,测得其 ≥4.44mg/100g的可能性有多少?
⑥该地另检测了100份新法培育的中药黄连,其小蘖碱含量的均数=4.33mg/100g,标准差=0.16mg/100g,这两批黄连样品中小蘖碱含量有无不同?
⑦从药典中查得黄连中小蘖碱含量为4.40mg/100g,该地黄连中小蘖碱含量有否偏低?
2 .随机抽查13名8岁健康男童的体重(x )与心脏横径,结果见下表,请问二者间有无线性关系?
13名8岁健康男童的体重与心脏横径 编号 体重(Kg) 心脏横径(cm) 1 25.5 9.2
2 19.5 7.8 3 24.0 9.4 4 20.5 8.6 5 25.0 9.0 6 22.0 8.8 7 21.5 9.0 8 23.5 9.4 9 26.5 9.7 10 23.5 8.8 11 22.0 8.5 12 20.0 8.2 13 28.0 9.9
【试题】2009-01-16/山东大学/口腔医学院/2005级/口腔七年/医学统计学
1,举例说明假设检验的基本思想(5分) 2,正态分布,二项分布,poisson 分布的95%可信区间(10分)
3,两个数值变量相关关系分析(5分)
4,卡方分布,行×列表使用条件(原题是拐着弯问的)(10分)
5,多元共线性诊断指标(给了个例子问是怎么回事)(10分)
6,随机区组设计分组(实例,给了随机数字表,让你自己分)(10分)
7,一个2×2×2析因设计,分组,分析思路(10分) 8,一个献血者和非献血者骨什么含量的分析,调查了200个献血者和1400个非献血者,记录其性别和年龄,……问原来的资料整理方法和分析方法对不对,为什么,应该怎样(10分)
9,一个原始资料,问包含是哪些类型的资料,将其整理并描述(10分)
题感觉大部分有点难,直来直去的题不多,很多都是应用题类型的。而且题量有点多,时间很紧。最
近找题,愣是没找到口腔以前的考题,这次把我们的发上,希望能方便后来人~
2001年七年制临床医学专业考
试试题
一、解释以下概念 1、 同质与变异 2、 均数的抽样误差
3、 假设检验P 值得含义,以及与α的关系 4、 变量及其变量类型,并举例说明 二、简述标准差与标准误的异同与关系 三、常用得抽样分布及其参数的区间估计 四、方差分析的应用条件及其用途
五、某实验需在5%和15%两种氧浓度下进
行,每种氧浓度下分别使用甲、乙、丙、
丁四种药物对K 562细胞进行抑制,每个试验条件下均重复4次实验(独立的4个样品),其观测指标为计量资料(数值变量资料)。问该实验适于用何种实验设计,并写出设计方案
六、简述完全随机设计的两样本比较的分
析思路,并写出相应统计量的计算公式 七、分别写出非条件logistic 回归和条件
logistic 回归模型的一般形式,并解释其中各符号的含义。 八、上机 A、B 、C 、D
2001级七年制临床医学专业考
试试题答案
一、解释以下概念:
1、同质:对研究指标影响较大的、可以控制得主要因素尽可能相同。 变异:同质基础上各观察单位的某变量值得差异称为变异。
2、均数的抽样误差:由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。
3、假设检验P 值含义:P 值是指从所规定得总体中随机抽样时,获得等于及大(负值时为等于及小于)现有样本统计量的概率。 若, 按检验水准不拒绝,可认为现有样本所代表的总体与已知总体的差别是由抽样误差造成的。若,依据“小概率事件在一次随
机试验中认为不可能发生”的定理,拒绝,接受;可认为从已知总体抽到现有样本得可能性很小,该样本可能来自另一总体。 4、变量及其变量类型:
变量:在搜集资料时,对每个观察单位得某项特征进行测量或观察,该特征称为变量。 变量类型:
1. 数值变量其变量值是定量的,表现为数值得大小,通常用仪器或某种尺度测定出来,多有度量衡单位。由数值变量的测定值组成的资料称为数值变量资料或计数资料。如:身高、体重、心律、住院天数、血压等。 2. 分类变量亦称定性变量,表现为互不相容的类别或属性。分类变量可分为无序与有序两类:
(1)无序分类分类是指所分类别或属性之间无程序或顺序上的差别。分析无序分类变量时,应先按类别分组,计各组的观察单位数,所得资料称为无序分类变量资料或计数资料。如:性别(男、女),血型(O 、A 、B 、AB )等。
(2)有序分类变量是指所分类别或属性之间无程序或顺序上的差别。分析有序分类变量时,应先按等级顺序分组,计各组的观察单位数,所得资料称为有序分类变量资料或等级资料。如:尿糖化验结果按-、±、+、++、+++分类,疗效按治愈、好转、无效、恶化分组。 二、
标准差:计算公式:s =
X -n —1
(1) 表示观察值的变异程度 (2) 计算变异系
数
CV =
s
⨯100% (3) 确定医学参考值范围 (4) 计算标准误
(5) 与样本含量没有关系 标准误:计算公式:s s =
n
(1) 估计均数的抽样误差的大小 (2) 估计总体均数可信区间 :
(-t αν
s ,+t αs )
22ν
(3) 进行假设检验 (4) 与样本含量成反比
三、1、t 分布,均数的区间估计: 1)δ未知且n 小
(-t
α2,νs +t α,νs )
:
P =
exp (β0+β1X 1+β2X 2+ +βm X m )
1+exp (β0+β1X 1+β2X 2+ +βm X m )
2)δ未知,但n 足够大时(n>100),t 分布逼近u 分布:-u α2s +u αs 3)δ已知:-u α2σ+u α2σ 2、二项分布:当样本含量n 足够大,且样本率p 或1-p 均不太小,如np 与n (1-p )均大于5时,样本率p 的抽样分布近似正态分布,总体率π的可信区间:p -u αs p ,p +u α2s p
()
,
其中β0是常数项,β1、β2 βm 为偏回归系数。
条件logistic 回归模型:
()
P i =
exp (β0i +β1X 1+β2X 2+ +βm X m )1+exp (β0i +β1X 1+β2X 2+ +βm X m )
()
3、Poisson 分布:当样本阳性数X>50时,可按正态近似原理先求总体平均数μ的95%或99%可信区间:
(i=1,2,…n ),
其中β0i 表示各层的效应,β1、β2 βm 为待估计的参数。
(X -u
αX ,X +u αX
)
四、方差分析的应用条件:
1)各样本是相互独立的随机样本;2)个样本来自正态分布总体;3)各总体方差相等,即方差齐。
应用:1)两个或多个样本的均数间的比较;2)分析两个或多个因素间的交互作用;3)回归方程的线性假设检验;4)多元线性回归分析中偏回归系数的假设检验等。
五、该设计是2*4析因设计
设计方案如下, 如图所示,可将八个样品随
5、6、7、8,再用随机数字表将其标上随机数字,(随机数字表略去)将随机数字排秩,按秩次的1到8,分别取从A1B1、A1B2、A2B1、...、A4B2。进行实验。
六、先将受试对象编号,再利用随机列表或随机数字表或计算机软件产生的随机数字,按某一行将受试对象编上随机数字,然后将其随机数字编秩,秩次为奇数的分为一组,秩次为偶数的分为一组进行实验。这就是完全随机设计两样本比较的分析思路。 其检验统计量t值是:
2002级临床医学七年制《医学统计学》期末考试题(A 卷)
一、试述标准差与标准误的联系与区别。 二、请以完全随机设计资料为例说明方差分析的基本思想。
α=0.05,所得的概率
为P
三、在某次假设检验中, 义?
四、研究人员调查了2005年某社区全部居民的全
死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息? (10分)
表1 某社区居民2005年死亡人口调查
年龄 0~ 20~ 40~ 60~ 合计
人口数 82920 46639 28161 9370 167090 全死因 死亡人数 138 63 172 342 715
2
恶性肿瘤 死亡人数
4 12 42 32 90
五、请解释多元线性回归分析中R 和s y ⋅123 m 的统计学意义。
六、什么是随访资料中的截尾值?出现截尾值的原因有哪些?
七、中国人民解放军总后卫生部军需装备研究所研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验
-2
, ν=n 1+n 2-2 t =1
s 1-s 2
七、
非条件logisti 回归模型:
组?请写出设计方案。
八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分)
血清胆固醇(mmol/L) 频数
2.5~ 1 3.0~ 8 3.5~ 9 4.0~ 23 4.5~ 25 5.0~ 17 5.5~ 9 6.0~ 6 6.5~ 2 7.0~7.5 1 合 计 101
九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同?
十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分)
表3 10名男20岁男青年的身高与前臂长 编 号 1 2 3 4 5 6 7 8 9 10 身1111111111高7765787886(c0 3 0 5 3 8 8 3 0 5 m) 前 臂4444454444长5
2
4
1
7
7
6
9
3
(cm)
可能用到的界值: t 0. 05, 8
=1. 860,
2002级临床医学七年制《医学统计学》期末考试
试题(A )参考答案
一、试述标准差与标准误的区别和联系 答:区别:
⑴意义:标准差是描述数据分布离散程度的指标;标准误是样本统计量的标准差。 ⑵公式:S =
(X
-) 2
;
n -1
S S =
n
(2分)
⑶用途:标准差①用于表示数据离散程度的
大小;②也可用于计算变异系数、估计频数分布、制定参考值范围、进行质量控制;③很多统计处理方法中要用到标准差。 标准误①用于反映抽样误差的大小;②计算
总体均数的可信区间;③统计处理方法的基础,如t 检验。
联系:标准误与标准差成正比;若标准差固定不变,可通过增加样本含量来减少抽样误差。 二、请以完全随机设计为例说明方差分析的基本思想
答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:
SS 总分解为SS 组间和SS 组内;ν总分解为ν组间
和ν组内,得组间变异和组内变异分别为
MS SS 组间
组间=
ν和MS 组内=
SS 组内
组间
ν,若各组的
组内
来自同一总体,则各组间的变异与组内变异一样,均由随机误差所致,MS 组间=MS 组内,F
值
(F
=
MS 组间MS )服从F 分布,查F 界值表得到
组内
相应的P 值,然后根据所取的检验水准α做出推断结论。答案难以统一,只要基本意思表达正确,
均应给分,阅卷时需灵活掌握,注意把握尺度。 三、在某次假设检验中,检验水准为α=0.05,
所得的概率为P
P
的意义?
答:α称检验水准,是预先给定的概率值,它确定了小概率事件的标准;P 的含义是指从H 0规定的总体随机抽得等于及大于(或等于及小于)现有样
本获得的检验统计量值的概率,即抽样误差的概率。将获得的概率P 与检验水准α进行比较可得出结论。本例α
=0.05,P
绝H 0,接受H 1,结论具有统计学意义,可以认为不同或不等。
四、研究人员调查了2005年某社区全部居民的全
死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息?
答:可以得到以下统计信息:各年龄组人口构成比、
各年龄组全死因构成比、恶性肿瘤死因构成比和各年龄组恶性肿瘤死亡构成比、粗死亡率和年龄别死亡率、恶性肿瘤死亡率和年龄别恶性肿瘤死亡率。(不要求:肿瘤后的死亡人数占全死因死亡人数的比例、全死因寿命表死亡概率、全死因寿命表生存概率、去肿瘤死亡后的生存概率、去肿瘤死亡后的尚存人数、去肿瘤死亡后的死亡人数、去肿瘤死亡后的生存人年数、去肿瘤死亡后的生存总人年数、去肿瘤死亡后各年龄尚存者的平均预期寿命。)
五、请解释多元线性回归分析中R 2
和s y ⋅123 m 的
统计学意义。
答:R 2
为决定系数,其意义是回归平方和SS 回归占
总离均差平方和SS 总的比例,用R 2
可定量评价在
y 的总变异中,由x 变量组建立的线性回归方程所
能解释的比例。s y ⋅123 m 为剩余标准差,可以说明估计值的精确度,剩余标准差越小,表示回归方程的估计精度越高。
六、什么是随访资料中的截尾值?出现的原因有哪些?
答:由于某种原因使得部分病人不能随访到底,称之为截尾,从起点至截尾点所经历的时间称为截尾值。出现截尾值的原因主要有随访对象失访、治疗措施改变、研究工作结束时事件尚未发生等情况。 七、研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验组?请写出设计方案。
答:应采用2×2析因设计,需安排4个实验组。具体设计方案如下:
状态1 状态2 环境1
1 2 3 4 5
1 2 3 4 5
环境2 1 2 3 4 5 1 2 3 4 5
八、今测得101名30~49岁正常成年男子的血清总胆固醇(表2)。据此资料进行全面的统计分析。(10分)
答:⑴由频数表可看出,资料近似服从正态分布,可用均数和标准差描述其集中趋势和离散趋势。
=
∑fX
f
=4. 74
,
∑fX
2
-
(fX ) 2
S =
f
f
-1
=0. 8816
⑵制定95%参考值范围:
±1. 96S =4. 74±1. 96*0. 8816=(3. 0071,6. 4631)
⑶估计总体均数的可信区间:n=101>50
±u S α2
n
=4. 74±1. 96
0. 8816=(4. 5632, 4. 9071)
九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同? 答:首先将资料整理成下表形式:
是否患高血压 是 否 合计 工人 386 895 1281 农民 65 322 387 合计
451
1217
1668
1.建立检验假设,确定检验水准
H 0:π1=π2, 工人与农民的高血压患病率相同 H 0:π1≠π2, 工人与农民的高血压患病率不同
α=0. 05
2.选定检验方法,计算检验统计量(可选用下列两种方法之一): (1)χ2
检验:
χ2=
(ad -bc ) 2⨯n (a +b )(c +d )(a +c )(b +d ) =(386*322-895*65) 2*1668
1281*387*451*1217
=26. 80
(2)u 检验:
u =
p 1-p 2
p c (1-p c )(
11+) n 1n 2
=
0. 3013-0. 168011
0. 2704(1-0. 2704+)
1281387
=5. 17
二、 请以完全随机设计资料为例说明方差分析的
基本思想。
三、 什么是假设检验的检验效能?其大小与哪些
因素有关系?
四、某医师对一组高血压病人在治疗过程中作追踪观察,记录其死因,并与未作治疗的高血压病人组作比较,两组死因构成比见表1。有人据此提出:“高血压患者经过治疗虽然可以降低充血性心力衰竭等的病死率,但却使因冠状动脉硬化性心脏病和心脏病猝死的死亡危险性增加了。”这样的认识是否正确,为什么?
因 充血性心力衰竭 脑血管病 尿毒症 冠状动脉病和心脏病猝死 其它原因 合 计
五、请分别解释Logistic 回归模型和Cox 回归模型
4.3 23.2 9.8 48.7
23.2 39.6 12.2 17.1
⑶确定P 值,作出推断结论
(或u =5. 17>1. 96),χ2=26. 80>3. 84,
所以P <0.05。拒绝H 0,接受H 1,可以认为工人和农民的高血压患病率不同。
十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分) ⑴作散点图(略) ⑵求相关系数
,,,∑X =1725∑Y =454∑XY =78541∑X
2
=298525,∑Y 2=20690
l xy
454*1725
=78541-=226,
10
l xx =298525-l yy =20690-r =
l xy l xx l yy
=
1725
=962. 510
2
2
,
454
=78. 4 10
22678. 4*962. 5
=0. 8227
14.0 100.0 7.9 100.0
中偏回归系数的意义。
六、生存时间资料有哪些特点?生存分析常用的分析方法有哪些?
七、某研究室人员为研究5个不同剂量的甲状腺提取液对豚鼠甲状腺重的影响,考虑到豚鼠的种系和体重对观测指标可能有一定的影响,选用5个种系的豚鼠作实验,并按5个不同的体重标准选择受试
⑶相关系数的假设检验 ①H 0
:ρ=0, 两变量间无线性相关关系
两变量间有线性相关关系 H 1:ρ≠0,
α=0. 05
②
t =
r 1-r
n -2
2
=
0. 82-0. 82
8
2
=4. 05
对象,根据专业知识得知,药液、豚鼠种系、体重之间不存在交互作用。本研究应采用何种设计类型?共需多少只豚鼠?请写出实验设计方案。 八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分) 血清胆固醇(mmol/L)
2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~
频数 1 8 9 23 25 17 9 6
③t >1. 860, 所以
P <0.05,拒绝H 0,接受
H 1,可以认为两变量间存在线性相关关系,并且
呈正相关,即身高越长,前臂长越长。
2002级临床医学七年制《医学统计学》期末考试题(B 卷)
一、 试述t 分布与u 分布的联系与区别。
6.5~ 2 7.0~7.5 1 合 计 101
九、某医院收集了305例手术患者的资料,其中手术时间≥5小时者242人,感染者13人;手术时间<5小时者63人,感染者7人。试据此分析手术时间长短对患者切口感染是否有影响? 十、某地10名一年级女大学生的胸围(cm )与肺活量(L )数据如表3所示,试进行直线回归分析。(10分) 学生
编1 2
3
4
5
6
7
8
9
1
号 胸7878787777围2. 3. 8. 8. 7. 1. 8. 4. 3. 9. X 5 9 3 4 1 7 3 8 7 4 肺
活
2. 3. 1. 3. 2. 2. 3. 1. 2. 3. 量
5192881992Y 1 1
1
8
3
6
6
1
8
8
可能有用到的界值:
t 0. 05, 8=1. 860,
t 0. 05, 9=1. 833
,
t 0. 05=2. 306
,
2, 8
t 0. 05=2. 262。
2, 9
方差分析用F 界值:
F 0. 05(1, 8) =5. 32
2002级临床医学七年制《医学统计学》期末
考试
试题参考答案(B 卷)
一、试述t 分布与u 分布的异同与联系 (10分) 答:相同点: t 分布与u 分布均为以0为中心的单峰对称分布。
不同点:(1)t 分布是一个分布族,t 曲线的形状与自由度有关,自由度越小,t 值越分散,曲线越低平;自由度越大,t 值越往中间集中,曲线峰值越高。而u 分布即标准正态分布的图形,是唯一的一条曲线。
(2)特定自由度的t 分布曲线与u 分布曲线相比,峰值低而尾部高翘,相应区间内曲线下的面积小于u 分布。
联系:t 分布的极限形式是u 分布。随着自由度
的增加,t 分布逐渐接近u 分布,当自由度ν→∞时,t 分布→u 分布。
二、请以完全随机设计为例说明方差分析的基本思想
答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:
SS 总分解为SS 组间和SS 组内;ν总分解为ν组间
和ν组内,得组间变异和组内变异分别为
MS 组间
SS 组内
组间=
SS ν和MS 组内=
,若各组的
组间
ν组内
来自同一总体,则各组间的变异与组内变异一样,均由随机误差所致,MS 组间=MS 组内,F
值
(F
=
MS 组间MS )服从F 分布,查F 界值表得到
组内
相应的P 值,然后根据所取的检验水准α做出推断结论。
三、什么是检验效能?其大小与哪些因素有关? (10分)
答:检验效能是指,在假设检验中,当无效假设H 0不正确时,用现有统计方法能够检验出其错误的能力,其概率用1-β表示。其中β为犯第二类错误即当H0不正确但不拒绝H 0的概率。
检验效能的大小与设定的检验水准α、样本含量n 、两总体参数的差值δ 有关。其它条件一定时,α越大,检验效能越高;样本量n 越大,检验效能越高;两总体参数的差值δ 越大,检验效能越高。反之,检验效能越低。
四、答:这种认识不正确。错在以构成比代替率作分析。表中两列数据分别为治疗组和非治疗组中,高血压患者死亡病例中各种死亡原因的构成比,说明治疗组的死亡病例中,主要死因为冠状动脉病和心脏病猝死,其次为脑血管病;而非治疗组的死亡病例中,主要死因为脑血管病,其次为充血性心力衰竭。 至于两组的病死率,孰高孰低,仅根据本表无法分析。
五、请分别解释Logistic 回归模型和Cox 回归模型中偏回归系数的意义。
答:Logistic 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 比数比的自然对数(ln OR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。 Cox 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 相对危险度的自然对数(ln RR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。 六、生存时间资料有哪些特点?常用分析方法有哪些? 答:特点:
(1)分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布、Weibull 分布、Gompertz 分布等,多数情况下往往不服从任何规则的分布类型。
(2)生存时间的影响因素多而复杂且不易控制。
(3)根据研究对象的结局,生存时间数据可分为两种类型:①完全数据和②截尾数据。
常用的分析方法:
(1)非参数法:非参数法的特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。对于两个及多个生存率的比较,其无效假设只是假定两组或多组总体生存时间分布相同,而不对其具体的分布形式及参数进行推断。
(2)参数法:参数法的特点是假定生存时间服从于特定的参数分布,然后根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull 分布法、对数正态回归分析法和对数logistic 回归分析法等。参数法通过估计的参数得到生存率的估计值。对于两组及以上的样本,可根据参数估计对其进行统计推断。
(3)半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,其典型方法及Cox 模型分析法。
七、答:应采用拉丁方设计,共需25只实验动物。具体设计方案如下:
(1)选择5⨯5基本型拉丁方;
(2)对基本型的拉丁方进行随机化,例如先将第1行与第4行交换,再将第2列与第5列交换。如下所示:
(3重。按照随机化后的拉丁方安排实验,如第一行第一列代表种系为I 、体重为1的豚鼠接受D 剂量的药物处理,其它各格意义依此类推。 八、答:⑴由频数表可以看出,资料近似服从正态分布,可以用均数和标准差描述其集中趋势和离散趋势。
=
∑fX f =4. 74
,
2
∑f X
2
-
(f X ) S =
f
f -1
=0. 8816
⑵制定95%参考值范围:
±1. 96S =4. 74±1. 96*0. 8816=(3. 0071,6. 4631)
⑶估计总体均数的可信区间
±u S 8816αn
=4. 74±1. 96
0. =(4. 5632, 4. 9071)
九、答:首先将资料整理成下表形式:
手术时
是否感染
间 是 否 合计 <5小时 13 229 242 ≥5小时 7 56 63 合计
20 285
305
1.建立检验假设,确定检验水准
H 0:π1=π2, 两组患者总体感染率相同 H 0:π1≠π2, 两组患者总体感染率不同
α=0. 05
2.选定检验方法,计算检验统计量(可用两法之一):
(1)χ2
检验:
(ad -bc -n ) 2⨯n (⨯56-229⨯7-305) 2
⨯305
χ2=2(a +b )(c +d )(a +c )(b +d ) =2242⨯63⨯20⨯285
=1. 832
(2)u 检验:
p -p -1⎛11⎫1⎛11⎫12u =2 +⎪⎝n ⎭0. 0537-0. - +⎪1n 2⎪=2⎝24263⎭=1p 1111
. 354
c (1-p c )(n +) 0. 0656(1-0. 0656)(+)
1n 224263
⑶确定P 值,作出推断结论
χ2=1. 832
,(或
u =1. 3540.05。按α=0. 05
的检验水准, 不拒绝H 0,尚不能认为手术时间长短对患者切口感染有影响。
十、答:⑴作散点图,散点图呈直线趋势。 ⑵求回归方程
,,∑X =788. 1,∑Y =27. 83∑XY =2204. 618∑X
2
=62322. 19, ∑Y 2=79. 8397
l xy =2204. 618-
,
l xx
788. 1*27. 83
=11. 3357
10
,
788. 12
=62322. 19-=212. 029
10
l yy
27. 832
=79. 8397-=2. 3888
10
b =
l xy l xx
=
11. 3357
=0. 0535
212. 029
,
a =-b =2. 783-0. 0535⨯78. 81=-1. 4304
ˆ=-1. 4304+0. 0535X 。 故回归方程为Y
⑶回归方程的假设检验 ①H 0
:β=0, 两变量间无线性关系
两变量间有线性关系 H 1:β≠0,
α=0. 05
②
SS 总=l yy =2. 3888, ν总=n -1=9
2
l XY 11. 33572===0. 6060, l XX 212. 029
SS 回归=bl XY
ν回归=1
SS 剩余=SS 总-SS 回归=2. 3888-0. 6060=1. 7828
ν剩余=n -2=8
F =
③F
MS 回MS 剩
=
0. =2. 72。
1. 8
0.05,不拒绝H 0,尚
不能认为两变量间存在线性关系。