喜高科技-ag尊龙凯时集团

为什么骨龄评价要进行“质量控制”？如何去做？

时间： 2017/2/4 16:49:53 浏览量：1494 字号选择：分享到:

摘要

本文是介绍新骨龄标准-《中国人手腕骨发育标准-中华05》系列文章的第12篇。和任何科学实验方法一样，骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性，不仅对评价的方法学有深入的了解，更重要的是能够对骨龄评价结果做出正确的估价，增强不同评价者之间评价结果的一致性，提高实践应用的工作质量。

关键词：骨龄,骨龄评价,骨龄读片质量,骨龄评价质量控制,中国人手腕骨发育标准-中华05,rus-chn

录入日期： 2010/2/13

和任何科学实验方法一样，骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性，不仅对评价的方法学有深入的了解，更重要的是能够对骨龄评价结果做出正确的估价，增强不同评价者之间评价结果的一致性，提高实践应用的工作质量。

一、国际间应用g-p图谱和tw法骨龄评价一致性的检验研究

骨龄评价方法的可靠性主要表现在两个的方面，一是评价者本人的读片重复性，称为评价者内的重复性；二是多名评价者之间的读片重复性，称为评价者间的重复性。

g-p图谱法和tw计分法是国际上应用非常广泛的骨龄评价方法。二十世纪六十年代，巴黎国际儿童中心在组织协调欧洲8个国家的儿童生长研究时，曾经对g-p法和tw1方法进行了系统的比较研究（acheson et al., 1963, 1964, 1966）。来自不同国家的6名评价者，使用g-p图谱和tw1方法评价50名2~18岁儿童的手腕x线片，结果发现g-p方法的系统误差较小，tw1方法的随机误差较小；但如果排除了腕骨，则tw1方法的系统误差明显下降，与g-p方法的差异显著性消失。比较研究的结果引起了tanner et al.的注意，在1975年对tw1方法进行了修改而提出tw2法。在tw2 法中取消了评价困难的发育等级（桡骨、尺骨和头状骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一个发育等级），以提高读片可靠性。

tw2方法的原作者（tanner et al., 1994），以及长期从事儿童生长发育研究的工作者（beunen et al., 1980; tarabger et al., 1976; wenzwl and melsen, 1982）以tw2-rus方法重复读片，等级相同的例数在81%~94%左右，骨龄读数的95%置信区间为±0.5到±0.6岁；使用tw2–carpal方法，评价者内等级相同的例数在80.6%~92.3%，骨龄读数的95%置信区间为±0.48岁至±0.72岁。评价者间的读片重复性较低，tw2-rus和tw2-carpal方法的评价者间的重复性分别在74.4%~80.5% 和74.1%~88.0%。但是，评价者间的重复性在不同个体间也有很大的差异，比利时的beunen g.（1980）通过自学掌握tw2方法后，与tw2方法原作者whitehouse r.h., cameron n.进行了比较研究，以tw-20方法重复阅读112张x线片，评价者之间骨发育等级相同的例数在83%以上。但在baughan et al.（1979）和medicus et al.（1971）的研究中，2名或3名评价者间重复读片的一致性则较低，tw-rus骨在76%~82%，腕骨在72%~74%之间。

二、《中国人手腕骨发育标准-中华05》 rus-chn法和tw3-c carpal法的读片可靠性检验：

在国内，《中国人手腕骨发育标准-中华05》课题组首次对骨龄评价方法可靠性进行了较为全面的研究（张绍岩等，2006）。他们根据从事骨龄评价工作年限、是否参加过读片培训、以及每年阅读x线片的数量将11名评价者分为三类：

有经验者：从事骨龄评价工作在5年以上，曾经参加原《中国人骨发育标准-chn法》培训1次以上，平均每年读片数量在1000例以上者。

较有经验者：从事骨龄评价工作在3年以上，曾经参加chn法培训或有自学经历，平均每年读片数量在1000例以下者；

无经验者：无骨龄评价经历者；或使用g-p方法读片者；或虽然参加过原《中国人骨发育标准-chn法》培训或自学，但日常读片数量较少者。

所有评价者集中培训3天，然后在不知儿童年龄、性别的情况下，11名评价者使用rus-chn法以随机顺序独自阅读75名正常儿童的左手腕部x线片，其中6名评价者同时评价tw3-c carpal法的骨发育等级。20天后，所有评价者使用相同的评价方法，在一天时间内独自重复阅读同一组儿童的手腕部x线片。检验结果如下：

1、评价者内的可靠性：

（1）rus-chn法：

各评价者使用rus-chn法重复读片，等级相同例数的百分数平均在63.4%~82.2%之间。重复读片不一致的等级主要出现在相邻等级上，相差2个等级的例数很少，相差2个等级例数的百分数的平均数在1.3%~2.9%。根据重复率可将评价者分为三类：

有经验者、较有经验者和部分无经验者，等级相同的重复率相似，在78.0%~82.2%；

1名无经验者，等级相同的例数为74%；

2名无经验者等级相同的例数在63.4%~67.6%。

所有评价者骨龄读数的95%置信区间在±0.40岁~±0.76岁，除了几名无经验者外，大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内。

（2）tw3-c carpal法：

6名评价者参加了tw3-c carpal法的可靠性检验。也可将评价者分为三类：

有经验者的重复性较高，82.1%~83.2%；

较有经验者和部分无经验者的读片重复性在72.1%~74.4%；

2名无经验者等级相同的例数在65.6%~70.1%。

所有评价者骨龄读数的95%置信区间为±0.32~±0.71岁，有5名评价者的随机误差在±0.60岁以下，2名无经验者在±0.60岁以上，分别为±0.68和±0.72，分别有评价偏低和偏高的系统误差。

2、评价者间的可靠性：

（1）rus-chn法：

各评价者与制订中华05标准的读片员相比，骨发育等级相同的例数平均在61.3%~77.3%。由此可见评价者间的等级重复性均低于评价者内的重复性。评价者间的重复性分为3类：

有经验者、较有经验者和1名无经验者，其评价者间的重复性在73%~77%；

部分无经验者评价者间的重复性在69%~70%；

部分无经验者评价者间的重复性在65%左右（61%~66%）。

在各评价者骨龄读数的95%置信区间为±0.42~±0.96岁。评价者间等级重复性在75%左右的5名评价者的随机误差在±0.60岁以下（±0.41~±0.58岁）；评价者间等级重复性在61%~70%的评价者（无经验者）的随机误差大于±0.60岁（±0.64~±0.96岁）。

（2）tw3-c carpal法：

各评价者与制订中华05标准的读片员相比，评价者间腕骨等级的重复率在77.4%~88.0%，普遍高于rus-chn方法：

有经验者和1名较有经验者，评价者间等级相同例数的平均数在86%~88%；

部分无经验者。等级相同例数平均在82%~84%；

一名无经验者，等级相同例数的平均数在77%。

有经验者、较有经验者以及1名无经验者骨龄读数的95%置信区间在±0.60岁以下，1名无经验者在±0.60岁以上。

通过上述的检验说明，rus-chn法与tw3-c carpal法的可靠性与tw3-rus法基本相同。在有不同经验的评价者之间，骨龄评价的可靠性有显著性差异；有经验者读片可靠性水平较高，少数无经验者通过一次学习培训可以达到较有经验者的类似水平，但大部分无经验者可靠性水平较低。这些研究不经说明读片练习与经验是取得可靠骨龄结果的基础，而且也说明了通过可靠性检验，实行读片质量控制的重要性。

三、骨龄读片质量控制方法

（一）、评价者内的读片可靠性检验：

（1）计算重复率：应用者应选择、阅读一定数量的手腕骨部x线片（最好在50张以上），年龄范围应包括所欲应用年龄段。相隔一段时间后（应至少15天以上），重复读片，比较两次读片结果，统计相同等级例数的百分数，判断重复性。如果分别统计每块骨的重复率，还可以分析出那一块骨，或哪些发育等级的重复性较差，使用图谱法时，通过检验可发现重复读片差异较大的年龄范围，然后重点学习、练习，以提高重复性。

（2）计算骨龄读数95%的置信区间：该统计量说明了所评价骨龄的随机误差范围，计算公式为： ±t0.05√(∑d2/2n)，其中∑d2为两次读片骨龄差值的平方和，n为x线片的数量，t0.05为t检验中0.05水平上的t值。

（3）系统误差：分别计算两次读片骨龄的平均数和标准差，比较平均数的差异，观察系统误差的大小，并同时进行两相关样本的差异显著性检验。

（二）、评价者间的读片可靠性检验：

在不同评价者之间重复阅读一定数量的手腕部x线片，使用上述相同的统计方法计算，即可得出评价者间的随机误差和系统误差。评价者之间的读片可靠性检验也同样重要，但在施行起来，其难度大于评价者内的可靠性检验，最好是在应用领域内，定期组织、交流经验，讨论、统一评价尺度，是提高读片质量，保证临床和科研工作可比性的重要措施。

参考文献

张绍岩, 吴真列, 沈勋章, 等. 中国人手腕骨发育标准-中华05 ii. rus-chn 和tw3-c腕骨方法的读片可靠性.中国运动医学杂志, 2006, 25(6): 641-646.

acheson rm, vicinus jh and fowler gb. studies in the reliability of assessing skeletal maturity from x-ray. part ii. the bone-specific approach. hum biol, 1964, 36:211-228.

acheson rm, vicinus jh and fowler gb. studies in the reliability of assessing skeletal maturity from x-ray.

part iii. greulich-pyle atlas and tanner-whitehouse method contrasted. hum biol, 1966, 38:205-218.

acheson rm, fowler gb, fry ei, et al. studies in the reliability of assessing skeletal maturity from x-ray. i. greulich-pyle atlas. hum biol, 1963, 35:317-349.

baughan b, demirjian a, and levesque gy. skeletal maturity standards for french-canadian children of school-age with a discussion of the reliability and validity of such measures. hum biol, 1979, 51(3): 353-370.

beunen g. and cameron n. the reproducibility of tw2 skeletal age assessments by a self-taught assessor.ann hum biol, 1980,7(2): 155-162.

medicus h, gron am andmoorees cfa. reproducilibity of rating stages of osseous development. am j phys anthropol, 1971, 35:359-372.

wenzel a. and melsen b. replicability of assessing radiographs by the tanner and whitehouse-2 method. hum biol, 1982, 54(3):575-581.

taranger j, burning b, claesson i, et al. skeletal development from birth to 7 years. acta paediatr scand, 1976,258 (suppl.):98-108.

tanner, jm and gibbons rd. a computerized image analysis system for estimating tanner-whitehouse 2 bone age. horm res, 1994, 42:282-287.

进入列表