2011年12月30日 星期五

偽陽性 (false positive)

False positive means that a normal person is diagnosed as a patient.

偽陽性係指將正常人診斷(篩檢)為病人。

判斷標準:偽陽性的機率為1-陽性預測值,因此偽陽性機率越低越好。
偽陽性率測值介於0.4-0.5為極差 (fail),介於0.3-0.4為不佳 (poor) ,介於0.2-0.3為尚可 (fair) ,介於0.1-0.2為良好 (good)0-0.1為極佳 (excellent)

臨床意義:當正常人被誤診為病人,可能造成個案的身心壓力、浪費醫療資源,甚至因為不當醫療造成其他不良影響(例如:沒有高血壓卻吃降血壓劑)。

研究設計針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算偽陽性的機率。

參考文獻
王瑋瀚, 花茂棽, 楊啓正, 朱怡娟, 鄭婷文, 葉炳強, . . . 徐文俊. (2008). 台灣WAIS-中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究. 中華心理學刊, 50, 187-199.

Gyory, A. Z., Hadfield, C., & Lauer, C. S. (1984). Value of urine microscopy in predicting histological changes in the kidney: double blind comparison. British Medical Journal, 288, 819-822.

2011年12月29日 星期四

Item response theory (項目反應理論)

Item response theory (IRT,項目反應理論) is general statistical theory about examinee item and test performance and how performance related to abilities that are measured by the items in the test.
IRT 為現代測驗理論,是心理學統計模型總稱,主要用來分析問卷數據的數學模型。這些模型的目標是來確定的潛在心理特徵 (latent trait)是否可以通過測試題被反應出來,以及測試題和受試者之間的互動關係。
Hambleton RK, Jones RW. Comparison of classical test theory and item response theory and their applications to test development. Educational Measurement: Issues and Practice, 12, 38-47.
判斷標準: IRT使用數學函數根據受試者回答問題的情況,通過對題目特徵函數 (item characteristic function)的運算,來推測受試者的能力,經標準化後的潛在特質數值的範圍可從-4 +4IRT估計受試者在連續的潛在特質上所站的位置(即能力大小),另外也估計兩個重要的參數 -- 試題難度 (item difficulty) 及鑑別力 (discriminating power)
臨床意義:  項目反應理論可區別及預測每個受試者的能力,理論上受試者不論程度如何,不須完成整個測驗就能計算其得分,對於個案來說可以減少施測時間及節省體力。另外,項目反應理論不因樣本之不同而影響難度及鑑別度。
研究設計: 大量(一次性評估)收集不同嚴重/功能程度之個案
References:
1.  McHorney CA. Use of item response theory to link 3 modules of functional status items from the Asset and Health Dynamics among the Oldest Old study. Arch Phys Med Rehabil. 2002, 83, 383-394.
2.  Hays RD, Liu H, Spritzer K, Cella D. Item response theory analyses of physical functioning items in the medical outcomes study. Medical Care. 2007, 45: S32-38.

2011年12月28日 星期三

施測者內信度(Intra-rater reliability)

Intra-rater reliability: The stability of data recorded by one observer across two or more trials of which the variables being rated are fixed and time is the only factor that varies between administrations.
施測者內信度指的是:一位評估者評估同一位個案兩次以上所得資料之穩定性。時間為影響施測結果的唯一變異因素。

Reference:
Brink Y, Louw QA. Clinical instruments: reliability and validity critical appraisal. Journal of evaluation in clinical practice 2011

標準:
可使用組內相關係數(intraclass correlation coefficient, ICC)來驗證。ICC值≧0.75代表具有良好的施測者內信度。

研究設計: 由一位評估者評估同一個案兩次或以上,兩次評估間隔的時間通常較短,如一個星期之內,而評估的個案能力/特質需不隨時間產生變化。
Reference:
Kruitwagen-van Reenen ET, Post MW, Mulder-Bouwens K, Visser-Meily JM. A simple bedside test for upper extremity impairment after stroke: validation of the Utrecht Arm/Hand Test. Disability and rehabilitation 2009;31:1338-1343.

Model paper:
Thornton M, Sveistrup H. Intra- and inter-rater reliability and validity of the Ottawa Sitting Scale: a new tool to characterise sitting balance in acute care patients. Disability and rehabilitation 2010;32:1568-1575.

臨床意義: 施測者內信度越高,代表評估工具評估個案能力/特質的結果越精確。

差別試題功能

Differential item functioning (DIF): is a collection of statistical methods utilized to determine if examination items are appropriate and fair for testing the knowledge of different groups of examinees (e.g., male vs. female or Caucasian vs. African-American).

中文解釋:差別試題功能為運用統計方法,以決定是否所驗證的項目可以適當地檢驗不同族群受測者的能力,例如:男與女的比較,白人和黑人的比較。

Reference: Perrone, M. (2006). Differential item functioning and item bias: critical considerations in test fairness. Applied Linguistics, 6, 1-3.

判斷標準:如果不同的族群在某個題目之試題特徵函數(item characteristic curve, ICC)都不相同的話,則該題目出現DIF現象。反之,如果不同族群的試題特徵函數都相同的話,則該題目沒有DIF現象。
因此,DIF的判斷即為檢驗試題特徵函數是否有差異,DIF檢定方法有比較試題參數的統計考驗(the Lord X2 test)、ICC間區域面積法 (the ICC area measure)、近似值比檢定法 (the likelihood ratio test)、Mantel-Haenszel法、標準化法、邏輯迴歸分析法 (logistic regression)、SIBTEST法 (simultaneous item bias test)。

臨床意義:
來自不同族群,但能力相同的個體,如果在答對某個試題上的機率有所不同的話,則表示該題目有偏誤的狀況(biased items),產生DIF現象,有DIF之題目會被刪除,因為此題目會對不同族群產生不同的影響及解釋。

Model paper: Crane, P. K., van Belle, G., & Larson, E. B. (2004). Test bias in a cognitive test: differential item functioning in the CASI. Statistics in Medicine, 23, 241-256.

研究設計:依不同特性將個案分群 (例如:性別、種族、診斷等),測量,比較不同特性之族群是否在評估工具之各個題目上,有DIF的現象。

2011年12月23日 星期五

ROC曲線

Receiver operating characteristic curve (ROC curve): Values for sensitivity and for false-positive rates (1-specificity) are plotted on the y and x axis of the curve, respectively.

中文解釋:中文名稱為"接受器操作特性曲線",簡稱ROC曲線。由敏感度(sensitivity)和錯誤的判斷(false-positive rates/1-specificity)之交集點,所畫出之曲線。y軸為敏感度,x軸為錯誤的判斷。

Reference: Husted, J. A., Cook, R., J., Farewell, V. T., & Gladman, D. D. (2000). Methods for assessing responsiveness: a critical review and recommendations. Journal of Clinical Epidemiology, 53, 459-468.

判斷標準:ROC曲線的判斷,會以對角線為一參考線,假如檢驗工具的ROC曲線在對角線上,則表示此工會對此疾病沒有鑑別性 (如下圖)。假如ROC曲線越往圖形之左上方移動,則表示工具對疾病的肯定判斷越高,錯誤判斷越小,及此工具有較好的鑑別力。


除了看曲線的圖形鑑別工具之好壞,也可利用曲線下的面積(area under curve, AUC),判別診斷鑑別力。AUC數值為0-1,數值越大表示診斷鑑別力越好。
AUC=0.5                 no discrimination
0.7  AUC < 0.8     acceptable discrimination
0.8  AUC < 0.9     excellent discrimination
AUC  0.9              outstanding discrimination

臨床意義:
1. 使用於醫學診斷。獲得ROC曲線後,可計算曲線的最佳"切點"數據。當有未知的新進案例,此切點數據可做為診斷新個案有病或沒病的標準。
2. 驗證工具(screening tool)是否有良好的診斷鑑別力,AUC越高,表示工具的診斷鑑別力越高。
3. 使用ROC曲線來分析一個評估工具和一個外在標準之關係(驗證外在反應性),以確定此工具是否能夠偵測個案之變化,且建立工具之分數改變切點,以判斷個案有否進步/退步。~~與OT測驗工具有關。

Model paper: Butler, S. F., Fernandez, K., Benoit, C., Budman, S. H., & Jamison, R. N. (2008). Validation of the revised screener and opioid assessment for patients with pain (SOAPP-R). J Pain, 9, 360-372.

研究設計:
1. 獲得受測者的工具評量分數,再根據臨床判斷標準(例如:臨床專科醫師之診斷結果),計算敏感度和特異度之數值,以分析ROC曲線。
2. 驗證OT相關之評估工具。分析欲驗證之工具與一個外在標準之關係,以確定此欲驗證之工具的外在反應性。外在標準必須為二分(進步和沒有進步;退步和沒有退步),例如:外在標準可把個案分成,一組個案評定自己有一點進步或有進步很多,另一組個案評定自己沒有改變、或有一點退步、或退步很多。

Item reliability

Item reliability index is the estimate of the replicability of item placement within a hierarchy of items along the measured variable if these same items were to be given to another sample of comparable ability.
試題反應理論中,針對試題所估計的信度是:根據評估變項排列的題目難易的可重複性(是否在測量另一群差不多能力個案時,也能有相同的題目難易排序)。
Reference:
Kook SH, Varni JW. Validation of the Korean version of the pediatric quality of life inventory 4.0 (PedsQL) generic core scales in school children and adolescents using the Rasch model. Health and quality of life outcomes 2008;6:41.

標準: 用於整體題目比較:0.7;用於個別題目比較:0.85。介於0和1之間。
Reference:
Tennant A, Conaghan PG. The Rasch measurement model in rheumatology: what is it and why use it? When should it be applied, and what should one look for in a Rasch paper? Arthritis and rheumatism 2007;57:1358-1362.

研究設計: 以新發展的評估工具評估一群個案(如:200人),獲得題目的難易程度,並以此估計題目的信度。

Model paper:
Hou, W. H., Chen, J. H., Wang, Y. H., Wang, C. H., Lin, J. H., Hsueh, I. P., Hsieh, C. L. (2011). Development of a set of functional hierarchical balance short forms for patients with stroke. Arch Phys Med Rehabil, 92(7), 1119-1125.

臨床意義:當一個評估工具的試題信度高,代表題目難度是精確且穩定的。一旦試題的難度精確且穩定,對個案功能的評估才會精準且穩定。

2011年12月22日 星期四

複本信度 (Alternate-Forms Reliability)

Alternate-Forms Reliability “a form of reliability in which alternate forms of the same test are given to a group of heterogeneous and representative subjects; scores for the two forms are then correlated.”

中文解釋:複本信度是指編制一份量表,稱為正本,然後編制另一份性質內容、難度均相同、但文字不同的題目,作為複本,並以正本與複本針對相同對象實施測量,求得兩份測量結果,計算其相關程度,了解測量工具的信度。

臨床意義:如驗證後正本與複本得到結果有高度一致性,則可運用於臨床上避免再測時個案產生學習或練習效應,以減少評估誤差。

判斷標準:計算相關係數 (: Pearson’s r)。相關係數介於0.25-0.5為尚可 (fair),介於0.5-0.75為中度至良好(moderate to good) ,大於0.75為良好至極佳(good to excellent)
Reference:
Stigler, Stephen M. Francis Galton's Account of the Invention of Correlation. Statistical Science, 1989, 4,73–79.
Benedict RH, Zgaljardic DJ. Practice effects during repeated administrations of memory tests with and without alternate forms. Journal of Clinical Experimental Neuropsychology. 1998, 20, 339-352.
研究設計:受試者在同一個時間,接受兩份測驗(一份為正本,另一份為複本)

參考文獻:
Schmidt KS, Mattis PJ, Adams J, Nestor P. Alternate-form reliability of Dementia Rating Scale-2. Archives of Clinical Neuropsychology, 2005, 20, 435-441.

2011年12月21日 星期三

陰性預測值 (negative predictive value)

定義
Negative  predictive value
 is a possibility that the person diagnosed as a non-patient is not a patient.

陰性預測值是指診斷(篩檢)為沒有患病的人確實沒有患病者的機率。


判斷標準:陰性預測值介於0.5-0.6為極差 (fail),介於0.6-0.7為不佳 (poor) ,介於0.7-0.8為尚可 (fair) ,介於0.8-0.9為良好 (good),0.9-1.0為極佳 (excellent)

臨床意義:協助臨床工作者判斷診斷(篩檢)結果的正確性。若診斷標準(篩檢工具)的陰性預測值高,表示結果正確性高。可避免漏失患有高危險性疾病(例如:愛滋病)的病人,造成病人本身或社會大眾的負擔。

研究設計
針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算陰性預測值。
特性:疾病的盛行率越高,陰性預測值越小。診斷標準(篩檢工具)的敏感性越高,陰
性預測值越高

Reference王瑋瀚, 花茂棽, 楊啓正, 朱怡娟, 鄭婷文, 葉炳強, . . . 徐文俊. (2008). 台灣WAIS-Ⅲ中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究. 中華心理學刊, 50, 187-199.

Kiyota, Y., Schneeweiss, S., Glynn, R. J., Cannuscio, C. C., Avorn, J., & Solomon, D. H. (2004). Accuracy of Medicare claims-based diagnosis of acute myocardial infarction: Estimating positive predictive value on the basis of review of hospital records. American Heart Journal, 148, 99-104.

Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science, 240, 1285-1293.

2011年12月15日 星期四

陽性預測值 (positive predictive value)-20111219更新

定義
Positive predictive value
 is a possibility that the person diagnosed as a  patient is a real patient.


陽性預測值是指診斷(篩檢)為有病的人,真正有患病的機率。


判斷標準:陽性預測值介於0.5-0.6為極差 (fail),介於0.6-0.7為不佳 (poor) ,介於0.7-0.8為尚可 (fair) ,介於0.8-0.9為良好 (good),0.9-1.0為極佳 (excellent)

臨床意義:協助臨床工作者判斷診斷(篩檢)結果的正確性。若診斷標準(篩檢工具)的陽性預測值高,表示結果正確性高。可避免將醫療資源浪費在不是病人的人身上,或是造成個案之心理負擔。

研究設計
針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算陽性預測值。

特性:疾病的盛行率及診斷標準(評估工具)的特異性越高,
陽性預測值越高


參考資料王瑋瀚, 花茂棽, 楊啓正, 朱怡娟, 鄭婷文, 葉炳強, . . . 徐文俊. (2008). 台灣WAIS-Ⅲ中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究. 中華心理學刊, 50, 187-199.

Kiyota, Y., Schneeweiss, S., Glynn, R. J., Cannuscio, C. C., Avorn, J., & Solomon, D. H. (2004). Accuracy of Medicare claims-based diagnosis of acute myocardial infarction: Estimating positive predictive value on the basis of review of hospital records. American Heart Journal, 148, 99-104.


Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science, 240, 1285-1293.



2011年12月14日 星期三

Rasch measurement model

The Rasch model “can examine whether items from a scale measure a unidimensional construct. Rasch analysis transforms ordinal scores to the logit scale and thus to an interval-level measurement.”

References:
1. Hsueh IP, Wang WC, Sheu CF, Hsieh CL. Rasch analysis of combining two indices to assess comprehensive ADL function in stroke patients. Stroke, 2004; 35:721-736.
2. Pallant JF, Tennant A. An introduction to the Rasch measurement model: an example using the Hospital Anxiety and Depression Scale (HADS). Br J Clin Psychol, 2007; 46:1-18.

單參數Rasch 模式(只有題目難易度一個參數): Rasch 分析主要驗證量表項目是否符合Rasch 模式,若符合模式欲期則可以宣稱量表符合單向度假設。此外,如量表項目均能符合Rasch模式的預期,則Rasch模式利用對數函數(logit function)針對答題機率進行計算得到客觀等距量尺。

臨床意義: 經過項目分析,如資料符合Rasch模式,除可確認量表所有項目測量同一建構,滿足單向度外,且分數可以加總,加總之後所得之分數才能被用來代表例如個案之日常生活活動能力。

研究設計/收集資料:
個案: 篩選符合標準的門診或住院之中風病人
       - 包含不同嚴重/功能程度
施測者: 熟悉量表之治療師
檢驗量表是否符合單向度只需一次的評估結果(需大量樣本數)即可驗證

統計量之判斷標準:
1. MNSQ: infit/outfit 介於0.6-1.4
2. ZSTD: 介於±2之間
3. PCA: 任一因素解釋變異比例不超過20%

項目鑑別效度

Item discriminant validity: to demonstrate that an item measures what it is supposed to measure, and also to determine the extent to which each item measures other concepts that it is not supposed to measure.

中文解釋:確認項目是否測量所屬量表之概念,且確定項目不是在測量不所屬量表之概念。

統計量之判斷標準:項目和所屬量表之相關比和不所屬量表之相關要高,且高於統計顯著標準,統計顯著標準為2個標準誤(standard error)
1 standard error = 1/ n
(n: sample size)

Reference: Ware, J. E., & Barbara G. (1998). Methods for testing data quality, scaling assumptions, and reliability: The IQOLA project approach. J Clin Epidemio, 51, 945-952.

臨床意義:項目和所屬量表相關與項目和不所屬量表相關之比較,反應項目之潛在構念,假如項目和所屬量表之相關比和不所屬量表之相關要高,且達到顯著標準,表示此項目測量其所屬量表之潛在構念,此項目分數與其所屬量表之其它項目分數的加總才具有意義,此量表之項目總分才可代表潛在構念。

Model paper: McHorney, C. A., Ware, J. E., Lu, J. F. R., Sherbourne, C. D. (1994). The Mos 36-item short-form health survey (SF-36): III. Tests of data quality, scaling assumptions, and reliability across diverse patient groups. Medical Care, 32, 40-66

研究設計:大量收集同一族群之受測者的填寫量表之資料數據,以分析項目與量表之相關。

Person reliability

Person reliability is equivalent to the traditional test reliability, which indicates how likely we will be able to get the same ordering of individuals using a repeated test.
試題反應理論中針對個案能力所驗證的信度,相當於傳統的測驗信度,指的是:重複相同的測驗可以得到相同的個案能力排序的可能性(穩定性)。

Reference:
Li, J., Liu, H., Feng, T., & Cai, Y. (2011). Psychometric assessment of HIV/STI sexual risk scale among MSM: A Rasch model approach. BMC Public Health, 11, 763.

Criteria: A minimum value of 0.7 is required for group use and 0.85 for individual use.
用於團體比較的標準:0.7;用於個人比較的標準:0.85。

Reference:
Tennant, A., & Conaghan, P. G. (2007). The Rasch measurement model in rheumatology: what is it and why use it? When should it be applied, and what should one look for in a Rasch paper? Arthritis Rheum, 57(8), 1358-1362.

Research design: 以新發展的評估工具評估一群個案(如:200人),以每位(團體)個案所得(平均)分數變異誤(標準誤的平方)的反比來獲得評估工具對個別(團體)個案能力估計的信度。
註:person reliability可分為團體層級個別層級。

Model paper:
Hou, W. H., Chen, J. H., Wang, Y. H., Wang, C. H., Lin, J. H., Hsueh, I. P., Hsieh, C. L. (2011). Development of a set of functional hierarchical balance short forms for patients with stroke. Arch Phys Med Rehabil, 92(7), 1119-1125.

臨床意義:Person reliability可幫助我們得知所使用的評估工具是否具有估計不同個案能力的穩定性(精準度)。

2011年12月2日 星期五

未來的專有名詞說明 請加上「研究設計」及 model paper

1. 也就是如何設計研究/收集資料
2. 提出相關的實證論文做為 model paper
3. 請加上統計量之判斷標準
4.之前的詞彙,欠缺上述內容者,請陸續補上。至遲明年1月底前補齊。