2012年1月19日 星期四

可信改變指數(Reliable Change Index)

Reliable Change Index (RCI) determines if the pretest to posttest change score exceeds that which would be expected on the basis of measurement error.
可信改變指數能決定前後測分數差是否超過測量誤差。

Reference:Christensen, L. & Mendoza, J.L. (1986). A method of assessing change in a single subject: An alteration of the RC index. Behavior Therapy, 17, 305–308.

判斷標準:RCI>1.96代表有95%的信心水準,個案的分數變化在統計上已達顯著意義。

研究設計:對同一個案做兩次施測,以RCI值[前後測分數差除以sqrt(2倍SEM)]是否有超過1.96,來判定分數是否達統計上顯著差異。

Model paper:
Schatz P. Long-term test-retest reliability of baseline cognitive assessments using ImPACT. The American journal of sports medicine 2010;38:47-53.

臨床意義:可用來解釋單一個案的分數改變量是否達統計上顯著之意義(真實的改變)。

Note:
最原始的文獻為:


Jacobson, N. S. , Follette, W C., Revenstorf, D. , Baucom, D. H., Hahl-weg, K., & Margolin, G. (1984). Variability in outcome and clinicalsignificance of behavioral marital therapy: A reanalysis of outcomedata. Journal of Consulting and Clinical Psychology, 52, 497-504.


一開始的RCI公式為:前後測分數差除以SEM(評估標準誤),後來才改為目前這個常用的公式。



同義詞: minimal detectable change (MDC), smallest real difference (SRD)

差異效度

Differential validity refers to finding where the computed validity coefficients are significantly different for different groups of examinees.

中文解釋:差異效度意指不同組之受測者,其效度係數有顯著的差異。

Reference: Young, J. W., & Kobrin, J. L. (2001). Differential validity, differential prediction, and college admission testing: a comprehensive review and analysis. College Board Research Report, No. 2001-6.

判斷標準:比較不同組受測者在欲驗證工具之分數與效標工具分數的相關係數,是否有達到顯著差異 (使用Fisher's z transformations)。

臨床意義:比較評估工具在不同性別、種族等族群,是否有統計上顯著的差異。達到顯著差異,代表此工具對不同族群有不同的預測程度。例如:驗證一個認知評估工具在不同性別中,預測ADL功能是否有所差別。

Model paper: Mattern, K. D., Patterson, B. F., Shaw, E. J., Kobrin, J. L., & Barbuti, S. M. (2008). Differential validity and prediction of the SAT. College Board Research Report, No. 2008-4.

研究設計:先用欲驗證的工具測量不同族群之受測者,間隔一段時間後,再使用效標工具測量已接受第一次測量之受測者,以此驗證差異效度。

專家效度 (expert validity) 20120131更新

Expert validity means judging the breadth and appropriateness of the the content by varied experts in the filed.  Expert validity is part of content validity.
專家效度亦即由該領域的多種專家判斷問卷所包含的內容廣度與適切性是否足夠。而專家效度為內容效度的一部份。

判斷標準:專家小組之成員對每個項目的適切性、以及對整份問卷的內容廣度的判斷結果一致性>0.8為可接受。

研究意義:當專家認為問卷內容包含所有應涵蓋的內容,可確保施測結果可用於解釋所預測量的目標。

研究設計
邀請與所欲測量概念相關的各領域專家群,針對此測量工具是否已包含所欲測量概念之所有內容與內容之適當性進行討論(或者以問卷蒐集專家的意見)。研究者參考專家之討論與意見,修改測量工具的內容後,再次邀請專家群提供測量工具內容之修改意見。最後,以問卷調查所有專家對問卷內容完整性、適當性的判斷(可用二分法或李克氏量尺),並計算專家意見之一致性。 一致性越高表示內容效度越佳。  


參考文獻

Jeng, C., Sheu, P. Y., Chen, C. M., Chen, S. R., & Tseng, I. G. (2001). Clinical validation of the related factors and defining characteristics of impaired swallowing for patients with stroke. Journal of Nursing Research, 9, 105-115.

Williams, A. C., & Penfield, M. P. (1985). Development and validation of an instrument for characterizing food-related behavior. Journal of the American Dietetic Association, 85, 685-689.
Yudofsky, S. C., Kopecky, H. J., Kunik, M., Silver, J. M., Endicott, J., Nugent, C. C., . . . Schenk, R. (1997).
Test development and validation of a back education posttest. Journal of Orthopedic Sports Physical Therapy, 24, 78-85.

2012年1月15日 星期日

Guttman scale 古德曼量表

Guttman scale is “a cumulative scale designed so that agreement with higher-level responses assumes agreement with all lower-level responses.”

古德曼量表:為累積量表,由單向且具有同一性質的項目所構成,項目由弱到強連續性排序。項目之間的關係或排列方式有次序可循。在此法中,一個人對第二項目表示贊成時,他也同時表示贊成第一項目。

Reference: Guttman L. A basic for scaling qualitative. American Sociological Review. 1944; 9:139-150.

判斷標準: Coefficient of Reproducibility(CR>.90) ; 檢驗Coefficient of Scalability(CS>.60); CR>.90 CS>.60 這些陳述句可用以組成一Guttman Scale; 若上述條件不合,則這些陳述句應加修改

Green BF. A method of sclogram analysis using summary statistics. Psychometrika. 1956; 21:79-88.

臨床意義: 如平衡量表是以Guttman scale編製,具有Guttman scale特性,此量表項目由弱到強排列 (如雙腳站立到單腳跳),如個案具有單腳跳之能力,我們即可判斷個案應該也具有雙腳站之能力。所以我們無須評估個案單腳跳之前較容易之項目,即可瞭解個案平衡狀況,節省臨床人員及個案的時間及體力。

研究設計: 大量一次性收集個案,且應有5倍於項目數的受試者

Travis SS, McAuley WJ. Simple Counts of the number of basic ADL dependencies for long-term care research and practice. Health Services Research. 1990; 25: 349-360.

2012年1月12日 星期四

項目難度

Item difficulty, p,  is defined as the proportion of correct answers. (屬於古典測驗理論,classical test theory, CTT)

中文解釋:項目難度的定義是在某項目上,答對人數的百分比。以p表示。

Reference: Guo, F., Rudner, L., & Talento-Miller, E. (2009). Scaling item difficulty estimates from nonequivalent groups. GMAC Research Reports. 1-11.

判斷標準:越高百分比,p值越大,答對的人越多,表示題目越簡單。例如:,70%的受測者可以答對的題目(p=0.7),比20%受測者可以答對的題目(p=0.2)要簡單,後者的題目比較難。

臨床意義:
1. p越接近0或1.0之題目,越不能區辨受測者的表現。p趨近0表示題目太難,大多的受測者都不會。p趨近1.0表示題目太簡單,大多的受測者都會。最好選擇試題難度範圍在0.3-0.7之間,難易度適中的題目。
2. p越趨近0.5表示題目的區辨力越大。有50%受測者答對,有50%受測者答錯。
3. 對於可能導致猜測行為的題目,可以設定p值要比較高。

Model paper: Pinar, R., & Oz, H. (2011). Validity and reliability of the Philadelphia Geriatric Center Morale Scale among Turkish elderly people. Qual Life Res, 20, 9-18.

研究設計:收集同一族群之受測者評估每一個項目的數據,以分析個別之項目難度。

IRT之項目難度參數可從試題特徵曲線 (item characteristic curve, ICC)上得知,以b值表示。

CTT與IRT之item difficulty的差異:
1. CTT的item difficulty是樣本依賴 (sample dependent),因此不同受測者樣本的item difficulty會有所不同。而IRT不受樣本特性的影響,對任何受測者而言,項目越容易作答,即表示項目難度越低。
2. CTT的項目難度是看p值,p值越大表示試題越簡單,p值越小表示試題越困難,這概念與常理的想法相反。但IRT的項目難度是看b值,b值越大表示試題越困難,b值越小表示試題越簡單,這概念與常理的想法符合。


如果是多選題,可使用多元計分法,對不同選項給予不同的計分。

2012年1月10日 星期二

絕對信度(absolute reliability)

Absolute reliability is the degree to which repeated measurements vary for individuals, ie the less they vary, the higher the reliability.
絕對信度是指:在重複施測下,個案分數變異的程度。變異程度越少,信度越高。
註:relative reliability(相對信度)是看個案分數在重複施測下,於團體排名一致的程度。

Reference:
Bruton A, Conway JH, Holgate ST. Reliability: What is it, and how is it measured? Physiotherapy 2000; 86: 94-99.

判斷標準:
SEM(測量標準誤)是絕對信度的一個指標。將SEM除以所有測量分數平均值並化為百分比後,可去除單位,得到SEM%。SEM%小於10%代表測量誤差小,即絕對信度高。

Reference:
Flansbjer UB, Holmback AM, Downham D, Patten C, Lexell J. Reliability of gait performance tests in men and women with hemiparesis after stroke. J Rehabil Med 2005; 37: 75-82.

研究設計:
用評估工具對個案進行兩次或以上的評估(重複施測),由研究目的來決定由同一位施測者執行,或不同位施測者執行,並以此來看施測者內或施測者間的絕對信度。重複施測間隔的時間依據評估的特質或能力來決定,若是動作方面的評估(如:平衡功能),通常間隔1~2星期,若是認知功能的評估(如:IQ),可能間隔1年。

Model paper:
Liaw LJ, Hsieh CL, Lo SK, Chen HM, Lee S, Lin JH. The relative and absolute reliability of two balance performance measures in chronic stroke patients. Disability and rehabilitation 2008;30:656-661.

臨床意義:評估工具的絕對信度越高,代表"評估分數"間一致性程度越高。不論是相同施測者的重複評估,或不同施測者間的評估。

2012年1月9日 星期一

偽陰性 (false negative) 20120131更新

False negative means that a patient is diagnosed as a normal person.
偽陰性係指將病人診斷(篩檢)為正常人。

判斷標準
:偽陰性的機率為1-陰性預測值,因此偽陰性機率越低越好。
偽陰性率測值介於0.4-0.5為極差 (fail),介於0.3-0.4為不佳 (poor) ,介於0.2-0.3為尚可 (fair) ,介於0.1-0.2為良好 (good)0-0.1為極佳 (excellent)

臨床意義:當篩檢的對象為有高度危險(例如:患有法定傳染病、癌症)者或是需及早開始治療之個案(例如:發展遲緩、學習障礙),將病人誤判為正常人可能危害其他人的健康、或是錯失個案之治療時機。

研究設計針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算偽陰性的機率。

參考文獻
王瑋瀚花茂棽楊啓正朱怡娟鄭婷文葉炳強, . . . 徐文俊. (2008). 台灣WAIS-中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究中華心理學刊, 50, 187-199.

Gyory, A. Z., Hadfield, C., & Lauer, C. S. (1984). Value of urine microscopy in predicting histological changes in the kidney: double blind comparison. British Medical Journal, 288, 819-822.


Robert E, Mason. (1951). Pheochromocytoma with false negative benzodioxane tests. The American Journal of Medicine, 11, 524-530.