2011年11月30日 星期三

相對信度

Relative reliability is the degree to which individuals maintain their position in a sample over repeated measurements.

Reference:Bruton A, Conway JH, Holgate ST. Reliability: What is it, and how is it measured? Physiotherapy 2000; 86: 94-99.

中文解釋:相對信度是指個案在重複的施測中,兩次分數於樣本排名的相關程度。
*組內相關係數(intra-class correlation, ICC)為相對信度的一個指標。

標準: ICC值≧0.75代表具有良好的相對信度。

研究設計: 對個案作重複的施測,依據研究目的由相同或不同評估者重複施測,以此來檢驗施測者內或施測者間的(相對)信度。

Model paper:
Liaw LJ, Hsieh CL, Lo SK, Chen HM, Lee S, Lin JH. The relative and absolute reliability of two balance performance measures in chronic stroke patients. Disability and rehabilitation 2008;30:656-661.

臨床意義:相對信度可呈現評估工具評估結果一致性的程度,不論是相同評估者的重複施測,或不同施測者間的評估。

地板效應

Floor effect is a “value that observations cannot fall below, such as zero errors on a learning task.”

Reference: Nunnally JC, Bernstein IH. Psychometric theory. McGraw-Hill, INC; 1994.

地板效應: 指由於量表下限的影響,致使無法觀察下限之外的個案能力。

判斷標準: 個案於評估工具之得分分佈中,獲得最分之人數比例,一般以20%為判斷標準
Van Der Putten JJ, Hobart JC, Freeman JA, Thompson AJ. Measuring change in disability after inpatient rehabilitation: comparison of responsiveness of the Barthelindex and the Functional Independence Measure. J Neurol Neurosurg Psychiatry 1999; 66:480-484.

研究方法: 一次性評估收集個案資料
Martinsson L, Eksborg S. Activity Index-a complementary ADL scale to the Barthel Index in the acute stage in patients with severe stroke. Cerebrovasc Dis. 2006; 22: 231-239.
 

即量表中最容易的題目/動作,對某些能力低的個案來說仍嫌太難,在大家都無法做到的情形下,量表本身即失去對此等個案個別差異的鑑別力。

特異性 specificity 20120131更新

Specificity means the proportion of the total number of diagnosed as non-patients in non-patients.


中文解釋
特異性係指評估工具(或診斷標準)可以將沒有患病的人篩檢(診斷)為有未患病的機率。



判斷標準
特異性介於0.5-0.6為極差 (fail),介於0.6-0.7為不佳 (poor) ,介於0.7-0.8為尚可 (fair) ,介於0.8-0.9為良好 (good),0.9-1.0為極佳 (excellent)


臨床意義
特異性高的評估工具可協助醫療人員盡可能排除非患病的人,以免浪費醫療資源。



研究設計
針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算特異性。


參考文獻王瑋瀚, 花茂棽, 楊啓正, 朱怡娟, 鄭婷文, 葉炳強, . . . 徐文俊. (2008). 台灣WAIS-Ⅲ中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究. 中華心理學刊, 50, 187-199.

Rodstein, M., & Gubner, R. S. (1964). SPECIFICITY + SENSITIVITY OF QRS VOLTAGE CRITERIA OF LEFT VENTRICULAR HYPERTROPHY. American Journal of Cardiology, 13, 619-623.


Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science, 240, 1285-1293.  


2011年11月29日 星期二

項目間一致程度

Item internal consistency is tested by examining the correlations between an item and the scale score computed from all other items in that scale (item-scale correlation after correction for overlap).

Reference: Ware, J. E., & Barbara G. (1998). Methods for testing data quality, scaling assumptions, and reliability: The IQOLA project approach. J Clin Epidemio, 51, 945-952.

中文解釋:計算項目分數與量表分數(不包括此項目分數)之相關。

判斷標準:每個項目和所屬量表間之相關 > 0.4

臨床意義:分析項目是否和潛在構念呈現線性關係,假如每個項目和潛在構念之項目間相關程度高於0.4,表示每個項目測量同一個潛在構念,所有項目分數的加總有其意義,總分可代表潛在構念。

Model paper: Sullivan, M., Karlsson, J., & Ware, J. E. (1995). The swedish SF-36 healthe survey-I. Evaluation of data quality, scaling assumptions, reliability and construct validity across general populations in Sweden. Soc Sco Med, 41(10), 1349-1358.

研究設計:讓一群受測者填寫量表,分析項目與所屬量表間相關。

2011年11月23日 星期三

效標關連效度

Criterion related validity is the degree to which a measure correlates with a gold standard (the criterion).

中文解釋:效標關連效度是指評估工具的評估結果與被視為「黃金標準」評估工具(即效標)的評估結果相關之程度。
*效標關連效度包含同時效度及預測效度。

Reference: Hobart JC, Lamping DL, Thompson AJ. Evaluating neurological outcome measures: the bare essentials. J Neurol Neurosurg Psychiatry 1996; 60: 127-130.

標準:
同時效度/預測效度: 以相關係數來驗證,Pearson's r/Spearman's ρ:
≧0.75 良好;0.40-0.74 中等;
≦0.40 差。


同時效度標準較預測效度高。

研究設計:
同時效度:
以黃金標準的評估工具(效標)及一新發展欲驗證的評估工具同時評估個案。
預測效度: 某一時間評估個案,於一段時間後再評估,為追蹤研究。

Model paper:
Hsueh I, Mao H, Huang H, Hsieh C. Clinical applications of balance measures in stroke patients. Formosan Journal of Medicine 2001;5:261-268.

臨床意義:當有新的評估工具要應用於臨床時,我們會找大家公認的「黃金標準」評估工具作為效標來驗證。以平衡功能的評估工具為例:Berg Balance Scale就是公認的黃金標準。如果新的評估工具與黃金標準有良好的效標關連效度,我們就比較有信心說:新的評估工具能評估或預測到我們想評估的某項能力或特質。

資料品質

Data quality: Indicators of data quality such as item non-response and missing scale scores determine the extent to which an instrument can be used successfully in a clinical setting.

Reference: Hobart, J. C., Riazi, A., Lamping, D. K., Fitzpatrick, R., Thompson, A. J. (2004). Improving the evaluation of therapeutic interventions in multiple sclerosis: development of a patient-based measure of outcome. Health Technology Assessment, 8, 1-48.

中文解釋:資料品質的指標包括有未作答之項目及遺漏值,由此確定評估工具能否順利地於臨床上使用。

判斷標準:遺漏值< 10%為可接受之範圍。

臨床意義:資料品質反應受測者是否了解題目內容,及能否接受題目內容,才得以作答。例如:題目不清楚,使得受測者覺得困惑,或題目設計不適當,讓受測者覺得不開心等,都會導致受測者沒有完整完成評估。

Model paper: Sullivan, M., Karlsson, J., & Ware, J. E. (1995). The swedish SF-36 healthe survey-I. Evaluation of data quality, scaling assumptions, reliability and construct validity across general populations in Sweden. Soc Sco Med, 41(10), 1349-1358.

研究設計:讓一群受測者填寫量表,計算每題項目未被填寫之百分比。

2011年11月22日 星期二

天花板效應

Ceiling effect “occurs with measures that are relatively easy, when a substantial proportion of individuals obtain either maximum or near-maximum scores and cannot demonstrate the true extent of their abilities, resulting in score distributions that are com-pressed at the upper end of performance.”

Reference: Uttl B. Measurement of Individual Differences: Lessons from Memory Assessment in Research and Clinical Practice. Psychological Science, 2005, 16: 460-467.

天花板效應 (ceiling effect): 即評估工具之測量尺度有效之高分範圍不夠大,導致分數集中在尺度頂端,亦即無法區分高能力者。亦指測驗題目過於簡單,而致使大部分個案得分普遍較高的現象。


判斷標準: 個案於評估工具之得分分佈中,獲得最高分之人數比例,一般以20%為判斷標準
Van Der Putten JJ, Hobart JC, Freeman JA, Thompson AJ. Measuring change in disability after inpatient rehabilitation: comparison of responsiveness of the Barthelindex and the Functional Independence Measure. J Neurol Neurosurg Psychiatry 1999; 66:480-484.

研究方法: 一次性評估收集個案資料

Stucki G, Stucki S, Briihlmann P, Michel BA. Ceiling effects of the Health Assessment Questionnaire and its modified version in some ambulatory rheumatoid arthritis. Annals of the Rheumatic Diseases 1995; 54: 461-465.

臨床意義:評估工具之題目對於某些特性(例如: 功能好的個案)來說,過於簡單,無法確實將個案的能力區分出來,例如巴氏量表10項目對於輕微中風慢性中風個案來說可能過於簡單,無法顯現此族群日常生活活動功能之差異。

敏感性 sensitivity 20120131更新

Sensitivity means the proportion of the total number of diagnosed patients in real patients.


中文解釋
敏感性係指評估工具(或診斷標準)可以將患病的人篩檢(診斷)為有患病的機率。


判斷標準
敏感性介於0.5-0.6為極差 (fail),介於0.6-0.7為不佳 (poor) ,介於0.7-0.8為尚可 (fair) ,介於0.8-0.9為良好 (good),0.9-1.0為極佳 (excellent)

臨床意義
敏感性高的評估工具可協助醫療人員盡可能篩檢(診斷)出患病的個案,以免此疾病造成個人或社會國家之重大損失。例如:AIDS、癌症、憂鬱症。


研究設計
針對來院就診轉介之個案進行評估,再根據臨床專科醫師之診斷結果,計算敏感性。


參考文獻
王瑋瀚, 花茂棽, 楊啓正, 朱怡娟, 鄭婷文, 葉炳強, . . . 徐文俊. (2008). 台灣WAIS-Ⅲ中文版算術、記憶廣度測驗及其組合估算工作記憶指數在臨床上之適用性:回溯性研究. 中華心理學刊, 50, 187-199.

Rodstein, M., & Gubner, R. S. (1964). SPECIFICITY + SENSITIVITY OF QRS VOLTAGE CRITERIA OF LEFT VENTRICULAR HYPERTROPHY. American Journal of Cardiology, 13, 619-623.

Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science, 240, 1285-1293.





2011年11月17日 星期四

建構效度 Construct validity 2012/1/31更新

Construct validity means whether the test can be inferred to the underlying, theoretically existing construct.


中文解釋:建構效度是指問卷是否可以反映出問卷本身所欲測量的潛在建構(此潛在建構可能是理論上存在,或是由觀察歸納而得)。

判斷標準
由驗證性因素分析之適配度指標判斷。較常用的指標有4項:卡方值/自由度的比值 (<3.0為可接受)、Bentler’s comparative fit index (CFI,CFI > 0.95表示適配度良好)、 Tucker-Lewis Index (TLI,TLI> 0.95表示適配度良好) 、平方均值估計殘差根 (root mean square error of approximation ,RMSEA。RMSEA <0.05表示適配度良好)。有時候並非所有適配度指標都會符合,因此最後由作者主觀判定是否接受此結果。



臨床意義:問卷具有良好的建構效度 ,可確保測量結果確實反映所欲測量的概念,使測量結果更容易被解釋清楚。

研究設計:以欲驗證建構效度之問卷訪談訪談特定對象,再以填答結果進行因素分析。



參考資料
Cronbach, L. J., & Meehl, P. E. (1955). CONSTRUCT VALIDITY IN PSYCHOLOGICAL TESTS. Psychological Bulletin, 52, 281-302.

Hsueh, I. Ping, Jeng, Jiann-Shing, Lee, Yen, Sheu, Ching-Fan, & Hsieh, Ching-Lin. (2011). Construct validity of the stroke-specific quality of life questionnaire in ischemic stroke patients. Archives of Physical Medicine & Rehabilitation, 92, 1113-1118.

Terwee, C. B., Bot, S. D. M., de Boer, M. R., van der Windt, Dawm, Knol, D. L., Dekker, J., . . . de Vet, H. C. W. (2007). Quality criteria were proposed for measurement properties of health status questionnaires. Journal of Clinical Epidemiology, 60, 34-42.

2011年11月16日 星期三

區別效度/發散效度

Discriminant validity is “the degree to which concepts that should not be related theoretically are not interrelated in reality.”
Reference: Campbell DT, Fiske DW. (1959). Convergent and discriminant validation by the multitrait- multimethod matrix. Psychological Bulletin, 56, 81-105.

Campbell & Fiske (1959) 在其文章給予discriminant validity上述的解釋,Nunnally& Bernstein (1994)在其書中引用Campbell & Fiske (1959) 關於discriminant validity 的定義並稱之為divergent validity,由此可知兩詞可互用。
Divergent validity : "In order to justify novel measures of attributes, a measure should have divergent validity in the sense of meauring something different from existing methods. Measures of different attributes should therefore not correlate to an extremely high degree." (pp. 92)
Reference : Nunnally JC, Bernstein IH. Psychometric theory. McGraw-Hill, INC. ;1994.

區辨效度: 指評估工具本身的分數,應該和測量不同構念或特質的評估工具之分數,有低相關(甚至無關)。

判斷標準:可使用相關係數來驗證:相關係數<0.3,表示兩評估工具評估到的特質部相關。

研究設計: 個案同時接受欲驗證的評估工具及不同構念或特質的評估工具之評估
Ng TP, Niti M, Chiam PC, Kua EH. Physical and cognitive domains of the instrumental activities of daily living: Validation in a multiethnic population of Asian older adults. J Gerontol A Biol Sci Med Sci. 2006; 61: 726-735.

 
區辨效度亦稱發散效度,為建構效度之一種,以巴氏量表為例,施測者使用巴氏量表能正確有效地評估到中風個案的日常生活活動功能,而非評估到個案的認知或憂鬱程度。

測量標準誤

The standard error of measurement (SEM) is a determination of the amount of variation or spread in the measurement errors for a test.

Reference:
Harvill LM. NCME Instructional module: standard error of measurement. Educational Measurement: Issues and Practice. 1991;10(2):33-41.

中文解釋:測量標準誤可決定一個測驗測量誤差變異的程度或其分布的狀況。

研究設計: 對個案進行重複評估。根據研究目的由同一評估者或不同評估者進行重複評估。

標準: SEM小於第一次評估評估值平均的10%代表測量誤差小(評估結果穩定性高)。

Model paper:
Flansbjer UB, Holmback AM, Downham D, Patten C, Lexell J. Reliability of gait performance tests in men and women with hemiparesis after stroke. J Rehabil Med 2005; 37: 75-82.

臨床意義:一般來說,我們不太可能對個案作無限多次的測量,所以無法直接估計測量誤差的變異程度,即測量標準誤。而當我們知道某一測驗的信度,就可用信度係數來估計此測驗的測量標準誤。當信度越高,測量標準誤越小。反之,測量標準差也可用來反映測驗施測結果的穩定性。測量標準誤越小,表示施測結果越穩定(信度越高)。

區辨效度

Discriminative validity: A instrument shows"discruminative validity" if a patient group expected to have worse scores has scores worse than those of comparison subjects. The instrument thus "discriminates" between the groups.

Reference: Crowley, T. J., Mikulich, S. K., Ehlers, K. M., Hall, S. K., & Whitmore, E., A. (2003). Discriminative validity and clinical utility of an abuse-neglect interview for adolescents with conduct and substance use problems. Am J Psychiatry, 160, 1461-1469.


中文解釋:評估工具能否區辨不同能力之受測者之間的差異。能力較差的受測者評估會得到較低分數。


判斷標準:使用ANOVA分析,是否不同群體間於某一相關特質中有所差異。


臨床意義:評估工具區辨不同群體間於某一相關特質之差異,確定群體間功能程度之差異,例如:中風病人姿勢控制量表之軀幹控制次量表,能夠區辨有無軀幹控制困難的中風患者之ADL功能差異,如此可協助臨床工作者在針對有無軀幹中風病患時,擬定不同的ADL治療計畫。


Model paper: Hsieh, Y. W., Lin, J. H., Wang, C. H., Sheu, C. F., Hsueh, I. P., & Hsieh, C. L. (2007). Discriminative, predictive, and evaluative properties of the simplified Stroke Rehabilitation Assessment of Movement instrument in patients with stroke. J Rehabil Med, 39(6), 454-460.


研究設計:依據某一特質將受測者分群,使用評估工具測量所有分群之受測者,檢定不同群體是否在測驗結果上是否有所差異。

2011年11月10日 星期四

折半信度 (Split-Half Reliability)

Split-half reliability means to separate the test to 2 equivalent parts and to calculate the correlation the results of  these 2 parts. It is often used to estimate the stability and internal consistency of the test when the items of test are enough.

中文解釋
折半信度係指將題目較多的問卷分成兩個內容相當的短版問卷之後,兩個短版問卷得分的相關。折半信度可用於估計施測結果的穩定性與問卷的內部一致性。

判斷標準
相關係數 (Pearson's r或Spearman's ρ) ≧0.75為良好,0.40-0.74為中等,≦0.40為差。

臨床意義
1.可確保被拆成兩半的問卷內容同質性高。
2.折半信度只使用半份問卷估計信度,若半份問卷的信度良好,則使用整份問卷施測信度更高。

研究設計
先將問卷拆為「內容等量」的兩半,再邀請問卷的適用對象填寫整份問卷。最後計算適用對象的於兩半問卷的作答結果之相關係數。

參考資料:

Cronbach, Lee. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Elena M, Andresen. (2000). Criteria for assessing the tools of disability outcomes research. Archives of Physical Medicine and Rehabilitation, 81, S15-S20.

Klein, C., & Fischer, B. (2005). Instrumental and test-retest reliability of saccadic measures. Biological Psychology, 68, 201-213.

Streiner, D. L. (2003). Starting at the beginning: An introduction to coefficient alpha and internal consistency. Journal of Personality Assessment, 80, 99-103.

2011年11月9日 星期三

生態效度

Ecological validity refers to the degree to which test performance corresponds to real-world performance.

Reference: Chaytor, N., & Schmitter-Edgecombe, M. (2003). The ecological validity of neuropsychological tests: a review of the literature on everyday cognitive skills. Neuropsychology Review, 13, 181-197.

中文解釋:生態效度為分析受測者之評估表現與真實環境下表現之相關性。

判斷標準:欲驗證之評估工具與ADL或outcome measure評估工具之相關性。
                     0.60 excellent;
                    0.31-0.59 adequate;
                    ≦ 0.30 poor

臨床意義:評量所得所得結果可推論至真實情境之程度,即結果是否可作為推估受測者真實生活能力高低依據之指標。

Model paper: Chaytor, N., Temkin, N., Machamer, J., & Dikmen, S. (2007). The ecological validity of neuropsychological assessment and the role of depressive symptoms in moderate to severe traumatic brain injury. J Int Neuropsychol Soc, 13(3), 377-385.

研究設計:同時測量欲驗證之評估工具及ADL或outcome measure評估工具,看工具間的相關程度。

收斂效度

Convergent validity is “the degree to which concepts that should be related theoretically are interrelated in reality.”

Campbell DT, Fiske DW. (1959). Convergent and discriminant validation by the multitrait- multimethod matrix. Psychological Bulletin, 56, 81-105.
收斂效度 (Convergent validity): 指評估工具欲測量之特質與理論上相關特質的關連程度。

判斷標準:可使用Pearson’s r 來檢驗兩評估工具之相關。 r 0.6 為具有良好之收斂效度。
Salter K, Jutai JW, Teasell R, Foley NC, Bitensky J, Bayley M. Issues for selection of outcome measures in stroke rehabilitation: ICF activity. Disabil Rehabil 2005; 27: 315-340.

研究設計: 個案同時接受欲驗證的評估工具及理論上相關特質的評估工具之評估


臨床意義: 收斂效度為建構效度之一種,驗證評估工具的收斂效度,可提供資訊使臨床人員瞭解評估工具之項目是否能真正評估到理論上欲評估的建構或特質,即例如欲評估個案之日常生活活動功能之評估工具,真能評估到個案之日常生活功能,而不是評估到個案的認知功能。

2011年11月8日 星期二

最小臨床重要差異值

The minimal clinically important difference (MCID) can be defined as the smallest difference in score in the domain of interest which patients received as beneficial and which would mandate, in the absence of troublesome side effects and excessive cost, a change in the patient's management.

Reference:
Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Control Clin Trials 1989; 10: 407-415.

中文解釋:「最小臨床重要差異值」可被定義為:於某一範疇(所評估的能力或功能性表現)中,病患認為有益於自己的最小分數改變。 這個改變不會伴隨副作用或過多的花費,將影響臨床上對病患的管理(如:治療計畫的制定)。

研究設計:
追蹤研究/重複評估,如:入院時評估,住院時接受復健治療,出院時再評估。

標準:
(1) 以個案自評量表(如:李克氏15點量表)為一外在標準,由-3進步到-1或1進步到3的差距為MCID。
(2) 自評有些進步個案的平均改變分數與自評沒有進步個案的平均改變分數相減所得的分數為MCID。

Reference:
Wells, D Beaton, B Shea, M Boers, L Simon, V Strand, P Brooks and P Tugwell Minimal clinically important differences: review of methods. J Rheumatol G 2001;28;406-412

Model paper:

Iyer LV, Haley SM, Watkins MP, Dumas HM. Establishing minimal clinically important differences for scores on the pediatric evaluation of disability inventory for inpatient rehabilitation. Physical therapy 2003;83:888-898.

臨床意義:
研究上,當我們檢驗一個評估工具的反應性,通常是從「團體層級」來判斷此評估工具是否能偵測某一個治療的療效,如:治療前和治療後的改變量是否有統計上的顯著意義。進一步,我們也會檢驗「最小可偵測變化值」(minimal detectable change, MDC),以判定統計上個別病患最少需改變多少,才是非測量誤差造成的改變量。然而,在統計上有顯著意義的最小改變量不一定代表臨床上重要的最小改變量。於是,檢驗一個評估工具的「最小臨床重要差異值」,可以知道此評估工具所能呈現團體或個別個案認為重要的最小改變量。