Chƣơng 1 : CƠ SỞ LÝ LUẬN
1.3. Đặc điểm tâm trắc của một thang đo
Đặc điểm tâm trắc của một thang đo bao gồm rất nhiều yếu tố cấu tạo nên, tuy nhiên trong đề tài này, ngƣời nghiên cứu sử dụng bốn đặc điểm cơ bản nhất cấu thành đặc điểm tâm trắc của một thang đo nhƣ sau:
1.3.1. Độ tin cậy (Reliability)
Thorndike (2006) cho rằng độ tin cậy đƣợc sử dụng để nói về sự chính xác (precision) của việc đo đạc. Chúng liên quan đến việc đo cái gì và đã đo nhƣ thế nào, thông tin đem lại có đúng mục đích đo đạc đã nêu ra khơng. Nói đơn giản, độ tin cậy chỉ cho ta biết khoảng cách, sai số hay sai lệch giữa kết quả với mục đích đo đạc nêu ra. Độ tin cậy của một cơng cụ đo chính là đại lƣợng biểu thị mức độ chính xác của phép đo nhờ bài trắc nghiệm. Do đó cần phải loại bỏ những yếu tố làm ảnh hƣởng đến độ tin cậy cũng nhƣ cần quan sát, giám sát quá trình đo lƣờng để tăng thêm độ tin cậy của cả quá trình đo lƣờng, đánh giá [12].
Độ tin cậy phụ thuộc vào sai số của đo đạc. Càng hạn chế đƣợc sai số thì càng làm tăng độ tin cậy. Sai số này có thể do khách thể nghiên cứu, do sử dụng sai cách đo của công cụ, do bản thân cơng cụ đo hay do q trình quản lý, kiểm tra, đánh giá. Cần tìm cách biết đƣợc sai số này để làm tăng giá trị của thông tin thu đƣợc qua công cụ đo lƣờng [12].
Khi đánh giá độ tin cậy, kết quả thu đƣợc giao động từ 0 đến 1. Độ tin cậy từ 0,6 trở lên là có thể chấp nhận đƣợc [12].
1.3.2. Độ hiệu lực (Validity)
Thorndike cho rằng độ hiệu lực nói lên các phƣơng pháp và dụng cụ đo đạc cho phép thu đƣợc những thơng tin cần phải có, đo đƣợc cái định đo, tức là mức độ đạt đƣợc mục đích đó. Việc đo chỉ có giá trị khi ta biết rõ ta đang đo lƣờng cái gì, ở nhóm ngƣời nào. Phép đo bằng bài trắc nghiệm đạt đƣợc
mục đích đo lƣờng là phép đo có độ hiệu lực. Độ hiệu lực của bài trắc nghiệm là đại lƣợng biểu thị mức độ đạt đƣợc mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm [12].
Mặc dầu có hơn 35 dạng có thể đƣợc sử dụng để bao hàm các dạng của độ hiệu lực (Brown, 1980), nhƣng các tác giả hầu nhƣ đều thống nhất cho rằng có ba dạng của độ hiệu lực đƣợc sử dụng rộng rãi, đó là: (a) độ hiệu lực nội dung (content validity), (b) độ hiệu lực tiêu chí liên quan (criterion - related validity), (c) độ hiệu lực cấu trúc (construct validity). Các dạng độ hiệu lực thể hiện những cách tiếp cận khác nhau đến việc hiểu đúng đắn kết quả về mặt điểm số của trắc nghiệm cũng nhƣ ý nghĩa của những điểm số này để hiệu lực hóa kết luận và suy đốn về kết quả này [12].
Các phương pháp đánh giá độ hiệu lực
Phƣơng pháp phân tích nhân tố
Theo Trần Trọng Thủy (1992), từ nhiều thập kỷ gần đây, phương pháp phân tích nhân tố ngày càng đƣợc sử dụng nhiều với tƣ cách là một phƣơng
tiện để xác định tính đồng nhất cũng nhƣ thuộc tính, cấu trúc của thang đo. Phƣơng pháp này cho phép xác định mức độ bão hòa của thang đo về các nhân tố thuộc tính khác nhau, trƣớc hết là các nhân tố mà ngƣời phát triển thang đo hƣớng vào chúng khi thiết kế thang đo, cũng nhƣ cho phép xác định trọng lƣợng của từng nhân tố một.
Theo ơng, sự phân tích nhân tố có một ý nghĩa đặc biệt to lớn trong việc thiết kế các thang đo trí tuệ. Trong lĩnh vực này, nhờ phân tích nhân tố mà các tác giả thấy đƣợc rõ ràng cấu trúc của trí tuệ phức tạp và đa dạng hơn nhiều so với điều mà nhà đo lƣờng tâm lý ngƣời Anh Spearman – ngƣời đầu tiên đề ra phƣơng pháp phân tích trí tuệ - nêu ra lúc đƣơng thời. Lý thuyết một nhân tố của ông, phải nhƣờng chỗ cho thuyết nhiều nhân tố. Nhờ những cơng trình
của J.P.Guilford và cộng sự, con số những nhân tố đƣợc vạch ra của trí tuệ đã tăng lên đến 120, nhƣng chƣa phải là giới hạn [10].
Theo Nguyễn Cơng Khanh (2004), phép phân tích nhân tố thƣờng đƣợc sử dụng để xác định tính đồng nhất của các mục trong cùng một miền đo cũng nhƣ xác định đƣợc cấu trúc của thang đo. Một thang đo có hiệu lực là thang đo mà các mục của nó có tính đồng nhất (tƣơng quan với nhân tố ≥ 0.30). Đây là phƣơng pháp phổ biến nhất nên đôi khi đƣợc gọi là “độ hiệu lực yếu
tố” [3].
Phƣơng pháp phân tích tƣơng quan
Độ hiệu lực của thang đo cũng đƣợc đánh giá bằng cách phân tích tƣơng quan của thang đo với các thang đo tƣơng tự khác có cùng nội dung. Thang đo có độ hiệu lực cao là thang đo có tƣơng quan dƣơng với các thang đo tƣơng tự nó và khơng tƣơng quan với những thang đo có sự khác biệt (khơng tƣơng tự) về nội dung [3].
Phƣơng pháp phân tích giá trị
Còn một phƣơng pháp khác nữa mà các nghiên cứu trên thế giới có xu hƣớng sử dụng thƣờng xuyên để đánh giá độ hiệu lực của một thang đo. Đó là phƣơng pháp phân tích khả năng thang đo có thể phân biệt đƣợc những giá trị khác nhau trong một tập hợp các nhóm giá trị khơng cùng loại [12]. Đây là phƣơng pháp mới nhƣng khá là có hiệu quả đặc biệt trong việc đánh giá độ hiệu lực bên trong của các thang đo.
Trong khuôn khổ đề tài này, ngƣời nghiên cứu sử dụng phƣơng pháp phân tích tƣơng quan của thang đo CBCL với một thang đo khác có cùng nội dung là SDQ để đánh giá độ hiệu lực đồng thời, và tìm sự khác biệt giữa điểm trung bình của thang đo CBCL trên nhóm bệnh nhân với điểm trung bình của nhóm mẫu chuẩn để đánh giá độ hiệu lực phân biệt của thang đo. Điều này phù hợp với một số nghiên cứu về độ hiệu lực trên thế giới nhƣ nghiên cứu
của Ellen (1999) [30], của Micheal (1999) [46], Bernard (2004) [24] hay của Stephanie (2004) [55] v.v…
1.3.3. Độ nhạy (Sensitivity) và độ đặc hiệu (Specificity)
Theo Tom Fawcett (2005), độ nhạy của một thang đo là tỷ lệ mà thang đo cho ra kết quả có vấn đề trên tổng số những ngƣời đƣợc chẩn đốn có bệnh [56].
Độ nhạy bằng “1” đƣợc hiểu là toàn bộ những ngƣời tham gia đo lƣờng đều đƣợc chẩn đốn là có bệnh.
Trong nghiên cứu các thang đo trong sàng lọc và chẩn đoán các vấn đề SKTT, độ nhạy từ 0,8 đến 1 đƣợc cho là thang đo có độ nhạy cao. Tỷ lệ từ 0,6 trở xuống là thang đo có độ nhạy thấp [56].
Cũng theo Tom Fawcett (2005), độ đặc hiệu của một thang đo là tỷ lệ thang đo cho ra kết quả khơng có vấn đề trên tổng số những ngƣời đƣợc chẩn đốn là khơng có bệnh [56].
Độ đặc hiệu cao khi tỷ lệ thang đo cho ra kết quả khơng có vấn đề trên tổng số những ngƣời thực sự khơng có bệnh từ 0,8 đến 1.
Độ đặc hiệu thấp khi tỷ lệ này dƣới 0,6 [56].
Đánh giá độ nhạy và độ đặc hiệu
Để đánh giá độ nhạy và độ đặc hiệu của một thang đo, các nghiên cứu gần đây trên thế giới sử dụng đường biểu diễn ROC (Receiver operating characteristics) và chỉ số AUC – khoảng diện tích dƣới đƣờng biểu diễn ROC
(Area under the curve) để phân tích.
Theo Tom Fawcett (2005), ROC là một biểu đồ kỹ thuật đƣợc sử dụng để phân tích hành vi của các hệ thống chẩn đốn. Ngƣời đầu tiên chứng minh giá trị của đồ thị ROC trong đánh giá và so sánh các thuật toán là Spackman (1989). Ngày nay, ROC là một thuật toán thƣờng đƣợc ứng dụng trong chẩn
đốn và tiên lƣợng y khoa rất thành cơng, đồng thời cũng để đánh giá độ nhạy và độ đặc hiệu của một cơng cụ chẩn đốn [56].
Trong biểu đồ ROC, bằng cách kết nối các điểm trên biểu đồ, ta sẽ có AUC - khoảng diện tích dƣới đƣờng biểu diễn ROC (Area under the curve). Nếu AUC bằng 0,5 (diện tích bằng 0) nghĩa là các phƣơng pháp xét nghiệm vô giá trị, tức là cơng cụ chẩn đốn đó có thể chẩn đốn đƣợc 50% ngƣời có bệnh và 50% ngƣời bệnh sẽ khơng chẩn đốn đƣợc. Và theo quy ƣớc, AUC có giá trị từ 0,8 trở lên đƣợc xem là tốt hay rất tốt; từ 0,65 đến dƣới 0,8 đƣợc xem là mức trung bình và AUC có giá trị dƣới 0,6 đƣợc xem là không tốt và không thể áp dụng đƣợc trong lâm sàng [56].