I MỘT SỐ KHÁ NỆM CỦA LÍ THUYẾT CỔ ĐỂN VỀ KHOA HỌC ĐO
4. Về chất lượng của cỏc cõu hỏi trắc nghiệm và đề thi trắc nghiệm
4.1. Mục tiờu giảng dạy là cơ sở quan trọng để xõy dựng cỏc đề thi trắc nghiệm
Để một đề trắc nghiệm đo được mức độ đạt cỏc mục tiờu giảng dạy, thể hiện ở năng lực hay hành vi cần phỏt triển của người học qua quỏ trỡnh giảng dạy, để viết một bài trắc nghiệm tốt cho một mụn học cần dựa vào cỏc mục tiờu đó đề ra trong mụn học.
Trong thực tế, cỏc mục tiờu giảng dạy mụn học khụng phải bao giờ cũng cú sẵn những chi tiết để cú thể soạn thảo một bài trắc nghiệm. Trong trường hợp đú cần xõy dựng lại chi tiết danh mục cỏc mục tiờu. Việc xõy dựng cỏc mục tiờu thường được triển khai trong nhúm những người cựng giảng dạy mụn học đú phối hợp với một chuyờn gia hiểu biết cỏch viết cỏc cõu hỏi trắc nghiệm. Trước hết, cần liệt kờ cỏc mục tiờu cụ thể liờn quan đến năng lực cần đo lường đối với từng phần của mụn học, sau đú tuỳ thuộc vào mức độ quan trọng của từng mục tiờu ứng với từng phần của mụn học mà quyết định là cần bao nhiờu cõu hỏi. Một cụng cụ thuận lợi để thiết kế cỏc thành phần của một đề trắc nghiệm là bảng mục tiờu giảng dạy. Bạn đọc cú thể tham khảo cỏch xõy dựng cấu trỳc của đề thi trắc nghiệm qua cỏc tài liệu tham khảo1,2,5,6.
Việc xỏc định được chi tiết cỏc mục tiờu cụ thể của mụn học và thiết kế đề trắc nghiệm bỏm sỏt cỏc mục tiờu đú là một đảm bảo để phộp đo bằng đề trắc nghiệm cú độ giỏ trị cần thiết.
4.2. Độ khú và độ phõn biệt của cỏc cõu trắc nghiệm
Để đỏnh giỏ chất lượng của từng cõu trắc nghiệm hoặc của toàn bộ một đề thi trắc nghiệm, người ta thường dựng một số đại lượng đặc trưng. Chỳng ta sẽ lần lượt giới thiệu cỏc đại lượng đặc trưng quan trọng nhất của một cõu hoặc một bài trắc nghiệm, trước hết vềđộ khú và độ phõn biệt.
Độ khú :
Khỏi niệm đầu tiờn cú thể lưu ý đến là độ khú của cõu trắc nghiệm. Khi núi đến độ khú, hiển nhiờn phải xem cõu trắc nghiệm là khú đối với đối tượng nào. Nhờ việc thử nghiệm trờn cỏc đối tượng thớ sinh phự hợp, người ta cú thểđo độ khú bằng tỉ số % thớ sinh làm đỳng cõu trắc nghiệm đú trờn tổng số thớ sinh dự thi :
Độ khú P của cõu trắc nghiệm = Tổng số thí sinh trả lời đúng câu hỏi
Tổng số thí sinh trả lời câu hỏi ì 100% Khi soạn thảo xong một cõu hỏi hoặc một bài trắc nghiệm, người soạn chỉ cú thể ước lượng độ khú hoặc độ phõn biệt của nú bằng cảm tớnh. Độ lớn của cỏc đại lượng đú chỉ cú thể tớnh được cụ thể bằng phương phỏp thống kờ sau lần trắc nghiệm thử, dựa vào kết quả thu được từ cỏc cõu và cỏc bài trắc nghiệm của thớ sinh.
Việc sử dụng chỉ số P để đo độ khú là rất cú ý nghĩa. Nú dựng cỏch đếm số người làm đỳng cõu hỏi để thay thế cỏch xỏc định độ khú theo cỏc đặc tớnh nội tại của cõu trắc nghiệm. Ngoài ra, cỏch định nghĩa này cũng đó cho một đại lượng chung phản ỏnh độ khú, dễ của cỏc bài trắc nghiệm thuộc cỏc lĩnh vực khoa học khỏc nhau.
Cỏc cõu hỏi của một bài trắc nghiệm thường phải cú cỏc độ khú khỏc nhau. Theo cụng thức tớnh độ khú như trờn, rừ ràng giỏ trị P càng bộ thỡ cõu hỏi càng khú và ngược lại.
Độ phõn biệt :
Khi ra một cõu hoặc một bài trắc nghiệm cho một nhúm thớ sinh nào đú, người ta thường muốn phõn biệt trong nhúm ấy những người cú năng lực khỏc nhau : giỏi, trung bỡnh, kộm... và khả năng của cõu trắc nghiệm thực hiện được sự phõn biệt ấy được gọi là độ phõn biệt. Muốn cho cõu hỏi cú sự phõn biệt phản ứng của nhúm thớ sinh giỏi và nhúm thớ sinh kộm thỡ cõu đú hiển nhiờn phải khỏc nhau. Người ta thường thống kờ cỏc phản ứng khỏc nhau đú để tớnh độ phõn biệt.
Độ phõn biệt của một cõu hoặc một bài trắc nghiệm liờn quan đến độ khú dễ, vậy nếu một bài trắc nghiệm dễ đến mức mọi thớ sinh đều làm tốt, cỏc điểm số đạt được ở phần điểm cao, thỡ độ phõn biệt của nú rất kộm, vỡ mọi thớ sinh đều cú phản ứng như nhau đối với bài trắc nghiệm đú. Và nếu một bài trắc nghiệm khú đến mức mọi thớ sinh khụng làm được, cỏc điểm số đạt được ở phần điểm thấp, thỡ độ phõn biệt của nú cũng rất kộm. Từ cỏc trường hợp giới hạn núi trờn, cú thể suy ra rằng muốn cú độ phõn tớch tốt thỡ bài trắc nghiệm phải cú độ khú ở mức trung bỡnh. Khi ấy điểm số thu được của nhúm thớ sinh sẽ cú phổ trải rộng.
Cú hai đại lượng đặc trưng khỏc gắn với cả một bài trắc nghiệm chứ khụng phải chỉ với từng cõu hỏi, rất quan trọng để đỏnh giỏ chất lượng của bài trắc nghiệm :
độ tin cậy, độ giỏ trị của bài trắc nghiệm.
Độ tin cậy :
Trắc nghiệm là một phộp đo : dựng thước đo là bài trắc nghiệm đểđo một năng lực nào đú của thớ sinh. Độ tin cậy của bài trắc nghiệm chớnh là đại lượng biểu thị một độ chớnh xỏc của phộp đo nhờ bài trắc nghiệm.
Khoa học thống kờ cú nhiều phương phỏp để tớnh độ tin cậy của một bài trắc nghiệm, cú thể tỡm hiểu về cỏc phương phỏp này trong cỏc sỏch chuyờn khảo.1,2,5,6
Độ giỏ trị :
Yờu cầu quan trọng nhất của bài trắc nghiệm với tư cỏch là một phộp đo lường trong giỏo dục là phộp đo ấy đo được cỏi cần đo. Núi cỏch khỏc, phộp đo ấy cần phải đạt được mục tiờu đề ra cho nú. Chẳng hạn, mục tiờu đề ra cho tuyển sinh đại học là kiểm tra xem thớ sinh cú nắm chắc những kiến thức và kĩ năng cơ bản được trang bị qua chương trỡnh phổ thụng trung học hay khụng, trờn cơ sở đú tuyển chọn vào đại học. Phộp đo bởi bài trắc nghiệm đạt được mục tiờu đú là phộp đo cú giỏ trị. Cú nghĩa là, độ giỏ trị của bài trắc nghiệm là đại lượng biểu thị mức độ đạt được mục tiờu đề ra cho phộp đo nhờ bài trắc nghiệm.
Qua định nghĩa về độ phõn biệt và độ giỏ trị, chỳng ta cú thể thấy rừ mối tương quan giữa chỳng. Khi bài trắc nghiệm khụng cú độ tin cậy, tức là phộp đo nhờ bài trắc nghiệm rất kộm chớnh xỏc, thỡ chỳng ta khụng thể núi đến độ giỏ trị của nú. Núi cỏch khỏc, khi bài trắc nghiệm khụng cú độ tin cậy thỡ nú cũng khụng thể cú giỏ trị.
Vậy, một bài trắc nghiệm cú độ tin cậy cao nhất thiết cú độ giỏ trị cao hay khụng ? Cõu trả lời là khụng nhất thiết. Đụi khi phộp đo nhờ bài trắc nghiệm cú thểđo chớnh xỏc, nhưng nú đo một cỏi gỡ khỏc chứ khụng phải cỏi nú cần đo, trong trường hợp đú thỡ bài trắc nghiệm cú độ tin cậy cao nhưng độ giỏ trị thấp.
Vớ dụ : Một khẩu sỳng chuẩn xỏc được người bắn nhằm vào mục tiờu là tấm bia ngắm, cỏc viờn đạn bắn ra đều trỳng chụm lõn cận tõm điểm của bia ngắm. Khẩu sỳng như vậy là cú độ tin cậy cao, và người bắn nhắm đỳng mục tiờu nờn kết quả bắn cũng đạt độ giỏ trị cao. Tuy nhiờn, cũng khẩu sỳng đú nếu rơi vào tay một người ngắm nhầm mục tiờu, kết quả là cỏc viờn đạn vẫn chụm nhưng nằm lõn cận một mục tiờu khỏc chứ khụng đỳng mục tiờu đặt ra, trong trường hợp này độ tin cậy của việc bắn sỳng vẫn cao nhưng độ giỏ trị thấp.
Vớ dụ về kỡ thi tuyển sinh đại học : Mục tiờu của chỳng ta là đo năng lực của học sinh thu nhận được qua quỏ trỡnh học chương trỡnh trung học phổ thụng, để lựa chọn những học sinh vào học tốt chương trỡnh đại học. Tuy nhiờn, cỏch tổ chức thi, đặc biệt
cỏch ra đề thi khụng thớch hợp sẽ khụng đảm bảo cho kỡ thi đạt được mục tiờu đú. Chẳng hạn, nếu trong đề thi cú bài tập rất khú, nhiều mẹo luật mà một học sinh phổ thụng trung học, dự nắm vững kiến thức phổ thụng, cũng khụng thể làm kịp trong một thời gian ngắn, chỉ những thớ sinh đó qua nhiều lớp luyện thi được huấn luyện để cú kĩ năng thành thạo làm cỏc dạng bài tập đú mới làm kịp, thỡ chỉ loại thớ sinh vừa nờu cú khả năng đạt điểm cao và được lựa chọn. Kết quả, chỳng ta sẽ chọn được những người thợ làm bài tập giỏi chứ khụng phải những học sinh cú năng lực nắm vững chương trỡnh phổ thụng trung học, đặc biệt là những học sinh ở nụng thụn khụng cú điều kiện luyện thi (phần lớn loại học sinh này bị rơi). Và kĩ năng làm bài tập của những người "thợ làm bài tập" chưa chắc đó cần cho quỏ trỡnh học đại học. Như vậy, cú thể kỡ thi của chỳng ta đo chớnh xỏc, nhưng đo một kĩ năng khỏc chứ khụng phải năng lực mà chỳng ta cần đo. Trong trường hợp này, kỡ thi cú thể cú độ tin cậy cao nhưng cú độ giỏ trị thấp. Để đỏnh giỏ khỏch quan độ tin cậy của kỡ thi tuyển sinh đại học, chỳng ta cú thể khảo sỏt xem kết quả học đại học của sinh viờn cú tương ứng với kết quả thi tuyển sinh hay khụng.
4.4. Phõn tớch và đỏnh giỏ một bài trắc nghiệm
Để hoàn thiện cỏc bài trắc nghiệm, người ta phải triển khai cỏc trắc nghiệm thử. Trắc nghiệm là một phộp đo kộp ; dựng bài trắc nghiệm đểđo năng lực cỏc thớ sinh, đồng thời sử dụng thớ sinh đểđo chất lượng cỏc cõu trắc nghiệm và bài trắc nghiệm. Phộp đo kộp này cú thể thực hiện được nhờ hiệu lực kỡ diệu của cỏc quy luật thống kờ.
Lẽ ra để đo được năng lực thớ sinh thỡ thước đo - bài trắc nghiệm phải được định cỡ (calibrration) tỉ mỉ, tức là phải biết được cỏc độ khú, độ phõn biệt của cỏc cõu, độ tin cậy và độ giỏ trị của bài trắc nghiệm. Tuy chưa được định cỡ như vậy, qua nhiều bước soạn thảo ngõn hàng cõu hỏi theo một quy trỡnh xỏc định, bài trắc nghiệm cũng đó tương đối đảm bảo chất lượng để cú thể phõn loại được thớ sinh. Những thớ sinh nào làm đỳng nhiều cõu hỏi tất thuộc nhúm giỏi, những thớ sinh làm đỳng ớt cõu hỏi tất thuộc nhúm kộm. Như vậy, nhờ vào điểm số của toàn bài trắc nghiệm, chỳng ta cú thể phõn biệt được trỡnh độ của cỏc thớ sinh trong lớp, tức là đó biến đối tượng làm trắc nghiệm thành một thước đo đểđịnh cỡ cỏc cõu hỏi và bài trắc nghiệm.
Cần lưu ý một điều là khi dựng từ "trắc nghiệm thử" thỡ chữ thửchỉ cú ý nghĩa về chuyờn mụn trong thiết kế và định cỡ trắc nghiệm, cũn trong cuộc sống phải tạo hỡnh huống để mọi thớ sinh đều coi lần trắc nghiệm đú là thật, vỡ cú như vậy thỡ họ mới làm nghiờm tỳc, hết sức và phộp thử mới đạt yờu cầu.
Dựa vào kết quả trắc nghiệm thử, người ta cú thể tự tớnh toỏn để phõn tớch cỏc cõu và bài trắc nghiệm, cũng cú thể nhờ cỏc phần mềm tin học giỳp tớnh rất nhanh chúng cỏc đại lượng cần thiết nhờ cỏc phộp tớnh thống kờ tương quan cổ điển, hoặc cỏc phần mềm được xõy dựng theo cỏc mụ hỡnh toỏn học vềđo lường giỏo dục (chẳng hạn cỏc phần mềm tớnh toỏn dựa vào lớ thuyết ứng đỏp cõu hỏi mà ta sẽ làm quen trong cỏc phần sau).
Hai đại lượng quan trọng thường được xem là căn cứ để đỏnh giỏ một bài trắc nghiệm là độ tin cậy và độ giỏ trị. Khi đỏnh giỏ độ tin cậy, phải xem xột cỏc hệ số tin cậy và sai số chuẩn của phộp đo. Cũn khi đỏnh giỏ độ giỏ trị, phải coi trọng sự phõn tớch nội dung hơn là cỏc số liệu thống kờ. Cũng cần lưu ý rằng đõy là cỏc đại lượng cú tớnh tổng hợp, chẳng những gắn liền với chất lượng đề trắc nghiệm, mà cũn với toàn bộ quỏ trỡnh tổ chức kỡ thi, chấm thi...
Nhưđó núi ở chương trước, bài trắc nghiệm muốn cú độ giỏ trị tất yếu phải cú độ tin cậy, tuy nhiờn bài trắc nghiệm cú độ tin cậy chưa hẳn đó cú độ giỏ trị. Cú thể làm tăng độ tin cậy của bài trắc nghiệm khi tăng mức độ thuần nhất về nội dung của nú, nhưng để tăng mức độ thuần nhất, chẳng hạn tước bỏ bớt cỏc cõu hỏi khú, đụi khi phải hi sinh độ giỏ trị. Trong những trường hợp đú, nờn coi trọng độ giỏ trị hơn là độ tin cậy.