1.2. Lý thuyết về kiểm tra đánh giá kết quả học tập
1.2.6. Lý thuyết khảo thí
Trong luận văn này chúng tôi tập trung vào việc nghiên cứu và ứng dụng lý thuyết khảo thí hiện đại để phân tích các câu hỏi trong đề thi thử nghiệm phục vụ cho mục tiêu chuẩn hóa ma trận đề thi. Về lý thuyết khảo thí cổ điển chúng tơi chỉ đề cập tới các tham số đặc trưng của câu hỏi và đề thi.
1.2.6.1.Các tham số đặc trưng của câu hỏi và đề thi trong lý thuyết khảo thí cổ điển
Để nghiên cứu định lượng tỉ mỉ các CH hoặc ĐTN, người ta phải đưa vào các tham số đặc trưng. Khi soạn thảo xong một CH hoặc một ĐTN người soạn thảo chưa biết độ lớn của các tham số đó. Chúng chỉ được xác định bằng phương pháp thống kê từ kết quả trả lời của các thí sinh đối với các CH. Trong luận văn này chúng tơi khơng trình bày tồn bộ lý thuyết khảo thí cổ điển mà chỉ xem xét các tham số đặc trưng của các CH và ĐTN theo lý thuyết trắc nghiệm cổ điển.
Độ khó
Độ khó của câu hỏi trắc nghiệm i i
N p
N
Trong đó: pi - độ khó của câu hỏi thứ i; Ni - tổng số thí sinh trả lời đúng câu hỏi thứ i; N - tổng số thí sinh tham gia trả lời câu hỏi.
Độ phân biệt
Khi ra một câu hoặc một đề trắc nghiệm cho một nhóm thí sinh nào đó người ta muốn phân biệt trong nhóm ấy những người có năng lực khác nhau: giỏi, khá, trung bình, kém…Khả năng của một câu trắc nghiệm thực hiện được sự phân biệt ấy được
gọi là độ phân biệt.
Dựa vào tổng điểm thơ của từng thí sinh ta tách từ đối tượng TS ra một nhóm giỏi gồm 27% TS đạt điểm cao từ trên xuống và nhóm điểm kém gồm 27% TS đạt điểm kém từ dưới lên. Gọi N1 là số thí sinh làm đúng câu hỏi thuộc nhóm giỏi, N2 là số thí sinh nhóm kém làm đúng câu hỏi và N3 tổng số thí sinh của hai nhóm trên, ta có biểu thức tính độ phân biệt của câu hỏi như sau:
23 1 2 3 N N D N
Ngồi ra, để tính độ phân biệt của câu hỏi ta có thể tính hệ số tương quan Pearson giữa điểm của một câu hỏi với tổng điểm của cả đề trắc nghiệm. Thông thường giá trị độ phân biệt của một câu hỏi có thể chấp nhận phải lớn hơn 0,2.
Độ tin cậy
Trắc nghiệm là một phép đo, dùng thước đo là đề thi trắc nghiệm để đo lường năng lực nào đó của thí sinh. Độ tin cậy của đề trắc nghiệm chính là đại lượng biểu thị
mức độ chính xác của phép đo nhờ đề thi trắc nghiệm.
Người ta có thể tính độ tin cậy của đề thi trắc nghiệm bằng các cách sau đây: Phương pháp trắc nghiệm - trắc nghiệm lại; Phương pháp các đề trắc nghiệm tương đương; Phương pháp phân đôi đề trắc nghiệm; Phương pháp Kuder – Richardson; Hệ số
Crombach.
Độ giá trị
Yêu cầu quan trọng nhất của ĐTN với tư cách là một phép đo lường trong giáo dục là phép đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra của nó. Độ giá trị của ĐTN là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ ĐTN.
Qua định nghĩa về độ tin cậy và độ giá trị ta có thể thấy rõ mối tương quan giữa chúng. Khi bài trắc nghiệm khơng có độ tin cậy, tức là phép đo nhờ ĐTN kém chính xác, thì chúng ta khơng thể nói đến độ giá trị của nó. Nói cách khác, khi bài trắc nghiệm khơng có độ tin cậy thì nó cũng khơng thể có độ giá trị. Đơi khi phép đo nhờ ĐTN có thể đo chính xác, nhưng nó đo một cái gì khác chứ khơng phải nó cần đo, trong trường hợp đó thì ĐTN có độ tin cậy cao nhưng độ giá trị thấp.
Đánh giá một đề trắc nghiệm
Hai đại lượng quan trọng thường được dựa vào để đánh giá một ĐTN là độ tin cậy và độ giá trị. Khi đánh giá độ tin cậy, phải xem xét các hệ số tin cậy và sai số chuẩn của phép đo. Còn khi đánh giá độ giá trị phải coi trọng sự phân tích nội dung hơn là các số liệu thống kê. ĐTN muốn có độ giá trị cao thì tất yếu phải có độ tin cậy cao, tuy nhiên ĐTN có độ tin cậy cao chưa hẳn đã có độ giá trị cao.
24
1.2.6.2. Lý thuyết khảo thí hiện đại
Người ta thường chia lý thuyết trắc nghiệm ra làm hai loại, lý thuyết khảo thí cổ điển và lý thuyết khảo thí hiện đại với việc sử dụng lý thuyết hồi đáp IRT (Item Response Theory). Lý thuyết hồi đáp được xây dựng trên khoa học về xác suất thống kê, Rasch phát biểu “Một người có năng lực cao hơn một người khác thì xác suất để
người đó trả lời đúng một câu hỏi bất kì phải lớn hơn xác suất của người sau; cũng tương tự như vậy, một câu hỏi khó hơn một câu hỏi khác có nghĩa là xác suất để một người bất kì trả lời đúng câu hỏi đó phải bé hơn xác suất để trả lời đúng câu hỏi sau”.
Các cơng trình quan trọng của lý thuyết này ra đời vào ba thập niên cuối của thể kỷ vừa qua và đạt được nhiều thành tựu quan trọng, được công nhận và sử dụng phổ biến trong thực tiễn. IRT đã đạt được những thành tựu quan trọng nâng cao độ chính xác của trắc nghiệm.
Lý thuyết hồi đáp bao gồm một hệ thống các định đề liên quan đến từng cá nhân trả lời câu hỏi. Đại lượng cần đo là được hình dung như một đường nào đó (thẳng hoặc cong) và kết quả đo lường được mô tả như một điểm đặt trên đường đó. Do đó, đại lượng cần đo được giả thiết là phân bố liên tục. Tuy nhiên, chưa có một dạng phân bố cụ thể nào được chỉ ra.
Điều kiện cốt yếu để thí sinh trả lời được câu hỏi được xem xét qua hai đại lượng là năng lực của thí sinh (tham biến năng lực hay tham biến thí sinh) và độ khó của câu hỏi (tham biến độ khó hay tham biến câu hỏi). Năng lực của thí sinh và độ khó của câu hỏi là những đại lượng được phân bố trên đường đặc trưng có tính liên tục bao gồm các giá trị của đại lượng cần đo. Thông thường, với các câu hỏi được sử dụng để định cỡ, thì độ khó của các câu hỏi giữ vai trò thang giá trị thể hiện dọc theo đường đặc trưng của đại lượng cần đo.
Lý thuyết khảo thí hiện đại quan tâm đến xác suất trả lời đúng đối với một câu hỏi. Xác suất đó được thể hiện là một hàm số của năng lực thí sinh và độ khó câu hỏi và có thể có thêm một số tham biến khác (ví dụ: mức độ đốn mò). Những hàm số xác suất khác nhau (thể hiện mối quan hệ giữa năng lực thí sinh và độ khó câu hỏi) dẫn đến những mơ hình Lý thuyết đánh giá hiện đại khác nhau như: Mơ hình logistic đơn giản, Mơ hình hai tham biến, Mơ hình ba tham biến của Birnbaum, Mơ hình partial credit.
25
Xác suất trả lời đúng một câu hỏi được biểu thị bằng một hàm số liên quan đến năng lực của thí sinh (thể hiện dưới một hàm số logarit tự nhiên). Xác suất đó là hàm P() có đồ thị chính là đường cong đặc trưng của câu hỏi (Item Characteristic Curves).
- Đường cong tăng lên khi tăng (năng lực của thí sinh tăng thì xác suất trả lời đúng P() tăng)
- Đường cong nằm giữa hai đường thẳng y=0 và y=1 (Hàm xác suất P() nằm giữa 0 và 1)
- Đường cong tiệm cận đến hai đường thẳng y=0 và y=1. P() tiến đến 0 khi - , P() tiến đến 1 khi
- Xác suất biểu thị hàm số độ khó câu hỏi (là thể hiện dưới một hàm số logarit tự nhiên) cho đường cong đặc trưng thí sinh là hàm P() (Person Characteristic Curves). - Ở trên đã giả thiết xác suất trả lời là một hàm số đặc trưng đơn giản cho năng lực thí sinh. Để Lý thuyết đánh giá hiện đại có thể áp dụng được với các bài test, các câu hỏi phải là các đơn thứ nguyên (unidimensional). Không một công cụ đo lường nào là đơn thứ nguyên chính xác, ở đây có thể có một số thứ nguyên phụ (minor dimensions) ảnh hưởng đến việc trả lời câu hỏi. Liệu có hay khơng một công cụ là đơn thứ nguyên thoả đáng cịn là một câu hỏi quan trọng để có thể ứng dụng Lý thuyết đánh giá hiện đại.
- Nếu năng lực của thí sinh i đã được xác định, khi đó sự hiểu biết của thí sinh i để trả lời câu hỏi j không ảnh hưởng đến khả năng có được câu trả lời đúng đối với câu hỏi k khác.
P[ xij = 1 | , xik = 1 ] = P[ xij = 1 | ]
Nếu điều đó sai, nghĩa là câu trả lời đối với câu hỏi j phụ thuộc vào điều gì đó ngồi năng lực . Sự khơng phụ thuộc này được gọi là sự độc lập cục bộ hay sự độc lập có điều kiện, và là kết quả của tính đơn thứ ngun. Điều đó cịn nghĩa là
P[ xij = 1, i=1,2,…,I | ] = P[ x 1 | ] 1 ij I i
- Hầu hết các mơ hình Lý thuyết đánh giá hiện đại sử dụng xác suất như một hàm số của sự khác nhau giữa tham số năng lực và tham số độ khó , tức là - . Trong Mơ hình logistic đơn giản (Mơ hình Rasch), xác suất để thí sinh i trả lời đúng câu j là:
26 P[ xij = 1 | ] ) exp( 1 ) exp(
- Các kết quả làm bài của thí sinh (kết quả trả lời câu hỏi) có được sau khi tổ chức làm một bài test được sử dụng để tính tham biến năng lực và độ khó. Phương pháp sử dụng để tính các tham biến đó là phương pháp có khả năng tối đa (Maximum likelihood).
- Sự tính tốn này nhằm xác định những vị trí tương đối của các tham số, nhưng đó khơng phải là những vị trí thực
- = ( + c) – ( + c)
Sai số chuẩn (standard errors) của sự tính tốn này có thể tính được.
Như vậy, lý thuyết hiện đại giúp phân tích những chi tiết cụ thể, riêng lẻ của từng câu hỏi và thí sinh nhưng ở đó việc đánh giá năng lực của thí sinh sẽ khơng phụ thuộc vào câu hỏi và tham biến của câu hỏi, mỗi thí sinh đứng trước câu hỏi sẽ đáp ứng như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của thí sinh và đặc trưng câu hỏi. Cùng với sự phát triển của các phần mềm như SPSS, Quest/Conquest,... đã hỗ trợ rất hiệu quả trong việc áp dụng lý thuyết này trong thực tiễn nghiên cứu và ứng dụng hiện nay.
*
* *
Trong chương này chúng tôi đã tổng quan nghiên cứu vấn đề trong nước và quốc tế, hệ thống hóa các vấn đề mang tính lý luận về kiểm tra đánh giá kết quả học tập của người học. Chúng tơi cũng tóm lược lại được một số phần kiến thức có liên quan trong lý thuyết khảo thí cổ điển và lý thuyết khảo thí hiện đại, đây là cơ sở để chúng tôi xây dựng ma trận đề thi, thử nghiệm và hiệu chỉnh ở Chương II.
27
CHƯƠNG II. XÂY DỰNG VÀ THỬ NGHIỆM MA TRẬN ĐỀ THI ĐÁNH GIÁ KẾT QUẢ HỌC TẬP MƠN TỐN THPT