CHƯƠNG 1 .CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
2. Tổng quan các tài liệu nghiên cứu
Một trong những công cụ đánh giá thường được sử dụng nhất trong các cuộc đánh giá năng lực là đề thi. Tuy nhiên để xây dựng được một bộ đề thi chuẩn hóa, có độ giá trị, độ tin cậy cao không phải là một việc dễ. Đặc biệt với các cuộc đánh giá trên diện rộng, những yêu cầu đối với bộ đề thi lại càng khắt khe. Một lỗi khá phổ biến nhưng lại rất khó để loại trừ đối với các bộ đề thi trên diện rộng là có chứa các câu hỏi thiên lệch (bias item).
Trên thế giới, các nhà giáo dục đã bắt đầu nghiên cứu tới lỗi thiên lệch trong câu hỏi từ những năm 80. Những nghiên cứu về câu hỏi thiên lệch được xây dựng dựa trên việc nghiên cứu lý thuyết IRT (lý thuyết ứng đáp câu hỏi) và chỉ số DIF (câu hỏi thực hiện chức năng khác biệt – Differential item function).
Một trong những nghiên cứu đầu tiên về câu hỏi thiên lệch có thể kể tới là cuốn “Exploration of causes of bias in test item” của Janice Scheuneman xuất bản năm 1985. Cuốn sách này là bước đi tiên phong trong việc nghiên cứu về câu hỏi thiên lệch. Cuốn sách đã cung cấp một cái nhìn cụ thể và tồn diện về câu hỏi thiên lệch cũng như một số nguyên nhân gây ra nó. Trước Scheuneman, đã có một số tác giả tìm hiểu về câu hỏi thiên lệch như Jensen (1980); Thorndike (1971). Tuy nhiên trong khi những tìm hiểu này chỉ giới hạn trong việc xác định câu hỏi thiên lệch là gì hay rộng hơn một chút là tìm hiểu về yếu tố văn hóa là nguy cơ gây ra câu hỏi thiên lệch như Cecil R. Reynolds (1981), thì “Exploration of causes of bias in test item” lại là một nghiên cứu tổng thể về câu hỏi thiên lệch. 07 giả thuyết chung đã được đặt ra và thử nghiệm với 5 hoặc 6 item. Các item được xây dựng tương đương nhau về độ khó với giả thiết rằng một câu hỏi nếu thiếu có thể thay bằng câu khác. Các câu hỏi tương đương được xếp vào 2 nhóm riêng nhằm kiểm tra năng lực ngôn ngữ của học sinh. Các nhóm câu hỏi được tiến hành kiểm tra một cách ngẫu nhiên giữa các nhóm học sinh có năng lực tương đương nhau. 16 giả thuyết đã được đánh giá riêng biệt thông qua việc sử dụng lý thuyết phân tích hồi quy logit của IRT. Kết quả cho thấy có sự tác động của một số yếu tố gây ra sự thiên lệch của câu hỏi tới các nhóm học sinh khác nhau. Tuy nhiên, nghiên cứu này mới chỉ dừng lại ở việc đánh giá các yếu tố về dạng thức câu hỏi – yếu tố liên quan tới câu hỏi, chứ chưa nghiên cứu sâu về sự tác động của các yếu tố bên ngoài, liên quan tới học sinh như bối cảnh xã hội, văn hóa của học sinh.
Dựa trên nền tảng các lý thuyết mà Janice Scheuneman xây dựng, các tác giả khác bắt đầu xây dựng những giả thuyết và đánh giá các câu hỏi thi cho các chu kỳ đánh giá. Có thể kể tới Kostas Mylonass với “Reducing Bias in Cross – Cultural Factor Analysis through a Statistical Technique for Metric Adjustment”, Angela
P.Milardo với “An Examination of the Mantel Statistical Procedure’s Effectiveness in Identigying Item Bias in the Maryland State Performance” hay Dianne A.Van Hermett với “Asessing Cross-Cultural Item Bias in Questionnaires” … Các nghiên cứu này đều dựa trên phân tích hồi quy logit của lý thuyết ứng đáp câu hỏi IRT để phân tích các câu hỏi xem có nguy cơ thiên lệch đối với nhóm học sinh kể cả trong đề thi hay trong phiếu hỏi. Tuy nhiên, nhìn chung các nghiên cứu này đều dừng lại ở việc nghiên cứu trong phạm vi một quốc gia, đánh giá ảnh hưởng của các vấn đề văn hóa, vùng miền tới nguy cơ gây ra câu hỏi thiên lệch.
Cùng với sự phát triển của đánh giá giáo dục, đặc biệt là những cuộc đánh giá trên diện rộng, vấn đề về câu hỏi thiên lệch cũng ngày càng được quan tâm hơn. Và đối với chương trình PISA, vấn đề về câu hỏi thiên lệch lại càng được chú trọng khi kỳ đánh giá được triển khai trên phạm vi nhiều quốc gia với nhiều ngôn ngữ khác nhau. Ngay từ những ngày đầu, khi PISA được triển khai, chất lượng của các câu hỏi luôn là một câu hỏi lớn đối với những người quan tâm. Một đề thi được sử dụng trên diện rộng với gần 70 quốc gia/vùng lãnh thổ tham dự liệu có đảm bảo được tính tương đương hay không? Chất lượng dịch và thẩm định của các quốc gia có thực sự đạt được chuẩn mực như bản gốc hay không? Với một diện rộng như vậy, câu hỏi thi PISA dù có được dịch chuẩn xác liệu có thể đảm bảo tính cơng bằng cho các học sinh tham gia hay khơng? Chính vì vậy, một loạt nghiên cứu của OECD và của một số quốc gia tham dự đã được thực hiện nhằm đánh giá chất lượng câu hỏi thi PISA.
Năm 2007 là năm khởi nguồn cho các nghiên cứu về câu hỏi thiên lệch trong PISA. Một điều tra đã gây thay đổi lớn và tác động không nhỏ tới PISA là nghiên cứu của John Micklewright và Sylke V. Schnepf. Năm 2003, kết quả khảo sát của Anh đã không được đưa vào báo cáo quốc tế của OECD do có những nghi ngờ về dữ liệu của Anh có quá nhiều câu trả lời thiên lệch. Tuyên bố này đã gây tranh cãi rất nhiều, bởi năm 2000, kết quả của Anh vẫn được nêu trong báo cáo mặc dù tỷ lệ đáp ứng của học sinh là tương ứng với năm 2003. Anh đã cho tiến hành một cuộc nghiên cứu tồn diện để xác định tính thiên lệch trong kết quả của mình. Một cuộc điều tra đã được tiến hành, xem xét lại toàn bộ mẫu của 2 năm 2000 và 2003. Nhóm
nghiên cứu đã chia kết quả thành 5 nhóm: nhóm 1 - tất cả các học sinh ở độ tuổi 15 ở trường học Anh, nhóm 2 - tất cả các học sinh ở các trường mẫu, nhóm 3 - tất cả các học sinh trong các trường học đáp ứng, nhóm 4 - học sinh được chọn vào mẫu trong các trường học đáp ứng, nhóm 5 - học sinh tham gia trả lời. Nghiên cứu đã chỉ ra rằng có một sự chênh lệch khá lớn giữa nhóm 4 và nhóm 5. Như vậy, quy trình chọn mẫu đã gây ra sự thiên lệch trong việc trả lời. Tuy nhiên do là những năm đầu tiến hành kỳ khảo sát, vì vậy OECD chưa làm rõ được các tiêu chí để đưa ra cho một quốc gia những yêu cầu chính xác để điều tra về mức độ thiên lệch trong câu trả lời. Vì vậy, việc điều tra của Anh gặp rất nhiều khó khăn cũng như thiếu sót. Báo cáo đã cơng nhận có sự thiên lệch trong kỳ thi PISA tại Anh. Đồng thời qua điều tra này, OECD cũng rút ra được rất nhiều kinh nghiệm trong việc phân tầng và chọn mẫu cho các kỳ khảo sát sau.
Song song với điều tra của Anh, năm 2007, Grisay và Monseur đã cho xuất bản cuốn “Measuring equivalence of item difficulties in the various versions of an international test. Studies in Educational Evaluation”. Do băn khoăn về ảnh hưởng của việc dịch thuật tới chất lượng câu hỏi của PISA tại các quốc gia, hai ông đã tiến hành phân tích thống kê trên kết quả thi PISA năm 2000 – lĩnh vực đọc hiểu nhằm đo lường sự tương đương giữa 47 phiên bản (theo 47 ngôn ngữ) của đề thi. Hai tác giả đã sử dụng Lý thuyết ứng đáp câu hỏi (IRT) để đánh giá độ khó của cùng một câu hỏi giữa các quốc gia. Một tỷ lệ nhất định các câu hỏi có tính chất DIF đã được chỉ ra sau phân tích này. Thơng qua phân tích, hai ơng đã chỉ ra rằng có một số câu hỏi có nguy cơ thiên lệch cao. Theo tác giả, có một số đặc điểm về địa lý, kinh tế - xã hội đã ảnh hưởng tới kết quả làm bài của học sinh. Việc dịch thuật đã làm mất đi tính tương đương của câu hỏi giữa các quốc gia. Cùng một câu hỏi, đối với quốc gia sử dụng tiếng Anh là khơng khó, nhưng đối với các quốc gia khác lại khơng hề dễ. Điều này có thể là do chất lượng dịch thuật chưa thực sự đảm bảo được tính tương đương cần thiết giữa các quốc gia.
Năm 2009, hai tác giả này tiếp tục mở rộng nghiên cứu với việc đánh giá so sánh các câu hỏi thi lĩnh vực đọc hiểu của hai chương trình PISA và PIRLS. Cũng
với những phân tích hồi quy đã từng sử dụng, hai tác giả đã chỉ ra sự khác biệt về độ khó của một số câu hỏi giữa các quốc gia. Từ các phân tích, hai ơng cho rằng ngơn ngữ và văn hóa là ngun nhân dẫn tới sự khác biệt này. Các quốc gia cần phải hồn thiện hơn nữa quy trình dịch thuật, hịa nhập và thẩm định các bộ đề thi quốc tế.
Một nghiên cứu nữa về vấn đề câu hỏi thiên lệch cũng đáng lưu tâm là nghiên cứu của Hội đồng nghiên cứu giáo dục Úc – tổ chức chịu trách nhiệm xây dựng đề thi và phân tích kết quả đánh giá trong liên danh các nhà thầu quốc tế thực hiện Chương trình đánh giá quốc tế PISA, nhà nghiên cứu Le Luc đã có những nghiên cứu và cơng bố khoa học quan trọng về câu hỏi thực hiện chức năng khác biệt - nguy cơ tiềm ẩn câu hỏi thi thiên lệch đối với một nhóm đối tượng nhất định, và tạo thuận lợi ghi điểm cho nhóm đối tượng khác. Một trong số đó là nghiên cứu phát hiện câu hỏi trong lĩnh vực khoa học thực hiện chức năng khác biệt giữa hai giới ở một số nước và một số ngôn ngữ đánh giá. Dữ liệu sử dụng cho nghiên cứu là kết quả thi PISA lĩnh vực khoa học năm 2006 với học sinh của 50 quốc gia, sử dụng hơn 60 ngôn ngữ. Số học sinh xấp xỉ là 83.000 học sinh. Tỷ lệ học sinh nam nữ lần lượt là 49% và 51%. Phần thi khoa học bao gồm 210 câu hỏi chia vào các quyển đề thi khác nhau đảm bảo nguyên tắc liên kết giữa các quyển đề thi. 91% câu hỏi ở dạng cho điểm 0 và 1 (sai cho 0 điểm, đúng cho 1 điểm); 9% câu hỏi còn lại ở dạng cho điểm từng phần 0, 1 và 2 (sai cho 0 điểm, đúng một phần cho 1 điểm, đúng toàn bộ cho 2 điểm). Các câu hỏi có độ phân biệt thấp hoặc khơng phù hợp với mơ hình tính tốn đều bị loại khỏi dữ liệu. Với bộ số liệu trên, tác giả tính tốn giá trị DIF giữa các hai nhóm nam và nữ của từng quốc gia và từng ngơn ngữ, tìm kiếm các câu hỏi có giá trị DIF đủ lớn và so sánh tỷ lệ các câu hỏi có DIF đủ lớn giữa các nhóm ngơn ngữ và nhóm quốc gia. Với các nhóm ngơn ngữ, nghiên cứu chỉ ra rằng: trung bình có 5,6% số câu hỏi khoa học tạo thuận lợi cho nhóm học sinh nam và 2,8%
câu hỏi tạo thuận lợi cho nhóm học sinh nữ. Đối với từng quốc gia, tỷ lệ câu hỏi tạo thuận lợi cho nhóm học sinh nam và nữ có thay đổi theo chiều hướng tăng hơn, đặc biệt có những nhóm ngơn ngữ tỷ lệ này lên đến 49%. Nghiên cứu cũng chỉ ra rằng
chỉ có khoảng 7% số câu hỏi hồn tồn khơng bị ảnh hưởng bởi yếu tố ngôn ngữ. Kết quả đánh giá cũng cho thấy, một câu hỏi đã tạo thuận lợi cho nhóm nam hơn nhóm nữ khi phân tích dữ liệu quốc tế, thì trong từng quốc gia và trong từng ngơn ngữ, cũng có xu hướng tương tự.
Tại Việt Nam, cho tới thời điểm hiện tại cũng mới chỉ có một nghiên cứu của Lê Thị Hoàng Hà về “Nghiên cứu mức độ đáp ứng của học sinh thuộc các nước không thuộc khối OECD và học sinh Việt Nam với chương trình đánh giá học sinh quốc tế PISA.” Đề tài đã cung cấp cho người đọc một cái nhìn tổng quát về chương trình PISA và so sánh kết quả của học sinh Việt Nam so với học sinh của một số nước không thuộc khối OECD, đồng thời đưa ra đánh giá về một số câu hỏi có nguy cơ gây thiên lệch đối với học sinh. Dựa trên các nghiên cứu trước đó về câu hỏi thiên lệch do chất lượng dịch, tác giả cũng đi sâu vào nghiên cứu chất lượng của các câu hỏi thi PISA tại Việt Nam tại kỳ thử nghiệm năm 2010 với 1866 học sinh đến từ 10 tỉnh/thành phố. Đề thi bao gồm 18 bài, 87 câu hỏi, lựa chọn và qua dịch thuật từ đề thi PISA chính thức năm 2009. Tác giả đã lựa chọn phần mềm CONQUEST để tiến hành phân tích chỉ số DIF của 87 câu hỏi. Kết quả cho thấy yếu tố văn hóa và ngơn ngữ là nguyên nhân ảnh hưởng tới kết quả làm bài của học sinh đối với một số câu hỏi nhất định. Hay nói cách khác, chất lượng dịch cùng với yếu tố về vị trí địa lý là nguyên nhân gây ra câu hỏi thiên lệch tại Việt Nam. Tuy nhiên, đề tài này dựa trên bộ dữ liệu nghiên cứu thử nghiệm. Các công cụ khảo sát được dịch khá đơn giản, chưa thơng qua một quy trình dịch thuật nghiêm ngặt của OECD với các bước như dịch đơn, dịch kép, hịa nhập, thẩm định….Vì vậy, chất lượng dịch thuật của đợt khảo sát này chưa đạt chuẩn, có nhiều hạn chế về khác biệt vùng miền, văn hóa, ngơn ngữ…. cịn tồn tại do chưa được thẩm định chặt chẽ. Chính vì vậy, khi khảo sát, bộ cơng cụ này đã gây ra rất nhiều vấn đề cần xem xét.
Như vậy, có thể thấy, dù là những kỳ khảo sát mang tính chất quốc tế, đã được chuẩn hóa nhưng những bộ cơng cụ được sử dụng vẫn không thể tránh khỏi nguy cơ thiên lệch. Đặc biệt khi bộ công cụ lại được sử dụng trên diện rộng, với sự tham gia của nhiều quốc gia/vùng lãnh thổ với nhiều ngôn ngữ khác nhau.
Tác giả nhận thấy hầu hết các nghiên cứu đều mang tính chất so sánh chất lượng câu hỏi giữa các quốc gia nhằm chỉ ra ảnh hưởng của việc dịch thuật tới chất lượng câu hỏi. Cho tới nay có rất ít nghiên cứu đi sâu vào tìm hiểu chất lượng của câu hỏi PISA trong cùng một quốc gia. Liệu rằng qua quá trình thẩm định nghiêm ngặt, với sự góp mặt của các chuyên gia ở các lĩnh vực chuyên môn và ngôn ngữ đã đủ để loại bỏ các yếu tố gây ra câu hỏi thiên lệch hay chưa? Liệu trong cùng 1 quốc gia, có thể xảy ra tình trạng câu hỏi thiên lệch do các yếu tố như vùng miền, giới tính hay khơng? Đây là câu hỏi mà các quốc gia tham gia PISA đều quan tâm.
Đối với kỳ khảo sát PISA 2012, các bộ công cụ khảo sát đã phải thơng qua một quy trình dịch thuật, thẩm định gồm nhiều bước, được tiến hành lặp đi lặp lại nhiều lần để đảm bảo rằng dù học sinh ở nước nào cũng nhận được một bộ cơng cụ khảo sát có độ khó tương đương nhau. Vì vậy, với mong muốn tìm ra những yếu tố, ngồi yếu tố dịch thuật, có khả năng gây ra ảnh hưởng tới chất lượng câu hỏi thi PISA tại Việt Nam, kiểm tra tác giả lựa chọn đề tài “Một số yếu tố gây ra lỗi thiên lệch (bias) trong câu hỏi thi PISA 2012 – lĩnh vực Toán học”.
Tiểu kết chương: Chương I đưa ra cái nhìn tổng quan và những kiến thức cơ
bản về đánh giá giáo dục, các khái niệm về câu hỏi thiên lệch và những tài liệu nghiên cứu xung quanh vấn đề lỗi thiên lệch trong câu hỏi thi. Chương trình PISA là chương trình đánh giá năng lực học sinh trên phạm vi thế giới. Vì vậy, việc có câu hỏi bị lỗi thiên lệch là rất khó tránh. Việt Nam lần đầu tiên tham dự là chu kỳ năm 2012 và đã đạt được các kết quả rất khả quan. Tuy nhiên, do mới thực hiện, nên chưa có một nghiên cứu cụ thể nào về các câu hỏi bị lỗi thiên lệch trong bộ công cụ khảo sát PISA tại Việt Nam. Vấn đề câu hỏi thiên lệch được phát hiện như thế nào, dựa trên lý thuyết nghiên cứu nào? Bộ dữ liệu phân tích của đề tài sẽ như thế nào? Những câu hỏi này sẽ được trả lời trong “Chương II. Phương pháp luận