46
Kết quả chọn mẫu:
Năm 2012, Việt Nam có 162 trường tham gia khảo sát chính thức PISA 2012 với số lượng HS là 5949 HS, trong đó số HS Nữ là 2648 HS, chiếm tỷ lệ 53.4%, số HS Nam là 2311 HS, chiếm tỷ lệ 46.6% HS tham gia khảo sát
4. Bộ công cụ khảo sát
Đối với kỳ khảo sát chính thức PISA 2012, phần kiểm tra trên giấy, có tổng cộng 110 câu hỏi nhận thức toán học cấu thành 56 bài tập toán, 44 câu hỏi cấu thành 13 bài tập đọc hiểu và 53 câu hỏi cấu thành 18 bài tập khoa học. Những bài tập này sẽ được sắp xếp vào trong các nhóm, được gọi là cluster.
Bảng 2.3. Cấu trúc bộ đề thi năm 2012 của Việt Nam
Booklet ID Cluster B8 PS2 PR2 PM4 PS1 B9 PR2 PM3 PM5 PR1 B10 PM3 PM4 PS3 PM1 B11 PM4 PM5 PR3 PM2 B12 PS1 PR1 PM2 PS3 B13 PR1 PM1 PS2 PR3 B21 PM5 PS3 PM6B PS2 B22 PS3 PR3 PM7B PR2 B23 PR3 PM6B PS1 PM3
47
B24 PM6B PM7B PR1 PM4
B25 PM7B PS1 PM1 PM5
B26 PM1 PM2 PR2 PM6B
B27 PM2 PS2 PM3 PM7B
Kỳ khảo sát PISA năm 2012 tập trung vào đánh giá năng lực Toán học của HS. Mỗi quốc gia sẽ sử dụng 7 cluster Toán học, 3 cluster Đọc hiểu và 3 cluster Khoa học. Đặc biệt, với 7 cluster lĩnh vực Tốn học, có 3 cluster bao gồm các bài tập đã được sử dụng từ những chu kỳ PISA trước. Mỗi cuốn đề thi bao gồm 4 cluster (trong đó có ít nhất 2 cluster toán học) được thiết kế xoay vịng nhưng đảm bảo rằng độ khó của các đề thi là như nhau. Mỗi HS sẽ làm một đề thi trong khoảng thời gian là 120 phút. Theo thiết kế của OECD, năm 2012, Việt Nam tham gia khảo sát PISA với bộ đề gồm 13 quyển đề thi.
HS trả lời đúng mang mã 1 hoặc 2, HS trả lời sai mang mã 0, không trả lời: mã 9 và trả lời nhiều phương án: mã 8.
5. Quy trình xử lý, phân tích dữ liệu 5.1. Bộ dữ liệu PISA 5.1. Bộ dữ liệu PISA
Toàn bộ bộ dữ liệu sử dụng để phân tích trong luận văn này được lấy từ cơ sở dữ liệu của OECD (http://pisa2012.acer.edu.au/downloads.php).
Tất cả các file dữ liệu đều được cung cấp dưới dạng tập tin fixed width text (hoặc ASCII) với các tập tin điều khiển tương ứng là SAS® và SPSS®
(OECD, 2012).
Cơ sở dữ liệu PISA về câu trả lời của HS gồm có các thành phần sau:
48
- Cấp quốc gia bao gồm: CNT = Mã quốc gia gồm có 3 chữ cái (ví dụ: Việt Nam có mã quốc gia là VNM) và SUBNATION = Mã nhỏ quốc gia
- Cấp nhà trường bao gồm: SCHOOLID = ID tầng + ID trường - Cấp học sinh bao gồm: StIDStd. Đối với cấp học sinh, có 2 bộ dữ liệu đươc sử dụng ở đây:
+) Các câu trả lời trong bộ đề khảo sát: là các giá trị đã được mã hóa 0, 1, 2, 7, 8 hoặc 9. Điểm kết quả được tính theo các PV (giá trị hợp lý), các lĩnh vực tốn học, khoa học và đọc hiểu đều có 5 PV. Ví dụ: lĩnh vực tốn học có PV1MATH đến PV5MATH. +) Các câu trả lời trong bộ phiếu hỏi: là các giá trị đã được mã hóa từ 0 -> 9999 tương ứng với từng câu trả lời.
Các biến trọng số học sinh FINAL STUDENT REPLICATE BRR-FAY WEIGHT từ 1 đến 80
5.2. Điểm Plausible value
Cơ sở dữ liệu PISA sử dụng các giá trị hợp lý (plausible values - gọi tắt
là PV). Đây cũng là một trong những yếu tố quan trọng tạo nên sự chính xác trong các kết quả phân tích của PISA.
Giá trị hợp lý (Plausible value) lần đầu tiên được sử dụng vào năm 1983-1984 trong những phân tích của tổ chức NAEP (Đánh giá quốc gia vì sự tiến bộ giáo dục) do Mislevy, Sheehan, Beaton và Johnson thực hiện, dựa trên việc tính tốn nhiều biến. Giá trị hợp lý dần dần được sử dụng trong các cuộc điều tra lớn của NAEP, TIMSS và hiện nay là PISA.
Cách đơn giản nhất để mô tả các giá trị hợp lý là xem xét giá trị hợp lý như là một số loại ước tính khả năng của HS. Có một số khác biệt giữa giá trị hợp lý và θ (tham số khả năng HS) như trong các mơ hình ứng đáp câu hỏi gồm 1, 2 hoặc 3 đường biểu diễn. Thay vì trực tiếp tính tốn tham số θ của
49
HS, người ta ước tính một phân bố xác suất cho tham số θ của HS. Nói cách khác, thay vì có được một điểm tính tốn cho tham số θ, người ta đưa ra một loạt các giá trị có thể với khả năng kết hợp của mỗi giá trị. Giá trị hợp lý được chọn ngẫu nhiên từ phân phối cho tham số θ của HS (đã ước tính) (thường được gọi là "phân bố sau - posterior distribution").
Về mặt toán học, chúng ta có thể mơ tả q trình này như sau: Cho một mơ hình ứng đáp câu hỏi x, và khả năng HS là tham số θ, hàm f (x | θ) là xác suất ứng đáp câu hỏi, f (x | θ) có thể là mơ hình 1, 2 hoặc 3 đường biểu diễn. Hơn nữa, giả định rằng tham số θ đến từ một phân phối bình thường g (θ) ~ N (μ, σ²). (Trong thuật ngữ kỹ thuật, chúng ta thường gọi hàm f (x | θ) là mô hình ứng đáp câu hỏi, và g (θ) các mơ hình dân số mục tiêu).“Phân bố sau” h (θ | x) được cho bởi công thức
Nếu mơ hình ứng đáp câu hỏi của HS là x”phân bố sau” của HS (θ) được cho bởi hàm h (θ | x). Giá trị hợp lý cho một HS với mơ hình ứng đáp câu hỏi x là ngẫu nhiên được rút ra từ phân phối xác suất với hàm h (θ | x). Do đó, giá trị hợp lý không chỉ cung cấp thông tin về "những ước tính về năng lực" của HS, mà cịn là sự khơng chắc chắn liên quan với ước tính này.
Nếu chúng ta rút ra được nhiều giá trị hợp lý từ của phân bố sau h(θ|x) của HS, các giá trị hợp lý sẽ tạo thành một phân phối thực nghiệm cho h (θ | x) (vì các giá trị hợp lý là những quan sát được xây dựng từ h(θ|x)) Vì vậy, nếu một phân tích dữ liệu được đưa ra một số các giá trị hợp lý cho mỗi HS, một phân phối thực nghiệm của h (θ | x) có thể được xây dựng cho HS đó. Điều này được thực hiện vì khơng có một định dạng chính xác cho h(θ|x) cho việc phân tích dữ liệu, ngoại trừ thông qua con đường thực nghiệm (giá trị hợp lý) (trừ khi sử dụng CONQUEST). Thông thường, 5 giá trị hợp lý được
50
tạo ra cho mỗi HS (và đây được coi là đủ để xây dựng một phân phối thực nghiệm).
Khi giá trị hợp lý được rút ra ngẫu nhiên từ phân bố sau của HS, các giá trị hợp lý là khơng thích hợp để sử dụng như điểm cá nhân của HS để thơng báo cho HS. Giả sử rằng có hai HS có điểm số như nhau trên cùng một bài kiểm tra, các giá trị hợp lý của các em có thể sẽ khác nhau vì đây là rút ra ngẫu nhiên từ phân bố sau. Hãy tưởng tượng sự phản đối kịch liệt nếu chúng ta cung cấp cho hai HS điểm số năng lực khác nhau khi họ có số điểm thơ bằng nhau. Tuy nhiên, giá trị hợp lý được sử dụng để ước tính dân số mục tiêu, và chúng còn đảm nhiệm một nhiệm vụ tốt hơn so với một tập hợp các ước lượng điểm của năng lực. Đối với NAEP, TIMSS và PISA, các nhà phân tích khơng báo cáo điểm số cá nhân. Họ chỉ ước lượng các thông số như dân số trung bình, phương sai và tỷ lệ phần trăm.
Tại sao cần có giá trị hợp lý? Hay nói cách khác, tại sao giá trị hợp lý lại hữu dụng trong phân tích dữ liệu?
(1) Một số ước tính dân số là thiên vị khi ước lượng điểm được sử dụng để xây dựng các đặc điểm dân số.
(2) Trong phân tích dữ liệu thứ cấp có thể sử dụng kỹ thuật "chuẩn" (ví dụ, SPSS, SAS) để phân tích kết quả đạt được của HS, dữ liệu được cung cấp dưới hình thức giá trị hợp lý.
(3) Giá trị hợp lý tạo thuận lợi cho việc tính tốn sai số chuẩn của các ước tính cho mẫu thiết kế phức tạp.
5.3. Cơng cụ phân tích PISA
Tác giả sử dụng bộ cơng cụ SPSS Macros để phân tích dữ liệu. Tất cả các SPSS Macros đều có 5 biến chung gồm:
• NREP = Số lượng replicate sử dụng, PISA sử dụng 80 replicate • WGT = Biến trọng số mẫu của khảo sát
51
• RWGT = Tên chung của các Replicate • CONS = Mặc định là 0.05
• INFILE = File dữ liệu cần phân tích
* Cách thức hoạt động của Macros:
- Bước 1: đọc từ INFILE dữ liệu cần phân tích - Bước thứ 2: vịng lặp các Macro
+ Các thủ tục SPSS® để tính tốn lặp được lặp đi lặp lại 81 lần hay 405 lần tùy thuộc vào việc sử dụng thủ tục (procedure) để phân tích.
+ Tại mỗi lần chạy, kết quả được lưu trữ trong một tập tin tạm thời. Số lượng các lần lặp lại và số lượng các giá trị tính tốn hợp lý được kết hợp trong một tập kết quả.
- Bước thứ 3: được dành cho việc tính tốn các số liệu thống kê chính thức và sai số chuẩn tương ứng của nó:
+ Sự khác biệt bình phương giữa các ước tính chính thức và 80 lần lặp lại được tính tốn
+ Các khoản chênh lệch bình phương được tính và chia cho 20
+ Ước tính cuối cùng, dự tốn lấy mẫu và phương sai, trong trường hợp của các giá trị chính đáng, đo lường phương sai được tính tốn
- Bước cuối cùng: đánh dấu các số liệu thống kê không đạt yêu cầu về kích thước mẫu tối thiểu mà các nhà nghiên cứu đặt ra (trong một số Macro sẽ khơng có bước này)
+ Khơng có trọng số của HS, khơng có trọng số của các trường học và tỷ lệ % trọng số dân số được tính tốn.
+ Số trường khơng có trọng số và trọng số tỷ lệ % dân số được so sánh với các tiêu chuẩn được cung cấp bởi các nhà nghiên cứu.
52
* Quy trình phân tích dữ liệu
Quy trình phân tích dữ liệu nhằm đánh giá khác biệt giới trong năng lực GQVĐ của HS Việt Nam tham gia khảo sát PISA 2012 gồm 2 bước:
- Kiểm định ANOVA đánh giá sự khác biệt về kết quả đánh giá năng lực GQVĐ giữa HS nam và HS nữ ở 3 lĩnh vực Toán, Khoa học và Đọc hiểu;
- Sử dụng Macro Replicate để tính kết quả trung bình (MEAN) và tính chênh lệch (Difference) của HS nam và nữ theo các lĩnh vực và theo các phân tầng.
Tiểu kết chương
Chương 2 giới thiệu tóm tắt về chương trình PISA, bộ cơng cụ khảo sát và phương pháp chọn mẫu PISA theo phương pháp phân tầng 2 giải đoạn, đồng thời cung cấp cho người đọc bộ dữ liệu PISA 2012, lý thuyết cơ bản điểm Plausible value và bộ cơng cụ phân tích PISA Macros ( xem PISA 2012 Technical Report, Adam ).
53
CHƢƠNG 3. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN
1. Khác biệt giới về năng lực giải quyết vấn đề trong lĩnh vực Toán học 1.1. Đánh giá chung về năng lực GQVĐ của học sinh Việt Nam trong lĩnh 1.1. Đánh giá chung về năng lực GQVĐ của học sinh Việt Nam trong lĩnh vực Toán học
Lĩnh vực Tốn học HS Việt Nam đạt điểm trung bình 511 điểm, đứng thứ 17 trong bảng xếp hạng các nước tham gia PISA, đây là một kết quả cao trong khi điều kiện kinh tế xã hội của Việt Nam nằm trong nhóm thấp tham gia PISA. Như đã nói ở mục 1.3 của chương 1, PISA chia năng lực GQVĐ thành 6 mức, từ mức 1 (mức độ thành thạo thấp nhất) đến mức 6 (mức độ thành thạo cao nhất). Những HS có kết quả làm bài được xếp ở mức 5 hoặc mức 6 là những HS có năng lực GQVĐ cao. Ngược lại, những HS có năng lực yếu là những HS có kết quả làm bài xếp ở dưới mức 2. Mức 2 được định nghĩa là một mức độ thông thạo cơ bản và là mức độ mà HS bắt đầu để chứng minh có khả năng GQVĐ tình huống. Cụ thể hơn trong Hình 3.1.1 ta có thể thấy HS ở mức năng lực yếu dưới mức 2 chiếm tỷ lệ 14%, đây là những HS được coi là chưa nắm vững được kiến thức. Số HS bắt đầu có khả năng GQVĐ từ mức 2 trở lên là 86% và HS tập trung nhiều nhất ở mức 3 với tỷ lệ 38%, đây là mức HS biết thực hành các phương pháp, diễn giải và trình bày dựa vào nhiều nguồn thơng tin, trong khi đó mức năng lực cao nhất 5,6 chiếm tỷ lệ rất thấp (khoảng 13%).