3. 4. 1. Thao tác phân cụm
Hình 3. 7. Thao tác phân cụm k-means
Bước 1: Chọn Analyze\Classify. Trong phân cụm ở đây ta nhận thấy có rất nhiều cách phân cụm khác nhau như: Phân cụm K-means, Phân cụm theo phân cấp (Hierarchical cluster…), phân cụm theo cấu trúc hình cây( tree.. ) và phân cụm theo K-Láng giềng (Nearest Neightbor).
Bước 2. Ta chọn kiểu phân cụm K-means Cluster…
Bước 3: Chọn cột cần phân cụm
Bước 4: Chọn số cụm
Bước 5: Chọn OK.
Hình 3. 8. Chọn tên trường và số cụm cần phân chia
Ở bảng trên ta chọn cột cần phân cụm chính là cột ĐTB, số cụm cần chọn là 5. Sau khi tạo xong ta sẽ xem kết quả phân cụm.
3. 4. 2. Thống kê mô tả đối tượng
Bước 1: Chọn Analyze/Descriptive Statistics/Descreptives Bước 2: Chọn cột cần phân tích thống kê/OK
Hình 3. 9. Thống kê theo số lượng phân cụm cụ thể
Thống kê mô tả đối tượng là một hình thức thống kê xem kết quả cụ thể số lượng bao nhiêu cho từng đối tượng cụ thể. Ở đây ta thống kê theo kết quả học tập của học sinh điểm trung bình môn học để từ đó nhận xét chung kết quả học tập của học sinh như thế nào. Ngoài ta ta có thể thống kê theo bất kỳ thông số nào ví dụ như tổng số nam, nữ, số học sinh theo vùng miền, theo tỉnh, theo năm sinh…
3. 5. Áp dụng phân cụm học sinh tại trường Cao đẳng nghề Văn Lang Hà Nội Văn Lang Hà Nội
3. 5. 1. Xây dựng CSDL học sinh
Thông tin về học sinh gồm có: Họ tên học sinh, giới tính, quê quán, vùng miền, hoàn cảnh gia đình, đạo đức, điểm TBM toán, điểm TBM lý, điểm TBM hoá, điểm TBM sinh, điểm TBM văn, điểm TBM sử, điểm TBM địa, điểm TBM anh, kết quả học tập của các em cuối lớp 12.
STT Tên trường Kiểu dữ liệu Độ rộng trường Phần thập
phân Mô tả
1 MHS String 9 Mã học sinh
2 Ho_dem String 20 Họ đệm
3 Ten String 9 Tên học sinh
4 NGÀYSINH Date 11 Ngày sinh
5 GT String 4 Giới tính
6 Noi_o String 13 Nơi ở
7 Khu_vuc String 24 Khu vực
8 Dan_toc String 8 Dân tộc
9 HCGĐ String 15 Hoàn cảnh gia đình
10 MN String 6 Mã ngành học
11 TOAN Numeric 4 1 Điểm TB môn toán
12 LY Numeric 4 1 Điểm TB môn Lý
13 HOA Numeric 4 1 Điểm TB môn Hoá
14 Sinh Numeric 4 1 Điểm TB môn Sinh
15 Van Numeric 4 1 Điểm TB môn Văn
16 su Numeric 4 1 Điểm TB môn Sử
17 dia Numeric 4 1 Điểm TB môn Địa
18 anh Numeric 4 1 Điểm TB môn Anh
19 DTB Numeric 12 1 Điểm trung bình các môn học
20 Dao_duc String 5 0 Đạo đức
21 Cluster Numeric 8 0 Phân cụm chính k meas
22 KC_cum Numeric 15 2
Khoảng cách giữa các thành viên đến cụm
23 Cum_toan Numeric 8 0 Phân cụm môn toán
24 Kc_toan Numeric 15 2 Khoảng cách giữa các thành viên đến cụm toán
25 Cum_van Numeric 8 0 Cụm Văn
26 Kc_van Numeric 15 2 Khoảng cách giữa các thành viên đến cụm văn
Bảng 3. 3. Bảng xây dựng CSDL học sinh
Ở bảng CSDL trên thì khu vực ta chia ra như sau:
1. Khu vực Đồng bằng sông Hồng, Trung du và miền núi phía Bắc, và Bắc trung bộ. Trong đó Đồng bằng sông Hồng gồm các tỉnh: Hà Nội, Hà Tây, Vĩnh phúc, Bắc Ninh, Quảng Ninh, Hải Dương, Hải Phòng, Hưng Yên, Thái Bình, Hà Nam, Nam Định, Ninh Bình.
2. Khu vực Trung du và miền núi phía Bắc gồm: Hà Giang, Cao Bằng, Bắc Kạn, Tuyên Quang, Lào Cai, Yên Bái, Thái Nguyên, Lạng Sơn, Bắc Giang, Phú Thọ, Điện Biên, Lai Châu, Sơn La, Hoà Bình.
3. Khu vực Bắc Trung Bộ gồm: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa thiên Huế.
Các môn học được đưa vào phân tích là môn học cuối lớp 12. Ở đây luận văn định nghĩa :
ĐTB là tổng trung bình các môn học trong đó môn toán và môn văn tính hệ số 2.
Các trường như Cluster, cụm_toán, cum_van: là phân cụm theo thuật toán K-means để phân loại học sinh vào các cụm như; Giỏi, khá, trung bình, yếu, kém.
Các trường như KC_toan, KC_van, Kc_cum là tính giá trị khoảng cách từ đối tượng đang xét đến trung tâm cụm.
Xét kết quả học tập của học sinh khi tham gia phân cụm tổng số là 711 học sinh của khoá 5.
Hình 3. 10. Kết quả học tập của học sinh khi tham gia phân cụm
Ở hình trên ta nhận thấy kết quả học tập của học sinh tập trung nhiều ở điểm trung bình các môn học từ 5.0 đến 6.0. Đặc biệt số lượng học sinh nhiều nhất có kết quả học tập từ 5.5 đến 5.7 và nhiều nhất là 5.6. Đây là một kết quả phản ánh đầu vào học sinh còn thấp, chiếm tỉ lệ cao các học sinh có kết quả trung bình và trung bình yếu. Số lượng của 3 loại điểm trung bình 5.5; 5.6 và 5.7 tương
ứng là 54; 63; 57 học sinh tổng số là 174 học sinh chiếm 24.5% tức là chiếm 1/4 tổng số học sinh ta tham gia phân tích.
3. 5. 2. Kết quả phân cụm theo thuật toán k-means
Mở chương trình SPSS và phân cụm kết quả học tập của học sinh theo thuật toán K-means.
Với kết quả học tập như trên, người dùng có thể xác định hình dạng cụm để thuận lợi cho việc phân tích, đáp ứng nhu cầu của quản lý giáo dục.
Luận văn nhất trí phân chia làm 5 cụm: nhằm phản ánh đối tượng học sinh theo 5 cách đánh giá của Bộ giáo dục và đào tạo là : Giỏi, khá, trung bình, yếu, kém.
Kết quả học tập của học sinh sau khi được phân ra 5 cụm, có các khoảng điểm cụ thể như sau:
Cụm 1-TC 6.5 (6.3-7.3) 2-TC 7.9 (7.4-8.4) 3 TC 5.3 (5.0-5.6) 4-TC 4.7 (3.8-4.9) 5-TC 5.9 (5.7-6.2) Sốlượng Tỉ lệ Số lượng Tỉ lệ Số lượng Tỉ lệ Số lượng Tỉ lệ Số lượng Tỉ lệ
82 11.5% 3 0.4% 315 44.3% 98 13.8% 213 30.0%
Bảng 3. 4. Kết quả phân cụm và số lượng cụ thể từng cụm
Theo kết quả phân cụm trên thì ta có thể thấy: Đối chiếu với kết quả xếp loại của Bộ giáo dục và đào tạo thì:
Cụm 1 là cụm có kết quả học sinh đạt loại khá
Cụm 2 là cụm giỏi
Cụm 3 và cụm 5 là cụm trung bình
Cụm 4 là cụm yếu.
Trong đó cụm 3 dạng trung bình thấp và cụm 5 là trung bình cao. Nhìn vào bảng số liệu trên ta nhận thấy tỉ lệ điểm của học sinh có tỉ lệ điểm thấp chiếm tỉ lệ cao. Do vậy nhà trường tuyển sinh chủ yếu là các đối tượng có kết quả học tập đạt kết quả thấp trong các trường trung học phổ thông.
Sau khi ta phân cụm như trên ta xét kết quả phân cụm theo vùng miền như sau:
Bảng 3. 5. Kết quả phân cụm theo vùng miền
Hình 3. 11. Kết quả phân cụm theo vùng miền
Theo kết quả phân cụm ở trên ta nhận thấy
1. Cụm 1 là cụm có kết quả học tập khá: tỉ lệ phần trăm cao nhất là vùng Bắc trung bộ là 12 em chiếm 14.5%, tiếp đến là vùng Đồng bằng sông Hồng 45 học sinh chiếm 13.3% và vùng trung du và miền núi có kết quả học tập thấp nhất có 25 em chiếm 8.6%.
2. Cụm 2 là cụm học sinh có kết quả học tập loại giỏi, 3 em này đều ở đồng bằng sông Hồng. Đó là em Nguyễn Văn Thuấn ở Vĩnh Phúc, Em Phạm Thị Tố Uyên ở Hải Phòng và em Nguyễn Thị Hằng ở Hà Nội.
3. Cụm 3 là cụm có kết quả học sinh loại trung bình yếu: Ta nhận thấy các em ở trung du và miền núi có 137 em chiến tỉ lệ cao 47.2%. Còn hai vùng còn lại thì tỉ lệ xấp xỉ nhau.
4. Cụm 4 là cụm có kết quả học tập loại yếu thì tỉ lệ các em ở trung du và miền núi cũng chiếm tỉ lệ cao là 48 học sinh chiếm 16.6% cao gấp đôi vùng Bắc trung bộ.
5. Cụm 5 là cụm có kết quả học tập loại trung bình-khá thì tỉ lệ của vùng trung du và miền núi phía Bắc cũng có kết quả thấp hơn hai vùng còn lại chiếm 80
0,0% 10,0% 20,0% 30,0% 40,0% 50,0% % % % % % Khá Giỏi TB yếu TB_khá Kết quả phân cụm theo vùng
miền Vùng Bắc trung bộ Vùng ĐB sông Hồng Vùng Trung du và miền núi Vùng Các cụm 1-TC 6.5 (6.3-7.3) 2-TC 7.9 (7.4-8.4) 3-TC 5.3 (5.0-5.6) 4-TC 4.7 (3.8-4.9) 5-TC 5.9 (5.7-6.2) SL % SL % SL % SL % SL % Bắc trung bộ 12 14.5% 0 0.0% 36 43.4% 7 8.4% 28 33.7% ĐB sông Hồng 45 13.3% 3 0.9% 142 42.0% 43 12.7% 105 31.1% Trung du và miền núi 25 8.6% 0 0.0% 137 47.2% 48 16.6% 80 27.6%
em tỉ lệ 27.6% so với 105 em tỉ lệ 31.1% với đồng bằng Bắc bộ và 28 em tỉ lệ 33.7% so với Bắc trung bộ.
Kết quả học tập theo vùng miền ta nhận thấy ở đây là các em học sinh ở trung du và miền núi có kết quả học tập thấp hơn hai vùng còn lại: Lý do có thể do ở các tỉnh miền núi do điều kiện học tập còn thiếu, kinh tế khó khăn, Hoàn cảnh gia đình các em là người dân tộc thiểu số do vậy việc học tập của các em còn nhiều bất cập.
Còn đối với vùng Bắc trung bộ thì kết quả học tập là tốt hơn 2 vùng còn lại. Các em học khá chiếm 14.5%, diện trung bình khá là 33.7%; diện yếu là 8.4%. không có học sinh loại giỏi tham gia học tập.
Các tỉnh thuộc đồng bằng Bắc bộ có số lượng học tập đông nhất: trong đó học sinh diện khá-giỏi là 3 em chiếm 0.9%; diện khá 13.3%. Nhìn chung cụm đồng bằng sông Hồng là cụm có kết quả học tập của các em được xác định một cách hợp lý phù hợp với khả năng tuyển sinh của nhà trường
Số cụm 1-TC 6.5 (6.3-7.3) 2-TC 7.9 (7.4-8.4) 3-TC 5.3 (5.0-5.6) 4-TC 4.7 (3.8-4.9) 5-TC 5.9 (5.7-6.2) SL % SL % SL % SL % SL % HCGĐ Cán bộ 1 11.1% 0 0.0% 3 33.3% 2 22.2% 3 33.3% CCCM 3 42.9% 0 0.0% 1 14.3% 0 0.0% 3 42.9% Công nhân 0 0.0% 0 0.0% 4 66.7% 1 16.7% 1 16.7% Mồ côi 0 0.0% 0 0.0% 2 100.0% 0 0.0% 0 0.0% Nông dân 76 11.5% 3 0.5% 293 44.5% 92 14.0% 195 29.6% TBB 1 8.3% 0 0.0% 5 41.7% 1 8.3% 5 41.7% Tiểu thương 1 6.3% 0 0.0% 7 43.8% 2 12.5% 6 37.5%
Bảng 3. 6. Kết quả phân cụm theo hoàn cảnh gia đình
1. Cụm 1 là cụm có học sinh học tập loại khá thì hoàn cảnh gia đình có công với cách mạng có tỉ lệ cao nhất 42.9%, thấp nhất là công nhân và mồ côi không có học sinh nào.
2. Cụm 2 là cụm học sinh học lực giỏi gồm 3 em đều là con em nông dân. 3. Cụm 3 là cụm có kết quả học tập trung bình-yếu thì kết quả thấp nhất là gia
đình có công với cách mạng, cao nhất là gia đình có hoàn cảnh khó khăn là mồi côi.
4. Cụm 4 là cụm học sinh yếu ta thấy tỉ lệ cao nhất là con em công nhân và thấp nhất là gia đình có công với cách mạng.
5. Cụm 5 là cụm có học sinh học trung bình-khá thì kết quả học tập đạt loại này có tỉ lệ cao là gia đình có công với cách mạng và thấp nhất là gia đình có hoàn cảnh khó khăn là mồ côi.
Dân tộc Cụm >=5 1-TC 6.5 (6.3-7.3) 2-TC 7.9 (7.4-8.4) 3-TC 5.3 (5.0-5.6) 4-TC 4.7 (3.8-4.9) 5-TC 5.9 (5.7-6.2) SL % SL % SL % SL % SL % SL % Dao 1 6.7% 0 0.0% 10 66.7% 1 6.7% 3 20.0% 14 93.3% Dáy 0 0.0% 0 0.0% 0 0.0% 1 50.0% 1 50.0% 1 50.0% H Mông 0 0.0% 0 0.0% 3 42.9% 2 28.6% 2 28.6% 5 71.4% Hoa 0 0.0% 0 0.0% 1 100% 0 0.0% 0 0.0% 1 100.0% Khơ Mú 0 0. 0% 0 0.0% 1 100% 0 0.0% 0 0.0% 1 100.0% Kinh 62 12.1% 3 0.6% 224 43.7% 66 12.9% 158 30.8% 447 87.1% Mường 4 7.0% 0 0.0% 28 49.1% 8 14.0% 17 29.8% 49 86.0% Nùng 5 15.2% 0 0.0% 13 39.4% 7 21.2% 8 24.2% 26 78.8% Tày 6 13.0% 0 0.0% 16 34.8% 7 15.2% 17 37.0% 39 84.8% Thái 4 11.1% 0 0.0% 19 52.8% 6 16.7% 7 19.4% 30 83.3%
Bảng 3. 7 Kết quả phân cụm theo dân tộc
Tóm lại ở dạng phân cụm này theo hoàn cảnh gia đình thì ta nhận thấy: Học sinh đạt loại giỏi thuộc về hoàn cảnh gia đình là con em nông dân, còn các em có hoàn cảnh là gia đình có công với cách mạng thì các em thuộc diện học trung bình-khá, không có học sinh kết quả học tập loại yếu.
Hình 3. 12. Kết quả phân cụm theo dân tộc
Đối với gia đình thương bệnh binh, cũng có học sinh nhận kết quả học tập tốt, nhưng cũng có học sinh kết quả học tập yếu. Với gia đình làm ăn buôn bán, tiểu thương, các em học tập đạt kết quả không cao, chủ yếu là dạng trung bình và trung bình khá. Nói chung việc phân cụm theo hoàn cảnh gia đình không phân biệt được rõ sự ảnh hưởng của gia đình với kết quả học tập của các em học sinh.
Việc so sánh đối chiếu theo dân tộc phản ánh rõ nét về kết quả học tập của học sinh. Ví dụ ở cụm học sinh khá. Ngoài trừ dân tộc Kinh chiếm số đông thì
các dân tộc khác có sự phân hoá rõ rệt như Dân tộc Dáy, H Mông, Hoa, Khơ Mú không có học sinh nào, Dân tộc Mường, Nùng, Tày, Thái có từ 4-6 học sinh, trong khi đó dân tộc Dao chỉ có 1 học sinh. Xét các dân tộc có số học sinh học đông như Kinh, Mường, Nùng, Tày, Thái thì tỉ lệ học sinh có kết quả điểm trên trung bình cao nhất thuộc về dân tộc Kinh là 447 học sinh chiếm 87.1%; thấp nhất thuộc về dân tộc Nùng là 26 học sinh chiếm 78.8%. Ngoài ra như dân tộc H Mông ta cũng thấy mặc dù số lượng tuyển là không nhiều nhưng phần lớn các em học có kết quả không cao cụ thể là có 28.6% là học sinh học yếu.
Cụm 1-TC 6.5 (6.3-7.3) 2-TC 7.9 (7.4-8.4) 3-TC 5.3 (5.0-5.6) 4-TC 4.7 (3.8-4.9) 5-TC 5.9 (5.7-6.2) SL % SL % SL % SL % SL % Giới tính Nam 25 6.3% 1 0.3% 189 48.0% 74 18.8% 105 26.6% Nữ 57 18.0% 2 0.6% 126 39.7% 24 7.6% 108 34.1%
Bảng 3. 8 Kết quả phân cụm theo giới tính
Theo phân cụm giới tính ta thấy kết quả phân cụm thì giới tính là nữ có kết quả học tập tốt hơn nam cụ thể: cụm 1-khá: nữ có 57 em chiếm 18%; về học lực giỏi thì nữ có 2 trong khi đó nam có 1 em; về học lực yếu nam cho 74 em chiếm 18.8% trong khi đó nữ chỉ cho 24 em chiếm 7.6%. Đây là kết quả phân biệt giới tính là khác biệt rõ nhất ở đó giới tính nữ có kết quả học tập tốt hơn nhiều so với nam giới. Có thể thấy đây là một kết quả khá bất ngờ vì trong các trường nghề thì số lượng nam giới tuyển vào trường thường có số lượng cao hơn nữ, ở đây số lượng nam là 394 (55.4%) so với nữ là 317 (44.6%). Nhưng kết quả học tập thì ngược lại số nữ có kết quả học tập tốt hơn nam rất nhiều.
3. 5. 2. 1. Phân tích dữ liệu cụm 1- tâm cụm 6. 5
Cụm 1 là cụm có số lượng 82 học sinh chiếm tỉ lệ là 11.5%. Trung tâm cụm là 6.5. Khoảng cách cụm 1 là các học sinh có điểm trung bình của các môn học từ 6.3 đến 7.1 nhìn chung là các em học sinh đạt kết quả học lập loại khá. Số lượng cụ thể được phân tích ở bảng trên.
Theo đó học sinh thuộc diện khá nhưng số lượng học sinh có điểm trung bình của cụm lệch về phía dưới tức là điểm TB 6.3 và 6.4 là 50% tổng số học sinh của cả cụm. Vậy tuy là học sinh đạt kết quả được xem là khá ở đây nhưng ở