Thông tin về học sinh gồm có: Họ tên học sinh, giới tính, quê quán, vùng miền, hoàn cảnh gia đình, đạo đức, điểm TBM toán, điểm TBM lý, điểm TBM hoá, điểm TBM sinh, điểm TBM văn, điểm TBM sử, điểm TBM địa, điểm TBM anh, kết quả học tập của các em cuối lớp 12.
STT Tên trường Kiểu dữ liệu Độ rộng trường Phần thập
phân Mô tả
1 MHS String 9 Mã học sinh
2 Ho_dem String 20 Họ đệm
3 Ten String 9 Tên học sinh
4 NGÀYSINH Date 11 Ngày sinh
5 GT String 4 Giới tính
6 Noi_o String 13 Nơi ở
7 Khu_vuc String 24 Khu vực
8 Dan_toc String 8 Dân tộc
9 HCGĐ String 15 Hoàn cảnh gia đình
10 MN String 6 Mã ngành học
11 TOAN Numeric 4 1 Điểm TB môn toán
12 LY Numeric 4 1 Điểm TB môn Lý
13 HOA Numeric 4 1 Điểm TB môn Hoá
14 Sinh Numeric 4 1 Điểm TB môn Sinh
15 Van Numeric 4 1 Điểm TB môn Văn
16 su Numeric 4 1 Điểm TB môn Sử
17 dia Numeric 4 1 Điểm TB môn Địa
18 anh Numeric 4 1 Điểm TB môn Anh
19 DTB Numeric 12 1 Điểm trung bình các môn học
20 Dao_duc String 5 0 Đạo đức
21 Cluster Numeric 8 0 Phân cụm chính k meas
22 KC_cum Numeric 15 2
Khoảng cách giữa các thành viên đến cụm
23 Cum_toan Numeric 8 0 Phân cụm môn toán
24 Kc_toan Numeric 15 2 Khoảng cách giữa các thành viên đến cụm toán
25 Cum_van Numeric 8 0 Cụm Văn
26 Kc_van Numeric 15 2 Khoảng cách giữa các thành viên đến cụm văn
Bảng 3. 3. Bảng xây dựng CSDL học sinh
Ở bảng CSDL trên thì khu vực ta chia ra như sau:
1. Khu vực Đồng bằng sông Hồng, Trung du và miền núi phía Bắc, và Bắc trung bộ. Trong đó Đồng bằng sông Hồng gồm các tỉnh: Hà Nội, Hà Tây, Vĩnh phúc, Bắc Ninh, Quảng Ninh, Hải Dương, Hải Phòng, Hưng Yên, Thái Bình, Hà Nam, Nam Định, Ninh Bình.
2. Khu vực Trung du và miền núi phía Bắc gồm: Hà Giang, Cao Bằng, Bắc Kạn, Tuyên Quang, Lào Cai, Yên Bái, Thái Nguyên, Lạng Sơn, Bắc Giang, Phú Thọ, Điện Biên, Lai Châu, Sơn La, Hoà Bình.
3. Khu vực Bắc Trung Bộ gồm: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa thiên Huế.
Các môn học được đưa vào phân tích là môn học cuối lớp 12. Ở đây luận văn định nghĩa :
ĐTB là tổng trung bình các môn học trong đó môn toán và môn văn tính hệ số 2.
Các trường như Cluster, cụm_toán, cum_van: là phân cụm theo thuật toán K-means để phân loại học sinh vào các cụm như; Giỏi, khá, trung bình, yếu, kém.
Các trường như KC_toan, KC_van, Kc_cum là tính giá trị khoảng cách từ đối tượng đang xét đến trung tâm cụm.
Xét kết quả học tập của học sinh khi tham gia phân cụm tổng số là 711 học sinh của khoá 5.
Hình 3. 10. Kết quả học tập của học sinh khi tham gia phân cụm
Ở hình trên ta nhận thấy kết quả học tập của học sinh tập trung nhiều ở điểm trung bình các môn học từ 5.0 đến 6.0. Đặc biệt số lượng học sinh nhiều nhất có kết quả học tập từ 5.5 đến 5.7 và nhiều nhất là 5.6. Đây là một kết quả phản ánh đầu vào học sinh còn thấp, chiếm tỉ lệ cao các học sinh có kết quả trung bình và trung bình yếu. Số lượng của 3 loại điểm trung bình 5.5; 5.6 và 5.7 tương
ứng là 54; 63; 57 học sinh tổng số là 174 học sinh chiếm 24.5% tức là chiếm 1/4 tổng số học sinh ta tham gia phân tích.