Phân tích mi liên hệ giữa giới tính của học sinh với các biên sô Điểm trung bình môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD nhằm tiên đoán giới tính của một học sinh t
Trang 1ĐẠI HỌC QUÓC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Mã số: 8.48.02.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYEN GIA TUẦN ANH
TP HO CHÍ MINH - NĂM 2022
Trang 2Lời cam đoan
Tôi xin cam đoan các nội dung được trình bày trong luận văn này được xây
dựng và hoàn thành bằng chính quá trình nghiên cứu của bản thân và được sự hướngdẫn khoa học tận tình của TS Nguyễn Gia Tuấn Anh
Trong quá trình làm luận văn này, tôi đã tham khảo một số tài liệu từ nhiều
nguồn khác nhau, các nội dung tham khảo đều được trích dẫn rõ ràng Các nội dung
nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bắt kỳ hìnhthức nào trước đây Nếu có điều gì không trung thực, tôi xin chịu mọi hình thức ky
luật theo đúng quy định.
TP Hồ Chí Minh, tháng 3 năm 2022
Học viên
Nguyễn Hiếu Lễ
Trang 3Lời cảm ơn
Trong quá trình thực hiện luận văn, em đã nhận được rất nhiều sự quan tâm giúp
đỡ và động viên từ các thầy cô trực tiếp giảng dạy lớp cao học Công nghệ thông tin
của trường Đại học Công nghệ Thông tin - Đại học Quốc Gia TP Hồ Chí Minh, quýthầy cô Phòng đào tạo Sau đại học của nhà trường đề hoàn thành luận văn tốt nghiệp
Đặc biệt, em xin gửi lời cám ơn chân thành nhất đến TS Nguyễn Gia Tuấn Anh,
người đã trực tiếp hướng dẫn em trong suốt quá trình thực hiện luận văn này Nhờ sựhướng dẫn và chỉ bảo tận tình của Thầy, em đã có được những kiến thức và kinh
nghiệm quý báu về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình
bày kết quả và hoàn thành luận văn thạc sĩ ngành Công nghệ Thông tin của mình
Cuối cùng em xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luôn bên
em động viên và khuyến khích em trong quá trình thực hiện dé tài nghiên cứu của
mình.
Mặc dù đã rất nỗ lực và cố gắng, nhưng luận văn này chắc chắn không tránhkhỏi những thiếu sót, em mong nhận được sự thông cảm, góp ý và tận tình chỉ bảo
của quý thầy cô và các bạn
Một lần nữa xin gửi đến tất cả mọi người lời cảm ơn chân thành nhất!
TP Hồ Chí Minh, tháng 3 năm 2022
Học viên
Nguyễn Hiếu Lễ
Trang 41.2 Mục tiêu, đối tượng và phạm vị nghiên cứu
1.2.1 Mục tiêu nghiên cứu
1.2.2 Đối tượng nghiên cứu
1.2.3 Phạm vi nghiên cứu
1.3 Khả năng mở rộng.
1.4 Các nghiên cứu liên quan
Chương 2 CƠ SỞ LÝ THUYẾT
2.1 Thu thập và xử lý dữ liệu
2.1.1 Thu thập dữ liệu
2.1.2 Tiền xử lý dữ liệu
2.2 Hệ số tương quan
2.2.1 Hệ số tương quan Pearson
2.2.2 Hệ số tương quan Spearman ø
2.3 Các loại hình phân tích dữ liéu
2.3.1 Phân tích mô tả
2.3.2 Phân tích chan đoán
2.3.3 Phân tích dự báo (dự đoán).
2.3.4 Phân tích đề xuất
2.4 Các kỹ thuật phân tích dữ liệu
2.4.1 Kỹ thuật phân cụm (Clustering)
2.4.2 Hồi qui (Regression)
Trang 5Mục lục
2.4.3 Hồi qui tuyến tính đơn giản
2.4.4 Hồi qui tuyến tính đa biến
2.4.5 Hồi qui logistic
2.5 Phương pháp kiểm định trị số P
2.5.1 Khái niệm
2.5.2 Giá tri p-value
2.5.3 Giả thiết vô hiệu (H0)
2.5.4 Giả thuyết khác, giả thiết đảo (Ha),
2.6 Kiểm định giả thiết
2.7 Phân tích dữ liệu bằng biéu đô
2.7.1 Base plot system
2.7.2 Ggplot2 plot system
2.8 Các phần mềm hỗ trợ phân tích dữ liệu
2.8.1 Phân tích số liệu bằng phần mềm R
2.8.1.1 Giới thiệu về R2.8.1.2 Ưu điểm của R2.8.1.3 Giới thiệu về Rstudio
2.8.1.4 Giới thiệu về SPSS (Statistical Product and Services Solutions) 39
Chương 3 KET QUA PHAN TÍCH
3.1 Phát biểu bài toán thực tế
Trang 6Mục lục
3.3.2 Phân tích điểm trung bình của học sinh bằng biểu đồ phân bố
(histogram) theo học lực (Yếu, trung bình, khá giỏi) kết hợp với biểu đồ hộp
(boxplot) on 153
3.3.3 Phân tích diém trung bình của học sinh băng biêu đô phân bô
(histogram) theo dan tộc (Hoa, Kinh, Khmer) kết hợp với biểu đồ hộp
(boxplot)
3.3.4 Phân tích điêm trung bình của học sinh băng biêu đô phân bô
(histogram) theo giới tính (Nam, Nữ) kết hợp với biểu đồ hộp (boxplot) 66
3.3.5 Phân tích mới quan hệ giữa điểm trung bình cả năm với điểm trung bình
từng môn bằng kiểm định giả thiết kết hợp mô hình tuyến tinh 713.3.6 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với banhóm học sinh thuộc dân tộc (Kinh, Khmer, Hoa) bằng mô hình phân tích
phương sai 86
3.3.7 Phân tích môi liên hệ giữa điêm trung bình cả năm của học sinh với
nhóm giới tính của học sinh (Nam, Nữ) bằng mô hình phân tích phương sai 913.3.8 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với
nhóm học sinh ở hai vùng Thi tran và Xã bằng mô hình phân tích phương sai
3.3.12 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với
nhóm học sinh có giới tính Nam và Nữ bằng mô hình phân tích hiệp bié
nhóm học sinh thuộc dân tộc Hoa, Khmer, Kinh bằng mô hình phân tích hiệp
biến „104
Trang 7Mục lục
3.3.13 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với
nhóm học sinh Bỏ học và Không bỏ học bằng mô hình phân tích hiệp biến.1063.3.14 Phân tích mdi liên hệ giữa điểm trung bình cả năm của hoc sinh với
nhóm học sinh Bỏ học và Không bỏ học bằng mô hình phân tích hồi qui
logistic sassnen - 108
3.3.15 Phân tích môi liên hệ giữa diém trung bình ca năm của học sinh với
nhóm học sinh có giới tính Nam và Nữ bằng mô hình phân tích hồi qui logistic
„110
3.3.16 Phân tích môi liên hệ giữa điêm trung bình cả năm của học sinh với
nhóm học sinh thuộc khu vực Thị tran và Xã bằng mô hình phân tích hồi qui
logistic ssoseoll 13)
3.3.17 Phân tích môi liên hệ giữa bỏ học với các biên sô Diém trung bình môn
Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD nhằm tiên
đoán một hoc sinh sẽ bỏ học trong tương lai thông qua phân tích hồi qui
logistic đa biến và chọn mô hình 1163.3.18 Phân tích mi liên hệ giữa giới tính của học sinh với các biên sô Điểm
trung bình môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD nhằm tiên đoán giới tính của một học sinh trong tương lai thông quaphân tích hồi qui logistic đa biến và chọn mô hình „1223.3.19 Phân tích mối liên hệ giữa khu vực với các biên sô Điêm trung bình
môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD nhằmtiên đoán khu vực của một học sinh trong tương lai thông qua phân tích hồi
qui logistic đa biến và chọn mô hình -1313.3.20 Phân tích, thống kê sô liệu học sinh bỏ học bỏ học theo từng Xã/Thị
Ö„141
trấn dé giải quyết bài toán phân cụm
3.3.21 Phân tích, thống kê chất lượng giảng dạy môn Toán theo giáo viên
giảng dạy dé giải quyết bài toán phân cụm
3.3.22 Phân tích, thống kê chất lượng giảng dạy môn Tiếng Anh theo giáo
viên giảng dạy đề giải quyết bài toán phân cụm
Chương 4 KẾT LUẬN VÀ HƯỚNG PHAT TRIEN
Trang 9Danh mục các ký hiệu và chữ viết tắt
Danh mục các ký hiệu và chữ viết tắt
HD High Definition
CSDL Co sở dữ liệu
SQL Structured Query Language
THPT Trung học phô thông
ĐTB Điểm trung bình
CRM Customer Relationship Managemen
ERP Enterprise Resource Planning
GDCD Giáo dục công dân
QPAN Quốc phòng An ninh
SPSS Statistical Package for the Social Sciences
Smas School Management System
TBM Trung bình môn
ĐTB Điêm trung bình
CRM Customer Relationship Managemen
ERP Enterprise Resource Planning
GDCD Giáo dục công dân
QPAN Quốc phòng An ninh
Trang 10Danh mục các bảng
Danh mục các bảng
Bảng 3.1 Danh sách tập thuộc tính tiêu biểu của tập dữ liệu thu thập
Bang 3.2 Danh sách tập thuộc tính sau khi xử lý của tập dữ liệu thu thập 45
Bảng 3.3 Danh sách các thuộc tính dùng dé phân tích
Bảng 3.4 Một số package cần cài đặt trong quá trình phân tích
Bang 3.5 Kết quả tìm kiếm mô hình bỏ học của học sinh
Bảng 3.6 Kết quả tìm kiếm mô hình bỏ học của học sinh lớp 10
Bang 3.7 Kết quả tìm kiếm mô hình bỏ học của học sinh lớp 11
Bang 3.8 Kết quả tìm kiếm mô hình Giới tính của học sỉnh
Bảng 3.9 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 10
Bang 3.10 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 11
Bảng 3.11 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 12
Bảng 3.12 Kết quả tìm kiếm mô hình Khu vực của học sinh
Bảng 3.13 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 10
Bảng 3.14 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 11
Bang 3.15 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 12
Bảng 3.16 Bảng số liệu học sinh bỏ học toàn trường theo xã/thị trân
Bảng 3.17 Bảng số liệu học sinh bỏ học học sinh lớp 10 theo xã/thị trãi
Bảng 3.18 Bảng số liệu học sinh bỏ học học sinh lớp 11 theo xa/thi trâi
Bảng 3.19 Bảng thống kê chat lượng giảng dạy bộ môn Toán toàn trường 147Bảng 3.20 Bảng thống kê chất lượng giảng dạy bộ môn Toán lớp 10
Bảng 3.21 Bảng thống kê chất lượng giảng dạy bộ môn Toán lớp 11
Bang 3.22 Bảng thống kê chat lượng giảng dạy bộ môn Toán lớp 12
Bang 3.23 Bảng thống kê chất lượng giảng dạy bộ môn Toán toàn trường 155
Trang 11Danh mục các hình vẽ, đồ thị
Danh mục các hình vẽ, đồ thị
Hình 2.1 Tổng quan về tiền xử lý dữ liệu
Hình 2.2 Quy trình tiền xử lý đữ liệu
Hình 2.3 Minh họa phương pháp phân cụm (clustering)
Hình 2.4 Minh họa hồi qui tuyến tính đơn biến
Hình 2.5 Mối liên hệ giữa logit(p) và p, 1<p<0
Hình 2.6 Quy trình tạo biểu đồ
Hình 2.7 Giao diện R
Hình 2.8 Giao diện Rstudio.
Hình 2.9 Giao diện Rstudio khi thực thi lệnh cu tl
Hình 2.10 Giao diện SPSS
Hình 3.1 Các bước xây dựng mô hình phân tích
ÖÒ42 43
Hình 3.2 Giao diện của Smas
Hình 3.3 Tập dữ liệu thu thập từ Smas
Hình 3.4 Cài đặt package từ thanh công cụ 40
Hình 3.5 Chọn package cần cài đặt .„ 40Hình 3.6 Mật độ phân bố Điểm trung bình của học sinh 51
Hình 3.7 Mật độ phân bố Điểm trung bình của học sinh lớp 10 we
Hình 3.8 Mật độ phân bố Điểm trung bình của học sinh lớp 11 52Hình 3.9 Mật độ phân bố Điểm trung bình của học sinh lớp 12 52Hình 3.10 Mật độ phân bố Điểm trung bình của học sinh theo học lực 153Hình 3.11 Biểu đồ hộp biểu diễn Điểm trung bình của hoc sinh theo học luc 54Hình 3.12 Mật độ phân bố Điểm trung bình của học sinh lớp 10 theo học lực 55Hình 3.13 Biểu đồ hộp biêu diễn Điểm trung bình của học sinh lớp 10 theo học lực
Hình 3.14 Mật độ phân bô Điêm trung bình của học sinh lớp 11 theo học lực 57
Trang 12Danh mục các hình vẽ, đồ thị
Hình 3.17 Biểu đồ hộp biểu diễn Điểm trung bình của học sinh lớp 12 theo học lực
„60 Hình 3.18 Biêu đô phân bô diém trung bình của học sinh theo dân tộc 6l
Hình 3.19 Biểu đồ hộp biêu diễn điểm trung bình của học sinh theo dân tộc 61Hình 3.20 Biểu đồ phân bố điểm trung bình của học sinh 10 theo dan tộc 62Hình 3.21 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 10 theo dân tộc 63Hình 3.22 Biểu đồ phân bố điểm trung bình của học sinh 11 theo dân tộc 63Hình 3.23 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 11 theo dân tộc 64Hình 3.24 Biểu đồ phân bó điểm trung bình của học sinh 12 theo dân tộc 65Hình 3.25 Biểu đồ hộp biểu diễn điểm trung bình của học sinh 12 theo dân tộc 65Hình 3.26 Biểu đồ phân bó điểm trung bình của học sinh theo giới tính 66Hình 3.27 Biểu đồ hộp biéu diễn điểm trung bình của học sinh theo giới tinh 67
Hình 3.33 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 12 theo giới tính 71
Hình 3.28 Biểu đồ phân bố điểm trung bình của học sinh 10 theo giới tính
Hình 3.30 Biểu đồ phân bố điểm trung bình của hoc sinh 11 theo giới tính
Hình 3.32 Biểu đồ phân bó điểm trung bình của học sinh 12 theo giới tính
Hình 3.34 Mối liên hệ giữa điểm trung bình cả năm với điểm trung bình môn Toán,
Hình 3.37 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
trung bình môn Toán, Văn 13
Hình 3.38 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
trung bình môn Anh, Lí
Hình 3.39 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
Trang 13Danh mục các hình vẽ, đồ thị
Hình 3.40 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
trung bình môn Địa, GDCD 74
Hình 3.41 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
trung bình môn Tin, Công Nghệ 74
Hình 3.42 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm
trung bình môn QPAN we T4
Hình 3.43 Mối liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình
môn Toán, Văn, Anh, Lí
Hình 3.44 Mi liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình
Hình 3.45 Mối liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình
môn Tin, Công Nghệ, QPAN 76
Hình 3.46 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Toán, Văn 76Hình 3.47 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Anh, Lí 77Hình 3.48 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Sinh, Str weedHình 3.49 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Địa, GDCD "Nư(Hình 3.50 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ 278Hình 3.51 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của hoc sinh vớiđiểm trung bình môn QPAN we 78Hinh 3.52 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình
môn Toán, Van, Anh, Lí
Hình 3.53 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình
môn Sinh, Sử, Dia, GDCD.
Hình 3.54 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình
môn Tin, Công Nghệ, QPAN
Trang 14Danh mục các hình vẽ, đồ thị
Hình 3.55 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh với
điểm trung bình môn Toán, Văn 80Hình 3.56 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Anh, Lí .80Hình 3.57 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Sinh, Sử 81Hình 3.58 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của hoc sinh vớiđiểm trung bình môn Địa, GDCD .„81Hình 3.59 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ -„.81Hình 3.60 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh với
điêm trung bình môn QPAN 82,
Hình 3.61 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình
môn Văn, Anh, Lí 283
Hình 3.62 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình
môn Sinh, Sử, Địa, GDCD.
Hình 3.63 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình
môn Tin, Công Nghệ, QPAN
Hình 3.64 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Văn -„84Hình 3.65 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Anh, Lí .84Hình 3.66 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Sinh, Str 84Hình 3.67 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của hoc sinh với
điêm trung bình môn Địa, GDCD 85
Hình 3.68 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ
Hình 3.69 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn QPAN 85
Trang 15Danh mục các hình vẽ, đồ thị
Hình 3.70 Mối liên hệ giữa điểm trung bình cả năm của học sinh với học sinh
thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương sai
thông qua lệnh anova
Hình 3.71 Mối liên hệ giữa điêm trung bình cả năm của học sinh với học sinh
thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương sai
thông qua lệnh summary
Hình 3.72 Mối liên hệ giữa điêm trung bình cả năm của học sinh lớp 10 với họcsinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
.Ò-88
Hình 3.73 Mối liên hệ giữa điêm trung bình cả năm của học sinh lớp 10 với học
sai thông qua lệnh anova.
sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
+88
Hình 3.74 Mối liên hệ giữa diém trung bình cả năm của học sinh lớp 11 với học
sai thông qua lệnh summary
sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
+89
Hình 3.75 Mối liên hệ giữa diém trung bình cả năm của học sinh lớp 11 với học
sai thông qua lệnh anova.
sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
+90
Hình 3.76 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với học
sai thông qua lệnh summary
sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
sai thông qua lệnh anova 90 Hình 3.77 Môi ên hệ giữa điêm trung bình cả năm của học sinh lớp 12 với học
sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương
sai thông qua lệnh summary 91
Hinh 3.78 Moi lên hệ giữa diém trung bình cả năm của học sinh với nhóm giới
tính của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông qua
Trang 16Danh mục các hình vẽ, đồ thị
Hình 3.80 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhómgiới tính của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông
22293
Hình 3.81 Mối liên hệ giữa điểm trung bình cả năm của hoc sinh lớp 12 với nhóm
qua lệnh anova va summary
giới tinh của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông
94
Hình 3.82 Mối liên hệ giữa điêm trung bình cả năm của học sinh với nhóm học
qua lệnh anova va summary
sinh ở vùng Thị tran và Xã bằng phương pháp phân tích phương sai thông qua lệnh
Hình 3.86 Mối liên hệ giữa diém trung bình cả năm của học sinh với nhóm học
sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thông qua
lệnh anova va summary 2 98
Hinh 3.87 Méi én hệ giữa điêm trung bình cả năm của học sinh lớp 10 với nhóm
học sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thông
299
(én hệ giữa điêm trung bình cả năm của học sinh lớp 11 với nhóm
qua lệnh anova và summary
Hình 3.88 Mối
học sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thong
qua lệnh anova va summary 99
Hình 3.89 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
sinh ở Thị tran và Xã (phân tích hiệp biến) „100
Trang 17Danh mục các hình vẽ, đồ thị
Hình 3.90 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhómhọc sinh ở Thị tran và Xã (phân tích hiệp bién) „101Hình 3.91 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhómhọc sinh ở Thị tran và Xã (phân tích hiệp biến)
Hình 3.92 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với nhómhọc sinh ở Thi tran và Xã (phân tích hiệp biến)
Hình 3.93 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
sinh có giới tính Nam và Nữ (phân tích hiệp bién) „102Hình 3.94 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhómhọc sinh có giới tính Nam và Nữ (phân tích hiệp biến) 103Hình 3.95 Mối liên hệ giữa điểm trung bình ca năm của hoc sinh lớp 11 với nhóm
-103
Hình 3.96 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với nhómhọc sinh có giới tính Nam và Nữ (phân tích hiệp biến)
học sinh có giới tính Nam và Nữ (phân tích hiệp biến) ee
Hình 3.97 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến) " 104Hình 3.98 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm
„105
học sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến)
Hình 3.99 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm
dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến)
học sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hig biến)
Hình 3.101 M n hệ giữa điểm trung bình cả năm của học sinh với nhóm học
sinh Bỏ học và Không bỏ học (phân tích hiệp biến) „106
Hình 3.102 Mi n hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm
„107
Hình 3.103 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm
học sinh Bỏ học và Không bỏ học (phân tích hiệp biến)
học sinh Bỏ học và Không bỏ học (phân tích hiệp biến)
Hình 3.104 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
- 108
sinh Bo học và Không bỏ học (phân tích hồi qui logistic)
Trang 18Danh mục các hình vẽ, đồ thị
Hình 3.105 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm
học sinh Bỏ học và Không bỏ học (phân tích hồi qui logistic) 109
Hình 3.106 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm
học sinh Bỏ học và Không bỏ học (phân tích hồi qui logistic) „109
Hình 3.107 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
„110
Hình 3.108 Mối liên hệ giữa điểm trung bình cả năm lớp 10 của học sinh với nhóm
111
sinh có giới tính Nam va Nữ (phân tích hồi qui logistic)
học sinh có giới tinh Nam và Nữ (phân tích hồi qui logistic)
Hình 3.109 Mối liên hệ giữa điểm trung bình cả năm lớp 11 của học sinh với nhómhọc sinh có giới tính Nam và Nữ (phân tích hồi qui logistic) „112Hình 3.110 Mối liên hệ giữa điểm trung bình cả năm lớp 12 của học sinh với nhóm
học sinh có giới tính Nam và Nữ (phân tích hỏi qui logistic) 112
Hình 3.111 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học
„113
Hình 3.112 Mối liên hệ giữa điểm trung bình cả năm lớp 10 của học sinh với nhóm
„114
sinh thuộc khu vực Thị tran và Xã (phân tích hồi qui logistic)
học sinh thuộc khu vực Thị tran và Xã (phân tích hồi qui logistic)
Hình 3.113 Mối liên hệ giữa điểm trung bình cả năm lớp 11 của học sinh với nhóm
học sinh thuộc khu vực Thị trấn và Xã (phân tích hồi qui logistic) „115
Hình 3.114 Mối liên hệ giữa điểm trung bình cả năm lớp 12 của học sinh với nhóm
„115
n hệ giữa bỏ học của học sinh với các biến số Điểm trung bình
học sinh thuộc khu vực Thị trấn và Xã (phân tích hồi qui logistic)
Trang 19Danh mục các hình vẽ, đồ thị
Hình 3.118 Mối liên hệ giữa bỏ học của học sinh lớp 10 với các biến số Điểm trung
bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD
120
Hình 3.119 Mối liên hệ giữa bỏ học của học sinh lớp 11 với các biên sô Điêm trung
bình các môn Sinh, Tin học, Van, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD .121
bằng cách dùng lệnh summary
Hình 3.120 Mối liên hệ giữa bỏ học của học sinh lớp 11 với các biến số Điểm trung
bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD.
bằng cách dùng lệnh summary
Hình 3.121 Mối liên hệ giữa giới tính của học sinh với các biến sé Điểm trung
bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD 123
Hình 3.122 Mối liên hệ giữa giới tính của học sinh với các biến sé Điểm trung bình
các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD bằng
cách dùng lệnh summary 124
Hình 3.123 Mối liên hệ giữa giới tính của hoc sinh lớp 10 với các biến số Điểm
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
125
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD bằng c h dùng lệnh sưzunary 126 Hình 3.125 Môi liên hệ giữa giới tính của học sinh lớp 11 với các biên sô Điêm
127
ệ giữa giới tính của học sinh lớp 11 với các biên số Diém
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD bằng cách dùng lệnh summary l28
Trang 20Danh mục các hình vẽ, đồ thị
Hình 3.128 Mối liên hệ giữa giới tính của học sinh lớp 12 với các biến sé Điểm
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD bằng cách dùng lệnh summary
Hình 3.130 Mối liên hệ giữa khu vực của hoc sinh với các biến số Điểm trung bình
các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD 132
Hình 3.131 Mối liên hệ giữa khu vực của học sinh với các biến số Điểm trung bìnhcác môn Sinh, Tin học, Van, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD bằng
cách dùng lệnh summary 133
Hình 3.132 Mối liên hệ giữa khu vực của học sinh lớp 10 với các biên sô Điêm
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
134
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD bằng cách dùng lệnh summary 136Hình 3.134 Mối liên hệ giữa khu vực của học sinh lớp 11 với các biên số Điêm
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
137
GDCD bằng cách dùng lệnh sưnnary l138
lệ giữa khu vực của học sinh lớp 11 với các biên sô Điêm
trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và
GDCD bằng cách dùng lệnh summary 2538
Hinh 3.138 Thống kê số lượng học sinh bỏ học theo Xã/Thị trấn
Hình 3.139 Tìm và thêm một biến vào số cụm toàn trường
Trang 21Thống kê chất lượng môn Toán theo giáo vién
Tìm và thêm một biến vào số cụm giáo viên toánThống kê chất lượng môn Toán lớp 10 theo giáo viên
Tìm và thêm một biến vào số cụm giáo viên toán lớp 10Thống kê chất lượng môn Toán lớp 11 theo giáo viên
Tim và thêm một biến vào số cụm giáo viên toán lớp 11Thống kê chất lượng môn Toán lớp 12 theo giáo viên
Tim và thêm một biến vào số cụm giáo viên toán lớp 12Thống kê chất lượng môn Tiếng Anh theo giáo viên
Tìm và thêm một biến vào số cụm giáo viên Anh
Trang 22Mo đầu
MỞ ĐẦU
Ngày nay, gắn liền với là sự phát triển của Internet thì các thành tựu của tin họccũng được áp dụng ở hầu hết các lĩnh vực của xã hội và đem lại nhiều hiệu quả tolớn Mục tiêu của tin học là khai thác thông tin một cách hiệu quả nhất nhằm phục vụcho mọi mặt hoạt động của còn người Cùng với mục tiêu phát triển xã sự gia
tăng dữ liệu không ngừng trên toàn cầu Dữ liệu được sinh ra từng phút, từng giây,
có ở khắp mọi nơi và chúng có thé chỉ cho ta thấy nhiều điều Tuy nhiên, làm thé nào
để dữ liệu trở nên có ý nghĩa lại trở thành một vấn dé không nhỏ đối với những cá
nhân, tổ chức sở hữu những khối dữ liệu này
Với quy mô dữ liệu đa dạng, phong phú, dữ liệu có thể phản ánh thông tin từnhiều khía cạnh của đời sống xã hội hiện đại Những cuốn sách, tài liệu giấy đã được
số hóa thành ebook, các file tài liệu số với nhiều định danh như txt, csv, XỈSX, spss
Ké ca những mối quan hệ bạn bè, sự ưa thích “like” cũng được dit liệu hóa qua các
mạng xã hội như Facebook, Zalo, Những loại dữ liệu này được sử dụng đê phân
tích, dựa trên những kiến thức toán học được vay mượn từ kiến thức thống kê
Phân tích dữ liệu (Data analysis) là khoa học khám phá dữ liệu thô nhằm rút rakết luận từ những dữ liệu ấy Phân tích dữ liệu được sử dụng trong nhiều lĩnh VỰCnhư: Công nghiệp, y tế, giáo dục đề hỗ trợ các công ty, tổ chức, cơ quan đưa ra quyếtđịnh phù hợp hơn Quá trình phân tích dữ liệu bao gồm các bước kiểm định, làm sạch,
chuyên đôi, mô hình hóa và phân tích dữ liệu với mục đích tìm thông tin hữu ích, cho
thấy kết luận hoặc hỗ trợ ra quyết định dựa trên bộ dữ liệu hiện có
Van đề nghiên cứu và ứng dụng phân tích dữ liệu vào các lĩnh vực rat phd biến
và phát triển trên thé giới Tuy nhiên, tại Việt Nam, van đề nay còn chưa được ứng
dụng rộng rãi Do đó, mục tiêu của khóa luận là ứng dụng phương pháp phân tích dữ
liệu dựa trên kết quả học tập của học sinh để phân tích các yếu tố ảnh hưởng đến kết
quả học tập của học sinh tại trường THPT Gò Quao, huyện Gò Quao, tỉnh Kiên Giang.
Trang 23Chương 1 Tổng quan
Chương 1 TONG QUAN
1.1 Giới thiệu
Trường THPT Gò Quao, huyện Gò Quao, tỉnh Kiên Giang được thành lập từ
năm 1978 Từ ngày thành lập đến nay, trường không ngừng phát triển và trở thành
một trường trọng điểm của huyện Gò Quao, tỉnh Kiên Giang (huyện Gò Quao còn cóthêm bốn trường có cấp THPT là trường THPT Định An, THPT Vĩnh Thắng, THPT
Thới Quản và THPT Vĩnh Hòa Hưng Bắc) Do đó, với uy tín và thương hiệu của nhà
trường, trường THPT Gò Quao nhận được rất nhiều sự quan tâm của phụ huynh và
học sinh.
Bên cạnh đó với vai trò là một trường điểm của huyện, nhà trường đã luônkhông ngừng tìm kiếm một công cụ mang tính khoa học dé làm cơ sở trong việc nângcao chất lượng đào tạo của nhà trường
Tuy là một trường điểm trong huyện nhưng nhà trường vẫn còn tồn tại không
ít khuyết điểm như: Số lượng học sinh bỏ học khá nhiều đặc biệt là học sinh lớp 10
(lớp 10 có 133 em học sinh bỏ học, lớp 11 có 58 em bỏ học, lớp 12 rất tốt không có
học sinh bỏ học), chưa có biện pháp dạy phụ đạo (miễn phi) cho các em học sinh,
Xuất phát từ nhu cầu thực tế và cấp thiết này, em đã chọn dé tài phân tích các
yếu tố ảnh hưởng đến kết quả học tập của học sinh tại trường THPT Gò Quao, tỉnh
Kiên Giang, với mong muốn là thông qua đề tài này có thể góp thêm được một giảipháp giúp nhà trường có thé nâng cao hơn nửa chất lượng và hiệu quả dao tạo củanhà trường để không phụ sự tin tưởng của các bậc phụ huynh khi gửi con em củamình vào học và cũng thật sự xứng đáng với vị thế là một trường trọng điểm của
huyện.
1.2 Mục tiêu, đối tượng và phạm vị nghiên cứu
1.2.1 Mục tiêu nghiên cứu
Nghiên cứu hệ thống hóa các kỹ thuật dùng đề phân tích dữ liệu, lựa chọn cácphương pháp phù hợp nhằm giải quyết bài toán phân tích các yếu tố ảnh hưởng đếnkết quả học tập của học sinh Bai toán nhận đầu vào là tập dữ liệu về thông tin của
Trang 24Chương 1 Tổng quan
học sinh trong quá khứ, và có đầu ra là các yếu tố ảnh hưởng đến kết quả học tập của
học sinh trong tương lai.
Tir mục tiêu trên, luận văn tập trung nghiên cứu các van dé sau:
- Nghiên cứu tổng quan các phương pháp và kỹ thuật phân tích dữ liệu, lựachọn phương pháp phân tích thích hợp đề tiến hành phân tích trên tập dữ liệu đã thu
thập được.
- Tiến hành thực nghiệm phân tích dữ liệu, sau đó đưa ra được các yếu tố ảnhhưởng đến kết quả học tập của học sinh tại trường THPT Gò Quao, tỉnh Kiên Giang
Từ đó đề ra giải pháp và tham mưu giúp nhà trường có kế hoạch hỗ trợ học sinh tốt
hơn trong quá trình học tập Nhằm hoàn thiện và nâng cao chất lượng day và học tại
nhà trường.
1.2.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận văn là các yếu tổ liên quan đến học sinh mà có
thể ảnh hưởng đến kết quả học tập của học sinh như: học lớp mấy, họ tên học sinh,
điểm trung bình các môn học, điểm trung bình cả năm học, nơi ở của học sinh, Tất
cả những thông tin này cung cấp từ trường THPT Gò Quao, tỉnh Kiên Giang
Dữ liệu bao gồm: Thông tin cá nhân và kết quả học tập cuối năm lớp 10, lớp
11, lớp 12 (từ năm 2012 đến năm 2021) của tat cả các em học sinh trong nhà trường
1.2.3 Phạm vi nghiên cứu
Phân tích tất cả các yếu tố có thể ảnh hưởng đến kết quả học tập của học sinh
tại trường THPT Gò Quao, tỉnh Kiên Giang Thông qua kết quả phân tích này mà nhàtrường có thể đưa ra quyết định đúng đắn hơn quá trình giảng dạy và giáo dục của
nhà trường.
1.3 Khả năng mở rộng
Kết quả nghiên cứu trong khóa luận này có thể được áp dụng cho các trườngTHPT khác tại địa bàn Gò Quao, tỉnh Kiên Giang Ngoài ra, cũng có thé xem kết quả
của khóa luận giống như một tài liệu tham khảo đề nâng cao chất lượng giáo dục
1.4 Các nghiên cứu liên quan
Phân tích dữ liệu là quá trình đánh giá dữ liệu bằng các công cụ phân tích hoặcthống kê Công việc tập trung vào việc thu thập, khai thác, quản lý và xử lý bộ dữ
Trang 25Chương 1 Tổng quan
liệu, từ đó đưa ra các nhận định, dự đoán xu hướng hoạt động của tương lai Đây còn
là một công việc có ý nghĩa và có tầm quan trọng lớn, nó còn được sử dụng bởi các
doanh nghiệp nhỏ, công ty bán lẻ, trong giáo dục, trong y học và du lịch.
Ở Việt Nam có các công trình nghiên cứu liên quan đến phân tích dữ liệu cụthể như sau:
“Phân tích tác động của các nhân tố đến hoạt động sản xuất kinh doanh của
doanh nghiệp nhỏ và vừa tỉnh Hải Dương” của hai tác giả Nguyễn Văn Duy và Phạm
Van Hùng [2] — Nghiên cứu sinh Khoa Kinh tế và Phát triển Nông thôn, Học viênNông nghiệp Việt Nam (2017) Nhằm xác định và đánh giá được tác động của cácnhân tố có thé ảnh hưởng đến tình hình sản xuất kinh doanh của các doanh nghiệp
nhỏ và vừa trên địa bàn tỉnh Hải Dương Nghiên cứu này đã thực hiện khảo sát trên
103 doanh nghiệp nhỏ và vừa trên địa bàn tỉnh Hải Dương Kết quả nghiên cứu cho
thấy có ba nhân tố ảnh hưởng đến hoạt động sản xuất kinh doanh là: Nội lực củadoanh nghiệp, vốn và chính sách hồ trợ
“Phân tích các yếu tố ảnh hưởng đến tiêu thụ điện năng của hộ gia đình tạithành phố Hà Nội” tác giả Đỗ Thị Hiệp [3] - Trường Đại học Điện Lực (2016).Nghiên cứu này được thực hiện dựa trên kết quả khảo sát của 419 hộ gia đình và nộidung nghiên cứu chỉ tập trung vào ba nhân tố đó là sự tác động của giá điện bìnhquân, số thành viên trong một hộ gia đình và thu nhập của hộ gia đình có ảnh hưởng
như thế nào đến lượng điện tiêu thụ của hộ gia đình ở thành phố Hà Nội Kết quả
nghiên cứu như sau: Khi số thành viên của hộ gia đình tăng 1 người thì tiêu thụ điệnnăng của hộ gia đình tăng từ 25.665 kWh đến 34.875 kWh Khi giá điện bình quântăng I déng/kWh thì tiêu thụ điện năng tăng từ 0.186kWh đến 0.275 kWh Khi thunhập của hộ gia đình tăng thêm | triệu đồng thì tiêu thụ điện năng tăng từ 6.900 kWhđến 34.878 kWh
“Phân tích tác động của các nhân tố ảnh hưởng đến mức độ hạnh phúc của
người dân Việt Nam” của hai tác giả ThS Hoàng Thị Thanh Tâm và cử nhân Đinh
Thị Hạnh [4] - Trường Đại học Kinh Tế Quốc Dân (2016) Nghiên cứu này được
thực hiện khảo sát trên 3311 hộ gia đình thuộc 12 tỉnh: Hà Tây, Lào Cai, Phú Thọ, Lai Châu, Điện Biên, Nghệ An, Quảng Nam, Khánh Hòa, Dak Lak, Dak Nông, Lam
Trang 26Chương 1 Tổng quan
Đồng, Long An Kết quả nghiên cứu đã chỉ ra các yếu tố có thể ảnh hưởng đến “mức
độ hạnh phúc” của người dân Việt Nam là: “thu nhập”, “chênh lệch thu nhập”, “tình
trạng sức khỏe”, “nhân tố bản thân”, “mức độ đáp ứng về giáo dục của địa phương”,
“tham gia chính trị”, “khu vực”.
“Phân tích các nhân tố ảnh hưởng đến kết quả học tập của sinh viên” của nhómtác giả Phan Thị Hồng Thao, Nguyễn Huyền Trang và Nguyễn Thu Hà [5] - Học việnNgân hàng-Phân hiệu Bắc Ninh Nghiên cứu này được thực hiện khảo sát với 400sinh viên tại Học viên Ngân hàng- Phân viện Bắc Ninh Kết quả của nghiên cứu này
nhằm đánh giá các nhân té từ bản thân sinh viên, nhà trường va gia đình- xã hội anh
hưởng đến kết quả học tập của sinh viên tại Học viện Ngân hàng - Phân viện BắcNinh, nghiên cứu chỉ ra rằng có 3 nhân tố ảnh hưởng đến kết quả học tập của sinh
viên gồm: phương pháp giảng dạy tích cực của giảng viên, phương pháp học tập ngoài
giờ lên lớp và cơ sở vật chất của nhà trường
“Phân tích các nhân tổ tác động đến sự hứng thú trong học tập của sinh viên”của nhóm tác giả Lưu Chí Danh, Nguyễn Thị Như Huyền, Đỗ Nguyễn Như Quỳnh
và Võ Thị Mỹ Diệu [6]- Trường Đại học Văn Lang (2021) Nghiên cứu này được
tiến hành khảo sát tại trường Đại học Văn Lang với hơn 460 sinh viên của trường.Kết quả của nghiên cứu này cho thấy có 6 nhân té tác động đến sự hứng thú trong
học tập của sinh viên Trường Đại học Văn Lang, đó là: Môi trường học tập, Phương
pháp giảng dạy, Nhận thức của sinh viên, Ảnh hưởng từ gia đình, Chất lượng giảng
viên và Chương trình đào tạo.
¡ lòng của du khách khi đến du lịch
ở Kiên Giang” của hai tác giả là: Lưu Thanh Đức Hải và Nguyễn Hồng Giang [7] —
“Phân tích các nhân tố ảnh hưởng đến sự
Trường Đại học Cần Thơ (2011) Nghiên cứu này dựa trên kết quả khảo sát 295 dukhách, nhằm phân tích các nhân tố ảnh hưởng đến sự hài lòng của du khách về chấtlượng dịch vụ du lịch ở Kiên Giang Kết quả nghiên cứu đã tìm ra 5 nhóm yếu tố cóthể ảnh hưởng đến sự hài lòng du khách gồm: “sự tiện nghi của cơ sở lưu trú”,
“phương tiện vận chuyền tốt”, “thái độ hướng dẫn viên”, “ngoại hình của hướng dẫnviên” và “hạ tầng cơ sở phục vụ du lịch”
Trang 27Chương 1 Tổng quan
“Tóm lại các công trình nghiên cứu trên đã sử dụng các phương pháp phân tích,
so sánh trên dữ liệu khác nhau và các nghiên cứu này được áp dụng trong các lĩnh
vực khác nhau của xã hội Tuy nhiên đối tượng nghiêu cứu lại không giống nhau, bởi
vì đối tượng nghiên cứu trong khóa luận này là học sinh THPT (cụ thể là học sinh tạitrường THPT Gò Quao, tỉnh Kiên Giang) Như vậy kết quả phân tích cũng sẽ khác
so với Sinh viên Đại học, Doanh nghiệp, hộ gia đình, Bên cạnh đó do các đặc thù
khác như tỉ lệ giới tính, vị trí địa lý, cấp độ trường học (trường huyện, trường tỉnh,trường trọng điểm, ) và điều kiện CSVC, nội quy của từng trường nên các nghiên
cứu trên chỉ có tính tham khảo Đây cũng chính là động lực dé em thực hiện dé tài
này.
Trang 28Chương 2 Cơ sở lý thuyết
Chương 2 CƠ SỞ LÝ THUYET
2.1 Thu thập và xử lý dữ liệu
2.1.1 Thu thập dữ liệu
Dữ liệu là kết quả của quá trình ghi chép liên tục thông tin phan ánh hoạt động
của con người, các quá trình tự nhién,
Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc pháthiện, khám phá thông tin dn chứa trong đó Một bộ dit liệu được gọi là tốt nếu nó thỏamãn sáu tính chất sau:
- Tính chính xác (Accuracy): Dữ liệu thu thập được phải có giá trị đúng với
thực tế
- Tính đầy đủ (Completeness): Dữ liệu phải điền đầy đủ các giá trị, không
được bỏ trồng
- Tính nhất quán (Consistency): Dữ liệu thu thập được phải đảm bảo nhất quán
về mặt giá trị và logic, không có sự trùng lặp (duplicate)
- Tính kịp thời (Timeliness): Dữ liệu phản ánh đúng hiện thực ngay tại thời
điểm hiện tại
- Tinh tin cậy (Believability): Dữ liệu được tin cậy bởi người dùng.
- Tính dễ hiéu (Interpretability): Dữ liệu “dé hiểu” đối với người dùng
2.1.2 Tiền xứ lý dữ liệu
Trên thực tế dữ liệu thu thập được lại rất đa dạng và phức tạp nên rất khó đápứng 6 tính chất trên (đặc biệt là tính chính xác, tính đầy đủ và tính nhất quán) do nhiều
nguyên nhân khác nhau như:
- Nguyên nhân khách quan: Do sự có hệ thống, do hỏng hóc phan cứng, sự cốmắt điện,
- Nguyên nhân chủ quan: Do sai sót trong quá trình nhập liệu, do người dùng
nhập dữ liệu ảo, dit liệu gia (fake data),
Do vậy một bộ dữ liệu sau khi thu thập được cần phải trãi qua giai đoạn tiền
xử lý dữ liệu nhằm mục đích nâng cao chất lượng cho bộ dữ liệu, góp phần tạo ra dữ
liệu “sạch” phục vụ quá trình phân tích dữ liệu.
Trang 29Chương 2 Cơ sở lý thuyết
Pattern Evaluation, `
Presentati 0w Z
Data y7 Patterns
Task-relevant Data ấData Warehouse Aba ranbformation
Trang 30Chương 2 Cơ sở lý thuyết
2.2 Hệ số tương quan
Hệ số tương quan (r) (tiếng Anh: Correlation Coefficient) là một chỉ số thống
kẻ đo lường mối liên hệ tương quan giữa hai biến số (giữa biến x và y) Hệ số tươngquan có giá trị từ -1 đến 1 Hệ số tương quan bằng 0 (hay gan 0) có nghĩa là hai biến
số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là haibiến số có một mối liên hệ tuyệt đối Nếu giá trị của hệ số tương quan là âm (r <0) cónghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ
số tương quan là đương (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x
giảm cao thì y cũng giảm theo.
Thực ra có nhiều hệ số tương quan trong thống kê, nhưng trong phạm vi đề tàinày tôi sẽ trình bày 2 hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r,
và Spearman ø.
2.2.1 Hệ số tương quan Pearson
Cho hai biến số x và y từ ø mẫu, hệ số tương quan Pearson được ước tính bằng
công thức sau đây:
Trong đó, xà y là giá trị trung bình của biến số x và y.
R ước tính hệ số tương quan Pearson bằng hàm cor.test
2.2.2 Hệ số tương quan Spearman ø
Hệ số tương quan Spearman, một phương pháp phân tích phi tham số Hệ sốnày được ước tính bằng cách biến đổi hai biến số x và y thành thứ bậc (rank), và xem
độ tương quan giữa hai dãy số bậc Do đó, hệ số còn có tên tiếng Anh là Spearmans
Trang 31Chương 2 Cơ sở lý thuyết
Các thống kê cho thấy rằng có khoảng 80% kết quả phân tích được dưới dạng
phân tích mô tả Đây là dạng phân tích có giá trị thấp nhất, chỉ cần yêu cầu kỹ năngphân tích tương đối cơ bản Phân tích mô tả được thực hiện để trả lời các sự kiện đãxảy ra, các câu hỏi mẫu để phân tích mô tả có dạng như sau:
+ Kết quả học tập cả năm lớp 12 của học sinh được phân bố như thế nào?
+ DTB cả năm được phân bố theo từng nhóm (học lực, dân tộc, giới tính) cụ
thể như thế nào?
Phân tích mô tả thường được thực hiện thông qua báo cáo hoặc dưới dạng đồ
thị hoặc biểu đô
2.3.2 Phân tích chan đoán
Phân tích chân đoán nhằm xác định nguyên nhân của hiện tượng xảy ra trong
quá khứ bằng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện Các dạng
câu hỏi mẫu như:
+ Tại sao học sinh khối 10 bỏ học cao hơn học sinh khối 11
+ Tại sao học sinh khối 10 ở thị trấn có điểm trung bình cao hơn học sinh ở
Phân tích chan đoán cung cấp nhiều thông tin giá tri hơn phân tích mô tả, dovậy nó yêu cầu kỹ năng phân tích cao hơn Kết qua phân tích chẩn đoán thông quacác công cụ trực quan giúp người dùng xác định được xu thế Các truy vấn dữ liệutrong phân tích chân đoán cũng phức tạp hơn so với phân tích mô tả, nó được thựchiện trên dữ liệu đa chiều được lưu giữ trong các hệ thống phân tích
2.3.3 Phân tích dự báo (dự đoán)
Phân tích dự đoán dùng để xác định kết quả của một sự kiện nào đó sẽ xảy ra
trong tương lai Nói một cách chính xác hơn, phân tích dự đoán là mô hình dựa vào
sự kiện đã xảy ra trong quá khứ với một điều kiện cụ thể dé xác định sự kiện tương
tự xảy ra trong tương lai Nếu các điều kiện cơ bản này thay đổi thì mô hình dự báo
phải được cập nhật Các câu hỏi mẫu cho phân tích dự báo có dang what-if, ví dụ:
+ Tỷ lệ bỏ học của học sinh khối 10 có cao hơn học sinh khối 11 không?
+ Nếu học sinh đã học xong lớp 10 và lớp 11 thì tỷ lệ bỏ học ở lớp 12 như thế
nào?
Trang 32Chương 2 Cơ sở lý thuyết
Loại phân tích này liên quan đến việc sử dụng các bộ dữ liệu lớn và các kỹ
thuật phân tích dữ liệu khác nhau Nó cung cấp thông tin có giá tri hơn và đòi hỏi một
bộ kỹ năng nâng cao hơn so với phân tích mô tả và phân tích chân đoán Các công cụthường sử dụng cho phân tích dự đoán phức tạp, trừu tượng tuy nhiên có thé cung cấp
giao diện thân thiện với người dùng.
2.3.4 Phân tích đề xuất
Phân tích đề xuất được xây dựng dựa trên kết quả của phân tích dự báo bằngcách liệt kê các hành động cần phải thực hiện Phân tích này không chỉ tập trung vàoviệc lựa chọn hành động nào là tốt nhất mà còn trả lời câu hỏi tại sao? Do đó, loạiphân tích này thường được sử dụng để đạt được các lợi thế và giảm thiểu các rủi ro
của cơ quan Các dạng câu hỏi mẫu cho loại phân tích này như:
+ Trong các điêm tổng kết môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ,
QPAN và GDCD thì điểm tổng kết môn nào có ảnh hưởng nhiều nhất đến nguy co
bỏ học của học sinh?
+ Trong các điểm tổng kết môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ,QPAN và GDCD thì điểm tổng kết môn nào có ảnh hưởng nhiều nhất đến giới tính
của học sinh?
2.4 Các kỹ thuật phân tích dữ liệu
Trong thời dai bing nổ dữ liệu như hiện nay bất chấp khối lượng dữ liệu khổng
16 mà chúng ta tạo ra hàng ngày, chỉ 0,5% thực sự được phân tích và sử dụng dé khám
phá M;ặc dù điều đó có vẻ không nhiều, nhưng xét về lượng thông tin kỹ thuật số,
thì nửa phần trăm vẫn chiếm một lượng lớn dữ liệu Có một số phương pháp và kỹthuật để thực hiện phân tích dữ liệu tùy thuộc vào mục đích của việc phân tích Tất
cả các phương pháp phân tích dữ liệu tuy khác nhau nhưng chủ yếu đều dựa trên hailĩnh vực cốt lõi: phương pháp định lượng và phương pháp định tính trong nghiên cứu.Sau đây chúng ta xem xét một số kỹ thuật phân tích
2.4.1 Kỹ thuật phân cụm (Clustering)
Phân cụm là việc mô tả chung để tìm ra các đặc điểm giống nhau của dữ liệu.Các cụm có thể tách riêng nhau hoặc phân cấp hoặc gói lên nhau Có nghĩa là một dữ
liệu có thê vừa thuộc cụm này, vừa thuộc cụm kia Các ứng dụng phân tích dữ liệu
Trang 33Chương 2 Cơ sở lý thuyết
có nhiệm vụ phân cụm như: xác định các giáo viên cùng giảng dạy một bộ môn có
những đặc điểm gì chung, các em học sinh thuộc nhóm bỏ học có đặc điểm chung gì?
Kỹ thuật phân cụm không có dữ liệu huấn luyện Đối tượng được phân cum
dựa trên các thuộc tính tương đồng của dữ liệu
Dữ liệu trước khi áp dung clustering Cỡ liệu sau khi áp dụng clustering
Hình 2.3 Minh họa phương pháp phân cụm (clustering)
2.4.2 Hồi qui (Regression)
Phân tích hồi quy được sử dụng đê mô hình hóa mối quan hệ giữa một biến
độc lập và biến phụ thuộc Phương pháp này cho phép chúng ta thu được những kết
quả tốt nhất về mối quan hệ chân thực giữa các biến số Từ phương trình ước lượng
này, có thé dự báo về giá trị của biến phụ thuộc (chưa biết trước giá trị) dựa vào giátrị cho trước của biến độc lập (đã biết trước giá trị)
Điểm trung bình môn Toán °
Điểm trung bình cả năm
Hình 2.4 Minh họa hồi qui tuyến tính đơn biến
Có rất nhiều ứng dụng phân tích dữ liệu với nhiệm vụ hồi quy, ví dụ như dự
đoán số lượng biomass xuất hiện trong rừng biết các phép do vi sóng từ xa, đánh giá
Trang 34Chương 2 Cơ sở lý thuyết
nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chỉ tiêu quảng cáo, dự đoán theo
thời gian với các biến đầu vào là các giá trị của mẫu dự đoán trong quá khứ, dự đoánmối quan hệ giữa điểm trung bình của một môn học bất kỳ với điểm trung bình cả
năm học của học sinh
Giả sử ta thấy dé liệu được phân bố như trên hình 2.4 Mục tiêu của chúng ta
là xây dựng được một đường hồi quy như trong hình 2.4 Nghĩa là nếu có thêm mộtđiểm dữ liệu mới thì ta có thể kết luận điểm dữ liệu này nằm trên, nằm gần hay cách
xa đường hồi quy
2.4.3 Hồi qui tuyến tính đơn gián
Mô hình hồi qui tuyến tính với một dự báo đơn có thể được biểu diễn bằng
phương trình:
y, = at Bx, +6;
Trong đó: «1a chặn (intercept, tức giá trị lúc x; = 0), và Ø là độ dốc (slope haygradient) Trong thực tẾ, ø va Ø là hai thông số (parameter, còn gọi là regressioncoefficient hay hệ số hồi qui), và £ là một biến số theo luật phần phối chuẩn với trung
bình 0 và phương sai o°.
Các thông số a, ø và ø? phải được ước tính từ dữ liệu Phương pháp để ước
tính các thông số này là phương pháp bình phương nhỏ nhất (least squares method)
Như tên gọi, phương pháp bình phương nhỏ nhất tìm giá trị @, sao cho:
Y[y,-(@+ Bx] nhỏ nhất.
‘al
2.4.4 Hồi qui tuyến tính đa biến
Mô hình hồi qui tuyến tính đa biến đề cập đến hồi qui tuyến tính với hai hoặcnhiều biến dự đoán x(x¿, x2, đến xx) và mỗi biến có một thông số ø,(j = 1, 2 , k)
cần phải ước tính Khi sử dụng nhiều dự đoán, đường hồi quy không thé được hiểnthị trong không gian hai chiều Tuy nhiên, dòng này có thể được tính toán bằng cách
mở rộng phương trình cho hồi quy tuyến tính dự đoán đơn đề bao gồm các tham sốcho từng biến dự đoán
vị =#+ BA, + ByXy bot Xu +,
Trang 35Chương 2 Cơ sở lý thuyết
Cụ thể: vị =ứ+ BX, + Boxy + + Bry +s,
3) = At By +; boot BeXig + Ey
Vs = At Bx + Body tot Beds +
y„ =đ+ BX, + ByXy, + + BXy, +E,
Trong hồi qui tuyến tính đa biến, tham số hồi quy được gọi là hệ số Khi xây
dựng một mô hình hoi quy tuyén tính đa biến, thuật toán tính toán một hệ số cho từng
biến dự báo được sử dụng bởi mô hình
2.4.5 Hồi qui logistic
Cho một tần số biến cố x ghi nhận từ m đối tượng, xác suất của biến cố đó là:
có được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trên xác suất biến có
không xảy ra:
odds=—P—
p-l
Ham logit của odds được định nghĩa như sau:
A P logit = log] ——git(p) <( pa }
Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục và theo dang sau:
0.0 02 04 p 06 08 10
Trang 36Chương 2 Cơ sở lý thuyết
2.5 Phương pháp kiểm định trị số P
Trị số P (P value) có lẽ là một chỉ số phổ biến nhất trong phân tích dữ liệu và
nghiên cứu khoa học.
Khi tiến hành kiểm tra giả thuyết để xác nhận độ chính xác của một kết luận,nhà nghiên cứu đưa ra hai giả thuyết - gid (huyết không (Ho) và gid thuyết thaythé (Mi)
Khi nhà nghiên cứu sử dung phương pháp kiểm định trị số P, họ luôn muốn
bác bỏ giả thuyết không
> Giá tri p-value càng nhỏ (p-value < a) thì giả thuyết không càng nên bị bác
bỏ và giả thuyết thay thế càng đáng tin cậy
> Giá trị p-value càng lớn (p-value> ø) thì cơ sở đề bác bỏ giả thuyết khôngcàng yếu và kiểm định không có kết luận
Giá trị p-value được so sánh với mức ý nghĩa thống kê (a), mà nhà nghiên cứu
đã chọn dé đánh giá tính ngẫu nhiên của kết quả
Thống kê kiểm định trị số P thường theo phân phối chuẩn khi cỡ mẫu sử dụngcàng lớn Các nhà nghiên cứu thường sẽ chọn mức a bé hơn hoặc bằng 5%, hay độ
tin cậy 95% hoặc hơn.
Nói cách khác, giá trị p-value nhỏ hon a = 5% có nghĩa là có hơn 95% khả
năng kết quả của kiểm định giả thuyết là không phải do ngẫu nhiên mà có, do đó làm
kết quả đáng tin cậy hon
2.5.3 Giả thiết vô hiệu (H0)
Trang 37Chương 2 Cơ sở lý thuyết
HO là một phát biểu (dang thức hoặc bat đẳng thức) liên quan đến tham số của
tổng thể Giả thiết vô hiệu là giả thiết ngược với giả thiết chính Thường người tamuốn bác bỏ giả thiết vô hiệu
Ví dụ: H0: Không có sự khác biệt giữa hai nhóm, không có mối tương quangiữa X và Y H0 thường được giả định đúng trong thủ tục kiểm định giả thuyết Và
người ta sẽ có tìm cách dé chứng minh H0 sai
2.5.4 Gia thuyết khác, giá thiết đáo (Ha)
Ha là phát biểu ngược với HO Ha được kết luận là đúng nếu H0 bị bác bỏ, nhànghiên cứu mong muốn ủng hộ Ha và nghỉ ngờ H0 Nhiệm vụ của tắt cả kiểm địnhgiả thuyết là bác bỏ H0 hay không bác bỏ H0
2.6 Kiểm định giả thiết
Mô hình Kiểm định giả thuyết (test of hypothesis) đây là một phương phápđược phát triển bởi Jerzy Neyman (1894 - 1981) một nhà toán học xuất sắc gốc BaLan và Egon Pearson (1895 - 1980) một nhà thống kê học (con của giáo sư Karl
Pearson, cha đẻ của If thuyết Chi-square và hệ số tương quan) Hai ông nghĩ rằng
thống kê học là một phương pháp hay cơ chế đề hướng dẫn chúng ta đi đến một quyếtđịnh đúng về lâu về dài
Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson cóthể thực hiện qua các bước như sau:
> Bước 1: Phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (HO)
> Bước 2: Quyết định mức độ a và b có thé chấp nhận được và ước tính cỡ
mẫu cần giả thuyết, a là xác suất bác bỏ giả thuyết HI nhưng đó là giả thuyết đúng,
b là xác suất bác bỏ H0 trong khi H0 đúng
> Bước 3: Thu thập dữ liệu liên quan đến giả thuyết
> Bước 4: Nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết HO thì chấp nhậngiả thuyết H1; nếu không thì chấp nhận giả thuyết HO Chú ý rằng “chấp nhận” một
giả thuyết không có nghĩa là chúng ta tin vào giả thuyết đó, mà chỉ có nghĩa là chúng
ta hành động với điều kiện đó là giả thuyết đúng
Trang 38Chương 2 Cơ sở lý thuyết
Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để
chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai Chính vì thế mà
ngày nay chúng ta thường chọn ø = 5% và b = 10% đến 20%
2.7 Phân tích dữ liệu bằng biểu đồ
Biểu đồ là một phương tiện phản ảnh dữ liệu rt quan trọng Một biểu dé nếu
được soạn tốt có thể đi vào lịch sử khoa học, hay ít ra cũng xuất hiện vĩnh viễn trên
bài báo khoa học và sách giáo khoa Dé có một biểu đồ tốt, đòi hỏi người phân tích
phải đầu tư khá nhiều thời gian để suy nghĩ và soạn Mỗi loại biểu đồ có mục đíchriêng, và đòi hỏi phải suy nghĩ cần thận đề chọn biểu đồ thích hợp
Trang 39Chương 2 Cơ sở lý thuyết
2.7.1 Base plot system
Base plot system đây là hệ théng biểu đồ cơ bản trong R, được R hỗ trợ mặcđịnh Ý tưởng của hệ thống biểu đồ này cót lõi là sử dụng mô hình “artist’s palatte”:Đây là gói dé họa chứa các chức năng vẽ biéu đồ cho hệ thống “cơ sở” Các chứcthường dùng là: sử dụng các hàm biểu dé (plot, hist, boxplot, barplot, ) Ngoài ra,
có thé sử dụng các hàm dé thêm các chú thích cho biểu đồ: text, lines, axis, points
Base plot system có ưu điểm: Tiện lợi, trực quan và rất dễ tạo Nhược điểm:Không thé quay lại bước trước đó một khi đã vẽ biéu đồ; Rất khó giải thích cách tao
biểu đồ cho người khác (không có điểm chung dé có thé “kế thừa” lại biểu đồ vừa
tạo).
2.7.2 Ggplot2 plot system
ggplot2 là một package hỗ trợ rất mạnh trong R, gg là viết tắt của: Grammar
of Graphic Có thé xem ggplot2 là một “phần mềm” trong R, vì ggplot2 có các hamhoàn chỉnh dé xây dựng những loại biểu đồ có chất lượng cao Hệ thống này kết hợpđiểm mạnh của hệ thống base plot và lattice (base plot: Tạo biéu đồ dé dang, lattice:Goi hàm đơn dé vẽ một biểu đồ hoàn chỉnh)
Hệ thống này do Hadley Wickham tạo ra năm 2005 được phát triển dựa trêntriết lí của “The Grammar of Graphics” của Wilkinson Để sử dụng cần cai đặt gói
> data là dataframe trong R;
> aesthetic là các biến cần thiết dé vẽ va trang trí;
> geometric object là các đối tượng hình hay dạng biểu đồ;
> faceting dùng cho trường hợp nhiều biểu đồ;
Trang 40Chương 2 Cơ sở lý thuyết
2.8 Các phần mềm hỗ trợ phân tích dữ liệu
Các phần mềm hỗ trợ khai phá dữ liệu rất đa đạng, trong phạm vi luận văn này
chi dé cập tới một số phần mềm thông dụng, dang sử dụng rộng rãi Trên cơ sở đó,lựa chọn một phần mềm phù hợp và áp dụng trên tập dữ liệu mà ta chọn
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống
kê hoc Ross Ihaka va Robert Gentlan thuộc Trường đại học Auckland, New Zealand
phác hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R Sáng kiến nàyđược rất nhiều nhà thống kê học trên thế giới tán thành và tham gia vào việc phát
triển R Chủ trương của những người sáng tạo ra R là theo định hướng mở rộng (Open
Hinh 2.7 Giao dién R
Nói một cách ngắn gọn, R là một phần mềm hoàn toàn miễn phí, được sử dụngcho phân tích dữ liệu, thống kê và vẽ biểu đồ Thật ra, về bản chất, R là ngôn ngữ
máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn
giản, toán học giải trí (recreational mathatics), tính toán ma trận (matrix), đến các