1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Phân tích các yếu tố ảnh hưởng đến kết quả học tập của học sinh

166 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích các yếu tố ảnh hưởng đến kết quả học tập của học sinh
Tác giả Nguyễn Hiếu Lễ
Người hướng dẫn TS. Nguyễn Gia Tuấn Anh
Trường học Đại học Quốc gia TP Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 166
Dung lượng 82,85 MB

Nội dung

Phân tích mi liên hệ giữa giới tính của học sinh với các biên sô Điểm trung bình môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD nhằm tiên đoán giới tính của một học sinh t

Trang 1

ĐẠI HỌC QUÓC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số: 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYEN GIA TUẦN ANH

TP HO CHÍ MINH - NĂM 2022

Trang 2

Lời cam đoan

Tôi xin cam đoan các nội dung được trình bày trong luận văn này được xây

dựng và hoàn thành bằng chính quá trình nghiên cứu của bản thân và được sự hướngdẫn khoa học tận tình của TS Nguyễn Gia Tuấn Anh

Trong quá trình làm luận văn này, tôi đã tham khảo một số tài liệu từ nhiều

nguồn khác nhau, các nội dung tham khảo đều được trích dẫn rõ ràng Các nội dung

nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bắt kỳ hìnhthức nào trước đây Nếu có điều gì không trung thực, tôi xin chịu mọi hình thức ky

luật theo đúng quy định.

TP Hồ Chí Minh, tháng 3 năm 2022

Học viên

Nguyễn Hiếu Lễ

Trang 3

Lời cảm ơn

Trong quá trình thực hiện luận văn, em đã nhận được rất nhiều sự quan tâm giúp

đỡ và động viên từ các thầy cô trực tiếp giảng dạy lớp cao học Công nghệ thông tin

của trường Đại học Công nghệ Thông tin - Đại học Quốc Gia TP Hồ Chí Minh, quýthầy cô Phòng đào tạo Sau đại học của nhà trường đề hoàn thành luận văn tốt nghiệp

Đặc biệt, em xin gửi lời cám ơn chân thành nhất đến TS Nguyễn Gia Tuấn Anh,

người đã trực tiếp hướng dẫn em trong suốt quá trình thực hiện luận văn này Nhờ sựhướng dẫn và chỉ bảo tận tình của Thầy, em đã có được những kiến thức và kinh

nghiệm quý báu về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình

bày kết quả và hoàn thành luận văn thạc sĩ ngành Công nghệ Thông tin của mình

Cuối cùng em xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luôn bên

em động viên và khuyến khích em trong quá trình thực hiện dé tài nghiên cứu của

mình.

Mặc dù đã rất nỗ lực và cố gắng, nhưng luận văn này chắc chắn không tránhkhỏi những thiếu sót, em mong nhận được sự thông cảm, góp ý và tận tình chỉ bảo

của quý thầy cô và các bạn

Một lần nữa xin gửi đến tất cả mọi người lời cảm ơn chân thành nhất!

TP Hồ Chí Minh, tháng 3 năm 2022

Học viên

Nguyễn Hiếu Lễ

Trang 4

1.2 Mục tiêu, đối tượng và phạm vị nghiên cứu

1.2.1 Mục tiêu nghiên cứu

1.2.2 Đối tượng nghiên cứu

1.2.3 Phạm vi nghiên cứu

1.3 Khả năng mở rộng.

1.4 Các nghiên cứu liên quan

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Thu thập và xử lý dữ liệu

2.1.1 Thu thập dữ liệu

2.1.2 Tiền xử lý dữ liệu

2.2 Hệ số tương quan

2.2.1 Hệ số tương quan Pearson

2.2.2 Hệ số tương quan Spearman ø

2.3 Các loại hình phân tích dữ liéu

2.3.1 Phân tích mô tả

2.3.2 Phân tích chan đoán

2.3.3 Phân tích dự báo (dự đoán).

2.3.4 Phân tích đề xuất

2.4 Các kỹ thuật phân tích dữ liệu

2.4.1 Kỹ thuật phân cụm (Clustering)

2.4.2 Hồi qui (Regression)

Trang 5

Mục lục

2.4.3 Hồi qui tuyến tính đơn giản

2.4.4 Hồi qui tuyến tính đa biến

2.4.5 Hồi qui logistic

2.5 Phương pháp kiểm định trị số P

2.5.1 Khái niệm

2.5.2 Giá tri p-value

2.5.3 Giả thiết vô hiệu (H0)

2.5.4 Giả thuyết khác, giả thiết đảo (Ha),

2.6 Kiểm định giả thiết

2.7 Phân tích dữ liệu bằng biéu đô

2.7.1 Base plot system

2.7.2 Ggplot2 plot system

2.8 Các phần mềm hỗ trợ phân tích dữ liệu

2.8.1 Phân tích số liệu bằng phần mềm R

2.8.1.1 Giới thiệu về R2.8.1.2 Ưu điểm của R2.8.1.3 Giới thiệu về Rstudio

2.8.1.4 Giới thiệu về SPSS (Statistical Product and Services Solutions) 39

Chương 3 KET QUA PHAN TÍCH

3.1 Phát biểu bài toán thực tế

Trang 6

Mục lục

3.3.2 Phân tích điểm trung bình của học sinh bằng biểu đồ phân bố

(histogram) theo học lực (Yếu, trung bình, khá giỏi) kết hợp với biểu đồ hộp

(boxplot) on 153

3.3.3 Phân tích diém trung bình của học sinh băng biêu đô phân bô

(histogram) theo dan tộc (Hoa, Kinh, Khmer) kết hợp với biểu đồ hộp

(boxplot)

3.3.4 Phân tích điêm trung bình của học sinh băng biêu đô phân bô

(histogram) theo giới tính (Nam, Nữ) kết hợp với biểu đồ hộp (boxplot) 66

3.3.5 Phân tích mới quan hệ giữa điểm trung bình cả năm với điểm trung bình

từng môn bằng kiểm định giả thiết kết hợp mô hình tuyến tinh 713.3.6 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với banhóm học sinh thuộc dân tộc (Kinh, Khmer, Hoa) bằng mô hình phân tích

phương sai 86

3.3.7 Phân tích môi liên hệ giữa điêm trung bình cả năm của học sinh với

nhóm giới tính của học sinh (Nam, Nữ) bằng mô hình phân tích phương sai 913.3.8 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với

nhóm học sinh ở hai vùng Thi tran và Xã bằng mô hình phân tích phương sai

3.3.12 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với

nhóm học sinh có giới tính Nam và Nữ bằng mô hình phân tích hiệp bié

nhóm học sinh thuộc dân tộc Hoa, Khmer, Kinh bằng mô hình phân tích hiệp

biến „104

Trang 7

Mục lục

3.3.13 Phân tích mối liên hệ giữa điểm trung bình cả năm của học sinh với

nhóm học sinh Bỏ học và Không bỏ học bằng mô hình phân tích hiệp biến.1063.3.14 Phân tích mdi liên hệ giữa điểm trung bình cả năm của hoc sinh với

nhóm học sinh Bỏ học và Không bỏ học bằng mô hình phân tích hồi qui

logistic sassnen - 108

3.3.15 Phân tích môi liên hệ giữa diém trung bình ca năm của học sinh với

nhóm học sinh có giới tính Nam và Nữ bằng mô hình phân tích hồi qui logistic

„110

3.3.16 Phân tích môi liên hệ giữa điêm trung bình cả năm của học sinh với

nhóm học sinh thuộc khu vực Thị tran và Xã bằng mô hình phân tích hồi qui

logistic ssoseoll 13)

3.3.17 Phân tích môi liên hệ giữa bỏ học với các biên sô Diém trung bình môn

Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD nhằm tiên

đoán một hoc sinh sẽ bỏ học trong tương lai thông qua phân tích hồi qui

logistic đa biến và chọn mô hình 1163.3.18 Phân tích mi liên hệ giữa giới tính của học sinh với các biên sô Điểm

trung bình môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD nhằm tiên đoán giới tính của một học sinh trong tương lai thông quaphân tích hồi qui logistic đa biến và chọn mô hình „1223.3.19 Phân tích mối liên hệ giữa khu vực với các biên sô Điêm trung bình

môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD nhằmtiên đoán khu vực của một học sinh trong tương lai thông qua phân tích hồi

qui logistic đa biến và chọn mô hình -1313.3.20 Phân tích, thống kê sô liệu học sinh bỏ học bỏ học theo từng Xã/Thị

Ö„141

trấn dé giải quyết bài toán phân cụm

3.3.21 Phân tích, thống kê chất lượng giảng dạy môn Toán theo giáo viên

giảng dạy dé giải quyết bài toán phân cụm

3.3.22 Phân tích, thống kê chất lượng giảng dạy môn Tiếng Anh theo giáo

viên giảng dạy đề giải quyết bài toán phân cụm

Chương 4 KẾT LUẬN VÀ HƯỚNG PHAT TRIEN

Trang 9

Danh mục các ký hiệu và chữ viết tắt

Danh mục các ký hiệu và chữ viết tắt

HD High Definition

CSDL Co sở dữ liệu

SQL Structured Query Language

THPT Trung học phô thông

ĐTB Điểm trung bình

CRM Customer Relationship Managemen

ERP Enterprise Resource Planning

GDCD Giáo dục công dân

QPAN Quốc phòng An ninh

SPSS Statistical Package for the Social Sciences

Smas School Management System

TBM Trung bình môn

ĐTB Điêm trung bình

CRM Customer Relationship Managemen

ERP Enterprise Resource Planning

GDCD Giáo dục công dân

QPAN Quốc phòng An ninh

Trang 10

Danh mục các bảng

Danh mục các bảng

Bảng 3.1 Danh sách tập thuộc tính tiêu biểu của tập dữ liệu thu thập

Bang 3.2 Danh sách tập thuộc tính sau khi xử lý của tập dữ liệu thu thập 45

Bảng 3.3 Danh sách các thuộc tính dùng dé phân tích

Bảng 3.4 Một số package cần cài đặt trong quá trình phân tích

Bang 3.5 Kết quả tìm kiếm mô hình bỏ học của học sinh

Bảng 3.6 Kết quả tìm kiếm mô hình bỏ học của học sinh lớp 10

Bang 3.7 Kết quả tìm kiếm mô hình bỏ học của học sinh lớp 11

Bang 3.8 Kết quả tìm kiếm mô hình Giới tính của học sỉnh

Bảng 3.9 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 10

Bang 3.10 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 11

Bảng 3.11 Kết quả tìm kiếm mô hình Giới tính của học sinh lớp 12

Bảng 3.12 Kết quả tìm kiếm mô hình Khu vực của học sinh

Bảng 3.13 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 10

Bảng 3.14 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 11

Bang 3.15 Kết quả tìm kiếm mô hình Khu vực của học sinh lớp 12

Bảng 3.16 Bảng số liệu học sinh bỏ học toàn trường theo xã/thị trân

Bảng 3.17 Bảng số liệu học sinh bỏ học học sinh lớp 10 theo xã/thị trãi

Bảng 3.18 Bảng số liệu học sinh bỏ học học sinh lớp 11 theo xa/thi trâi

Bảng 3.19 Bảng thống kê chat lượng giảng dạy bộ môn Toán toàn trường 147Bảng 3.20 Bảng thống kê chất lượng giảng dạy bộ môn Toán lớp 10

Bảng 3.21 Bảng thống kê chất lượng giảng dạy bộ môn Toán lớp 11

Bang 3.22 Bảng thống kê chat lượng giảng dạy bộ môn Toán lớp 12

Bang 3.23 Bảng thống kê chất lượng giảng dạy bộ môn Toán toàn trường 155

Trang 11

Danh mục các hình vẽ, đồ thị

Danh mục các hình vẽ, đồ thị

Hình 2.1 Tổng quan về tiền xử lý dữ liệu

Hình 2.2 Quy trình tiền xử lý đữ liệu

Hình 2.3 Minh họa phương pháp phân cụm (clustering)

Hình 2.4 Minh họa hồi qui tuyến tính đơn biến

Hình 2.5 Mối liên hệ giữa logit(p) và p, 1<p<0

Hình 2.6 Quy trình tạo biểu đồ

Hình 2.7 Giao diện R

Hình 2.8 Giao diện Rstudio.

Hình 2.9 Giao diện Rstudio khi thực thi lệnh cu tl

Hình 2.10 Giao diện SPSS

Hình 3.1 Các bước xây dựng mô hình phân tích

ÖÒ42 43

Hình 3.2 Giao diện của Smas

Hình 3.3 Tập dữ liệu thu thập từ Smas

Hình 3.4 Cài đặt package từ thanh công cụ 40

Hình 3.5 Chọn package cần cài đặt .„ 40Hình 3.6 Mật độ phân bố Điểm trung bình của học sinh 51

Hình 3.7 Mật độ phân bố Điểm trung bình của học sinh lớp 10 we

Hình 3.8 Mật độ phân bố Điểm trung bình của học sinh lớp 11 52Hình 3.9 Mật độ phân bố Điểm trung bình của học sinh lớp 12 52Hình 3.10 Mật độ phân bố Điểm trung bình của học sinh theo học lực 153Hình 3.11 Biểu đồ hộp biểu diễn Điểm trung bình của hoc sinh theo học luc 54Hình 3.12 Mật độ phân bố Điểm trung bình của học sinh lớp 10 theo học lực 55Hình 3.13 Biểu đồ hộp biêu diễn Điểm trung bình của học sinh lớp 10 theo học lực

Hình 3.14 Mật độ phân bô Điêm trung bình của học sinh lớp 11 theo học lực 57

Trang 12

Danh mục các hình vẽ, đồ thị

Hình 3.17 Biểu đồ hộp biểu diễn Điểm trung bình của học sinh lớp 12 theo học lực

„60 Hình 3.18 Biêu đô phân bô diém trung bình của học sinh theo dân tộc 6l

Hình 3.19 Biểu đồ hộp biêu diễn điểm trung bình của học sinh theo dân tộc 61Hình 3.20 Biểu đồ phân bố điểm trung bình của học sinh 10 theo dan tộc 62Hình 3.21 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 10 theo dân tộc 63Hình 3.22 Biểu đồ phân bố điểm trung bình của học sinh 11 theo dân tộc 63Hình 3.23 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 11 theo dân tộc 64Hình 3.24 Biểu đồ phân bó điểm trung bình của học sinh 12 theo dân tộc 65Hình 3.25 Biểu đồ hộp biểu diễn điểm trung bình của học sinh 12 theo dân tộc 65Hình 3.26 Biểu đồ phân bó điểm trung bình của học sinh theo giới tính 66Hình 3.27 Biểu đồ hộp biéu diễn điểm trung bình của học sinh theo giới tinh 67

Hình 3.33 Biểu đồ hộp biéu diễn điểm trung bình của học sinh 12 theo giới tính 71

Hình 3.28 Biểu đồ phân bố điểm trung bình của học sinh 10 theo giới tính

Hình 3.30 Biểu đồ phân bố điểm trung bình của hoc sinh 11 theo giới tính

Hình 3.32 Biểu đồ phân bó điểm trung bình của học sinh 12 theo giới tính

Hình 3.34 Mối liên hệ giữa điểm trung bình cả năm với điểm trung bình môn Toán,

Hình 3.37 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

trung bình môn Toán, Văn 13

Hình 3.38 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

trung bình môn Anh, Lí

Hình 3.39 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

Trang 13

Danh mục các hình vẽ, đồ thị

Hình 3.40 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

trung bình môn Địa, GDCD 74

Hình 3.41 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

trung bình môn Tin, Công Nghệ 74

Hình 3.42 Hệ số tương quan giữa điểm trung bình cả năm của học sinh với điểm

trung bình môn QPAN we T4

Hình 3.43 Mối liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình

môn Toán, Văn, Anh, Lí

Hình 3.44 Mi liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình

Hình 3.45 Mối liên hệ giữa điểm trung bình cả năm lớp 10 với điểm trung bình

môn Tin, Công Nghệ, QPAN 76

Hình 3.46 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Toán, Văn 76Hình 3.47 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Anh, Lí 77Hình 3.48 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Sinh, Str weedHình 3.49 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Địa, GDCD "Nư(Hình 3.50 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ 278Hình 3.51 Hệ số tương quan giữa điểm trung bình cả năm lớp 10 của hoc sinh vớiđiểm trung bình môn QPAN we 78Hinh 3.52 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình

môn Toán, Van, Anh, Lí

Hình 3.53 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình

môn Sinh, Sử, Dia, GDCD.

Hình 3.54 Mối liên hệ giữa điểm trung bình cả năm lớp 11 với điểm trung bình

môn Tin, Công Nghệ, QPAN

Trang 14

Danh mục các hình vẽ, đồ thị

Hình 3.55 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh với

điểm trung bình môn Toán, Văn 80Hình 3.56 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Anh, Lí .80Hình 3.57 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Sinh, Sử 81Hình 3.58 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của hoc sinh vớiđiểm trung bình môn Địa, GDCD .„81Hình 3.59 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ -„.81Hình 3.60 Hệ số tương quan giữa điểm trung bình cả năm lớp 11 của học sinh với

điêm trung bình môn QPAN 82,

Hình 3.61 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình

môn Văn, Anh, Lí 283

Hình 3.62 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình

môn Sinh, Sử, Địa, GDCD.

Hình 3.63 Mối liên hệ giữa điểm trung bình cả năm lớp 12 với điểm trung bình

môn Tin, Công Nghệ, QPAN

Hình 3.64 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Văn -„84Hình 3.65 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Anh, Lí .84Hình 3.66 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Sinh, Str 84Hình 3.67 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của hoc sinh với

điêm trung bình môn Địa, GDCD 85

Hình 3.68 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn Tin, Công Nghệ

Hình 3.69 Hệ số tương quan giữa điểm trung bình cả năm lớp 12 của học sinh vớiđiểm trung bình môn QPAN 85

Trang 15

Danh mục các hình vẽ, đồ thị

Hình 3.70 Mối liên hệ giữa điểm trung bình cả năm của học sinh với học sinh

thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương sai

thông qua lệnh anova

Hình 3.71 Mối liên hệ giữa điêm trung bình cả năm của học sinh với học sinh

thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương sai

thông qua lệnh summary

Hình 3.72 Mối liên hệ giữa điêm trung bình cả năm của học sinh lớp 10 với họcsinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

.Ò-88

Hình 3.73 Mối liên hệ giữa điêm trung bình cả năm của học sinh lớp 10 với học

sai thông qua lệnh anova.

sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

+88

Hình 3.74 Mối liên hệ giữa diém trung bình cả năm của học sinh lớp 11 với học

sai thông qua lệnh summary

sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

+89

Hình 3.75 Mối liên hệ giữa diém trung bình cả năm của học sinh lớp 11 với học

sai thông qua lệnh anova.

sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

+90

Hình 3.76 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với học

sai thông qua lệnh summary

sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

sai thông qua lệnh anova 90 Hình 3.77 Môi ên hệ giữa điêm trung bình cả năm của học sinh lớp 12 với học

sinh thuộc thuộc dân tộc Kinh, Khmer, Hoa bằng phương pháp phân tích phương

sai thông qua lệnh summary 91

Hinh 3.78 Moi lên hệ giữa diém trung bình cả năm của học sinh với nhóm giới

tính của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông qua

Trang 16

Danh mục các hình vẽ, đồ thị

Hình 3.80 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhómgiới tính của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông

22293

Hình 3.81 Mối liên hệ giữa điểm trung bình cả năm của hoc sinh lớp 12 với nhóm

qua lệnh anova va summary

giới tinh của học sinh (Nam, Nữ) bằng phương pháp phân tích phương sai thông

94

Hình 3.82 Mối liên hệ giữa điêm trung bình cả năm của học sinh với nhóm học

qua lệnh anova va summary

sinh ở vùng Thị tran và Xã bằng phương pháp phân tích phương sai thông qua lệnh

Hình 3.86 Mối liên hệ giữa diém trung bình cả năm của học sinh với nhóm học

sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thông qua

lệnh anova va summary 2 98

Hinh 3.87 Méi én hệ giữa điêm trung bình cả năm của học sinh lớp 10 với nhóm

học sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thông

299

(én hệ giữa điêm trung bình cả năm của học sinh lớp 11 với nhóm

qua lệnh anova và summary

Hình 3.88 Mối

học sinh Bỏ học và Không bỏ học bằng phương pháp phân tích phương sai thong

qua lệnh anova va summary 99

Hình 3.89 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

sinh ở Thị tran và Xã (phân tích hiệp biến) „100

Trang 17

Danh mục các hình vẽ, đồ thị

Hình 3.90 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhómhọc sinh ở Thị tran và Xã (phân tích hiệp bién) „101Hình 3.91 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhómhọc sinh ở Thị tran và Xã (phân tích hiệp biến)

Hình 3.92 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với nhómhọc sinh ở Thi tran và Xã (phân tích hiệp biến)

Hình 3.93 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

sinh có giới tính Nam và Nữ (phân tích hiệp bién) „102Hình 3.94 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhómhọc sinh có giới tính Nam và Nữ (phân tích hiệp biến) 103Hình 3.95 Mối liên hệ giữa điểm trung bình ca năm của hoc sinh lớp 11 với nhóm

-103

Hình 3.96 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 12 với nhómhọc sinh có giới tính Nam và Nữ (phân tích hiệp biến)

học sinh có giới tính Nam và Nữ (phân tích hiệp biến) ee

Hình 3.97 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến) " 104Hình 3.98 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm

„105

học sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến)

Hình 3.99 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm

dân tộc Hoa, Khmer, Kinh (phân tích hiệp biến)

học sinh thuộc dân tộc Hoa, Khmer, Kinh (phân tích hig biến)

Hình 3.101 M n hệ giữa điểm trung bình cả năm của học sinh với nhóm học

sinh Bỏ học và Không bỏ học (phân tích hiệp biến) „106

Hình 3.102 Mi n hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm

„107

Hình 3.103 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm

học sinh Bỏ học và Không bỏ học (phân tích hiệp biến)

học sinh Bỏ học và Không bỏ học (phân tích hiệp biến)

Hình 3.104 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

- 108

sinh Bo học và Không bỏ học (phân tích hồi qui logistic)

Trang 18

Danh mục các hình vẽ, đồ thị

Hình 3.105 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 10 với nhóm

học sinh Bỏ học và Không bỏ học (phân tích hồi qui logistic) 109

Hình 3.106 Mối liên hệ giữa điểm trung bình cả năm của học sinh lớp 11 với nhóm

học sinh Bỏ học và Không bỏ học (phân tích hồi qui logistic) „109

Hình 3.107 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

„110

Hình 3.108 Mối liên hệ giữa điểm trung bình cả năm lớp 10 của học sinh với nhóm

111

sinh có giới tính Nam va Nữ (phân tích hồi qui logistic)

học sinh có giới tinh Nam và Nữ (phân tích hồi qui logistic)

Hình 3.109 Mối liên hệ giữa điểm trung bình cả năm lớp 11 của học sinh với nhómhọc sinh có giới tính Nam và Nữ (phân tích hồi qui logistic) „112Hình 3.110 Mối liên hệ giữa điểm trung bình cả năm lớp 12 của học sinh với nhóm

học sinh có giới tính Nam và Nữ (phân tích hỏi qui logistic) 112

Hình 3.111 Mối liên hệ giữa điểm trung bình cả năm của học sinh với nhóm học

„113

Hình 3.112 Mối liên hệ giữa điểm trung bình cả năm lớp 10 của học sinh với nhóm

„114

sinh thuộc khu vực Thị tran và Xã (phân tích hồi qui logistic)

học sinh thuộc khu vực Thị tran và Xã (phân tích hồi qui logistic)

Hình 3.113 Mối liên hệ giữa điểm trung bình cả năm lớp 11 của học sinh với nhóm

học sinh thuộc khu vực Thị trấn và Xã (phân tích hồi qui logistic) „115

Hình 3.114 Mối liên hệ giữa điểm trung bình cả năm lớp 12 của học sinh với nhóm

„115

n hệ giữa bỏ học của học sinh với các biến số Điểm trung bình

học sinh thuộc khu vực Thị trấn và Xã (phân tích hồi qui logistic)

Trang 19

Danh mục các hình vẽ, đồ thị

Hình 3.118 Mối liên hệ giữa bỏ học của học sinh lớp 10 với các biến số Điểm trung

bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD

120

Hình 3.119 Mối liên hệ giữa bỏ học của học sinh lớp 11 với các biên sô Điêm trung

bình các môn Sinh, Tin học, Van, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD .121

bằng cách dùng lệnh summary

Hình 3.120 Mối liên hệ giữa bỏ học của học sinh lớp 11 với các biến số Điểm trung

bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD.

bằng cách dùng lệnh summary

Hình 3.121 Mối liên hệ giữa giới tính của học sinh với các biến sé Điểm trung

bình các môn Sinh, Tin học, Văn, Sử, Dia, Anh, Công Nghệ, QPAN và GDCD 123

Hình 3.122 Mối liên hệ giữa giới tính của học sinh với các biến sé Điểm trung bình

các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD bằng

cách dùng lệnh summary 124

Hình 3.123 Mối liên hệ giữa giới tính của hoc sinh lớp 10 với các biến số Điểm

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

125

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD bằng c h dùng lệnh sưzunary 126 Hình 3.125 Môi liên hệ giữa giới tính của học sinh lớp 11 với các biên sô Điêm

127

ệ giữa giới tính của học sinh lớp 11 với các biên số Diém

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD bằng cách dùng lệnh summary l28

Trang 20

Danh mục các hình vẽ, đồ thị

Hình 3.128 Mối liên hệ giữa giới tính của học sinh lớp 12 với các biến sé Điểm

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD bằng cách dùng lệnh summary

Hình 3.130 Mối liên hệ giữa khu vực của hoc sinh với các biến số Điểm trung bình

các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD 132

Hình 3.131 Mối liên hệ giữa khu vực của học sinh với các biến số Điểm trung bìnhcác môn Sinh, Tin học, Van, Sử, Địa, Anh, Công Nghệ, QPAN và GDCD bằng

cách dùng lệnh summary 133

Hình 3.132 Mối liên hệ giữa khu vực của học sinh lớp 10 với các biên sô Điêm

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

134

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD bằng cách dùng lệnh summary 136Hình 3.134 Mối liên hệ giữa khu vực của học sinh lớp 11 với các biên số Điêm

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

137

GDCD bằng cách dùng lệnh sưnnary l138

lệ giữa khu vực của học sinh lớp 11 với các biên sô Điêm

trung bình các môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ, QPAN và

GDCD bằng cách dùng lệnh summary 2538

Hinh 3.138 Thống kê số lượng học sinh bỏ học theo Xã/Thị trấn

Hình 3.139 Tìm và thêm một biến vào số cụm toàn trường

Trang 21

Thống kê chất lượng môn Toán theo giáo vién

Tìm và thêm một biến vào số cụm giáo viên toánThống kê chất lượng môn Toán lớp 10 theo giáo viên

Tìm và thêm một biến vào số cụm giáo viên toán lớp 10Thống kê chất lượng môn Toán lớp 11 theo giáo viên

Tim và thêm một biến vào số cụm giáo viên toán lớp 11Thống kê chất lượng môn Toán lớp 12 theo giáo viên

Tim và thêm một biến vào số cụm giáo viên toán lớp 12Thống kê chất lượng môn Tiếng Anh theo giáo viên

Tìm và thêm một biến vào số cụm giáo viên Anh

Trang 22

Mo đầu

MỞ ĐẦU

Ngày nay, gắn liền với là sự phát triển của Internet thì các thành tựu của tin họccũng được áp dụng ở hầu hết các lĩnh vực của xã hội và đem lại nhiều hiệu quả tolớn Mục tiêu của tin học là khai thác thông tin một cách hiệu quả nhất nhằm phục vụcho mọi mặt hoạt động của còn người Cùng với mục tiêu phát triển xã sự gia

tăng dữ liệu không ngừng trên toàn cầu Dữ liệu được sinh ra từng phút, từng giây,

có ở khắp mọi nơi và chúng có thé chỉ cho ta thấy nhiều điều Tuy nhiên, làm thé nào

để dữ liệu trở nên có ý nghĩa lại trở thành một vấn dé không nhỏ đối với những cá

nhân, tổ chức sở hữu những khối dữ liệu này

Với quy mô dữ liệu đa dạng, phong phú, dữ liệu có thể phản ánh thông tin từnhiều khía cạnh của đời sống xã hội hiện đại Những cuốn sách, tài liệu giấy đã được

số hóa thành ebook, các file tài liệu số với nhiều định danh như txt, csv, XỈSX, spss

Ké ca những mối quan hệ bạn bè, sự ưa thích “like” cũng được dit liệu hóa qua các

mạng xã hội như Facebook, Zalo, Những loại dữ liệu này được sử dụng đê phân

tích, dựa trên những kiến thức toán học được vay mượn từ kiến thức thống kê

Phân tích dữ liệu (Data analysis) là khoa học khám phá dữ liệu thô nhằm rút rakết luận từ những dữ liệu ấy Phân tích dữ liệu được sử dụng trong nhiều lĩnh VỰCnhư: Công nghiệp, y tế, giáo dục đề hỗ trợ các công ty, tổ chức, cơ quan đưa ra quyếtđịnh phù hợp hơn Quá trình phân tích dữ liệu bao gồm các bước kiểm định, làm sạch,

chuyên đôi, mô hình hóa và phân tích dữ liệu với mục đích tìm thông tin hữu ích, cho

thấy kết luận hoặc hỗ trợ ra quyết định dựa trên bộ dữ liệu hiện có

Van đề nghiên cứu và ứng dụng phân tích dữ liệu vào các lĩnh vực rat phd biến

và phát triển trên thé giới Tuy nhiên, tại Việt Nam, van đề nay còn chưa được ứng

dụng rộng rãi Do đó, mục tiêu của khóa luận là ứng dụng phương pháp phân tích dữ

liệu dựa trên kết quả học tập của học sinh để phân tích các yếu tố ảnh hưởng đến kết

quả học tập của học sinh tại trường THPT Gò Quao, huyện Gò Quao, tỉnh Kiên Giang.

Trang 23

Chương 1 Tổng quan

Chương 1 TONG QUAN

1.1 Giới thiệu

Trường THPT Gò Quao, huyện Gò Quao, tỉnh Kiên Giang được thành lập từ

năm 1978 Từ ngày thành lập đến nay, trường không ngừng phát triển và trở thành

một trường trọng điểm của huyện Gò Quao, tỉnh Kiên Giang (huyện Gò Quao còn cóthêm bốn trường có cấp THPT là trường THPT Định An, THPT Vĩnh Thắng, THPT

Thới Quản và THPT Vĩnh Hòa Hưng Bắc) Do đó, với uy tín và thương hiệu của nhà

trường, trường THPT Gò Quao nhận được rất nhiều sự quan tâm của phụ huynh và

học sinh.

Bên cạnh đó với vai trò là một trường điểm của huyện, nhà trường đã luônkhông ngừng tìm kiếm một công cụ mang tính khoa học dé làm cơ sở trong việc nângcao chất lượng đào tạo của nhà trường

Tuy là một trường điểm trong huyện nhưng nhà trường vẫn còn tồn tại không

ít khuyết điểm như: Số lượng học sinh bỏ học khá nhiều đặc biệt là học sinh lớp 10

(lớp 10 có 133 em học sinh bỏ học, lớp 11 có 58 em bỏ học, lớp 12 rất tốt không có

học sinh bỏ học), chưa có biện pháp dạy phụ đạo (miễn phi) cho các em học sinh,

Xuất phát từ nhu cầu thực tế và cấp thiết này, em đã chọn dé tài phân tích các

yếu tố ảnh hưởng đến kết quả học tập của học sinh tại trường THPT Gò Quao, tỉnh

Kiên Giang, với mong muốn là thông qua đề tài này có thể góp thêm được một giảipháp giúp nhà trường có thé nâng cao hơn nửa chất lượng và hiệu quả dao tạo củanhà trường để không phụ sự tin tưởng của các bậc phụ huynh khi gửi con em củamình vào học và cũng thật sự xứng đáng với vị thế là một trường trọng điểm của

huyện.

1.2 Mục tiêu, đối tượng và phạm vị nghiên cứu

1.2.1 Mục tiêu nghiên cứu

Nghiên cứu hệ thống hóa các kỹ thuật dùng đề phân tích dữ liệu, lựa chọn cácphương pháp phù hợp nhằm giải quyết bài toán phân tích các yếu tố ảnh hưởng đếnkết quả học tập của học sinh Bai toán nhận đầu vào là tập dữ liệu về thông tin của

Trang 24

Chương 1 Tổng quan

học sinh trong quá khứ, và có đầu ra là các yếu tố ảnh hưởng đến kết quả học tập của

học sinh trong tương lai.

Tir mục tiêu trên, luận văn tập trung nghiên cứu các van dé sau:

- Nghiên cứu tổng quan các phương pháp và kỹ thuật phân tích dữ liệu, lựachọn phương pháp phân tích thích hợp đề tiến hành phân tích trên tập dữ liệu đã thu

thập được.

- Tiến hành thực nghiệm phân tích dữ liệu, sau đó đưa ra được các yếu tố ảnhhưởng đến kết quả học tập của học sinh tại trường THPT Gò Quao, tỉnh Kiên Giang

Từ đó đề ra giải pháp và tham mưu giúp nhà trường có kế hoạch hỗ trợ học sinh tốt

hơn trong quá trình học tập Nhằm hoàn thiện và nâng cao chất lượng day và học tại

nhà trường.

1.2.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận văn là các yếu tổ liên quan đến học sinh mà có

thể ảnh hưởng đến kết quả học tập của học sinh như: học lớp mấy, họ tên học sinh,

điểm trung bình các môn học, điểm trung bình cả năm học, nơi ở của học sinh, Tất

cả những thông tin này cung cấp từ trường THPT Gò Quao, tỉnh Kiên Giang

Dữ liệu bao gồm: Thông tin cá nhân và kết quả học tập cuối năm lớp 10, lớp

11, lớp 12 (từ năm 2012 đến năm 2021) của tat cả các em học sinh trong nhà trường

1.2.3 Phạm vi nghiên cứu

Phân tích tất cả các yếu tố có thể ảnh hưởng đến kết quả học tập của học sinh

tại trường THPT Gò Quao, tỉnh Kiên Giang Thông qua kết quả phân tích này mà nhàtrường có thể đưa ra quyết định đúng đắn hơn quá trình giảng dạy và giáo dục của

nhà trường.

1.3 Khả năng mở rộng

Kết quả nghiên cứu trong khóa luận này có thể được áp dụng cho các trườngTHPT khác tại địa bàn Gò Quao, tỉnh Kiên Giang Ngoài ra, cũng có thé xem kết quả

của khóa luận giống như một tài liệu tham khảo đề nâng cao chất lượng giáo dục

1.4 Các nghiên cứu liên quan

Phân tích dữ liệu là quá trình đánh giá dữ liệu bằng các công cụ phân tích hoặcthống kê Công việc tập trung vào việc thu thập, khai thác, quản lý và xử lý bộ dữ

Trang 25

Chương 1 Tổng quan

liệu, từ đó đưa ra các nhận định, dự đoán xu hướng hoạt động của tương lai Đây còn

là một công việc có ý nghĩa và có tầm quan trọng lớn, nó còn được sử dụng bởi các

doanh nghiệp nhỏ, công ty bán lẻ, trong giáo dục, trong y học và du lịch.

Ở Việt Nam có các công trình nghiên cứu liên quan đến phân tích dữ liệu cụthể như sau:

“Phân tích tác động của các nhân tố đến hoạt động sản xuất kinh doanh của

doanh nghiệp nhỏ và vừa tỉnh Hải Dương” của hai tác giả Nguyễn Văn Duy và Phạm

Van Hùng [2] — Nghiên cứu sinh Khoa Kinh tế và Phát triển Nông thôn, Học viênNông nghiệp Việt Nam (2017) Nhằm xác định và đánh giá được tác động của cácnhân tố có thé ảnh hưởng đến tình hình sản xuất kinh doanh của các doanh nghiệp

nhỏ và vừa trên địa bàn tỉnh Hải Dương Nghiên cứu này đã thực hiện khảo sát trên

103 doanh nghiệp nhỏ và vừa trên địa bàn tỉnh Hải Dương Kết quả nghiên cứu cho

thấy có ba nhân tố ảnh hưởng đến hoạt động sản xuất kinh doanh là: Nội lực củadoanh nghiệp, vốn và chính sách hồ trợ

“Phân tích các yếu tố ảnh hưởng đến tiêu thụ điện năng của hộ gia đình tạithành phố Hà Nội” tác giả Đỗ Thị Hiệp [3] - Trường Đại học Điện Lực (2016).Nghiên cứu này được thực hiện dựa trên kết quả khảo sát của 419 hộ gia đình và nộidung nghiên cứu chỉ tập trung vào ba nhân tố đó là sự tác động của giá điện bìnhquân, số thành viên trong một hộ gia đình và thu nhập của hộ gia đình có ảnh hưởng

như thế nào đến lượng điện tiêu thụ của hộ gia đình ở thành phố Hà Nội Kết quả

nghiên cứu như sau: Khi số thành viên của hộ gia đình tăng 1 người thì tiêu thụ điệnnăng của hộ gia đình tăng từ 25.665 kWh đến 34.875 kWh Khi giá điện bình quântăng I déng/kWh thì tiêu thụ điện năng tăng từ 0.186kWh đến 0.275 kWh Khi thunhập của hộ gia đình tăng thêm | triệu đồng thì tiêu thụ điện năng tăng từ 6.900 kWhđến 34.878 kWh

“Phân tích tác động của các nhân tố ảnh hưởng đến mức độ hạnh phúc của

người dân Việt Nam” của hai tác giả ThS Hoàng Thị Thanh Tâm và cử nhân Đinh

Thị Hạnh [4] - Trường Đại học Kinh Tế Quốc Dân (2016) Nghiên cứu này được

thực hiện khảo sát trên 3311 hộ gia đình thuộc 12 tỉnh: Hà Tây, Lào Cai, Phú Thọ, Lai Châu, Điện Biên, Nghệ An, Quảng Nam, Khánh Hòa, Dak Lak, Dak Nông, Lam

Trang 26

Chương 1 Tổng quan

Đồng, Long An Kết quả nghiên cứu đã chỉ ra các yếu tố có thể ảnh hưởng đến “mức

độ hạnh phúc” của người dân Việt Nam là: “thu nhập”, “chênh lệch thu nhập”, “tình

trạng sức khỏe”, “nhân tố bản thân”, “mức độ đáp ứng về giáo dục của địa phương”,

“tham gia chính trị”, “khu vực”.

“Phân tích các nhân tố ảnh hưởng đến kết quả học tập của sinh viên” của nhómtác giả Phan Thị Hồng Thao, Nguyễn Huyền Trang và Nguyễn Thu Hà [5] - Học việnNgân hàng-Phân hiệu Bắc Ninh Nghiên cứu này được thực hiện khảo sát với 400sinh viên tại Học viên Ngân hàng- Phân viện Bắc Ninh Kết quả của nghiên cứu này

nhằm đánh giá các nhân té từ bản thân sinh viên, nhà trường va gia đình- xã hội anh

hưởng đến kết quả học tập của sinh viên tại Học viện Ngân hàng - Phân viện BắcNinh, nghiên cứu chỉ ra rằng có 3 nhân tố ảnh hưởng đến kết quả học tập của sinh

viên gồm: phương pháp giảng dạy tích cực của giảng viên, phương pháp học tập ngoài

giờ lên lớp và cơ sở vật chất của nhà trường

“Phân tích các nhân tổ tác động đến sự hứng thú trong học tập của sinh viên”của nhóm tác giả Lưu Chí Danh, Nguyễn Thị Như Huyền, Đỗ Nguyễn Như Quỳnh

và Võ Thị Mỹ Diệu [6]- Trường Đại học Văn Lang (2021) Nghiên cứu này được

tiến hành khảo sát tại trường Đại học Văn Lang với hơn 460 sinh viên của trường.Kết quả của nghiên cứu này cho thấy có 6 nhân té tác động đến sự hứng thú trong

học tập của sinh viên Trường Đại học Văn Lang, đó là: Môi trường học tập, Phương

pháp giảng dạy, Nhận thức của sinh viên, Ảnh hưởng từ gia đình, Chất lượng giảng

viên và Chương trình đào tạo.

¡ lòng của du khách khi đến du lịch

ở Kiên Giang” của hai tác giả là: Lưu Thanh Đức Hải và Nguyễn Hồng Giang [7] —

“Phân tích các nhân tố ảnh hưởng đến sự

Trường Đại học Cần Thơ (2011) Nghiên cứu này dựa trên kết quả khảo sát 295 dukhách, nhằm phân tích các nhân tố ảnh hưởng đến sự hài lòng của du khách về chấtlượng dịch vụ du lịch ở Kiên Giang Kết quả nghiên cứu đã tìm ra 5 nhóm yếu tố cóthể ảnh hưởng đến sự hài lòng du khách gồm: “sự tiện nghi của cơ sở lưu trú”,

“phương tiện vận chuyền tốt”, “thái độ hướng dẫn viên”, “ngoại hình của hướng dẫnviên” và “hạ tầng cơ sở phục vụ du lịch”

Trang 27

Chương 1 Tổng quan

“Tóm lại các công trình nghiên cứu trên đã sử dụng các phương pháp phân tích,

so sánh trên dữ liệu khác nhau và các nghiên cứu này được áp dụng trong các lĩnh

vực khác nhau của xã hội Tuy nhiên đối tượng nghiêu cứu lại không giống nhau, bởi

vì đối tượng nghiên cứu trong khóa luận này là học sinh THPT (cụ thể là học sinh tạitrường THPT Gò Quao, tỉnh Kiên Giang) Như vậy kết quả phân tích cũng sẽ khác

so với Sinh viên Đại học, Doanh nghiệp, hộ gia đình, Bên cạnh đó do các đặc thù

khác như tỉ lệ giới tính, vị trí địa lý, cấp độ trường học (trường huyện, trường tỉnh,trường trọng điểm, ) và điều kiện CSVC, nội quy của từng trường nên các nghiên

cứu trên chỉ có tính tham khảo Đây cũng chính là động lực dé em thực hiện dé tài

này.

Trang 28

Chương 2 Cơ sở lý thuyết

Chương 2 CƠ SỞ LÝ THUYET

2.1 Thu thập và xử lý dữ liệu

2.1.1 Thu thập dữ liệu

Dữ liệu là kết quả của quá trình ghi chép liên tục thông tin phan ánh hoạt động

của con người, các quá trình tự nhién,

Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc pháthiện, khám phá thông tin dn chứa trong đó Một bộ dit liệu được gọi là tốt nếu nó thỏamãn sáu tính chất sau:

- Tính chính xác (Accuracy): Dữ liệu thu thập được phải có giá trị đúng với

thực tế

- Tính đầy đủ (Completeness): Dữ liệu phải điền đầy đủ các giá trị, không

được bỏ trồng

- Tính nhất quán (Consistency): Dữ liệu thu thập được phải đảm bảo nhất quán

về mặt giá trị và logic, không có sự trùng lặp (duplicate)

- Tính kịp thời (Timeliness): Dữ liệu phản ánh đúng hiện thực ngay tại thời

điểm hiện tại

- Tinh tin cậy (Believability): Dữ liệu được tin cậy bởi người dùng.

- Tính dễ hiéu (Interpretability): Dữ liệu “dé hiểu” đối với người dùng

2.1.2 Tiền xứ lý dữ liệu

Trên thực tế dữ liệu thu thập được lại rất đa dạng và phức tạp nên rất khó đápứng 6 tính chất trên (đặc biệt là tính chính xác, tính đầy đủ và tính nhất quán) do nhiều

nguyên nhân khác nhau như:

- Nguyên nhân khách quan: Do sự có hệ thống, do hỏng hóc phan cứng, sự cốmắt điện,

- Nguyên nhân chủ quan: Do sai sót trong quá trình nhập liệu, do người dùng

nhập dữ liệu ảo, dit liệu gia (fake data),

Do vậy một bộ dữ liệu sau khi thu thập được cần phải trãi qua giai đoạn tiền

xử lý dữ liệu nhằm mục đích nâng cao chất lượng cho bộ dữ liệu, góp phần tạo ra dữ

liệu “sạch” phục vụ quá trình phân tích dữ liệu.

Trang 29

Chương 2 Cơ sở lý thuyết

Pattern Evaluation, `

Presentati 0w Z

Data y7 Patterns

Task-relevant Data ấData Warehouse Aba ranbformation

Trang 30

Chương 2 Cơ sở lý thuyết

2.2 Hệ số tương quan

Hệ số tương quan (r) (tiếng Anh: Correlation Coefficient) là một chỉ số thống

kẻ đo lường mối liên hệ tương quan giữa hai biến số (giữa biến x và y) Hệ số tươngquan có giá trị từ -1 đến 1 Hệ số tương quan bằng 0 (hay gan 0) có nghĩa là hai biến

số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là haibiến số có một mối liên hệ tuyệt đối Nếu giá trị của hệ số tương quan là âm (r <0) cónghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ

số tương quan là đương (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x

giảm cao thì y cũng giảm theo.

Thực ra có nhiều hệ số tương quan trong thống kê, nhưng trong phạm vi đề tàinày tôi sẽ trình bày 2 hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r,

và Spearman ø.

2.2.1 Hệ số tương quan Pearson

Cho hai biến số x và y từ ø mẫu, hệ số tương quan Pearson được ước tính bằng

công thức sau đây:

Trong đó, xà y là giá trị trung bình của biến số x và y.

R ước tính hệ số tương quan Pearson bằng hàm cor.test

2.2.2 Hệ số tương quan Spearman ø

Hệ số tương quan Spearman, một phương pháp phân tích phi tham số Hệ sốnày được ước tính bằng cách biến đổi hai biến số x và y thành thứ bậc (rank), và xem

độ tương quan giữa hai dãy số bậc Do đó, hệ số còn có tên tiếng Anh là Spearmans

Trang 31

Chương 2 Cơ sở lý thuyết

Các thống kê cho thấy rằng có khoảng 80% kết quả phân tích được dưới dạng

phân tích mô tả Đây là dạng phân tích có giá trị thấp nhất, chỉ cần yêu cầu kỹ năngphân tích tương đối cơ bản Phân tích mô tả được thực hiện để trả lời các sự kiện đãxảy ra, các câu hỏi mẫu để phân tích mô tả có dạng như sau:

+ Kết quả học tập cả năm lớp 12 của học sinh được phân bố như thế nào?

+ DTB cả năm được phân bố theo từng nhóm (học lực, dân tộc, giới tính) cụ

thể như thế nào?

Phân tích mô tả thường được thực hiện thông qua báo cáo hoặc dưới dạng đồ

thị hoặc biểu đô

2.3.2 Phân tích chan đoán

Phân tích chân đoán nhằm xác định nguyên nhân của hiện tượng xảy ra trong

quá khứ bằng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện Các dạng

câu hỏi mẫu như:

+ Tại sao học sinh khối 10 bỏ học cao hơn học sinh khối 11

+ Tại sao học sinh khối 10 ở thị trấn có điểm trung bình cao hơn học sinh ở

Phân tích chan đoán cung cấp nhiều thông tin giá tri hơn phân tích mô tả, dovậy nó yêu cầu kỹ năng phân tích cao hơn Kết qua phân tích chẩn đoán thông quacác công cụ trực quan giúp người dùng xác định được xu thế Các truy vấn dữ liệutrong phân tích chân đoán cũng phức tạp hơn so với phân tích mô tả, nó được thựchiện trên dữ liệu đa chiều được lưu giữ trong các hệ thống phân tích

2.3.3 Phân tích dự báo (dự đoán)

Phân tích dự đoán dùng để xác định kết quả của một sự kiện nào đó sẽ xảy ra

trong tương lai Nói một cách chính xác hơn, phân tích dự đoán là mô hình dựa vào

sự kiện đã xảy ra trong quá khứ với một điều kiện cụ thể dé xác định sự kiện tương

tự xảy ra trong tương lai Nếu các điều kiện cơ bản này thay đổi thì mô hình dự báo

phải được cập nhật Các câu hỏi mẫu cho phân tích dự báo có dang what-if, ví dụ:

+ Tỷ lệ bỏ học của học sinh khối 10 có cao hơn học sinh khối 11 không?

+ Nếu học sinh đã học xong lớp 10 và lớp 11 thì tỷ lệ bỏ học ở lớp 12 như thế

nào?

Trang 32

Chương 2 Cơ sở lý thuyết

Loại phân tích này liên quan đến việc sử dụng các bộ dữ liệu lớn và các kỹ

thuật phân tích dữ liệu khác nhau Nó cung cấp thông tin có giá tri hơn và đòi hỏi một

bộ kỹ năng nâng cao hơn so với phân tích mô tả và phân tích chân đoán Các công cụthường sử dụng cho phân tích dự đoán phức tạp, trừu tượng tuy nhiên có thé cung cấp

giao diện thân thiện với người dùng.

2.3.4 Phân tích đề xuất

Phân tích đề xuất được xây dựng dựa trên kết quả của phân tích dự báo bằngcách liệt kê các hành động cần phải thực hiện Phân tích này không chỉ tập trung vàoviệc lựa chọn hành động nào là tốt nhất mà còn trả lời câu hỏi tại sao? Do đó, loạiphân tích này thường được sử dụng để đạt được các lợi thế và giảm thiểu các rủi ro

của cơ quan Các dạng câu hỏi mẫu cho loại phân tích này như:

+ Trong các điêm tổng kết môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ,

QPAN và GDCD thì điểm tổng kết môn nào có ảnh hưởng nhiều nhất đến nguy co

bỏ học của học sinh?

+ Trong các điểm tổng kết môn Sinh, Tin học, Văn, Sử, Địa, Anh, Công Nghệ,QPAN và GDCD thì điểm tổng kết môn nào có ảnh hưởng nhiều nhất đến giới tính

của học sinh?

2.4 Các kỹ thuật phân tích dữ liệu

Trong thời dai bing nổ dữ liệu như hiện nay bất chấp khối lượng dữ liệu khổng

16 mà chúng ta tạo ra hàng ngày, chỉ 0,5% thực sự được phân tích và sử dụng dé khám

phá M;ặc dù điều đó có vẻ không nhiều, nhưng xét về lượng thông tin kỹ thuật số,

thì nửa phần trăm vẫn chiếm một lượng lớn dữ liệu Có một số phương pháp và kỹthuật để thực hiện phân tích dữ liệu tùy thuộc vào mục đích của việc phân tích Tất

cả các phương pháp phân tích dữ liệu tuy khác nhau nhưng chủ yếu đều dựa trên hailĩnh vực cốt lõi: phương pháp định lượng và phương pháp định tính trong nghiên cứu.Sau đây chúng ta xem xét một số kỹ thuật phân tích

2.4.1 Kỹ thuật phân cụm (Clustering)

Phân cụm là việc mô tả chung để tìm ra các đặc điểm giống nhau của dữ liệu.Các cụm có thể tách riêng nhau hoặc phân cấp hoặc gói lên nhau Có nghĩa là một dữ

liệu có thê vừa thuộc cụm này, vừa thuộc cụm kia Các ứng dụng phân tích dữ liệu

Trang 33

Chương 2 Cơ sở lý thuyết

có nhiệm vụ phân cụm như: xác định các giáo viên cùng giảng dạy một bộ môn có

những đặc điểm gì chung, các em học sinh thuộc nhóm bỏ học có đặc điểm chung gì?

Kỹ thuật phân cụm không có dữ liệu huấn luyện Đối tượng được phân cum

dựa trên các thuộc tính tương đồng của dữ liệu

Dữ liệu trước khi áp dung clustering Cỡ liệu sau khi áp dụng clustering

Hình 2.3 Minh họa phương pháp phân cụm (clustering)

2.4.2 Hồi qui (Regression)

Phân tích hồi quy được sử dụng đê mô hình hóa mối quan hệ giữa một biến

độc lập và biến phụ thuộc Phương pháp này cho phép chúng ta thu được những kết

quả tốt nhất về mối quan hệ chân thực giữa các biến số Từ phương trình ước lượng

này, có thé dự báo về giá trị của biến phụ thuộc (chưa biết trước giá trị) dựa vào giátrị cho trước của biến độc lập (đã biết trước giá trị)

Điểm trung bình môn Toán °

Điểm trung bình cả năm

Hình 2.4 Minh họa hồi qui tuyến tính đơn biến

Có rất nhiều ứng dụng phân tích dữ liệu với nhiệm vụ hồi quy, ví dụ như dự

đoán số lượng biomass xuất hiện trong rừng biết các phép do vi sóng từ xa, đánh giá

Trang 34

Chương 2 Cơ sở lý thuyết

nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chỉ tiêu quảng cáo, dự đoán theo

thời gian với các biến đầu vào là các giá trị của mẫu dự đoán trong quá khứ, dự đoánmối quan hệ giữa điểm trung bình của một môn học bất kỳ với điểm trung bình cả

năm học của học sinh

Giả sử ta thấy dé liệu được phân bố như trên hình 2.4 Mục tiêu của chúng ta

là xây dựng được một đường hồi quy như trong hình 2.4 Nghĩa là nếu có thêm mộtđiểm dữ liệu mới thì ta có thể kết luận điểm dữ liệu này nằm trên, nằm gần hay cách

xa đường hồi quy

2.4.3 Hồi qui tuyến tính đơn gián

Mô hình hồi qui tuyến tính với một dự báo đơn có thể được biểu diễn bằng

phương trình:

y, = at Bx, +6;

Trong đó: «1a chặn (intercept, tức giá trị lúc x; = 0), và Ø là độ dốc (slope haygradient) Trong thực tẾ, ø va Ø là hai thông số (parameter, còn gọi là regressioncoefficient hay hệ số hồi qui), và £ là một biến số theo luật phần phối chuẩn với trung

bình 0 và phương sai o°.

Các thông số a, ø và ø? phải được ước tính từ dữ liệu Phương pháp để ước

tính các thông số này là phương pháp bình phương nhỏ nhất (least squares method)

Như tên gọi, phương pháp bình phương nhỏ nhất tìm giá trị @, sao cho:

Y[y,-(@+ Bx] nhỏ nhất.

‘al

2.4.4 Hồi qui tuyến tính đa biến

Mô hình hồi qui tuyến tính đa biến đề cập đến hồi qui tuyến tính với hai hoặcnhiều biến dự đoán x(x¿, x2, đến xx) và mỗi biến có một thông số ø,(j = 1, 2 , k)

cần phải ước tính Khi sử dụng nhiều dự đoán, đường hồi quy không thé được hiểnthị trong không gian hai chiều Tuy nhiên, dòng này có thể được tính toán bằng cách

mở rộng phương trình cho hồi quy tuyến tính dự đoán đơn đề bao gồm các tham sốcho từng biến dự đoán

vị =#+ BA, + ByXy bot Xu +,

Trang 35

Chương 2 Cơ sở lý thuyết

Cụ thể: vị =ứ+ BX, + Boxy + + Bry +s,

3) = At By +; boot BeXig + Ey

Vs = At Bx + Body tot Beds +

y„ =đ+ BX, + ByXy, + + BXy, +E,

Trong hồi qui tuyến tính đa biến, tham số hồi quy được gọi là hệ số Khi xây

dựng một mô hình hoi quy tuyén tính đa biến, thuật toán tính toán một hệ số cho từng

biến dự báo được sử dụng bởi mô hình

2.4.5 Hồi qui logistic

Cho một tần số biến cố x ghi nhận từ m đối tượng, xác suất của biến cố đó là:

có được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trên xác suất biến có

không xảy ra:

odds=—P—

p-l

Ham logit của odds được định nghĩa như sau:

A P logit = log] ——git(p) <( pa }

Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục và theo dang sau:

0.0 02 04 p 06 08 10

Trang 36

Chương 2 Cơ sở lý thuyết

2.5 Phương pháp kiểm định trị số P

Trị số P (P value) có lẽ là một chỉ số phổ biến nhất trong phân tích dữ liệu và

nghiên cứu khoa học.

Khi tiến hành kiểm tra giả thuyết để xác nhận độ chính xác của một kết luận,nhà nghiên cứu đưa ra hai giả thuyết - gid (huyết không (Ho) và gid thuyết thaythé (Mi)

Khi nhà nghiên cứu sử dung phương pháp kiểm định trị số P, họ luôn muốn

bác bỏ giả thuyết không

> Giá tri p-value càng nhỏ (p-value < a) thì giả thuyết không càng nên bị bác

bỏ và giả thuyết thay thế càng đáng tin cậy

> Giá trị p-value càng lớn (p-value> ø) thì cơ sở đề bác bỏ giả thuyết khôngcàng yếu và kiểm định không có kết luận

Giá trị p-value được so sánh với mức ý nghĩa thống kê (a), mà nhà nghiên cứu

đã chọn dé đánh giá tính ngẫu nhiên của kết quả

Thống kê kiểm định trị số P thường theo phân phối chuẩn khi cỡ mẫu sử dụngcàng lớn Các nhà nghiên cứu thường sẽ chọn mức a bé hơn hoặc bằng 5%, hay độ

tin cậy 95% hoặc hơn.

Nói cách khác, giá trị p-value nhỏ hon a = 5% có nghĩa là có hơn 95% khả

năng kết quả của kiểm định giả thuyết là không phải do ngẫu nhiên mà có, do đó làm

kết quả đáng tin cậy hon

2.5.3 Giả thiết vô hiệu (H0)

Trang 37

Chương 2 Cơ sở lý thuyết

HO là một phát biểu (dang thức hoặc bat đẳng thức) liên quan đến tham số của

tổng thể Giả thiết vô hiệu là giả thiết ngược với giả thiết chính Thường người tamuốn bác bỏ giả thiết vô hiệu

Ví dụ: H0: Không có sự khác biệt giữa hai nhóm, không có mối tương quangiữa X và Y H0 thường được giả định đúng trong thủ tục kiểm định giả thuyết Và

người ta sẽ có tìm cách dé chứng minh H0 sai

2.5.4 Gia thuyết khác, giá thiết đáo (Ha)

Ha là phát biểu ngược với HO Ha được kết luận là đúng nếu H0 bị bác bỏ, nhànghiên cứu mong muốn ủng hộ Ha và nghỉ ngờ H0 Nhiệm vụ của tắt cả kiểm địnhgiả thuyết là bác bỏ H0 hay không bác bỏ H0

2.6 Kiểm định giả thiết

Mô hình Kiểm định giả thuyết (test of hypothesis) đây là một phương phápđược phát triển bởi Jerzy Neyman (1894 - 1981) một nhà toán học xuất sắc gốc BaLan và Egon Pearson (1895 - 1980) một nhà thống kê học (con của giáo sư Karl

Pearson, cha đẻ của If thuyết Chi-square và hệ số tương quan) Hai ông nghĩ rằng

thống kê học là một phương pháp hay cơ chế đề hướng dẫn chúng ta đi đến một quyếtđịnh đúng về lâu về dài

Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson cóthể thực hiện qua các bước như sau:

> Bước 1: Phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (HO)

> Bước 2: Quyết định mức độ a và b có thé chấp nhận được và ước tính cỡ

mẫu cần giả thuyết, a là xác suất bác bỏ giả thuyết HI nhưng đó là giả thuyết đúng,

b là xác suất bác bỏ H0 trong khi H0 đúng

> Bước 3: Thu thập dữ liệu liên quan đến giả thuyết

> Bước 4: Nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết HO thì chấp nhậngiả thuyết H1; nếu không thì chấp nhận giả thuyết HO Chú ý rằng “chấp nhận” một

giả thuyết không có nghĩa là chúng ta tin vào giả thuyết đó, mà chỉ có nghĩa là chúng

ta hành động với điều kiện đó là giả thuyết đúng

Trang 38

Chương 2 Cơ sở lý thuyết

Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để

chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai Chính vì thế mà

ngày nay chúng ta thường chọn ø = 5% và b = 10% đến 20%

2.7 Phân tích dữ liệu bằng biểu đồ

Biểu đồ là một phương tiện phản ảnh dữ liệu rt quan trọng Một biểu dé nếu

được soạn tốt có thể đi vào lịch sử khoa học, hay ít ra cũng xuất hiện vĩnh viễn trên

bài báo khoa học và sách giáo khoa Dé có một biểu đồ tốt, đòi hỏi người phân tích

phải đầu tư khá nhiều thời gian để suy nghĩ và soạn Mỗi loại biểu đồ có mục đíchriêng, và đòi hỏi phải suy nghĩ cần thận đề chọn biểu đồ thích hợp

Trang 39

Chương 2 Cơ sở lý thuyết

2.7.1 Base plot system

Base plot system đây là hệ théng biểu đồ cơ bản trong R, được R hỗ trợ mặcđịnh Ý tưởng của hệ thống biểu đồ này cót lõi là sử dụng mô hình “artist’s palatte”:Đây là gói dé họa chứa các chức năng vẽ biéu đồ cho hệ thống “cơ sở” Các chứcthường dùng là: sử dụng các hàm biểu dé (plot, hist, boxplot, barplot, ) Ngoài ra,

có thé sử dụng các hàm dé thêm các chú thích cho biểu đồ: text, lines, axis, points

Base plot system có ưu điểm: Tiện lợi, trực quan và rất dễ tạo Nhược điểm:Không thé quay lại bước trước đó một khi đã vẽ biéu đồ; Rất khó giải thích cách tao

biểu đồ cho người khác (không có điểm chung dé có thé “kế thừa” lại biểu đồ vừa

tạo).

2.7.2 Ggplot2 plot system

ggplot2 là một package hỗ trợ rất mạnh trong R, gg là viết tắt của: Grammar

of Graphic Có thé xem ggplot2 là một “phần mềm” trong R, vì ggplot2 có các hamhoàn chỉnh dé xây dựng những loại biểu đồ có chất lượng cao Hệ thống này kết hợpđiểm mạnh của hệ thống base plot và lattice (base plot: Tạo biéu đồ dé dang, lattice:Goi hàm đơn dé vẽ một biểu đồ hoàn chỉnh)

Hệ thống này do Hadley Wickham tạo ra năm 2005 được phát triển dựa trêntriết lí của “The Grammar of Graphics” của Wilkinson Để sử dụng cần cai đặt gói

> data là dataframe trong R;

> aesthetic là các biến cần thiết dé vẽ va trang trí;

> geometric object là các đối tượng hình hay dạng biểu đồ;

> faceting dùng cho trường hợp nhiều biểu đồ;

Trang 40

Chương 2 Cơ sở lý thuyết

2.8 Các phần mềm hỗ trợ phân tích dữ liệu

Các phần mềm hỗ trợ khai phá dữ liệu rất đa đạng, trong phạm vi luận văn này

chi dé cập tới một số phần mềm thông dụng, dang sử dụng rộng rãi Trên cơ sở đó,lựa chọn một phần mềm phù hợp và áp dụng trên tập dữ liệu mà ta chọn

Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống

kê hoc Ross Ihaka va Robert Gentlan thuộc Trường đại học Auckland, New Zealand

phác hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R Sáng kiến nàyđược rất nhiều nhà thống kê học trên thế giới tán thành và tham gia vào việc phát

triển R Chủ trương của những người sáng tạo ra R là theo định hướng mở rộng (Open

Hinh 2.7 Giao dién R

Nói một cách ngắn gọn, R là một phần mềm hoàn toàn miễn phí, được sử dụngcho phân tích dữ liệu, thống kê và vẽ biểu đồ Thật ra, về bản chất, R là ngôn ngữ

máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn

giản, toán học giải trí (recreational mathatics), tính toán ma trận (matrix), đến các

Ngày đăng: 24/11/2024, 14:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN