1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học

76 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

TRẦN THỊ THU TRANG

NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT LẤY MẪU PHỤC VỤ CHO BÀI TOÁN DỰ ĐOÁN ĐIỂM

SINH VIÊN ĐẠI HỌC

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ Mã số: 8340405

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 07 năm 2023

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học: PGS TS Thoại Nam

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch hội đồng: PGS TS Trần Minh Quang

2 Ủy viên phản biện 1: TS Đặng Trần Trí

3 Ủy viên phản biện 2: PGS TS Nguyễn Tuấn Đăng 4 Ủy viên hội đồng: TS Trương Thị Thái Minh 5 Thư ký hội đồng: TS Nguyễn Thị Ái Thảo

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

II NHIỆM VỤ VÀ NỘI DUNG

- Tìm hiểu các phương pháp, kỹ thuật lấy mẫu ứng dụng phục vụ cho bài toán dự đoán điểm sinh viên đại học

- Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên và xây dựng mô hình dự đoán điểm của sinh viên đại học

III NGÀY GIAO NHIỆM VỤ : 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/6/2023

V CÁN BỘ HƯỚNG DẪN: PGS.TS Thoại Nam Tp HCM, ngày 12 tháng 6 năm 2023

Trang 4

LỜI CẢM ƠN

Với lòng biết ơn sâu sắc nhất, em xin gửi đến các Thầy Cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa TPHCM đã hết lòng chỉ dạy, trang bị cho em kiến thức nền tảng bổ ích, cùng với sự hỗ trợ của gia đình đã tạo điều kiện, động viên, ủng hộ em trong quá trình học tập tại trường

Đặc biệt, em xin chân thành cảm ơn PGS.TS Thoại Nam đã tận tâm hướng

dẫn, động viên, truyền đạt nhiều kiến thức, kinh nghiệm quý báu giúp em thực hiện luận văn này

Mặc dù, đã có nhiều cố gắng nhưng luận văn sẽ không thể tránh khỏi những thiếu sót, chưa hoàn thiện, em rất mong nhận được những ý kiến đóng góp quý báu của quý Thầy Cô để em rút kinh nghiệm, tích lũy kiến thức trong lĩnh vực này được hoàn thiện hơn

Sau cùng, em xin kính chúc quý Thầy Cô cùng gia đình dồi dào sức khỏe, luôn thành công trong sự nghiệp và cuộc sống

Trang 5

TÓM TẮT

Trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM cũng như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên hằng năm học tại trường Tuy nhiên, việc ứng dụng bộ dữ liệu này phục vụ công tác dự báo điểm cho sinh viên và quản lý trường Đại học còn nhiều hạn chế Khi các khoa và trường đại học thực hiện các dự án nghiên cứu, việc chọn mẫu dữ liệu là một bước quan trọng để thu thập thông tin cần thiết Việc chọn mẫu dữ liệu phù hợp với đặc điểm riêng của từng trường sẽ đảm bảo rằng dữ liệu được xử lý đưa vào mô hình phân tích dự đoán sẽ có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích

Mục tiêu luận văn của tôi là việc nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê kết hợp phương pháp lấy mẫu trong học máy (Machine Learning) dựa vào heuristic nghiên cứu giáo dục đại học để ứng dụng vào việc tiền xử lý dữ liệu và chọn mẫu phân tích để đưa vào mô hình dự đoán sớm điểm các môn học cho sinh viên đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG - TPHCM Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác nhất định

Trang 6

ABTRACT

Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City (HCMUT), as well as many other universities, are having data on the student learning outcomes every year However, the application of this dataset for student perfomance forecasting and the University management is still limited When faculties and universities undertake research projects, data sampling is an important step in gathering the necessary information Matching the data sample to the unique characteristics of each school will ensure that the processed data fed into the predictive analytics model will be representative and applicable to research and analysis

The goal of my thesis is a combination of research and application of sampling techniques in statistics combined with sampling methods in machine learning based on heuristics in the higher education research to apply in pre-processing data and selecting analytical samples to include in an early prediction model of subject grades for university students based on past data that students of all faculties have studied at Ho Chi Minh City University of Technology - Vietnam National University Ho Chi Minh City The sampling methods in this thesis is aimed to building a small training dataset, but the student's grades prediction results must ensure a certain accuracy

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học” là nghiên cứu của riêng tôi Các số liệu, tài liệu sử dụng trong luận văn là trung thực Tất cả những tài liệu tham khảo, kế thừa đều được trích dẫn và tham chiếu đầy đủ

TP HCM, ngày 12 tháng 6 năm 2023

Người cam đoan

Trần Thị Thu Trang

Trang 8

DANH MỤC HÌNH VÀ BIỂU ĐỒ xii

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1

1.1 Giới thiệu đề tài 2

1.1.1 Giới thiệu vấn đề cần nghiên cứu 2

1.1.2 Đối tượng nghiên cứu 2

1.1.3 Phạm vi nghiên cứu 2

1.2 Mục tiêu nghiên cứu 3

1.3 Nội dung nghiên cứu 3

1.4 Ý nghĩa đề tài 4

1.4.1 Ý nghĩa khoa học 4

1.4.2 Ý nghĩa thực tiễn của luận văn 4

1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường 4

1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học 5

1.5 Cấu trúc luận văn 5

1.6 Kết luận chương 1 6

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU 7

2.1 Một số khái niệm 8

2.1.1 Lấy mẫu (Sampling) là gì ? 8

2.1.2 Học máy có giám sát (Supervised Machine Learning) 9

2.1.3 Cây quyết định (Decision Trees) 9

Trang 9

2.1.5 Kỹ thuật xuống đồi (Gradient descent) 9

2.2 Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống 11

2.3 Phân biệt các phương pháp Lấy mẫu 12

2.4 Phương pháp Lấy mẫu theo nhóm (Clustering Sampling) 14

2.5 Phương pháp dự đoán điểm sinh viên đại học 15

2.5.1 Gradient Boosting (tăng cường độ dốc) 15

❖ Thuật toán Gradient Boosting tổng quát 15

❖ Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model) 16

2.5.2 XGBoost 17

❖ Hoạt động của mô hình XGBoost 17

2.6 Đánh giá độ chính xác của mô hình dự đoán 18

2.7 Các công trình nghiên cứu nổi bật trong giáo dục đại học 19

2.8 Kết luận chương 2 20

CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP 21

3.1 Mô tả bài toán 22

3.2 Các đặc trưng của dữ liệu sinh viên đại học Bách Khoa 22

3.3 Phân bố điểm sinh viên đại học Bách Khoa 23

3.4 Độ xiên (skewness) và Kurtosis điểm của sinh viên 31

3.5 Xây dựng mô hình dự đoán điểm sinh viên 32

3.5.1 Kiến trúc tổng quan của bài toán 32

3.5.2 Các bước thực hiện Tiền xử lý dữ liệu 33

3.6 Giải pháp cho bài toán 36

3.7 Kết luận chương 3 37

CHƯƠNG 4 : KẾT QUẢ VÀ ĐÁNH GIÁ 38

4.1 Thực nghiệm dự đoán điểm sinh viên 39

4.1.1 Tiền xử lý dữ liệu 39

4.2 Đánh giá độ chính xác của mô hình dự đoán điểm 46

4.2.1 Phương pháp Gradient Boosting Regression 46

4.2.2 Phương pháp XGBoost 50

Trang 10

4.3 Kết luận chương 4 53

CHƯƠNG 5: KẾT LUẬN 54

5.1 Đối chiếu mục tiêu và nội dung nghiên cứu 55

5.2 Thuận lợi khi thực hiện đề tài 55

5.2.1 Thuận lợi của đề tài 55

Đã có đề tài nghiên cứu trước về dữ liệu sinh viên đại học Bách Khoa 55

5.2.2 Khó khăn khi thực hiện đề tài 55

5.3 Hướng phát triển đề tài 56

5.4 Kết luận chung 56

TÀI LIỆU THAM KHẢO 57

PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT 60

Trang 11

DANH MỤC TỪ VIẾT TẮT

1 TPHCM Thành phố Hồ Chí Minh 2 SVĐH sinh viên Đại học chính quy

6 DC khoa Kỹ thuật Địa chất và Dầu khí

8 GT khoa Kỹ thuật Giao thông

10 MO khoa Môi trường và Tài nguyên 11 MT khoa Khoa học và Kỹ thuật Máy tính

14 VL khoa Công nghệ Vật liệu

16 BD Trung tâm Bảo dưỡng Công nghiệp

18 VP Kỹ sư chất lượng cao PFIEV Việt Pháp

Trang 12

DANH MỤC BẢNG

Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống 11

Bảng 2 2: Phân biệt các phương pháp Lấy mẫu 12

Bảng 3 1: Danh sách các môn học chung 34

Bảng 4 1: Chỉ số đo độ chính xác của phương pháp Gradient Boosting 46

Bảng 4 2: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chung 47

Bảng 4 3: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học chung toàn trường 48

Bảng 4 4: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo nhóm các môn học chuyên ngành của từng khoa 49

Bảng 4 5: Chỉ số đo độ chính xác của phương pháp XGBoost 50

Bảng 4 6: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chung 51

Bảng 4 7: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học các môn học chung 52

Bảng 4 8: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các môn học chuyên ngành của từng khoa 53

Trang 13

DANH MỤC HÌNH VÀ BIỂU ĐỒ

Hình 2 1: Định nghĩa Lấy mẫu 8

Hình 2 2: Supervised machine learning [24] 9

Hình 2 3: Chọn mẫu theo nhóm 15

Hình 2 4: Thuật toán Gradient Boosting [2] 16

Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting 17

Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM 23

Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa 23

Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp 24

Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí 24

Hình 3 5:Biểu đồ phân bố điểm khoa Kỹ thuật Địa chất và Dầu khí 25

Hình 3 6: Biểu đồ phân bố điểm khoa Điện - Điện tử 25

Hình 3 7: Biểu đồ phân bố điểm khoa Kỹ thuật Giao thông 26

Hình 3 8: Biểu đồ phân bố điểm khoa Hoá học 26

Hình 3 9: Biểu đồ phân bố điểm khoa Môi trường và Tài nguyên 27

Hình 3 10: Biểu đồ phân bố điểm khoa Khoa học và Kỹ thuật máy tính 27

Hình 3 11: Biểu đồ phân bố điểm khoa Chất lượng cao 28

Hình 3 12: Biểu đồ phân bố điểm khoa Quản lý Công nghiệp 28

Hình 3 13: Biểu đồ phân bố điểm khoa Khoa học Ứng dụng 29

Hình 3 14: Biểu đồ phân bố điểm khoa Công nghệ Vật liệu 29

Hình 3 15: Biểu đồ phân bố điểm Kỹ sư chất lượng cao PFIEV Việt Pháp 30

Hình 3 16: Biểu đồ phân bố điểm khoa Xây dựng 30

Hình 3 17: Biểu đồ hộp (boxplot) phân bố điểm sinh viên của từng khoa 31

Hình 3 18: Chỉ số độ xiên của dữ liệu điểm và Kurtosis 31

Hình 3 19: Kiến trúc Tổng quan của bài toán 32

Hình 4 1: Quy trình Tiền xử lý dữ liệu tổng quát của mô hình dự đoán điểm 39

Hình 4 2: Phân bố điểm SV tất cả các Khoa - Trước và Sau khi loại bỏ điểm 0 40

Trang 14

Hình 4 3: Phân bố điểm SV khoa BD - Trước và Sau khi loại bỏ điểm 0 40

Hình 4 4: Phân bố điểm SV khoa CK - Trước và Sau khi loại bỏ điểm 0 41

Hình 4 5: Phân bố điểm SV khoa DC - Trước và Sau khi loại bỏ điểm 0 41

Hình 4 6: Phân bố điểm SV khoa DD - Trước và Sau khi loại bỏ điểm 0 41

Hình 4 7: Phân bố điểm SV khoa GT - Trước và Sau khi loại bỏ điểm 0 42

Hình 4 8: Phân bố điểm SV khoa HC - Trước và Sau khi loại bỏ điểm 0 42

Hình 4 9: Phân bố điểm SV khoa MO - Trước và Sau khi loại bỏ điểm 0 42

Hình 4 10: Phân bố điểm SV khoa MT - Trước và Sau khi loại bỏ điểm 0 43

Hình 4 11: Phân bố điểm SV khoa PD - Trước và Sau khi loại bỏ điểm 0 43

Hình 4 12: Phân bố điểm SV khoa QL - Trước và Sau khi loại bỏ điểm 0 43

Hình 4 13: Phân bố điểm SV khoa UD - Trước và Sau khi loại bỏ điểm 0 44

Hình 4 14: Phân bố điểm SV khoa VL - Trước và Sau khi loại bỏ điểm 0 44

Hình 4 15: Phân bố điểm SV khoa VP - Trước và Sau khi loại bỏ điểm 0 44

Hình 4 16: Phân bố điểm SV khoa XD - Trước và Sau khi loại bỏ điểm 0 45

Trang 15

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

Phần mở đầu giới thiệu các nội dung tổng quan các vấn đề cần nghiên cứu, mục tiêu, ý nghĩa mà đề tài muốn hướng đến trên phương diện khoa học và ý nghĩa áp dụng vào thực tiễn phục vụ cho các bài toán dự đoán điểm sinh viên đại học, cũng như trong công tác quản lý, tư vấn đăng ký môn học và cung cấp thêm cho sinh viên công cụ hỗ trợ học tập được cải thiện tốt hơn

Gồm các nội dung chính như sau: ➢ Giới thiệu đề tài

➢ Đối tượng và phạm vi nghiên cứu ➢ Mục tiêu nghiên cứu

➢ Nội dung nghiên cứu ➢ Ý nghĩa thực tiễn của đề tài ➢ Cấu trúc luận văn

Trang 16

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài

1.1.1 Giới thiệu vấn đề cần nghiên cứu

Trong bối cảnh nền kinh tế tri thức và toàn cầu hóa, nhiều nước trên thế giới không ngừng tìm kiếm các cách thức khác nhau để nâng cao chất lượng giáo dục, đáp ứng yêu cầu nguồn nhân lực chất lượng cao trong môi trường cạnh tranh quốc tế Việt Nam đang thực hiện công cuộc đổi mới căn bản môi trường “số hóa” và toàn diện nền giáo dục, nhất là giáo dục đại học và sau đại học Giáo dục đại học Việt Nam thay đổi mạnh mẽ từ triết lý, mục tiêu giáo dục đến vai trò của người thầy, từ phương pháp dạy học đến vị trí “trung tâm” của người học v.v nhằm đáp ứng nhu cầu phát triển xã hội và đẩy mạnh sự tiến bộ của quốc gia nói chung và đổi mới giáo dục nói riêng

Hiện nay, trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM (ĐHBK) cũng như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên nhưng việc ứng dụng tập dữ liệu này cho công tác dự báo phục vụ sinh viên cũng như quản lý của nhà trường còn nhiều hạn chế Đối với các trường có bề dày lịch sử lâu đời như trường Đại học Bách Khoa sẽ có số lượng dữ liệu đáng kể, nhưng cũng có một số trường đại học có quy mô nhỏ và mới thành lập thì phải cần có thời gian thu thập dữ liệu đủ lớn để có thể thực hiện các nghiên cứu về dự đoán điểm cho sinh viên cho phù

hợp với quy mô cụ thể của từng trường Do đó, “Nghiên cứu, phát triển kỹ thuật lấy

mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học” là cần thiết phục vụ cho

việc sinh viên lựa chọn đăng ký môn học, định hướng học tập và phục vụ cho nhà trường trong việc lập kế hoạch, chiến lược phát triển đào tạo, định hình chương trình đào tạo và hỗ trợ tuyển sinh trong giai đoạn hiện nay

1.1.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận văn là kết quả điểm học tập của sinh viên hệ Đại học chính quy của tất cả các khoa tại trường ĐHBK từ năm 2014 đến năm 2017

1.1.3 Phạm vi nghiên cứu

Phạm vi nghiên cứu của luận văn trong lĩnh vực giáo dục bậc đại học Đề tài được thực hiện trên bộ dữ liệu sinh viên Đại học chính quy của trường ĐHBK từ năm 2014

Trang 17

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

đến năm 2017 Dữ liệu này là các thông tin về điểm của các môn học mà sinh viên đã học qua các học kỳ tương ứng trong quá trình học tập của sinh viên của tất cả các khoa

1.2 Mục tiêu nghiên cứu

Tìm hiểu các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa từ năm 2014 đến năm 2017

Nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê và phương pháp lấy mẫu trong học máy (Machine Learning)

Tìm hiểu các phương pháp phân tích dữ liệu từ đó, xây dựng mô hình và đưa ra dự đoán kết quả học tập (điểm các môn học) của sinh viên Đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG - TPHCM (ĐHBK)

Cuối cùng, đưa ra kết luận làm sao để chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của sinh viên ĐHBK

Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác nhất định dựa trên những đặc trưng riêng phù hợp với bộ dữ liệu

1.3 Nội dung nghiên cứu

Để hoàn thành các mục tiêu nghiên cứu nêu trên, luận văn tập trung nghiên cứu các nội dung chính sau:

Tìm hiểu các kỹ thuật lấy mẫu, chọn mẫu trong nghiên cứu khoa học thống kê và phương pháp lấy mẫu ứng dụng trong học máy (Machine Learning) để ứng dụng vào luận văn

Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên Đại học tại trường Đại học Bách Khoa - TPHCM gồm độ thưa dữ liệu, mật độ phân bố dữ liệu, các mối quan hệ tương quan đa biến của dữ liệu, độ xiên Skewness và Kutossis v.v

Xây dựng mô hình dự đoán điểm các môn học của sinh viên đại học

Trang 18

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

1.4 Ý nghĩa đề tài 1.4.1 Ý nghĩa khoa học

Vận dụng các kỹ thuật lấy mẫu, kỹ thuật phân tích dữ liệu trên nền tảng công nghệ khai phá dữ liệu dữ liệu giáo dục và học máy

Kết quả nghiên cứu có giá trị tham khảo cho các nghiên cứu tiếp theo về phân tích dữ liệu sinh viên Đại học

1.4.2 Ý nghĩa thực tiễn của luận văn

1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường

Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho khoa và các trường đại học nói chung, cụ thể là quản lý đào tạo, cố vấn học tập sinh viên như sau:

Ứng dụng lấy mẫu trong nghiên cứu và phân tích dữ liệu: Khi các khoa và trường đại học thực hiện các dự án nghiên cứu, việc lấy mẫu dữ liệu là một bước quan trọng để thu thập thông tin cần thiết Lấy mẫu đảm bảo rằng dữ liệu được thu thập có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích

Lấy mẫu dữ liệu có nhiều lợi ích như đảm bảo tính đại diện, tiết kiệm thời gian và nguồn lực, kiểm soát quy mô và đặc điểm, giảm bias và lỗi, cũng như áp dụng trong quá trình phân tích và dự đoán Điều này làm cho phương pháp lấy mẫu trở thành một công cụ quan trọng trong quá trình nghiên cứu và phân tích dữ liệu

Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho các cố vấn học tập, quản lý đào tạo sinh viên có thể biết được với dữ liệu về kết quả học tập của sinh viên hiện có thì các môn nào có nhiều sinh viên học không tốt, kết quả còn thấp để có thể tìm ra nguyên nhân cải thiện giúp sinh viên khắc phục, học tập tốt hơn

Từ đó, bộ môn chuyên ngành sẽ có kế hoạch xây dựng nội dung môn học, phương pháp giảng dạy cho môn học phù hợp hơn với sinh viên, cũng như khoa và các trường đại học cải thiện, đánh giá, điều chỉnh nội dung chương trình đào tạo, xây dựng chuẩn đầu ra của chương trình đào tạo dựa trên mục tiêu và ngành đào tạo của khoa và cung cấp sự hỗ trợ phù hợp để nâng cao hiệu quả học tập của sinh viên

Bên cạnh đó, giúp cho nhân viên phòng Đào tạo tư vấn, hỗ trợ sinh viên khi đăng ký môn học tự chọn hoặc tư vấn kết quả học tập của sinh viên tốt hơn

Trang 19

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

Giảm bớt lượng công việc tư vấn hỗ trợ sinh viên trong quá trình sinh viên học tập tại trường

Phát hiện sớm những môn học sinh viên không đạt trong quá trình học tập của sinh viên tại trường Cảnh báo cho sinh viên khi đăng ký môn học, chọn môn học phù hợp với năng lực học tập của mình

1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học

Hỗ trợ SV trong suốt quá trình học tập tại trường Dựa vào kết quả học tập của sinh viên của các môn đã học, dự đoán các môn học mà sinh viên sẽ học trong các học kỳ tiếp theo để sinh viên có thể đăng ký môn học có kết quả học tập tốt nhất, phù hợp với khả năng của mình

Dự báo sớm về các môn học không đạt, có thể xảy ra trong tương lai để có chiến lược học tập phù hợp Từ đó, có được định hướng, cảnh báo sớm cho sinh viên chú tâm, cố gắng hơn nữa trong việc học để có điểm trung bình toàn khóa cao nhất

Giúp sinh viên đã và đang học yếu kém biết được khả năng của mình để chọn học môn học phù hợp với khả năng bản thân mình sao cho kết quả học tập của SV đạt được cao nhất nhằm nâng cao điểm tích lũy học tập của sinh viên

Giúp sinh viên có cái nhìn tổng quan, có thể tự xây dựng lộ trình học tập, điều chỉnh phương pháp học cho phù hợp với năng lực

1.5 Cấu trúc luận văn

Cấu trúc luận văn bao gồm 5 chương, cụ thể như sau:

Chương 1: Giới thiệu đề tài

Giới thiệu các vấn đề cần nghiên cứu, mục tiêu, nội dung, ý nghĩa khoa học và thực tiễn của đề tài ứng dụng cho các bài toán dự đoán điểm sinh viên đại học

Chương 2: Tổng quan nghiên cứu

Giới thiệu nền tảng cơ sở lý thuyết về các công nghệ, kỹ thuật lấy mẫu và kỹ thuật Machine Learning xây dựng mô hình dự đoán điểm sinh viên áp dụng trong luận văn và các công trình nghiên cứu nổi bật có liên quan

Chương 3: Phân tích và giải pháp

Từ nền tảng cơ sở lý thuyết và nghiên cứu các công trình nghiên cứu trước, chương này trình bày các phân tích đặc trưng trên bộ dữ liệu hiện có

Trang 20

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

Từ đó, nêu lên những giải pháp đề xuất chọn mẫu dữ liệu và xây dựng mô hình phân tích dựa vào học máy cho bài toán dự đoán điểm số của sinh viên dựa trên dữ liệu quá khứ của sinh viên đã học

Chương 4: Kết quả và đánh giá

Từ những phân tích và đề xuất giải pháp trong chương 3, nội dung chính của chương này trình bày các thực nghiệm và những kết quả đạt được khi thực hiện gom nhóm lấy mẫu dữ liệu và xây dựng mô hình phân tích dự báo kết quả học tập của sinh viên Đại học của trường Đại học Bách Khoa - ĐHQG - TPHCM

Đánh giá kết quả thực hiện việc lấy mẫu dữ liệu và phân tích dự đoán điểm sinh viên đại học

Chương 5: Kết luận

Tóm lại các nội dung đã trình bày trong các chương, khẳng định lại các vấn đề cần nghiên cứu, đánh giá lại những mặt còn tồn đọng, và nêu lên các đề xuất phát triển trong tương lai

1.6 Kết luận chương 1

Phân tích dự đoán kết quả học tập của sinh viên là một lĩnh vực đang được nhiều sự quan tâm, nghiên cứu và vận dụng để cải thiện chất lượng giáo dục, đào tạo hiện nay tại Việt Nam nói chung và Đại học Bách Khoa - ĐHQG - TPHCM nói riêng Phương pháp lấy mẫu trong thống kê và lấy mẫu dữ liệu để phân tích trong machine learning đóng vai trò quan trọng trong việc giảm chi phí, thời gian và độ phức tạp tính toán, đồng thời đảm bảo đại diện dữ liệu và đưa ra kết quả chính xác

Với mục tiêu vận dụng cơ sở lý thuyết về kỹ thuật lấy mẫu dữ liệu cho phân tích dữ liệu và học máy để đưa ra phương án chọn mẫu dữ liệu phù hợp với bộ dữ liệu điểm sinh viên đại học Bách Khoa và dự đoán kết quả học tập của sinh viên Đại học Bách Khoa khi lựa chọn đăng ký môn học

Từ đó, đưa ra kết luận giúp cho các trường đại học đang sẵn có dữ liệu điểm sinh viên đại học có thể chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của trường mình Và nghiên cứu này cũng làm cơ sở tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực giáo dục đại học trong thời gian sắp tới

Trang 21

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU

Nội dung chính của chương này trình bày các kiến thức tổng quan về kiến thức nền tảng, cơ sở lý thuyết để thực hiện luận văn Là cơ sở nền tảng cho các phân tích, giải pháp giải quyết ở các chương tiếp theo

Gồm các nội dung chính như sau: ➢ Một số khái niệm

➢ Ưu điểm, nhược điểm các phương pháp lấy mẫu theo thống kê truyền thống

➢ Phân biệt phương pháp Lấy mẫu ➢ Phương pháp lấy mẫu theo nhóm

➢ Phương pháp dự đoán điểm sinh viên đại học ➢ Đánh giá độ chính xác của mô hình dự đoán

➢ Các công trình nghiên cứu nổi bật trong giáo dục đại học

Trang 22

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU 2.1 Một số khái niệm

2.1.1 Lấy mẫu (Sampling) là gì ?

Theo lý thuyết điều tra chọn mẫu (theory of sample surveys) nhằm mục đích lựa chọn một mẫu đơn vị để đại diện cho một tổng thể lớn hơn Sự ra đời của phương pháp đại diện bắt nguồn từ [3], người đề xuất tạo ra các ước tính bằng cách sử dụng mẫu các thành phố và cá nhân được kiểm soát không ngẫu nhiên, thay vì điều tra dân số Nhưng điều này thực sự với Neyman [4] rằng những điều cơ bản của lấy mẫu khảo sát hiện đại đã được ổn định Neyman đề xuất một thiết lập chặt chẽ cho các khảo sát ngẫu nhiên, đặt nền móng cho các khảo sát xác suất nhưng có kiểm soát, cho phép kiểm soát thống kê độ chính xác của các công cụ ước tính [1]

“Lấy mẫu là một phương pháp cho phép lấy thông tin về tổng thể

(population) dựa trên số liệu thống kê từ một tập hợp con của tổng thể (mẫu) mà không cần phải điều tra từng cá nhân” [20]

Hình 2 1: Định nghĩa Lấy mẫu

Tuy nhiên, trong học máy có giám sát và không giám sát trong Machine Learning có thể lấy mẫu [1] theo các dạng sau:

➢ Phương pháp lấy mẫu ngẫu nhiên đơn giản ➢ Lấy mẫu với xác suất không bằng nhau ➢ Thuộc tính thống kê của thiết kế lấy mẫu

Trang 23

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

2.1.2 Học máy có giám sát (Supervised Machine Learning)

Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới [24]

Hình 2 2: Supervised machine learning [24]

2.1.3 Cây quyết định (Decision Trees)

Cây quyết định tạo ra một mô hình dự đoán nhãn bằng cách đánh giá cây câu hỏi đặc trưng nếu-thì-khác đúng/sai và ước tính số lượng câu hỏi tối thiểu cần thiết để đánh giá xác suất đưa ra quyết định đúng Cây quyết định có thể được sử dụng để phân loại để dự đoán một danh mục hoặc hồi quy để dự đoán một giá trị số liên tục [24]

2.1.4 Hàm mất mát (Loss function)

Hàm mất mát là một trong những tham số cần thiết để xác định mức độ gần của một mạng neuron cụ thể đối với trọng số trong quá trình đào tạo

2.1.5 Kỹ thuật xuống đồi (Gradient descent)

Kỹ thuật xuống đồi (Gradient descent) là “kỹ thuật có thể giúp sự biến thiên của một hàm số luôn là giảm (xuống đồi) dựa trên sự thay đổi của các tham số cấu tạo nên hàm số này” [8]

Gradient Descent là cơ sở của nhiều trình tối ưu hoá và là một trong những thuật toán tối ưu hoá phổ biến nhất trong Machine Learning và Deep learning

Trang 24

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Gradient descent sử dụng đạo hàm cấp một (gradient) của loss function khi cập nhật các tham số Gradient cho độ dốc của một hàm tại thời điểm đó

Quá trình này bao gồm chuỗi dẫn xuất của giá trị mất mát (loss value) của từng tầng ẩn (hidden layer) từ các dẫn xuất của loss value của lớp trên nó, kết hợp chức năng kích hoạt trong phép tính toán

Trong mỗi lần lặp lại, khi tất cả các neuron có giá trị của gradient của loss funtion tương ứng với chúng, giá trị của tham số được cập nhật theo hướng ngược lại với các giá trị được chỉ ra bởi gradient

• Mục tiêu: tìm vector các tham số sao cho tối ưu hoá hàm mục tiêu cụ thể

Như vậy, kết quả của gradient descent là kết hợp các trọng số (weight) của các độ dốc (gradient)

Trang 25

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

2.2 Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống

Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống

Phương pháp chọn mẫu

Ngẫu nhiên đơn giản

Dễ thực hiện, tính khách quan cao

Có thể lồng ghép vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác

Cần phải có một danh sách của các đơn vị mẫu Không dùng được cho mẫu lớn hoặc mẫu dao động

Mẫu được chọn có thể phân tán khó thu thập

Có khả năng bỏ sót vài nhóm trong tổng thể

Chọn mẫu hệ

thống

Nhanh, dễ thực hiện Độ chính xác cao, chọn đối tượng theo mục đích điều tra Tính đại diện cao hơn

Có thể bị trùng lặp, dẫn đến mẫu thiếu tính đại diện

Chọn mẫu phân

tầng

Độ chính xác cao Tính đại diện cao hơn và dễ quản lý mẫu ngẫu nhiên đơn giản

Cần thiết lập khung mẫu cho từng tầng Điều này thường khó thực hiện trong thực tế

Chọn mẫu theo cụm

Áp dụng cho phạm vi rộng lớn, độ phân tán cao Dễ chọn và chi phí rẻ hơn

Tổng thể phải lớn Nếu cùng cỡ mẫu tính đại diện hoặc tính chính xác thấp hơn mẫu ngẫu nhiên đơn giản

Chọn mẫu nhiều

bậc

Hiệu quả trong việc thu thập dữ liệu sơ cấp Hiệu quả về chi phí và thời gian Mức độ linh hoạt cao

Mức độ chủ quan cao Kết quả nghiên cứu không bao giờ có thể đại diện 100% Sự hiện diện của thông tin cấp nhóm là bắt buộc

Trang 26

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

2.3 Phân biệt các phương pháp Lấy mẫu

Bảng 2 2: Phân biệt các phương pháp Lấy mẫu

Lấy mẫu trong Thống kê

truyền thống (Statistics) Lấy mẫu trong Học máy (Machine Learning)

Lấy mẫu trong Học máy Thống kê

(Statistical Machine Learning hoặc Statistical Learning)

Phương

pháp Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven)

Việc học dữ liệu

Ngữ cảnh Được sử dụng trong lĩnh vực thống

Áp dụng các phương pháp thống kê trong việc xây dựng mô hình machine learning

Mục đích (Purpose)

Rút ra các kết luận về đặc điểm và thông tin của quần thể dựa trên một mẫu đại diện

- Sử dụng để ước lượng các tham số và tính toán khoảng tin cậy, sai số, và độ tin cậy của các ước lượng đối với quần thể

Tập trung vào việc chọn một tập dữ liệu huấn luyện từ tập dữ liệu ban đầu để xây dựng mô hình hoặc học thuật

Ước lượng và đánh giá thông tin về quần thể gồm các tham số, tổng quan hoặc mô hình của quần thể (population) dữ liệu ban đầu

- Tạo ra tập dữ liệu huấn luyện để xây dựng mô hình có tính đại diện, tổng quát để mô hình có khả năng tổng quát hoá tốt

- Đảm bảo mô hình được huấn luyện trên đủ các trường hợp và có khả năng tổng quát hóa tốt trên dữ liệu mới

- Tạo ra một tập dữ liệu huấn luyện có tính tổng quát và khả năng đại diện cho quần thể dữ liệu ban đầu - Sử dụng các phương pháp thống kê để hiểu rõ hơn và tối ưu hóa các thuật toán Machine Learning, thông qua việc xác định mẫu, quy tắc, và đặc trưng quan trọng, đánh giá và so sánh các mô hình

Trang 27

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Lấy mẫu trong Thống kê

(Machine Learning)

Lấy mẫu trong Học máy Thống kê

(Statistical Machine Learning hoặc Statistical Learning)

Phạm vi ứng dụng

Trong các nghiên cứu khoa học, điều tra dân số và phân tích dữ liệu

Là một phần quan trọng trong quá trình xây dựng mô hình học máy và áp dụng các thuật toán để máy tính có thể học từ dữ liệu và tự động thực hiện các tác vụ giải quyết các vấn đề thực tế

Lấy mẫu như một phần của quá trình toàn diện hơn Nó sử dụng các phương pháp lấy mẫu thống kê để xác định một tập mẫu đại diện từ tập dữ liệu ban đầu

Phương pháp tiếp cận

Sử dụng các phương pháp và kỹ thuật để lấy mẫu từ một quần thể lớn để đại diện cho các đặc điểm quan trọng của quần thể đó như: lấy mẫu ngẫu nhiên đơn giản, hệ thống, phân tầng và theo nhóm

Sử dụng các phương pháp tiếp cận khác nhau như hồi quy, phân loại, gom cụm, và kỹ thuật thực nghiệm để xây dựng mô hình, và xác định các mối quan hệ giữa các biến

Sử dụng các thuật toán học máy và phương pháp thống kê để xác định các mối quan hệ và kiến thức từ dữ liệu

Xác định các mối quan hệ các mẫu, đặc trưng

- Lấy mẫu tập trung vào việc phân tích dữ liệu, ước lượng tham số và đánh giá độ tin cậy của kết quả

- Lấy mẫu thường nhằm đảm bảo tập dữ liệu huấn luyện bao gồm các mẫu đại diện từ các lớp hoặc phân phối dữ liệu khác nhau để đảm bảo tính đa dạng và khả năng tổng quát hóa của mô hình

- Lấy mẫu thường kết hợp phương pháp thống kê để xác định các mẫu đại diện và đặc trưng quan trọng trong dữ liệu - Tạo ra các mô hình Machine Learning có tính diễn giải cao và cung cấp thông tin hữu ích về mối quan hệ giữa các biến trong dữ liệu

- Đi kèm với việc xây dựng và tối ưu hoá mô hình Machine Learning, sử dụng các thuật toán học máy và phương pháp thống kê

Kiến thức từ dữ liệu

- Sử dụng để xác định phương pháp lấy mẫu, lựa chọn biến quan trọng, tính toán kích thước mẫu, đánh giá sai số và độ tin cậy, và tạo ra những kết luận có ý nghĩa về quần thể mà chúng ta quan tâm

Tập trung vào khả năng dự đoán và đa dạng của tập dữ liệu huấn luyện, mối quan hệ với lý thuyết thống kê thường ít được xem xét

- Sử dụng để hiểu và tối ưu hóa mô hình Machine Learning

Trang 28

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

2.4 Phương pháp Lấy mẫu theo nhóm (Clustering Sampling)

Phương pháp lấy mẫu dữ liệu để đưa vào mô hình Machine Learning được sử dụng trong luận văn này là phương pháp lấy mẫu theo nhóm (Clustering Sampling) Phương pháp kỹ thuật lấy mẫu theo nhóm là kỹ thuật chọn mẫu trong

đó việc lựa chọn các nhóm cá thể có cùng tính chất

Ví dụ: Sinh viên học chung các môn học Chính trị, xã hội sẽ xếp vào cùng một nhóm, sinh viên của cùng 1 khoa học các môn chuyên ngành của khoá đó sẽ trong nhóm của từng khoa

❖ Cách thực hiện:

Bước 1: Xác định các cụm thích hợp

Bước 2: Lập danh sách dự đoán điểm sinh viên như sau:

Có hai cách chọn mẫu theo ý tưởng của người thực hiện nghiên cứu:

Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu

Ví dụ: tất cả các sinh viên toàn trường học tất cả các môn học

Cách 2: Danh sách các cá thể trong các cụm đã chọn, sau đó áp dụng

cách chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi

cụm để chọn các cá thể vào mẫu

Ví dụ: Danh sách nhóm các sinh viên học chung các môn học Chính trị, xã hội, ngoại ngữ, các môn Tự nhiên (gọi tắt là: các môn học chung) của tất cả các khoa và nhóm các môn học chuyên ngành của từng khoa

Trang 29

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Tăng cường độ dốc bổ sung các yếu tố dự đoán một cách tuần tự vào nhóm, trong đó các yếu tố dự đoán trước sửa các yếu tố kế tiếp của chúng, tạo thành chuỗi các mô hình (model) mà mô hình sau sẽ tốt hơn model trước bởi trọng số được cập nhật qua mỗi model Cụ thể là, trọng số của những dữ liệu dự đoán đúng sẽ không đổi, còn trọng số của những dữ liệu dự đoán sai sẽ được tăng thêm và lấy kết quả của model cuối cùng trong chuỗi model này làm kết quả trả về Do đó làm tăng độ chính xác của mô hình

Thuật toán Gradient Boosting tổng quát

Thuật toán này nhằm xấp xỉ độ dốc (gradient) thông qua một hàm tham số h x a( ; n) Tại mỗi vòng lặp, tính gradient , xem

{−y xi, }iN là tập training để huấn luyện

Trang 30

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Có thể viết hàm Gradient Boost [2] như sau:

Hình 2 4: Thuật toán Gradient Boosting [2]

Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model)

Chủ yếu có 3 thành phần chính được sử dụng để tăng độ dốc [20] như sau: - Hàm mất mát (Loss function): là thành phần chính và cơ bản của mô hình

tăng cường độ dốc (Gradient Boosting model) để tối ưu hoá chức năng mất mát được thực hiện Hàm mất mát cải tiến nhiều loại vấn đề khác nhau - Thành phần học yếu (weak learner) để đưa ra các dự đoán Một cây quyết

định là một thành phần “Weak Learner” Cây hồi quy cụ thể dành cho các giá trị đầu ra thực tế được sử dụng để phân tách

- Mô hình bổ sung (an additional model) không cần sửa đổi cây trước đó và cây hiện có trong mô hình Sau một thời gian mô hình yêu cầu thêm cây, mô hình tăng cường độ dốc làm giảm khả năng mất mát Nó cũng làm giảm bớt các tham số và giảm tối thiểu lỗi của trọng số cập nhật sau khi tính toán lỗi

Trang 31

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Weak Learner 1

Prediction 1

Prediction 2

Prediction 3

Final PredictionWeak

Learner 2

Weak Learner 3

Weak Learner 3

Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting

2.5.2 XGBoost

XGBoost, viết tắt của Extreme Gradient Boosting, là thư viện máy học cây quyết định tăng cường độ dốc có thể mở rộng, phân tán Nó cung cấp khả năng tăng cường cây song song và là thư viện máy học hàng đầu cho các vấn đề về hồi quy, phân loại và xếp hạng [24]

XGBoost là một trong những thuật toán học máy phổ biến và được sử dụng rộng rãi nhất hiện nay XGBoost nhằm giải quyết bài toán supervised learning cho độ chính xác khá cao và thường giành giải chiến thắng trong các cuộc thi trên Kaggle Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới

❖ Hoạt động của mô hình XGBoost

XGBoost là một triển khai tăng cường độ dốc có thể mở rộng và có độ chính xác cao giúp đẩy các giới hạn của sức mạnh tính toán cho các thuật toán cây được tăng cường, được xây dựng chủ yếu để tăng cường hiệu suất và tốc độ tính toán của mô hình máy học

Trang 32

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

Với XGBoost, các cây được xây dựng song song, thay vì tuần tự như Gradient Boostng Nó tuân theo một chiến lược khôn ngoan theo cấp độ, quét qua các giá trị độ dốc và sử dụng các tổng từng phần này để đánh giá chất lượng của các phần tách ở mọi phần tách có thể có trong tập huấn luyện

XGBoost sử dụng cây quyết định với độ dốc được tăng cường, giúp cải thiện tốc độ và hiệu suất Nó phụ thuộc rất nhiều vào tốc độ tính toán và hiệu suất của mô hình mục tiêu Việc đào tạo mô hình phải tuân theo một trình tự, do đó làm chậm quá trình triển khai các máy tăng cường độ dốc

Nếu Deep learning chỉ nhận đầu vào là dữ liêu thô (raw data) dạng numerical (ta thường phải chuyển đổi sang n-vector trong không gian số thực) thì XGBoost nhận đầu vào là tabular datasets với mọi kích thước và dạng dữ liệu bao gồm cả categorical mà dạng dữ liệu này thường được tìm thấy nhiều hơn trong business model

Bên cạnh đó, XGBoost có tốc độ huấn luyện nhanh, có khả năng scale để tính toán song song trên nhiều server, có thể tăng tốc bằng cách sử dụng GPU có thể tính toán nhanh với dũ liệu lớn (Big data)

2.6 Đánh giá độ chính xác của mô hình dự đoán

Kết quả dự đoán sử dụng các phép đo độ chính xác của mô hình hồi quy “được tính toán dựa trên sai số của giá trị dự báo so với giá trị thực tế của dữ liệu” [8]

Sử dụng các sai số dự báo hay còn gọi là độ đo hàm lỗi MAE, RMSE, MSE, và R Square để đánh giá hiệu quả của mô hình Giá trị của các độ đo hàm lỗi càng nhỏ thì biểu thị mô hình càng tốt

Với hàm lỗi trung bình bình phương (RMSE) là một hàm chi phí trên cơ sở xác định hiệu suất của mô hình trong việc đưa ra dự đoán hoặc tìm ước tính Giá trị này càng gần với 0, mô hình càng tốt RMSE được tính toán trên dữ liệu ước tính/dự đoán bằng cách so sánh nó với các giá trị thực

Trang 33

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

• Sai số bình phương trung bình (MSE)

1 n

=− (2.3) Trong đó, Yt là dữ liệu tại thời điểm t

2.7 Các công trình nghiên cứu nổi bật trong giáo dục đại học

Trong lĩnh vực khái phá dữ liệu giáo dục (Education Data mining) là một trong những hướng nghiên cứu phổ biến là trích xuất các thông tin cần thiết để dự đoán khả năng học tập của sinh viên [12,17]

Thông thường, các nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Nghiên cứu sử dụng phương pháp dự đoán dựa trên dữ liệu để xác định yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên Các tác giả J M Aiken, R De Bin, M Hjorth-Jensen and M D Caballero [14] đã thu thập dữ liệu từ một số lượng lớn sinh viên tại trường đại học và sử dụng các phương pháp thống kê và học máy sử dụng logistic regression và XGBoost để phân tích dữ liệu Nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Kết quả cho thấy có nhiều yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên, bao gồm kỹ năng học tập, môi trường học tập, hỗ trợ từ gia đình và bạn bè,

Trang 34

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

và yếu tố kinh tế Kết quả nghiên cứu có thể hỗ trợ các nhà quản lý giáo dục đưa ra biện pháp nhằm nâng cao tỷ lệ tốt nghiệp

Nhóm tác giả L E Contreras Bravo, J A Caro Silva and D L Morales Rodríguez [15] đã làm nghiên cứu tổng hợp đánh giá về việc sử dụng phương pháp Ensemble trong dự đoán kết quả học tập sinh viên Nhóm tác giả tập trung vào việc khảo sát các phương pháp ensemble, tức là việc kết hợp nhiều mô hình dự đoán để cải thiện độ chính xác của việc dự đoán hiệu suất học tập Kết quả của bài báo cho thấy rằng sử dụng các phương pháp ensemble có thể cải thiện khả năng dự đoán hiệu suất học tập của sinh viên so với việc sử dụng một mô hình dự đoán đơn lẻ Các phương pháp ensemble bao gồm voting, stacking, bagging và boosting Tuy nhiên, các tác giả nhận thấy còn nhiều khía cạnh cần nghiên cứu và cải tiến để tối ưu hóa việc sử dụng các phương pháp ensemble trong dự đoán hiệu suất học tập của sinh viên

Nhóm tác giả T Hu và T Song [17] sử dụng thuật toán XGBoost để xây dựng mô hình dự báo và phân tích học tập của sinh viên Các tác giả đã sử dụng dữ liệu học tập của sinh viên để dự báo kết quả học tập của họ dựa trên các yếu tố như điểm số trước đây, tham gia vào các hoạt động ngoại khóa, và các yếu tố khác liên quan Kết quả của nghiên cứu cho thấy XGBoost có khả năng dự báo kết quả học tập với độ chính xác cao Mô hình XGBoost cung cấp thông tin quan trọng về mức độ ảnh hưởng của các yếu tố khác nhau đối với kết quả học tập Bài viết cũng cung cấp một phân tích chi tiết về các yếu tố quan trọng và mức độ ảnh hưởng của chúng đối với kết quả học tập và giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến kết quả học tập và hỗ trợ các nhà giáo dục và nhà quản lý giáo dục trong việc đưa ra các biện pháp nhằm nâng cao hiệu quả học tập của sinh viên

2.8 Kết luận chương 2

Chương 2 trình bày Tổng quan nghiên cứu, cơ sở lý thuyết liên quan để thực hiện luận văn

Trang 35

Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam

CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP

Từ mục tiêu cần đạt được trong chương I, phân tích các vấn đề để xây dựng mô hình phân tích điểm của sinh viên Đại học Từ đó, đưa ra các giải pháp đề xuất thực hiện trên bộ dữ liệu để đạt được kết quả xây dựng mô hình phân tích dự báo và gợi ý điểm các môn học tiếp theo của sinh viên Đại học tại trường Đại học Bách Khoa – ĐHQG - TPHCM

Gồm các nội dung chính như sau: ➢ Mô tả bài toán

➢ Các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa ➢ Phân bố điểm sinh viên đại học Bách Khoa

➢ Độ xiên (skewness) và Kurtosis điểm của sinh viên ➢ Xây dựng mô hình dự đoán điểm sinh viên

➢ Giải pháp giải quyết bài toán

Trang 36

Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam

CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP

Đa số tất cả các trường đại học hiện nay đều đào tạo theo hình thức tín chỉ dựa trên Quy chế đào tạo tín chỉ của Bộ giáo dục và Đào tạo Sinh viên sẽ học một số học phần bắt buộc và học phần tự chọn Mỗi ngành sẽ có chương trình đào tạo riêng cho ngành đó Các học phần sinh viên cần tích luỹ được quy định trong chương trình đào tạo, bao gồm: nhóm học phần bắt buộc và nhóm học phần tự chọn của chuyên ngành

Học phần bắt buộc là học phần gồm những nội dung kiến thức chính yếu của mỗi chương trình đào tạo bắt buộc sinh viên phải tích lũy Các học phần tự chọn là học phần chứa những kiến thức cần thiết sinh viên sẽ tự chọn theo các chuyên ngành đào tạo nhằm đa dạng hoá chuyên môn hoặc sinh viên được chọn lựa tuỳ ý theo quy định của mỗi chương trình để tích luỹ đủ số tín chỉ, học phần

Bài toán dự đoán điểm sớm cho sinh viên đại học sẽ giúp cho sinh viên có được cái nhìn tổng quan về các môn học mà sinh viên sẽ học trong thời gian tới dựa trên kết quả điểm học tập các học phần mà sinh viên đã hoàn thành Sinh viên sẽ thực hiện dự đoán điểm theo các nhóm môn học chung và môn học tự chọn chuyên ngành của từng khoa được quy định trong chương trình đào tạo

Định dạng ban đầu của bộ dữ liệu này là những file có định dạng excel (.xlsx) Bộ dữ liệu này bao gồm 2.453.995 dòng dữ liệu có 60.953 sinh viên, 4.610 môn học của tất cả các ngành thuộc 12 khoa và 2 trung tâm đào tạo Mỗi bản ghi thể hiện thông tin của sinh viên học tập các môn học với điểm số tương ứng của từng môn học

Mỗi tập tin kết quả học tập của sinh viên các Khoa, ngành đều có các thuộc tính như sau: Năm học, học kỳ, mã học kỳ, mã môn học, tên môn học, đơn vị tín chỉ, phần trăm kiểm tra, phần trăm thi, mã nhóm, mã tổ, số thứ tự, mã khoa, tên lớp, khối, mã ngành, tên ngành, mã số sinh viên, điểm kiểm tra, tỉ lệ kiểm tra, điểm bài tập, tỉ lệ bài tập, điểm bài tập lớn, tỉ lệ bài tập lớn, điểm thí nghiệm, tỉ lệ thí nghiệm, điểm thi, tỉ lệ thi, điểm tổng kết, điểm tổng kết 1, điểm tổng kết 2, điểm tổng kết hệ 10, ghi chú

Trang 37

Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam

Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM

Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa

(sau khi Tiền xử lý dữ liệu)

Trang 38

Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam

• Biểu đồ phân bố điểm sinh viên của từng khoa

Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp

Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí

Ngày đăng: 30/07/2024, 17:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN