Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học

GIỚI THIỆU ĐỀ TÀI

Giới thiệu đề tài

1.1.1 Giới thiệu vấn đề cần nghiên cứu

Trong bối cảnh nền kinh tế tri thức và toàn cầu hóa, nhiều quốc gia đang tìm kiếm cách nâng cao chất lượng giáo dục để đáp ứng nhu cầu nguồn nhân lực chất lượng cao Việt Nam đang thực hiện công cuộc đổi mới toàn diện và "số hóa" giáo dục, đặc biệt là ở bậc đại học và sau đại học Giáo dục đại học tại Việt Nam đang trải qua những thay đổi mạnh mẽ về triết lý, mục tiêu, vai trò của giảng viên và phương pháp dạy học, nhằm đáp ứng nhu cầu phát triển xã hội và thúc đẩy sự tiến bộ quốc gia.

Trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM (ĐHBK) hiện đang sở hữu dữ liệu về kết quả học tập của sinh viên, nhưng việc ứng dụng dữ liệu này cho dự báo và quản lý vẫn còn hạn chế Các trường có bề dày lịch sử như ĐHBK có lượng dữ liệu đáng kể, trong khi các trường nhỏ và mới thành lập cần thời gian để thu thập dữ liệu đủ lớn phục vụ nghiên cứu dự đoán điểm cho sinh viên Do đó, nghiên cứu và phát triển kỹ thuật lấy mẫu cho bài toán dự đoán điểm sinh viên là cần thiết, giúp sinh viên lựa chọn môn học, định hướng học tập và hỗ trợ nhà trường trong lập kế hoạch, chiến lược phát triển đào tạo cũng như tuyển sinh.

1.1.2 Đối tượng nghiên cứu Đối tượng nghiên cứu của luận văn là kết quả điểm học tập của sinh viên hệ Đại học chính quy của tất cả các khoa tại trường ĐHBK từ năm 2014 đến năm 2017

Phạm vi nghiên cứu của luận văn tập trung vào giáo dục bậc đại học, sử dụng bộ dữ liệu sinh viên chính quy của trường ĐHBK từ năm 2014.

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam đến năm 2017 Dữ liệu này là các thông tin về điểm của các môn học mà sinh viên đã học qua các học kỳ tương ứng trong quá trình học tập của sinh viên của tất cả các khoa.

Mục tiêu nghiên cứu

Tìm hiểu các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa từ năm 2014 đến năm 2017

Nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê và phương pháp lấy mẫu trong học máy (Machine Learning)

Nghiên cứu các phương pháp phân tích dữ liệu giúp xây dựng mô hình dự đoán kết quả học tập của sinh viên Đại học Bách Khoa - ĐHQG - TPHCM (ĐHBK) Mô hình này dựa trên dữ liệu quá khứ của sinh viên từ tất cả các khoa, nhằm đưa ra dự đoán chính xác về điểm số các môn học.

Cuối cùng, đưa ra kết luận làm sao để chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của sinh viên ĐHBK

Phương pháp lấy mẫu trong luận văn này tập trung vào việc xây dựng một tập dữ liệu huấn luyện nhỏ, đồng thời đảm bảo rằng kết quả dự đoán điểm của sinh viên đạt được độ chính xác nhất định Điều này dựa trên các đặc trưng riêng phù hợp với bộ dữ liệu đã được xác định.

Nội dung nghiên cứu

Để hoàn thành các mục tiêu nghiên cứu nêu trên, luận văn tập trung nghiên cứu các nội dung chính sau:

Trong nghiên cứu khoa học thống kê, việc nắm vững các kỹ thuật lấy mẫu và chọn mẫu là rất quan trọng Các phương pháp lấy mẫu ứng dụng trong học máy (Machine Learning) cũng đóng vai trò then chốt trong việc cải thiện độ chính xác của mô hình Hiểu rõ các kỹ thuật này sẽ giúp sinh viên áp dụng hiệu quả vào luận văn của mình, từ đó nâng cao chất lượng nghiên cứu.

Nghiên cứu đặc trưng dữ liệu sinh viên tại Đại học Bách Khoa - TPHCM bao gồm phân tích độ thưa dữ liệu, mật độ phân bố, các mối quan hệ tương quan đa biến, cùng với việc đánh giá độ xiên (Skewness) và độ nhọn (Kurtosis) của dữ liệu.

Xây dựng mô hình dự đoán điểm các môn học của sinh viên đại học

Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam

Ý nghĩa đề tài

Vận dụng các kỹ thuật lấy mẫu, kỹ thuật phân tích dữ liệu trên nền tảng công nghệ khai phá dữ liệu dữ liệu giáo dục và học máy

Kết quả nghiên cứu có giá trị tham khảo cho các nghiên cứu tiếp theo về phân tích dữ liệu sinh viên Đại học

1.4.2 Ý nghĩa thực tiễn của luận văn

1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường

Việc thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học mang lại nhiều lợi ích cho các khoa và trường đại học, đặc biệt trong quản lý đào tạo và cố vấn học tập Ứng dụng lấy mẫu trong nghiên cứu giúp thu thập thông tin cần thiết, đảm bảo dữ liệu có tính đại diện và có khả năng áp dụng cho các phân tích và nghiên cứu tiếp theo.

Lấy mẫu dữ liệu mang lại nhiều lợi ích, bao gồm đảm bảo tính đại diện, tiết kiệm thời gian và nguồn lực, kiểm soát quy mô và đặc điểm, giảm thiểu bias và lỗi, cũng như hỗ trợ trong quá trình phân tích và dự đoán Do đó, phương pháp lấy mẫu là công cụ quan trọng trong nghiên cứu và phân tích dữ liệu.

Việc lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học mang lại lợi ích lớn cho các cố vấn học tập và quản lý đào tạo Qua việc sử dụng dữ liệu về kết quả học tập hiện có, họ có thể xác định các môn học mà sinh viên gặp khó khăn và có kết quả thấp Từ đó, các nguyên nhân có thể được tìm ra để cải thiện, giúp sinh viên khắc phục và nâng cao hiệu quả học tập.

Bộ môn chuyên ngành sẽ phát triển kế hoạch xây dựng nội dung và phương pháp giảng dạy phù hợp với sinh viên, đồng thời cải thiện và điều chỉnh chương trình đào tạo dựa trên đánh giá từ khoa và các trường đại học Mục tiêu là xây dựng chuẩn đầu ra dựa trên ngành đào tạo và cung cấp hỗ trợ cần thiết nhằm nâng cao hiệu quả học tập cho sinh viên.

Nhân viên phòng Đào tạo sẽ cung cấp tư vấn và hỗ trợ cho sinh viên trong việc đăng ký môn học tự chọn, đồng thời cải thiện việc tư vấn kết quả học tập của sinh viên.

Giảm bớt lượng công việc tư vấn hỗ trợ sinh viên trong quá trình sinh viên học tập tại trường

Phát hiện sớm các môn học mà sinh viên không đạt yêu cầu trong quá trình học tập là rất quan trọng Điều này giúp cảnh báo sinh viên khi đăng ký môn học, từ đó họ có thể chọn lựa các môn học phù hợp với năng lực học tập của bản thân.

1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học

Hỗ trợ sinh viên trong suốt quá trình học tập tại trường bằng cách dự đoán các môn học trong các học kỳ tiếp theo dựa trên kết quả học tập của sinh viên Điều này giúp sinh viên lựa chọn môn học phù hợp với khả năng và có kết quả học tập tốt nhất.

Dự báo sớm về các môn học có nguy cơ không đạt giúp sinh viên xây dựng chiến lược học tập hiệu quả Điều này không chỉ cung cấp định hướng rõ ràng mà còn cảnh báo sinh viên cần chú tâm và nỗ lực hơn trong học tập, từ đó nâng cao điểm trung bình toàn khóa.

Giúp sinh viên nhận thức được khả năng học tập của bản thân để lựa chọn môn học phù hợp, từ đó nâng cao kết quả học tập và điểm tích lũy.

Giúp sinh viên có cái nhìn tổng quan, có thể tự xây dựng lộ trình học tập, điều chỉnh phương pháp học cho phù hợp với năng lực.

Cấu trúc luận văn

Cấu trúc luận văn bao gồm 5 chương, cụ thể như sau:

Chương 1: Giới thiệu đề tài

Đề tài nghiên cứu này tập trung vào việc ứng dụng các phương pháp phân tích để dự đoán điểm số của sinh viên đại học Mục tiêu chính là xác định các yếu tố ảnh hưởng đến kết quả học tập và phát triển các mô hình dự đoán chính xác Nội dung nghiên cứu sẽ bao gồm việc thu thập dữ liệu, phân tích các biến số và áp dụng các thuật toán học máy Ý nghĩa khoa học của đề tài không chỉ giúp cải thiện chất lượng giáo dục mà còn cung cấp thông tin hữu ích cho các nhà quản lý giáo dục trong việc đưa ra quyết định Thực tiễn, nghiên cứu này sẽ hỗ trợ sinh viên trong việc lập kế hoạch học tập hiệu quả hơn, từ đó nâng cao thành tích học tập.

Chương 2: Tổng quan nghiên cứu

Nền tảng lý thuyết về công nghệ và kỹ thuật lấy mẫu, cùng với các phương pháp Machine Learning, đóng vai trò quan trọng trong việc xây dựng mô hình dự đoán điểm sinh viên Những ứng dụng này không chỉ hữu ích trong luận văn mà còn trong các nghiên cứu nổi bật liên quan, giúp cải thiện quy trình đánh giá và phân tích kết quả học tập.

Chương 3: Phân tích và giải pháp

Dựa trên cơ sở lý thuyết và nghiên cứu các công trình trước đây, chương này thực hiện phân tích đặc trưng trên bộ dữ liệu hiện có.

Để dự đoán điểm số của sinh viên dựa trên dữ liệu quá khứ, cần đề xuất các giải pháp chọn mẫu dữ liệu và xây dựng mô hình phân tích sử dụng học máy.

Chương 4: Kết quả và đánh giá

Chương này trình bày các thực nghiệm và kết quả đạt được từ việc gom nhóm lấy mẫu dữ liệu nhằm xây dựng mô hình phân tích dự báo kết quả học tập của sinh viên Đại học Bách Khoa - ĐHQG - TPHCM Nội dung cũng đánh giá hiệu quả của việc lấy mẫu dữ liệu và phân tích dự đoán điểm số của sinh viên đại học.

Tóm lại, bài viết đã trình bày các nội dung chính trong các chương, nhấn mạnh những vấn đề cần nghiên cứu thêm, đánh giá những hạn chế còn tồn tại và đưa ra các đề xuất phát triển cho tương lai.

TỔNG QUAN NGHIÊN CỨU

Một số khái niệm

2.1.1 Lấy mẫu (Sampling) là gì ?

Theo lý thuyết điều tra chọn mẫu, mục đích là chọn một mẫu đại diện cho tổng thể lớn hơn Phương pháp đại diện xuất phát từ ý tưởng sử dụng mẫu các thành phố và cá nhân không ngẫu nhiên để tạo ra ước tính, thay vì điều tra toàn bộ dân số Neyman đã đóng góp quan trọng khi thiết lập các nguyên tắc cơ bản cho khảo sát ngẫu nhiên, tạo nền tảng cho các khảo sát xác suất có kiểm soát, giúp cải thiện độ chính xác của các công cụ ước tính.

“Lấy mẫu là một phương pháp cho phép lấy thông tin về tổng thể

(population) dựa trên số liệu thống kê từ một tập hợp con của tổng thể (mẫu) mà không cần phải điều tra từng cá nhân” [20]

Hình 2 1: Định nghĩa Lấy mẫu

Tuy nhiên, trong học máy có giám sát và không giám sát trong Machine Learning có thể lấy mẫu [1] theo các dạng sau:

➢ Phương pháp lấy mẫu ngẫu nhiên đơn giản

➢ Lấy mẫu với xác suất không bằng nhau

➢ Thuộc tính thống kê của thiết kế lấy mẫu

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam

2.1.2 Học máy có giám sát (Supervised Machine Learning)

Học máy có giám sát áp dụng các thuật toán để xây dựng mô hình nhằm nhận diện các mẫu trong tập dữ liệu có nhãn và đặc trưng Sau khi mô hình được đào tạo, nó có khả năng dự đoán nhãn cho các đặc trưng trong tập dữ liệu mới.

2.1.3 Cây quyết định (Decision Trees)

Cây quyết định là một mô hình dự đoán nhãn hiệu quả, hoạt động bằng cách đánh giá các câu hỏi đặc trưng theo dạng nếu-thì-khác để xác định đúng/sai Mô hình này ước tính số lượng câu hỏi tối thiểu cần thiết nhằm đánh giá xác suất đưa ra quyết định chính xác Cây quyết định có thể được áp dụng trong phân loại để dự đoán danh mục hoặc trong hồi quy để dự đoán giá trị số liên tục.

2.1.4 Hàm mất mát (Loss function)

Hàm mất mát đóng vai trò quan trọng trong việc xác định độ chính xác của mạng neuron trong quá trình đào tạo, giúp đánh giá sự phù hợp của trọng số.

2.1.5 Kỹ thuật xuống đồi (Gradient descent)

Kỹ thuật xuống đồi (Gradient descent) là phương pháp giúp tối ưu hóa hàm số bằng cách giảm giá trị của nó thông qua việc điều chỉnh các tham số Kỹ thuật này đảm bảo rằng sự biến thiên của hàm số luôn hướng xuống, tức là giảm dần theo từng bước điều chỉnh.

Gradient Descent is fundamental to various optimization techniques and is one of the most widely used algorithms in Machine Learning and Deep Learning.

Gradient descent sử dụng đạo hàm cấp một (gradient) của loss function khi cập nhật các tham số Gradient cho độ dốc của một hàm tại thời điểm đó

Quá trình này bao gồm chuỗi dẫn xuất giá trị mất mát từ các tầng ẩn, được tính toán dựa trên dẫn xuất của giá trị mất mát từ lớp trên cùng, kết hợp với chức năng kích hoạt trong các phép toán.

Trong mỗi lần lặp lại, các neuron sẽ nhận giá trị gradient từ hàm mất mát tương ứng Dựa vào các giá trị này, tham số được cập nhật theo hướng ngược lại với gradient để tối ưu hóa quá trình học.

• Mục tiêu: tìm vector các tham số sao cho tối ưu hoá hàm mục tiêu cụ thể

Như vậy, kết quả của gradient descent là kết hợp các trọng số (weight) của các độ dốc (gradient)

Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống

Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống

Phương pháp chọn mẫu Ưu điểm Nhược điểm

Dễ thực hiện, tính khách quan cao

Có thể lồng ghép vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác

Cần phải có một danh sách của các đơn vị mẫu Không dùng được cho mẫu lớn hoặc mẫu dao động

Mẫu được chọn có thể phân tán khó thu thập

Có khả năng bỏ sót vài nhóm trong tổng thể

Nhanh, dễ thực hiện Độ chính xác cao, chọn đối tượng theo mục đích điều tra Tính đại diện cao hơn

Có thể bị trùng lặp, dẫn đến mẫu thiếu tính đại diện

Chọn mẫu phân tầng Độ chính xác cao Tính đại diện cao hơn và dễ quản lý mẫu ngẫu nhiên đơn giản

Cần thiết lập khung mẫu cho từng tầng Điều này thường khó thực hiện trong thực tế

Chọn mẫu theo cụm Áp dụng cho phạm vi rộng lớn, độ phân tán cao

Dễ chọn và chi phí rẻ hơn

Tổng thể phải lớn Nếu cùng cỡ mẫu tính đại diện hoặc tính chính xác thấp hơn mẫu ngẫu nhiên đơn giản

Hiệu quả trong việc thu thập dữ liệu sơ cấp Hiệu quả về chi phí và thời gian

Mức độ linh hoạt cao

Mức độ chủ quan cao Kết quả nghiên cứu không bao giờ có thể đại diện 100% Sự hiện diện của thông tin cấp nhóm là bắt buộc

Phân biệt các phương pháp Lấy mẫu

Bảng 2 2: Phân biệt các phương pháp Lấy mẫu

Lấy mẫu trong Thống kê truyền thống (Statistics) Lấy mẫu trong Học máy

Statistical Machine Learning, also known as Statistical Learning, emphasizes data-driven methods that rely heavily on the available data for analysis and decision-making This approach leverages statistical techniques to extract insights and patterns, making it essential for effective modeling in various applications.

Học từ dữ liệu mà không cần hướng dẫn được lập trình rõ ràng

Dựa trên rule-based programming và chính thức hoá dưới dạng mối quan hệ giữa các biến (relationship between variables)

Trong lĩnh vực thống kê truyền thống, ngữ cảnh được sử dụng để xây dựng và huấn luyện mô hình Việc áp dụng các phương pháp thống kê đóng vai trò quan trọng trong quá trình phát triển mô hình machine learning, giúp cải thiện độ chính xác và hiệu quả của các dự đoán.

Rút ra các kết luận về đặc điểm và thông tin của quần thể dựa trên một mẫu đại diện

- Sử dụng để ước lượng các tham số và tính toán khoảng tin cậy, sai số, và độ tin cậy của các ước lượng đối với quần thể

Tập trung vào việc chọn một tập dữ liệu huấn luyện từ tập dữ liệu ban đầu để xây dựng mô hình hoặc học thuật

Xây dựng mô hình dự đoán có hiệu suất cao trên dữ liệu mới

(Goal) Ước lượng và đánh giá thông tin về quần thể gồm các tham số, tổng quan hoặc mô hình của quần thể (population) dữ liệu ban đầu

- Tạo ra tập dữ liệu huấn luyện để xây dựng mô hình có tính đại diện, tổng quát để mô hình có khả năng tổng quát hoá tốt

- Đảm bảo mô hình được huấn luyện trên đủ các trường hợp và có khả năng tổng quát hóa tốt trên dữ liệu mới

- Tạo ra một tập dữ liệu huấn luyện có tính tổng quát và khả năng đại diện cho quần thể dữ liệu ban đầu

Sử dụng các phương pháp thống kê giúp tối ưu hóa thuật toán Machine Learning bằng cách xác định mẫu, quy tắc và đặc trưng quan trọng, đồng thời đánh giá và so sánh các mô hình để nâng cao hiệu suất.

Lấy mẫu trong Thống kê truyền thống (Statistics) Lấy mẫu trong Học máy

Lấy mẫu trong Học máy Thống kê (Statistical Machine Learning hoặc Statistical Learning)

Trong các nghiên cứu khoa học, điều tra dân số và phân tích dữ liệu

Xây dựng mô hình học máy là một bước quan trọng, giúp máy tính học từ dữ liệu và tự động thực hiện các tác vụ để giải quyết vấn đề thực tế.

Lấy mẫu là một bước quan trọng trong quá trình phân tích dữ liệu, sử dụng các phương pháp thống kê để chọn ra một tập mẫu đại diện từ tập dữ liệu ban đầu.

Để đại diện cho các đặc điểm quan trọng của một quần thể lớn, cần áp dụng các phương pháp và kỹ thuật lấy mẫu hiệu quả như: lấy mẫu ngẫu nhiên đơn giản, lấy mẫu hệ thống, lấy mẫu phân tầng và lấy mẫu theo nhóm Những phương pháp này giúp đảm bảo tính đại diện và độ chính xác trong nghiên cứu.

Sử dụng các phương pháp như hồi quy, phân loại, gom cụm và kỹ thuật thực nghiệm giúp xây dựng mô hình hiệu quả và xác định mối quan hệ giữa các biến.

Sử dụng các thuật toán học máy và phương pháp thống kê để xác định các mối quan hệ và kiến thức từ dữ liệu

Xác định các mối quan hệ các mẫu, đặc trưng

- Lấy mẫu tập trung vào việc phân tích dữ liệu, ước lượng tham số và đánh giá độ tin cậy của kết quả

Lấy mẫu là một bước quan trọng trong quá trình huấn luyện mô hình, nhằm đảm bảo rằng tập dữ liệu bao gồm các mẫu đại diện từ nhiều lớp và phân phối dữ liệu khác nhau Điều này giúp tăng cường tính đa dạng và khả năng tổng quát hóa của mô hình.

- Lấy mẫu thường kết hợp phương pháp thống kê để xác định các mẫu đại diện và đặc trưng quan trọng trong dữ liệu

- Tạo ra các mô hình Machine Learning có tính diễn giải cao và cung cấp thông tin hữu ích về mối quan hệ giữa các biến trong dữ liệu

- Đi kèm với việc xây dựng và tối ưu hoá mô hình Machine Learning, sử dụng các thuật toán học máy và phương pháp thống kê

Kiến thức từ dữ liệu

Phương pháp lấy mẫu là công cụ quan trọng giúp xác định cách thức chọn biến, tính toán kích thước mẫu, và đánh giá độ tin cậy cũng như sai số Điều này cho phép chúng ta rút ra những kết luận có ý nghĩa về quần thể mà chúng ta đang nghiên cứu.

Tập trung vào khả năng dự đoán và đa dạng của tập dữ liệu huấn luyện, mối quan hệ với lý thuyết thống kê thường ít được xem xét

- Sử dụng để hiểu và tối ưu hóa mô hình Machine Learning

Phương pháp Lấy mẫu theo nhóm (Clustering Sampling)

Phương pháp lấy mẫu dữ liệu trong mô hình Machine Learning được áp dụng trong luận văn này là phương pháp lấy mẫu theo nhóm (Clustering Sampling) Kỹ thuật này chọn mẫu bằng cách lựa chọn các nhóm cá thể có cùng đặc điểm, giúp tối ưu hóa quá trình phân tích và cải thiện độ chính xác của mô hình.

Sinh viên học các môn Chính trị và xã hội sẽ được phân loại vào một nhóm chung, trong khi sinh viên thuộc cùng một khoa sẽ được xếp vào nhóm theo các môn chuyên ngành của khóa học đó.

Bước 1: Xác định các cụm thích hợp

Bước 2: Lập danh sách dự đoán điểm sinh viên như sau:

Có hai cách chọn mẫu theo ý tưởng của người thực hiện nghiên cứu:

✓ Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu

Ví dụ: tất cả các sinh viên toàn trường học tất cả các môn học

Để thực hiện cách chọn mẫu hiệu quả, trước tiên cần lập danh sách các cá thể trong các cụm đã được chọn Sau đó, áp dụng phương pháp chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong từng cụm để lựa chọn các cá thể vào mẫu.

Danh sách nhóm sinh viên học chung các môn Chính trị, xã hội, ngoại ngữ và các môn Tự nhiên (gọi tắt là các môn học chung) từ tất cả các khoa, cùng với nhóm các môn học chuyên ngành của từng khoa.

Hình 2 3: Chọn mẫu theo nhóm

Phương pháp dự đoán điểm sinh viên đại học

2.5.1 Gradient Boosting (tăng cường độ dốc)

Gradient Boosting là một thuật toán học máy giúp cải thiện độ chính xác cho các mô hình phân lớp và hồi quy Nguyên tắc hoạt động của nó là tạo ra nhiều mô hình đơn giản và kết hợp chúng để hình thành một mô hình phức tạp hơn Mỗi mô hình mới được phát triển nhằm hỗ trợ các điểm dữ liệu mà các mô hình trước đó đã dự đoán sai.

Bằng cách tăng cường độ dốc và bổ sung các yếu tố dự đoán một cách tuần tự vào nhóm, các yếu tố dự đoán trước sẽ điều chỉnh các yếu tố kế tiếp, tạo thành chuỗi mô hình liên tiếp Mô hình sau sẽ có hiệu suất tốt hơn mô hình trước nhờ vào việc cập nhật trọng số sau mỗi lần dự đoán Cụ thể, trọng số của các dữ liệu dự đoán đúng sẽ giữ nguyên, trong khi trọng số của các dữ liệu dự đoán sai sẽ được tăng thêm Kết quả cuối cùng từ chuỗi mô hình này sẽ được sử dụng làm kết quả trả về, từ đó nâng cao độ chính xác của mô hình.

❖ Thuật toán Gradient Boosting tổng quát

Thuật toán này nhằm xấp xỉ độ dốc (gradient) thông qua một hàm tham số h x a ( ; n ) Tại mỗi vòng lặp, tính gradient , xem

{−y x i , } i 1 N là tập training để huấn luyện hàm h x a ( ; n ) Từ đó, dự đoán - từ x

Có thể viết hàm Gradient Boost [2] như sau:

Hình 2 4: Thuật toán Gradient Boosting [2]

❖ Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model)

Chủ yếu có 3 thành phần chính được sử dụng để tăng độ dốc [20] như sau:

Hàm mất mát là thành phần cốt lõi của mô hình tăng cường độ dốc, đóng vai trò quan trọng trong việc tối ưu hóa chức năng này Nó giúp cải thiện hiệu suất cho nhiều loại vấn đề khác nhau trong quá trình học máy.

Cây quyết định là một thành phần học yếu (weak learner) được sử dụng để đưa ra các dự đoán Đặc biệt, cây hồi quy được áp dụng cho các giá trị đầu ra thực tế nhằm thực hiện việc phân tách hiệu quả.

Mô hình bổ sung (an additional model) cho phép thêm cây mà không cần sửa đổi cây hiện có trong mô hình Sau một thời gian, việc yêu cầu thêm cây giúp tăng cường độ dốc, từ đó giảm khả năng mất mát Đồng thời, mô hình này cũng tối giản hóa các tham số và giảm thiểu lỗi trong quá trình cập nhật trọng số sau khi tính toán lỗi.

Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting

XGBoost, hay còn gọi là Extreme Gradient Boosting, là một thư viện máy học mạnh mẽ dựa trên cây quyết định, cho phép mở rộng và phân tán Thư viện này hỗ trợ tăng cường cây song song và được coi là giải pháp hàng đầu cho các bài toán hồi quy, phân loại và xếp hạng.

XGBoost là một thuật toán học máy nổi bật, được sử dụng rộng rãi trong lĩnh vực học máy hiện nay Nó chuyên giải quyết các bài toán học có giám sát với độ chính xác cao, thường xuyên giành chiến thắng trong các cuộc thi trên Kaggle Học máy có giám sát áp dụng các thuật toán để xây dựng mô hình, nhằm phát hiện các mẫu trong tập dữ liệu có nhãn và tính năng, từ đó dự đoán nhãn cho các tính năng của tập dữ liệu mới.

❖ Hoạt động của mô hình XGBoost

XGBoost là một công cụ tăng cường độ dốc mạnh mẽ, tối ưu hóa hiệu suất và tốc độ tính toán cho các mô hình máy học Với khả năng mở rộng và độ chính xác cao, XGBoost đẩy mạnh giới hạn của sức mạnh tính toán trong các thuật toán cây được tăng cường.

XGBoost xây dựng các cây song song, khác với Gradient Boosting, nơi các cây được xây dựng tuần tự Phương pháp này áp dụng chiến lược khôn ngoan theo cấp độ, phân tích các giá trị độ dốc và sử dụng tổng từng phần để đánh giá chất lượng của các phần tách tại mọi điểm tách có thể trong tập huấn luyện.

XGBoost là một thuật toán mạnh mẽ sử dụng cây quyết định với độ dốc được tăng cường, giúp cải thiện tốc độ và hiệu suất mô hình Thuật toán này phụ thuộc vào khả năng tính toán nhanh chóng và hiệu suất của mô hình mục tiêu Tuy nhiên, quá trình đào tạo mô hình cần tuân theo một trình tự nhất định, điều này có thể làm chậm quá trình triển khai các máy tăng cường độ dốc.

Deep learning chỉ chấp nhận dữ liệu thô dưới dạng số liệu, thường phải chuyển đổi thành n-vector trong không gian thực Ngược lại, XGBoost có khả năng xử lý các tập dữ liệu dạng bảng (tabular datasets) với nhiều kích thước và loại dữ liệu, bao gồm cả dữ liệu phân loại (categorical), loại dữ liệu phổ biến hơn trong các mô hình kinh doanh.

XGBoost nổi bật với tốc độ huấn luyện nhanh chóng và khả năng mở rộng để tính toán song song trên nhiều máy chủ Nó còn hỗ trợ tăng tốc bằng cách sử dụng GPU, cho phép xử lý dữ liệu lớn (Big Data) một cách hiệu quả.

Đánh giá độ chính xác của mô hình dự đoán

Kết quả dự đoán sử dụng các phép đo độ chính xác của mô hình hồi quy

“được tính toán dựa trên sai số của giá trị dự báo so với giá trị thực tế của dữ liệu”

Để đánh giá hiệu quả của mô hình, chúng ta sử dụng các sai số dự báo như MAE, RMSE, MSE và R Square Các giá trị của các độ đo hàm lỗi này càng nhỏ thì mô hình càng được coi là tốt hơn.

Hàm lỗi trung bình bình phương (RMSE) là một chỉ số quan trọng để đánh giá hiệu suất của mô hình trong việc đưa ra dự đoán Giá trị RMSE càng gần 0, mô hình càng thể hiện tốt khả năng dự đoán Để tính toán RMSE, ta so sánh dữ liệu ước tính với các giá trị thực tế.

• Sai số bình phương trung bình (MSE)

• Sai số tiêu chuẩn của giá trị dự báo (RMSE)

• Sai số tuyệt đối trung bình (MAE)

=  − (2.3) Trong đó, Y t là dữ liệu tại thời điểm t

Y t là giá trị dự báo tại thời điểm t n là kích thước mẫu

Các công trình nghiên cứu nổi bật trong giáo dục đại học

Trong lĩnh vực khai thác dữ liệu giáo dục, một trong những hướng nghiên cứu phổ biến là trích xuất thông tin cần thiết nhằm dự đoán khả năng học tập của sinh viên.

Nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ, sử dụng phương pháp dự đoán dựa trên dữ liệu để xác định các yếu tố ảnh hưởng Các tác giả J M Aiken, R De Bin, M Hjorth-Jensen và M D Caballero đã thu thập dữ liệu từ một số lượng lớn sinh viên và áp dụng các phương pháp thống kê cùng học máy như logistic regression và XGBoost để phân tích Kết quả cho thấy nhiều yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên, bao gồm kỹ năng học tập, môi trường học tập, cũng như sự hỗ trợ từ gia đình và bạn bè.

Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam và yếu tố kinh tế Kết quả nghiên cứu có thể hỗ trợ các nhà quản lý giáo dục đưa ra biện pháp nhằm nâng cao tỷ lệ tốt nghiệp

Nhóm tác giả L E Contreras Bravo, J A Caro Silva và D L Morales Rodríguez đã thực hiện nghiên cứu tổng hợp về việc áp dụng phương pháp Ensemble trong dự đoán kết quả học tập của sinh viên Nghiên cứu tập trung vào việc khảo sát các phương pháp ensemble, nhằm kết hợp nhiều mô hình dự đoán để nâng cao độ chính xác trong việc dự đoán hiệu suất học tập Kết quả cho thấy rằng việc sử dụng các phương pháp ensemble có thể cải thiện khả năng dự đoán so với việc chỉ sử dụng một mô hình đơn lẻ Các phương pháp ensemble bao gồm voting, stacking, bagging và boosting Tuy nhiên, các tác giả cũng chỉ ra rằng còn nhiều khía cạnh cần được nghiên cứu và cải tiến để tối ưu hóa việc áp dụng các phương pháp này trong dự đoán hiệu suất học tập của sinh viên.

Nhóm tác giả T Hu và T Song [17] đã áp dụng thuật toán XGBoost để xây dựng mô hình dự báo và phân tích kết quả học tập của sinh viên Nghiên cứu sử dụng dữ liệu học tập để dự đoán kết quả dựa trên các yếu tố như điểm số trước đó và tham gia hoạt động ngoại khóa Kết quả cho thấy XGBoost có độ chính xác cao trong việc dự báo kết quả học tập Mô hình này cũng cung cấp thông tin quan trọng về mức độ ảnh hưởng của các yếu tố khác nhau đối với thành tích học tập Bài viết phân tích chi tiết các yếu tố quan trọng, giúp hiểu rõ hơn về tác động của chúng và hỗ trợ giáo viên, nhà quản lý trong việc cải thiện hiệu quả học tập của sinh viên.

PHÂN TÍCH VÀ GIẢI PHÁP

Mô tả bài toán

Hầu hết các trường đại học hiện nay áp dụng hình thức đào tạo tín chỉ theo Quy chế của Bộ Giáo dục và Đào tạo Sinh viên sẽ tham gia học các học phần bắt buộc và tự chọn, với mỗi ngành có chương trình đào tạo riêng Chương trình này quy định các học phần cần tích lũy, bao gồm nhóm học phần bắt buộc và nhóm học phần tự chọn thuộc chuyên ngành.

Học phần bắt buộc là những nội dung kiến thức thiết yếu mà sinh viên phải tích lũy trong chương trình đào tạo Ngược lại, học phần tự chọn cho phép sinh viên lựa chọn các môn học theo chuyên ngành nhằm đa dạng hóa chuyên môn hoặc theo quy định của chương trình để đạt đủ số tín chỉ cần thiết.

Bài toán dự đoán điểm sớm cho sinh viên đại học giúp sinh viên có cái nhìn tổng quan về các môn học sắp tới, dựa trên kết quả học tập của các học phần đã hoàn thành Sinh viên sẽ thực hiện dự đoán điểm cho các nhóm môn học chung và môn học tự chọn chuyên ngành theo quy định của từng khoa trong chương trình đào tạo.

Các đặc trưng của dữ liệu sinh viên đại học Bách Khoa

Định dạng ban đầu của bộ dữ liệu này là những file có định dạng excel (.xlsx)

Bộ dữ liệu này chứa 2.453.995 dòng thông tin, bao gồm 60.953 sinh viên và 4.610 môn học từ 12 khoa và 2 trung tâm đào tạo Mỗi bản ghi cung cấp thông tin chi tiết về sinh viên, các môn học mà họ theo học, cùng với điểm số tương ứng cho từng môn.

Mỗi tập tin kết quả học tập của sinh viên các Khoa, ngành bao gồm các thuộc tính quan trọng như: năm học, học kỳ, mã học kỳ, mã môn học, tên môn học, đơn vị tín chỉ, phần trăm kiểm tra và thi, mã nhóm, mã tổ, số thứ tự, mã khoa, tên lớp, khối, mã ngành, tên ngành, mã số sinh viên Ngoài ra, nó còn ghi nhận các điểm số như điểm kiểm tra, tỷ lệ kiểm tra, điểm bài tập, tỷ lệ bài tập, điểm bài tập lớn, tỷ lệ bài tập lớn, điểm thí nghiệm, tỷ lệ thí nghiệm, điểm thi, tỷ lệ thi, điểm tổng kết và các điểm tổng kết hệ 10, cùng với ghi chú.

Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam

Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM

Phân bố điểm sinh viên đại học Bách Khoa

Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa

(sau khi Tiền xử lý dữ liệu)

• Biểu đồ phân bố điểm sinh viên của từng khoa

Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp

Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí

Hình 3 5:Biểu đồ phân bố điểm khoa Kỹ thuật Địa chất và Dầu khí

Hình 3 6: Biểu đồ phân bố điểm khoa Điện - Điện tử

Hình 3 7: Biểu đồ phân bố điểm khoa Kỹ thuật Giao thông

Hình 3 8: Biểu đồ phân bố điểm khoa Hoá học

Hình 3 9: Biểu đồ phân bố điểm khoa Môi trường và Tài nguyên

Hình 3 10: Biểu đồ phân bố điểm khoa Khoa học và Kỹ thuật máy tính

Hình 3 11: Biểu đồ phân bố điểm khoa Chất lượng cao

Hình 3 12: Biểu đồ phân bố điểm khoa Quản lý Công nghiệp

Hình 3 13: Biểu đồ phân bố điểm khoa Khoa học Ứng dụng

Hình 3 14: Biểu đồ phân bố điểm khoa Công nghệ Vật liệu

Hình 3 15: Biểu đồ phân bố điểm Kỹ sư chất lượng cao PFIEV Việt Pháp

Hình 3 16: Biểu đồ phân bố điểm khoa Xây dựng

Hình 3 17: Biểu đồ hộp (boxplot) phân bố điểm sinh viên của từng khoa

Độ xiên (skewness) và Kurtosis điểm của sinh viên

Hình 3 18: Chỉ số độ xiên của dữ liệu điểm và Kurtosis

Dựa vào kết quả thực nghiệm ở hình 3.18 ta thấy rằng:

- Skewess ≈ -0,6375 < 0: phân phối dữ liệu điểm của sinh viên là dạng phân phối bất đối xứng trái

- Kurtosis ≈ 0,343 < 3: độ nhọn của của phần trung tâm phân phối dữ liệu nhỏ hơn phân phối tiêu chuẩn

Xây dựng mô hình dự đoán điểm sinh viên

3.5.1 Kiến trúc tổng quan của bài toán

Hình 3 19: Kiến trúc Tổng quan của bài toán

Dữ liệu thô combined combined combined combined combined combined combined

Tiền xử lý dữ liệu thô

- Loại bỏ các trường hợp dữ liệu dư thừa

- Quy đổi điểm chữ thành điểm số

Tổng hợp Chuẩn bị dữ liệu

Tiền xử lý dữ liệu cho Machine Learning

- Chuẩn hoá dữ liệu kiểu chuỗi

- Encoder chuyển đổi kiểu dữ liệu chuỗi số sang dạng số

- Lấy mẫu dữ liệu Áp dụng các giải thuật học máy

Tìm tham số tối ưu Đánh giá Độ chính xác

Chọn mô hình dự đoán

Lưu mô hình dự đoán

Kiểm tra Điểm dự đoán SV Các môn học từ 8-10 điểm

SV lựa chọn môn học

3.5.2 Các bước thực hiện Tiền xử lý dữ liệu

Dữ liệu thu thập từ thực tế thường không nhất quán và có thể bị thiếu hoặc lỗi do nhiều nguyên nhân khác nhau Sự không rõ ràng của dữ liệu có thể ảnh hưởng đến kết quả khai thác, dẫn đến việc đưa ra quyết định không chính xác và không đáng tin cậy.

Tiền xử lý dữ liệu là một kỹ thuật quan trọng trong khai thác dữ liệu, giúp nâng cao chất lượng dữ liệu bằng cách chuyển đổi dữ liệu thô thành định dạng dễ hiểu và sử dụng Trong thực tế, dữ liệu thường gặp phải vấn đề như không đầy đủ, không nhất quán và chứa nhiều lỗi, điều này có thể ảnh hưởng đến hiệu quả của các thuật toán phân tích.

Tiền xử lý dữ liệu là bước thiết yếu trong quy trình khai thác dữ liệu, vì hầu hết các bộ dữ liệu cần được làm sạch và biến đổi trước khi áp dụng thuật toán học máy Việc xử lý dữ liệu đảm bảo rằng các mô hình học máy có thể được huấn luyện hiệu quả trên những bộ dữ liệu này.

Dựa trên quy chế Đào tạo và học vụ bậc Đại học, Cao đẳng theo quyết định số 3502/QĐ-ĐHBK-ĐT ngày 25/11/2015 và các sửa đổi bổ sung, tác giả thực hiện các bước tiền xử lý dữ liệu như sau.

➢ Kiểm tra dữ liệu thiếu, lựa chọn thuộc tính

➢ Kiểm tra dữ liệu phân loại

➢ Loại bỏ những trường không phục vụ cho việc phân tích, dự đoán điểm

Để nâng cao độ chính xác trong phân tích và dự đoán điểm, cần loại bỏ những dữ liệu không liên quan, chẳng hạn như thông tin về sinh viên đang tạm ngưng việc học hoặc bảo lưu kết quả học tập.

Theo quy định tại điều 14, chương 3 của quy chế Đào tạo và học vụ bậc Đại học, các điểm số lớn hơn 10 sẽ được loại bỏ bằng cách chuyển đổi điểm tổng kết môn học từ dạng chữ sang điểm số, không tính vào điểm trung bình tích lũy và không có ý nghĩa cho việc phân tích.

➢ Quy đổi về điểm 0 cho các điểm số được tính như là điểm 0 (quy định tại điều

14, chương 3, quy chế Đào tạo và học vụ bậc Đại học)

➢ Kiểm tra sự trùng lặp dữ liệu các môn học mà sinh viên đã học và loại bỏ trùng lặp (nếu có)

Chuẩn hóa dữ liệu và định dạng lại các trường thông tin của tất cả các tập tin liên quan đến sinh viên Đại học theo một kiểu dữ liệu thống nhất và thuộc tính cụ thể.

➢ Chia dữ liệu chuẩn bị cho việc áp dụng thuật toán Machine Learning

Theo Quyết định số 2905/ĐHBK-ĐT ngày 22/9/2017, chương trình đào tạo từ năm 2014 đến 2017 quy định các học phần bắt buộc và tự chọn cho tất cả các khoa Các môn học chung bao gồm Khối kiến thức Toán và Khoa học tự nhiên, Chính trị, Kinh tế, Văn hóa, Xã hội, Giáo dục thể chất và Ngoại ngữ.

Bảng 3 1: Danh sách các môn học chung

1 Chủ nghĩa xã hội khoa học

3 Tư tưởng Hồ Chí Minh

4 Pháp luật Việt Nam đại cương

5 Đường lối cách mạng của Đảng Cộng sản Việt Nam

8 Những nguyên lý cơ bản của chủ nghĩa Mác-Lênin

11 Đường lối quân sự của Đảng (I)

12 Công tác giáo dục quốc phòng (II)

19 Giáo dục thể chất 1(cđ)

20 Giáo dục thể chất 2(CĐ)

30 Xác suất và thống kê

Giải pháp cho bài toán

Dựa trên đặc trưng của bộ dữ liệu tại trường Đại học Bách Khoa và các phương pháp heuristic trong giáo dục đại học, việc phân tích cho thấy sự xuất hiện phổ biến của điểm 0 trong tất cả các khoa, với mật độ phân bố điểm 0 cao hơn rõ rệt so với các điểm khác Điều này ảnh hưởng tiêu cực đến độ chính xác của mô hình dự đoán Điểm 0 được coi là "outlier" trong quá trình phân tích dự đoán điểm số của sinh viên Vì vậy, tác giả đã lựa chọn phương pháp lấy mẫu theo nhóm (Clustering Sampling) kết hợp với lấy mẫu theo phán đoán (Judgment Sampling) để chỉ tập trung vào các sinh viên có điểm từ 1 đến 10 nhằm xây dựng mô hình dự đoán điểm hiệu quả hơn.

• Lấy mẫu toàn bộ dữ liệu sinh viên tất cả các môn học

• Lấy mẫu theo nhóm các môn học chung

• Lấy mẫu theo nhóm các môn học tự chọn chuyên ngành của từng khoa

Mục tiêu của luận văn là xây dựng một tập dữ liệu huấn luyện nhỏ nhưng đảm bảo độ chính xác cao trong việc dự đoán điểm của sinh viên Dựa trên đề xuất ở mục 3.1, luận văn sẽ phát triển mô hình dự đoán điểm cho sinh viên đại học, dựa vào kết quả học tập của các môn học đã hoàn thành, nhằm đưa ra dự đoán cho các môn học tiếp theo trong học kỳ sắp tới.

Do đó, luận văn thực hiện các kịch bản thực nghiệm như sau:

Kịch bản 1 đề xuất lấy mẫu toàn bộ dữ liệu sinh viên từ tất cả các môn học mà không thực hiện việc gom nhóm sinh viên, sử dụng tập dữ liệu chung của toàn trường.

• Kịch bản 2: Lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học các môn học chung

• Kịch bản 3: Lấy mẫu theo nhóm các môn học tự chọn chuyên ngành của từng khoa

KẾT QUẢ VÀ ĐÁNH GIÁ

Thực nghiệm dự đoán điểm sinh viên

4.1.1 Tiền xử lý dữ liệu

Sau khi thực hiện tiền xử lý và chuẩn hóa dữ liệu thô, tập dữ liệu sinh viên đại học được chia thành hai phần ngẫu nhiên: tập huấn luyện (training dataset) và tập kiểm tra (testing dataset).

Dữ liệu gốc ban đầu

Tiền xử lý dữ diệu

Xử lý dữ liệu thô ban đầu

Tập dữ liệu huấn luyện (80%)

Tập dữ liệu kiểm tra (20%)

Hình 4 1: Quy trình Tiền xử lý dữ liệu tổng quát của mô hình dự đoán điểm

Chương 4: Kết quả và Đánh giá GVHD: PGS.TS Thoại Nam

Sau khi loại bỏ điểm

Tiêu đề	Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học
Tác giả	Trần Thị Thu Trang
Người hướng dẫn	PGS. TS. Thoại Nam
Trường học	Đại học Bách Khoa
Chuyên ngành	Hệ thống thông tin quản lý
Thể loại	luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	TP. HỒ CHÍ MINH

Định dạng
Số trang	77
Dung lượng	1,38 MB