GIỚI THIỆU ĐỀ TÀI
Giới thiệu đề tài
1.1.1 Giới thiệu vấn đề cần nghiên cứu
Trong bối cảnh nền kinh tế tri thức và toàn cầu hóa, nhiều nước trên thế giới không ngừng tìm kiếm các cách thức khác nhau để nâng cao chất lượng giáo dục, đáp ứng yêu cầu nguồn nhân lực chất lượng cao trong môi trường cạnh tranh quốc tế Việt Nam đang thực hiện công cuộc đổi mới căn bản môi trường “số hóa” và toàn diện nền giáo dục, nhất là giáo dục đại học và sau đại học Giáo dục đại học Việt Nam thay đổi mạnh mẽ từ triết lý, mục tiêu giáo dục đến vai trò của người thầy, từ phương pháp dạy học đến vị trí “trung tâm” của người học v.v nhằm đáp ứng nhu cầu phát triển xã hội và đẩy mạnh sự tiến bộ của quốc gia nói chung và đổi mới giáo dục nói riêng
Hiện nay, trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM (ĐHBK) cũng như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên nhưng việc ứng dụng tập dữ liệu này cho công tác dự báo phục vụ sinh viên cũng như quản lý của nhà trường còn nhiều hạn chế Đối với các trường có bề dày lịch sử lâu đời như trường Đại học Bách Khoa sẽ có số lượng dữ liệu đáng kể, nhưng cũng có một số trường đại học có quy mô nhỏ và mới thành lập thì phải cần có thời gian thu thập dữ liệu đủ lớn để có thể thực hiện các nghiên cứu về dự đoán điểm cho sinh viên cho phù hợp với quy mô cụ thể của từng trường Do đó, “ Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học ” là cần thiết phục vụ cho việc sinh viên lựa chọn đăng ký môn học, định hướng học tập và phục vụ cho nhà trường trong việc lập kế hoạch, chiến lược phát triển đào tạo, định hình chương trình đào tạo và hỗ trợ tuyển sinh trong giai đoạn hiện nay
1.1.2 Đối tượng nghiên cứu Đối tượng nghiên cứu của luận văn là kết quả điểm học tập của sinh viên hệ Đại học chính quy của tất cả các khoa tại trường ĐHBK từ năm 2014 đến năm 2017
Phạm vi nghiên cứu của luận văn trong lĩnh vực giáo dục bậc đại học Đề tài được thực hiện trên bộ dữ liệu sinh viên Đại học chính quy của trường ĐHBK từ năm 2014
Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam đến năm 2017 Dữ liệu này là các thông tin về điểm của các môn học mà sinh viên đã học qua các học kỳ tương ứng trong quá trình học tập của sinh viên của tất cả các khoa.
Mục tiêu nghiên cứu
Tìm hiểu các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa từ năm 2014 đến năm 2017
Nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê và phương pháp lấy mẫu trong học máy (Machine Learning)
Tìm hiểu các phương pháp phân tích dữ liệu từ đó, xây dựng mô hình và đưa ra dự đoán kết quả học tập (điểm các môn học) của sinh viên Đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG - TPHCM (ĐHBK)
Cuối cùng, đưa ra kết luận làm sao để chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của sinh viên ĐHBK
Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác nhất định dựa trên những đặc trưng riêng phù hợp với bộ dữ liệu.
Nội dung nghiên cứu
Để hoàn thành các mục tiêu nghiên cứu nêu trên, luận văn tập trung nghiên cứu các nội dung chính sau:
Tìm hiểu các kỹ thuật lấy mẫu, chọn mẫu trong nghiên cứu khoa học thống kê và phương pháp lấy mẫu ứng dụng trong học máy (Machine Learning) để ứng dụng vào luận văn
Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên Đại học tại trường Đại học Bách Khoa - TPHCM gồm độ thưa dữ liệu, mật độ phân bố dữ liệu, các mối quan hệ tương quan đa biến của dữ liệu, độ xiên Skewness và Kutossis v.v
Xây dựng mô hình dự đoán điểm các môn học của sinh viên đại học
Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
Ý nghĩa đề tài
Vận dụng các kỹ thuật lấy mẫu, kỹ thuật phân tích dữ liệu trên nền tảng công nghệ khai phá dữ liệu dữ liệu giáo dục và học máy
Kết quả nghiên cứu có giá trị tham khảo cho các nghiên cứu tiếp theo về phân tích dữ liệu sinh viên Đại học
1.4.2 Ý nghĩa thực tiễn của luận văn
1.4.2.1 Ý nghĩa thực tiễn đối với nhà trường
Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho khoa và các trường đại học nói chung, cụ thể là quản lý đào tạo, cố vấn học tập sinh viên như sau: Ứng dụng lấy mẫu trong nghiên cứu và phân tích dữ liệu: Khi các khoa và trường đại học thực hiện các dự án nghiên cứu, việc lấy mẫu dữ liệu là một bước quan trọng để thu thập thông tin cần thiết Lấy mẫu đảm bảo rằng dữ liệu được thu thập có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích
Lấy mẫu dữ liệu có nhiều lợi ích như đảm bảo tính đại diện, tiết kiệm thời gian và nguồn lực, kiểm soát quy mô và đặc điểm, giảm bias và lỗi, cũng như áp dụng trong quá trình phân tích và dự đoán Điều này làm cho phương pháp lấy mẫu trở thành một công cụ quan trọng trong quá trình nghiên cứu và phân tích dữ liệu
Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể mang lại lợi ích cho các cố vấn học tập, quản lý đào tạo sinh viên có thể biết được với dữ liệu về kết quả học tập của sinh viên hiện có thì các môn nào có nhiều sinh viên học không tốt, kết quả còn thấp để có thể tìm ra nguyên nhân cải thiện giúp sinh viên khắc phục, học tập tốt hơn
Từ đó, bộ môn chuyên ngành sẽ có kế hoạch xây dựng nội dung môn học, phương pháp giảng dạy cho môn học phù hợp hơn với sinh viên, cũng như khoa và các trường đại học cải thiện, đánh giá, điều chỉnh nội dung chương trình đào tạo, xây dựng chuẩn đầu ra của chương trình đào tạo dựa trên mục tiêu và ngành đào tạo của khoa và cung cấp sự hỗ trợ phù hợp để nâng cao hiệu quả học tập của sinh viên
Bên cạnh đó, giúp cho nhân viên phòng Đào tạo tư vấn, hỗ trợ sinh viên khi đăng ký môn học tự chọn hoặc tư vấn kết quả học tập của sinh viên tốt hơn
Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
Giảm bớt lượng công việc tư vấn hỗ trợ sinh viên trong quá trình sinh viên học tập tại trường
Phát hiện sớm những môn học sinh viên không đạt trong quá trình học tập của sinh viên tại trường Cảnh báo cho sinh viên khi đăng ký môn học, chọn môn học phù hợp với năng lực học tập của mình
1.4.2.2 Ý nghĩa thực tiễn đối với sinh viên đại học
Hỗ trợ SV trong suốt quá trình học tập tại trường Dựa vào kết quả học tập của sinh viên của các môn đã học, dự đoán các môn học mà sinh viên sẽ học trong các học kỳ tiếp theo để sinh viên có thể đăng ký môn học có kết quả học tập tốt nhất, phù hợp với khả năng của mình
Dự báo sớm về các môn học không đạt, có thể xảy ra trong tương lai để có chiến lược học tập phù hợp Từ đó, có được định hướng, cảnh báo sớm cho sinh viên chú tâm, cố gắng hơn nữa trong việc học để có điểm trung bình toàn khóa cao nhất
Giúp sinh viên đã và đang học yếu kém biết được khả năng của mình để chọn học môn học phù hợp với khả năng bản thân mình sao cho kết quả học tập của SV đạt được cao nhất nhằm nâng cao điểm tích lũy học tập của sinh viên
Giúp sinh viên có cái nhìn tổng quan, có thể tự xây dựng lộ trình học tập, điều chỉnh phương pháp học cho phù hợp với năng lực.
Cấu trúc luận văn
Cấu trúc luận văn bao gồm 5 chương, cụ thể như sau:
Chương 1: Giới thiệu đề tài
Giới thiệu các vấn đề cần nghiên cứu, mục tiêu, nội dung, ý nghĩa khoa học và thực tiễn của đề tài ứng dụng cho các bài toán dự đoán điểm sinh viên đại học
Chương 2: Tổng quan nghiên cứu
Giới thiệu nền tảng cơ sở lý thuyết về các công nghệ, kỹ thuật lấy mẫu và kỹ thuật Machine Learning xây dựng mô hình dự đoán điểm sinh viên áp dụng trong luận văn và các công trình nghiên cứu nổi bật có liên quan
Chương 3: Phân tích và giải pháp
Từ nền tảng cơ sở lý thuyết và nghiên cứu các công trình nghiên cứu trước, chương này trình bày các phân tích đặc trưng trên bộ dữ liệu hiện có
Chương 1: Giới thiệu đề tài GVHD: PGS.TS Thoại Nam
Từ đó, nêu lên những giải pháp đề xuất chọn mẫu dữ liệu và xây dựng mô hình phân tích dựa vào học máy cho bài toán dự đoán điểm số của sinh viên dựa trên dữ liệu quá khứ của sinh viên đã học
Chương 4: Kết quả và đánh giá
Từ những phân tích và đề xuất giải pháp trong chương 3, nội dung chính của chương này trình bày các thực nghiệm và những kết quả đạt được khi thực hiện gom nhóm lấy mẫu dữ liệu và xây dựng mô hình phân tích dự báo kết quả học tập của sinh viên Đại học của trường Đại học Bách Khoa - ĐHQG - TPHCM Đánh giá kết quả thực hiện việc lấy mẫu dữ liệu và phân tích dự đoán điểm sinh viên đại học
Tóm lại các nội dung đã trình bày trong các chương, khẳng định lại các vấn đề cần nghiên cứu, đánh giá lại những mặt còn tồn đọng, và nêu lên các đề xuất phát triển trong tương lai.
TỔNG QUAN NGHIÊN CỨU
Một số khái niệm
2.1.1 Lấy mẫu (Sampling) là gì ?
Theo lý thuyết điều tra chọn mẫu (theory of sample surveys) nhằm mục đích lựa chọn một mẫu đơn vị để đại diện cho một tổng thể lớn hơn Sự ra đời của phương pháp đại diện bắt nguồn từ [3], người đề xuất tạo ra các ước tính bằng cách sử dụng mẫu các thành phố và cá nhân được kiểm soát không ngẫu nhiên, thay vì điều tra dân số Nhưng điều này thực sự với Neyman [4] rằng những điều cơ bản của lấy mẫu khảo sát hiện đại đã được ổn định Neyman đề xuất một thiết lập chặt chẽ cho các khảo sát ngẫu nhiên, đặt nền móng cho các khảo sát xác suất nhưng có kiểm soát, cho phép kiểm soát thống kê độ chính xác của các công cụ ước tính [1]
“Lấy mẫu là một phương pháp cho phép lấy thông tin về tổng thể
(population) dựa trên số liệu thống kê từ một tập hợp con của tổng thể (mẫu) mà không cần phải điều tra từng cá nhân” [20]
Hình 2 1: Định nghĩa Lấy mẫu
Tuy nhiên, trong học máy có giám sát và không giám sát trong Machine Learning có thể lấy mẫu [1] theo các dạng sau:
➢ Phương pháp lấy mẫu ngẫu nhiên đơn giản
➢ Lấy mẫu với xác suất không bằng nhau
➢ Thuộc tính thống kê của thiết kế lấy mẫu
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
2.1.2 Học máy có giám sát (Supervised Machine Learning)
Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới [24]
2.1.3 Cây quyết định (Decision Trees)
Cây quyết định tạo ra một mô hình dự đoán nhãn bằng cách đánh giá cây câu hỏi đặc trưng nếu-thì-khác đúng/sai và ước tính số lượng câu hỏi tối thiểu cần thiết để đánh giá xác suất đưa ra quyết định đúng Cây quyết định có thể được sử dụng để phân loại để dự đoán một danh mục hoặc hồi quy để dự đoán một giá trị số liên tục [24]
2.1.4 Hàm mất mát (Loss function)
Hàm mất mát là một trong những tham số cần thiết để xác định mức độ gần của một mạng neuron cụ thể đối với trọng số trong quá trình đào tạo
2.1.5 Kỹ thuật xuống đồi (Gradient descent)
Kỹ thuật xuống đồi (Gradient descent) là “kỹ thuật có thể giúp sự biến thiên của một hàm số luôn là giảm (xuống đồi) dựa trên sự thay đổi của các tham số cấu tạo nên hàm số này” [8]
Gradient Descent là cơ sở của nhiều trình tối ưu hoá và là một trong những thuật toán tối ưu hoá phổ biến nhất trong Machine Learning và Deep learning
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Gradient descent sử dụng đạo hàm cấp một (gradient) của loss function khi cập nhật các tham số Gradient cho độ dốc của một hàm tại thời điểm đó
Quá trình này bao gồm chuỗi dẫn xuất của giá trị mất mát (loss value) của từng tầng ẩn (hidden layer) từ các dẫn xuất của loss value của lớp trên nó, kết hợp chức năng kích hoạt trong phép tính toán
Trong mỗi lần lặp lại, khi tất cả các neuron có giá trị của gradient của loss funtion tương ứng với chúng, giá trị của tham số được cập nhật theo hướng ngược lại với các giá trị được chỉ ra bởi gradient
• Mục tiêu: tìm vector các tham số sao cho tối ưu hoá hàm mục tiêu cụ thể
Như vậy, kết quả của gradient descent là kết hợp các trọng số (weight) của các độ dốc (gradient)
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống
Bảng 2 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống
Phương pháp chọn mẫu Ưu điểm Nhược điểm
Dễ thực hiện, tính khách quan cao
Có thể lồng ghép vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác
Cần phải có một danh sách của các đơn vị mẫu Không dùng được cho mẫu lớn hoặc mẫu dao động
Mẫu được chọn có thể phân tán khó thu thập
Có khả năng bỏ sót vài nhóm trong tổng thể
Nhanh, dễ thực hiện Độ chính xác cao, chọn đối tượng theo mục đích điều tra Tính đại diện cao hơn
Có thể bị trùng lặp, dẫn đến mẫu thiếu tính đại diện
Chọn mẫu phân tầng Độ chính xác cao Tính đại diện cao hơn và dễ quản lý mẫu ngẫu nhiên đơn giản
Cần thiết lập khung mẫu cho từng tầng Điều này thường khó thực hiện trong thực tế
Chọn mẫu theo cụm Áp dụng cho phạm vi rộng lớn, độ phân tán cao
Dễ chọn và chi phí rẻ hơn
Tổng thể phải lớn Nếu cùng cỡ mẫu tính đại diện hoặc tính chính xác thấp hơn mẫu ngẫu nhiên đơn giản
Hiệu quả trong việc thu thập dữ liệu sơ cấp Hiệu quả về chi phí và thời gian
Mức độ linh hoạt cao
Mức độ chủ quan cao Kết quả nghiên cứu không bao giờ có thể đại diện 100% Sự hiện diện của thông tin cấp nhóm là bắt buộc
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Phân biệt các phương pháp Lấy mẫu
Bảng 2 2: Phân biệt các phương pháp Lấy mẫu
Lấy mẫu trong Thống kê truyền thống (Statistics) Lấy mẫu trong Học máy
Lấy mẫu trong Học máy Thống kê (Statistical Machine Learning hoặc Statistical Learning) Phương pháp Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven) Phụ thuộc vào dữ liệu (data-driven)
Học từ dữ liệu mà không cần hướng dẫn được lập trình rõ ràng
Dựa trên rule-based programming và chính thức hoá dưới dạng mối quan hệ giữa các biến (relationship between variables)
Ngữ cảnh Được sử dụng trong lĩnh vực thống kê truyền thống Xây dựng và huấn luyện mô hình Áp dụng các phương pháp thống kê trong việc xây dựng mô hình machine learning
Rút ra các kết luận về đặc điểm và thông tin của quần thể dựa trên một mẫu đại diện
- Sử dụng để ước lượng các tham số và tính toán khoảng tin cậy, sai số, và độ tin cậy của các ước lượng đối với quần thể
Tập trung vào việc chọn một tập dữ liệu huấn luyện từ tập dữ liệu ban đầu để xây dựng mô hình hoặc học thuật
Xây dựng mô hình dự đoán có hiệu suất cao trên dữ liệu mới
(Goal) Ước lượng và đánh giá thông tin về quần thể gồm các tham số, tổng quan hoặc mô hình của quần thể (population) dữ liệu ban đầu
- Tạo ra tập dữ liệu huấn luyện để xây dựng mô hình có tính đại diện, tổng quát để mô hình có khả năng tổng quát hoá tốt
- Đảm bảo mô hình được huấn luyện trên đủ các trường hợp và có khả năng tổng quát hóa tốt trên dữ liệu mới
- Tạo ra một tập dữ liệu huấn luyện có tính tổng quát và khả năng đại diện cho quần thể dữ liệu ban đầu
- Sử dụng các phương pháp thống kê để hiểu rõ hơn và tối ưu hóa các thuật toán Machine Learning, thông qua việc xác định mẫu, quy tắc, và đặc trưng quan trọng, đánh giá và so sánh các mô hình
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Lấy mẫu trong Thống kê truyền thống (Statistics) Lấy mẫu trong Học máy
Lấy mẫu trong Học máy Thống kê (Statistical Machine Learning hoặc Statistical Learning)
Trong các nghiên cứu khoa học, điều tra dân số và phân tích dữ liệu
Là một phần quan trọng trong quá trình xây dựng mô hình học máy và áp dụng các thuật toán để máy tính có thể học từ dữ liệu và tự động thực hiện các tác vụ giải quyết các vấn đề thực tế
Lấy mẫu như một phần của quá trình toàn diện hơn Nó sử dụng các phương pháp lấy mẫu thống kê để xác định một tập mẫu đại diện từ tập dữ liệu ban đầu
Sử dụng các phương pháp và kỹ thuật để lấy mẫu từ một quần thể lớn để đại diện cho các đặc điểm quan trọng của quần thể đó như: lấy mẫu ngẫu nhiên đơn giản, hệ thống, phân tầng và theo nhóm
Sử dụng các phương pháp tiếp cận khác nhau như hồi quy, phân loại, gom cụm, và kỹ thuật thực nghiệm để xây dựng mô hình, và xác định các mối quan hệ giữa các biến
Sử dụng các thuật toán học máy và phương pháp thống kê để xác định các mối quan hệ và kiến thức từ dữ liệu
Xác định các mối quan hệ các mẫu, đặc trưng
- Lấy mẫu tập trung vào việc phân tích dữ liệu, ước lượng tham số và đánh giá độ tin cậy của kết quả
- Lấy mẫu thường nhằm đảm bảo tập dữ liệu huấn luyện bao gồm các mẫu đại diện từ các lớp hoặc phân phối dữ liệu khác nhau để đảm bảo tính đa dạng và khả năng tổng quát hóa của mô hình
- Lấy mẫu thường kết hợp phương pháp thống kê để xác định các mẫu đại diện và đặc trưng quan trọng trong dữ liệu
- Tạo ra các mô hình Machine Learning có tính diễn giải cao và cung cấp thông tin hữu ích về mối quan hệ giữa các biến trong dữ liệu
- Đi kèm với việc xây dựng và tối ưu hoá mô hình Machine Learning, sử dụng các thuật toán học máy và phương pháp thống kê
Kiến thức từ dữ liệu
- Sử dụng để xác định phương pháp lấy mẫu, lựa chọn biến quan trọng, tính toán kích thước mẫu, đánh giá sai số và độ tin cậy, và tạo ra những kết luận có ý nghĩa về quần thể mà chúng ta quan tâm
Tập trung vào khả năng dự đoán và đa dạng của tập dữ liệu huấn luyện, mối quan hệ với lý thuyết thống kê thường ít được xem xét
- Sử dụng để hiểu và tối ưu hóa mô hình Machine Learning
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Phương pháp Lấy mẫu theo nhóm (Clustering Sampling)
Phương pháp lấy mẫu dữ liệu để đưa vào mô hình Machine Learning được sử dụng trong luận văn này là phương pháp lấy mẫu theo nhóm (Clustering Sampling) Phương pháp kỹ thuật lấy mẫu theo nhóm là kỹ thuật chọn mẫu trong đó việc lựa chọn các nhóm cá thể có cùng tính chất
Ví dụ: Sinh viên học chung các môn học Chính trị, xã hội sẽ xếp vào cùng một nhóm, sinh viên của cùng 1 khoa học các môn chuyên ngành của khoá đó sẽ trong nhóm của từng khoa
Bước 1: Xác định các cụm thích hợp
Bước 2: Lập danh sách dự đoán điểm sinh viên như sau:
Có hai cách chọn mẫu theo ý tưởng của người thực hiện nghiên cứu:
✓ Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu
Ví dụ: tất cả các sinh viên toàn trường học tất cả các môn học
✓ Cách 2: Danh sách các cá thể trong các cụm đã chọn, sau đó áp dụng cách chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi cụm để chọn các cá thể vào mẫu
Ví dụ: Danh sách nhóm các sinh viên học chung các môn học Chính trị, xã hội, ngoại ngữ, các môn Tự nhiên (gọi tắt là: các môn học chung) của tất cả các khoa và nhóm các môn học chuyên ngành của từng khoa
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Hình 2 3: Chọn mẫu theo nhóm
Phương pháp dự đoán điểm sinh viên đại học
2.5.1 Gradient Boosting (tăng cường độ dốc)
Là một giải thuật học máy được dùng để tăng cường độ chính xác cho các mô hình phân lớp và hồi quy Nguyên lý của Gradient Boosting là xây dựng mô hình dự báo dựa trên việc tạo ra nhiều mô hình đơn giản và sau đó nối chúng lại với nhau để tạo ra một mô hình phức tạp hơn Mỗi mô hình mới được xây dựng để hỗ trợ các điểm dữ liệu mà các mô hình trước đó dự đoán không chính xác
Tăng cường độ dốc bổ sung các yếu tố dự đoán một cách tuần tự vào nhóm, trong đó các yếu tố dự đoán trước sửa các yếu tố kế tiếp của chúng, tạo thành chuỗi các mô hình (model) mà mô hình sau sẽ tốt hơn model trước bởi trọng số được cập nhật qua mỗi model Cụ thể là, trọng số của những dữ liệu dự đoán đúng sẽ không đổi, còn trọng số của những dữ liệu dự đoán sai sẽ được tăng thêm và lấy kết quả của model cuối cùng trong chuỗi model này làm kết quả trả về Do đó làm tăng độ chính xác của mô hình
❖ Thuật toán Gradient Boosting tổng quát
Thuật toán này nhằm xấp xỉ độ dốc (gradient) thông qua một hàm tham số h x a ( ; n ) Tại mỗi vòng lặp, tính gradient , xem
{−y x i , } i 1 N là tập training để huấn luyện hàm h x a ( ; n ) Từ đó, dự đoán - từ x
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Có thể viết hàm Gradient Boost [2] như sau:
Hình 2 4: Thuật toán Gradient Boosting [2]
❖ Hoạt động của mô hình tăng cường độ dốc (Gradient Boosting model)
Chủ yếu có 3 thành phần chính được sử dụng để tăng độ dốc [20] như sau:
- Hàm mất mát (Loss function): là thành phần chính và cơ bản của mô hình tăng cường độ dốc (Gradient Boosting model) để tối ưu hoá chức năng mất mát được thực hiện Hàm mất mát cải tiến nhiều loại vấn đề khác nhau
- Thành phần học yếu (weak learner) để đưa ra các dự đoán Một cây quyết định là một thành phần “Weak Learner” Cây hồi quy cụ thể dành cho các giá trị đầu ra thực tế được sử dụng để phân tách
- Mô hình bổ sung (an additional model) không cần sửa đổi cây trước đó và cây hiện có trong mô hình Sau một thời gian mô hình yêu cầu thêm cây, mô hình tăng cường độ dốc làm giảm khả năng mất mát Nó cũng làm giảm bớt các tham số và giảm tối thiểu lỗi của trọng số cập nhật sau khi tính toán lỗi
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Hình 2 5: Flowchart xử lý tuần tự của Gradient Boosting
XGBoost, viết tắt của Extreme Gradient Boosting, là thư viện máy học cây quyết định tăng cường độ dốc có thể mở rộng, phân tán Nó cung cấp khả năng tăng cường cây song song và là thư viện máy học hàng đầu cho các vấn đề về hồi quy, phân loại và xếp hạng [24]
XGBoost là một trong những thuật toán học máy phổ biến và được sử dụng rộng rãi nhất hiện nay XGBoost nhằm giải quyết bài toán supervised learning cho độ chính xác khá cao và thường giành giải chiến thắng trong các cuộc thi trên Kaggle Học máy có giám sát sử dụng các thuật toán để đào tạo một mô hình nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mô hình đã đào tạo để dự đoán nhãn trên các tính năng của tập dữ liệu mới
❖ Hoạt động của mô hình XGBoost
XGBoost là một triển khai tăng cường độ dốc có thể mở rộng và có độ chính xác cao giúp đẩy các giới hạn của sức mạnh tính toán cho các thuật toán cây được tăng cường, được xây dựng chủ yếu để tăng cường hiệu suất và tốc độ tính toán của mô hình máy học
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
Với XGBoost, các cây được xây dựng song song, thay vì tuần tự như Gradient Boostng Nó tuân theo một chiến lược khôn ngoan theo cấp độ, quét qua các giá trị độ dốc và sử dụng các tổng từng phần này để đánh giá chất lượng của các phần tách ở mọi phần tách có thể có trong tập huấn luyện
XGBoost sử dụng cây quyết định với độ dốc được tăng cường, giúp cải thiện tốc độ và hiệu suất Nó phụ thuộc rất nhiều vào tốc độ tính toán và hiệu suất của mô hình mục tiêu Việc đào tạo mô hình phải tuân theo một trình tự, do đó làm chậm quá trình triển khai các máy tăng cường độ dốc
Nếu Deep learning chỉ nhận đầu vào là dữ liêu thô (raw data) dạng numerical (ta thường phải chuyển đổi sang n-vector trong không gian số thực) thì XGBoost nhận đầu vào là tabular datasets với mọi kích thước và dạng dữ liệu bao gồm cả categorical mà dạng dữ liệu này thường được tìm thấy nhiều hơn trong business model
Bên cạnh đó, XGBoost có tốc độ huấn luyện nhanh, có khả năng scale để tính toán song song trên nhiều server, có thể tăng tốc bằng cách sử dụng GPU có thể tính toán nhanh với dũ liệu lớn (Big data).
Đánh giá độ chính xác của mô hình dự đoán
Kết quả dự đoán sử dụng các phép đo độ chính xác của mô hình hồi quy
“được tính toán dựa trên sai số của giá trị dự báo so với giá trị thực tế của dữ liệu” [8]
Sử dụng các sai số dự báo hay còn gọi là độ đo hàm lỗi MAE, RMSE, MSE, và R Square để đánh giá hiệu quả của mô hình Giá trị của các độ đo hàm lỗi càng nhỏ thì biểu thị mô hình càng tốt
Với hàm lỗi trung bình bình phương (RMSE) là một hàm chi phí trên cơ sở xác định hiệu suất của mô hình trong việc đưa ra dự đoán hoặc tìm ước tính Giá trị này càng gần với 0, mô hình càng tốt RMSE được tính toán trên dữ liệu ước tính/dự đoán bằng cách so sánh nó với các giá trị thực
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam
• Sai số bình phương trung bình (MSE)
• Sai số tiêu chuẩn của giá trị dự báo (RMSE)
• Sai số tuyệt đối trung bình (MAE)
= − (2.3) Trong đó, Y t là dữ liệu tại thời điểm t
Y t là giá trị dự báo tại thời điểm t n là kích thước mẫu
Các công trình nghiên cứu nổi bật trong giáo dục đại học
Trong lĩnh vực khái phá dữ liệu giáo dục (Education Data mining) là một trong những hướng nghiên cứu phổ biến là trích xuất các thông tin cần thiết để dự đoán khả năng học tập của sinh viên [12,17]
Thông thường, các nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Nghiên cứu sử dụng phương pháp dự đoán dựa trên dữ liệu để xác định yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên Các tác giả J M Aiken, R De Bin, M Hjorth-Jensen and M D Caballero [14] đã thu thập dữ liệu từ một số lượng lớn sinh viên tại trường đại học và sử dụng các phương pháp thống kê và học máy sử dụng logistic regression và XGBoost để phân tích dữ liệu Nghiên cứu này tập trung vào việc dự đoán thời gian hoàn thành chương trình học tại một trường đại học lớn ở Mỹ Kết quả cho thấy có nhiều yếu tố ảnh hưởng đến thời gian hoàn thành của sinh viên, bao gồm kỹ năng học tập, môi trường học tập, hỗ trợ từ gia đình và bạn bè,
Chương 2: Cơ sở lý thuyết GVHD: PGS.TS Thoại Nam và yếu tố kinh tế Kết quả nghiên cứu có thể hỗ trợ các nhà quản lý giáo dục đưa ra biện pháp nhằm nâng cao tỷ lệ tốt nghiệp
Nhóm tác giả L E Contreras Bravo, J A Caro Silva and D L Morales Rodríguez [15] đã làm nghiên cứu tổng hợp đánh giá về việc sử dụng phương pháp Ensemble trong dự đoán kết quả học tập sinh viên Nhóm tác giả tập trung vào việc khảo sát các phương pháp ensemble, tức là việc kết hợp nhiều mô hình dự đoán để cải thiện độ chính xác của việc dự đoán hiệu suất học tập Kết quả của bài báo cho thấy rằng sử dụng các phương pháp ensemble có thể cải thiện khả năng dự đoán hiệu suất học tập của sinh viên so với việc sử dụng một mô hình dự đoán đơn lẻ Các phương pháp ensemble bao gồm voting, stacking, bagging và boosting Tuy nhiên, các tác giả nhận thấy còn nhiều khía cạnh cần nghiên cứu và cải tiến để tối ưu hóa việc sử dụng các phương pháp ensemble trong dự đoán hiệu suất học tập của sinh viên
Nhóm tác giả T Hu và T Song [17] sử dụng thuật toán XGBoost để xây dựng mô hình dự báo và phân tích học tập của sinh viên Các tác giả đã sử dụng dữ liệu học tập của sinh viên để dự báo kết quả học tập của họ dựa trên các yếu tố như điểm số trước đây, tham gia vào các hoạt động ngoại khóa, và các yếu tố khác liên quan Kết quả của nghiên cứu cho thấy XGBoost có khả năng dự báo kết quả học tập với độ chính xác cao Mô hình XGBoost cung cấp thông tin quan trọng về mức độ ảnh hưởng của các yếu tố khác nhau đối với kết quả học tập Bài viết cũng cung cấp một phân tích chi tiết về các yếu tố quan trọng và mức độ ảnh hưởng của chúng đối với kết quả học tập và giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến kết quả học tập và hỗ trợ các nhà giáo dục và nhà quản lý giáo dục trong việc đưa ra các biện pháp nhằm nâng cao hiệu quả học tập của sinh viên.
PHÂN TÍCH VÀ GIẢI PHÁP
Mô tả bài toán
Đa số tất cả các trường đại học hiện nay đều đào tạo theo hình thức tín chỉ dựa trên Quy chế đào tạo tín chỉ của Bộ giáo dục và Đào tạo Sinh viên sẽ học một số học phần bắt buộc và học phần tự chọn Mỗi ngành sẽ có chương trình đào tạo riêng cho ngành đó Các học phần sinh viên cần tích luỹ được quy định trong chương trình đào tạo, bao gồm: nhóm học phần bắt buộc và nhóm học phần tự chọn của chuyên ngành
Học phần bắt buộc là học phần gồm những nội dung kiến thức chính yếu của mỗi chương trình đào tạo bắt buộc sinh viên phải tích lũy Các học phần tự chọn là học phần chứa những kiến thức cần thiết sinh viên sẽ tự chọn theo các chuyên ngành đào tạo nhằm đa dạng hoá chuyên môn hoặc sinh viên được chọn lựa tuỳ ý theo quy định của mỗi chương trình để tích luỹ đủ số tín chỉ, học phần
Bài toán dự đoán điểm sớm cho sinh viên đại học sẽ giúp cho sinh viên có được cái nhìn tổng quan về các môn học mà sinh viên sẽ học trong thời gian tới dựa trên kết quả điểm học tập các học phần mà sinh viên đã hoàn thành Sinh viên sẽ thực hiện dự đoán điểm theo các nhóm môn học chung và môn học tự chọn chuyên ngành của từng khoa được quy định trong chương trình đào tạo.
Các đặc trưng của dữ liệu sinh viên đại học Bách Khoa
Định dạng ban đầu của bộ dữ liệu này là những file có định dạng excel (.xlsx)
Bộ dữ liệu này bao gồm 2.453.995 dòng dữ liệu có 60.953 sinh viên, 4.610 môn học của tất cả các ngành thuộc 12 khoa và 2 trung tâm đào tạo Mỗi bản ghi thể hiện thông tin của sinh viên học tập các môn học với điểm số tương ứng của từng môn học
Mỗi tập tin kết quả học tập của sinh viên các Khoa, ngành đều có các thuộc tính như sau: Năm học, học kỳ, mã học kỳ, mã môn học, tên môn học, đơn vị tín chỉ, phần trăm kiểm tra, phần trăm thi, mã nhóm, mã tổ, số thứ tự, mã khoa, tên lớp, khối, mã ngành, tên ngành, mã số sinh viên, điểm kiểm tra, tỉ lệ kiểm tra, điểm bài tập, tỉ lệ bài tập, điểm bài tập lớn, tỉ lệ bài tập lớn, điểm thí nghiệm, tỉ lệ thí nghiệm, điểm thi, tỉ lệ thi, điểm tổng kết, điểm tổng kết 1, điểm tổng kết 2, điểm tổng kết hệ 10, ghi chú
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM
Phân bố điểm sinh viên đại học Bách Khoa
Hình 3 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa
(sau khi Tiền xử lý dữ liệu)
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
• Biểu đồ phân bố điểm sinh viên của từng khoa
Hình 3 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Công nghiệp
Hình 3 4: Biểu đồ phân bố điểm khoa Cơ khí
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 5:Biểu đồ phân bố điểm khoa Kỹ thuật Địa chất và Dầu khí
Hình 3 6: Biểu đồ phân bố điểm khoa Điện - Điện tử
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 7: Biểu đồ phân bố điểm khoa Kỹ thuật Giao thông
Hình 3 8: Biểu đồ phân bố điểm khoa Hoá học
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 9: Biểu đồ phân bố điểm khoa Môi trường và Tài nguyên
Hình 3 10: Biểu đồ phân bố điểm khoa Khoa học và Kỹ thuật máy tính
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 11: Biểu đồ phân bố điểm khoa Chất lượng cao
Hình 3 12: Biểu đồ phân bố điểm khoa Quản lý Công nghiệp
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 13: Biểu đồ phân bố điểm khoa Khoa học Ứng dụng
Hình 3 14: Biểu đồ phân bố điểm khoa Công nghệ Vật liệu
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 15: Biểu đồ phân bố điểm Kỹ sư chất lượng cao PFIEV Việt Pháp
Hình 3 16: Biểu đồ phân bố điểm khoa Xây dựng
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Hình 3 17: Biểu đồ hộp (boxplot) phân bố điểm sinh viên của từng khoa
Độ xiên (skewness) và Kurtosis điểm của sinh viên
Hình 3 18: Chỉ số độ xiên của dữ liệu điểm và Kurtosis
Dựa vào kết quả thực nghiệm ở hình 3.18 ta thấy rằng:
- Skewess ≈ -0,6375 < 0: phân phối dữ liệu điểm của sinh viên là dạng phân phối bất đối xứng trái
- Kurtosis ≈ 0,343 < 3: độ nhọn của của phần trung tâm phân phối dữ liệu nhỏ hơn phân phối tiêu chuẩn
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Xây dựng mô hình dự đoán điểm sinh viên
3.5.1 Kiến trúc tổng quan của bài toán
Hình 3 19: Kiến trúc Tổng quan của bài toán
Dữ liệu thô combined combined combined combined combined combined combined
Tiền xử lý dữ liệu thô
- Loại bỏ các trường hợp dữ liệu dư thừa
- Quy đổi điểm chữ thành điểm số
Tổng hợp Chuẩn bị dữ liệu
Tiền xử lý dữ liệu cho Machine Learning
- Chuẩn hoá dữ liệu kiểu chuỗi
- Encoder chuyển đổi kiểu dữ liệu chuỗi số sang dạng số
- Lấy mẫu dữ liệu Áp dụng các giải thuật học máy
Tìm tham số tối ưu Đánh giá Độ chính xác
Chọn mô hình dự đoán
Lưu mô hình dự đoán
Kiểm tra Điểm dự đoán SV Các môn học từ 8-10 điểm
SV lựa chọn môn học
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
3.5.2 Các bước thực hiện Tiền xử lý dữ liệu
Dữ liệu thu thập từ thực tế thường không nhất quán, dữ liệu thường bị thiếu, lỗi do nhiều nguyên nhân khác nhau, và thiếu dữ liệu Nếu dữ liệu không rõ ràng thì kết quả khai thác dữ liệu sẽ bị ảnh hưởng, không đáng tin cậy dẫn đến quyết định không chính xác
Tiền xử lý dữ liệu là một kỹ thuật khai phá dữ liệu nhằm cải thiện chất lượng dữ liệu từ đó bao gồm chuyển đổi dữ liệu thô thành định dạng dễ hiểu, có thể sử dụng được Dữ liệu trong thế giới thực thường không đầy đủ, không nhất quán và có khả năng chứa nhiều lỗi khi áp dụng thuật toán phân tích
Tiền xử lý dữ liệu là bước quan trọng trong quy trình khai thác dữ liệu Hầu hết các bộ dữ liệu được sử dụng trong các vấn đề liên quan đến học máy cần được xử lý, làm sạch và biến đổi trước khi một thuật toán học máy có thể được huấn luyện trên những bộ dữ liệu này
Căn cứ vào quy chế Đào tạo và học vụ bậc Đại học, Cao đẳng ban hành kèm theo quyết định số 3502/QĐ-ĐHBK-ĐT, ngày 25/11/2015 và sửa đổi bổ sung, tác giả tiến hành các bước Tiền xử lý dữ liệu như sau:
➢ Kiểm tra dữ liệu thiếu, lựa chọn thuộc tính
➢ Kiểm tra dữ liệu phân loại
➢ Loại bỏ những trường không phục vụ cho việc phân tích, dự đoán điểm
➢ Loại bỏ dữ liệu không phục vụ cho bài toán phân tích, dự đoán điểm như những sinh viên đang tạm ngưng việc học tập tại trường, bảo lưu kết quả học tập
➢ Loại bỏ các điểm số lớn hơn 10 bằng cách quy đổi điểm tổng kết môn học dưới dạng chữ sang điểm số mà không tính vào điểm trung bình tích lũy, cũng như không có ý nghĩa cho việc phân tích (quy định tại điều 14, chương 3, quy chế Đào tạo và học vụ bậc Đại học)
➢ Quy đổi về điểm 0 cho các điểm số được tính như là điểm 0 (quy định tại điều
14, chương 3, quy chế Đào tạo và học vụ bậc Đại học)
➢ Kiểm tra sự trùng lặp dữ liệu các môn học mà sinh viên đã học và loại bỏ trùng lặp (nếu có)
➢ Chuẩn hóa dữ liệu, định dạng lại các trường dữ liệu của tất cả các tập tin chứa dữ liệu thông tin sinh viên Đại học theo một kiểu dữ liệu, thuộc tính
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
➢ Chia dữ liệu chuẩn bị cho việc áp dụng thuật toán Machine Learning
Bên cạnh đó, căn cứ Quyết đinh số 2905/ĐHBK-ĐT ngày 22/9/2017, chương trình đào tạo của tất cả các khoa từ 2014-2017 quy định các học phần bắt buộc, tự chọn, tác giả thực hiện lấy mẫu theo nhóm các môn học mà sinh viên tất cả các khoa học chung (tạm gọi là môn học chung) gồm các môn học của Khối kiến thức Toán và Khoa học tự nhiên, Chính trị, Kinh tế, văn hoá, xã hội, giáo dục thể chất, ngoại ngữ
Bảng 3 1: Danh sách các môn học chung
1 Chủ nghĩa xã hội khoa học
3 Tư tưởng Hồ Chí Minh
4 Pháp luật Việt Nam đại cương
5 Đường lối cách mạng của Đảng Cộng sản Việt Nam
8 Những nguyên lý cơ bản của chủ nghĩa Mác-Lênin
11 Đường lối quân sự của Đảng (I)
12 Công tác giáo dục quốc phòng (II)
19 Giáo dục thể chất 1(cđ)
20 Giáo dục thể chất 2(CĐ)
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
30 Xác suất và thống kê
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Giải pháp cho bài toán
Dựa vào đặc trưng của bộ dữ liệu trường ĐHBK đã phân tích ở trên và heuristic trong giáo dục đại học, dữ liệu điểm 0 có rất nhiều trong tất cả các khoa của toàn trường Đại học Bách Khoa Mật độ phân bố điểm 0 cao hơn hẳn phân bố của các điểm khác làm ảnh hưởng đến độ chính xác của mô hình dự đoán Điểm 0 là “outlier” khi thực hiện phân tích dự đoán điểm sinh viên đại học Bách Khoa Do đó, tác giả chọn phương pháp lấy mẫu theo nhóm (Clustering Sampling) kết hợp lấy mẫu theo phán đoán (Judgment Sampling) chỉ lấy các sinh viên có điểm từ 1 đến 10 để xây dựng mô hình dự đoán điểm sinh viên như sau:
• Lấy mẫu toàn bộ dữ liệu sinh viên tất cả các môn học
• Lấy mẫu theo nhóm các môn học chung
Chương 3: Phân tích và Giải pháp GVHD: PGS.TS Thoại Nam
Bên cạnh đó, mục tiêu của luận văn hướng đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo độ chính xác nhất định và dựa trên đề xuất ở mục 3.1 xây dựng mô hình dự đoán điểm sinh viên đại học dựa trên kết quả điểm học tập các môn học của sinh viên đã đạt được để đưa ra mô hình dự đoán điểm của các môn học tiếp theo trong chương trình mà sinh viên sẽ học ở học kỳ sắp tới
Do đó, luận văn thực hiện các kịch bản thực nghiệm như sau:
• Kịch bản 1: Lấy mẫu toàn bộ dữ liệu sinh viên tất cả các môn học Không thực hiện gom nhóm sinh viên, sử dụng tập dữ liệu chung của toàn trường
• Kịch bản 2: Lấy mẫu theo nhóm các môn học chung gồm tất cả sinh viên học các môn học chung
• Kịch bản 3: Lấy mẫu theo nhóm các môn học tự chọn chuyên ngành của từng khoa
KẾT QUẢ VÀ ĐÁNH GIÁ
Thực nghiệm dự đoán điểm sinh viên
4.1.1 Tiền xử lý dữ liệu
Sau khi tiền xử lý dữ liệu thô ban đầu và chuẩn hoá dữ liệu để đưa vào mô hình dự đoán điểm, tập dữ liệu sinh viên đại học đã được lấy mẫu theo nhóm sẽ được phân chia ngẫu nhiên thành hai tập dữ liệu gồm: tập huấn luyện (training dataset) và tập kiểm tra (testing dataset)
Dữ liệu gốc ban đầu
Tiền xử lý dữ diệu
Xử lý dữ liệu thô ban đầu
Tập dữ liệu huấn luyện (80%)
Tập dữ liệu kiểm tra (20%)
Hình 4 1: Quy trình Tiền xử lý dữ liệu tổng quát của mô hình dự đoán điểm
Chương 4: Kết quả và Đánh giá GVHD: PGS.TS Thoại Nam
Sau khi loại bỏ điểm