[LUẬN VĂN THẠC SĨ] Xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu

Vì vậy xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu dựa vào điểm quá trình và điểm định kì trong khoảng thời gi

GIỚI THIỆU CHUNG

Lí do chọn đề tài

Hiện tượng học sinh, sinh viên (HSSV) thi lại hay rớt môn là một hiện tượng thường thấy ở các trường đại học, cao đẳng Theo khảo sát, không ít trường hợp HSSV nợ môn dẫn đến bị cảnh cáo học vụ hoặc bị đuổi học Nhiều trường có tỷ lệ tốt nghiệp đúng hạn khoảng 60-80% Chẳng hạn, sau học kì 2 năm học 2021- 2022, trường đại học Ngân hàng đã ra quyết định buộc thôi học 346 sinh viên, trong đó, có nhiều HSSV nợ tới 50-60 tín chỉ, nhiều HSSV khác học quá thời gian đào tạo 2-3 năm vẫn chưa hoàn thành tín chỉ Còn ở trường đại học Luật TP HCM, tỷ lệ tốt nghiệp đúng hạn của trường trong năm 2021 -2022 khoảng 73%; ngoài ra trong năm 2021 –

2022 dự kiến bị đuổi học khoảng 76 sinh viên có học lực kém, bị nợ trên 24 tín chỉ hoặc bị cảnh cáo 2 lần liên tiếp Trong học kỳ 2 năm học 2021-2022, Trường Đại học

Sư phạm Kỹ thuật TP HCM đã cảnh cáo hơn 400 sinh viên trong trường Trường Đại học Công nghiệp Thực phẩm trong năm học 2021-2022 công bố danh sách 1036 sinh viên bị cảnh cáo học vụ và buộc thôi học [1]

Theo số liệu thống kê chưa đầy đủ tại trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu, cuối năm học 2021-2022, có gần 200 HSSV nghỉ học, bỏ học giữa chừng, số HSSV không được tốt nghiệp chiếm gần 40% tổng số HSSV ra trường Nguyên nhân của việc bỏ học, không được tốt nghiệp một phần do rớt môn hoặc thi lại nhưng vẫn không đủ điểm đậu

Trong quá trình giảng dạy và chủ nhiệm, tác giả nhận thấy rằng HSSV bị rớt môn do một số nguyên nhân sau: nghiện games, bạn bè rủ rê đi chơi; đi làm thêm nhiều, không cân bằng giữa việc đi làm thêm và học tập; kế hoạch học tập và định hướng ngành không rõ ràng;… Từ những nguyên nhân vừa liệt kê trên dẫn đến HSSV nghỉ học, tỉ lệ ra trường thấp

Với phương châm “Luôn luôn đổi mới vì nguồn nhân lực chất lượng cao”, trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu luôn chú trọng vào việc nâng cao chất lượng cơ sở vật chất, đào tạo bồi dưỡng giáo viên tiếp cận với các chương trình đào tạo tiên tiến của các nước phát triển như Nhật Bản, Hàn Quốc, Úc, Đức, Đan Mạch Trong những năm qua, trường Cao Đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu đã đạt được nhiều thành tựu, tạo dựng được thương hiệu uy tín, và là trường cao đẳng đầu tiên tại Việt Nam được Hội đồng giáo dục ở Vương quốc Anh đánh giá đạt loại tốt theo khung Ofsted Là một giáo viên trong trường, ý thức được vai trò quan trọng trong việc đào tạo HSSV trở thành một người có trình độ, vững chuyên môn, tác giả muốn góp một phần nào đó giúp nhắc nhở một số HSSV còn lơ là trong việc học để cải thiện kết quả học tập Với những lý do trên, tác giả chọn đề tài: “Xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu”.

Tính cấp thiết của đề tài

Nghỉ học hay bỏ học giữa chừng sẽ làm ảnh hưởng đến tương lai của HSSV HSSV không qua đào tạo, không có bằng cấp sẽ khó có thể xin việc, năng suất lao động thấp, chưa kể HSSV dễ bị lôi kéo vào các tệ nạn xã hội Để không xảy ra hiện tượng HSSV nghỉ học, bỏ học thì rất cần sự quan tâm, động viên đúng lúc của Giáo viên chủ nhiệm (GVCN), Giáo viên bộ môn (GVBM) và phụ huynh bằng việc thường xuyên nhắc nhở vấn đề học tập thông qua các bài kiểm tra, nhắc nhở việc nghỉ học thường xuyên,… Kết quả từ các bài kiểm tra quá trình, kiểm tra định kì sẽ phản ánh được một phần nào đó việc học của HSSV Nếu HSSV lơ là việc học thì điểm số sẽ thấp Việc đưa ra khuyến cáo kết quả học tập HSSV thông qua các điểm thường xuyên và định kì trong lớp sẽ giúp cải thiện phần nào đó việc rớt môn dẫn đến bỏ học, nghỉ luôn

Vì vậy xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu dựa vào điểm quá trình và điểm định kì trong khoảng thời gian từ đầu học kì đến giữa học kì và áp dụng các thuật toán Support Vector Machine, Logistic Regression, Cây quyết định là cần thiết và mang tính khả thi cao.

Mục tiêu, nội dung và phương pháp nghiên cứu

− Đối tượng nghiên cứu: Đề tài lần lượt nghiên cứu các điểm của HSSV (điểm quá trình, điểm định kì từ đầu học kì đến giữa học kì), từ đó đưa ra dự đoán kết quả cuối kì của môn học đó;

− Phạm vi nghiên cứu: Thu thập điểm của HSSV trong 2 năm học 2020 - 2021 và năm học 2021 - 2022 Phân tích đánh giá dữ liệu của HSSV;

− Mục tiêu tổng quát: Sử dụng các thuật toán máy học để xây dựng mô hình dự đoán kết quả học tập của HSSV từ đó đưa ra khuyến cáo đến HSSV;

• Phân tích các điểm của HSSV để lựa chọn các đặc trưng phù hợp cho mô hình;

• Xây dựng được mô hình dự đoán và khuyến cáo kết quả môn học của HSSV Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu.

Nội dung nghiên cứu

− Nghiên cứu cơ sở lý luận về các thuật toán: SVM, Logistic Regression, Cây quyết định;

− Nghiên cứu về các công cụ: Google Colab, các thư viện trong Python: Numpy, Pandas, Matplotlib, Seaborn, Sklearn…;

− Nghiên cứu các đặc trưng sẽ ảnh hưởng đến kết quả môn học của HSSV;

− Xác định được tầm quan trọng của việc dự đoán kết quả môn học của HSSV;

− Sử dụng nhiều thuật toán để đưa kết quả dự đoán, từ các thuật toán xác định thuật toán nào đưa ra kết quả chính xác nhất.

Phương pháp luận và phương pháp nghiên cứu

Tiếp cận lí thuyết: Tìm kiếm, tổng hợp lí thuyết Machine Learning và các thuật toán: SVM, Logistic Regression, Cây quyết định từ nhiều nguồn khác nhau như sách, báo, giáo trình, và Internet

− Thu thập thông tin điểm của HSSV tại trường Cao đẳng Kỹ thuật Công nghệ

− Dựa trên những thông tin thu thập được, tác giả sẽ sử dụng thuật toán dự đoán khả năng thi không đạt của HSSV và đưa ra những khuyến cáo học tập cho HSSV.

Kết cấu luận văn

Luận văn bao gồm các phần chính sau đây:

− Giới thiệu chung: Lí do chọn đề tài, tính cấp thiết của đề tài đối với trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu; nêu lên mục tiêu, các phương pháp sẽ nghiên cứu;

− Tổng quan về bài toán phân loại: Gồm 2 phần: Phần thứ nhất giới thiệu về máy học và phân nhóm các thuật toán máy học Phần thứ hai đi sâu vào phân tích lí thuyết của 3 thuật toán phân loại: thuật toán Logistic Regression, thuật toán SVM, thuật toán Cây quyết định;

− Các công cụ áp dụng: Giới thiệu về môi trường lập trình Google Colab, giới thiệu một số thư viện sử dụng trong luận văn: thư viện Pandas, thư viện Matplotlib, thư viện Numpy, thư viện Seaborn, thư viện Sklearn;

− Xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu: Tác giả sử dụng thuật toán Logistic Regression, thuật toán SVM, thuật toán Cây quyết định để xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu Từ thực nghiệm đưa ra kết luận thuật toán nào tối ưu nhất cho việc dự đoán đối với dữ liệu của Trường;

− Kết luận: Tác giả tổng kết lại những ưu điểm, nhược điểm và phạm vi ứng dụng của mô hình, đồng thời tác giả đề ra hướng phát triển cho mô hình.

TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI

Giới thiệu về Máy học

2.1.1 Khái niệm về Máy học

Trong cuốn sách “Machine Learning”, tác giả Tom Mitchell đưa ra khái niệm Máy học (Machine Learning) như sau: “Machine learning is the study of computer algorithms that allow computer programs to automatically improve through experience” [2] Theo khái niệm này, Máy học là tìm ra các thuật toán cho phép máy tính tự học từ các kiến thức có sẵn, từ những kiến thức đó máy tính tự cải thiện, nâng cấp

Máy học là một lĩnh vực nghiên cứu được giao thoa bởi nhiều lĩnh vực nghiên cứu: Thống kê, Trí tuệ nhân tạo, Khoa học máy tính Máy học hiện tại đang rất phổ biến trong cuộc sống hiện nay Ví dụ: khi truy cập vào Youtube, sau một khoảng thời gian quan sát “lịch sử truy cập”, Youtube đã có thể đưa ra đề xuất Video có nội dung tương tự, hoặc các kênh Youtube có nội dung sáng tạo gần giống nhau Hoặc khi mua hàng trên Tiki hoặc Shopee, sau một khoảng thời gian sẽ có đề xuất các sản phẩm tương tự như sản phẩm từng mua Ngoài các ứng dụng thương mại, Máy học còn có những ảnh hưởng to lớn đối với cách thực hiện nghiên cứu theo hướng dữ liệu ngày nay như: trong thiên văn học giúp hỗ trợ tìm kiếm các hành tinh, vì sao xa xôi; trong y tế giúp đề xuất các phương pháp điều trị ung thư, hỗ trợ phân tích DNA

Máy học có mối liên hệ với AI, Big data và khả năng nhìn trước tương lai của máy học: a) Máy học và AI

AI (Artificial Intelligence) là viết tắt của trí tuệ nhân tạo đề cập đến các máy tính, các cỗ máy, robot “bắt chước” trí thông minh của con người để thực hiện các nhiệm vụ và có khả năng tự cải thiện “tư duy” thông qua các dữ liệu mà chúng tìm hiểu được AI thể hiện mục tiêu của con người mong muốn tạo ra được một robot có trí thông minh của con người, có thể hỗ trợ con người phát triển cuộc sống Còn Máy học là một công cụ hứa hẹn sẽ giúp con người “bước đi” trên con đường chinh phục

AI [3] b) Machine learning và Big Data

Big Data là thuật ngữ chỉ dữ liệu có kích thước rất lớn mà các phần mềm quản lí truyền thống khó có thể xử lí được Trong thời kì bùng nổ của dữ liệu hiện nay, giới truyền thông thường nhắc tới một thuật ngữ khoa học là Big Data, tuy nhiên Big Data không thực sự là một ngành khoa học chính thống Hiện nay mạng Internet ngày càng phát triển, kéo theo đó nhu cầu chia sẻ thông tin trên các trang mạng xã hội như Facebook, Instagram, Twitter, Youtube của con người ngày càng nhiều, vì vậy sự xuất hiện và phát triển của Big Data là một hệ quả tất yếu [3] Những con số dưới đây tính đến năm 2023 thể hiện quy mô của Big Data [4]:

• YouTube có 1,7 tỷ người truy cập hàng tháng;

• Mỗi ngày, Google xử lý 8,5 tỷ lượt tìm kiếm;

• Người dùng WhatsApp trao đổi tới 65 tỷ tin nhắn mỗi ngày;

• Thế giới sẽ sản xuất hơn 180 zettabyte dữ liệu vào năm 2025;

• 80-90% dữ liệu tạo ra ngày nay là không có cấu trúc Để khai thác được lượng dữ liệu khổng lồ của Big Data thì công cụ tiềm năng nhất chính là Máy học c) Machine learning và dự đoán tương lai

Vào năm 1957,nhà tâm lí học người Mỹ Frank Rosenblatt đã nghiên cứu ra thuật toán Máy học đầu tiên là thuật toán Perceptron Hình 2.1 dưới đây minh họa thuật toán Perceptron được dùng để phân loại hai khái niệm: thư rác (hình tròn) và thư bình thường (hình vuông) và kết quả dự đoán (hình tam giác) thuộc nhóm nào

Thuật toán Perceptron được phát biểu như sau: Cho một tập gồm các điểm Hình vuông (◼) và Hình tròn (⚫), thuật toán Perceptron thực hiện tính toán và tìm một đường phẳng phân chia thành 2 lớp riêng biệt: lớp 1 là các điểm hình Hình vuông (◼), lớp 2 là các các điểm Hình tròn (⚫) [3]

Máy học dựa vào những dữ liệu đã học để đưa ra dự đoán tương lai, nhưng chỉ khi tương lai có mối liên hệ mật thiết với hiện tại Dự đoán này có thể đúng cũng có thể sai

2.1.2.1 Phân nhóm dựa trên phương thức học a) Học có giám sát

Về cơ bản, Học có giám sát (Supervised Learning) là máy học có huấn luyện bằng cách sử dụng dữ liệu được gắn nhãn rõ ràng Sau đó, máy được cung cấp tập mẫu dữ liệu mới để thuật toán phân tích và đưa ra kết quả chính xác từ dữ liệu được gắn nhãn

Cho một tập biến đầu vào 𝐴 = {𝑎 1 , 𝑎 2 , … , 𝑎 𝑁 } và một tập nhãn tương ứng 𝐵 {𝑏 1 , 𝑏 2 , … , 𝑏 𝑁 }, trong đó 𝑎 𝑖 , 𝑏 𝑖 là các vector Từ tập đầu vào và tập nhãn, sẽ có tập dữ liệu huấn luyện là các cặp dữ liệu biết trước (𝑎 𝑖 , 𝑏 𝑖 ) ∈ 𝐴 × 𝐵 Từ tập huấn luyện này, thực hiện tính toán và tìm ra một hàm số ánh xạ sao cho mỗi phần tử từ tập 𝐴 sang một phần tử (xấp xỉ) tương ứng của tập 𝐵:

𝑏 𝑖 ≈ 𝑓(𝑎 𝑖 ), ∀𝑖 = 1, 2, … , 𝑁 Mục đích là tìm được một hàm số 𝑓 tốt nhất giúp tìm được nhãn dán b cho một dữ liệu c mới: 𝑏 = 𝑓(𝑐) [3]

Các loại thuật toán thường dùng cho Học có giám sát: Regression, Logistic Regression, Classification, Naive Bayes Classifiers, K-NN (K Nearest Neighbors), Decision Trees, Support Vector Machine

Học có giám sát được huấn luyện từ những dữ liệu thu thập được Từ những dữ liệu (đầu vào và đầu ra) đó tạo ra những “kinh nghiệm”, từ những “kinh nghiệm” đó để thực hiện xác định được những đầu ra cho những dữ liệu mới giúp giải quyết các bài toán như đưa ra các khuyến nghị, cảnh báo Tuy nhiên, việc sử dụng Học có giám sát để phân loại dữ liệu là một thách thức lớn b) Học không giám sát

Học không giám sát (Unsupervised Learning) là một thuật toán máy học sử dụng dữ liệu đầu vào không có nhãn dán và chưa được phân loại Học không giám sát sẽ thực hiện một số nhiệm vụ như phân cụm dữ liệu, sắp xếp các điểm dữ liệu có tính chất tương đồng Một cách hiểu đơn giản hơn, Học không giám sát là một bài toán chỉ biết dữ liệu vào 𝐴 mà không biết nhãn 𝐵 tương ứng với 𝐴 Học không giám sát là thuật toán mạnh trong việc xử lí dữ liệu không nhãn dán [3]

Học không giám sát được phân loại thành hai loại thuật toán:

− Clustering (Phân cụm): Khám phá quy luật trong các nhóm của dữ liệu, ví dụ như tìm ra quy luật mua hàng của các nhóm khách hàng;

− Association (Luật kết hợp): Các quy tắc kết hợp từ dữ liệu, chẳng hạn như những người mua 𝑋 cũng có xu hướng mua 𝑌;

Học không giám sát sử dụng dữ liệu không có nhãn và học dựa trên các sự tương đồng nên đây chính là điểm tối ưu hơn so với học có giám sát Nhưng học không giám sát đôi khi có tỉ lệ chính xác thấp hơn so với học có giám sát c) Học bán giám sát

Học bán giám sát (Semi-Supervised Learning) là thuật toán máy học sử dụng dữ liệu được gắn nhãn và dữ liệu không được gắn nhãn Học bán giám sát là một “kỹ thuật lai” giữa học tập có giám sát và không giám sát Ý tưởng cốt lõi của học bán giám sát là xử lý một điểm dữ liệu khác dựa trên việc nó có nhãn hay không: đối với các điểm được gắn nhãn, thuật toán sẽ sử dụng thuật toán học có giám sát để cập nhật trọng số của mô hình; còn đối với các điểm không được gắn nhãn, thuật toán sẽ sử dụng thuật toán học không giám sát để cố gắng gom nhóm với các điểm đã có gắn nhãn dựa trên các điểm tương đồng để đưa ra dự đoán

Trong hình 2.2, giả sử có một tập dữ liệu gồm nhiều điểm mà chỉ có 8 điểm dữ liệu được gắn nhãn, phần còn lại không được gắn nhãn

Hình 2 2: Mô phỏng các điểm dữ liệu được gắn nhãn và không được gắn nhãn

(Nguồn: https://www.v7labs.com [5])

Học có giám sát cập nhật trọng số của mô hình để giảm thiểu sự sai lệch giữa các dự đoán và nhãn Tuy nhiên, việc dự đoán đối với dữ liệu được gắn nhãn rất ít sẽ dễ sai lệch việc dự đoán Mặt khác, học tập không giám sát cố gắng tập hợp các điểm lại với nhau dựa trên những điểm tương đồng ở một số đặc điểm (Hình 2.3)

Hình 2 3: Mô phỏng Học có giám sát và không giám sát

(Nguồn: https://www.v7labs.com [5])

Các thuật toán phân loại

Thuật toán Logistic Regression được sử dụng cho bài toán phân loại nhị phân (0,1) dựa trên một hoặc nhiều biến dự báo Biến nhị phân thường được gọi là biến phản hồi (response variable) hoặc biến phụ thuộc (dependent variable) [3]

Thuật toán Logistic Regression sử dụng hàm Sigmoid Logistic để trả về một giá trị xác suất có thể ánh xạ được tới hai hay nhiều lớp rời rạc Thuật toán Logistic Regression là một nhánh con của nhóm thuật toán phân lớp [3]

Thuật toán Logistic Regression đặc biệt có giá trị được tạo ra từ một mô hình là các xác suất, được giới hạn trong phạm vi giá trị 0–1 Chính xác hơn, thuật toán Logistic Regression dự đoán xác suất trả về giá trị 0 hoặc 1 với một bộ giá trị dự đoán cụ thể

Bài toán về hồi quy Logistic:

Input: Tập dữ liệu huấn luyện (training data): 𝑥 = (𝑥 1 , … , 𝑥 𝑛 ) là một vector chứa các đặc trưng của dữ liệu đầu vào

Output : Dự đoán xác suất trả về rơi vào nhãn 0 hoặc nhãn 1

Yêu cầu bài toán là tìm một mô hình 𝑓(𝑥) ≈ 𝑦 với 𝑓(𝑥) = 𝑤 0 + 𝑤 1 𝑥 1 + … + 𝑤 𝑁 𝑥 𝑁

− 𝑦 là dữ liệu đầu ra trong tập huấn luyện;

− ŷ là dữ liệu đầu ra của mô hình dự đoán được

Bài toán cần tìm được các hệ số tối ưu cho 𝑤 1 , … , 𝑤 𝑛 Hai giá trị 𝑦 và ŷ là hai giá trị khác nhau vì có sai số 𝑦 và ŷ sau khi đã huấn luyện mô hình Sai số này càng nhỏ thì mô hình càng tốt

Giả sử có hai tập hợp dữ liệu có gán nhãn Hai lớp này là tập hợp các điểm

“Hình tròn ⚫” và các “Hình vuông ◼” Từ bộ dữ liệu thực hiện phân lớp, thực hiện dự đoán nhãn cho một điểm dữ liệu mới “Hình ngôi sao ” (Hình 2.6) Để xác định xem điểm “Hình ngôi sao ” là thuộc nhãn dán nào thì cần xác định xem điểm này sẽ thuộc lớp nào Vì vậy cần phải tìm biên giới giữa các lớp (Hình 2.6)

Hình 2 6: Biểu diễn mô hình phân lớp Đầu ra của thuật toán Logistic Regression là một hàm 𝑓(𝑋) có công thức là 𝑓(𝑋) = (∑ 𝑛 𝑖=1 𝑤 𝑖 𝑥 𝑖 ) + 𝑏 = 𝑤𝑥 + 𝑏 với 𝑤 = (𝑤 1 , … , 𝑤 𝑛 ) và 𝑥 = (𝑥 1 , … , 𝑥 𝑛 ) Hàm này có tính chất:

− Là hàm số liên tục nhận giá trị thực và bị chặn trong khoảng (0,1);

− Nếu xem điểm có tung độ là 0.5 thì các điểm sẽ có giá trị gần về 0 nếu các điểm này càng xa điểm phân chia về phía bên trái Ngược lại, các điểm sẽ có giá trị gần về 1 nếu các điểm này càng xa về điểm phân chia về phía bên phải

Hàm số Sigmoid là hàm số có những tính chất nói trên và được sử dụng nhiều nhất so với những hàm số khác cũng có những tính chất nói trên

Thuật toán hồi quy Logistic là thuật toán thuộc nhóm các thuật toán phân lớp Hàm Sigmoid Logistic dùng để ánh xạ đến hai hay nhiều lớp rời rạc và trả về một giá trị xác suất Dự đoán của hồi quy Logistic sẽ trả về các giá trị hoặc danh mục cụ thể Đầu ra của dữ liệu bị chặn trong đoạn [0,1]

Dữ liệu đầu ra là số thực nhưng giá trị chuyển đổi quy ước thành hai lớp 0 và 1 Dùng phương pháp thống kê, có thể cho rằng khả năng một đầu vào 𝑥 thuộc vào một nhóm 𝑦 0 thì xác suất nhóm 𝑦 0 khi biết 𝑥: 𝑝(𝑦 0 |𝑥) = 1

1+ 𝑒 −𝑧 = 𝜎(𝑧), vậy 𝜎(𝑧) gọi là hàm Sigmoid

− 𝜎(𝑧) là dữ liệu đầu ra từ 0 đến 1;

− 𝑧 là hàm tuyến tính: 𝑧 = 𝑤𝑥 + 𝑏 có dạng 𝑤 0 + 𝑤 1 𝑥 1 + … + 𝑤 𝑘 𝑥 𝑘 với

𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 là các thuộc tính của đối tượng; 𝑤 1 , 𝑤 2 , … , 𝑤 𝑛 là các hệ số

Trong hàm Sigmoid có 𝑒 −𝑧 , thực hiện tìm lim của 𝑒 −𝑧 :

Hình 2 7: Đồ thị lim của e -z Vậy lim của hàm Sigmoid là:

Hình 2 8: Đồ thị lim của hàm Sigmoid Đạo hàm của Sigmoid

(1+𝑒 −𝑧 ) = 1 – 𝜎(𝑧)) Dùng hàm Sigmoid để ánh xạ dự đoán theo xác suất Vì hàm có kết quả lim từ

0 đến 1 nên khi 𝑧 càng tăng dần về +∞ thì 𝜎(𝑧) sẽ càng tăng dần đến 1, nhưng nếu

𝑧 càng giảm về giảm dần về −∞ thì 𝜎(𝑧) càng giảm dần về 0

Ranh giới quyết định (Decision Bound): Hàm dự đoán có kết quả là xác suất từ

0 đến 1, vì vậy cần một ngưỡng để ánh xạ thành giá trị 0 và 1 Theo nguyên tắc nếu 𝜎(𝑧) > 0.5 thì xếp vào nhóm 1; nếu 𝜎(𝑧) ≤ 0.5 thì xếp vào nhóm 0:

Hình 2 9: Ranh giới quyết định (Decision Bound) 2.2.1.3 Xác suất của Logistic và phân phối Bernoulli

Phân phối Bernoulli được thể hiện bằng một biến p xác định xác suất của kết quả là 1 Với tham số này, xác suất cho mỗi sự kiện có thể được tính:

1 − 𝑝 𝑛ế𝑢 𝑘 = 0 Hồi quy Logistic sẽ được giải thông qua tính hàm ước lượng xác suất 𝑃(𝑋|𝑌) là xác suất của biến cố 𝑋 khi biết biến cố 𝑌 xảy ra Giả sử rằng: xác suất 𝑃(𝑋|𝑌) là một hàm Sigmoid với tham số là một tổ hợp tuyến tính các thuộc tính đầu vào

Hồi quy Logistic giả sử 𝜎(𝑤𝑥 + 𝑏) là xác suất để điểm dữ liệu 𝑥 thuộc vào lớp 1 là 𝜎(𝑤𝑥 + 𝑏) và 1 – 𝜎(𝑤𝑥 + 𝑏) là xác suất để x thuộc vào lớp 0 là Mỗi điểm dữ liệu huấn luyện (𝑥, 𝑦) với giá trị đầu ra 𝑦 đã biết, theo phân phối Bernoulli có:

P (𝑦 𝑖 = 0| 𝑥 𝑖 ; w) = 1 − 𝜎(𝑤𝑥 + 𝑏 ) Trong đó 𝑃 (𝑦 𝑖 = 1| 𝑥 𝑖 ; 𝑤) là xác suất xảy ra 𝑦 1 = 1 khi biết dữ liệu đầu vào

𝑥 𝑖 và tham số mô hình 𝑤 Mục đích của hệ số 𝑤: Khi các điểm dữ liệu thuộc class 1 khi 𝜎(𝑤𝑥 + 𝑏) càng tăng dần về 1 và khi các điểm dữ liệu thuộc class 0 khi 𝜎(𝑤𝑥 + 𝑏) càng giảm dần về 0 Đặt 𝑧 𝑖 = 𝜎(𝑤𝑥 + 𝑏), xác suất tổng quát 𝑃 (𝑦 𝑖 |𝑥 𝑖 ; 𝑤) cho một mẫu với hai trường hợp {0, 1} sẽ là:

𝑃 (𝑦 𝑖 |𝑥 𝑖 ; 𝑤) = z i y i (1 − 𝑧 𝑖 ) 1− 𝑦 𝑖 (1) (1) là xác suất tại một điểm dữ liệu Với 𝑦 𝑖 = 1 thì (1) sẽ thành P (y 𝑖 1| 𝑥 𝑖 ; w) = 𝜎(𝑤𝑥 + 𝑏 ), còn với 𝑦 𝑖 = 0 thì (1) sẽ thành P (𝑦 𝑖 = 0| 𝑥 𝑖 ; w) 1 − 𝜎(𝑤𝑥 + 𝑏 )

Giả sử rằng các điểm trong bộ dữ liệu là độc lập thì tất các điểm trong bộ dữ liệu sẽ có xác suất là tích của xác xuất tại từng điểm của bộ dữ liệu, có công thức là:

Vế phải của biểu thức (2) là một hàm Likelihood Function Hàm Likelihood Function đo lường mức độ phù hợp (goodness of fit) giữa mô hình và dữ liệu [7] Để kết quả dự đoán của mô hình là tốt nhất thì xác suất 𝑃 (𝑦|𝑋; 𝑤) phải đạt giá trị cao nhất

CÁC CÔNG CỤ ÁP DỤNG

Giới thiệu về Google Colab

Colaboratory hay còn gọi là Google Colab là sản phẩm của Google cho phép lập trình các dòng Code Python thông qua trình duyệt Web Google Colab thường dùng cho giáo dục, phân tích dữ liệu và máy học Google Colab là một môi trường lập trình chạy thông qua trình duyệt Web và sử dụng tài nguyên CPU, GPU của Google: https://colab.research.google.com/

Google Colab là phiên bản chuyên dụng của Jupyter Notebook Google Colab chạy trên đám mây và cung cấp tài nguyên miễn phí Việc lưu trữ trên đám mây là một điểm cộng lớn đối với Google Colab trong khi Jupyter Notebook lưu trữ cục bộ trên máy tính, phải cài đặt và phải chọn môi trường làm việc Các Code được chạy trên Google Colab đều sẽ được lưu trên Google Drive, vì thế có tính bảo mật cao Ngoài ra, người dùng có thể chia sẻ Code đó với người dùng khác một cách dễ dàng Mối quan hệ giữa iPython, Jupyter Notebook và Google Colab được thể hiện trong sơ đồ bên dưới

• Terminal, kernel with the frontend interfaces

Google Colab cung cấp cho người dùng nhiều loại GPU, loại thường được cung cấp là Nvidia K80s, T4s, P4s and P100s Tuy nhiên, do GPU trong Google Colab iPython

Google Colab thay đổi theo thời gian nên người dùng không thể lựa chọn loại GPU để lập trình Tuy Google Colab là dịch vụ miễn phí nhưng việc sử dụng tài nguyên trong Colab sẽ có những sự giới hạn như dung lượng lưu trữ phụ thuộc vào dung lượng Google Drive của tài khoản, thời gian sử dụng Colab tối đa là 12 giờ,…

3.1.2 Các bước truy cập vào Google Colab

Bước 1: Đăng nhập vào Gmail (Lưu ý: Cần có tài khoản Gmail)

Bước 2: Để truy cập vào Google Colab có nhiều cách:

Cách 1: Truy cập vào đường link: https://colab.research.google.com/

Cách 2: Truy cập vào Google Drive → Chọn vào Drive → Chọn ứng dụng khác → Chọn Google Colaboratory (Hình 3.1)

Hình 3 1: Truy cập vào Google Colaboratory

Trong trường hợp chưa có Google Colaboratory thì chọn “Kết nối ứng dụng khác” để cài đặt Google Colaboratory cho Google Drive (Hình 3.2)

Hình 3 2: Cài đặt Google Colaboratory cho Google Drive

3.1.3 Chạy Code trên Google Colab

Bước 1: Gõ Code vào ô Code trên Google Colab Nếu chưa có ô viết Code thì chọn vào để thêm một ô Code mới (Hình 3.3)

Hình 3 3: Giao diện nhập Code trong Google Colab

Bước 2: Bấm để chạy Code Kết quả chạy sẽ hiển thị phía dưới đoạn Code.

Tổng quan về một số thư viện trong Python

Là một thư viện được sử dụng để lập trình với dữ liệu chuỗi thời gian và dữ liệu có cấu trúc (dạng bảng, đa chiều,…) Chức năng chính của Pandas là phân tích và thao tác với dữ liệu Pandas được tạo ra vào năm 2008 bởi Wec Mckinney [8]

Là một thư viện vẽ biểu đồ và đồ thị trong Python Matplotlib trong Python là thư viện mã nguồn mở Matplotlib được bắt đầu phát triển bởi một nhà thần kinh học John D Hunter năm 2003 để mô phỏng các tập lệnh MATLAB [9]

Là một thư viện toán học thường dùng và khả năng tính toán mạnh mẽ trong Python Numpy hỗ trợ rất mạnh trong việc xử lí các ma trận và mảng có kích thước lớn với tốc độ nhanh hơn nhiều lần khi chỉ sử dụng code Python đơn thuần [8]

Là một thư viện mở rộng từ Matplotlib Thư viện Seaborn sẽ kế thừa các tính năng của thư viện Matplotlib và có những nâng cấp như: tạo ra các hình ảnh trực quan đẹp mắt, [10]

Scikit-learn (Sklearn) cung cấp một tập các công cụ lập trình xử lí các vấn đề về mô hình thống kê và các bài toán Máy học gồm: phân nhóm, phân cụm, hồi quy, giảm chiều dữ liệu [3]

Thư viện Scikit-learn cung cấp một số nhóm thuật tóan: Clustering, Cross Validation, Datasets, Dimensionality Reduction, Feature extraction, Feature selection, Parameter Tuning, Manifold Learning, Supervised Models.

XÂY DỰNG MÔ HÌNH DỰ ĐOÁN VÀ KHUYẾN CÁO KẾT QUẢ MÔN HỌC CỦA SINH VIÊN TRƯỜNG CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ BÀ RỊA VŨNG TÀU

Giới thiệu về trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu

Ngày 21/08/1998, theo quyết định số 400/QD-UB của UBND tỉnh BRVT, trường Dạy nghề tỉnh BRVT được thành lập Đến năm 2006, trường được đổi tên thành trường nghề tỉnh BR-VT Từ 05/11/2010, trường được nâng cấp và đổi tên thành trường Cao đẳng nghề tỉnh BR-VT Từ ngày 30/05/2017 đến này, trường chính thức đổi tên thành Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu (BCTECH) Địa chỉ Website của trường: www.bctech.edu.vn

Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu đã từ lâu khẳng định được uy tín và thương hiệu, là một trường giáo dục nghề nghiệp hàng đầu trong cả nước, đào tạo và phát triển nguồn nhân lực chất lượng cao cho tỉnh Bà Rịa Vũng Tàu và các tỉnh thành trong cả nước Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu được Chính phủ và UBND tỉnh đầu tư trang thiết bị hiện đại và được Hội đồng giáo dục ở Vương quốc Anh đánh giá đạt loại tốt theo khung Ofsted

Hiện nay, trường xây dựng được 2 cơ sở tại huyện Đất Đỏ (Địa chị: Khu phố Thanh Tân, Thị trấn Đất Đỏ, Huyện Đất Đỏ, Tỉnh Bà Rịa – Vũng Tàu) và thành phố Vũng Tàu (Địa chỉ: Đường 3/2, Phường 11, Thành Phố Vũng Tàu, Tỉnh Bà Rịa – Vũng Tàu ) Trường xây dựng chương trình đào tạo các ngành nghề thuộc nhiều lĩnh vực: Công nghệ thông tin, Công nghệ ô tô, Cơ điện tử, Cơ khí, Điện, May thời trang, Chế biến thực phẩm và Kế toán

Với phương châm “Luôn luôn đổi mới vì nguồn nhân lực chất lượng cao”, Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu luôn chú trọng vào việc nâng cao chất lượng cơ sở vật chất, đào tạo bồi dưỡng giáo viên tiếp cận với các chương trình đào tạo tiên tiến của các nước phát triển như Nhật Bản, Hàn Quốc, Úc, Đức, Đan Mạch.

Tổng quan về mô hình dự đoán

4.2.1 Dữ liệu đầu vào cho hệ thống Để trở thành trường chất lượng cao, trường Cao đẳng Kỹ thuật Công nghệ BR-

VT rất coi trọng kết quả môn học của sinh viên Để có thể dễ dàng cho GVCN, GVBM nhắc nhở một số HSSV còn lơ là trong việc học để cải thiện kết quả học tập, tác giả luận văn đề xuất mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu

Dữ liệu đầu vào cho hệ thống: Dữ liệu thu thập điểm HSSV của nhà trường lấy từ 2 năm học: 2020-2021, 2021-2022 với tổng số là 2200 HSSV khóa T19, T20, T21, CD19, CD20, CD21 của các Khoa Công nghệ thông tin, Điện, Cơ khí, May thời trang và Chế biến thực phẩm Để dữ liệu khách quan và chính xác thì mỗi Khóa chỉ lấy dữ liệu điểm 1 môn học chuyên ngành của ngành đó Dữ liệu được thu thập từ Phòng đào tạo của trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu nên có độ tin cậy rất lớn Hình 4.1 là bảng điểm một môn học với các cột: cột Mã số HSSV, cột Họ và Tên, 4 cột điểm quá trình (hệ số 1), 4 cột điểm định kì (hệ số 2), cột điểm TB kiểm tra, cột điểm thi kết thúc, cột điểm MĐ/MH (điểm tổng kết môn học) và cột Ghi chú (HSSV thi đạt hay không đạt) Trong đó, các điểm được làm tròn đến một phần thập phân

Hình 4 1: Bảng điểm môn học của trường Cao đẳng Kỹ thuật Công nghệ

TB kiểm tra Thi kết thúc Điểm MĐ/MH

6 215413138 Nguyễn Thị Kiều Diễm 5.0 5.0 5.0 4.0 4.0 5.0 5.0 6.5 5 3.0 3.8 Thi lại

8 215413229 Võ Ngọc Trường Giang 4.0 5.0 5.0 5.0 5.0 6.0 6.5 7.0 5.7 2.0 3.5 Thi lại

TT Mã số HSSV Họ và Tên Kiểm tra thường xuyên Kiềm tra định kỳ

UBND TỈNH BÀ RỊA - VŨNG TÀU

TRƯỜNG CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ

BẢNG ĐIỂM MÔ ĐUN, MÔN HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

Các khóa T20, T21, CD20, CD21 Tên MĐ/MH Tất cả các môn

Các thuật toán máy học cần dữ liệu để học và dự đoán Vì vậy, nguồn dữ liệu đầu vào rất quan trọng Để dữ liệu được đúng đắn và phù hợp khi dự đoán điểm thi cho HSSV của trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu thì sẽ lấy chính dữ liệu điểm của HSSV các khóa trước để làm dữ liệu đầu vào Với dữ liệu thô như Hình 4.1 trên thì không thể đưa vào mô hình nên Hình 4.2 dưới đây là bảng điểm đã qua xử lý Tác giả luận văn đã loại bỏ tiêu đề các cột, chỉ lấy các cột STT, Mã số

SV, Họ và tên, 3 cột điểm quá trình và 3 cột điểm định kì

Hình 4 2: Dữ liệu đầu vào cho hệ thống

Các đặc trưng thông tin để xây dựng mô hình bao gồm:

− MA_SV: Mã số HSSV;

− Ho: Họ và tên lót của HSSV;

− 3 cột điểm quá trình: QT1, QT2, QT3;

− 3 cột điểm định kì: DK1, DK2, DK3

4.2.2 Kết quả đầu ra của hệ thống

Theo Thông tư số 09/2017/TT-BLĐTBXH, ngày 13 tháng 03 năm 2017 của Bộ Lao động Thương binh và xã hội, Quy định việc tổ chức thực hiện chương trình đào tạo trình độ trung cấp, trình độ cao đẳng theo niên chế hoặc theo phương thức tích lũy mô-đun hoặc tín chỉ; quy chế kiểm tra, thi, xét công nhận tốt nghiệp [12], nếu điểm tổng kết cuối kì lần 1 của mô-đun, môn học của HSSV dưới 4.0 sẽ xếp loại không đạt và phải thi lại lần 2 Cách tính điểm tổng kết mô-đun, môn học:

STT MA_SV Ho Ten QT1 QT2 QT3 DK1 DK2 DK3

10 215413155 Trần Nhật Hào 7.0 7.0 8.0 8.0 8.0 6.0 Điểm tổng kết= 𝑄𝑇1+𝑄𝑇2+𝑄𝑇3+𝑄𝑇4+𝐷𝐾1∗2+𝐷𝐾2∗2+𝐷𝐾3∗2+𝐷𝐾4∗2

Trên Hình 4.1 là bảng điểm tổng kết mô đun, môn học sau khi HSSV đã thi cuối kì Tuy nhiên, từ đầu học kì đến giữa học kì sẽ không thể đủ 4 cột điểm QT và 4 cột điểm DK Mục đích của luận văn này là xây dựng mô hình để đến giữa học kì dự đoán với những điểm số thành phần như vậy của HSSV thì điểm tổng kết cuối kì môn học là bao nhiêu nhằm đưa ra cảnh báo để HSSV cố gắng trong thời gian còn lại Do các môn học số lượng điểm thành phần không giống nhau, nên để thống nhất thì đầu vào của hệ thống sẽ dựa vào 6 cột điểm: 3 cột điểm quá trình (QT1, QT2, QT3), và 3 cột điểm định kì (DK1, DK2, DK3) để dự đoán kết quả điểm tổng kết môn đun, môn học sau khi thi lần 1 của HSSV là đạt hay không đạt (Thi lại).

Mô hình hệ thống

Với dữ liệu đầu vào và đầu ra trong mục 4.1.1, 4.12 tác giả đề xuất mô hình hệ thống như hình dưới đây:

Hình 4 3: Mô hình hệ thống

Bước 1: Thu thập dữ liệu: Dữ liệu được lấy trong thời gian 2 năm học: 2020 –

2021, 2021 -2022 dùng để sử dụng cho mô hình học và dự đoán

Bước 2: Phân tích và lựa chọn đặc trưng: Xác định dữ liệu cho mỗi cột, tìm hiểu những đặc trưng sẽ ảnh hưởng đến kết quả môn học để lựa chọn các đặc trưng sử dụng để xây dựng mô hình hệ thống

Bước 3: Tiền xử lý dữ liệu:

− Loại bỏ dữ liệu các sinh viên bị cấm thi và nghỉ luôn;

− Chuyển đổi các kiểu dữ liệu về dạng số Chuyển cột Ket_qua về trong khoảng [0,1]: Nếu giá trị là Null (Đạt) ghi 0, ngược lại là “Thi lại” ghi 1 Bước 4: Xây dựng mô hình:

− Sử dụng thuật toán SVM;

− Sử dụng thuật toán Logistic Regression;

− Sử dụng thuật toán Cây quyết định

Bước 6: Đánh giá: Thực hiện đánh giá thông qua tập dữ liệu kiểm tra và tập dữ liệu đối chứng nhằm đánh giá độ chính xác giữa giá trị đầu ra của mô hình và đầu ra thực tế

Bước 7: Thực hiện so sánh thời gian chạy giữa các mô hình

Bước 8: Kết luận và sử dụng

4.3.1 Quá trình xây dựng mô hình

Các đặc trưng để thực hiện mô hình bao gồm:

− QT1: Điểm quá trình 1, với hệ số là 1 Điểm từ 0 đến 10;

− DK1: Điểm định kì 1, với hệ số là 2 Điểm từ 0 đến 10;

− DK2: Điểm định kì 2, với hệ số là 2 Điểm từ 0 đến 10;

− DK3: Điểm định kì 3, với hệ số là 2 Điểm từ 0 đến 10

4.3.1.2 Phân tích và lựa chọn đặc trưng

Trong hình 4.4 thể hiện kết quả môn học của 2200 HSSV, trong đó Null (Đạt) là 1778 HSSV, Thi lại (Không đạt): 357 HSSV, Cấm thi: 34 HSSV và Nghỉ luôn là

Hình 4 4: Thống kê Kết quả môn học

Tác giả tiến hành nghiên cứu và vẽ biểu đồ để tìm hiểu mối liên hệ giữa các đặc trưng đối với kết quả dự đoán:

+ QT1: Điểm quá trình 1, với hệ số là 1 Đây là điểm HSSV đạt được tại bất kỳ thời điểm trong quá trình học thông qua việc đánh giá của giáo viên, bằng các hình thức như: kiểm tra bài cũ, vấn đáp các vấn đề trong bài học, kiểm tra viết hoặc kiểm tra thực hành với thời gian làm bài bằng hoặc dưới 30 phút, thực tập, kiểm tra dưới các hình thức trắc nghiệm và chấm điểm bài tập

Hình 4 5: Biểu đồ thể hiện sự phân bố của dữ liệu điểm QT1

Qua biểu đồ này, thấy được rằng điểm QT1 sẽ ảnh hưởng đến Ket_qua Đối với những học sinh Đạt thì điểm nằm trong khoảng [5.0, 8.0] Đối với những học sinh Không đạt thì điểm nằm trong khoảng [4.0, 5.0]

+ DK1: Điểm định kì 1, với hệ số là 2 Đây là điểm được quy định trong chương trình môn học HSSV sẽ được kiểm tra, đánh giá bằng các hình thức như: kiểm tra viết hoặc kiểm tra thực hành với thời gian làm bài từ 45 đến 60 phút; nghiên cứu và báo cáo các bài tập lớn, tiểu luận; viết bài báo cáo thực tập doanh nghiệp và các hình thức kiểm tra, đánh giá khác

Hình 4 8: Biểu đồ thể hiện sự phân bố của dữ liệu điểm DK1

Qua biểu đồ này, thấy được rằng điểm DK1 sẽ ảnh hưởng đến Ket_qua Đối với những học sinh Đạt thì điểm nằm trong khoảng [5.0, 8.0] Đối với những học sinh Không đạt thì điểm nằm trong khoảng [4.0, 6.0]

Loại bỏ các dòng bị cấm thi hoặc nghỉ luôn: Những HSSV bị “Cấm thi” hoặc

Tiêu đề	Xây dựng mô hình dự đoán và khuyến cáo kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu
Tác giả	Trần Phúc Minh Khoa
Người hướng dẫn	TS. Bùi Thị Thu Trang
Trường học	Trường Đại học Bà Rịa Vũng Tàu
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2023
Thành phố	Bà Rịa - Vũng Tàu

Định dạng
Số trang	85
Dung lượng	2,78 MB