CHƢƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU
3.2. Ứng dụng mơ hình mạng học sâu trong bài tốn dự báo điểm tốt nghiệp
3.2.2. Xây dựng mơ hình hệ thống
Bộ dữ liệu sử dụng cho luận văn bao gồm Danh sách sinh viên, Danh sách điểm tổng kết học phần đối với các học phần điều kiện. Bộ cơ sở dữ liệu đến thời điểm tháng 11/2020 đƣợc lấy từ kho cơ sở dữ liệu của Trƣờng Cao Đẳng Cơ Khí Nơng Nghiệp Vĩnh Phúc.
Danh sách các học phần thay thế của ngành Quản trị mạng máy tính bao gồm:
Quản trị mạng với Linux Bảo trì hệ thống mạng
Từ đĩ bộ dữ liệu đƣợc chia thành các tập dữ liệu nhƣ sau:
(1) u.quantrimanglinux:
Trong tập dữ liệu này sẽ cĩ thơng tin của học phần gồm: thơng tin sinh viên, điểm tổng kết học phần và danh sách điểm của các học phần điều kiện bao gồm:
53
Bảng 3.1: Dữ liệu mẫu học phần Quản trị mạng
MSV HoTen QTMW
SEVER
MNM
17504802060005 Nguyen Trung Duc 6.0 5.4
(2) u.quantrimanglinux.test:
Bao gồm thơng tin dữ liệu dùng để kiểm thử cho học phần: Quản trị mạng với Linux.
(3) u.baotrihethongmang:
Trong tập dữ liệu này sẽ cĩ thơng tin của học phần: Bảo trì hệ thống mạng
bao gồm thơng tin sinh viên, điểm tổng kết học phần và danh sách điểm của các học phần điều kiện bao gồm: Thiết kế mạng LAN, Mạng Máy Tính, An tồn mạng
Bảng 3.2: Dữ liệu mẫu học phần Bảo trì hệ thống mạng
MSV HoTen TKM
LAN MMT ATM
17504802060005 Nguyen Trung Duc 7.2 4.7 6.8
(4) u.baotrihethongmang.test
Bao gồm thơng tin dữ liệu dùng để kiểm thử cho học phần: Bảo trì hệ thống mạng.
Nhƣ vậy bộ dữ liệu đƣợc dùng trong luận văn bao gồm 04 file dữ liệu bao gồm 02 file dữ liệu huấn luyện và 02 file dữ liệu kiểm thử. Chi tiết số lƣợng bản ghi cho từng file nhƣ sau:
54
Bảng 3.3 Chi tiết bộ dữ liệu tại Cao Đăng Cơ Khí Nơng Nghiệp
STT Tên file Số lƣợng
bản ghi Ghi chú
1 u. quantrimanglinux 2641 Dữ liệu huấn luyện học phần: Quản trị mạng với Linux
2 u. quantrimanglinux.test 660 Dữ liệu kiểm thử học phần: Quản trị mạng với Linux
3 u.baotrihethongmang 4833 Dữ liệu huấn luyện học phần: Bảo trì hệ thống mạng
4 u. baotrihethongmang.test 1208 Dữ liệu kiểm thử học phần: Bảo trì hệ thống mạng
3.2.2. Phương pháp dự báo kết quả học tập của sinh viên
Để dự báo kết quả học tập của sinh viên ta cần trải qua 2 bƣớc chính bao gồm:
Bƣớc 1: Lấy tồn bộ điểm và đặc điểm của các học phần mà sinh viên đã học
bao gồm các học phần điều kiện. Tuy nhiên cĩ một số trƣờng hợp sinh viên học các học phần thay thế (tƣơng đƣơng) nên cĩ thể lấy điểm đĩ dùng để thay thế cho học phần điều kiện.
Bƣớc 2: Dự đốn kết quả học tập theo từng học phần mà sinh viên cần dự
báo để sinh viên cĩ thể chọn đƣợc học phần cĩ thể cĩ kết quả học tập tốt nhất để đăng ký.
Việc dự đốn cĩ thể sử dụng các kỹ thuật khai phá dữ liệu trong Data WareHouse bằng việc áp dụng các mơ hình nhƣ: Nạve Bayes, KNN(K-Láng giềng gần), tuy nhiên trong luận văn sẽ sử dụng một số mạng học sâu sẽ là phƣơng pháp chính.
3.2.3. Mơ hình dự báo kết quả học tập của sinh viên
Để thực hiện dự báo kết quả học tập của sinh viên cần trải qua quá trình gồm 4 bƣớc:
55
Bƣớc 1: Tiền xử lý dữ liệu
Để huấn luyện và kiểm thử 1 mơ hình thì ta sẽ chọn 1 lƣợng dữ liệu đủ để mơ hình học, huấn luyện và kiểm thử. Để cĩ thể huấn luyện đƣợc một mơ hình cho kết quả tốt, độ chính xác của mơ hình cao thì ta nên huấn luyện mơ với bộ dữ liệu lớn hơn bộ dự liệu thực nghiệm. Ngồi ra việc tỷ lệ dữ liệu huấn luyện cao giúp mình cĩ thêm dữ liệu để thẩm định mơ hình. Vì vậy, luận văn sử dụng lớp TrainTestSplit đƣợc tích hợp sẵn trong thƣ viện Preprocessing đƣợc tích hợp sẵn trong Scikit - learn để chia bộ dữ liệu theo lệ 8: 2 (huấn luyện 80 %, kiểm thử 20 %) .
Bƣớc 2: Trích chọn đặc trƣng
Trong bái tốn dự báo, muốn dự đốn đƣợc điểm học phần này ta cần dựa trên các học phần điều kiện. Vì vậy các đặc trƣng sẽ là điểm của các học phần điều kiện của các học phần đĩ. Do mạng LSTM chỉ nhận một số kiểu định dạng dữ liệu vì thế mà cần phải chuyển đổi dữ liệu sang định dạng ba chiều mới cĩ thể huấn luyện đƣợc.
Khi đƣa vào một cặp ID Sinh viên và ID Học phần ta sẽ so sánh với các sinh viên khác trong tập huấn luyện. Ví dụ đối với sinh viên A học học phần “Quản trị mạng với Linux” ta cần lấy tồn bộ điểm sinh viên cùng học học phần Quản trị mạng với Linux” và các học phần điều kiện bao gồm “Quản trị mạng với windowsever, Mã nguồn mở” rồi sau đĩ lấy tồn bộ điểm học phần điều kiện mà
sinh viên A đã học.
Mục đích của việc này sẽ dựa vào tần suất của Điểm để dự đốn điểm của sinh viên. Từ đĩ cĩ thể tính tốn tối ƣu hàm mất mát và cập nhật các tham số đặc trƣng của điểm.
Bƣớc 3: Huấn luyện dữ liệu
Trong giai đoạn này, dữ liệu đƣợc đƣa vào các mạng học sâu và đƣợc huấn luyện để dự đốn gán các sai lệch và trọng số ngẫu nhiên.
56
Với tập dữ liệu của Cao đẳng Cơ Khí Nơng Nghiệp ta cần xây dựng mơ hình để huấn luyện cho từng học phần một. Vì vậy trong luận văn này sẽ cĩ 2 mơ hình huấn luyện cho 2 học phần
Bƣớc 4: Đánh giá tính hiệu quả của mơ hình
Để đánh giá hiệu quả của các mơ hình, chúng ta cĩ thể căn cứ vào nhiều tiêu chí nhƣ tính chính xác (Accuracy), RMSE, MSE, R2,… Tính hữu dụng (Useful) và tính ổn định (Reliability). Ở trong luận văn này tơi đề cập đến tính chính xác Accuracy, MSE, RMSE và điểm R2 để đánh giá các thực nghiệm.
Dữ liệu điểm dự báo đƣợc phép sai số trong khoảng điểm.
3.2.4. Huấn luyện mơ hình dự báo điểm
3.2.4.1. Học phần Quản trị mạng với Linux
Từ tập huấn luyện học phần: Quản trị mạng với Linux ta cĩ thể thấy để dự báo kết quả học tập của học phần này ta cần dữ liệu của 2 học phần điều kiện vì vậy:
- Đầu vào của mạng: Gồm 2 neural tƣơng ứng với điểm của 2 học phần
điều kiện.
- Số lớp ẩn của mạng: Sử dụng 3 lớp ẩn.
- Đầu ra của mạng: Bao gồm 1 đầu ra là điểm dự báo của học phần: Quản trị mạng với Linux. Dựa vào quy chế đào tạo của nhà trƣờng ta sẽ tính đƣợc sinh
57
Hình 3.2: Mơ hình mạng học sâu cho học phần: Quản trị mạng với Linux
3.2.4.2. Học phần Bảo trì hệ thống mạng
Từ tập huấn luyện học phần: Bảo trì hệ thống mạng ta cĩ thể thấy để dự
báo kết quả học tập của học phần này ta cần dữ liệu của 3 học phần điều kiện do đĩ:
- Đầu vào của mạng: Gồm 3 neural tƣơng ứng với điểm của 3 học phần
điều kiện.
- Số lớp ẩn của mạng: Sử dụng 3 lớp ẩn.
- Đầu ra của mạng: Bao gồm 1 đầu ra là điểm dự báo của học phần: Bảo trì hệ thống mạng. Dựa vào quy chế đào tạo của nhà trƣờng ta sẽ tính đƣợc sinh
58
Hình 3.3: Mơ hình mạng học sâu cho học phần: Bảo trì hệ thống mạng
3.2.5. Cài đặt và thử nghiệm bài tốn
Cơng cụ cài đặt
Các thử nghiệm đƣợc cài đặt và sử dụng ngơn ngữ python phiên bản 3.7 và số thƣ viện của Python đƣợc sử dụng để mơ hình hĩa các dữ liệu bằng biểu đồ gồm:
59
Bàng 3.4 : Các thư viện hỗ trợ
Việc tiến hành huấn luyện và kiểm thử, dự báo điểm của sinh viên đƣợc thực hiện sau khi cài đặt các thuật tốn sẽ dựa vào bộ dữ liệu của trƣờng Cao đẳng Cơ Khí Nơng Nghiệp. Luận văn tiến hành huấn luyện dữ liệu đầu vào dựa trên một số mơ hình : BPTT , LSTM . Với mỗi mơ hình mạng học sâu , ta xây dựng đƣợc lƣu đồ mơ hình mạng khi áp dụng vào bài tốn dự báo nhƣ hình 3.4 và hình 3.5
60
Hình 3.4: Lưu đồ mơ hình mạng BPTT
Áp dụng mơ hình mạng BPTT vào bài tốn dự báo, thuật tốn sẽ thực hiện lần lƣợt các bƣớc nhƣ trên lƣu đồ hình 3.6. Để cập nhật các tham số và giá trị sai khác, lƣu đồ trên cĩ bƣớc lan truyền ngƣợc là đặc trƣng của BPTT.
61
Hình 3.5 : Lưu đồ mơ hình mạng LSTM
Áp dụng mơ hình mạng LSTM vào bài tốn dự báo, thuật tốn sẽ thực hiện lần lƣợt các bƣớc nhƣ trên lƣu đồ hình 3.7.
3.3. Kết quả thử nghiệm.
Với mỗi mơ hình mạng học sâu BPTT và LSTM ta đều sử dụng chung một cấu trúc chƣơng trình trên 2 học phần là, Quản trị mạng với Linux, Bảo trì hệ thống .
62
3.3.1. Kết quả thử nghiệm
Qua thời gian tiến hành huấn luyện dữ liệu đầu vào và dựa trên một số mơ hình BPTT và LSTM để so sánh mơ hình mạng học sâu và các mơ hình khác
Ta cĩ bảng thời gian huấn luyện các mơ hình dƣới đây:
Bảng 3.5 Thời gian huấn luyện các mơ hình mạng
Bộ dữ liệu BPTT LSTM
u.quantrimanglinux 476 408
u.baotrihethongmang 589 425
Từ bảng 3.5 ta cĩ thể thấy tốc độ huấn luyện của các mơ hình mạng học sâu cĩ sự chênh lệnh đáng kể so với các mơ hình khác. Tuy nhiên trên thực tế việc đánh giá các mơ hình cịn phải phụ thuộc vào nhiều yếu tố và thơng số khác nhau.
Bảng 3.6: Bảng kết quả huấn luyện học phần Quản trị mạng với Linux
Mơ hình RMSE MSE R2
Accuracy
(%)
BPTT 1.511 2.284 0.551 22.15
LSTM 0.272 0.073 0.946 89.58
Bảng 3.7: Bảng kết quả huấn luyện học phần Bảo trì hệ thống mạng
Mơ hình RMSE MSE R2
Accuracy
(%)
BPTT 1.258 1.581 0.459 21.1
LSTM 0.535 0.286 0.958 85.7
Nhìn chung, sau khi thực hiện việc so sánh giữa kết quả dự đốn và kết quả thực tế để đƣa ra giá trị các tiêu chí đánh giá, cĩ thể dễ dàng thấy các tiêu chí đánh giá giữa 2 mơ hình BPTT và LSTM cĩ sự chênh lệch thơng số rõ rệt.
63
Với chỉ số của RMSE và MSE càng thấp thì tính ổn định của mơ hình càng cao. Ngƣợc lại, khi R2 và Accuracy càng cao thì tính chính xác của mơ hình càng cao. Vì vậy, dựa vào bảng 3.6 và 3.7, kết quả huấn luyện chỉ ra sự chƣa ổn định, tính chính xác thấp của mơ hình BPTT vì vậy mơ hình này chƣa thực sự phù hợp với bài tốn cần giải quyết. Thay vào đĩ, mơ hình LSTM thể hiện sự ổn định và tính chính xác cao, phù hợp để áp dụng vào bài tốn.
Áp dụng 2 mơ hình học sâu vào dự đốn điểm của bộ dữ liệu kiểm thử, sau đĩ đƣợc đƣa ra các biểu đồ để so sánh các phƣơng pháp sau khi thực nghiệm.
3.3.2. Đánh giá hiệu suất các mơ hình
Để áp dụng thành cơng các kỹ thuật học sâu, ngƣời thực hiện cần nhiều kỹ năng hơn là chỉ đơn thuần hiểu về thuật tốn và nguyên tắc hoạt động của chúng. Đối với học máy, một ngƣời thực hành giỏi cần biết cách lựa chọn thuật tốn phù hợp với mỗi ứng dụng cụ thể, đồng thời biết cách giám sát và điều chỉnh dựa trên kết quả thực nghiệm thu đƣợc để cải thiện hệ thống học máy.
Trong quá trình phát triển hệ thống học máy ta cần quyết định khi nào cần: thu thập thêm dữ liệu, tăng hay giảm dung lƣợng mơ hình, thêm hay bớt các đặc trƣng kiểm sốt, cải thiện thuật tốn tối ƣu mơ hình, cải thiện thuật tốn suy luận xấp xỉ mơ hình, hay sửa lỗi khi triển khai cài đặt phần mềm cho mơ hình. Tất cả những thao tác này ít nhất cũng cần tốn thời gian để thử.
Sau khi cài đặt các thuật tốn tơi tiến hành huấn luyện và kiểm thử dự báo điểm của sinh viên dựa trên bộ dữ liệu của Cao Đẳng Cơ Khí Nơng Nghiệp. Dữ liệu đƣợc đánh giá trên bộ dữ liệu test và sau đĩ đƣợc đƣa ra các biểu đồ để so sánh các phƣơng pháp sau khi thực nghiệm.
64
Hình 3.6: Biểu đồ dự báo điểm học phần Quản trị mạng với Linux sử dụng các mơ hình dự báo LSTM
Hình 3.7: Biểu đồ dự báo điểm học phần Quản trị mạng với Linux sử dụng các mơ hình dự báo BPTT
65
Hình 3.8: Biểu đồ dự báo điểm học phần Bảo trì hệ thống mạng sử dụng các mơ hình dự báo LSTM
Hình 3.9: Biểu đồ dự báo điểm học phần Bảo trì hệ thống mạng sử dụng các mơ hình dự báo BPTT
66
Từ các Bảng 3.6 đến 3.9 ta thấy các thơng số đánh giá khơng cĩ sự chênh lệch lớn. Lý do là vì bộ dữ liệu chƣa đƣợc đủ lớn (Dữ liệu sử dụng kết quả đánh giá của sinh viên Khĩa 57 (2017-2019) đến nay) để thấy đƣợc sự khác biệt giữa các thơng số đánh giá.
Từ các Hình từ 3.6 đến 3.17 và các Bảng từ 3.8 đến 3.11 ta cĩ thể thấy mơ hình mạng học sâu cho ra kết quả dự báo rất tốt. Tốt nhất là mơ hình LSTM cho ra kết quả tốt hơn
Tuy nhiên trong luận văn khi thử nghiệm giảm số lớp ẩn trên mơ hình mạng cho học phần: Quản trị mạng với Linux và học phần Bảo trì hệ thống mạng cũng
kết quả cho ra cũng rất tốt nên cĩ thể khẳng định rằng mơ hình cĩ thể giảm số lớp ẩn đi mà vẫn cho ra kết quả tƣơng tự.
Tuy nhiên trên thực tế cĩ một số trƣờng hợp sinh viên khơng tham gia dự thi hoặc bị các yếu tố bên ngồi tác động dẫn đến sinh viên đạt điểm 0 dẫn đến dự báo sai lầm.
Nguyên nhân dẫn đến sự chênh lệch các thơng số của các tiêu chí đánh giá cĩ thể do cài đặt thuật tốn chƣa đƣợc tối ƣu, do bộ dữ liệu chƣa đủ lớn để đánh giá đƣợc chính xác. Ngồi ra, một số yếu tố bên ngồi dẫn đến trƣờng hợp sinh viên bị điểm thấp hoặc việc thay đổi mơ hình đào tạo cũng cĩ thể làm ảnh hƣởng tới kết quả dự báo. Trong trƣờng hợp thử nghiệm với số lớp ẩn nhỏ hơn 03 lớp ẩn mà luận văn đã thử nghiệm, trên 02 mơ hình mạng của các học phần: “ Bảo trì hệ thống mạng” và “Quản trị mạng với Linux”, kết quả cho ra gần nhƣ khơng cĩ sự chênh lệch nên cĩ thể khẳng định rằng mơ hình cĩ thể giảm số lớp ẩn đi mà vẫn cho ra kết quả tƣơng tự. Vì vậy, với bài tốn dự báo điểm học phần Cao Đẳng Cơ Khí Nơng Nghiệp ta cĩ thể áp dụng mơ hình mạng LSTM để đƣa ra dự báo với một kết quả tốt, độ chính xác dao động trong khoảng 85% đến 95%, đây là một con số cao với một bài tốn dự báo. Nhƣ vậy, với mơ hình mạng học sâu LSTM và BPTT, ta đã tìm ra đƣợc một số phƣơng pháp dự báo cĩ thời gian huấn luyện nhanh và cĩ kết quả dự báo tốt. Tuy chƣa đạt đƣợc kết quả nhƣ kỳ vọng nhƣng cũng cho thấy điểm vƣợt trội qua kết quả của mơ hình mạng học sâu so với các mơ hình khác.
67
Từ các dữ liệu huấn luyện trên ta cĩ thể tính tốn ra đƣợc tỉ lệ sinh viên tốt nghiệp đúng tiến độ đào tạo khá dễ dàng bằng cách dựa vào quy chế đào tạo và chƣơng trình khung của ngành học.
Kết luận chƣơng
Nhƣ vậy, chƣơng 3 đã mơ tả và xây dựng chƣơng trình giải quyết bài tốn Dự báo điểm của sinh viên trong trƣờng Cao Đẳng Cơ Khí Nơng Nghiệp. Luận văn đề xuất sử dụng và đánh giá hiệu quả của 2 mơ hình mạng học sâu là BPTT và LSTM trong bài tốn dự báo điểm. Từ đĩ, gĩp phần nâng cao cơng tác giáo dục và đào tạo của nhà trƣờng cũng nhƣ hỗ trợ sinh viên đƣa ra những lựa chọn thích hợp cho việc đăng ký học phần của học kỳ sắp tới.
68
KẾT LUẬN VÀ KHUYẾN NGHỊ
Qua quá trình nghiên cứu và thực tiễn đề tài: “Nghiên cứu một số mơ hình