.3 Chi tiết bộ dữ liệu tại Cao Đăng Cơ Khí Nơng Nghiệp

Một phần của tài liệu Nghiên cứu một số mô hình mạng học sâu và ứng dụng trong bài toán dự báo điểm tốt nghiệp của sinh viên trường cao đẳng cơ khí nông nghiệp (Trang 63)

STT Tên file Số lƣợng

bản ghi Ghi chú

1 u. quantrimanglinux 2641 Dữ liệu huấn luyện học phần: Quản trị mạng với Linux

2 u. quantrimanglinux.test 660 Dữ liệu kiểm thử học phần: Quản trị mạng với Linux

3 u.baotrihethongmang 4833 Dữ liệu huấn luyện học phần: Bảo trì hệ thống mạng

4 u. baotrihethongmang.test 1208 Dữ liệu kiểm thử học phần: Bảo trì hệ thống mạng

3.2.2. Phương pháp dự báo kết quả học tập của sinh viên

Để dự báo kết quả học tập của sinh viên ta cần trải qua 2 bƣớc chính bao gồm:

Bƣớc 1: Lấy tồn bộ điểm và đặc điểm của các học phần mà sinh viên đã học

bao gồm các học phần điều kiện. Tuy nhiên cĩ một số trƣờng hợp sinh viên học các học phần thay thế (tƣơng đƣơng) nên cĩ thể lấy điểm đĩ dùng để thay thế cho học phần điều kiện.

Bƣớc 2: Dự đốn kết quả học tập theo từng học phần mà sinh viên cần dự

báo để sinh viên cĩ thể chọn đƣợc học phần cĩ thể cĩ kết quả học tập tốt nhất để đăng ký.

Việc dự đốn cĩ thể sử dụng các kỹ thuật khai phá dữ liệu trong Data WareHouse bằng việc áp dụng các mơ hình nhƣ: Nạve Bayes, KNN(K-Láng giềng gần), tuy nhiên trong luận văn sẽ sử dụng một số mạng học sâu sẽ là phƣơng pháp chính.

3.2.3. Mơ hình dự báo kết quả học tập của sinh viên

Để thực hiện dự báo kết quả học tập của sinh viên cần trải qua quá trình gồm 4 bƣớc:

55

Bƣớc 1: Tiền xử lý dữ liệu

Để huấn luyện và kiểm thử 1 mơ hình thì ta sẽ chọn 1 lƣợng dữ liệu đủ để mơ hình học, huấn luyện và kiểm thử. Để cĩ thể huấn luyện đƣợc một mơ hình cho kết quả tốt, độ chính xác của mơ hình cao thì ta nên huấn luyện mơ với bộ dữ liệu lớn hơn bộ dự liệu thực nghiệm. Ngồi ra việc tỷ lệ dữ liệu huấn luyện cao giúp mình cĩ thêm dữ liệu để thẩm định mơ hình. Vì vậy, luận văn sử dụng lớp TrainTestSplit đƣợc tích hợp sẵn trong thƣ viện Preprocessing đƣợc tích hợp sẵn trong Scikit - learn để chia bộ dữ liệu theo lệ 8: 2 (huấn luyện 80 %, kiểm thử 20 %) .

Bƣớc 2: Trích chọn đặc trƣng

Trong bái tốn dự báo, muốn dự đốn đƣợc điểm học phần này ta cần dựa trên các học phần điều kiện. Vì vậy các đặc trƣng sẽ là điểm của các học phần điều kiện của các học phần đĩ. Do mạng LSTM chỉ nhận một số kiểu định dạng dữ liệu vì thế mà cần phải chuyển đổi dữ liệu sang định dạng ba chiều mới cĩ thể huấn luyện đƣợc.

Khi đƣa vào một cặp ID Sinh viên và ID Học phần ta sẽ so sánh với các sinh viên khác trong tập huấn luyện. Ví dụ đối với sinh viên A học học phần “Quản trị mạng với Linux” ta cần lấy tồn bộ điểm sinh viên cùng học học phần Quản trị mạng với Linux” và các học phần điều kiện bao gồm “Quản trị mạng với windowsever, Mã nguồn mở” rồi sau đĩ lấy tồn bộ điểm học phần điều kiện mà

sinh viên A đã học.

Mục đích của việc này sẽ dựa vào tần suất của Điểm để dự đốn điểm của sinh viên. Từ đĩ cĩ thể tính tốn tối ƣu hàm mất mát và cập nhật các tham số đặc trƣng của điểm.

Bƣớc 3: Huấn luyện dữ liệu

Trong giai đoạn này, dữ liệu đƣợc đƣa vào các mạng học sâu và đƣợc huấn luyện để dự đốn gán các sai lệch và trọng số ngẫu nhiên.

56

Với tập dữ liệu của Cao đẳng Cơ Khí Nơng Nghiệp ta cần xây dựng mơ hình để huấn luyện cho từng học phần một. Vì vậy trong luận văn này sẽ cĩ 2 mơ hình huấn luyện cho 2 học phần

Bƣớc 4: Đánh giá tính hiệu quả của mơ hình

Để đánh giá hiệu quả của các mơ hình, chúng ta cĩ thể căn cứ vào nhiều tiêu chí nhƣ tính chính xác (Accuracy), RMSE, MSE, R2,… Tính hữu dụng (Useful) và tính ổn định (Reliability). Ở trong luận văn này tơi đề cập đến tính chính xác Accuracy, MSE, RMSE và điểm R2 để đánh giá các thực nghiệm.

Dữ liệu điểm dự báo đƣợc phép sai số trong khoảng điểm.

3.2.4. Huấn luyện mơ hình dự báo điểm

3.2.4.1. Học phần Quản trị mạng với Linux

Từ tập huấn luyện học phần: Quản trị mạng với Linux ta cĩ thể thấy để dự báo kết quả học tập của học phần này ta cần dữ liệu của 2 học phần điều kiện vì vậy:

- Đầu vào của mạng: Gồm 2 neural tƣơng ứng với điểm của 2 học phần

điều kiện.

- Số lớp ẩn của mạng: Sử dụng 3 lớp ẩn.

- Đầu ra của mạng: Bao gồm 1 đầu ra là điểm dự báo của học phần: Quản trị mạng với Linux. Dựa vào quy chế đào tạo của nhà trƣờng ta sẽ tính đƣợc sinh

57

Hình 3.2: Mơ hình mạng học sâu cho học phần: Quản trị mạng với Linux

3.2.4.2. Học phần Bảo trì hệ thống mạng

Từ tập huấn luyện học phần: Bảo trì hệ thống mạng ta cĩ thể thấy để dự

báo kết quả học tập của học phần này ta cần dữ liệu của 3 học phần điều kiện do đĩ:

- Đầu vào của mạng: Gồm 3 neural tƣơng ứng với điểm của 3 học phần

điều kiện.

- Số lớp ẩn của mạng: Sử dụng 3 lớp ẩn.

- Đầu ra của mạng: Bao gồm 1 đầu ra là điểm dự báo của học phần: Bảo trì hệ thống mạng. Dựa vào quy chế đào tạo của nhà trƣờng ta sẽ tính đƣợc sinh

58

Hình 3.3: Mơ hình mạng học sâu cho học phần: Bảo trì hệ thống mạng

3.2.5. Cài đặt và thử nghiệm bài tốn

Cơng cụ cài đặt

Các thử nghiệm đƣợc cài đặt và sử dụng ngơn ngữ python phiên bản 3.7 và số thƣ viện của Python đƣợc sử dụng để mơ hình hĩa các dữ liệu bằng biểu đồ gồm:

59

Bàng 3.4 : Các thư viện hỗ trợ

Việc tiến hành huấn luyện và kiểm thử, dự báo điểm của sinh viên đƣợc thực hiện sau khi cài đặt các thuật tốn sẽ dựa vào bộ dữ liệu của trƣờng Cao đẳng Cơ Khí Nơng Nghiệp. Luận văn tiến hành huấn luyện dữ liệu đầu vào dựa trên một số mơ hình : BPTT , LSTM . Với mỗi mơ hình mạng học sâu , ta xây dựng đƣợc lƣu đồ mơ hình mạng khi áp dụng vào bài tốn dự báo nhƣ hình 3.4 và hình 3.5

60

Hình 3.4: Lưu đồ mơ hình mạng BPTT

Áp dụng mơ hình mạng BPTT vào bài tốn dự báo, thuật tốn sẽ thực hiện lần lƣợt các bƣớc nhƣ trên lƣu đồ hình 3.6. Để cập nhật các tham số và giá trị sai khác, lƣu đồ trên cĩ bƣớc lan truyền ngƣợc là đặc trƣng của BPTT.

61

Hình 3.5 : Lưu đồ mơ hình mạng LSTM

Áp dụng mơ hình mạng LSTM vào bài tốn dự báo, thuật tốn sẽ thực hiện lần lƣợt các bƣớc nhƣ trên lƣu đồ hình 3.7.

3.3. Kết quả thử nghiệm.

Với mỗi mơ hình mạng học sâu BPTT và LSTM ta đều sử dụng chung một cấu trúc chƣơng trình trên 2 học phần là, Quản trị mạng với Linux, Bảo trì hệ thống .

62

3.3.1. Kết quả thử nghiệm

Qua thời gian tiến hành huấn luyện dữ liệu đầu vào và dựa trên một số mơ hình BPTT và LSTM để so sánh mơ hình mạng học sâu và các mơ hình khác

Ta cĩ bảng thời gian huấn luyện các mơ hình dƣới đây:

Bảng 3.5 Thời gian huấn luyện các mơ hình mạng

Bộ dữ liệu BPTT LSTM

u.quantrimanglinux 476 408

u.baotrihethongmang 589 425

Từ bảng 3.5 ta cĩ thể thấy tốc độ huấn luyện của các mơ hình mạng học sâu cĩ sự chênh lệnh đáng kể so với các mơ hình khác. Tuy nhiên trên thực tế việc đánh giá các mơ hình cịn phải phụ thuộc vào nhiều yếu tố và thơng số khác nhau.

Bảng 3.6: Bảng kết quả huấn luyện học phần Quản trị mạng với Linux

Mơ hình RMSE MSE R2

Accuracy

(%)

BPTT 1.511 2.284 0.551 22.15

LSTM 0.272 0.073 0.946 89.58

Bảng 3.7: Bảng kết quả huấn luyện học phần Bảo trì hệ thống mạng

Mơ hình RMSE MSE R2

Accuracy

(%)

BPTT 1.258 1.581 0.459 21.1

LSTM 0.535 0.286 0.958 85.7

Nhìn chung, sau khi thực hiện việc so sánh giữa kết quả dự đốn và kết quả thực tế để đƣa ra giá trị các tiêu chí đánh giá, cĩ thể dễ dàng thấy các tiêu chí đánh giá giữa 2 mơ hình BPTT và LSTM cĩ sự chênh lệch thơng số rõ rệt.

63

Với chỉ số của RMSE và MSE càng thấp thì tính ổn định của mơ hình càng cao. Ngƣợc lại, khi R2 và Accuracy càng cao thì tính chính xác của mơ hình càng cao. Vì vậy, dựa vào bảng 3.6 và 3.7, kết quả huấn luyện chỉ ra sự chƣa ổn định, tính chính xác thấp của mơ hình BPTT vì vậy mơ hình này chƣa thực sự phù hợp với bài tốn cần giải quyết. Thay vào đĩ, mơ hình LSTM thể hiện sự ổn định và tính chính xác cao, phù hợp để áp dụng vào bài tốn.

Áp dụng 2 mơ hình học sâu vào dự đốn điểm của bộ dữ liệu kiểm thử, sau đĩ đƣợc đƣa ra các biểu đồ để so sánh các phƣơng pháp sau khi thực nghiệm.

3.3.2. Đánh giá hiệu suất các mơ hình

Để áp dụng thành cơng các kỹ thuật học sâu, ngƣời thực hiện cần nhiều kỹ năng hơn là chỉ đơn thuần hiểu về thuật tốn và nguyên tắc hoạt động của chúng. Đối với học máy, một ngƣời thực hành giỏi cần biết cách lựa chọn thuật tốn phù hợp với mỗi ứng dụng cụ thể, đồng thời biết cách giám sát và điều chỉnh dựa trên kết quả thực nghiệm thu đƣợc để cải thiện hệ thống học máy.

Trong quá trình phát triển hệ thống học máy ta cần quyết định khi nào cần: thu thập thêm dữ liệu, tăng hay giảm dung lƣợng mơ hình, thêm hay bớt các đặc trƣng kiểm sốt, cải thiện thuật tốn tối ƣu mơ hình, cải thiện thuật tốn suy luận xấp xỉ mơ hình, hay sửa lỗi khi triển khai cài đặt phần mềm cho mơ hình. Tất cả những thao tác này ít nhất cũng cần tốn thời gian để thử.

Sau khi cài đặt các thuật tốn tơi tiến hành huấn luyện và kiểm thử dự báo điểm của sinh viên dựa trên bộ dữ liệu của Cao Đẳng Cơ Khí Nơng Nghiệp. Dữ liệu đƣợc đánh giá trên bộ dữ liệu test và sau đĩ đƣợc đƣa ra các biểu đồ để so sánh các phƣơng pháp sau khi thực nghiệm.

64

Hình 3.6: Biểu đồ dự báo điểm học phần Quản trị mạng với Linux sử dụng các mơ hình dự báo LSTM

Hình 3.7: Biểu đồ dự báo điểm học phần Quản trị mạng với Linux sử dụng các mơ hình dự báo BPTT

65

Hình 3.8: Biểu đồ dự báo điểm học phần Bảo trì hệ thống mạng sử dụng các mơ hình dự báo LSTM

Hình 3.9: Biểu đồ dự báo điểm học phần Bảo trì hệ thống mạng sử dụng các mơ hình dự báo BPTT

66

Từ các Bảng 3.6 đến 3.9 ta thấy các thơng số đánh giá khơng cĩ sự chênh lệch lớn. Lý do là vì bộ dữ liệu chƣa đƣợc đủ lớn (Dữ liệu sử dụng kết quả đánh giá của sinh viên Khĩa 57 (2017-2019) đến nay) để thấy đƣợc sự khác biệt giữa các thơng số đánh giá.

Từ các Hình từ 3.6 đến 3.17 và các Bảng từ 3.8 đến 3.11 ta cĩ thể thấy mơ hình mạng học sâu cho ra kết quả dự báo rất tốt. Tốt nhất là mơ hình LSTM cho ra kết quả tốt hơn

Tuy nhiên trong luận văn khi thử nghiệm giảm số lớp ẩn trên mơ hình mạng cho học phần: Quản trị mạng với Linux và học phần Bảo trì hệ thống mạng cũng

kết quả cho ra cũng rất tốt nên cĩ thể khẳng định rằng mơ hình cĩ thể giảm số lớp ẩn đi mà vẫn cho ra kết quả tƣơng tự.

Tuy nhiên trên thực tế cĩ một số trƣờng hợp sinh viên khơng tham gia dự thi hoặc bị các yếu tố bên ngồi tác động dẫn đến sinh viên đạt điểm 0 dẫn đến dự báo sai lầm.

Nguyên nhân dẫn đến sự chênh lệch các thơng số của các tiêu chí đánh giá cĩ thể do cài đặt thuật tốn chƣa đƣợc tối ƣu, do bộ dữ liệu chƣa đủ lớn để đánh giá đƣợc chính xác. Ngồi ra, một số yếu tố bên ngồi dẫn đến trƣờng hợp sinh viên bị điểm thấp hoặc việc thay đổi mơ hình đào tạo cũng cĩ thể làm ảnh hƣởng tới kết quả dự báo. Trong trƣờng hợp thử nghiệm với số lớp ẩn nhỏ hơn 03 lớp ẩn mà luận văn đã thử nghiệm, trên 02 mơ hình mạng của các học phần: “ Bảo trì hệ thống mạng” và “Quản trị mạng với Linux”, kết quả cho ra gần nhƣ khơng cĩ sự chênh lệch nên cĩ thể khẳng định rằng mơ hình cĩ thể giảm số lớp ẩn đi mà vẫn cho ra kết quả tƣơng tự. Vì vậy, với bài tốn dự báo điểm học phần Cao Đẳng Cơ Khí Nơng Nghiệp ta cĩ thể áp dụng mơ hình mạng LSTM để đƣa ra dự báo với một kết quả tốt, độ chính xác dao động trong khoảng 85% đến 95%, đây là một con số cao với một bài tốn dự báo. Nhƣ vậy, với mơ hình mạng học sâu LSTM và BPTT, ta đã tìm ra đƣợc một số phƣơng pháp dự báo cĩ thời gian huấn luyện nhanh và cĩ kết quả dự báo tốt. Tuy chƣa đạt đƣợc kết quả nhƣ kỳ vọng nhƣng cũng cho thấy điểm vƣợt trội qua kết quả của mơ hình mạng học sâu so với các mơ hình khác.

67

Từ các dữ liệu huấn luyện trên ta cĩ thể tính tốn ra đƣợc tỉ lệ sinh viên tốt nghiệp đúng tiến độ đào tạo khá dễ dàng bằng cách dựa vào quy chế đào tạo và chƣơng trình khung của ngành học.

Kết luận chƣơng

Nhƣ vậy, chƣơng 3 đã mơ tả và xây dựng chƣơng trình giải quyết bài tốn Dự báo điểm của sinh viên trong trƣờng Cao Đẳng Cơ Khí Nơng Nghiệp. Luận văn đề xuất sử dụng và đánh giá hiệu quả của 2 mơ hình mạng học sâu là BPTT và LSTM trong bài tốn dự báo điểm. Từ đĩ, gĩp phần nâng cao cơng tác giáo dục và đào tạo của nhà trƣờng cũng nhƣ hỗ trợ sinh viên đƣa ra những lựa chọn thích hợp cho việc đăng ký học phần của học kỳ sắp tới.

68

KẾT LUẬN VÀ KHUYẾN NGHỊ

Qua quá trình nghiên cứu và thực tiễn đề tài: “Nghiên cứu một số mơ hình mạng học sâu và ứng dụng trong bài tốn dự báo điểm của sinh viên trong trƣờng đại học” đã đạt đƣợc các kết quả nhƣ sau:

1. Nghiên cứu tổng quan về mạng học sâu và các mơ hình mạng học sâu đƣợc sử dụng phổ biến hiện nay.

2. Ứng dụng một số mơ hình mạng học sâu, xây dựng chƣơng trình thử nghiệm dự báo điểm học phần của sinh viên dựa trên bộ dữ liệu của trƣờng Cao Đẳng Cơ Khí Nơng Nghiệp

Đề xuất hƣớng phát triển của nghiên cứu

- Tiếp tục nghiên cứu để tăng độ chính xác chất lƣợng mơ hình dự báo và cải tiến các mơ hình đã nghiên cứu nhằm nâng cao tỉ lệ dự báo chính xác.

- Tiếp tục tìm hiểu nhu cầu thực tế, tham khảo các ý kiến của chuyên gia để xây dựng, nghiên cứu các phƣơng pháp tiên tiến khác đƣợc đề xuất gần đây để so sánh đánh giá trên bài tốn dự báo điểm sinh viên, giúp cĩ cái nhìn sâu sắc hơn về phƣơng pháp học sâu.

- Tiếp tục phát triển và xây dựng thành một ứng dụng trên điện thoại để ngƣời dùng cĩ thể dễ dàng sử dụng ở bất kỳ đâu hay bất cứ thời điểm nào. Đồng thời thu hút và lan truyền rộng rãi trong ngành đào tạo, hỗ trợ sự phát triển của nền kinh tế nƣớc nhà nĩi chung và nền giáo dục nĩi riêng.

69

TÀI LIỆU THAM KHẢO

Tài liệu Tiếng Việt

[1]

Lê Hải Khơi & Trần Đức Minh. Về một phƣơng pháp dự báo dữ liệu sử dụng mạng neural. Tạp chí Tin học và Điều khiển học 20 , N2, 2004.

[2]

Huỳnh Phƣớc Hải, Nguyễn Văn Hồ, Đỗ Thanh Nghị. So sánh mơ hình học sâu với các phƣơng pháp học tự động khác trong phân lớp dữ liệu

Một phần của tài liệu Nghiên cứu một số mô hình mạng học sâu và ứng dụng trong bài toán dự báo điểm tốt nghiệp của sinh viên trường cao đẳng cơ khí nông nghiệp (Trang 63)