Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
5,61 MB
Nội dung
C TRƯỜ G ẴNG I H C SƯ P M NGUYỄN PHÚC MINH TÚ NGHIÊN CỨU ỨNG DỤNG H C MÁY Ể DỰ BÁO KHẢ Ă G BỎ H C CỦA S V Ê TRƯỜ G DUY TÂN U VĂ T CS Ỹ THU T NGÀNH HỆ THỐNG THÔNG TIN ẵng - 2023 IH C C TRƯỜ G ẴNG I H C SƯ P M NGUYỄN PHÚC MINH TÚ NGHIÊN CỨU ỨNG DỤNG H C MÁY Ể DỰ BÁO KHẢ Ă G BỎ H C CỦA S V Ê TRƯỜ G N ệ thống thông tin M U I H C DUY TÂN ố 84.80.104 VĂ T CS TS Ỹ THU T ễn Trần Quốc Vinh i MỤC LỤC LỜI CẢM ƠN iii LỜI CAM ĐOAN iv DANH MỤC TỪ VIẾT TẮT vii DANH MỤC BẢNG BIỂU viii DANH MỤC HÌNH VẼ ix MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu .3 Phương pháp nghiên cứu 4.1 Phương pháp lý thuyết 4.2 Phương pháp thực nghiệm Ý nghĩa thực tiễn đề tài Kết dự kiến 6.1 Lý thuyết .4 6.2 Thực tiễn .4 Kết cấu luận văn CHƯƠNG TỔNG QUAN VỀ HỌC MÁY 1.1 AI học máy 1.2 Nhiệm vụ học máy 1.3 Phân loại học máy 1.4 Phép đánh giá mơ hình học máy 1.5 Hàm mát tham số mơ hình 1.6 Mơ hình chung cho tốn học máy 1.6.1 Bước huấn luyện .9 1.6.2 Bước kiểm tra 1.6.3 Chuẩn hóa vector đặc trưng .9 1.7 Các thuật toán sử dụng đề tài 10 1.7 Thuật toán định 10 ii 1.7.2 Thuật toán ANN (mạng neuron nhân tạo) .17 1.7.3 Cấu tạo bên tính tốn mạng ANN .22 1.7.4 Huấn luyện mạng ANN 23 Kết chương 25 CHƯƠNG GIẢI PHÁP DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN 26 2.1 Phát biểu toán 26 2.2 Xây dựng liệu 27 2.3 Dự báo dựa định 29 2.4 Dự báo dựa ANN 31 2.5 Mơ hình hệ thống 33 Kết chương 33 CHƯƠNG CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 34 3.1 Môi trường cài đặt định dạng file liệu 34 3.2 Cài đặt thuật toán định kết 36 3.2.1 Cài đặt thuật toán 36 3.2.2 Kết huấn luyện định 38 3.3 Cài đặt thuật toán mạng neuron nhân tạo (ANN) 41 3.3.1 Khai báo thư viện định nghĩa cấu trúc mạng ANN: 41 3.3.2 Chuẩn bị liệu huấn luyện liệu kiểm tra 42 3.3.3 Huấn luyện mơ hình 43 3.3.4 Kiểm tra đánh giá mô hình 43 3.4 Đánh giá kết thuật toán 44 Kết chương 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47 DANH MỤC TÀI LIỆU THAM KHẢO 48 iii LỜI CẢM ƠN Để thực đề tài xin chân thành cám ơn quý thầy cô quản lý giảng dạy trường Đại học Sư phạm Đà Nẵng hỗ trợ tơi suốt q trình học tập nghiên cứu trường Cảm ơn thầy TS Nguyễn Trần Quốc Vinh, người trực tiếp giảng dạy hướng dẫn thực đề tài Xin cảm ơn đến đồng nghiệp trường Đại học Duy Tân cung cấp số liệu hỗ trợ nhiệt tình cho tơi để tơi có thời gian tham gia chương trình thạc sĩ ủng hộ tơi suốt thời gian thực đề tài Trân trọng Nguyễn Phúc Minh Tú iv LỜI CAM ĐOAN Tôi xin cam đoan : Những nội dung luận văn thực hướng dẫn trực tiếp thầy TS Nguyễn Trần Quốc Vinh Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Nguyễn Phúc Minh Tú v TÊN ĐỀ TÀI: NGHIÊN CỨU ỨNG DỤNG HỌC MÁY ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TẠI TRƯỜNG ĐẠI HỌC DUY TÂN Ngành : Hệ thống thông tin Họ tên học viên : Nguyễn Phúc Minh Tú Người hướng dẫn khoa học : TS Nguyễn Trần Quốc Vinh Cơ sở đào tạo : Trường đại học Sư Phạm – Đại học Đà Nẵng Tóm tắt: Những năm gần việc ứng dụng công nghệ thông tin vào lĩnh vực sống Dù manh nha xuất từ vài thập niên trước trí tuệ nhân tạo xu hướng nghiên cứu phát triển ứng dụng đa dạng để phục vụ nhiều khía cạnh sống Ở trường đại học Việt Nam nay, số lượng sinh viên thơi học phần làm gia tăng mức uy tín trường đại học lên Nên học viên chọn lĩnh vực ứng dụng học máy để nghiên cứu giải toán dự báo sinh viên có khả bỏ học trường đại học Duy Tân Thông tin thu thập từ nguồn liệu thực tế số sinh viên bỏ học, học 05 năm qua với 5000 sinh viên Qua phân tích, đánh giá điều có liên quan đến số yếu tố sinh viên như: điểm đầu vào, sức khoẻ, việc làm thêm, gia cảnh, điểm trung bình tích lũy Học viên chọn thuật tốn thuộc lĩnh vực học máy có giám sát để áp dụng đánh giá cho đề tài bao gồm định (DT) mạng nơ ron nhân tạo (ANN) Cây định thuật toán đơn giản phổ biến Thuật toán sử dụng rộng rãi mơ hình sinh quy tắc dễ hiểu cho người dùng, tạo luật với nhánh luật Tuy nhiên định phụ thuộc lớn vào liệu, với thay đổi nhỏ liệu, cấu trúc mơ hình định thay đổi hoàn toàn Mạng nơron nhân tạo mơ hình xử lý thơng tin theo cách thức xử lý thông tin hệ nơron sinh học Các perceptron ANN nối với thông qua trọng số liên kết làm việc thể thống để giải vấn đề cụ thể Nhìn chung, thuật tốn học máy thông qua bước chung bao gồm nhập liệu, tìm mẫu đặc trưng, huấn luyện, dự đốn/dự báo, lưu giữ kết phản hồi Trong báo cáo luận văn này, học viên chọn môi trường cài đặt thuật tốn mơi trường trực tuyến Google Collaboratory với ngơn ngữ lập trình Python Qua kết chạy thực nghiệm cho thấy hai mơ hình cho kết có độ xác cao, khơng q chênh lệch nhau, mơ hình mạng ANN tốt chút so với mơ hình định Hướng phát triển nghiên cứu thực huấn luyện thêm với liệu cập nhật cho sinh viên khóa mới, theo dõi kết để điều chỉnh liệu cho độ xác cao gắn với thực tế trường Bên cạnh học viên tiếp tục tìm hiểu thêm thuật toán học máy khác xem xét bổ sung thuộc tính đầu vào nhằm làm cho cơng tác dự báo có độ xác cao Từ khóa : Học máy, Học có giám sát, Cây định, Mạng thần kinh nhân tạo, Dự đoán Xác nhận giảng viên hướng dẫn Người thực đề tài TS Nguyễn Trần Quốc Vinh Nguyễn Phúc Minh Tú vi Name of thesis : RESEARCH ON MACHINE LEARNING APPLICATION TO PREDICT DROPOUT PROBABILITY OF STUDENTS AT DUY TAN UNIVERSITY Major Full name of Master student Supervisors Training institution : Information System : Nguyen Phuc Minh Tu : Dr Nguyen Tran Quoc Vinh : University of Education – University of Da Nang Abstract In recent years, the application of information technology has entered all areas of life Although it first appeared a few decades ago, Artificial Intelligence is currently a research and development trend with diverse applications for human needs In Vietnames universities, the small number of students dropping out is a part of increasing the prestige of the universities Therefore, the author chooses the application field of Machine Learning to study and solve the problem of predicting students with a high probability of dropping out at Duy Tan University Data for this problem was collected from the actual source over the past five years with 5000 student records Through analysis and evaluation, this is related to a number of factors about each student such as their entrance score, health, part-time job, parent income and cumulative GPA The author has chosen two algorithms in the field of Supervised Machine Learning to apply and evaluate for this topic, including Decision Trees (DT) and Artificial Neural Networks (ANN) Decision Tree is a simple and popular algorithm for generating rules that are easy to understand for users Creating a set of rules for each leaf branch is the main role of training the tree However, Decision Tree is very data dependent, and with a small change in the data set, the Decision Tree model structure can change completely An Artificial Neural Network is a model of information processing that mimics the way biological neural systems process information The perceptrons in the ANN are connected through association weights that work as a whole to solve a particular problem In general, Machine Learning algorithms all go through five common steps including data preparation, feature extraction, training, prediction, and storing feedback In this thesis report, the author chooses the online Google Collaboratory as developing environment with Python programming language The experimental results show that both models give high accuracy, and the ANN network model is a bit better than the Decision Tree model The future research is to conduct additional training with updated data for new students, monitor the results to adjust the data for even greater accuracy and align with the reality of the school Besides, the author would continue to study other Machine Learning algorithms as well as consider adding input attributes to make forecasting more accurate Key words: Machine Learning, Supervised Learning, Decision Tree, Artificial Neural Network, Prediction Supervior’s confirmation DR Nguyen Tran Quoc Vinh Student Nguyen Phuc Minh Tu vii DANH MỤC TỪ VIẾT TẮT AI Artificial Intelligence ANN Artificial Neural Network CPU Centrer Processing Unit GPU Graphics Processing Unit HTML HyperText Markup Language ID3 Iterative Dichotomiser KNN K-nearest neighbors SVM Support vector machine TPU Tensor Processing Unit viii DANH MỤC BẢNG BIỂU Số hiệu bảng 1.1 1.2 1.3 1.4 Tên bảng Bảng liệu định sinh viên nghỉ học hay không dựa thông số đầu vào Sắp xếp lại bảng ban đầu theo thuộc tính ParentIncome Sắp xếp lại bảng ban đầu theo thuộc tính ParentIncome Sắp xếp lại bảng ban đầu theo thuộc tính ParentIncome Trang 11 13 13 13 1.5 Xét theo thuộc tính AverageGrades 14 1.6 Xét theo thuộc tính AverageGrades 14 2.1 Định dạng liệu thu thập 28 2.2 Định dạng liệu chuẩn bị huấn luyện 30 Kết huấn luyện mơ hình định sau huấn 3.1 luyện với liệu thông tin sinh viên khả bỏ học sinh viên 28 45 Bảng Kết huấn luyện mơ hình định mạng ANN sau huấn luyện với liệu thông tin sinh viên khả bỏ học sinh viên Độ xác Mơ hình Dữ liệu kiểm chứng Dữ liệu kiểm tra Cây định 94.1% 93.3% Mạng ANN 95.2% 94.4% Ma trận nhầm lẫn ANN sử dụng mạng ANN: Bỏ học (thực tế) Không bỏ học (thực tế) Bỏ học (dự đốn) 1788 (TP) 72 (FP) Khơng bỏ học (dự đốn) 152 (FN) 2488 (TN) Từ ma trận nhầm lẫn ta thông số: TP = 1788/4000 FP = 72/1000 FN= 152/1000 TN= 2488/4000 Bảng 3.1 tổng hợp kết đánh giá mơ hình học máy định mạng ANN Kết cho thấy hai mơ hình cho kết xác cao không chênh lệch Tuy nhiên, kiểm tra lại liệu mà mơ hình học qua (dữ liệu kiểm tra xác nhận Bảng 3.1), độ xác định 94.1%, mạng ANN cho kết 95.2% Ngược lại, kiểm tra liệu kiểm tra (dữ liệu test Bảng 3.1), độ xác định 93.3%, mạng ANN cho kết 94.4% Chú ý liệu kiểm tra chiếm 10% toàn liệu đề tài sử dụng, liệu trích rút ngẫu 46 nhiên đảm bảo khách quan mơ hình Việc độ xác liệu kiểm tra thấp so với liệu huấn luyện hợp lý liệu kiểm tra liệu mơ hình chưa học qua Ngồi ra, kết cịn cho thấy mạng ANN cho kết tốt tốn cụ thể phân loại sinh viên có khả bỏ học không bỏ học Mạng ANN cho kết tốt mạng tạo đường biên phân loại cong trơn tùy ý, định phân ngưỡng nhánh nên vùng phân loại thô Học viên đề xuất sử dụng mạng ANN cho tốn phân loại sinh viên có khả bỏ học không bỏ học Kết chương Ở Chương 3, học viên trình bày đầy đủ q trình triển khai hai thuật tốn học máy định mạng nơ ron nhân tạo bao gồm bước cụ thể từ chuẩn bị liệu, tiền xử lý liệu, phân chia liệu huấn luyện-dữ liệu kiểm tra, huấn luyện mơ hình, kiểm tra đánh giá mơ hình Kết cho thấy hai mơ hình cho kết có độ xác cao, mơ hình mạng ANN tốt chút so với mơ hình định 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mạng nơ ron nhân tạo thường khó định cấu hình học chậm, chuẩn bị ứng dụng nhanh Chúng thường thiết kế mơ hình để vượt qua vấn đề tốn học, tính tốn kỹ thuật Kể từ đó, có nhiều nghiên cứu toán học, sinh học thần kinh học máy Hướng phát triển học viên thực huấn luyện thêm với liệu cập nhật cho sinh viên khóa mới, theo dõi kết để điều chỉnh liệu cho độ xác cao gắn với thực tế trường Bên cạnh học viên tiếp tục tìm hiểu thêm thuật toán học máy khác xem xét bổ sung thuộc tính đầu vào nhằm làm cho cơng tác dự báo có độ xác ngày cao, kết nghiên cứu học viên đưa vào ứng dụng thực tiễn 48 DANH MỤC TÀI LIỆU THAM KHẢO * Tiếng Việt [1] Vũ, H T (2018) Machine Learning Machinelearningcoban.com [2] Nguyễn , V T (2012) Ứng dụng khai phá liệu xây dựng hệ thống dự đoán kết học tập sinh viên Tạp chí Khoa học Cơng nghệ, Số (57), 69-74 *Tiếng Anh [3] Mitchell, T M (2017) Machine Learning Hà Nội: Nxb Thanh Niên [4] Pokharel, M., Alsadoon, A., & Nguyễn, V T (2022) Deep learning for predicting the onset of type diabetes: enhanced ensemble classifer using modified t-SNE Multimedia Tools and Applications, No:3 (2022), 1-16 [5] Willging, P.A & Johnson, S.D (2004) Factors that influence students’ decision to dropout of online courses Journal of Asynchronous Learning Network, 8(4), 105-118 https://doi.org/10.24059/olj.v13i3.1659 * Tài liệu Internet [6] “Decision Trees (1): Iterative Dichotomiser 3” https://machinelearningcoban.com / 2018/01/14/id3/ [7] “ Documentation for Scikit-learn”, URL: https://scikit-learn.org/stable/auto_examples/tree [8] "Cây Quyết Định (Decision Tree)," Trí tuệ nhân tạo, Ngày xuất bản: 06/06/2019, URL: https://trituenhantao.io/kien-thuc/decision-tree/, Ngày truy cập: 17/11/2022 [9] Dữ liệu xử lý kết học tập Phòng đào tạo trường Đại học Duy Tân cung cấp DAI HOC DA NANG TRUONG D~I HQC SU PH~M CONG lIOA xA HOI cnu NGHiA V¢T NAM DQc )~p - T,! - H~nh phuc S6: 02J4J IQD-DHSP Da Nang, Oi thong d.2nam 2021 QUYET DJNH V~ vi~c giao d~ tai va tnich nhi~m hU'(rng din )u~n van thac si HI:E:U TRUONG TRUONG D~I HQC SU PH~M - DHDN Can cu Nghi dinh h9C Da Nang; s6 321CP 041411994 cua Chinh phu v~ viec ldp Dai Can cu Nghi quyet s6 08INQ-HDDH 121712021 cua H(Ji a6ng Dqi h9C os Nang ban hanh Quy chi t6 chuc va hoat dong cua Dai hoc Da Nang va duac stra a6i, b6 sung mot s6 ai~u tai Nghi quyit s6 13INQ-HDDH 071912021,' Can cu Nghi quyet s6 12INQ-HDT 081612021 cua H(Ji a6ng truong Truong Dai h9C Sir pham v~ viec ban hanh Quy chi t6 chirc va hoat a(Jng cua Truong Dai h9C Su pham - Dai h9CDa Nfmg; Can ctr Thong tu s6 15120141TT-BGDDT 151512014cua B(J Giao due va Dao tao v~ viec ban hank Quy chi dao tao trinh a(J thac Sl,' Can ar Quyit atnh s6 1060IQD-DHSP 0111112016cUa Hi¢u truang Truang Dqi h9C&rphqm - Dqi h9CDa Nang v~ vi¢c ban hanh Quy ainh aao tqo trinh a(Jthqc Sl,' Can ClrTo trinh 29111/2021 cua Khoa Tin h9C v~ vi¢c a~ nght giao a~ tai lu(ln van thqc sf cho h9Cvien cao h9Cnganh H¢ th6ng thong tin khoa 41; Xet a~nghi cua Truong phong Phong Dao tqo QUYET DJNH: Di~u Giao cho 03 h9C vien cao h9C nganh H~ th6ng thong tin khoa 41 lOp K41.HTTT thllc hi~n d~ tai lu~n van th~c SI (co danh stich kem theo) Di~u H9C vien va nguai huang din co ten a Di~u duqc huang cae quy~n lqi va thllC hi~n nhi~lTIVl,ldung theo Quy ch~ dao t~o trinh de>th';1esl BQ Giao dl,lc va Dao t~o ban h:?mhva Quy dinh v~ diw t';10trinh de>th';1cSI cua Truang D~i h9C Su ph';1lTI- D';1ih9C Da N£ng Di~u Thu twang cae dan vi lien quan, nguai huang din lu~n van va h9C vien co ten a Di~u can Cll Quy~t dinh thi hanh.~ No';nlt~n: - Nhu Di~lI3 (d~t111,fC hi~n); - Ban Giam hi~lI(d~ bi~t); - LUll: VT, DT PGS TS Lu'u.Trang DAI HQC DA NANG TRUONG D~I HQC SUPH~M CONG HoA XA HOI CHi) NGHIA VJ~T NAM DQc l~p - Tl}'do - H~nh phuc DANH SACH HQC VIEN DUQC GIAO DE TAl LU~N VAN TH~C NGA.NHH¥THONGTHONGTIN LOPK41.HTTT st (Kem thea Quyit dinh s6 ~4!J IQD-DHSP ngay.()j thang d 2niim 2021 cua Hieu truong Truong Dai h9C Str pham - Dai hoc Dil NJng) STT Ten d~ tai Giao vien hinrng din Nghien ciru irng dung nhan dang bien TS Nguy~n Tr§n Qucc Vinh (Truong Dai h9C Sir pham D?i h9C Da N~ng) HQ va ten Nguyen Quoc Long s6 xe t6 phuc vu phong chong dich COVIDNghien Phan Th~ Nh?t 19 ciru v~n dung ky thuat kiem thir phan mem dua tren UML cho h~ thong quan ly thiet bi tai tnrong Dai h9C Kinh t~ - Dai h9C Da Ning Nguyen Phuc Minh Tu TS Nguyen Dinh L§u (Truong Dai h9C Sir pharn D?i h9C Da N~ng) Nghien ciru irng dung h9C may d~ dIJ TS Nguy~n Tr§n Quoc Vinh baa kha nang b6 h9C cua sinh vien (Truong Dai h9C Su ph?m - trucmg D~i h9C Duy Tfm D?i h9C Da N~ng) - An dinh danh sach co 03 (ba) h9C vien~ HI~U TRUONG PGS TS LtJu Trang D~I HQC DA NANG TRUONGDAIHOCSUPHAM CONG HoA xA HOI CHi; NGHiA VI¥T NAM DQc I~p - T\f - Hanh phuc BIEN BAN HQP HOI DONG CHAM LU~N VAN TH~C sl Ten de tai: Nghien ciru irng dung hoc may d~ dir bao kha nang bo hoc cua sinh vien tnrong Dai hoc Duy Tan ' Nganh: H~ thong thong tin Lap: K41.HTTT IQD-DHSP Theo Quyet dinh l~p Hoi dong cham luan van thac SI s6 Ngay hQP Hoi d6ng: thong thang narn nam Danh sach cac vien Hoi d6ng: STT HQvATEN CUONG VI TRONG HOI DONG PGS TS Trfin Van Lang Chu tich TS Nguyen Dinh Lfiu Thir ky PGS TS Huynh Cong Phap Phan bien PGS.TS Le Hoang San Phan bien PGS TS Trfrn Dang Hung a Thanh vien co mat: -' ;1 - Uy vien b Thanh vien vang mat: o_.