Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,78 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN HỒNG BÌNH ỨNG DỤNG RANDOM FOREST ĐỂ TƯ VẤN CHỌN LỘ TRÌNH HỌC TRONG HỌC CHẾ TÍN CHỈ Chun ngành : Khoa học máy tính Mã số : 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2015 Chương trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH Phản biện 1: TS Phạm Minh Tuấn Phản biện 2: GS TS Nguyễn Thanh Thủy Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật chuyên ngành Khoa học máy tính họp Đại học Đà Nẵng vào ngày 18 tháng7 năm 2015 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, công nghệ thông tin phát triển mạnh mẽ việc ứng dụng cộng nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội làm lượng liệu thu thập lưu trữ hệ thống thông tin tăng lên cách nhanh chóng dẫn tới bùng nổ thơng tin Lượng liệu tài ngun vơ giá biết cách phát khai thác thơng tin hữu ích có Các phương pháp khai thác liệu truyền thống ngày không đáp ứng cầu thục tế Với lý đó, để đáp ứng nhu cầu xử lý, phân tích, sử dụng thơng tin hiệu hơn, làm phát triển kỹ thuật với kỹ thuật cho phép ta khai thác tri thức hữu dụng từ CSDL lớn gọi kỹ thuật khai phá liệu Các kỹ thuật khai phá liệu đời cho phép ta khai thác tri thức hữu dụng việc trích xuất thơng tin có mối quan hệ mối tương quan định từ kho liệu lớn (cực lớn) mà bình thường khơng thể nhận diện từ giải tốn tìm kiếm, dự báo xu thế, hành vi tương lai, nhiều tính thơng minh khác Các kỹ thuật khai phá liệu ứng dụng nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo dục Trong việc ứng dụng khai phá liệu vào nhiều lĩnh vực khác đời sống, khai phá liệu lĩnh vực giáo dục dần có quan tâm mức Giáo dục đào tạo có nhiệm vụ định hướng hoạch định sách tương lai cách đắn kịp thời Để đối tượng giáo dục hệ trẻ, lực lượng kế thừa việc xây dựng, bảo vệ phát triển đất nước có mơi trường tốt phát huy khả Ngày nay, trường đại học cao đẳng đa số chuyển sang đào tạo theo học chế tín Việc tư vấn học tập, liên quan đến lựa chọn lộ trình học học chế tín phù hợp nhầm đạt kết học tập cao cho sinh viên quan tâm Trước thực tế đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài “Ứng dụng Random Forest để tư vấn chọn lộ trình học học chế tín chỉ” Mục tiêu nhiệm vụ - Nghiên cứu khai phá liệu, phân lớp liệu Random Forest - Ứng dụng để khai phá liệu sinh viên, qua tư vấn chọn lộ trình học học chế tín phù hợp cho sinh viên để đạt kết tốt Đối tượng phạm vi nghiên cứu a Đối tượng nghiên cứu - Các kỹ thuật khai phá liệu; - Tổng quan phân lớp liệu; - Random Forest; b Phạm vi nghiên cứu - Triển khai kỹ thuật khai phá liệu sử dụng phân lớp liệu dựa định Random Forest - Dữ liệu trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam gồm: kết học tập thông tin nhân 2000 sinh viên với cách ngành học sau: Kế tốn, Quản trị, Quản lý đất đai, Ni trồng thủy sản, Lâm nghiệp Phương pháp nghiên cứu a Nghiên cứu lý thuyết - Tổng hợp nghiên cứu tài liệu liên quan lý thuyết khai phá liệu, phân lớp liệu, định Random Forest - Phân tích thiết kế mơ hình phân lớp với Random Forest b Nghiên cứu thực nghiệm - Sử dụng mơ hình Random Forest CSDL lý lịch, lộ trình học chế tín chỉ, kết học tập sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam để tạo mơ hình phân lớp để dự đoán kết học tập - Ứng dụng để tư vấn chọn lộ trình học cho sinh viên Ý nghĩa khoa học thực tiễn đề tài a Về mặt khoa học - Nghiên cứu Khai phá liệu: lý thuyết tổng quan, ý nghĩa, ứng dụng - Nghiên cứu phân lớp khai phá liệu - Nghiên cứu Random Forest việc dự đốn phân loại thơng tin b Về mặt thực tiễn Ứng dụng việc dự khai phá liệu học tập để tư vấn chọn lộ trình học học chế tín giúp sinh viên đạt kết tốt kỳ học Bố cục luận văn Nội dụng luận văn chia thành chương: Chương 1: Nghiên cứu tổng quan, chương giới thiệu tổng quan khai phá liệu, kỹ thuật khai phá liệu, mơ hình tổng quan khai phá liệu Giới thiệu phân lớp liệu định phân lớp liệu, thuật toán xây dựng định Chương 2: Nghiên cứu random forest ứng dụng để xây dựng mơ hình cho toán, chương nghiên cứu tổng quan random forest, thuật tốn mơ hình phân lớp với random forest Ứng dụng để xây dựng mơ hình phân lớp với liệu sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam nhằm dự đoán kết học tập cho sinh viên Chương 3: Đánh giá kết mơ hình random forest ứng dụng để tư vấn lộ trình học cho sinh viên, chương trình bày kết phân lớp liệu random forest so sánh với số phương pháp cũ sử dụng nhiều Ứng dụng mơ hình phân lớp để tư vấn lộ trình học học chế tín cho sinh viên CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lược khai phá liệu Có thể có định nghĩa khai phá liệu sau: Khai phá liệu trình phát mơ hình, tổng kết khác giá trị lấy từ tập liệu cho trước [9] Hay, định nghĩa sau: Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL, trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu…để tìm mối quan hệ, mối liên kết liệu mà bình thường khó nhận diện được, từ trích xuất thơng tin lạ, có ích, có giá trị tìm ẩn bên 1.1.2 Mơ hình khai phá liệu 1.1.3 Các chức khai phá liêu 1.1.4 Ứng dụng khai phá liệu 1.1.5 Các bước xây dựng hệ thống khai phá liệu a Mơ hình luồng liệu b Các bước hệ thống khai phá liệu 1.1.6 Kiến trúc điển hình hệ thống phai liệu Kiến trúc hệ thống khai phá liệu điển hình thường gồm thành phần sau: Hình 1.3 Kiến trúc điển hình hệ thống khai phá liệu 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 1.2.1 Phân lớp liệu Ngày phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sỡ liệu với nhiều thơng tin ẩn người trích rút định nghiệp vụ thông minh 1.2.2 Quá trình phân lớp liệu Quá trình phân lớp gồm bước: Bước thứ (learning): trình học nhầm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước Bước thứ hai (classification): bước dùng mơ hình xây dựng bước thứ để phân lớp liệu 1.2.3 Một số kỹ thuật phân lớp liệu Có thể liệt kê kỹ thuật phân lớp sử dụng năm qua: - Phân lớp định (Decision tree classification) - Bộ phân lớp Bayesian (Bayesian classifier) - Mơ hình phân lớp K-hàng xóm gần (K-nearest neighbor classifier) - Mạng nơron - Phân tích thống kê - Các thuật tốn di truyền - Phương pháp tập thơ (Rough set Approach) 1.2.4 Các vấn đề liên quan đến phân lớp liệu a Chuẩn bị liệu cho viêc phân lớp b So sánh mơ hình phân lớp c Phương pháp đánh giá độ xác mơ hình phân lớp 1.3 CÂY QUYẾT ĐỊNH TRONG PHÂN LỚP DỮ LIỆU 1.3.1 Giới thiệu Cây định biểu đồ phát triển có cấu trúc dạng cây, mơ tả sau: Hình 1.12 Ví dụ định Trong định: - Gốc: nút - Nút trong: biểu diễn kiểm tra thuộc tính đơn (hình chữ nhật) - Nhánh: biểu diễn kết kiểm tra nút (mũi tên) - Nút lá: biểu diễn lớp hay phân phối lớp (hình trịn) Để phân lớp mẫu liệu chưa biết, giá trị thuộc tính mẫu đưa vào kiểm tra định Mỗi mẫu tương ứng có đường từ gốc đến biểu diễn dự đoán giá trị phân lớp mẫu 1.3.2 Đánh giá định lĩnh vực khai phá liệu Cây định có ưu điểm sau: - Câu định dễ hiểu - Dễ dàng tính tốn phân lớp - Khả xử lý với thuộc tính liên tục thuộc tính rời rạc - Thể rõ ràng thuộc tính tốt 1.3.3 Xây dựng định a Quá trình xây dựng định Gồm giai đoạn: - Giai đoạn thứ phát triển định - Giai đoạn thứ hai cắt, tỉa bớt cành nhánh định b Thuật toán xây dựng định Tư tưởng chung Các thuật toán phân lớp C4.5 (Quinlan, 1993), CDP (Agrawal tác giả khác, 1993), SLIQ (Mehta tác giả khác, 1996) SPRINT (Shafer tác giả khác, 1996) sử dụng phương pháp Hunt làm tư tưởng chủ đạo Phương pháp Hunt đồng nghĩ vào năm cuối thập kỷ 50 đầu thập kỷ 60 [9] 1.3.4 Xây dụng định thuật toán C4.5 a Thuật toán C4.5 C4.5 kế thừa của thuật toán học máy định dựa tảng kết nghiên cứu HUNT cộng ông (Hunt 1962) Phiên đời ID3 (Quinlan, 1979) Năm 1993, J Ross Quilan kế thừa kết phát triển thành C4.5 Tư tưởng phát triển định C4.5 phương pháp HUNT Chiến lược phát triển theo độ sâu (depth-first strategy) áp dụng cho C4.5 Thuật toán xét tất phép thử để phân chia tập liệu cho chọn phép thử có giá trị Gain Ratio tốt Gain Ratio đại lượng để đánh giá độ hiệu thuộc tính dùng để thực phép tách thuộc toán để phát triển 10 Mã giả thuật tốn C4.5 [9]: Hình 1.13 Mã giải thuật toán C4.5 b C4.5 dùng Gain Ratio làm độ đo lựa chọn thuộc tính “tốt nhất” c Chuyển đổi từ định sang luật d C4.5 thuật toán hiệu cho liệu vừa nhỏ CHƯƠNG NGHIÊN CỨU RANDOM FOREST VÀ ỨNG DỤNG ĐỂ XÂY DỰNG MƠ HÌNH CHO BÀI TỐN 2.1 RANDOM FOERST 2.1.1 Cơ sở định nghĩa Random Forest phương pháp học quần thể để phân loại, hồi quy nhiệm vụ khác, hoạt động cách xây dựng vô số định thời gian đào tạo đầu tập hợp mơ hình phân lớp hồi quy riêng biệt Nó 11 nhóm phân loại hồi quy không cắt tỉa làm từ lựa chọn ngẫu nhiên mẫu liệu huấn luyện Tính ngẫu nhiên chọn q trình cảm ứng Dự đốn thực cách kết hợp dự đoán quần thể (đa số phiếu để phân loại trung bình cho hồi quy) 2.1.2 Tóm tắt giải thuật - Đầu vào tập liệu đào tạo - Đầu mơ hình Random Forest, Random Forest tập hợp nhiều định Ntree Với Cây Ntree xây dựng sử dụng thuật toán sau [15]: + Với N số lượng trường hợp liệu đào tạo, M số lượng biến việc phân loại + Lấy m số biến đầu vào sử dụng để xác định việc phân chia Nút cây, m < M + Chọn tập huấn luyện cho cách chọn n ngẫu nhiên với thay từ tất trường hợp đào tạo có sẵn N Sử dụng phần lại để ước lượng lỗi cây, cách dự đoán lớp chúng + Với nút cây, chọn ngẫu nhiên m sở phân chia nút (độc lập với nút) Tính chia tốt dựa biến m tập huấn luyện n + Mỗi trồng hồn tồn khơng tỉa ( sử dụng vệ xây dựng phân loại bình thường) Đối với dự dốn đưa vào Nó gán nhãn mẫu đạo tạo nút cuối để kết thúc Thủ tục lập lại qua tất Ntree, đa số phiếu bình chọn với phân lớp hay 12 trung bình với hồi quy Ntree dự đốn mơ hình 2.1.3 Đặc điểm Random Forest Random forest có đặc điểm sau [16]: - Nó đạt xác cao thuật tốn hành - Nó chạy hiệu sở liệu lớn - Nó xử lý hàng ngàn biến đầu vào mà khơng cần xóa biến - Nó cung cấp ước tính biến quan trọng việc phân loại - Nó tạo ước lượng không chênh lệnh lỗi nội lỗi tổng quan q trình phát triển rừng - Nó có phương pháp hiệu để ước lượng liệu bị trì độ xác tỷ lệ lớn liệu bị 2.1.4 Mô hình phân lớp với Random Forest Hình 2.1 Mơ hình phân lớp với Random Forest 13 2.1.5 Tạo n tập huấn luyện cách sử dụng bootstrap Bootstrap ? Là phương pháp tiếng thống kê giới thiệu Bradley Efron vào năm 1979 Phương pháp chủ yếu dùng để ước lượng lỗi chuẩn (standard errors), độ lệch (bias) tính tốn khoảng tin cậy (confidence interval) cho tham số Phương pháp thực sau: từ quần thể ban đầu lấy mẫu L = (x1, x2, xn) gồm n thành phần, tính tốn tham số mong muốn Trong bước lặp lại b lần việc tạo mẫu Lb gồm n phần từ từ L cách lấy lại mẫu với thay thành phần mẫu ban đầu sau tính tốn tham số mong muốn 2.1.6 Xây dựng ngẫu nhiên 2.1.7 Một số so sánh phương pháp phân lớp cách sử dụng định thuật toán C4.5 Random Forest 2.2 XÂY DỰNG MƠ HÌNH PHÂN LỚP BẰNG RANDOM FOREST ĐÊ GIẢI QUYẾT BÀI TỐN 2.2.1 u cầu tốn - Cho kho liệu lưu giữ thông tin lý lịch kết học tập gần 2000 sinh viên tốt nghiệp trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam Sử dụng random forest với liệu để tạo mơ hình phân lớp cho việc dự đoán kết học tập cuối khóa sinh viên Ứng dụng kết dự đốn để tư vấn lộ trình học cho sinh viên vào trường 2.2.2 Xữ lý liệu Dữ liệu thu thập bao gồm: 14 - Thông tin cá nhân tuyển sinh gần 2000 sinh viên thu thập tổ chức thành bảng thương ứng với gần 1957 ghi - Thông tin 12 ngành học 330 môn học tất ngành - Gần 6000 ghi chứa kết học tập môn học gần 2000 sinh viên - Hơn 8000 ghi chứa kết học tập kỳ số sinh viên - Gần 2000 ghi kết tồn khóa số sinh viên Từ liệu ta xác định lộ trình học liệu cho việc khai phá v Xác định lộ trình học Lộ trình học liệt kê tất môn học theo thứ tự từ đầu đến cuối sinh viên cần học để kết thúc khóa học Được xây dựng sau: - Từ danh sách môn học, học kỳ điểm môn học ta thực liệt kê tất môn học theo thứ tự từ đầu đên cuối tất sinh viên - Qua đó, liệt kê danh sách tất lộ trình học cho ngành (tất sinh có lộ trình học giống gộp lại thành MALOTRINH theo ngành học đó) ð Xây dựng bảng gồm 68 MALOTRINH cho tất 12 ngành học Bảng 2.3 sau: 15 Bảng 2.3 Liệt kê danh sách tất lộ trình ngành MANGANH LoTrinh MALOTRINH DIEN An tồn điện(1);Anh văn I(1);Cơ sở kỹ thuật điện I(1);Chính trị 1(1);… HCVT Anh văn I(1);Chính trị 1(1);Giáo dục thể chất(1);Luật hành chính(1);… HCVT Anh văn I(1);Chính trị 1(1);HP & luật TC cỏc CQNN(1);Luật hành chính(1);… … … … v Xây dựng liệu khai phá Xây dựng bảng liệu từ thông tin đầu vào sinh viên (phái, dân tộc, khối thi, điểm thi đầu vào…), lộ trình học kết học sinh viên Ta Bảng 2.4 với thuộc tính sau: Bảng 2.4 Bảng liệu để khai phá MASV PHAI CĐ 01KT 0002 CĐ 01KT 0003 CĐ 01KT 0004 CĐ 01KT 0005 … KHOI DAN MA KHU DIEM MA MALO KET THI TOC HUYEN VUC THI NGANH TRINH QUA A Kinh 2NT 9,5 KT 48 K D1 Kinh 2NT 10 KT 48 K D1 Kinh 17 2NT 10,5 KT 48 K D1 Kinh 2NT 10 KT 48 K … … … … … … … … … 16 2.2.3 Xây dựng mơ hình phân lớp với Random Forest Sử dụng giải thuật mục 2.1.2 với: - Đầu vào: liệu sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam - Đầu ra: tập hợp định để dự dốn liệu 2.2.4 Mơ hình tổng qt Hình 2.11 Mơ hình tổng qt Random Forest để phân lớp cho tốn 2.2.5 Ước tính độ xác mơ hình Ước tính độ xác mơ hình cách sử dụng k-fold cross validation với k=10 Tập liệu ban đầu chia ngẫu nhiên thành 10 tập (fold) có kích thước xấp xỉ S1, S2, …, S10 Quá trình học kiểm tra thực 10 lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo gọi Ri 17 Với fold i (lần chạy i), ta thực hiên bước sau (với i=1 10): - Xây dựng mơ hình random forest với liệu đào tạo Ri, bước xây dựng mơ hình phần 2.2.3 liệu đào vào liệu đạo tào Ri - Với liệu kiểm tra Si ta lấy lớp cần phân lớp (ở lớp KETQUA) - Sử dung mơ hình xây dựng để dự doán liệu kiểm tra n sau lấy lớp KETQUA (dự đoán với liệu mới) - So sánh kết dự đoán với lớp KETQUA liệu kiểm tra n lấy - Độ xác fold i số dự đốn xác với lần i chia cho tổng số mẫu liệu Si ð Độ xác mơ hình trung bình độ xác 10 fold Hoặc: ð Độ xác mơ hình tổng số dự đốn xác 10 fold chia cho tổng số mẫu liệu ban đầu 18 CHƯƠNG ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH RANDOM FOREST VÀ ỨNG DỤNG ĐỂ TƯ VẤN LỘ TRÌNH HỌC CHO SINH VIÊN 3.1 KẾT QUẢ CHẠY MƠ HÌNH PHÂN LỚP VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC 3.1.1 Mơ hình Random Forest a Kết mơ hình Random Forest Hình 3.1 Mơ hình Random Forest (1) Với kết mơ hình tập hợp 25 ngẫu nhiên với thuộc tính chọn xem xét chia Mỗi biểu diễn Cách biểu diễn giúp ta biểu diễn có kích thước lớn để dễ cho việc sử dụng 19 Ví dụ: với phần Hình 3.1 ta vẽ thành sau Hình 3.2 Ví dụ định b Đánh giá độ xác mơ hình Đánh giá độ xác mơ hình cách sử dụng k-fold cross validation với k=10 Kết với lần chạy (fold) là: - Fold 1: Đúng 170/196 => 86,7347% (Out of bag error: 0.1493) Hình 3.3 Độ xác mơ hình random forest- fold 20 Tương tự với lần chạy lại: - Fold 2: Đúng 171/196 => 87,2449% (Out of bag error: 0.1516) - Fold 3: Đúng 172/196 => 87,7551% (Out of bag error: 0.1545) - Fold 4: Đúng 175/196 => 89,2857% (Out of bag error: 0.1454) - Fold 5: Đúng 170/196 => 86,7347% (Out of bag error: 0.1459) - Fold 6: Đúng 160/196 => 81,6327% (Out of bag error: 0.1397) - Fold 7: Đúng 172/196 => 87,7551% (Out of bag error: 0.1442) - Fold 8: Đúng 162/196 => 83,0769% (Out of bag error: 0.1436) - Fold 9: Đúng 171/196 => 87,6923% (Out of bag error: 0.1566) - Fold10: Đúng 166/196 => 85,1282% (Out of bag error: 0.1493) ð Kết độ xác : Đúng 1689/1957 => 86,3040% Hình 3.4 Kết Độ xác mơ hình Random Forest 3.1.2 Mơ hình định thuật tốn C4.5 a Kết mơ hình định thuật tốn C4.5 b Đánh giá độ xác mơ hình 3.2 SO SÁNH KẾT QUẢ VỚI MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP KHÁC Các phương pháp BayesNet, NaivaBayes, BFTree, SimpleCart đây, xây dựng đánh giá độ xác cơng cụ weka với sở liệu 1957 sinh viên (Bảng 2.5) sử dụng phương pháp 10-fold cross validation 21 Bảng 3.1 Bảng So sánh độ xác số phương pháp phân lớp Độ xác Độ sai lệch C4.5 84,5682% 15,4318% Random Forest 86,3056% 13,6944% BayesNet 78,743% 21,257% NaiveBayes 76,8012% 23,1988% BFTree 85,1303% 14,8697% SimpleCart 84,3127% 15,6873% ð Kết cho thấy Random Forest cho độ xác tốt so với mơ hình phân lớp thường dùng 3.3 ỨNG DỤNG TƯ VẤN CHỌN LỘ TRÌNH CHO SINH VIÊN Cách tư vấn: với thông tin đầu vào sinh viên => chọn tất lộ trìnhcó khả => dự đốn xếp loại với tất lộ trình => chọn dự đốn xếp loại tốt => tư vấn lộ trình có dự đốn tốt 3.4 DEMO CHƯƠNG TRÌNH v Giao diện 22 Hình 3.10 Giao diện chương trình demo Có chức mơ hình tư vấn: - Mơ hình: cho xem mơ hình phân lớp đươc tạo định, random forest đánh giá độ xác mơ hình - Tư vấn: tư vấn chọn lộ trình học để sinh viên có kết học tập tốt theo mơ hình random forest với giá trị numTree= 25, numFeatrues= 5, maxdepth= v Giao diện mơ hình phân lớp Hình 3.13 Giao diện mơ hình phân lớp(3)- Random Forest Gồm lựa chọn với mơ hình phân lớp là: Decision tree (C4.5) (cây định tạo với thuật toán C4.5) Random Forest 23 v Giao diên tư vấn chọn lộ trình học cho sinh viên Hình 3.15 Giao diện ứng dụng tư vấn (2) - Với phần thông tin: ta điền thông tin sinh viên cần tư vấn - Với phần kết quả: + Khung bên trái: cho kết tư vấn lộ trình học cho sinh viên + Khung bên phải: cho ta thấy tất môn học cho lộ trình 24 KẾT LUẬN Về lý thuyết, luận văn trình bày sở lý thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán định Random Forest Nghiên cứu quy trình triển khai ứng dụng khai phá liệu, ứng dụng Random Forest để tạo mô hình phân lớp, bước quan trọng quy trình khai phá liệu Đối với toán tư vấn chọn lộ trình học học chế tín chỉ, luận văn xây dựng mơ hình phân lớp dự Random Forest, đá giá độ xác mơ hình so sánh với số mơ hình phân lớp thường sử dụng phân lớp phương pháp định, phương pháp Bayes…và kết cho thấy Random Forest cho kết tốt Bên cạnh đó, luận văn xây dựng chương trình demo hiển thị mơ hình Random Forest, ứng dụng tư vấn chọn lộ trình học cho sinh viên Với khả ứng dụng kết này, giúp sinh viên lựa chọn cho lộ trình học phù hợp với điều kiện lực thân để đạt kết tốt học tập Nhìn chung luận văn hoàn thành mục tiêu đề Để đưa mơ hình dự đốn vào ứng dụng tư vấn cách hiệu cần tiếp tục thu thập dư liệu sinh viên nhiều hơn, phong phú Có thể nhận thấy việc ứng dụng Random Forest để tư vấn chọn lộ trình học học chế tín hướng tiếp cận đắn có tính thực tiễn cao, mang lại hiệu cao so với phương pháp thường sử dụng (được nên Bảng 3.1)