1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định

63 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trong tình hình thực tế hiện nay, việc quản lý dữ liệu đào tạo là một thách thức lớn đối với các tổ chức đào tạo. Họ phải đối mặt với lượng dữ liệu lớn và đa dạng, từ thông tin học viên, khóa học, kết quả đào tạo, đánh giá, phản hồi từ học viên, và nhiều yếu tố khác. Tuy nhiên, chỉ đơn thuần thu thập và lưu trữ dữ liệu không đủ để tạo ra giá trị thực sự. Đây là lúc nghiên cứu Data Mining vào phân tích dữ liệu quản lý đào tạo trở nên cực kỳ cấp thiết. Bằng cách áp dụng các phương pháp và công nghệ Data Mining, chúng ta có thể khai thác tri thức ẩn chưa được khám phá từ dữ liệu. Nó giúp chúng ta hiểu rõ hơn về học viên, xu hướng đào tạo, yêu cầu của thị trường lao động, và các vấn đề khác liên quan đến quản lý đào tạo.Thông qua việc áp dụng các kỹ thuật Data Mining như phân tích cụm, phân loại, gợi ý, và dự đoán, chúng ta có thể tạo ra những thông tin quan trọng để đưa ra quyết định. Ví dụ, dựa trên phân tích dữ liệu đào tạo, chúng ta có thể xác định khóa học phổ biến, đối tượng học viên tiềm năng, và điều chỉnh chương trình đào tạo để đáp ứng nhu cầu thị trường. Chúng ta cũng có thể dự đoán hiệu suất học tập của học viên, phát hiện ra mô hình học tập tốt nhất, và cung cấp phản hồi cá nhân để tăng cường hiệu quả học tập. Việc áp dụng Data Mining trong quản lý đào tạo không chỉ giúp chúng ta tối ưu hóa quy trình quản lý và nâng cao chất lượng đào tạo, mà còn đóng góp vào sự cạnh tranh và phát triển của tổ chức đào tạo. Các quyết định dựa trên dữ liệu số liệu và tri thức khai thác từ Data Mining giúp tổ chức đào tạo thích ứng nhanh chóng với thị trường đang biến đổi và đáp ứng mọi yêu cầu của học viên. Tóm lại, nghiên cứu Data Mining để phân tích dữ liệu quản lý đào tạo và ra quyết định không chỉ là một yêu cầu cấp thiết trong thời đại số hóa, mà còn là một công cụ quan trọng để tạo ra giá trị và sự phát triển bền vững cho các tổ chức đào tạo.

Khóa Luận Tốt Nghiệp TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN NGÀNH KỸ THUẬT DỮ LIỆU - - NGHIÊN CỨU DATA MINING ĐỂ PHÂN TÍCH DỮ LIỆU QUẢN LÝ ĐÀO TẠO VÀ RA QUYẾT ĐỊNH KHÓA LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN: THS NGUYỄN HỮU TRUNG LỜI CAM ĐOAN Chúng xin cam đoan rằng, khóa luận “Nghiên cứu data mining để phân tích liệu quản lý đào tạo định” cơng trình nghiên cứu hướng dẫn ThS.Nguyễn Hữu Trung, xuất phát từ nhu cầu thực tiễn nguyện vọng tìm hiểu thân Ngoại trừ kết tham khảo từ cơng trình khác ghi rõ khóa luận, nội dung trình bày luận văn kết nghiên cứu thực kết khóa luận chưa cơng bố trước hình thức LỜI CẢM ƠN Để có kết hôm nay, ghi nhớ công ơn thầy cơ, bạn bè, đồng nghiệp gia đình, người dạy bảo ủng hộ suốt q trình học tâp Trước hết, chúng tơi muốn gửi lời cảm ơn đến thầy cô giáo trường Đại học Sư Phạm Kỹ Thuật TP.HCM quan tâm tổ chức đạo trực tiếp giảng dạy Đặc biệt, xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn ThS Nguyễn Hữu Trung, người tận tình bảo góp ý mặt chun mơn cho em suốt q trình làm luận văn Trong trình làm luận văn, thân chúng tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học, chắn luận văn cịn nhiều thiếu sót Chúng tơi mong nhận nhận bảo thầy cô giáo góp ý bạn bè, thầy để luận văn hoàn thiện MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH MINH HOẠ DANH MỤC TỪ VIẾT TẮT PHẦN 1: MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu đề tài Nhiệm vụ đề tài Đối tượng mục tiêu nghiên cứu .2 4.1 Đối tượng nghiên cứu .2 4.2 Phạm vi nghiên cứu Phương pháp nghiên cứu PHẦN 2: NỘI DUNG .4 CHƯƠNG 1: DATA MINING 1.1 Khái niệm Data Mining .4 1.2 Phương pháp Data Mining 1.3 Lợi ích Data Mining CHƯƠNG 2: MÔ TẢ TẬP DỮ LIỆU .8 2.1 Nguồn liệu 2.2 Giới thiệu tập liệu 2.3 Mô tả chi tiết tập liệu CHƯƠNG 3: DECISION TREE 14 3.1 Khái niệm tổng qt mơ hình Decision Tree 14 3.2 Decision Tree (cây định) 15 3.3 Ưu điểm nhược điểm 17 3.4 Ứng dụng 18 CHƯƠNG 4: RANDOM FOREST 20 4.1 Khái niệm tổng qt mơ hình Random Forest .20 4.2 Ưu nhược điểm Random Forest .22 4.3 Random Forest (Rừng định ngẫu nhiên) 23 4.4 Ứng dụng Random Forest vào dự báo 27 4.5 Mục đích tập liệu mơ hình 30 CHƯƠNG 5: EXTREME GRADIENT BOOSTING 32 5.1 Khái niệm tổng qt mơ hình eXtreme Gradient Boosting (Xgboost) 32 5.2 Ưu điểm XGBoost 33 5.3 Nhược điểm XGBoost 34 5.4 Extreme Gradient Boosting (XGBoost) 34 5.5 Ứng dụng XGBoost 37 CHƯƠNG 6: CÀI ĐẶT DEMO VÀ THỰC NGHIỆM ĐÁNH GIÁ MƠ HÌNH 39 6.1 Mơi trường liệu thực nghiệm 39 6.2 Tiền xử lý liệu 39 6.3 Cài đặt chương trình 45 6.4 Nhận xét kết từ mô hình .46 PHẦN 3: KẾT LUẬN 52 Kết đạt .52 Hạn Chế 52 Hướng Phát Triển 52 TÀI LIỆU THAM KHẢO .53 DANH MỤC BẢNG BIỂU Bảng 2.1: Mô tả thuộc tính tập liệu 11 Bảng 2.2: Mô tả lớp thuộc tính tập liệu 13 Bảng 4.1: Sự khác biệt Decision Tree Random Forest [8] .26 Bảng 6.1: Thống kê tập liệu 41 DANH MỤC HÌNH MINH HOẠ Hình 1.1: Machine learning and data mining [1] Hình 1.2: Các bước Data Minning [3] Hình 3.1: Mơ hình Decision Tree [5] 14 Hình 3.2: Bài tốn phân lớp sử dụng decision tree [4] 16 Hình 4.1: Mơ hình Random Forest [6] 20 Hình 4.2: Mơ hình Ensemble [7] 24 Hình 4.3: Phương pháp Bagging [9] .25 Hình 4.4: Lỗi dự đốn tập training tập testing [10] 29 Hình 4.5: Lựa chọn mơ hình dựa tập Validation [10] 31 Hình 5.1: Mơ hình XGboost [9] 33 Hình 5.2: Quy trình hoạt động XGBoost [11] 36 Hình 6.1: Mối tương quan thuộc tính với biến mục tiêu .42 Hình 6.2: Số lượng biến mục tiêu theo phân loại 43 Hình 6.3: Tỷ lệ biến mục tiêu theo phân loại 44 Hình 6.4: Giao diện website 46 Hình 6.5: Kết dự đốn mơ hình 46 Hình 6.6: Các thuộc tính quan trọng mơ hình Decision Tree 47 Hình 6.7: Các thuộc tính quan trọng mơ hình Random Forest .48 Hình 6.8: Các thuộc tính quan trọng mơ hình eXtreme Gradient Boosting 48 Hình 6.9: Cây định mơ hình Decision Tree .50 Hình 6.10: Cây định mơ hình Random Forest 50 Hình 6.11: Cây định mơ hình eXtreme Gradient Boosting .51 DANH MỤC TỪ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết đầy đủ KNN K-Nearest Neighbors RMSE Root Mean Square Error MAE Mean Absolute Error FPGA Field Programmable Gate Array XGBoost Extreme Gradient Boosting KHÓA LUẬN TỐT NGHIỆP PHẦN 1: MỞ ĐẦU Tính cấp thiết đề tài Trong tình hình thực tế nay, việc quản lý liệu đào tạo thách thức lớn tổ chức đào tạo Họ phải đối mặt với lượng liệu lớn đa dạng, từ thơng tin học viên, khóa học, kết đào tạo, đánh giá, phản hồi từ học viên, nhiều yếu tố khác Tuy nhiên, đơn thu thập lưu trữ liệu không đủ để tạo giá trị thực Đây lúc nghiên cứu Data Mining vào phân tích liệu quản lý đào tạo trở nên cấp thiết Bằng cách áp dụng phương pháp cơng nghệ Data Mining, khai thác tri thức ẩn chưa khám phá từ liệu Nó giúp hiểu rõ học viên, xu hướng đào tạo, yêu cầu thị trường lao động, vấn đề khác liên quan đến quản lý đào tạo.Thông qua việc áp dụng kỹ thuật Data Mining phân tích cụm, phân loại, gợi ý, dự đốn, tạo thông tin quan trọng để đưa định Ví dụ, dựa phân tích liệu đào tạo, xác định khóa học phổ biến, đối tượng học viên tiềm năng, điều chỉnh chương trình đào tạo để đáp ứng nhu cầu thị trường Chúng ta dự đốn hiệu suất học tập học viên, phát mô hình học tập tốt nhất, cung cấp phản hồi cá nhân để tăng cường hiệu học tập Việc áp dụng Data Mining quản lý đào tạo không giúp tối ưu hóa quy trình quản lý nâng cao chất lượng đào tạo, mà đóng góp vào cạnh tranh phát triển tổ chức đào tạo Các định dựa liệu số liệu tri thức khai thác từ Data Mining giúp tổ chức đào tạo thích ứng nhanh chóng với thị trường biến đổi đáp ứng yêu cầu học viên Tóm lại, nghiên cứu Data Mining để phân tích liệu quản lý đào tạo định không yêu cầu cấp thiết thời đại số hóa, mà cịn công cụ quan trọng để tạo giá trị phát triển bền vững cho tổ chức đào tạo Mục tiêu đề tài ✓ Xây dựng mơ hình phân tích liệu quản lý đào tạo: Tiến hành thu thập tiền xử lý liệu quản lý đào tạo để xây dựng mơ hình phân tích liệu Áp dụng KHĨA LUẬN TỐT NGHIỆP Father's occupation 4424 7.82 4.86 1.00 5.00 8.00 10.00 46.00 Displaced 4424 0.55 0.50 0.00 0.00 1.00 1.00 1.00 needs 4424 0.01 0.11 0.00 0.00 0.00 0.00 1.00 Debtor 4424 0.11 0.32 0.00 0.00 0.00 0.00 1.00 date 4424 0.88 0.32 0.00 1.00 1.00 1.00 1.00 Gender 4424 0.35 0.48 0.00 0.00 0.00 1.00 1.00 Scholarship holder 4424 0.25 0.43 0.00 0.00 0.00 0.00 1.00 Age at enrollment 4424 23.27 7.59 17.00 19.00 20.00 25.00 70.00 International 4424 0.02 0.16 0.00 0.00 0.00 0.00 4424 0.71 2.36 0.00 0.00 0.00 0.00 20.00 4424 6.27 2.48 0.00 5.00 6.00 7.00 26.00 4424 8.30 4.18 0.00 6.00 8.00 10.00 45.00 4424 4.71 3.09 0.00 3.00 5.00 4424 10.64 4.84 0.00 11.00 12.29 13.40 18.88 4424 0.14 0.69 0.00 0.00 0.00 0.00 12.00 4424 0.54 1.92 0.00 0.00 0.00 0.00 19.00 4424 6.23 2.20 0.00 5.00 6.00 7.00 23.00 Educational special Tuition fees up to 1.00 Curricular units 1st sem (credited) Curricular units 1st sem (enrolled) Curricular units 1st sem (evaluations) Curricular units 1st sem (approved) 6.00 26.00 Curricular units 1st sem (grade) Curricular units 1st sem (without evaluations) Curricular units 2nd sem (credited) Curricular units 2nd sem (enrolled) 40 KHÓA LUẬN TỐT NGHIỆP Curricular units 2nd sem (evaluations) 4424 8.06 3.95 0.00 6.00 8.00 10.00 33.00 4424 4.44 3.01 0.00 2.00 5.00 4424 10.23 5.21 0.00 10.75 12.20 13.33 18.57 evaluations) 4424 0.15 0.75 0.00 0.00 Unemployment rate 4424 11.57 2.66 7.60 9.40 11.10 13.90 16.20 Inflation rate 4424 1.23 1.38 -0.80 0.30 1.40 2.60 3.70 GDP 4424 0.00 2.27 -4.06 -1.70 0.32 1.79 3.51 Target 4424 0.68 0.76 0.00 0.00 1.00 1.00 2.00 Curricular units 2nd sem (approved) 6.00 20.00 Curricular units 2nd sem (grade) Curricular units 2nd sem (without 0.00 0.00 12.00 Bảng 6.1: Thống kê tập liệu Chúng tơi nhận thấy khơng có chênh lệch giá trị đáng kể thuộc tính nên khơng cần tiến hành chuẩn hóa liệu 6.2.2 Mối tương quan thuộc tính với biến mục tiêu Khi hai biến có độ tương quan cao, nghĩa chúng có xu hướng thay đổi nhau, mơ hình gặp khó khăn việc phân biệt tác động biến lên biến mục tiêu Điều dẫn đến việc mơ hình xác định tác động riêng lẻ biến dẫn đến dự đốn khơng xác Ngồi ra, diện biến có độ tương quan cao dẫn đến tượng q khớp (overfitting) mơ hình Q khớp xảy mơ hình học tốt liệu huấn luyện, khơng thể tổng qt hố dự đốn tốt liệu Điều làm giảm khả dự đốn xác mơ hình liệu thực tế Bằng cách loại bỏ biến có độ tương quan cao với biến mục tiêu, giảm trùng lắp thông tin liệu đầu vào tạo mơ hình đơn giản Điều cải thiện khả diễn giải khả dự đốn mơ hình Bên cạnh 41 KHĨA LUẬN TỐT NGHIỆP đó, việc giảm số lượng biến giúp tiết kiệm thời gian tài ngun tính tốn huấn luyện triển khai mơ hình Hình 6.1: Mối tương quan thuộc tính với biến mục tiêu Chúng tơi nhận thấy tập liệu khơng có tương quan q đáng kể thuộc tính biến mục tiêu Vì chúng tơi khơng tiến hàng xem xét để loại bỏ thuộc tính có độ tương quan cao 42 KHÓA LUẬN TỐT NGHIỆP 6.2.3 Phân phối lớp biến mục tiêu Hình 6.2: Số lượng biến mục tiêu theo phân loại 43 KHĨA LUẬN TỐT NGHIỆP Hình 6.3: Tỷ lệ biến mục tiêu theo phân loại Qua hình ảnh cho thấy tình trạng khơng cân phân phối lớp biến mục tiêu tập liệu Vì cần phải sử dụng biện pháp cân biến mục tiêu mơ hình dự đốn bị ảnh hưởng tình trạng không cân phân phối lớp biến mục tiêu 6.2.4 Phân chia tập liệu Với tập liệu, chia tập liệu thành phần lớn Cụ thể chia 80 % cho tập train 20 % để sử dụng cho việc test 44 KHÓA LUẬN TỐT NGHIỆP Trong mơ hình dự đốn chúng tơi thực 5-fold cross validation để đánh giá mơ hình 6.3 Cài đặt chương trình 6.3.1 Cài đặt thư viện cần thiết import vào chương trình from sklearn.ensemble import RandomForestClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import GridSearchCV from xgboost import XGBClassifier from lightgbm import LGBMClassifier from sklearn.metrics import accuracy_score from joblib import dump, load import multiprocessing from sklearn.model_selection import train_test_split import xgboost as xgb import matplotlib.pyplot as plt from build_model import RandomForestModel, DecisionTreeModel, XGBoostModel, LightGBM_Model from sklearn.metrics import f1_score, accuracy_score from streamlit_option_menu import option_menu from sklearn.tree import plot_tree, export_text, export_graphviz import altair as alt from PIL import Image import base64 import io import graphviz import pandas as pd import numpy as np import seaborn as sns import streamlit as st 45 KHĨA LUẬN TỐT NGHIỆP 6.3.2 Triển khai chương trình Triển khai chương trình cách chạy câu lệnh với cú pháp : streamlit run main.py Sau chương trình triển khai hồn tất, ta xem kết trình duyệt: Hình 6.4: Giao diện website 6.4 Nhận xét kết từ mơ hình 6.4.1 Kết thực nghiệm Hình 4.5: Kết dự đốn mơ hình 46 KHÓA LUẬN TỐT NGHIỆP Với kết thực nghiệm thu qua q trình huấn luyện mơ hình cho thấy mơ hình Random Forest cho hiệu suất tốt với số F1-score 73.7% Accuracy 80.7% 6.4.2 Các thuộc tính quan trọng mơ hình Các thuộc tính quan trọng mơ hình dự đốn có ý nghĩa đặc biệt chúng đóng vai trị quan trọng việc ảnh hưởng đến kết dự đoán mơ hình Các thuộc tính cung cấp thơng tin tương quan tác động chúng đến khả sinh viên bỏ học thành công quản lý đào tạo Hình 6.6: Các thuộc tính quan trọng mơ hình Decision Tree 47 KHĨA LUẬN TỐT NGHIỆP Hình 6.7: Các thuộc tính quan trọng mơ hình Random Forest Hình 6.8: Các thuộc tính quan trọng mơ hình eXtreme Gradient Boosting 48 KHĨA LUẬN TỐT NGHIỆP 6.4.3 Cây định từ mơ hình Cây định giúp hiểu trình định mơ hình dự đốn cách rõ ràng dễ hiểu Bằng cách trực quan hóa cây, quan sát cách mơ hình đưa định dựa thuộc tính Mỗi nút đại diện cho thuộc tính nhánh kết nối giá trị thuộc tính Điều giúp nhìn thấy quy trình phân loại dự đoán dựa điều kiện luồng định Cây định cho phép xác định thuộc tính quan trọng yếu tố định Chúng giúp nhận biết thuộc tính có ảnh hưởng lớn đến kết dự đoán Bằng cách quan sát nút nhánh cây, hiểu rõ tác động vai trị thuộc tính định Một lợi ích khác định khả giải thích kết Bằng cách theo dõi đường từ gốc đến nhánh cuối cùng, giải thích lý mơ hình đưa định cụ thể thuộc tính đóng vai trị quan trọng việc dự đốn Điều giúp chứng minh giải thích định dựa mơ hình Cuối cùng, định sử dụng để tạo quy tắc phân loại dựa luật điều kiện học từ liệu Bằng cách sử dụng định, phân loại mẫu liệu dựa luồng định học từ mơ hình 49 KHĨA LUẬN TỐT NGHIỆP Hình 6.9: Cây định mơ hình Decision Tree Hình 6.10: Cây định mơ hình Random Forest 50 KHĨA LUẬN TỐT NGHIỆP Hình 6.11: Cây định mơ hình eXtreme Gradient Boosting 51 KHÓA LUẬN TỐT NGHIỆP PHẦN 3: KẾT LUẬN Kết đạt Các mơ hình Decision Tree, Random Forest Extreme Gradient Boosting có hiệu suất dự đốn tương đối tốt Các mơ hình dự đốn hỗ trợ quản lý đào tạo việc đưa định cải thiện trình học tập Tuy nhiên, cần kết hợp phân tích đánh giá từ người quản lý đào tạo Kết việc nghiên cứu đề tài mang ý nghĩa hệ thống quản lý đào tạo Hy vọng kết góp phần nâng cao hiệu suất đào tạo cho sinh viên Hạn Chế - Về mặt lý thuyết nắm mơ hình, chưa sâu vào việc tìm hiểu chi tiết mơ hình - Về giao diện xây dựng tính bản, đề tài sâu vào việc mơ hình dự đoán chứng khoán giao diện website nên tính thẩm mĩ chưa đáp ứng nhu cầu mong muốn - Chưa thực nghiệm mơ hình tập liệu lớn Hướng Phát Triển - Về lý thuyết cần tìm hiểu kỹ mơ hình dự báo - Về ứng dụng mơ hình cần cải tiến thêm nhiều trường hợp để thấy hiệu mơ hình đáp ứng nhu cầu hay chưa - Xây dựng website với giao diện dễ nhìn, dễ sử dụng cho người dùng 52 KHĨA LUẬN TỐT NGHIỆP PHẦN 4: TÀI LIỆU THAM KHẢO [1 Wikipedia, "Khai phá liệu," [Online] Available: ] https://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB%87 u [Accessed 10 04 2023] [2 UEH, "Data Minning," [Online] Available: https://insight.isb.edu.vn/data-mining] la-gi-cac-cong-cu-khai-pha-du-lieu/ [Accessed 10 03 2023] [3 T D Thanh, "Data Mining," 16 08 2022 [Online] Available: ] https://bkhost.vn/blog/data-mining/ [Accessed 10 03 2023] [4 Kaggle, "Predict students' dropout and academic success," [Online] Available: ] https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-ofstudent-retention [Accessed 01 03 2023] [5 M L c bản, "Decision Trees (1): Iterative Dichotomiser 3," 14 01 2018 [Online] ] Available: https://machinelearningcoban.com/2018/01/14/id3/ [Accessed 15 04 2023] [6 D Tree, "Wikipedia," [Online] Available: ] https://vi.wikipedia.org/wiki/C%C3%A2y_quy%E1%BA%BFt_%C4%91%E1%B B%8Bnh [Accessed 15 04 2023] [7 Wikipedia, "Random forest," [Online] Available: ] https://en.wikipedia.org/wiki/Random_forest [Accessed 20 04 2023] [8 S E R, "Understand Random Forest Algorithms With Examples," 17 06 2021 ] [Online] Available: 53 KHÓA LUẬN TỐT NGHIỆP https://www.analyticsvidhya.com/blog/2021/06/understanding-random-forest/ [Accessed 20 04 2023] [9 T Nguyễn, "Random Forest algorithm," [Online] Available: ] https://machinelearningcoban.com/tabml_book/ch_model/random_forest.html [Accessed 20 04 2023] [1 M l c ban, "Overfitting," 04 03 2017 [Online] Available: 0] https://machinelearningcoban.com/2017/03/04/overfitting/?fbclid=IwAR3IOALiU YvLf1xa8J4XW39amToMjheg_EbY4N7gRJ6QgAh_Bw9yJ1LSzL0 [Accessed 20 04 2023] [1 B T Tung, "Gradient Boosting - Tất tần tật thuật toán mạnh mẽ 1] Machine Learning," 28 05 2021 [Online] Available: https://viblo.asia/p/gradientboosting-tat-tan-tat-ve-thuat-toan-manh-me-nhat-trong-machine-learningYWOZrN7vZQ0 [Accessed 01 05 2023] [1 Wikipedia, "XGBoost," [Online] Available: 2] https://en.wikipedia.org/wiki/XGBoost [Accessed 01 05 2023] [1 N Verma, "XGBoost Algorithm Explained in Less Than Minutes," [Online] 3] Available: https://medium.com/@techynilesh/xgboost-algorithm-explained-in-lessthan-5-minutes-b561dcc1ccee [Accessed 01 05 2023] [1 NIXUS, "XG Boost in Machine Learning," [Online] Available: 4] https://nixustechnologies.com/xg-boost-in-machine-learning/ [Accessed 01 05 2023] 54

Ngày đăng: 02/11/2023, 20:49

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Machine learning and data mining [1] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 1.1 Machine learning and data mining [1] (Trang 13)
Hình 1.2: Các bước trong Data Minning [3] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 1.2 Các bước trong Data Minning [3] (Trang 14)
Bảng 2.1: Mô tả thuộc tính của tập dữ liệu - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Bảng 2.1 Mô tả thuộc tính của tập dữ liệu (Trang 20)
Bảng 2.2: Mô tả lớp thuộc tính trong tập dữ liệu - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Bảng 2.2 Mô tả lớp thuộc tính trong tập dữ liệu (Trang 22)
Hình 3.1: Mô hình Decision Tree [5] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 3.1 Mô hình Decision Tree [5] (Trang 23)
Hình 3.2: Bài toán phân lớp sử dụng decision tree. [5] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 3.2 Bài toán phân lớp sử dụng decision tree. [5] (Trang 25)
Hình 4.1: Mô hình Random Forest [7] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.1 Mô hình Random Forest [7] (Trang 29)
Hình 4.2: Mô hình Ensemble [8] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.2 Mô hình Ensemble [8] (Trang 33)
Hình 4.3: Phương pháp Bagging [9] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.3 Phương pháp Bagging [9] (Trang 34)
Bảng 4.1: Sự khác biệt giữa Decision Tree và Random Forest [9] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Bảng 4.1 Sự khác biệt giữa Decision Tree và Random Forest [9] (Trang 35)
Hình 4.4: Lỗi dự đoán trên tập training và tập testing [10] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.4 Lỗi dự đoán trên tập training và tập testing [10] (Trang 38)
Hình 4.5: Lựa chọn mô hình dựa trên tập Validation [10] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.5 Lựa chọn mô hình dựa trên tập Validation [10] (Trang 40)
Hình 5.1: Mô hình XGboost [11] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 5.1 Mô hình XGboost [11] (Trang 42)
Hình 5.2: Quy trình hoạt động của XGBoost [13] - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 5.2 Quy trình hoạt động của XGBoost [13] (Trang 45)
Bảng 6.1: Thống kê cơ bản tập dữ liệu - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Bảng 6.1 Thống kê cơ bản tập dữ liệu (Trang 50)
Hình 6.1: Mối tương quan giữa các thuộc tính với biến mục tiêu - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.1 Mối tương quan giữa các thuộc tính với biến mục tiêu (Trang 51)
Hình 6.2: Số lượng của biến mục tiêu theo phân loại - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.2 Số lượng của biến mục tiêu theo phân loại (Trang 52)
Hình 6.3: Tỷ lệ của biến mục tiêu theo phân loại - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.3 Tỷ lệ của biến mục tiêu theo phân loại (Trang 53)
Hình 4.5: Kết quả dự đoán của các mô hình - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 4.5 Kết quả dự đoán của các mô hình (Trang 55)
Hình 6.4: Giao diện website - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.4 Giao diện website (Trang 55)
Hình 6.6: Các thuộc tính quan trọng của mô hình Decision Tree - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.6 Các thuộc tính quan trọng của mô hình Decision Tree (Trang 56)
Hình 6.7: Các thuộc tính quan trọng của mô hình Random Forest - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.7 Các thuộc tính quan trọng của mô hình Random Forest (Trang 57)
Hình 6.8: Các thuộc tính quan trọng của mô hình eXtreme Gradient Boosting - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.8 Các thuộc tính quan trọng của mô hình eXtreme Gradient Boosting (Trang 57)
Hình 6.9: Cây quyết định trong mô hình Decision Tree - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.9 Cây quyết định trong mô hình Decision Tree (Trang 59)
Hình 6.11: Cây quyết định trong mô hình eXtreme Gradient Boosting - Nghiên cứu data mining để phân tích dữ liệu quản lý đào tạo và ra quyết định
Hình 6.11 Cây quyết định trong mô hình eXtreme Gradient Boosting (Trang 60)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w