Phân tích dữ liệu quản lý đào tạo bằng Data Mining

MỤC LỤC

NỘI DUNG

DATA MINING

Khái niệm Data Mining

Phương pháp Data Mining

➢ Classification (phân loại): Xây dựng mô hình để dự đoán lớp hoặc nhãn của đối tượng dữ liệu dựa trên các thuộc tính đã biết. ➢ Association rule mining (khai phá quy tắc liên kết): Tìm kiếm các mẫu và quy tắc tương quan giữa các mục tiêu trong dữ liệu.

Hình 1.2: Các bước trong Data Minning [3]
Hình 1.2: Các bước trong Data Minning [3]

Lợi ích Data Mining

➢ Regression (hồi quy): Xây dựng mô hình để dự đoán giá trị số lượng của biến phụ thuộc dựa trên các biến độc lập. ❖ Giáo dục và chương trình đào tạo: Data mining cũng có ứng dụng quan trọng trong lĩnh vực giáo dục như: dự đoán thành tích học tập, phân loại học sinh, đề xuất nội dung học, dự đoán việc bỏ học, … [3].

MÔ TẢ TẬP DỮ LIỆU

Nguồn dữ liệu

Giới thiệu tập dữ liệu

Mô tả chi tiết về tập dữ liệu

Mother's qualification Feature Discrete Trình độ học vấn của mẹ Father's qualification Feature Discrete Trình độ học vấn của cha Mother's occupation Feature Discrete Nghề nghiệp của mẹ Father's occupation Feature Discrete Nghề nghiệp của cha. Dữ liệu xã hội Mother’s qualification Numeric/discrete Father’s qualification Numeric/discrete Mother’s occupation Numeric/discrete Father’s occupation Numeric/discrete Educational special needs Numeric/binary.

Bảng 2.1: Mô tả thuộc tính của tập dữ liệu
Bảng 2.1: Mô tả thuộc tính của tập dữ liệu

DECISION TREE

    Trong trường hợp này, cây quyết định mô tả một cấu trúc cây, trong đó các nút lá đại diện cho các phân loại và các nhánh đại diện cho các kết hợp của các thuộc tính dẫn đến phân loại đó. Quá trình này được lặp lại đệ quy cho mỗi tập con, cho đến khi không thể tiếp tục chia tập con hoặc khi một phân loại đơn giản có thể được áp dụng cho tất cả các mẫu trong tập con. Dữ liệu được biểu diễn dưới dạng các bản ghi (x, y), trong đó x là các biến đầu vào và y là biến mục tiêu mà chúng ta quan tâm đến, phân loại hoặc tổng quát hóa.

    Một điểm đáng lưu ý của cây quyết định là nó có thể làm việc với các đặc trưng (trong tài liệu về cây quyết định, các đặc trưng thường được gọi là thuộc tính - attribute) dạng phân loại (categorical), thường là dạng rời rạc và không có thứ tự. • Dễ bị quá khớp (overfitting): Decision Tree có khả năng tạo ra cây quyết định phức tạp và quá khớp với dữ liệu huấn luyện, dẫn đến hiện tượng không tốt khi áp dụng cho dữ liệu mới. Dựa vào các thuộc tính như thu nhập, lịch sử tín dụng, số lần vay, v.v., Decision Tree có thể phân loại khách hàng thành các nhóm rủi ro khác nhau, từ đó giúp ngân hàng đưa ra quyết định về việc cấp hay từ chối khoản vay.

    - Hỗ trợ quyết định (Decision Support): Decision Tree có thể được sử dụng trong các hệ thống hỗ trợ quyết định để đưa ra các quyết định trong các lĩnh vực như kinh doanh, quản lý nguồn nhân lực, marketing, chương trình đào tạo,v.v.

    Hình 3.2: Bài toán phân lớp sử dụng decision tree. [5]
    Hình 3.2: Bài toán phân lớp sử dụng decision tree. [5]

    RANDOM FOREST

      Thuật toán đầu tiên cho rừng quyết định ngẫu nhiên đã được tạo ra vào năm 1995 bởi Tin Kam Ho bằng cách sử dụng phương pháp không gian ngẫu nhiên, một cách triển khai của phương pháp "phân loại ngẫu nhiên" được đề xuất bởi Eugene Kleinberg. Leo Breiman và Adele Cutler đã phát triển một phiên bản mở rộng của thuật toán bằng cách kết hợp ý tưởng "bagging" của Breiman và việc chọn ngẫu nhiên các đặc trưng, được giới thiệu trước đó bởi Ho và sau đó độc lập bởi Amit và Geman, để xây dựng một tập hợp các cây quyết định với sự biến thiên kiểm soát. Phát triển ban đầu của ý tưởng rừng quyết định ngẫu nhiên bị ảnh hưởng bởi công trình của Amit và Geman, người đã giới thiệu ý tưởng tìm kiếm trên một tập con ngẫu nhiên các quyết định có sẵn khi chia một nút trong quá trình xây dựng cây đơn lẻ.

      Ngoài ra, bài báo này kết hợp nhiều yếu tố, một số đã được biết trước và một số mới, tạo nên cơ sở của thực tiễn hiện đại của rừng quyết định ngẫu nhiên, bao gồm sử dụng lỗi ngoài túi làm ước lượng lỗi tổng quát và đo lường độ quan trọng của biến thông qua việc chế ngự. Mô hình được xem là chưa khớp (Underfiting) nếu nó chưa được phù hợp với tập dữ liệu huấn luyện và các dữ liệu mới khi dự đoán. Nguyên nhân ta có thể hiểu do mô hình của chúng ta chưa đáp ứng đủ độ phức tạp cần thiết để xử lý tổng quát mô hình. Nói chung cả hai hiện tượng trên đều có ảnh hưởng đến mô hình chúng ta xây dựng và dẫn đến việc mô hình dự đoán cho kết quả không chính xác. Hiện tượng trong hiện nay đa số mọi người khi đánh giá bằng mô hình học máy gặp phải đó là Overfiting,. nó thực sự là vấn đề quan trọng bởi vì nó cho ra kết quả thực khác biệt với việc chúng ta đánh giá độ chính xác của tổng thể. Chính vì điều đó để tránh xảy ra hiện tượng trên, ta có giải pháp là sử dụng hai kỹ thuật quan trọng trong việc đánh giá mô hình học máy là Validation và Cross-validation. b) Tập huấn luyện (Training dataset). Ví dụ khi sử dụng mô hình hồi quy tuyến tính (Linear Regresion), các điểm trong tập dữ liệu được sử dụng để tìm ra hàm số hay đường phù hợp nhất mô tả quan hệ giữa đầu ra và đầu vào của tập dữ liệu huấn luyện bằng cách sử dụng một số phương pháp tối ưu hoặc các thuật toán tối ưu gần đúng như gradient descent hay stochastic gradient descent.

      Trong thuật toán KNN, các điểm trong tập huấn luyện là những điểm có thể là hàng xóm của nhau (nghĩa là gần nhau) được học theo các phương pháp tham lam. Trong thực tế, tập dữ liệu huấn luyện thương bao gồm các cặp vector dầu vào và đầu ra tương ứng, trong đó vector đầu ra thường được gọi là nhãn. Các thuật toán nói chung sẽ tìm ra cách tối ưu sai số dự đoán trên tập huấn luyện đến mức tốt nhất. c) Tập kiểm thử (Testing dataset).

      Hình 4.2: Mô hình Ensemble [8]
      Hình 4.2: Mô hình Ensemble [8]

      EXTREME GRADIENT BOOSTING

        ✓ Một sự thu hẹp tỷ lệ của các nút lá: XGBoost áp dụng một quá trình gọi là thu hẹp tỷ lệ (shrinkage) để giảm kích thước của các nút lá, từ đó cải thiện khả năng tổng quát hóa của mô hình. ✓ Tham số ngẫu nhiên bổ sung: XGBoost cho phép sử dụng thêm các tham số ngẫu nhiên để tạo ra sự đa dạng trong quá trình xây dựng cây quyết định, giúp tăng tính ngẫu nhiên và khả năng tổng quát của mô hình. ✓ Triển khai trờn cỏc hệ thống đơn lẻ, phõn tỏn và tớnh toỏn ngoài lừi: XGBoost cú thể được triển khai trờn cỏc hệ thống đơn lẻ, phõn tỏn và tớnh toỏn ngoài lừi, giỳp tăng tốc độ tính toán và xử lý dữ liệu lớn.

        ✓ Tăng cường cấu trúc cây song song với độ thưa thớt: XGBoost có thể tăng cường cấu trúc cây quyết định song song với độ thưa thớt, giúp tăng tốc độ tính toán và giảm bộ nhớ sử dụng. ✓ Cấu trúc khối có thể lưu trong bộ nhớ cache hiệu quả: XGBoost sử dụng cấu trúc khối để lưu trữ cây quyết định trong bộ nhớ cache, giúp tăng tốc quá trình huấn luyện và dự đoán. Những tính năng này khiến XGBoost trở thành một thuật toán mạnh mẽ và linh hoạt, có khả năng xử lý dữ liệu lớn và đạt được độ chính xác cao trong các bài toán phân loại và hồi quy.

        • Tính toán đạo hàm và đạo hàm bậc hai: Tiếp theo, XGBoost tính toán đạo hàm (gradient) và đạo hàm bậc hai (hessian) của hàm mất mát (loss function) đối với các điểm dữ liệu trong tập huấn luyện.

        Hình 5.1: Mô hình XGboost [11]
        Hình 5.1: Mô hình XGboost [11]

        CÀI ĐẶT DEMO VÀ THỰC NGHIỆM ĐÁNH GIÁ MÔ HÌNH

          Khi hai biến có một độ tương quan cao, nghĩa là chúng có xu hướng thay đổi cùng nhau, mô hình có thể gặp khó khăn trong việc phân biệt tác động của từng biến lên biến mục tiêu. Bằng cách loại bỏ các biến có độ tương quan cao với biến mục tiêu, chúng ta giảm đi sự trùng lắp thông tin trong dữ liệu đầu vào và tạo ra một mô hình đơn giản hơn. Vì vậy cần phải sử dụng các biện pháp cân bằng biến mục tiêu đối với những mô hình dự đoán bị ảnh hưởng bởi tình trạng không cân bằng phân phối lớp trong biến mục tiêu.

          Với kết quả thực nghiệm thu được qua quá trình huấn luyện mô hình cho thấy mô hình Random Forest cho hiệu suất tốt nhất với chỉ số F1-score là 73.7% và Accuracy là 80.7%. Các thuộc tính quan trọng trong mô hình dự đoán có ý nghĩa đặc biệt vì chúng đóng vai trò quan trọng trong việc ảnh hưởng đến kết quả dự đoán của mô hình. Các thuộc tính này cung cấp thông tin về sự tương quan và tác động của chúng đến khả năng sinh viên bỏ học hoặc thành công trong quản lý đào tạo.

          Bằng cách quan sát các nút và nhánh của cây, chúng ta có thể hiểu rừ hơn về tỏc động và vai trũ của từng thuộc tớnh trong quyết định. Bằng cỏch theo dừi đường đi từ gốc cây đến các nhánh cuối cùng, chúng ta có thể giải thích lý do mô hình đưa ra một quyết định cụ thể và những thuộc tính nào đóng vai trò quan trọng trong việc dự đoán. Cuối cùng, cây quyết định có thể được sử dụng để tạo ra quy tắc và phân loại dựa trên các luật và điều kiện đã được học từ dữ liệu.

          Bảng 6.1: Thống kê cơ bản tập dữ liệu
          Bảng 6.1: Thống kê cơ bản tập dữ liệu