(Tiểu luận) báo cáo chuyên đề tổng quan unsupervised learning

BÁO CÁO CHUYÊN ĐỀ h1 TEAM PRESENTATION Lê Thị Hồng Đào 1951052033 Trần Nguyễn Duy An 1951052006 h2 Võ Thị Thu Minh 1951052120 Nguyễn Văn Phúc 1951052157 Y TẾ GIÁO DỤC h Tổng quan Unsupervised Learning h Định nghĩa Unsupervised Learning nhóm thuật tốn hay phương pháp kỹ thuật cho phép máy tự học hỏi tìm mơ hình hay cấu trúc bên liệu cách tự động độc lập Bộ liệu cung cấp khơng có output cụ thể, hồn tồn khơng sử dụng label h Cách thức học mơ hình Dựa quan hệ tương tự, đồng xuất hiện, hay phép biến đổi ma trận h Một số phương pháp Unsupervised Learning  Clustering: Phân nhóm liệu thành nhóm dựa tương đồng khoảng cách điểm liệu từ tập liệu ban đầu  Dimensionality reduction: Giảm số chiều liệu để tạo biểu diễn liệu giữ tính chất quan trọng liệu ban đầu h Một số phương pháp Unsupervised Learning  Anomaly detection: Phát điểm liệu bất thường không tuân theo quy tắc hay đặc điểm chung tập liệu  Density estimation: Ước tính mật độ xác suất liệu  Association rule learning: Phương pháp tìm kiếm mối quan hệ tương quan điểm liệu h Một số thuật toán phổ biến  K-Means: Phân loại điểm liệu vào nhóm dựa khoảng cách chúng  Hierarchical clustering: Xây dựng phân cấp để phân loại điểm liệu  Density-based clustering algorithms: Các thuật toán dựa mật độ DBSCAN HDBSCAN sử dụng để phân cụm liệu dựa mật độ điểm liệu h Một số thuật toán phổ biến  t-SNE: Giảm số chiều liệu biểu diễn điểm liệu không gian hai chiều ba chiều để hình dung liệu  Principal Component Analysis (PCA): Giảm số chiều liệu cách tìm thành phần có trọng số cao tập liệu h 10 Giai đoạn - Tiền xử lý liệu: Trong trường hợp trường liệu thiếu, giá trị bị thiếu thay giá trị trung bình trường liệu Index Study habits Adaptation to university life Depression Anxiety count 670 670 670 670 mean 3.5731 0.6985 1.0940 0.2746 SD 0.9673 0.4784 0.3166 0.6975 0 25% 50% 1 75% 1 max 3 h 47 Giai đoạn - Tiền xử lý liệu: Chuẩn hóa liệu: Để đảm bảo trường liệu đánh giá thang đo, cần thực chuẩn hóa liệu phương pháp Data Scaling Chuẩn hoá biến đầu vào để đưa khoảng giá trị loại bỏ giá trị khuyết (missing values) h 48 Giai đoạn - Xử lý liệu:  Thuật toán HDBSCAN áp dụng để phát mật độ phân loại điểm liệu thành cụm dựa mật độ HDBSCAN chọn có khả xác định số lượng cụm cách tự động có hiệu suất tốt việc phát cụm với mật độ khác  Các đặc trưng dựa liệu sinh viên nhóm trích xuất cách sử dụng phương pháp trích xuất đặc trưng PCA h 49 Giai đoạn – Xác thực: Hệ số Silhouette, hệ số Calinski-Harabasz hệ số DaviesBouldin số thường sử dụng để đánh giá chất lượng thuật toán phân cụm liệu:  Hệ số Silhouette tính cách so sánh khoảng cách điểm nhóm với khoảng cách điểm nhóm khác gần Hệ số Silhouette dao động từ -1 đến 1, với giá trị gần cho thấy phân cụm tốt giá trị gần -1 cho thấy phân cụm xấu h 50 Giai đoạn – Xác thực:  Hệ số Calinski-Harabasz tính tốn tỷ lệ phương sai nhóm phương sai nhóm Khi hệ số lớn, tách biệt nhóm cao  Hệ số Davies-Bouldin đo lường khác biệt nhóm dựa khoảng cách điểm nhóm khoảng cách điểm nhóm khác Hệ số DaviesBouldin nhỏ tách biệt nhóm cao h 51 Giai đoạn – Xác thực: Bảng so sánh số liệu thuật toán Algorithm Silhouette Calinski-Harabasz Davies-Bouldin Number of Clusters Noise DBSCAN 0.4972 190.7099 0.9571 K-Means 0.5586 406.4509 0.8001 - HDBSCAN 0.6823 369.6459 0.6563 63 h 52 Giai đoạn – Xác định mức độ rủi ro bỏ học: h 53 Đánh giá hiệu h “ ▹ Độ xác ▹ Thời gian chạy ▹ Độ khả diễn giải h 55 Độ xác ▹ HDBSCAN tạo cụm liệu với độ phân chia tốt có khả phát điểm nhiễu (outliers), giúp tăng độ xác q trình phân loại mức độ rủi ro bỏ học sinh viên h 56 Thời gian chạy ▹ HDBSCAN xử lý tập liệu lớn, nhiên thời gian chạy phụ thuộc vào kích thước liệu độ phức tạp thuật toán h 57 Độ khả diễn giải ▹ HDBSCAN cung cấp cụm liệu độ tương đồng điểm liệu cụm, giúp người sử dụng dễ dàng giải thích kết phân loại h 58 Kết luận ▹ HDBSCAN có hiệu suất tốt so với thuật toán phân cụm khác linh hoạt độ xác cao ▹ Nó cho phép người dùng định mức độ tối thiểu độ dày cụm có khả xử lý nhiễu tốt hơn, giúp loại bỏ sinh viên không phù hợp trình phân cụm h 59 Trong báo “Density-Based Unsupervised Learning Algorithm to Categorize College Students into Dropout Risk Levels”, tác giả áp dụng thuật toán HDBSCAN để phân loại sinh viên vào nhóm có nguy bỏ học khác dựa biến đầu vào 60 Kết đánh giá hiệu thuật toán cho thấy rằng, thuật toán HDBSCAN cho kết phân loại xác so với số thuật toán phân loại khác K-means, DBSCAN h THANKS! 61 h

Định dạng
Số trang	61
Dung lượng	1,44 MB