Giới thiệu về phân lớp, phân lớp học giám sát, phân lớp học giám sát đến với chương này các bạn có thể nắm rõ các vấn đề mắc thắc cần giải quyết, một số bài tập ví dụ giúp các bạn thành thạo hơn với nội dung chương này. Mời các bạn tham khảo nhé!
BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG PHÂN LỚP PGS TS HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu phân lớp Phân lớp học giám sát Phân lớp học bán giám sát Bài toán phân lớp Đầu vào Tập liệu D = {di} Tập lớp C1, C2, …, Ck liệu d thuộc lớp Ci Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={d∈Dexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D Đầu Mô hình phân lớp: ánh xạ từ D sang C Sử dụng mơ hình d ∈ D \ Dexam : xác định lớp đối tượng d Phân lớp: Q trình hai pha Xây dựng mơ hình: Tìm mơ tả cho tập lớp có Pha 1: Dạy phân lớp Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={d∈Dexam: d∈Ci} Dexam gọi tập ví dụ mẫu Xây dựng ánh xạ (mơ hình) phân lớp trên: Dạy phân lớp Mơ hình: Luật phân lớp, định, cơng thức tốn học… Tách Dexam thành Dtrain (2/3) + Dtest (1/3) Dtrain Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mơ hình phân lớp (xác định tham số mơ hình) Dtest : đánh giá mơ hình phân lớp (các độ đo hiệu quả) Chọn mơ hình có chất lượng Pha 2: Sử dụng phân lớp d ∈ D \ Dexam : xác định lớp d Ví dụ phân lớp: Bài tốn cho vay B Tid Refund Marital Status Taxable Income Cheat No Single 75K No Yes Married 50K No No Single 75K No No Married 150K Yes No Single 40K No No Married 80K Yes No Single 75K No Yes Married 50K No Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes Phân lớp: Quá trình hai pha Phân lớp: Quá trình hai pha Các loại phân lớp Phân |C|=2: phân lớp nhị phân |C|>2: phân lớp đa lớp Phân lớp nhị phân/ đa lớp: lớp đơn nhãn/ đa nhãn: Đơn nhãn: tài liệu gán vào xác lớp Đa nhãn: tài liệu gán nhiều lớp Phân cấp: lớp cha/con lớp Các vấn đề đánh giá mơ hình – – – Các phương pháp đánh giá hiệu Câu hỏi: Làm để đánh giá hiệu mơ hình? Độ đo để đánh giá hiệu Câu hỏi: Làm để có ước tính đáng tin cậy? Phương pháp so sánh mơ hình Câu hỏi: Làm để so sánh hiệu tương đối mơ hình có tính cạnh tranh? Đánh giá phân lớp nhị phân – – – Theo liệu test Giá trị thực: P dương / N âm; Giá trị qua phân lớp: T đúng/F sai : gọi ma trận nhầm lẫn Sử dụng ký hiệu TP (true positives), TN (true negatives), FP (false positives), FN (false negatives) • • • - - TP: số ví dụ dương P mà thuật toán phân lớp cho giá trị T TN: số ví dụ âm N mà thuật tốn phân lớp cho giá trị T FP: số ví dụ dương P mà thuật toán phân lớp cho giá trị sai F FN: số ví dụ âm N mà thuật tốn phân lớp cho giá trị sai F Độ hồi tưởng ρ, độ xác π, độ đo F1 Fβ TP ρ= TP + FP TP π= TP + TN 10 Cơ sở học bán giám sát Biểu diễn liệu chưa mô tả hết ánh xạ gán nhãn liệu chẳng hạn, nghịch lý “hiệu nhau” biểu diễn văn Ánh xạ gán nhãn có liên quan mơ hình liệu (mơ hình / đặc trưng/ nhân / hàm tương tự) → mơ hình có theo tự nhiên giả thiết liệu tuân theo Hiệu lực học bán giám sát Dữ liệu chưa nhãn không luôn hiệu Nếu giả thiết mô hình khơng phù hợp → giảm hiệu Một số phương pháp cần điều kiện miền định: tránh miền có mật độ cao: Transductive SVM (máy hỗ trợ vector lan truyền) Information Regularization (quy tắc hóa thơng tin) mơ hình q trinh Gauxơ với nhiễu phân lớp không phương pháp dựa theo đồ thị với trọng số cạnh khoảng cách “Tồi” dùng phương pháp song lại “tốt” dùng phương pháp khác Phương pháp học bán giám sát Các phương pháp học bán giám sát điển hình EM với mơ hình trộn sinh Self-training Co-training TSVM Dựa đồ thị So sánh phương pháp Đòi hỏi giả thiết mơ hình mạnh Giả thiết mơ hình phù hợp cấu trúc liệu: khó kiểm nghiệm Một số định hướng lựa chọn Lớp ⇔ phân cụm tốt: dùng EM với mơ hình sinh trộn Đặc trưng phân thành hai phần riêng rẽ: co-training Nếu hai điểm tương tự hướng tới lớp: dựa đồ thị Đã sử dụng SVM mở rộng TSVM Khó nâng cấp học giám sát có: dùng self-traning … Phương pháp học bán giám sát Dùng liệu chưa gán nhãn Hoặc biến dạng thay đổi thứ tự giả thiết thu nhờ liệu có nhãn Mơ tả chung Giả thiết dạng p(y|x) cịn liệu chưa có nhãn p(x) Mơ hình sinh có tham số chung phân bố kết nối p(x, y) Mơ hình trộn với EM mở rộng thêm self-training Nhiều phương pháp phân biệt: TSVM, quy tắc hóa thơng tin, q trình Gauxơ, dựa theo đồ thị Có liệu không nhãn: nhận xác suất p(x) Phân biệt “học lan truyền” với “học bán giám sát” Đa dạng cách gọi Hạn chế toán phân lớp “Bán giám sát” dùng ví dụ có / khơng có nhãn, “học liệu nhãn/khơng nhãn, “học liệu phân lớp/có nhãn phận” Có lan truyền quy nạp Lan truyền để thu hẹp lại cho quy nạp: học liệu sẵn Quy nạp: liên quan tới liệu chưa có Mơ hình sinh: Thuật tốn EM Sơ Mơ hình sớm nhất, phát triển lâu Mơ hình có dạng p(x,y) = p(y)*p(x|y) Với số lượng nhiều liệu chưa nhãn cho P(x|y) mơ hình trộn đồng Miền tài liệu phân thành thành phần, Lý tưởng hóa tính "Đồng nhất": cần đối tượng có nhãn cho thành phần Tính đồng Là tính chất cần có mơ hình Cho họ phân bố {pβ} đồng θ1 ≠ θ2 pθ1 ≠ pθ2 hốn đối vị trí thành phần ⇒ tính khả tách phân bố tới thành phần Mơ hình sinh: Thuật tốn EM Tính xác thực mơ hình Giả thiết mơ hình trộn xác → liệu khơng nhãn làm tăng độ xác phân lớp Chú ý cấu trúc tốt mơ hình trộn: tiêu đề chia thành tiêu đề nên mơ hình hóa thành đa chiều thay cho đơn chiều Cực đại EM địa phương Miền áp dụng Khi mơ hình trộn xác Ký hiệu D: tập ví dụ có (có nhẵn /chưa có nhãn) DK: tập ví dụ có nhãn D (|DK|