Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,39 MB
Nội dung
BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG PHÂN LỚP Charu C Aggarwal Data Classification: Algorithms CRC Press, 2014 Nội dung Giới thiệu phân lớp Phân lớp học giám sát Phân lớp học bán giám sát Học máy giám sát tốn tối ưu hóa Bài toán học máy giám sát Cho miền liệu I tập nhãn O (hữu hạn) Tồn ánh xạ f: I O, f chưa biết Input Cho “tập ví dụ mẫu” IL: (ILIIL), f xác định IL, i IL: f(i)=o biết Output Tìm ánh xạ tồn f* xấp xỉ tốt f Bộ phân lớp Ví dụ trao đổi Miền liệu I = {nhận xét sản phẩm A}, O = {khen, chê} Ánh xạ f: I O, f chưa biết Input: Tập ví dụ mẫu IL gồm đánh giá có nhãn khen/chê Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho nhận xét Xấp xỉ tốt nhất? Biết f phận (tập IL): f|IL Thách thức Tập G vô hạn ánh xạ, gG, g: IO Chưa biết f toàn Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f f|IL toàn “hiểu biết” f vừa để tìm f* vừa để kiểm tra tính “tốt nhất” f* Xấp xỉ tốt Giả thiết: IL “đại diện” cho I; “mọi đặc trưng I” tìm từ IL “đánh giá” cần độc lập với “xây dựng” IL: vừa tìm f* vừa đánh giá f* Chia ngẫu nhiên IL = ITrain + ITest ITrain xây dựng f* ITest đánh giá f* Một số độ đo “tốt” liên quan đến tính “tốt nhất” Học máy khơng giám sát tối ưu hóa Bài tốn học khơng giám sát Cho I tập liệu I={}, Cho tập G tập ánh xạ g: IZ với Z tập số nguyên Cho độ đo “tốt” tập ánh xạ G Tìm hàm f: IZ đạt độ đo “tốt nhất” tập G Trường hợp đơn giản: G = {g phân hoạch I: g={I1,I2,…, Ig} I=Ij}} tìm f phân hoạch tốt Bài toán phân lớp Đầu vào Tập liệu D = {di} Tập lớp C1, C2, …, Ck liệu d thuộc lớp Ci Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={dDexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D D gồm m liệu di thuộc không gian n chiều Đầu Mơ hình phân lớp: ánh xạ từ D sang C Sử dụng mơ hình d D \ Dexam : xác định lớp đối tượng d Phân lớp: Quá trình hai pha Xây dựng mơ hình: Tìm mơ tả cho tập lớp có Pha 1: Dạy phân lớp Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={dDexam: dCi} Dexam gọi tập ví dụ mẫu Xây dựng ánh xạ (mơ hình) phân lớp trên: Dạy phân lớp Mơ hình: Luật phân lớp, định, cơng thức tốn học… Tách Dexam thành Dtrain (2/3) + Dtest (1/3) Dtrain Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mơ hình phân lớp (xác định tham số mơ hình) Dtest : đánh giá mơ hình phân lớp (các độ đo hiệu quả) Chọn mơ hình có chất lượng Pha 2: Sử dụng mơ hình (bộ phân lớp) d D \ Dexam : xác định lớp d Ví dụ phân lớp: Bài toán cho vay Tid Refund Marital Status Taxable Income Cheat No Single 75K No Yes Married 50K No No Single 75K No No Married 150K Yes No Single 40K No No Married 80K Yes No Single 75K No Yes Married 50K No Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes Ngân hàng cần cho vay: trả hạn, hôn nhân, thu nhập “Lớp” liên quan tới cheat (gian lận): hai lớp YES/NO Phân lớp: Quá trình hai pha Các loại phân lớp – Phân lớp nhị phân/đa lớp Nhị phân: hai lớp (|C| = 2) Đa lớp: số lượng lớp > (|C| > 2) – – – Phân lớp đơn nhãn/đa nhãn/phân cấp Đơn nhãn: Một đối tượng thuộc lớp Đa nhãn: Một đối tượng thuộc nhiều lớp Phân cấp: Lớp lớp 10 Sơ học bán giám sát Học Học giám sát: tập ví dụ học gán nhãn (ví dụ gắn nhãn) tập cặp (tập thuộc tính, nhãn) ví dụ gắn nhãn bán giám sát ? Xiaojin Zhu [1] FQA Thủ cơng: khó khăn chuyên gia tốn thời gian, tiền Tự động: tự động sinh corpus song hiệu chưa cao ví dụ chưa gắn nhãn Dễ thu thập nhiều xử lý tiếng nói: nói nhiều, xây dựng tài ngun địi hỏi cơng phu xử lý văn bản: trang web vô lớn, ngày mở rộng Có sẵn có điều kiện tiến hành tự động gắn nhãn Học bán giám sát: dùng ví dụ có nhãn ví dụ chưa gắn nhãn Tạo phân lớp tốt so với dùng học giám sát: học bán giám sát đòi hỏi điều kiện dung lượng khối lượng Cơ sở học bán giám sát Biểu diễn liệu chưa mô tả hết ánh xạ gán nhãn liệu chẳng hạn, nghịch lý “hiệu nhau” biểu diễn văn Ánh xạ gán nhãn có liên quan mơ hình liệu (mơ hình / đặc trưng/ nhân / hàm tương tự) mơ hình có theo tự nhiên giả thiết liệu tuân theo Hiệu lực học bán giám sát Dữ liệu chưa nhãn không ln hiệu Nếu giả thiết mơ hình không phù hợp giảm hiệu Một số phương pháp cần điều kiện miền định: tránh miền có mật độ cao: Transductive SVM (máy hỗ trợ vector lan truyền) Information Regularization (quy tắc hóa thơng tin) mơ hình q trinh Gauxơ với nhiễu phân lớp không phương pháp dựa theo đồ thị với trọng số cạnh khoảng cách “Tồi” dùng phương pháp song lại “tốt” dùng phương pháp khác Phương pháp học bán giám sát Các phương pháp học bán giám sát điển hình EM với mơ hình trộn sinh Self-training Co-training TSVM Dựa đồ thị So sánh phương pháp Đòi hỏi giả thiết mơ hình mạnh Giả thiết mơ hình phù hợp cấu trúc liệu: khó kiểm nghiệm Một số định hướng lựa chọn Lớp phân cụm tốt: dùng EM với mơ hình sinh trộn Đặc trưng phân thành hai phần riêng rẽ: co-training Nếu hai điểm tương tự hướng tới lớp: dựa đồ thị Đã sử dụng SVM mở rộng TSVM Khó nâng cấp học giám sát có: dùng self-traning … Phương pháp học bán giám sát Dùng liệu chưa gán nhãn Hoặc biến dạng thay đổi thứ tự giả thiết thu nhờ liệu có nhãn Mơ tả chung Giả thiết dạng p(y|x) liệu chưa có nhãn p(x) Mơ hình sinh có tham số chung phân bố kết nối p(x, y) Mơ hình trộn với EM mở rộng thêm self-training Nhiều phương pháp phân biệt: TSVM, quy tắc hóa thơng tin, q trình Gauxơ, dựa theo đồ thị Có liệu khơng nhãn: nhận xác suất p(x) Phân biệt “học lan truyền” với “học bán giám sát” Đa dạng cách gọi Hạn chế toán phân lớp “Bán giám sát” dùng ví dụ có / khơng có nhãn, “học liệu nhãn/khơng nhãn, “học liệu phân lớp/có nhãn phận” Có lan truyền quy nạp Lan truyền để thu hẹp lại cho quy nạp: học liệu sẵn Quy nạp: liên quan tới liệu chưa có Mơ hình sinh: Thuật tốn EM Sơ Mơ hình sớm nhất, phát triển lâu Mơ hình có dạng p(x,y) = p(y)*p(x|y) Với số lượng nhiều liệu chưa nhãn cho P(x|y) mô hình trộn đồng Miền tài liệu phân thành thành phần, Lý tưởng hóa tính "Đồng nhất": cần đối tượng có nhãn cho thành phần Tính đồng Là tính chất cần có mơ hình Cho họ phân bố {p} đồng 1 2 p1 p2 hốn đối vị trí thành phần tính khả tách phân bố tới thành phần Mơ hình sinh: Thuật tốn EM Tính xác thực mơ hình Giả thiết mơ hình trộn xác liệu khơng nhãn làm tăng độ xác phân lớp Chú ý cấu trúc tốt mơ hình trộn: tiêu đề chia thành tiêu đề nên mơ hình hóa thành đa chiều thay cho đơn chiều Cực đại EM địa phương Miền áp dụng Khi mô hình trộn xác Ký hiệu D: tập ví dụ có (có nhẵn /chưa có nhãn) DK: tập ví dụ có nhãn D (|DK|