1. Trang chủ
  2. » Tất cả

Bài giảng nhập môn khai phá dữ liệu chương 5 pgs ts hà quang thụy

20 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 5 PHÂN LỚP 1 Charu C Aggarwal Data Classification Algorithms CRC Press, 2014 PGS TS Hà Quang Thụy HÀ NỘI, 08 2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA H[.]

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG PHÂN LỚP PGS TS Hà Quang Thụy HÀ NỘI, 08-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ Charu C Aggarwal Data Classification: Algorithms CRC Press, 2014 Nội dung Giới thiệu phân lớp Phân lớp học giám sát Phân lớp học bán giám sát Phân lớp: Một vài tốn ví dụ ⚫ Bài toán phân lớp kết xét nghiệm ▪ ▪ ▪ ▪ Miền liệu I = {phiếu xét nghiệm}, Biến mục tiêu “tập hợp lớp” O = {dương tinh, âm tính} Ánh xạ f: I → O, f chưa biết Input: Tập ví dụ mẫu IL gồm phiếu xét nghiệm có nhãn dương tình/âm tính ▪ Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho phiếu xét nghiệm ⚫ Bài toán phân lớp cam kết khách hàng ▪ Miền liệu: Tập thông tin mua hàng khách hàng RFM ▪ Mục tiêu “tập hợp lớp” O = {Trung thành cao, Trung thành thấp, Bình thường} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm khách hàng với RFM nhãn tương ứng ▪ Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho khách hàng Phân lớp: Một vài tốn ví dụ ⚫ Bài tốn phân lớp quan điểm ▪ ▪ ▪ ▪ ▪ ⚫ Miền liệu I = {nhận xét sản phẩm A}, Mục tiêu “tập hợp lớp” O = {khen, chê} Ánh xạ f: I → O, f chưa biết Input: Tập ví dụ mẫu IL gồm đánh giá có nhãn khen/chê Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho nhận xét Bài toán phân lớp trang web ▪ Miền liệu: Tập trang web miền lính vực quan tâm ▪ Mục tiêu “tập hợp lớp” O = {Kinh tế, Thế giới, Thể thao, Giáo dục, v.v.} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm trang web có nhãn thuộc O ▪ Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho trang web tải Các mức phân tích kinh doanh Tối ưu hóa thơng tin Phân tích khuyến nghị Làm xảy lần nữa? Giá trị kinh doanh Phân tích dự báoKhi xảy ra? PHÂN LỚP Phân tích chẩn đốnVì điều xảy ra? KHAI PHÁ LUẬT KẾT HỢP Phân tích Điều xảy ra? mơ tả Thông tin PHÂN CỤM - Hiểu sâu sắc thị trường khách hàng, - Hiểu vận hành nội nhân viên, - Hiểu giá trị liệu Học máy giám sát  tốn tối ưu hóa ⚫ ⚫ Bốn ví dụ sử dụng học máy giám sát Bài toán học máy giám sát ▪ Cho miền liệu I tập nhãn O (hữu hạn) ▪ Tồn ánh xạ f: I → O, f chưa biết Input ▪ Cho “tập ví dụ mẫu” IL: (ILIIL), f xác định IL, i IL: f(i)=o biết Output ▪ Tìm ánh xạ toàn f* xấp xỉ tốt f Bộ phân lớp ⚫ Ví dụ trao đổi ▪ ▪ ▪ ▪ Miền liệu I = {nhận xét sản phẩm A}, O = {khen, chê} Ánh xạ f: I → O, f chưa biết Input: Tập ví dụ mẫu IL gồm đánh giá có nhãn khen/chê Output: Ánh xạ xấp xỉ tốt f* để xây dựng chương trình tự động gán nhãn cho nhận xét Xấp xỉ tốt nhất? ⚫ Biết f phận (tập IL): f|IL ▪ Thách thức ❖ Tập G vô hạn ánh xạ, gG, g: I→O ❖ Chưa biết f toàn ▪ Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f ▪ f|IL toàn “hiểu biết” f ❖ vừa để tìm f* ❖ vừa để kiểm tra tính “tốt nhất” f* ⚫ Xấp xỉ tốt ▪ Giả thiết: IL “đại diện” cho I; “mọi đặc trưng I” tìm từ IL ▪ “đánh giá” cần độc lập với “xây dựng” ▪ IL: vừa tìm f* vừa đánh giá f* Chia ngẫu nhiên IL = ITrain + ITest ITrain xây dựng f* ITest đánh giá f* ▪ Một số độ đo “tốt” liên quan đến tính “tốt nhất” Bài tốn phân lớp ⚫ Đầu vào ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ Đầu ⚫ ⚫ Tập liệu D = {di} Tập lớp C1, C2, …, Ck liệu d thuộc lớp Ci Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={dDexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D D gồm m liệu di thuộc khơng gian n chiều Mơ hình phân lớp: ánh xạ từ D sang C Sử dụng mơ hình ⚫ d  D \ Dexam : xác định lớp đối tượng d Phân lớp: Quá trình hai pha ⚫ Xây dựng mơ hình: Tìm mơ tả cho tập lớp có ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ Pha 1: Dạy phân lớp ⚫ ⚫ ⚫ ⚫ ⚫ Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={dDexam: dCi} Dexam gọi tập ví dụ mẫu Xây dựng ánh xạ (mơ hình) phân lớp trên: Dạy phân lớp Mơ hình: Luật phân lớp, định, cơng thức tốn học… Tách Dexam thành Dtrain (2/3) + Dtest (1/3) Dtrain Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mơ hình phân lớp (xác định tham số mơ hình) Dtest : đánh giá mơ hình phân lớp (các độ đo hiệu quả) Chọn mơ hình có chất lượng Pha 2: Sử dụng mơ hình (bộ phân lớp) ⚫ d  D \ Dexam : xác định lớp d Ví dụ phân lớp: Bài toán cho vay Tid Refund Marital Status Taxable Income Cheat No Single 75K No Yes Married 50K No No Single 75K No No Married 150K Yes No Single 40K No No Married 80K Yes No Single 75K No Yes Married 50K No Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes Ngân hàng cần cho vay: trả hạn, hôn nhân, thu nhập 10 “Lớp” liên quan tới cheat (gian lận): hai lớp YES/NO Phân lớp: Quá trình hai pha 11 Các loại phân lớp – Phân lớp nhị phân/đa lớp Nhị phân: hai lớp Đa lớp: số lượng lớp > – – – (|C| = 2) (|C| > 2) Phân lớp đơn nhãn/đa nhãn/phân cấp Đơn nhãn: Một đối tượng thuộc lớp Đa nhãn: Một đối tượng thuộc nhiều lớp Phân cấp: Lớp lớp 12 Đánh giá mô hình phân lớp – Phương pháp đánh giá hiệu Câu hỏi: Làm để đánh giá hiệu mơ hình? Khách quan – Độ đo đánh giá hiệu Câu hỏi: Làm để có ước tính đáng tin cậy? Sử dụng độ đo Nhiều độ đo: phổ biến – Phương pháp so sánh mơ hình Câu hỏi: Làm để so sánh hiệu tương đối mơ hình có tính cạnh tranh? Cùng bộ liệu mẫu, cách đánh giá (bộ độ đo, kịch bản, v.v.) 13 Đánh giá phân lớp nhị phân – – – Theo liệu test Giá trị thực: P dương / N âm; Giá trị qua phân lớp: T đúng/F sai : gọi ma trận nhầm lẫn Sử dụng ký hiệu TP (true positives), TN (true negatives), FP (false positives), FN (false negatives) • • • - - TP: số ví dụ dương P mà thuật tốn phân (T) cho dương P TN: số ví dụ âm N mà thuật toán phân (T) cho âm N FN: số ví dụ dương P mà thuật tốn phân sai (F) cho âm N FP: số ví dụ âm N mà thuật toán phân sai (F) cho dương P Độ hồi tưởng , độ xác , độ đo F1 F = TP TP + FN = TP TP + FP Đọc thêm: https://www.kdnuggets.com/2020/09/performance-machinelearning-model.html : Các đại lượng ROC, AUC R2 https://twitter.com/kdnuggets/status/1301559348993437704 14 Đánh giá phân lớp nhị phân: minh họa R tập ví dụ kiểm thử phân lớp gán nhãn dương, L tập vị dụ kiểm thử thực tế có nhãn dương 15 Đánh giá phân lớp nhị phân – – Phương án khác đánh giá mơ hình nhị phân theo độ xác (accuracy) hệ số lỗi (Error rate) Ma trận nhầm lẫn Lớp dự báo Lớp = Lớp = Lớp thực Lớp = Lớp = f11 f01 f10 f00 16 So sánh hai phương án – Tập test có 9990 ví dụ lớp 10 ví dụ lớp Kiểm thử: mơ hình dự đốn 9999 ví dụ lớp ví dụ lớp TP=1 FN = TN=9990 FP= – Theo phương án (recall, precision) có = 1/10=0.1; =1/1=1; f1 = 2*0.1/(0.1+1.0)= 0.18 – Theo phương án (accurary, error rate) có accurary=0.9991; error rate = 9/10000 = 0.0009 Được coi xác ! – f1 thể việc đánh giá nhạy cảm với giá liệu 17 Đánh giá phân lớp đa lớp - Bài tốn ban đầu: C gồm có k lớp – Đối với lớp Ci , cho thực thuật toán với liệu thuộc Dtest nhận đại lượng TPi, TFi, FPi, FNi (như bảng đây) Giá trị thực Lớp Ci Giá trị qua phân lớp đa lớp Thuộc lớp Ci Không thuộc lớp Ci Thuộc lớp Ci Không thuộc lớp Ci TPi FPi FNi TNi 18 Đánh giá phân lớp đa lớp ⚫ Tương tự phân lớp hai lớp (nhị phân) ⚫ Độ xác Pri lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ thuật toán phân lớp vào lớp Ci : Pri = ⚫ TPi TPi + FPi Độ hồi tưởng Rei lớp Ci tỷ lệ số ví dụ dương thuật toán phân lớp cho giá trị tổng số ví dụ dương thực thuộc lớp Ci: TPi Re i = TPi + FN i 19 Đánh giá phân lớp đa lớp - Các giá trị i i : độ hồi phục độ xác lớp Ci Đánh giá theo độ đo - trung bình mịn (micro – average, ưa chuộng)   - trung bình thơ (macro- average) M M    M = K K  c =1 c  cK=1TPc = K  c =1 (TPc + FN c ) M K =  c K c =1 cK=1TPc  = K c =1 (TPc + FN c )  20 ... xây dựng chương trình tự động gán nhãn cho phiếu xét nghiệm ⚫ Bài toán phân lớp cam kết khách hàng ▪ Miền liệu: Tập thông tin mua hàng khách hàng RFM ▪ Mục tiêu “tập hợp lớp” O = {Trung thành cao,... lớp: Bài toán cho vay Tid Refund Marital Status Taxable Income Cheat No Single 75K No Yes Married 50 K No No Single 75K No No Married 150 K Yes No Single 40K No No Married 80K Yes No Single 75K No... No Yes Married 50 K No Yes Married 50 K No 10 No Married 150 K Yes 11 No Single 40K No 12 No Married 150 K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes Ngân hàng cần cho vay:

Ngày đăng: 27/02/2023, 07:58