Phân lớp dữ liệu trong khai phá dữ liệu , là dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu. Quá trình gồm hai bước: Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier) bằng việc phân tíchhọc tập huấn luyện Bước phân lớp (classification): phân lớp dữ liệuđối tượng mới nếu độ chính xác của bộ phân lớp được đánh giá là có thể chấp nhận được (acceptable)
KHAI PHÁ DỮ LIỆU (DATA MINING) Đặng Xuân Thọ Trường Đại học Sư phạm Hà Nội Support Full name: Đặng Xuân Thọ Mobile: 091.2629.383 Email: thodx@hnue.edu.vn Website: http://fit.hnue.edu.vn/~thodx/ Khai phá liệu - ĐHSPHN Nội dung Chương Giới thiệu khai phá liệu Chương Dữ liệu tiền xử lý liệu Chương Phân lớp liệu Chương Khai phá luật kết hợp Chương Phân cụm Khai phá liệu - ĐHSPHN Phân lớp Khai phá liệu - ĐHSPHN Tình Yes Marital Status Single No Married No Single Yes Tid Refund Taxable Evade Income 125K No 100K No 70K No Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes Khai phá liệu - ĐHSPHN Ông A (Tid = 11) có khả trốn thuế??? Tình Khóa MãSV MônHọc1 MônHọc2 … TốtNghiệp 2012 612311 9.0 8.5 … Có 2012 612312 6.5 8.0 … Có 2012 612313 4.0 2.5 … Không 2012 612314 5.5 3.5 … Không 2012 612315 5.0 5.5 … Có … … … … … … 2013 632311 7.0 6.0 … Có (80%) 2014 632312 9.5 7.5 … Có (90%) 2015 642311 5.5 4.5 … Không (45%) 2015 642314 2.0 3.0 … Không (97%) … … … … … Khai phá liệu - ĐHSPHN … Xác định khả tốt nghiệp sinh viên tại? Tổng quan phân lớp liệu Khai phá liệu - ĐHSPHN Phân lớp liệu (classification) Là dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đoán xu hướng liệu Quá trình gồm hai bước: Bước học (giai đoạn huấn luyện): xây dựng phân lớp (classifier) việc phân tích/học tập huấn luyện Bước phân lớp (classification): phân lớp liệu/đối tượng độ xác phân lớp đánh giá chấp nhận (acceptable) Khai phá liệu - ĐHSPHN Tổng quan phân lớp liệu Tổng quan phân lớp liệu 10 Các thuật toán phân lớp liệu Phân Phân Phân Phân Phân Phân Phân Phân … lớp với định (decision tree) lớp với Naïve Bayesian lớp với k phần tử gần (k-nearest neighbor) lớp với máy vector hỗ trợ (SVM) lớp với mạng neural (neural network) lớp dựa tiến hoá gen (genetic algorithms) lớp với lý thuyết tập thô, tập mờ (rough sets) lớp với lý thuyết tập mờ (fuzzy sets) Khai phá liệu - ĐHSPHN Phân lớp Naïve Bayes – ví dụ 39 V1 V2 Class A1 Y A2 0 Y A3 N A4 N A5 Y A6 1 ??? P(Y) = 3/5; P(N) = 2/5 P(V1 = | Y) = 1/3; P(V1 = | N) = 1/2; P(V2 = | Y) = 1/3; P(V2 = | N) = 1/2; P(A6 | Y) = P(V1 = | Y)* P(V2 = | Y) = 1/9 P(A6 | N) = P(V1 = | N)* P(V2 = | N) = ¼ P(Y | A6) = P(Y) * P(A6 | Y) = 1/15 P(N | A6) = P(N) * P(A6 | N) = 1/10 Khai phá liệu - ĐHSPHN Ví dụ 40 Ngày Mùa Gió Mưa Lớp Thường Xuân Không Không Đúng Thường Đông Không Phùn Đúng Thường Đông Không Phùn Đúng Thường Đông Lớn Nặng hạt Trễ Thứ bảy Hạ Vừa Không Đúng Thường Thu Vừa Không Rất trễ Lễ Hạ Lớn Phùn Đúng Chủ nhật Hạ Vừa Không Đúng Thường Đông Lớn Nặng hạt Rất trễ 10 Thường Hạ Không Phùn Đúng 11 Thứ bảy Xuân Lớn Nặng hạt Hủy 12 Thường Hạ Lớn Phùn Đúng 13 Thứ bảy Đông Vừa Không Trễ 14 Thường Hạ Lớn Không Đúng 15 Thường Đông Vừa Nặng hạt Rất trễ 16 Thứ bảy Thu Lớn Phùn Đúng 17 Thường Thu Không Nặng hạt Đúng 18 Lễ Xuân Vừa Phùn Đúng 19 Thường Xuân Vừa Không Đúng 20 Thường Xuân Vừa Khai phá liệu - ĐHSPHN Thường Đông Lớn Phùn Đúng Nắng hạt ??? 21 Phân lớp Nạve Bayes 41 Ví dụ với R Khai phá liệu - ĐHSPHN 42 Phân lớp K láng giềng gần Khai phá liệu - ĐHSPHN Phân lớp k-nearest neighbor 43 Ý tưởng: Thuật toán định gán nhãn lớp cho phần tử ứng với lớp phần đông số k phần tử lân cận với Chọn k phần tử tập mẫu huấn luyện gần phần tử X Xác định nhãn số đông k phần tử này: C Gán nhãn C nhãn lớp phần tử Khai phá liệu - ĐHSPHN Phân lớp k-nearest neighbor 44 Chọn độ đo Độ đo Euclidean d ( p, q ) ( pi i q ) i Chọn trị k Nếu k nhỏ kết dễ bị ảnh hưởng nhiễu Nếu k lớn nhiều phần tử láng giềng chọn đến từ lớp khác k lớn! Khai phá liệu - ĐHSPHN X Phân lớp k-nearest neighbor 45 X (a) 1-nearest neighbor X X (b) 2-nearest neighbor (c) 3-nearest neighbor Khai phá liệu - ĐHSPHN Huyết áp K-NN 46 Ví dụ Cholesterol Bệnh tim N1 Positive N2 Positive N3 Positive N4 Positive N5 Positive N6 6 Positive N7 Positive N8 Positive N9 Negative N10 4 Negative N11 Negative N12 Negative N13 Negative N14 10 Negative N15 Negative N16 Negative N17 Negative N18 6 Negative N19 Negative N20 N21 8 Negative Khai phá liệu - ĐHSPHN ??? K-NN 47 Ví dụ với R Khai phá liệu - ĐHSPHN 48 Đánh giá hiệu phân lớp Khai phá liệu - ĐHSPHN Đánh giá hiệu phân lớp 49 Một số phương pháp sử dụng việc lượng giá độ xác dự đốn Tập liệu chia làm hai tập: 2/3 tập liệu chia vào tập huấn luyện; phần lại chia vào tập kiểm thử Kiểm tra chéo k-fold cross-validation Kiểm tra chéo n-fold cross-validation (LOOCV) Khai phá liệu - ĐHSPHN Ma trận nhầm lẫn – Confusion matrix 50 Nhãn lớp thực tế Phân lớp dự đoán 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Positive Negative Positive TP (True positie) FP (False Possitive) Negative FN (False Negative) TN (True Negative) 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝑇𝑃𝑟𝑎𝑡𝑒 = 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝑇𝑁𝑟𝑎𝑡𝑒 = 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝐹𝑃𝑟𝑎𝑡𝑒 = 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝐹𝑁𝑟𝑎𝑡𝑒 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 𝑇𝑁 𝑇𝑁 + 𝐹𝑃 𝐹𝑃 𝑇𝑁 + 𝐹𝑃 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑢𝑒 = 𝑃𝑃𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑢𝑒 = 𝑁𝑃𝑣𝑎𝑙𝑢𝑒 = F−measure = + 𝛽2 ∙ 𝐹𝑁 𝑇𝑃 + 𝐹𝑁 𝑇𝑁 𝑇𝑁 + 𝐹N 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑅𝑒𝑐𝑎𝑙𝑙 𝛽2 ∙ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 G−mean = 𝐺𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑐 𝑚𝑒𝑎𝑛 = Khai phá liệu - ĐHSPHN 𝑇𝑃 𝑇𝑃 + 𝐹P 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 ∙ 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 Đánh giá hiệu phân lớp 51 Nhãn lớp thực tế Phân lớp dự đoán Positive Negative Positive 20 70 Negative 80 930 Accuracy = (20+930)/(20+80+70+930) = 86.36% TPrate = 20% Accuracy = (10+930)/(10+90+70+930) = 85.45% TPrate = 10% Accuracy = (00+930)/(00+100+70+930) = 84.54% TPrate = 00% Khai phá liệu - ĐHSPHN Tóm tắt 52 Classification với Decision trees Classification với mạng Bayesian Dựa lý thuyết xác suất thống kê K-nn classification ID3, C4.5, CART Dựa khoảng cách Phương pháp đánh giá hiệu phân lớp Khai phá liệu - ĐHSPHN THANK YOU! ... quan phân lớp liệu Tổng quan phân lớp liệu 10 Các thuật toán phân lớp liệu Phân Phân Phân Phân Phân Phân Phân Phân … lớp với định (decision tree) lớp với Naïve Bayesian lớp. .. ĐHSPHN Nội dung Chương Giới thiệu khai phá liệu Chương Dữ liệu tiền xử lý liệu Chương Phân lớp liệu Chương Khai phá luật kết hợp Chương Phân cụm Khai phá liệu - ĐHSPHN Phân lớp Khai phá... (giai đoạn huấn luyện): xây dựng phân lớp (classifier) việc phân tích/học tập huấn luyện Bước phân lớp (classification): phân lớp liệu/đối tượng độ xác phân lớp đánh giá chấp nhận (acceptable)