Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,19 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ MƠN KHAI PHÁ DỮ LIỆU PHÂN LỚP - CÁC KHÁI NIỆM CƠ BẢN Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Mục lục Mục lục 1 Khái niệm 1.1 Phân lớp gì? 1.2 Cách tiếp cận chung để phân lớp Quyết định quy nạp 2.1 Cây định quy nạp 2.2 Các biện pháp lựa chọn thuộc tính 12 2.2.1 Information gain .13 2.2.2 Gain Ratio 17 2.2.3 Chỉ số Gini .18 2.2.4 Các biện pháp lựa chọn thuộc tính khác 20 2.3 Cắt tỉa .21 2.4 Khả mở rộng định quy nạp 24 2.5 Khai thác trực quan cho định 26 Phương pháp phân lớp Bayes 29 3.1 Định lý Bayes’ 29 3.2 Phân lớp Bayes Naïve 30 Phân lớp dựa quy tắc 35 4.1 Sử dụng quy tắc IF-THEN để phân lớp 35 4.2 Khai thác quy tắc từ định 37 4.3 Quy tắc quy nạp sử dụng thuật toán bao phủ 39 Các biện pháp chất lượng quy tắc 42 Quy tắc cắt tỉa .44 Đánh giá lựa chọn mơ hình 45 5.1 Số liệu để đánh giá hiệu suất phân loại 45 5.2 Phương pháp giữ lấy mẫu ngẫu nhiên 52 5.3 Xác thực chéo .53 5.4 Bootstrap .53 5.5 Lựa chọn mơ hình phép thử thống kê ý nghĩa 54 5.6 So sánh phân lớp dựa lợi ích chi phí đường cong ROC 56 Kỹ thuật để cải thiện độ xác phân lớp 61 6.1 Giới thiệu phương pháp tập hợp .61 6.2 Bagging 63 6.3 Boosting AdaBoost 64 6.4 Random Forests 67 6.5 Cải thiện độ xác phân lớp liệu cân lớp .68 Tóm tắt 71 Khái niệm Chúng giới thiệu khái niệm phân lớp Mục 1.1 Mục 1.2 mô tả cách tiếp cận chung để phân lớp trình gồm hai bước Trong bước đầu tiên, chúng tơi xây dựng mơ hình phân lớp dựa liệu trước Trong bước thứ hai, chúng tơi xác định xem độ xác mơ hình có chấp nhận hay khơng có, chúng tơi sử dụng mơ hình để phân lớp liệu 1.1 Phân lớp gì? Một nhân viên cho vay ngân hàng cần phân tích liệu để tìm hiểu người xin vay tiền xem người “an toàn” người “rủi ro” cho ngân hàng Một người quản lý tiếp thị AllElect Electronics cần phân tích liệu để giúp dự đốn xem khách hàng có mua máy tính hay khơng Một nhà nghiên cứu y tế muốn phân tích liệu ung thư vú để dự đoán ba phương pháp điều trị cụ thể mà bệnh nhân nên nhận Trong ví dụ này, nhiệm vụ phân tích liệu phân lớp, mơ hình xây dựng để dự đoán nhãn lớp, chẳng hạn “An toàn” hay “Rủi ro” liệu ứng dụng cho vay; “Có” “Khơng” cho liệu tiếp thị; “điều trị A”, “điều trị B”, “điều trị C” liệu y tế Các loại biểu diễn giá trị rời rạc, thứ tự giá trị khơng có ý nghĩa Ví dụ, giá trị 1, sử dụng để đại diện cho phương pháp điều trị A, B C, chúng khơng có thứ tự ngụ ý nhóm chế độ điều trị Giả sử người quản lý tiếp thị muốn dự đoán khách hàng cụ thể chi lần mua hàng AllElect Electronics Nhiệm vụ phân tích liệu ví dụ dự đốn số, mơ hình xây dựng dự đốn hàm có giá trị liên tục giá trị xếp, trái ngược với nhãn lớp Mơ hình dự đốn Phân tích hồi quy phương pháp thống kê thường sử dụng để dự đốn số; hai thuật ngữ có xu hướng sử dụng đồng nghĩa, phương pháp khác để dự đoán số tồn Phân lớp dự đoán số hai loại vấn đề dự đốn Chương tập trung vào phân lớp 1.2 Cách tiếp cận chung để phân lớp “Phân lớp liệu hoạt động nào?” Phân lớp liệu trình gồm hai bước, bao gồm bước học tập (nơi xây dựng mô hình phân lớp) bước phân lớp (trong mơ hình sử dụng để dự đốn nhãn lớp cho liệu cho) Quá trình hiển thị cho liệu ứng dụng cho vay Hình (Dữ liệu đơn giản hóa cho mục đích minh họa Trong thực tế, mong đợi nhiều thuộc tính xem xét Trong bước đầu tiên, trình phân lớp xây dựng mơ tả tập hợp lớp khái niệm liệu xác định trước Đây bước học tập (hoặc giai đoạn đào tạo ), thuật tốn phân lớp xây dựng trình phân lớp cách phân tích học hỏi từ tập huấn luyện tạo thành từ liệu nhãn lớp liên quan chúng Một liệu X, biểu thị vectơ thuộc tính n chiều X = ( x 1, x 2, , x n), mô tả n phép đo thực liệu từ n thuộc tính sở liệu, A1, A2, , An Mỗi liệu X coi thuộc lớp xác định trước, xác định thuộc tính khác gọi thuộc tính nhãn lớp Thuộc tính nhãn lớp giá trị rời rạc khơng có thứ tự Nó phân loại (hoặc định danh) giá trị phục vụ danh mục lớp Các liệu riêng lẻ tạo thành tập huấn luyện tham chiếu liệu đào tạo lấy mẫu ngẫu nhiên từ sở liệu phân tích Trong ngữ cảnh phân lớp, liệu gọi mẫu, ví dụ, trường hợp, điểm liệu đối tượng Hình 1a : Quá trình phân lớp liệu: (a) Học tập: Dữ liệu đào tạo phân tích thuật tốn phân lớp Ở đây, thuộc tính nhãn lớp định cho vay mơ hình học thể dạng quy tắc phân lớp Hình 1b : Quá trình phân lớp liệu: (b) Phân lớp: Dữ liệu thử nghiệm sử dụng để ước tính độ xác quy tắc phân lớp Nếu độ xác coi chấp nhận được, quy tắc áp dụng để phân lớp liệu Bởi nhãn lớp liệu huấn luyện cung cấp, bước gọi học có giám sát (nghĩa việc học trình phân lớp giám sát định cho lớp đào tạo thuộc lớp Nó tương phản với việc học tập khơng giám sát (hoặc phân cụm), khơng biết nhãn lớp huấn luyện, số lượng tập hợp lớp học khơng biết trước Ví dụ: chúng tơi khơng có sẵn liệu định cho vay tập huấn luyện, chúng tơi sử dụng phân cụm để cố gắng xác định nhóm Bước quy trình phân lớp xem việc học ánh xạ hàm y = f(X), dự đoán nhãn lớp liên quan y liệu X Trong quan điểm này, muốn tìm hiểu ánh xạ hàm phân tách lớp liệu Thông thường, ánh xạ thể dạng quy tắc phân lớp định cơng thức tốn học Trong ví dụ chúng tôi, ánh xạ biểu diễn dạng quy tắc phân lớp xác định ứng dụng cho vay an tồn rủi ro (Hình 1a) Các quy tắc sử dụng để phân lớp liệu tương lai, cung cấp nhìn sâu sắc nội dung liệu Họ cung cấp đại diện liệu mẫu “Điều nói độ xác phân lớp?” Ở bước thứ hai (Hình 1b), mơ hình sử dụng để phân lớp Đầu tiên, độ xác dự đốn phân lớp ước tính Nếu sử dụng tập huấn luyện để đo độ xác phân lớp, ước tính lạc quan, phân lớp có xu hướng phù hợp với liệu (nghĩa trình học, kết hợp số dị thường cụ thể liệu đào tạo khơng có liệu chung thiết lập tổng thể) Do đó, kiểm tra sử dụng, bao gồm kiểm tra nhãn lớp liên quan chúng Chúng độc lập với liệu huấn luyện, có nghĩa chúng khơng sử dụng để xây dựng phân lớp Độ xác phân lớp kiểm tra định tỷ lệ phần trăm kiểm tra phân lớp xác phân lớp Nhãn lớp liên quan kiểm tra so sánh với dự đoán lớp phân lớp học cho liệu Phần mơ tả số phương pháp để ước tính độ xác phân lớp Nếu độ xác trình phân lớp coi chấp nhận được, trình phân lớp sử dụng để phân lớp liệu tương lai mà nhãn lớp (Dữ liệu đề cập tài liệu học máy liệu chưa biết trước liệu chưa thấy trước đó.) Ví dụ, quy tắc phân lớp học Hình 1(a) phân tích liệu từ ứng dụng cho vay trước sử dụng để phê duyệt từ chối người xin vay tương lai Quyết định quy nạp Cây định quy nạp việc học định từ huấn luyện dán nhãn lớp Cây định cấu trúc giống sơ đồ, nút bên (không nút ) biểu thị kiểm tra thuộc tính, nhánh biểu thị kết kiểm tra nút (hoặc nút đầu cuối) giữ nhãn lớp Nút nút gốc Một định điển hình hiển thị Hình Nó đại diện cho khái niệm mua máy tính, nghĩa là, dự đốn liệu khách hàng AllElect Electronics có khả mua máy tính hay khơng Các nút bên biểu thị hình chữ nhật nút biểu thị hình bầu dục Một số thuật toán định tạo nhị phân (trong nút nội phân nhánh hai nút khác), thuật tốn khác tạo khơng nhị phân Hình : Cây định cho khái niệm mua máy tính, cho biết liệu khách hàng AllElect Electronic có khả mua máy tính hay không Mỗi nút nội (không lá) đại diện cho thử nghiệm thuộc tính Mỗi nút đại diện cho lớp (buy_computer = yes buy_computer = no) “Các loại định sử dụng để phân lớp nào?” Cho liệu X, mà nhãn lớp liên quan không xác định, giá trị thuộc tính liệu kiểm tra định Một đường dẫn truy tìm từ gốc đến nút lá, dự đốn lớp cho liệu Cây định dễ dàng chuyển đổi đến quy tắc phân lớp “Tại trình phân lớp định lại phổ biến đến vậy?” Việc xây dựng trình phân lớp định khơng u cầu kiến thức miền cài đặt tham số nào, thích hợp để tìm kiếm tri thức Cây định xử lý liệu đa chiều Đại diện kiến thức thu dạng trực quan thường dễ bị đồng hóa người Các bước học tập phân lớp định quy nạp đơn giản nhanh chóng Nói chung, phân lớp định có độ xác tốt Tuy nhiên, việc sử dụng thành cơng phụ thuộc vào liệu Các thuật toán định quy nạp sử dụng để phân lớp nhiều lĩnh vực ứng dụng y học, chế tạo sản xuất, phân tích tài chính, thiên văn học sinh học phân tử Cây định sở số hệ thống quy tắc thương mại Trong Phần 2.1, mơ tả thuật tốn để học định Trong trình xây dựng cây, biện pháp chọn thuộc tính sử dụng để chọn thuộc tính phân vùng tốt cho liệu thành lớp riêng biệt Các biện pháp phổ biến lựa chọn thuộc tính đưa Mục 2.2 Khi định xây dựng, nhiều nhánh phản ánh sai số ngoại lai liệu huấn luyện Cắt tỉa cố gắng xác định loại bỏ nhánh vậy, với mục tiêu cải thiện độ xác phân lớp liệu khơng nhìn thấy Cắt tỉa mơ tả Phần 2.3 Các vấn đề khả mở rộng cho việc tạo định từ sở liệu lớn thảo luận Phần 2.4 phần 2.5 trình bày cách tiếp cận khai thác trực quan đến định quy nạp 2.1 Cây định quy nạp Vào cuối năm 1970 đầu năm 1980, J Ross Quinlan, nhà nghiên cứu học máy, phát triển thuật toán định gọi ID3 (Iterative Dichotomiser) Công việc mở rộng cơng trình trước hệ thống học tập khái niệm, mô tả EB Hunt, J Marin PT Stone Quinlan sau trình bày C4.5 (một kế thừa ID3), trở thành chuẩn mực mà thuật tốn học tập có giám sát thường lấy so sánh Năm 1984, nhóm nhà thống kê (L Breiman, J Friedman, R Olshen C Stone) xuất sách “Cây phân lớp hồi quy” (Classification and Regression Trees -CART), mô tả việc tạo định nhị phân ID3 CART phát minh độc lập với lúc, theo cách tiếp cận tương tự để học định từ liệu đào tạo Hai thuật toán tảng tạo loạt công việc định quy nạp ID3, C4.5 CART áp dụng cách tiếp cận tham lam (nghĩa không phản hồi) định xây dựng theo cách phân chia chinh phục đệ quy từ xuống Hầu hết thuật toán cho định quy nạp tuân theo cách tiếp cận từ xuống, bắt đầu tập huấn luyện liệu nhãn lớp liên quan chúng Tập huấn luyện phân chia đệ quy thành tập nhỏ xây dựng Một thuật tốn định tóm tắt Hình 8.3 Thoạt nhìn, thuật tốn xuất từ lâu, đừng sợ! Nó đơn giản Chiến lược sau Thuật toán gọi với ba tham số: D, danh sách thuộc tính phương thức chọn thuộc tính Chúng tơi đề cập đến D phân vùng liệu Ban đầu, hồn chỉnh liệu huấn luyện nhãn lớp liên quan chúng Danh sách thuộc tính tham số danh sách thuộc tính mơ tả liệu Phương pháp chọn thuộc tính định thủ tục heuristic để chọn thuộc tính phân biệt tốt mà liệu cho theo lớp Quy trình sử dụng biện pháp lựa chọn thuộc tính như: thơng tin đạt (Information gain) số Gini Cây có nhị phân hay không thường điều khiển thước đo lựa chọn thuộc tính Một số biện pháp lựa chọn thuộc tính như: số Gini, thực thi kết nhị phân Ngồi ra, thơng tin đạt (Information gain), khơng, cho phép phân chia nhiều đường (nghĩa hai nhiều nhánh phát triển từ nút) Cây bắt đầu nút đơn N, đại diện cho liệu huấn luyện D (bước 1) Thuật toán: Tạo định Tạo định từ liệu đào tạo phân vùng liệu D Đầu vào: Phân vùng liệu D, tập hợp liệu huấn luyện nhãn lớp liên quan chúng; danh sách thuộc tính, tập hợp thuộc tính ứng cử viên; Phương pháp lựa chọn thuộc tính, thủ tục để xác định tiêu chí chia tách phân vùng tốt liệu thành lớp riêng lẻ Tiêu chí bao gồm thuộc tính phân tách và, có thể, tập hợp chia điểm tách Đầu ra: Một định Phương pháp: (1) tạo nút N; (2) liệu D thuộc lớp C, (3) trả N dạng nút có nhãn C; (4) danh sách thuộc tính trống (5) trả N dạng nút có nhãn đa số D; (6) áp dụng phương pháp lựa chọn Thuộc tính (D, danh sách thuộc tính) để tìm tiêu chí chia tách tốt nhất; (7) nút nhãn N với tiêu chí chia tách; (8) thuộc tính tách giá trị rời rạc phân chia nhiều đường phép sau (9) danh sách thuộc tính ← danh sách thuộc tính - thuộc tính tách; (10) cho kết j tiêu chí chia tách // phân vùng liệu tăng cho phân vùng (11) đặt Dj tập hợp liệu D thỏa mãn kết j; // phân vùng (12) Dj trống (13) gắn có nhãn lớp đa số D vào nút N; (14) khơng đính kèm nút trả định (Dj, danh sách thuộc tính) cho nút N; kết thúc (15) trả lại N; Ghi chú: Thuật toán để tạo định từ liệu huấn luyện ... đoán lớp phân lớp học cho liệu Phần mơ tả số phương pháp để ước tính độ xác phân lớp Nếu độ xác trình phân lớp coi chấp nhận được, trình phân lớp sử dụng để phân lớp liệu tương lai mà nhãn lớp (Dữ. .. trung vào phân lớp 1.2 Cách tiếp cận chung để phân lớp ? ?Phân lớp liệu hoạt động nào?” Phân lớp liệu trình gồm hai bước, bao gồm bước học tập (nơi xây dựng mơ hình phân lớp) bước phân lớp (trong... từ sở liệu phân tích Trong ngữ cảnh phân lớp, liệu gọi mẫu, ví dụ, trường hợp, điểm liệu đối tượng Hình 1a : Quá trình phân lớp liệu: (a) Học tập: Dữ liệu đào tạo phân tích thuật tốn phân lớp Ở