Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
1,98 MB
Nội dung
Cây định Cây định bắt trước mức độ suy nghĩ người nên đơn giản để hiểu thấy tính logic từ liệu Cây định mơ hình học có giám sát, áp dụng vào hai tốn classification regression Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Có vài thuật toán để tạo định, nói số chúng: CART (Classification and Regression Trees) → dùng Gini Index(Classification) để kiểm tra ID3 (Iterative Dichotomiser 3) → dùng Entropy function Information gain để kiểm tra * Phân lớp thuật toán ID3 - Ý tưởng: +Tính tốn entropy thuộc tính cách sử dụng tập liệu + Chia tập hợp thành tập hợp cách sử dụng thuộc tính mà entropy kết (sau tách) nhỏ + Tạo nút định có chứa thuộc tính + Đệ quy qua tập hợp cách sử dụng thuộc tính cịn lại Các bước: Input: Tập liệu huấn luyện D, Tập lớp C = {c1, c2, , cn} thuộc tính đích, Attributes = F tập tồn thuộc tính điều kiện Step: Tạo nốt gốc (root) cho Nếu tất đối tượng x thuộc D có lớp ck, trả nốt gốc Root với nhãn ck Nếu khơng cịn thuộc tính điều kiện (Attributes = rỗng), trả nốt gốc Root với nhãn ck xuất nhiều D Nếu khơng thì: 4.1 Chọn thuộc tính A thuộc Attributes thuộc tính phân lớp tốt (với thuận toán ID3 thuộc tính phân lớp tốt thuộc tính có độ lợi thông tin lớn nhất) cho tập D làm nốt gốc 4.2 Đối với giá trị v A Thêm nhánh nốt root tương ứng với A = v 4.2.1 Gọi D(v) tập đối tượng thuộc D có v giá trị cho thuộc tính A 4.2.2 Nếu D(v) = rỗng, thêm nốt (leaf node) nhánh với nhãn ck phổ biến D Ngược lại nhánh thêm ID3(D(v), , Target − Attribute, Attributes - {A}) Trả nốt gốc Root Ví dụ Tập liệu : Information Gain theo thuộc tính Dựng với nốt thuộc tính Age Tiếp tục tính Information Gain cho thuộc tính cịn lại: Chọn nút gốc Age có độ lợi lớn Các giá trị v có Age có loại, nên tạo nhánh Chèn vào ID3 với v sau bỏ thuộc tính A (đệ quy) Kết luận: Ưu điểm Mơ hình dễ hiểu dễ giải thích Cần liệu để huẩn luyện Có thể xử lý tốt với liệu dạng số (rời rạc liên tục) liệu hạng mục - Mơ hình dạng white box rõ ràng - Xây dựng nhanh - Phân lớp nhanh - Nhược điểm Không đảm bảo xây dựng tối ưu Có thể overfitting (tạo khớp với liệu huấn luyện hay phức tạp) - Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục sử dụng Gain Ratio) - Ứng dụng Xử lý tốt liệu dạng bảng biếu với số thuộc tính khơng q lớn - Khơng phù hợp số lượng thuộc tính bùng nổ (như liệu văn bản, hình ảnh, âm thanh, video, ) - Assigment – CIS419 10 11 ... tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Có vài thuật toán để tạo định, nói số chúng: CART (Classification and Regression Trees) → dùng Gini Index(Classification)... thuộc tính cách sử dụng tập liệu + Chia tập hợp thành tập hợp cách sử dụng thuộc tính mà entropy kết (sau tách) nhỏ + Tạo nút định có chứa thuộc tính + Đệ quy qua tập hợp cách sử dụng thuộc tính... huấn luyện hay phức tạp) - Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục sử dụng Gain Ratio) - Ứng dụng Xử lý tốt liệu dạng bảng biếu với số thuộc tính khơng q lớn - Khơng phù hợp số lượng