1. Trang chủ
  2. » Tất cả

Chương 3 Cây quyết định

18 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Chương CÂY QUYẾT ĐỊNH Classification – Decision tree (J48) Nội dung ▪ Giới thiệu Cây định ▪ Ví dụ minh hoạ ▪ Một số thuật tốn xây dựng Cây định ▪ Hướng dẫn xây dựng mô hình định Weka Explorer ▪ Hướng dẫn lập trình sử dụng mơ hình định Weka API Nút gốc Nút trung gian Giới thiệu Cây định cấu trúc luồng dạng cây, với nút trung gian (không phải nút lá) đại diện cho phép thử thuộc tính Mỗi nhánh đại diện cho đầu (kết quả) phép thử Và nút (nút cuối cùng) đại diện cho nhãn lớp Nút gọi nút gốc Một đường từ nút gốc đến nút biểu đạt dự đoán phân lớp cho liệu tương ứng Cây định dễ dàng chuyển đổi thành luật phân lớp Nút Cây định (tt) Cây định sử dụng phổ biến số lí sau: ▪ Việc xây dựng định không đòi hỏi kiến thức chuyên ngành hay thiết lập tham số ban đầu Vì vậy, phù hợp với viêc khám phá tri thức ▪ Cây định quản lý liệu có số chiều lớn ▪ Việc biểu đạt tri thức dạng diễn đạt dễ dàng ▪ Quá trình học phân lớp (sử dụng) định thực nhanh chóng ▪ Nhìn chung, định cho độ xác cao Tuy nhiên điều phụ thuộc vào liệu Xây dựng định Việc xây dựng định liên quan đến nội dung chủ yếu sau: ▪ Thuật toán tạo định ▪ Các phép đo để lựa chọn thuộc tính nhằm phân chia liệu trình xây dựng định, như: information gain, gain ratio hay gini index ▪ Thu gọn định (tree pruning): nhằm phát loại bỏ nhánh làm nhiễu hay diễn đạt ngoại lệ vùng liệu huấn luyện ▪ Phép quy nạp định trường hợp xây dựng định tập liệu lớn Ví dụ: thuật toán xây dựng định Thuật toán ID3 Do J Ross Quinlan giới thiệu Step 1: If all instances in C are positive, then create YES node and halt If all instances in C are negative, create a NO node and halt Otherwise select a feature, F with values v1, , and create a decision node Step 2: Partition the training instances in C into subsets C1, C2, , Cn according to the values of V Step 3: apply the algorithm recursively to each of the sets Ci Note, the trainer (the expert) decides which feature to select ▪ ID3 lựa chọn thuộc tính (feature) phân tách (separate) dựa vào heuristic Việc lựa chọn dựa phép tính entropy information gain ID3 (tt): Lựa chọn thuộc tính phân tách Phép tính entropy Ví dụ ▪ 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = σ −𝑝 𝐼 𝑙𝑜𝑔2 𝑝 𝐼 ▪ Tập liệu S có 14 instance gồm instance thuộc lớp YES instance thuộc lớp NO ▪ Với: ▪ p(I) tỉ lệ instance thuộc lớp I ▪ 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = − 14 𝑙𝑜𝑔2 14 14 𝑙𝑜𝑔2 = 0.940 14 − ID3 (tt): Lựa chọn thuộc tính phân tách Phép tính information gain ▪ 𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − σ 𝑆𝑣 𝑆 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆𝑣 ▪ Với: ▪ 𝑆𝑣 tập S mà thuộc tính A nhận giá trị v Day Outl Temp Hum Wind Play D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Nor Weak Yes D6 Rain Cool Nor Strong No D7 Overcast Cool Nor Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Nor Weak Yes D10 Rain Mild Nor Weak Yes D11 Sunny Mild Nor Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Nor Weak D14 Rain Mild High Strong No Yes ID3 (tt): Lựa chọn thuộc tính phân tách Phép tính information gain(tt) 14 ▪ 𝐺𝑎𝑖𝑛 𝑆, 𝑊𝑖𝑛𝑑 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − 14 14 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆𝑤𝑒𝑎𝑘 − 14 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆𝑠𝑡𝑟𝑜𝑛𝑔 = 0.940 − 0.811 − = 0.048 ▪ 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆𝑤𝑒𝑎𝑘 = − ▪ 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑆𝑠𝑡𝑟𝑜𝑛𝑔 = − 𝑙𝑜𝑔2 𝑙𝑜𝑔2 − − 𝑙𝑜𝑔2 𝑙𝑜𝑔2 8 ▪ Tương tự ta có: ▪ Gain(S,Out.) = 0.246; Gain(S,Temp) = 0.029; Gain(S,Hum.) = 0.151; ▪ Out có Gain cao  chọn làm thuộc tính phân tách cho nút gốc Thuật tốn ID3 (tt) ▪ Tiếp tục với cách tính trên, tập S ban đầu dược chia thành tập nhỏ ▪ Cây định cuối có dạng hình bên Chuyển đổi từ định sang tập luật IF outlook = sunny AND humidity = high THEN playball = no IF outlook = rain AND humidity = high THEN playball = no IF outlook = rain AND wind = strong THEN playball = yes IF outlook = overcast THEN playball = yes IF outlook = rain AND wind = weak THEN playball = yes Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Lập trình sử dụng mơ hình định Weka API Kết thúc ... dự đoán phân lớp cho liệu tương ứng Cây định dễ dàng chuyển đổi thành luật phân lớp Nút Cây định (tt) Cây định sử dụng phổ biến số lí sau: ▪ Việc xây dựng định không đòi hỏi kiến thức chuyên...Nội dung ▪ Giới thiệu Cây định ▪ Ví dụ minh hoạ ▪ Một số thuật tốn xây dựng Cây định ▪ Hướng dẫn xây dựng mô hình định Weka Explorer ▪ Hướng dẫn lập trình sử dụng mơ hình định Weka API Nút gốc... yes Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Xây dựng mơ hình định Weka Explorer Lập trình sử dụng mơ hình định Weka API Kết thúc

Ngày đăng: 28/12/2020, 10:59

w