Bài 05 Slide Cây quyết định. Trong lý thuyết quyết định, một cây quyết định là một đồ thị của các quyết định và các hậu quả có thể của nó. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây
Cây Quyết Định (Decision Tree) caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com Học định Bài toán: Học xem nên ngồi bàn đợi restaurant: Alternate: Có restaurant cạnh khơng? Bar: Liệu có khu vực quầy bar ngồi khơng? Fri/Sat: hôm thứ hay thứ 7? Hungry: có đói khơng? Patrons: Số người restaurant (None, Some, Full) Price: khoảng giá ($, $$, $$$) Raining: ngồi trời có mưa khơng? Reservation: đặt trước chưa? Type: loại restaurant (French, Italian, Thai, Burger) 10 WaitEstimate: thời gian chờ đợi (0-10, 10-30, 30-60, >60) Biểu diễn thuộc tính giá trị Cây định Biểu diễn giả thiết cần học Ví dụ: 10 Thuật tốn học định Mục đích: Tìm nhỏ quán với tập mẫu huấn luyện Ý tưởng: Tìm kiếm heuristic chọn thuộc tính quan trọng để phân tách (đệ quy) 11 Chọn thuộc tính Ý tưởng: chọn thuộc tính (giá trị) cho cho giúp phân tách tập mẫu hai tập khiết (chỉ có positive hay có negative) Patrons? lựa chọn tốt 12 Sử dụng lý thuyết thông tin để cài đặt Choose-Attribute thuật tốn DTL: Lượng thơng tin (Entropy): I(P(v1), … , P(vn)) = Σi=1-n -P(vi) log2 P(vi) Đối với tập có p mẫu positive n negative: I( 13 p n p p n n , )=− log2 − log2 p+n p+n p+n p+n p+n p+n Lợi thông tin (Information gain) chọn thuộc tính A chia tập huấn luyện E thành tập E1, … , Ev tính theo giá trị A, giả A có v giá trị khác Lợi thông tin (IG) độ giảm entropy việc test thuộc tính: Chọn thuộc tính có IG lớn v remainder ( A) = ∑ i =1 p i + ni pi ni I( , ) p + n pi + ni pi + ni p n IG ( A) = I ( , ) − remainder ( A) p+n p+n 14 Lợi thơng tin (Information gain) Trong tập mẫu ví dụ, p = n = 6, I(6/12, 6/12) = bit Xét thuộc tính Patrons Type (và thuộc tính khác): IG ( Patrons ) = − [ I (0,1) + I (1,0) + I ( , )] = 541 bits 12 12 12 6 1chọn gốc 2 2 Patrons có giá trịIG IG (cao Type ) =nên1 −được [ DTL I ( , )làm + Icủa ( , )quyết + định I ( , ) + I ( , )] = bits 12 2 12 2 12 4 12 4 15 Lợi thông tin (Information gain) Cây định học DTL từ 12 ví dụ: Nhỏ định đưa lúc đầu 16 Xây dựng định 17 Xây dựng định 18 19 ... Icủa ( , )quyết + định I ( , ) + I ( , )] = bits 12 2 12 2 12 4 12 4 15 Lợi thông tin (Information gain) ? ?Cây định học DTL từ 12 ví dụ: Nhỏ định đưa lúc đầu 16 Xây dựng định 17 Xây dựng định 18... gian chờ đợi (0-10, 10-30, 30-60, >60) Biểu diễn thuộc tính giá trị Cây định Biểu diễn giả thiết cần học Ví dụ: 10 Thuật tốn học định Mục đích: Tìm nhỏ qn với tập mẫu huấn luyện Ý tưởng: Tìm... caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com caotruongtran@gmail.com Học định Bài toán: Học xem nên ngồi bàn đợi restaurant: Alternate: Có restaurant cạnh khơng? Bar: Liệu