Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,48 MB
Nội dung
út trong, phản ánh kết phép thử thuộc tính tương ứng Married yes no Salary >= 5K >= 50K < 20K poor risk Acct Balance >= 20K < 50K 5K < Age good risk poor risk 17 < 25 >= 25 fair risk fair risk good risk Có thể dễ dàng chuyển đổi từ mơ hình định sang mơ hình luật phânlớp cách: từ nút gốc nút lá, đường tương ứng với luật phânlớp Married yes no Salary >= 5K >= 50K < 20K poor risk Acct Balance >= 20K < 50K 5K < Age good risk poor risk < 25 >= 25 fair risk fair risk 18 good risk If (Married = yes) And (Salary > 20K) Then Class = poor risk If (Married = yes) And (50K > Salary >= 20K) Then Class = fair risk If (Married = yes) And (Salary >= 50K) Then Class = good risk If (Married = no) And (Acct Balance < 5K) Then Class = poor risk If (Married = no) And (Acct Balance >= 5K) And (Age < 25) Then Class = fair risk If (Married = no) And (Acct Balance >= 5K) And (Age >= 25) Then Class = good risk Married yes no Salary >= 5K >= 50K < 20K poor risk Acct Balance 5K < >= 20K < 50K Age good risk poor risk < 25 >= 25 fair risk fair risk Name Age Married Salary Acct Balance Class Alice 19 yes 30K 6K ? Pike 28 no 60K 7K Tom 35 yes 10K Peter 24 no Lucas 40 no 19 Name good risk Age Married Salary Acct Balance Class Alice 19 yes 30K 6K fair risk ? Pike 28 no 60K 7K good risk 10K ? Tom 35 yes 10K 10K poor risk 20K 8K ? Peter 24 no 20K 8K fair risk 20K 3K ? Lucas 40 no 20K 3K poor risk 4.3.2 Các độ đo sử dụng phânlớp A Entropy tập liệu Là lượng thông tin cần để phân loại phần tử tập liệu D Ký hiệu Infor(D) Gọi: pi: xác suất để phần tử D thuộc lớp Ci (i=1, 2,…, m) Di: Tập phần tử D thuộc lớp Ci pi Di D m Infor ( D) pi log pi i 1 20 Claude Elwood Shannon (1916 – 2001) B Entropy liệu ứng với thuộc tính Là lượng thơng tin cần để phân loại phần tử tập liệu D dựa thuộc tính A Ký hiệu InforA (D) Thuộc tính A dùng để phân tách D thành v phân hoạch (tập con) D1, D2,…, Dv Mỗi phân hoạch Dj có |Dj| phần tử Lƣợng thông tin cho biết mức độ trùng lặp phân hoạch, nghĩa phân hoạchchứa phần tử từ hay nhiều lớp khác ⟹ Mong đợi: InforA(D) nhỏ tốt v InforA ( D) j 1 21 Dj D Infor ( D j ) C Độ lợi thông tin (Information Gain) Mục tiêu: Tối thiểu hóa lượng thơng tin cần thiết để phânlớp các mẫu liệu (tối thiểu hóa số lượng điều kiện kiểm tra cần thiết để phânlớp ghi mới) Độ lợi thơng tin ứng với thuộc tính A (ký hiệu Gain(A)) độ sai biệt Entropy ban đầu tập liệu (trƣớc phân hoạch) Entropy liệu ứng với thuộc tính A (sau phân hoạch A) Gain( A) Infor ( D) - InforA ( D) 22 4.3.3 Giải thuật ID3 xây dựng định Tập liệu học Records gồm m đối tượng (bản ghi) R1, R2,…, Rm Input: Tập thuộc tính Attributes gồm m thuộc tính A1, A2,…, An Output: 23 Mơ hình định procedure Build_tree(Records, Attributes) begin Tạo nút N; if (tất ghi thuộc lớp Ci đó) then begin N.Label = Ci; return N; end; if (Attributes = ⍉) then begin Tìm lớp Cj mà phần lớn ghi r ∈ Records thuộc lớp N.Label = Cj; return N; end; Chọn Ai ∈ Attribute cho Gain(Ai)→max; N.Label = Ai; for each giá trị vi biết Ai begin Thêm nhánh vào nút N ứng với Ai = vj ; Sj = Tập Records có Ai = vj; if (Sj = ⍉) then Thêm nút L với nhãn lớp mà phần lớn ghi r ∈ Records thuộc lớp đó; Return L; else Thêm vào nút trả Build_Tree(Sj, Attribute \{Ai}); end ; end; Phƣơng pháp lựa chọn thuộc tính Dùng heuristic để chọn tiêu chí rẽ nhánh nút: Phân hoạch tập liệu học D thành phân hoạch với nhãn phù hợp: • Xếp hạng thuộc tính • Thuộc tính chọn để rẽ nhánh thuộc tính có trị số điểm (score) lớn • Độ đo để chọn thuộc tính phân tách (splitting attribute) Information Gain (được xây dựng dựa lý thuyết thơng tin Claude Elwood Shannon) Cụ thể: Thuộc tính có giá trị Information Gain lớn đƣợc chọn làm thuộc tính phân nhánh cho nút N Nút N nút cần phân hoạch phần tử D Thuộc tính phân hoạch đảm bảo trùng lắp ngẫu nhiên phân hoạch tạo ⟹ Giúp tối thiểu số phép thử (test) cần để phân loại phần tử 24 25 Ví dụ 1: Cho tập liệu học: Tính tốn tương tự: ⟹ Chọn age thuộc tính phân tách 26