1. Trang chủ
  2. » Cao đẳng - Đại học

Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 31

27 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 830,97 KB

Nội dung

.c om ng co ng th an Chương cu u du o Khai phá liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com https://fb.com/tailieudientucntt u du o ng th an co ng Phân lớp liệu (Classification): cu  c om Phân lớp liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt Phân lớp liệu (Classification) trình ng  c om Phân lớp liệu co phân chia đối tượng liệu cào lớp cho th Bước học: giai đoạn huấn luyện (training) Giai du o  ng Gồm hai bước: u đoạn thường áp dụng giải thuật học có cu  an trước giám sát (supervised learning)  Bước phân loại: Phân liệu vào lớp biết CuuDuongThanCong.com https://fb.com/tailieudientucntt Một số giải thuật dùng phân loại liệu: du o ng th an co ng Mạng neural (Neural Network), u  cu  c om Phân lớp liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt Một số giải thuật dùng phân loại liệu: co ng Mạng Bayesian (dạng đơn giản Naïve Bayes)  du o ng th an P( X | H ) P( H ) P( H | X )  P( X ) Trong đó: P(H), P(X|H), P(H) tính u  từ tập liệu cho trước, cu  c om Phân lớp liệu  P(H|X) tính từ định lý Bayes CuuDuongThanCong.com https://fb.com/tailieudientucntt Một số giải thuật dùng phân loại liệu: an co ng Cây định (decision tree), ng th A ? a1 a2 du o ? u  cu  c om Phân lớp liệu ? b1 CuuDuongThanCong.com ? an ? bn https://fb.com/tailieudientucntt Cây định (decision tree) Là mơ hình phân lớp điển hình  Node trong: Kiểm thử thuộc tính,  Node lá: Mô tả lớp  Nhánh (từ node trong): Kết du o ng th an co ng   u phép thử thuộc tính tương ứng Có thể chuyển mơ hình định sang mơ cu  c om Cây định hình luật phân lớp: Đi từ node gốc tới node lá, đường tương ứng với luật phân lớp CuuDuongThanCong.com https://fb.com/tailieudientucntt cu u du o ng th an co ng c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt cu u du o ng th an co ng c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 10 Các độ đo dùng phân lớp an co Information Gain (Độ lợi thông tin): Là độ sai biệt th trị thông tin trước phân hoạch (Info(D)) trị du o ng thông tin sau phân hoạch với A (InfoA(D)) Gain(A) = Info(D) - InfoA(D) u  ng định: cu  c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 13 th an co ng Entropy: Pro(Bus) = 4/10  Pro(Car) = 3/10  Pro(Train) = 3/10  Entropy = -0.4log2(0.4) – 0.3log2(0.3) – 0.3log2(0.3) u du o ng  cu  c om Cây định = 1.571  Gini Index = – (0.42 + 0.32 + 0.32) = 0.66 CuuDuongThanCong.com https://fb.com/tailieudientucntt 14 Sunny Sunny Mild High u Overcast Overcast Hot Rain CuuDuongThanCong.com Mild Mild Mild High Mild High Wind ng co an th Cool Cool Cool Cool Rain Sunny Humidity High High High Mild High du o Hot Hot Overcast Hot Rain Rain Rain Overcast cu Sunny Sunny Temperature ng Outlook c om Cây định Weak (false) Strong (true) Weak Yes Weak Yes Normal Weak Yes Normal Strong Normal Strong Yes Weak Normal Weak Yes Normal Weak Yes Normal Strong Yes Strong Yes Normal Weak Yes Strong Total https://fb.com/tailieudientucntt Play ball No No No No No 14 15 Gain information: an co ng  Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14) = 0.940  Gain(S, Windy) = Entropy(S) - (8/14)Entropy(S ) - th false ng (6/14)Entropy(S ) = 0.048 du o true Windy: Weak=8(6+,2-), Strong=6(3+,3-)  Entropy(Sfalse)=-6/8Log2(6/8)-2/8Log2(2/8)=0.811  Entropy(Strue) =-3/6Log2(3/6)-3/6Log2(3/6)=1  Gain(S,Windy) = 0.940-(8/14)(0.811)-(6/14)(1)=0.048 u  cu  c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 16 Gain information: co ng  Tính tương tự ta được: an  Gain(S, Windy) = 0.048 th  Gain(S, Humidity) = 0.151 du o ng  Gain(S, Temperature) = 0.029 u  Gian(S, Outlook) = 0.246 cu  c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 17 cu u du o ng th an co ng c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 18 cu u du o ng th an co ng c om Cây định CuuDuongThanCong.com https://fb.com/tailieudientucntt 19 Continuous attributes Temperature Humidity c om Outlook Wind Play ball D1 Sunny Hot High D2 Sunny Hot High D3 OvercastHot High Weak Yes D4 Rain MildHigh Weak Yes D5 Rain Cool NormalWeak Yes D6 Rain th Day Normal StrongNo D7 Overcast Normal Strong Sunny D11 cu Rain Sunny D12 Overcast D13 OvercastHot D14 ng co an ng D9 du o Sunny D10 Cool u D8 Rain CuuDuongThanCong.com Weak Cool MildHigh Cool No StrongNo Weak Yes No NormalWeak Yes Mild NormalWeak Yes Mild Normal MildHigh Strong Yes Strong Yes NormalWeak MildHigh Yes StrongNo https://fb.com/tailieudientucntt 20 .c om Thuộc tính giá trị liên tục ng EntropyDay(S) = (1/14)Entropy(SD1) + (1/14)Entropy(SD2) + co … + (1/14)Entropy(SD14) th ng → EntropyDay(S) = an Entropy(SD1) = Entropy(SD2) = … = Entropy(SD14) = du o Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14) = 0.940 cu u Gain(S, Day) = Entropy(S) - EntropyDay(S) = 0.940 CuuDuongThanCong.com https://fb.com/tailieudientucntt 21 co ng c om Thuộc tính giá trị liên tục ng du o D1 th an Day N D14 D3 P … N cu u N D2 CuuDuongThanCong.com https://fb.com/tailieudientucntt 22 Vấn đề:  Thuộc tính ngày có độ thu thập thơng tin cao  có ng  c om Thuộc tính giá trị liên tục Nếu ý nghĩa thuộc tính Day khơng cao th  an co độ ưu tiên lựa chọn định du o ng lựa chọn định khơng hiệu  tính dự đốn u Giải vấn đề: nguyên tắc lựa chọn phân tách: cu   Tỷ lệ tăng thêm thông tin (GainRatio) cao,  Có Entropy thuộc tính lớn Entropy trung bình tất thuộc tính CuuDuongThanCong.com https://fb.com/tailieudientucntt 23 Temperature 0.9 0.87 0.93 0.89 0.80 0.59 0.77 0.91 0.68 0.84 0.72 0.49 0.74 0.86 an co du o ng Cool Cool Cool th Mild cu u Sunny Hot Sunny Hot Overcast Hot Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Hot Rain Humidity ng Outlook c om Thuộc tính giá trị liên tục CuuDuongThanCong.com Mild Cool Mild Mild Mild Mild Wind Weak Play ball No StrongNo Weak Weak Weak StrongNo Strong Weak No Weak Weak Strong Strong Weak StrongNo Total https://fb.com/tailieudientucntt Yes Yes Yes Yes Yes Yes Yes Yes Yes 14 24 SplitInfomation: Thông tin tiềm ẩn tạo co ng cách chia tập liệu số tập c i 1 Si tập S chứa thể thuộc u  du o ng th an SplitInformation( S , A)   Si Si log S S tính A mang giá trị Vi cu  c om Thuộc tính giá trị liên tục  Splitinfomation thực Entropy S với liên quan giá trị thuộc tính A CuuDuongThanCong.com https://fb.com/tailieudientucntt 25  c om Thuộc tính giá trị liên tục GainRatio: Đánh giá thay đổi giá trị thuộc co ng tính Tất thuộc tính tính tốn độ đo tỷ lệ u Gain, thuộc tính có độ đo tỷ lệ Gain lớn cu  du o ng th an Gain( S , A) GainRatio( S , A)  SplitInformation( S , A) chọn làm thuộc tính phân chia CuuDuongThanCong.com https://fb.com/tailieudientucntt 26 Các bước tính: Tính Entropy, Tính Gain, Tính SplitInformation, Tính GainRatio, Tính Entropy trung bình, So sánh Entropy với Entropy trung bình + so u du o ng th an co ng cu  c om Thuộc tính giá trị liên tục sánh GainRation để chọn thuộc tính phân tách CuuDuongThanCong.com https://fb.com/tailieudientucntt 27 ....c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com... No No 14 15 Gain information: an co ng  Entropy(S) = -(9/ 14) log2(9/ 14) -(5/ 14) log2(5/ 14) = 0. 940  Gain(S, Windy) = Entropy(S) - (8/ 14) Entropy(S ) - th false ng (6/ 14) Entropy(S ) = 0. 048 du o... (1/ 14) Entropy(SD1) + (1/ 14) Entropy(SD2) + co … + (1/ 14) Entropy(SD 14) th ng → EntropyDay(S) = an Entropy(SD1) = Entropy(SD2) = … = Entropy(SD 14) = du o Entropy(S) = -(9/ 14) log2(9/ 14) -(5/ 14) log2(5/ 14)

Ngày đăng: 18/09/2021, 17:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN