Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
771,58 KB
Nội dung
 À Á PH  NLỚPV À DỰ ĐO Á N NỘI DUNG Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán ế Quy nạp trên cây quy ế t định Phân lớp Bayes Cá h há hâ l ớ khá Cá c p h ương p há p p hâ n l ớ p khá c PHÂN L ớ P LÀ GÌ ? D ự ĐOÁN LÀ GÌ? PHÂN L ớ P LÀ GÌ ? D ự ĐOÁN LÀ GÌ? Có th ể dùng phân l ớ p và d ự đoán đ ể xác l ậ p mô Có th ể dùng phân l ớ p và d ự đoán đ ể xác l ậ p mô hình nhằmmôtả các lớpquantrọng hay dự đoán khuynh hướng dữ liệutrongtương lai Phân lớp(classification): Tạorabộ phân lớp/ mô hình. D đ á (diti) D à b ộ hâ l ớ đ ể d D ự đ o á n ( pre di c ti on ) : D ự av à o b ộ p hâ n l ớ p đ ể d ự đoán nhãn củacácmẫuchưabiết nhãn. Phân lớp là gì? Dự đoán là gì ? Phâ l ớ d ữ li ệ là ti ế Phân lớp là gì? Dự đoán là gì ? Phâ n l ớ p d ữ li ệ u là ti ế n trình có 2 bước Huấnluyện:Dữ liệu hu ấ nlu y ệ n đư ợ c p hân y ệ ợ p tích bởithuật tóan phân lớp(cóthuộc tính nhãn lớp) để tạorabộ phân lớp Phân l ớ p : D ữ li ệ u ki ể m Phân l ớ p : D ữ li ệ u ki ể m tra được dùng đểước lượng độ chính xác củabộ phân lớp. Nếu độ chính xác là ch ấ p nh ậ n đ ượ c thì xác là ch ấ p nh ậ n đ ượ c thì có thể dùng bộ phân lớp để phân lớpcácmẫudữ liệumới. Phân lớp là gì? Dự đoán là gì ? ộ hí h á ()ủ bộ hâ lớ ê Đ ộ c hí n h x á c ( accuracy ) c ủ a bộ p hâ n lớ p tr ê n tập kiểm tra cho trước là phần trăm của các mẫutrongtậpkiểmtrađượcbộ phân lớpxếp mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng l tt l ifi d tl sampletest ofnumber total samp l e t es t c l ass ifi e d correc tl y Accuracy C HU Ẩ N B Ị D Ữ LI Ệ U C HU Ẩ N B Ị D Ữ LI Ệ U Làm sạch dữ liệu Nhiễu Thi ế u giá tr ị Thi ế u giá tr ị Phân tích liên quan (chọn đặc trưng) Các thuộc tính không liên quan Các thuộc tính dư thừa Biến đổi dữ liệu S O SÁNH CÁC PH ƯƠ NG PHÁP PHÂN L Ớ P S O SÁNH CÁC PH ƯƠ NG PHÁP PHÂN L Ớ P Đ ộ hí h á ủ d đ á kh ả ă b ộ hâ Đ ộ c hí n h x á cc ủ a d ự đ o á n: kh ả n ă ng b ộ p hâ n lớpdự đoán đúng dữ liệuchưabiếttrước nhãn Tính b ề n v ữ ng : kh ả năng c ủ a b ộ phân l ớ p th ự c Tính b ề n v ữ ng : kh ả năng c ủ a b ộ phân l ớ p th ự c hiệndự đoán đúng vớidữ liệu nhiễu hay thiếu giá trị Tính kích cỡ (scalability):khả năng tạobộ phân lớphiệuquả vớisố lượng dữ liệulớn Kh ả ă di ễ i ả i b ộ hâ l ớ ấ ti Kh ả n ă ng di ễ ng i ả i : b ộ p hâ n l ớ p cung c ấ p t r i thứccóthể hiểu được CÂY QUYẾT ĐỊNH C ÂY QUY Ế T Đ Ị NH C ÂY QUY Ế T Đ Ị NH Câ y q u y ế t định là c ấ utrúccâ y sao cho: y qy y Mỗi nút trong ứng vớimộtphépkiểmtratrên mộtthuộctính M ỗ i nhánh bi ể u di ễ n k ế t qu ả phép ki ể m tra M ỗ i nhánh bi ể u di ễ n k ế t qu ả phép ki ể m tra Các nút lá biểudiễncáclớphaycácphânbố lớp Nút cao nh ấ t trong cây là nút g ố c. C ÂY QUY Ế T Đ Ị NH : VÍ D Ụ C ÂY QUY Ế T Đ Ị NH : VÍ D Ụ Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi, sinh viên, Uy tín. [...]... vi nỳt lỏ cú cựng giỏ tr thuc tớnh ớch (chng hn, chỳng cú entropy bng 0) Lu ý: Thut toỏn ID3 dựng Information Gain v C4 5 thut C4.5, toỏn c phỏt trin sau nú, dựng Gain Ratio (mt bin th ca Information Gain) Cỏc thuc tớnh vi nhiu giỏ tr Nu thuc tớnh cú nhiu giỏ tr (vớ d, cỏc ngy trong thỏng) ID3 s chn nú C4.5 dựng GainRatio Gain(S, A) GainRatio( S, A) ( ) SplitInformation(S, A) Si Si SplitInformation(S... CHIN LC C BN Bt u t nỳt n biu din tt c cỏc mu Nu cỏc mu thuc v cựng mt lp, nỳt tr thnh nỳt lỏ v c gỏn nhón bng lp ú Ngc li, dựng o thuc tớnh chn thuc tớnh s phõn tỏch tt nht cỏc mu vo cỏc lp Mt nhỏnh c to cho tng giỏ tr ca thuc tớnh c chn v cỏc mu c phõn hoch theo Dựng quy cựng mt quỏ trỡnh to cõy quyt nh Tin trỡnh kt thỳc ch khi bt k iu kin no sau õy l ỳng Tt c cỏc mu cho mt nỳt cho trc u .  À Á PH  NLỚPV À DỰ ĐO Á N NỘI DUNG Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán ế Quy nạp trên cây quy ế t định Phân lớp Bayes Cá h há hâ l ớ khá Cá c . p hâ n l ớ p khá c PHÂN L ớ P LÀ GÌ ? D ự ĐOÁN LÀ GÌ? PHÂN L ớ P LÀ GÌ ? D ự ĐOÁN LÀ GÌ? Có th ể dùng phân l ớ p và d ự đoán đ ể xác l ậ p mô Có th ể dùng phân l ớ p và d ự đoán đ ể xác l ậ p mô hình. á (diti) D à b ộ hâ l ớ đ ể d D ự đ o á n ( pre di c ti on ) : D ự av à o b ộ p hâ n l ớ p đ ể d ự đoán nhãn củacácmẫuchưabiết nhãn. Phân lớp là gì? Dự đoán là gì ? Phâ l ớ d ữ li ệ là ti ế Phân lớp là gì? Dự đoán là gì ? Phâ n l ớ p d ữ li ệ u là ti ế n trình