Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
719,59 KB
Nội dung
TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN HỌ VÀ TÊN SINH VIÊN: PHAN MINH PHƯỚC Mà SINH VIÊN: 18T1021245 TÊN HỌC PHẦN : THỰC TẬP VIẾT NIÊN LUẬN ĐỀ TÀI: Tìm hiểu thuật tốn ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệụ GIẢNG VIÊN HƯỚNG DẪN: LÊ MẠNH THẠNH HUẾ, NĂM 2021 PHIẾU ĐÁNH GIÁ Học kỳ Năm học 2020-2021 Cán chấm thi Cán chấm thi Nhận xét: Nhận xét: Điểm đánh giá CBChT1: Điểm đánh giá CBChT2: Bằng số: Bằng số: Bằng chữ: Bằng chữ: Điểm kết luận: Bằng số Bằng chữ: Thừa Thiên Huế, ngày …… tháng …… năm 20… CBChT2 (Ký vàCBChT1ghirõhọ tên) (Ký ghi rõ họ tên) Tìm hiểu thuật toán ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệu I Tổng quan khai phá liệu: 1.thiết1.KhoảngTạibịđiệnsaohơntửlại(đĩamộtcầncứng,khaithậpCDkỷphátrởROM,dữlạiliệubăngđây,?từ,lượng.v.v.)thôngkhôngtinngừngđượctănglưu lên.trữ Sựtrêntíchcác lũy liệu xảy với một-tốc độ bùng nổ Người ta ước đốn lượng thơng kíchtintrêncỡ củatồncáccầucơtăngsởdữgấpliệuđơi(CSDL)saukhoảngcũng tănghainămlên mộtvàtheocáchđónhanhsốlượngchóng.cũngNóinhưmột hỏicáchđặthìnhra ảnhlàliệulà chúngchúng tata cóđangthể“ngập”khaitháctrongđượcdữ gìliệutừnhưngnhữnglại“núi”“đói”dữtriliệuthức.tưởngCâu chừng “bỏ đi” không ? quyết“Necessityhữuhiệuischothe câumotherh ỏi ofvừainvention”đặtraở trênData[].MiningKhánhi ềurađ ờiđịnhnh mộtnghĩahướngvềDatagiải Mining đề cập phần sau, nhiên - tạm hiểu Data Mining khonhưdữlàmộtliệucơngđượcnghệtích trữtrithứctronggiúpsuốtkhaiqtháctrìnhnhữnghoạtđ ộngthơngc ủatinm ộthữucơngíchtừty,nh ữngt ổch ức 1.2 Khai phá dữKhailiệuphálàdữgì liệu? tập hợp kỹ thuật sử dụng để tự dữđộngliệuĐịnhkhaikhổngnghĩa:tháclồvàvàtìmphứcracáctạp,mốiđồngquanthờihệcũnglẫn nhautìmracủacácdữmẫuliệutiềmtrongẩn mộttrongtậptậphợpdữ liệu 1.3Data.CácMiningchứcđượcnăngchiacủanhỏkhaithànhphámộtdữsốliệu:hướng sau: • Mô tả khái niệm (concept description): thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn • Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin sinh, tài & thị trường chứng kho • Phân lớp dự đoán (classification & prediction): xếp đối tượng vào m ột lớp-đã biết trước Ví dụ: phân lớp vùng địấn,lýtheo.v.v liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thu ật machine learning định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta cịn gọi phân lớp học có giám sát (học có th ầy) • Phân cụm (clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta cịn gọi phân cụm học khơng giám sát (học khơng thầy) • Khai phá chuỗi (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp c ận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao 1.4 Ứng dụng khai phá liệu : • Phân tích thị trường chứng khốn Phát gian lận • Quản lý rủi ro phân tích doanh nghiệp • Phân tích giá trị trọn đời khách hàng • Điều trị y học (medical treatment) • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) 1.5 Các kỹ thuật khai phá liệu: • choKỹthuật•phépKỹkhaiphânthuậtpháloạiphândữmộtliệutíchđốiđầutượngphântiênloạivàolàkỹmột(Classificationthu ậtho ặcphânmộttíchs ốAnalysis)phânl ớpcholo ại.tr ước.Đây kỹ thu ật Bạnmơtảcónhiềuthểsửthuộcdụngtínhkỹthuậtđểphânnàyloạiđểphânđốitượngloạikháchvàomộthàng,l ớpm ặtc ụth ể.hàng, v.v b ằng cách Chúng ta thường sử dụng kỹ thuật khai thác liệu để lấy dụngtrọngcáctừdữthuậtliệutốnvàsiêukhácdữnhauliệu.tùyVìv ậy,thuộctrongvào phânm ụctiêutíchs ửphând ụng.lo ại, chúng thơngtatincầnquanáp phápVídụ,hoặcEmailspam.OutlookHaysửcácdụngdoanhcácnghiệpthu ậttốncóthểnhấtáp dụngđịnhđểkỹmơthuậttả mộtnàyđểemailphânlà loạihợp khách hàng theo đ ối tượng hay đ ộ tuổi Kỹ thuật•KỹAssociationthuậtAssociationRuleLearningRule Learningtrongkhai: phá d ữ liệu đ ược sử d ụng đ ể xác định mối quan hệ biến khác sở liệu Ngoài ra, cịn sử dụng để “giải nén” mẫu ẩn liệu Association Rule hữu ích để kiểm tra, dự đoán hành vi thường áp dụng ngành bán lẻ Thêm vào đó, doanh nghiệp sử dụng kỹ thuật để xác định hành vi mua sắm, phân tích liệu giỏ hàng khách hàng tiềm Trong lĩnh vực Công nghệ Thơng tin, lập trình viên sử dụng kỹ thuật để xây dựng chương Về trình Machine bản,kỹthuật Learning khai phá liệu (Data Mining) dùng để nhấn mạnh vào • Kỹ thuật phát bất thường (Anomaly or Outlier Detectio ): việc quan sát mục liệu liệu để tìm t ập li ệu không khớp với mẫu dự kiến Bất thường đề cập đến độ lệch, khác thường, nhiễu ngoại lệ Sự bất thường xem quan trọng cung cấp s ố thơng tin cần thiết Nó liệu khác biệt so với mức trung bình chung tập liệu Điều khác thường xảy nhà phân tích liệu cần ý Kỹ thuật sử dụng nhiều lĩnh vực khác Chẳng hạn phát xâm nhập hay theo dõi sức khỏe “Cụm” có nghĩa nhóm đối tượng liệu Các đối tượng tương tự • Kỹ thuật phân tích theo cụm (Cluster t ượngAnalysis): nằm cụm Kết đối tương tự nhóm Về bản, kỹ thuật khai phá liệu thường ứng dụng để tạo hồ sơ khách hàng Hoặc lĩnh vực Marketing, xem vi ệc chia phân Theo k thuật ách ngữthống hàng kúc kê, phân tích hồi quy sử dụng để xác định phân tích • Kỹ thuật phân tích hồi quy (regression analysis): mối quan hệ biến Nó giúp bạn hiểu giá trị đặc trưng thay đổi biến phụ thuộc Trong khai phá liệu, kỹ thuật dự báo ứng dụng số trường hợp đặc biệt Nó sử để khám phá mối quan hệ biến độc lập phụ thu ộc • Kỹ thuật dụng ựbáo (prediction): Chẳng hạn, bạn sử dụng kỹ thuật dự báo cho việc bán hàng để dự đoán l ợi nhuận cho tương lai Giả sử, bán hàng biến độc lập, lợi nhuận có th ể biến phụ thuộc Khi đó, vẽ đường cong hồi quy để dự đoán lợi nhuận II Cây định : ệ ết đ ị CâyKháiquyếtni mđịnhCây(Decisionquy Tree)nh (Decision làmộtcây Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượngncó thể thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu ch ưa biết Ta xét ví dụ kinh điển khác định Giả sử dựa theo thời tiết mà bạn nam định đá bóng hay khơng? Những đặc điểm ban đầu là: Thời tiết • Độẩ m • • DựaGió vào thơng tin trên, bạn xây dựng mơ sau: định Dựa theo mơ hình trên, ta thấy: Mơ hình CịnNếu nếutrờitrờinắng,nắng,độẩmđộbìnhẩmcaothườngthìkhảthìnăngkh ảnăngcácbạncácnamb ạn sẽnamkhơngđich ơiđich ơibóngbóng.sẽcao thuật ngữ thuộc Nhiệt động lực học, thước đo biến đổi, hỗn Entropy Cây định (Decision Tree) loạn ngẫu nhiên Năm 1948, Shannon mở rộng khái niệm E tropy lĩnh vực nghiên cứu, thống kê với công thức sau: Với phân phối xác suất biến rời rạc nhận ,…,x Giả sử xác suất để x1,x2 n Ký hiệu phân phối p=(p1 ,p2 ,…,pn) Entropy phân phối định nghĩa là: Giả sử bạn tung đồng xu, H = -[0.5 ln(0.5) + 0.5 ln(0.5)] Hình vẽ biểu diễn thay đổi hàm rằ ng, • • P tinh khiết:i P vẩn đục: p = 0.5, hàm Entropy formation Gain Cây định (Decision Tree) Information Gain dựa giảm hàm Entropy tập liệu phân chia thuộc tính Để xây dựng định, ta phải tìm tất thuộc tính trả Infomation gain cao nh ất Để xác định nút mơ hình định, ta thực tính Infomation Bước Gain nút theo trình tự sau: • : Tính tốn hệ số thuộc lớp c cho trước: Bước • liệ u tro ng S chia K c hild node S m Bước : Chỉ số Gain Information tính bằng: – Với ví dụ trên, ta tính hệG(x,số S) = H(S)nhưH(x,S)sau: Entropy HệEntropysốParent = -(0theo.57*ln(0phương.57) pháp+0.43*ln(0chiathứ.43))nhất:=0.68 Entropy Entropyleft = -(.75*ln(0.75) + 0.25*ln(0.25)) = 0.56 TaEntropycóthểrighttính=-(.hệ33*ln(0số.33) + 0.67*ln(0.67))như=sau:0.63 Information Gain – HệInformationsố Gainvới=phương0.68(4*0pháp.56chia+3*0thứ.63)/7hainhư=0.09sau: Entropy Entropyleft = -(.67*ln(0.67) + 0.33*ln(0.33)) = 0.63 Entropymiddle = -(.5*ln(0.5) + 0.5*ln(0.5)) = 0.69 • Để tránh trường họp này, ta dừng theo số phương pháp sau đây: • node có entropy 0, tức điểm node thuộc class node có có số điểm bị phân lớp sai để tránh • đị nh dựa t rê n class c hiế m đa s ố tro ng node • khoảng cách từ node đến root node đạt tới làm giảm độ phức tạp • nế ut ổ ng s ốlea f node v ượt q uá ng ưỡ ng nà o re e việc phân chia node khơng làm giảm ng ưỡng nà o đó) Một số thuật tốn khác Ngồ i , ta cị n có p hươ ng p há p cắ t ta ỉ • Ngồi ID3, C4 5, ta cịn số thuật tốn khác như: • Thuật toán CHAID: tạo định cách sử dụng thống kê chi -square để xác định phân tách tối ưu Các biến mục tiêu đầu vào số (liên tục) phân lo ại • Thuật toán C&R: sử dụng phân vùng đệ quy để chia Tham biến mục tiêu dạng số MARS • phân loại Conditional Inference Trees Ưu/nhược điểm thuật toán định Ưu điểm Cây định thuật toán đơn giản ph ổ biến Thuật toán sử dụng rộng rãi bới lợi ích nó: • Mơ hình sinh quy tắc d ễ hiểu cho người đ ọc, t ạo b ộ lu ật v ới m ỗi nhánh m ột lu ật • • • • Dữ liệu đầu vào là liệu missing, khơng cần chuẩn hóa tạo biến giả Có thể làm việc với liệu số liệu phân loại Có thể xác thực mơ hình cách sử dụng kiểm tra thống kê Có khả việc với liệu lớn Nhược điểm Kèm với đó, định có nhược điểm cụ thể: định phụ thuộc lớn vào liệu bạn Thạm chí, với thay đổi • nhỏMơhìnhtrongcâybộ liệu, cấu trúc mơ hình định thay đổi hồn tồn • Cây định hay gặp vấn đề overfitting III Thuật toán ID3: Giải thuật ID3 (gọi tắt ID3) Được phát triển đồng thời Quinlan AI Breiman, Friedman, Olsen Stone thống kê ID3 giải thuật học đơn giản tỏ thành công nhiều lĩnh vực ID3 gi ải thu ật hay cách biểu diễn tri thức học nó, tiếp cận việc quản lý tính ph ức t ạp, heuristic dùng cho việc chọn lựa khái niệm ứng viên, tiềm c việc xử lý liệu nhiễu ID3 biểu diễn khái niệm (concept) dạng định (decision tree) Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính Như vậy, nhiệm vụ giải thuật ID3 học định từ tập ví dụ rèn luyện (training example) hay gọi liệu rèn luyện (training data) Input: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình hu ống, hay đối tượng đó, giá trị phân loại Output: Cây định có khả phân loại đắn ví dụ t ập d ữ liệu rèn luyện, hy vọng phân loại cho ví dụ chưa g ặp t ương lai Giải thuật ID3 xây dựng định trình bày sau: Lặp: Gán A thuộc tính định cho Với giá trị A, tạo nhánh A weka -> classicfiers-> tree -> j48 === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M Relation: Book1 Instances: 14 Attributes: outlook temperature humidity windy play Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 pruned tree -outlook = sunny | humidity 75: dontplay (3.0) outlook = overcast: play (4.0) outlook = rain | windy = FALSE: play (3.0) | windy = TRUE: dontplay (2.0) Number of Leaves : Size of the tree : Time taken to build model: 0.01 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC 0.400 0.778 Weighted Avg === Confusion Matrix === a b < classified as | a = dontplay 2tại7| bphần=playbên trái mục result list click chuột phải vào “trees.j48” chọn visualize trees- phần mềm định : VẬN DỤNG THỰC TẾ VỀ KHẢ NĂNG CĨ VIỆC LÀM CỦA SINH VIÊN -Ta có bảng liệu NGÀNHsau: CNTT SAU KHI RA TRƯỜNG nganh M C C K C K M M K C M M K C M K C M M C C K K K M C M M M K C K K M M C C laptrinh Tco KQ T K T T T K T K K K T K K T T K T K T T T K K T T K K K K T T K T K K K co khong co khong co khong co co khong co co khong co co co co khong khong khong co co khong co khong co khong co khong co khong khong khong co co co khong C K D C ương ự m C đ B ềm T : t ánh tick vào ô STT r Để weka ,tuy nhiên STT không ph ựng tập luật , chọn ố mặ c định s au: nguyên tham s xây d Sau ấn start ta , kết : m với ột c Nh ách nhanh chóng ph ... tên) Tìm hiểu thuật tốn ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệu I Tổng quan khai phá liệu: 1.thiết1.KhoảngTạibịđiệnsaohơntửlại(đĩamộtcầncứng,khaithậpCDkỷphátrởROM,dữlạiliệubăngđây,?từ,lượng.v.v.)thơngkhơngtinngừngđượctănglưu... 1.2 Khai phá dữKhailiệuphálàdữgì liệu? tập hợp kỹ thuật sử dụng để tự dữ? ?ộngliệuĐịnhkhaikhổngnghĩa:tháclồvàvàtìmphứcracáctạp,mốiđồngquanthờihệcũnglẫn nhautìmracủacácdữmẫuliệutiềmtrongẩn mộttrongtậptậphợpdữ... Gini: Phân nhánh số GINI: Phân nhánh thuộc tính nhị phân: Biến đổi định thành luật: - đầu tiênKhaitạobảngthácdữphầnliệubằngmềmexcelwekanhưsau :và ứng dụng thuật toán ID3 mởlưu wekalạivới, địnhchọndạngexplorercsv