Bài báo cáo nhóm môn trí tuệ nhân tạo CHƯƠNG 1. TÌM HIỂU CÔNG CỤ WEKA CÁC CHỨC NĂNG CHÍNH CỦA WEKA CHƯƠNG 2 TÌM HIỂU VỀ GIAO DỊCH – TRANSACTION .....................................................................................................................................................................................................................................................................................................................
TRƯỜNG ĐẠI HỌC ĐỒNG THÁP KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO MƠN HỌC TRÍ TUỆ NHÂN TẠO TÊN ĐỀ TÀI: MÁY HỌC _ 01 NGÀNH: SƢ PHẠM TIN HỌC LỚP: ĐHSTIN19-L2 T N U NGHI PHẠ V N - 0019440217 N - 0019440216 TẤN PHƢỚ - 0019440224 Đồng Tháp – Năm 2020 TRƯỜNG ĐẠI HỌC ĐỒNG THÁP KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO MÔN HỌC TRÍ TUỆ NHÂN TẠO TÊN ĐỀ TÀI: MÁY HỌC _ 01 NGÀNH: SƢ PHẠM TIN HỌC LỚP: ĐHSTIN19-L2 T N U NGHI PHẠ V N - 0019440217 N - 0019440216 TẤN PHƢỚ - 0019440224 Đồng Tháp – Năm 2020 PHỤ LỤC HƢƠNG TÌM HIỂU CƠNG CỤ WEKA CÁC CHỨ N NG HÍNH I Tìm hiểu cơng cụ Weka Giới thiệu phần mềm Weka Cài đặt Weka II Các chức phần mềm Các chức phần mềm: WEKA – Các môi trường WEKA – Môi trường Explore WEKA Khuôn dạng tập liệu 10 WEKA Explorer: Tiền xử lý liệu 10 WEKA Explorer: Các phân lớp (1) 11 WEKA Explorer: Các phân lớp (2) 11 WEKA Explorer: Các phân lớp (3) 11 WEKA Explorer: Các phân lớp (4) 12 10 WEKA Explorer: Các phân lớp(5) 12 11 WEKA Explorer: Các phân cụm (1) 13 12 WEKA Explorer: Các phân cụm (2) 13 13 WEKA Explorer: Luật kết hợp 13 14 WEKA Explorer: Lựa chọn thuộc tính 13 15 WEKA Explorer: Hiển thị liệu 14 III Tìm hiểu đặc tính tập liệu 14 Khái quát tập liệu 14 Các kiểu liệu 14 Các kiểu giá trị thuộc tính 15 Tiến hành mô tả tập liệu File 15 HƢƠNG - TÌM HIỂU VỀ GIAO DỊCH – TRANSACTION 16 I Khái niệm sở dử liệu giao dịch 16 II Khái niệm giao dịch 16 HƢƠNG SỬ DỤNG WEKA ĐỂ CHẠY THUẬT TOÁN APRIORI 18 I Tổng quan thuật toán Apriori 18 Nguyên tắc Apriori 18 Mơ tả thuật tốn Apriori việc tìm luật luật kết hợp 18 II Ứng dụng thuật tốn Apriori tìm luật kết hợp Weka 19 HƢƠNG TÌM HIỂU CƠNG CỤ WEKA CÁC CHỨ N NG HÍNH I Tìm hiểu cơng cụ Weka Giới thiệu phần mềm Weka - WEKA – Waikato Environment for Knowledge Analysis Là phần mềm khai thác liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand - Mục tiêu: Xây dựng công cụ đại nhằm phát triển kỹ thuật máy học áp dụng chúng vào toán khai thác liệu thực tế - Năm 1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên Weka - Năm 1997 – Quyết định xây dựng lại Weka từ đầu Java, có cài đặt thuật tốn mơ hình hóa - Năm 2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award Xếp hạng Sourceforge.net từ 25-06-2007: 241 (907,318 lượt) Thông qua địa trang chủ: http://www.cs.waikato.ac.nz/ml/weka/ Các phiên Weka: - Snapshots vá lỗi nhất, thường cập nhật hàng đêm - Book versions phiên thể chức mô tả sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) Ian.H.Witten Eibe Frank - Developer versions phiên thử nghiệm, hỗ trợ nhiều tính cịn chưa ổn định WEKA xây dựng ngôn ngữ Java, cấu trúc gồm 600 lớp, tổ chức thành 10 packages ài đặt Weka Download cơng cụ Weka: https://sourceforge.net/projects/weka/ Hình 1: Trang chủ Download weka-3-8-4-azul-zulu-windows Hình 2: Giao diện chương trình WEKA sau cài đặt II Các chức phần mềm Khảo sát liệu: tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp Các chức phần mềm: Khảo sát liệu: tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp Tiền xử lí liệu: - Hiển thị thông tin liệu xét + Tập liệu: tên, số mẫu, số thuộc tính + Các thuộc tính: tên, kiểu liệu, giá trị thuộc tính, tỷ lệ % + Biểu đồ minh họa thông tin - Cung cấp lọc liệu thơng dụng, ví dụ: + ReplaceMissingValues: thay giá trị thiếu + Normalize: chuẩn hóa liệu đoạn [0, 1] + Discretize: rời rạc hóa liệu Khai thác luật kết hợp: Cung cấp thuật toán khai thác luật kết hợp - Apriori - PredictiveApriori: cải tiến thuật toán Apriori Phân lớp: Cung cấp nhiều thuật toán phân lớp, gom thành nhóm dựa sở lý thuyết chức - Bayes: mạng Bayes, Naïve Bayes - Hàm: SVM, phương pháp hồi quy, hậu tuyến tính… - Cây: ID3, C4.5 (J58)… - Các phương pháp phân lớp dựa luật - Bagging, AdaBoost… Gom nhóm: Cung cấp thuật tốn gom nhóm phổ biến Ví dụ: - DBSCan - EM (Expectation Maximization - K-Means Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng, đánh giá mơ hình học Biểu diễn trực quan liệu nhiều dạng đồ thị khác (biểu đồ trục, cây, đồ thị, biểu đồ vùng) Một tập công cụ giải thuật học máy, khai phá liệu, phương pháp thí nghiệm đánh giá Giao diện đồ họa (gồm tính hiển thị hóa liệu) Mơi trường cho phép so sánh giải thuật học máy khai phá liệu WEKA – ác môi trƣờng Simple CLI: Giao diện đơn giản kiểu dịng lệnh (như MS-DOS) Explorer: Môi trường cho phép sử dụng tất khả WEKA để khám phá liệu Experimenter: Môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình học máy KnowledgeFlow: Mơi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế bước (các thành phần) thí nghiệm WEKA – trƣờng Explore Preprocess: Để chọn thay đổi (xử lý) liệu làm việc Classify: Để huấn luyện kiểm tra mô hình học máy (phân loại, hồi quy/dự đốn) Cluster: Để học nhóm từ liệu (phân cụm) Associate: Để khám phá luật kết hợp từ liệu Select attributes: Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu Visualize: Để xem (hiển thị) biểu đồ tương tác chiều liệu WEKA Khuôn dạng tập liệu WEKA Explorer: Tiền xử lý liệu - Dữ liệu nhập vào (imported) từ tập tin có khn dạng: ARFF, CSV - Dữ liệu đọc vào từ địa URL, từ sở liệu thông qua JDBC - Các công cụ tiền xử lý liệu WEKA gọi filters • Rời rạc hóa (Discretization) • Chuẩn hóa (Normalization) • Lấy mẫu (Re-sampling) • Lựa chọn thuộc tính (Attribute selection) • Chuyển đổi (Transforming) kết hợp (Combining) thuộc tính,… 10 WEKA Explorer: Các phân lớp (1) Các phân lớp (Classifiers) WEKA tƣơng ứng với mơ hình dự đoán đại lƣợng kiểu định danh (phân lớp) đại lƣợng kiểu số (hồi quy/dự đoán) Các kỹ thuật phân lớp đƣợc hỗ trợ WEKA Naïve Bayes classifier and Bayesian networks Decision trees Instance-based classifiers Support vector machines Neural networks,… WEKA Explorer: Các phân lớp (2) Lựa chọn phân lớp (classifier) Lựa chọn tùy chọn cho việc kiểm tra (test options) Use training set Bộ phân loại học đánh giá tập học Supplied test set Sử dụng tập liệu khác (với tập học) việc đánh giá Cross-validation Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation Percentage split Chỉ định tỷ lệ phân chia tập liệu việc đánh giá WEKA Explorer: Các phân lớp (3) More options… Output model Hiển thị phân lớp học Output per-class stats Hiển thị thông tin thống kê precision/recall lớp Output entropy evaluation measures Hiển thị đánh giá độ hỗn tạp (entropy) tập liệu Output confusion matrix Hiển thị thông tin ma trận lỗi phân lớp 11 (confusion matrix) phân lớp học Store predictions for visualization Các dự đoán phân lớp lưu lại nhớ, để hiển thị sau Output predictions Hiển thị chi tiết dự đoán tập kiểm tra Cost-sensitive evaluation Các lỗi (của phân lớp) xác định dựa ma trận chi phí (cost matrix) định Random seed for XVal / % Split Chỉ định giá trị random seed sử dụng cho q trình lựa chọn ngẫu nhiên ví dụ cho tập kiểm tra WEKA Explorer: Các phân lớp (4) Classifier output hiển thị thông tin quan trọng Run information Các tùy chọn mơ hình học, tên tập liệu, số lượng ví dụ, thuộc tính, f.f thí nghiệm Classifier model (full training set) Biểu diễn (dạng text) phân lớp học Predictions on test data Thông tin chi tiết dự đoán phân lớp tập kiểm tra Summary Các thống kê mức độ xác phân lớp, f.f thí nghiệm chọn Detailed Accuracy By Class Thơng tin chi tiết mức độ xác phân lớp lớp Confusion Matrix Các thành phần ma trận thể số lượng ví dụ kiểm tra (test instances) phân lớp bị phân lớp sai 10 WEKA Explorer: Các phân lớp(5) Result list cung cấp số chức hữu ích Save model Lưu lại mơ hình tương ứng với phân lớp học vào tập tin nhị phân (binary file) Load model Đọc lại mơ hình học trước từ tập tin nhị phân Re-evaluate model on current test set Đánh giá mô hình (bộ phân lớp) học trước tập kiểm tra (test set) Visualize classifier errors Hiển thị cửa sổ biểu đồ thể kết việc phân lớp Các ví dụ phân lớp xác biểu diễn ký hiệu dấu chéo (x), cịn ví dụ bị phân lớp sai biểu diễn ký hiệu ô vuông (◻) 12 11 WEKA Explorer: Các phân cụm (1) - Các phân cụm (Cluster builders) WEKA tương ứng với mơ hình tìm nhóm ví dụ tương tự tập liệu - Các kỹ thuật phân cụm hỗ trợ WEKA + Expectation maximization (EM) + k-Means… - Các phân cụm hiển thị kết so sánh với cụm (lớp) thực tế 12 WEKA Explorer: Các phân cụm (2) - Lựa chọn phân cụm (cluster builder) - Lựa chọn chế độ phân cụm (cluster mode) + Use training set Các cụm học kiểm tra tập học + Supplied test set Sử dụng tập liệu khác để kiểm tra cụm học + Percentage split Chỉ định tỷ lệ phân chia tập liệu ban đầu cho việc xây dựng tập kiểm tra + Classes to clusters evaluation So sánh độ xác cụm học lớp định - Store clusters for visualization → Lưu lại phân lớp nhớ, để thị sau Ignore attributes → Lựa chọn thuộc tính khơng tham gia vào q trình học cụm 13 WEKA Explorer: Luật kết hợp - Lựa chọn mơ hình (giải thuật) phát luật kết hợp - Associator output hiển thị thông tin quan trọng + Run information Các tùy chọn mơ hình phát luật kết hợp, tên tập liệu, số lượng ví dụ, thuộc tính + Associator model (full training set) Biểu diễn (dạng text) tập luật kết hợp phát Độ hỗ trợ tối thiểu (minimum support) Độ tin cậy tối thiểu (minimum confidence) Kích thước tập mục thường xuyên (large/frequent itemsets) 14 WEKA Explorer: Lựa chọn thuộc tính - Để xác định thuộc tính quan trọng 13 - Trong WEKA, phương pháp lựa chọn thuộc tính (attribute selection) bao gồm phần: + Attribute Evaluator Để xác định phương pháp đánh giá mức độ phù hợp thuộc tính Vd: Correlation-based, wrapper, information gain, chi- squared,… + Search Method Để xác định phương pháp (thứ tự) xét thuộc tính Vd: Best-first, random, exhaustive, ranking,… 15 WEKA Explorer: Hiển thị liệu - Hiển thị liệu cần thiết thực tế Giúp để xác định mức độ khó khăn tốn học - WEKA hiển thị + Mỗi thuộc tính riêng lẻ (1-D visualization) + Một cặp thuộc tính (2-D visualization) - Các giá trị (các nhãn) lớp khác hiển thị màu khác - Thanh trượt Jitter hỗ trợ việc hiển thị rõ ràng hơn, có q nhiều ví dụ (điểm) tập trung xung quanh vị trí biểu đồ - Tính phóng to/thu nhỏ (bằng cách tăng/giảm giá trị PlotSize PointSize) III Tìm hiểu đặc tính tập liệu Khái quát tập liệu Một tập liệu (dataset) tậphợp đối tượng (objects) thuộc tính chúng Mỗi thuộc tính (attribute) mơ tả đặc điểm đối tượng Một tập giá trị thuộc tính mơ tả đối tượng Các kiểu liệu - Bản ghi (Record) + Các ghi csdl quan hệ + Ma trận liệu + Biểu diễn văn (document) + Dữ liệu giao dịch - Đồ thị (Graph) + World Wide Web + Mạng thông tin, mạng xã hội + Các cấu trúc phân tử (Molecular structures) - Có trật tự (Ordered) + Dữ liệu khơng gian (vd: đồ) 14 + Dữ liệu thời gian (vd: time-series data) + Dữ liệu chuỗi (vd: chuỗi giao dịch) + Dữ liệu chuỗi di truyền(genetic sequence data) Các kiểu giá trị thuộc tính Kiểu định danh/chuỗi (norminal): khơng có thứ tự Nó lấy giá trị từ tập khơng có thứ tự giá trị (định danh) Ví dụ: Các thuộc tính như: Name, Profession, … Kiểu nhị phân (binary): trường hợp đặc biệt kiểu định danh Tập giá trị gồm có giá trị (Y/N, 0/1, T/F) Kiểu có thứ tự (ordinal): Lấy giá trị từ tập có thứ tự giá trị Ví dụ thuộc tính lấy giá trị số như: Age, Highv … hay thuộc tính lấy giá trị từ tập {low, medium, high} Tiến hành mô tả tập liệu File Ta tiến hành load file supermarket.arff gói data chương trình Hình 3: Tải file supermarket.arff Thơng tin tập dử liệu thu được: - @Relation : supermarket - Có 217 Attribute(thuộc tính), thuộc tính có kiểu giá trị norminal - Số data 4627 - Tất thuộc tính mang kiểu Nominal - No of rows : 4627 rows - No of columns : 217 columns Sau vài số liệu cho mẩu thử bao gồm tổng trọng lượng mẫu so với trọng lượng ghi - Deparment1 với tổng số 1047 trống 3580 tức 77% so với tổng số trường hợp đưa - Deparment2 với tổng số 131 trống 4469 tức 97% so với tổng số trường hợp đưa - Deparment3 với tổng số 90 trống 4537 tức 98% so với tổng số trường hợp đưa … - Deparment214 với tổng số trống 4627 tức 100% so với tổng số trường hợp đưa 15 - Deparment215 với tổng số trống 4627 tức 100% so với tổng số trường hợp đưa - Deparment216 với tổng số trống 4627 tức 100% so với tổng số trường hợp đưa Những thuộc tính có tổng nhỏ tổng số đưa 4627 mẩu thử Có thuộc tính trống hồn toàn so với mẩu thử đưa HƢƠNG - TÌM HIỂU VỀ GIAO DỊCH – TRANSACTION I Khái niệm sở dử liệu giao dịch Cơ sỡ dư liệu giao dịch (transaction database )là cở dử liệu thường thu thập từ liệu bán hàng hay trung tâm thương mại.Trong số liệu thống kê phân tích lần mua hàng khách hàng mua sản phẩm II Khái niệm giao dịch Hạng mục (item): định nghĩa mặt hàng giỏ hay thuộc tính Ta xét tập hạng mục (itemset) I = {i1, i2, i3, i4…, in} ví dụ : I = {sữa,bánh mì,ngũ cốc,sữa chua} i1, i2, i3, i4…, in mặt hàng Giao dịch (Transaction): tập hạng mục mua giỏ (có TID-mã giao dịch) Dưới bảng transaction chứa transaction chứa nhiều item nhất(t1) item phân tích từ file supermarkert.arff: Transaction t1 Item {department1, Baby needs ,Bread and cake, Baking needs, Juice sat cord ms, Tea, Biscuits, Canned fish meat, Canned fruit, Canned vegetables, Breakfast food, Cleaner polishers, Coffee, Sauces gravy pkle, Confectionary, Puddings deserts, Frozen foods, Spices, Jams spreads, Insecticides, Pet food, Laundry needs, Party snack foods, Tissues paper prd, Wrapping, Pkt canned soup, Soft drink, Health food other, Beverages hot, Deodorants soap, Haircare, 16 Dental needs, Sanitary pads, Cheese, Milk cream, Margarine, Small goods, Dairy foods, Beef, Fruit, Potatoes, Vegetables, Brushware, Electrical, Kitchen , Perpared meals , Preserving needs , Small goods2 } t84 {department1} t267 {department1} t373 { Cigarette cartons } t662 {department2} t663 {department2} … … t1229 {department1} t1601 {department79} t1869 { Cigarette cartons } t1929 {department1} t2281 {department2} t2283 {department2} t3230 {soft drinks} t3541 { Cigarette cartons } t3889 {department2} t3900 {department2} t3930 {pork} t3998 { Cigarette cartons } t4034 { Cigarette cartons } 17 t4291 {department 211} t4322 {750ml red imp } t4432 {750ml red imp } t4437 {department2} t4472 {department1} t4527 {department1} HƢƠNG SỬ DỤNG WEKA ĐỂ CHẠY THUẬT TỐN APRIORI I Tổng quan thuật tốn Apriori Apriori thuật toán cổ điển dùng để khai thác hạng mục theo tần suất kết hợp việc nghiên cứu luật để quản lý sở liệu Bài toán dặt cho thuật toán tìm tất tập mục phổ biến với minsup sử dụng tập mục phổ biến để sinh luật kết hợp với độ tin cậy minconf định Nguyên tắc Apriori - Đếm số lượng item, tìm item xuất nhiều - Tìm cặp ứng viên: Đếm cặp => cặp item xuất nhiều - Tìm ứng viên: Đếm ba => ba item xuất nhiều Và tiếp tục với 4, 5… - Nguyên tắc chủ yếu: Mọi tập tập phổ biến tập phổ biến Mơ tả thuật tốn Apriori việc tìm luật luật kết hợp Bước Duyệt (Scan) tồn transaction database để có support S 1itemset, so sánh S với min_sup, để có 1-itemset (L1) Bước Sử dụng Lk-1 nối (join) Lk-1 để sinh candidate k-itemset Loại bỏ itemsets frequent itemsets thu k-itemset Bước Scan transaction database để có support candidate kitemset, so sánh S với min_sup để thu frequent k –itemset (Lk) Bước Lặp lại từ bước Candidate set (C) trống (khơng tìm thấy frequent itemsets) Bước Với frequent itemset I, sinh tất tập s không rỗng I Bước Với tập s không rỗng I, sinh luật s => (I-s) độ tin cậy (Confidence) > =min_conf 18 II Ứng dụng thuật tốn Apriori tìm luật kết hợp Weka Đầu tiên ta tiến hành nạp dử liệu file supermarket.arff vào Weka: Sau loại bỏ thuộc tính “Total” “bread and cake”: Hình 5: Loại bỏ thuộc tính “Total” “bread and cake” Hình 6: Kết số thuộc tính cịn lại Tiếp tục ta áp dụng thuật toán Apriori để khai phá luật kết hợp, với thơng số sau: Hình 7: Khai phá luật kết hợp với tham số minsup = 0.3; minconf = 0,7; numRules = 10 apriori 19 Hình 8: Kết khai phá luật kết hợp với tham số minsup = 0.3; minconf = 0,7; numRules = 10 apriori Với tham số minsup = 0,3; minconf = 0,7 ; numRules (Số luật tìm được) = 10 ta chọn luật kết hợp có độ xác cao dạng: M1 ^ M2 => M3 (M item) : R1: biscuits ^ vegetables => fruit (conf = 80%) R2: baking needs ^ fruit => vegetables (conf= 78%) R3: frozens foods ^ fruit => vegetables (conf = 78%) Tổng số luật thu là: 10 Tương tự ta thực lần lược với tham số khác o minsup = 0.2; minconf = 0,7 ; numRules = 1000 ta thu luật là: Hình 9: Khai phá luật kết hợp với tham số minsup = 0.2; minconf = 0,7 ; numRules = 1000 apriori R1: beef ^ fruit => vegetables (conf = 83%) R2: dairy foods ^ vegetables => fruit(conf= 81%) R3: breakfast food ^ vegetables => fruit (conf = 80%) Tổng số luật thu 273 minsup = 0.1; minconf = 0,7 ; numRules = 1000 ta thu luật là: 20 Hình 10: Khai phá luật kết hợp với tham số minsup = 0.1; minconf = 0,7 ; numRules = 1000 apriori R1: canned fruit ^ vegetables = > fruit = 744(conf=82%) R2: canned vegetables ^ fruit => vegetables (conf = 82%) R3: dairy foods ^ vegetables => fruit(conf= 81%) Tổng số luật thu 1000 minsup = 0.4; minconf = 0,7 ; numRules = 1000 ta thu luật là: Hình 11: Khai phá luật kết hợp với tham số minsup = 0.4; minconf = 0,7 ; numRules = 1000 apriori R1:vegetables=>fruit (conf = 75% ) R2: fruit => vegetables(conf = 75%) Tổng số luật tìm Như trường hợp ta không thu luật thỏa dạng: M1 ^ M2 => M3 Nhận xét: Ta thấy liệu số giao dịch file supermarket.arff liệu không nhỏ (4627 giao dịch) , tiến hành khai phá luật kết hợp ta đặt giá trị cho minsup lớn cho dử liệu khơng đảm bảo tìm số luật theo yêu cầu 21 TÀI LIỆU THAM KHẢO Website: https://fb.com/tailieudientucntt Website: https://www.cs.waikato.ac.nz/ml/weka/ Website: http://bis.net.vn/forums/p/389/683.aspx 22 ... định thuộc tính quan trọng 13 - Trong WEKA, phương pháp lựa chọn thuộc tính (attribute selection) bao gồm phần: + Attribute Evaluator Để xác định phương pháp đánh giá mức độ phù hợp thuộc tính Vd:... kiểu Nominal - No of rows : 4627 rows - No of columns : 217 columns Sau vài số liệu cho mẩu thử bao gồm tổng trọng lượng mẫu so với trọng lượng ghi - Deparment1 với tổng số 1047 trống 3580 tức... số minsup = 0,3; minconf = 0,7 ; numRules (Số luật tìm được) = 10 ta chọn luật kết hợp có độ xác cao dạng: M1 ^ M2 => M3 (M item) : R1: biscuits ^ vegetables => fruit (conf = 80%) R2: baking needs