Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
332,24 KB
Nội dung
Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học: Giới thiệu Khai phá liệu Giới thiệu công cụ WEKA ề Tiền xử lý liệu Phát luật kết hợp Các kỹ thuật phân lớp dự đốn Các kỹ thuật phân nhóm Khai Phá Dữ Liệu WEKA – Giới thiệu WEKA công cụ phần mềm viết Java phục vụ lĩnh vực học máy Java, khai phá liệu Các tính g • Một tập cơng cụ tiền xử lý liệu, giải thuật học máy, khai phá liệu, p phương pháp thí nghiệm đánh giá gp p g ệ g • Giao diện đồ họa (gồm tính hiển thị hóa liệu) • Mơi trường cho phép so sánh giải thuật học máy khai phá liệu • Có thể tải từ địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/ Khai Phá Dữ Liệu WEKA – Các mơi trường g Simple CLI Giao diện đơn giản kiể dòng lệnh (như MS-DOS) kiểu (nh MS DOS) Explorer (chúng ta chủ yếu sử dụng môi trường này!) Môi trường cho phép sử dụng tất khả WEKA để khám phá liệu Experimenter Môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình học máy KnowledgeFlow K l d Fl Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế bước (các thành phần) thí nghiệm Khai Phá Dữ Liệu WEKA – Môi trường Explorer g p Khai Phá Dữ Liệu WEKA – Môi trường Explorer g p Preprocess Để chọn thay đổi (xử lý) liệu làm việc Classify Để huấn luyện kiểm tra mơ hình học máy (phân loại, hồi quy/dự đoán) q y ự ) Cluster Để học nhóm từ liệu (phân cụm) Associate Để khám phá luật kết hợp từ liệu Select attributes Để xác định lựa chọn thuộc tính liên quan (quan trọng) ể liệu Visualize Để xem (hiển thị) biểu đồ tương tác chiều liệu Khai Phá Dữ Liệu WEKA – Khuôn dạng tập liệu g p WEKA làm việc với tập tin văn (text) có khn dạng ARFF Ví dụ tập liệu Tên tập ệ liệu @relation weather outlook {sunny, overcast, rainy} Thuộc tính kiểu định danh temperature real humidity real i i Thuộc tính kiểu số windy {TRUE, FALSE} play {yes, no} Thuộc tính phân lớp (mặc định thuộc tính cuối cùng) @data sunny,85,85,FALSE,no Các ví dụ , , , ,y overcast,83,86,FALSE,yes (instances) … @attribute @attribute @attribute @ i @attribute @attribute Khai Phá Dữ Liệu WEKA Explorer: Tiền xử lý liệu p ý Dữ liệu nhập vào (imported) từ tập tin có khn dạng: ARFF, CSV g , Dữ liệu đọc vào từ địa URL, từ sở liệu thông qua JDBC Các công cụ tiền xử lý liệu WEKA gọi filters • • • • • • Rời rạc hóa (Discretization) Chuẩn hóa (Normalization) Lấy mẫu (Re-sampling) Lựa chọn thuộc tính (Attribute selection) Chuyển Ch ể đổi (T (Transforming) kết hợp (Combining) th ộ tính f i ) h (C bi i ) thuộc tí h … →Hãy xem giao diện WEKA Explorer… y g Khai Phá Dữ Liệu WEKA Explorer: Các phân lớp ( ) p p p (1) Các phân lớp (Classifiers) WEKA tương ứng với mơ hình dự đốn đại lượng kiểu định danh (phân lớp) đại lượng kiểu số (hồi quy/dự đoán) Các kỹ thuật phân lớp hỗ trợ WEKA • Nạve Bayes classifier and Bayesian networks • Decision trees • Instance-based classifiers • Support vector machines • Neural networks •… → Hã xem giao diệ WEKA Explorer… Hãy i diện ủ E l Khai Phá Dữ Liệu WEKA Explorer: Các phân lớp ( ) p p p (2) Lựa chọn phân lớp (classifier) Lựa chọn tùy chọn cho việc kiểm tra (test options) • Use training set Bộ phân loại học đánh giá tập học • Supplied test set Sử dụng tập liệu khác (với tập học) việc đánh giá • Cross-validation Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation • Percentage split Chỉ định tỷ lệ phân chia tập liệu việc đánh giá Khai Phá Dữ Liệu 10 WEKA Explorer: Các phân lớp ( ) p p p (3) More options… • Output model Hiển thị phân lớp học model • Output per-class stats Hiển thị thông tin thống kê precision/recall lớp • Output entropy evaluation measures Hiển thị đánh giá độ hỗn tạp measures (entropy) tập liệu • Output confusion matrix Hiển thị thơng tin ma trận lỗi phân lớp ( (confusion matrix) phân lớp học ) • Store predictions for visualization Các dự đoán phân lớp lưu lại nhớ, để hiển thị sau • Output predictions Hiển thị chi tiết dự đốn tập kiểm tra • Cost-sensitive evaluation Các lỗi (của phân lớp) xác định dựa ma trận chi phí (cost matrix) định • Random seed for XVal / % Split Chỉ định giá trị random seed sử dụng cho t ì h l d h trình lựa chọn ngẫu nhiên ví d cho tậ kiể t h ẫ hiê í dụ h tập kiểm tra Khai Phá Dữ Liệu 11 WEKA Explorer: Các phân lớp ( ) p p p (4) Classifier output hiển thị thông tin quan trọng • Run information Các tùy chọn mơ hình học tên tập information học, liệu, số lượng ví dụ, thuộc tính, f.f thí nghiệm • Classifier model (full training set) Biểu diễn (dạng text) phân lớp học • Predictions on test data Thông tin chi tiết dự đoán phân lớp tập kiểm tra • S Summary Cá thống kê mức độ xác phân lớ Các thố ề ứ hí h ủ hâ lớp, f.f thí nghiệm chọn • Detailed Accuracy By Class Thơng tin chi tiết mức độ xác phân lớ lớ ủ hâ lớp ới ỗi lớp • Confusion Matrix Các thành phần ma trận thể số lượng ví dụ kiểm tra (test instances) phân lớp bị phân lớ sai hâ lớp i Khai Phá Dữ Liệu 12 WEKA Explorer: Các phân lớp ( ) p p p (5) Result list cung cấp số chức hữu ích • Save model Lưu lại mơ hình tương ứng với phân lớp học model vào tập tin nhị phân (binary file) • Load model Đọc lại mơ hình học trước từ tập tin nhị phân • Re-evaluate model on current test set Đánh giá mơ hình (bộ phân lớp) học trước tập kiểm tra (test set) t i hiệ • Visualize classifier errors Hiển thị cửa sổ biểu đồ thể kết việc phân lớp Các ví dụ phân lớp xác biểu diễn ký hiệu dấu chéo (x), cịn ví dụ bị phân lớp sai biểu diễn ký hiệu ô vng ( ) • … Khai Phá Dữ Liệu 13 WEKA Explorer: Các phân cụm (1) Các phân cụm (Cluster builders) WEKA tương ứng với mô hình tìm nhóm ví dụ tương tự tập liệu Các kỹ thuật phân cụm hỗ trợ WEKA • Expectation maximization (EM) • k-Means • Các phân cụm hiển thị kết so sánh với cụm (lớ ) th tế h ới (lớp) thực →Hãy xem giao diện WEKA Explorer … Khai Phá Dữ Liệu 14 WEKA Explorer: Các phân cụm (2) Lựa chọn phân cụm (cluster builder) Lựa chọn chế độ phân cụm ( l t mode) L h hế hâ (cluster d ) • Use training set Các cụm học kiểm tra tập học • Supplied test set Sử dụng tập liệu khác để kiểm tra cụm học • Percentage split Chỉ định tỷ lệ phân chia tập liệu ban đầu cho việc xây dựng tập kiểm tra • Classes to cl sters e al ation So sánh độ xác c m clusters evaluation ác cụm học lớp định Store clusters for visualization → Lưu lại phân lớp nhớ, để thị sau Ignore attributes → Lựa chọn thuộc tính khơng tham gia vào q trình học cụm Khai Phá Dữ Liệu 15 WEKA Explorer: Luật kết hợp Lựa chọn mơ hình (giải thuật) phát luật kết hợp Associator output hiển thị thông tin quan trọng A i t t t • Run information Các tùy chọn mơ hình phát luật kết hợp, tên tập liệu, số lượng ví dụ, thuộc tính • Associator model (full training set) Biểu diễn (dạng text) ể tập luật kết hợp phát • Độ hỗ trợ tối thiểu (minimum support) • Độ tin cậy tối thiểu (minimum confidence) • Kích thước tập mục thường xuyên (large/frequent itemsets) ) • Liệt kê luật kết hợp tìm → Hãy xem giao diện WEKA Explorer… y g p Khai Phá Dữ Liệu 16 WEKA Explorer: Lựa chọn thuộc tính p Để xác định thuộc tính quan trọng Trong WEKA, phương pháp lựa chọn thuộc tính (attribute selection) bao gồm phần: • Attribute Evaluator Để xác định phương pháp đánh giá mức Evaluator độ phù hợp thuộc tính Vd: correlation-based, wrapper, information gain, chisquared,… squared • Search Method Để xác định phương pháp (thứ tự) xét thuộc tính Vd: best-first, random, exhaustive, ranking,… → Hãy xem giao diện WEKA Explorer… Khai Phá Dữ Liệu 17 WEKA Explorer: Hiển thị liệu p Hiển thị liệu cần thiết thực tế Giúp để xác định mức độ khó khăn tốn học p WEKA hiển thị • Mỗi thuộc tính riêng lẻ (1-D visualization) • Một cặp thuộc tính (2 D visualization) (2-D Các giá trị (các nhãn) lớp khác hiển thị màu khác Thanh trượt Jitt Th h t t Jitter hỗ t việc hiể thị rõ ràng h trợ iệ hiển õ hơn, có q nhiều ví dụ (điểm) tập trung xung quanh vị trí biểu đồ Tính phóng to/thu nhỏ (bằng cách tăng/giảm giá trị PlotSize PointSize) →Hãy xem giao diện WEKA Explorer… Khai Phá Dữ Liệu 18 ... học: Giới thiệu Khai phá liệu Giới thiệu công cụ WEKA ề Tiền xử lý liệu Phát luật kết hợp Các kỹ thuật phân lớp dự đoán Các kỹ thuật phân nhóm Khai Phá Dữ Liệu WEKA – Giới thiệu WEKA công cụ phần... vng ( ) • … Khai Phá Dữ Liệu 13 WEKA Explorer: Các phân cụm (1) Các phân cụm (Cluster builders) WEKA tương ứng với mơ hình tìm nhóm ví dụ tương tự tập liệu Các kỹ thuật phân cụm hỗ trợ WEKA • Expectation... k-Means • Các phân cụm hiển thị kết so sánh với cụm (lớ ) th tế h ới (lớp) thực →Hãy xem giao diện WEKA Explorer … Khai Phá Dữ Liệu 14 WEKA Explorer: Các phân cụm (2) Lựa chọn phân cụm (cluster builder)