Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
1,02 MB
Nội dung
Đại học Quốc Gia Thành phố Hồ Chí Minh Trường Đại học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ mơn Khoa Học Máy Tính Khai thác liệu ứng dụng Tài liệu tham khảo HƯỚNG DẪN SỬ DỤNG WEKA EXPLORER 3.6.3 Tháng 8/2011 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng MỤC LỤC Giới thiệu 1.1 Các chức Weka Explorer 1.2 Khảo sát liệu Tiền xử lý liệu 3 Tập phổ biến & luật kết hợp Phân loại Gom cụm 10 Một số định dạng tập tin .12 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Giới thiệu 1.1 Các chức Weka Explorer Các chức Weka Explorer thể thẻ (tab) hình chính, bao gồm: Preprocess: Cho phép mở, điều chỉnh, lưu tập tin liệu, thẻ chứa thuậtt toán áp dụng tiền xử lý liệu Classify: Cung cấp mơ hình phân loại liệu hồi quy Cluster: Cung cấp mơ hình gom cụm Associate: Khai thác tập phổ biến luật kết hợp SelectAttributes: Lựa chọn thuộc tính thích hợp tập liệu Visualize: Thể liệu dạng biểu đồ 1.2 Khảo sát liệu Sử dụng thẻ Preprocess (1) Open file…: Mở tập tin liệu (2) Edit…: Hiển thị chỉnh sửa liệu tay cần thiết (3) Save…: Lưu liệu tập tin Weka Explorer hỗ trợ số định dạng có định dạng cần quan tâm *.arff *.csv (Xem phần 6) (4) Filter: Các tác vụ tiền xử lý gọi lọc, (xem phần 2) Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng (5) Selected attribute: Thông tin thuộc tính chọn: o Type: Kiểu liệu thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số) o Missing: Số mẫu thiếu giá trị thuộc tính xét o Distinct: Số giá trị phân biệt o Unique: Số mẫu khơng có giá trị trùng với mẫu khác o Bảng thống kê: Dạng phi số:Thể giá trị tần suất giá trị Dạng số:Thể số đại lượng thống kê giá trị nhỏ nhất, lớn nhất, giá trị trung bình độ lệch chuẩn Bộ mơn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Tiền xử lý liệu Choose: Chọn lọc Textbox: Các tham số lọc chọn, click vào để thay đổi tham số o Thơng thường, với lọc áp dụng thuộc tính riêng lẻ cho phép lựa chọn tầm ảnh hưởng lọc thuộc tính người dùng quan tâm o More: Hiển thị thông tin chi tiết lọc o Capabilities: Các yêu cầu cần thiết liệu để thực lọc Apply: Thực thi lọc với tham số xác định liệu Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Ví dụ: Unsupervised.Attribute.Discretize o Hình bên hình điều chỉnh tham số cho phương pháp chia giỏ, có tham số số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu (useEqualFrequency),… Ví dụ: Unsupervised.Attribute.Normalize: Chuẩn hóa min-max với tham số giới hạn (scale) giá trị nhỏ (translation) Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Tập phổ biến & luật kết hợp Sử dụng thẻ Asscociate Associator: Phương pháp khai thác luật kết hợp o Choose: Lựa chọn phương pháp o Textbox: Thay đổi tham số cho phương pháp lựa chọn Ví dụ: Apriori: Khai thác tập phổ biến luật kết hợp o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến tập hạng mục khai thác nằm khoảng o metricType: Độ đo tính lý thú luật kết hợp, gồm có Confidence, Lift, Leverage, Conviction o minMetric: Các luật khai thác có độ đo thỏa giá trị Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng o numRule delta: Thuật tốn ln khởi động với mức độ lý thú mục tiêu cao Khisố luật đạt số numRule, thuật toán dừng, ngược lại giá trị minMetric giảm lượng delta để tìm luật có độ đo lý thú thấp o outputItemsets: Kết xuất tập phổ biến kết Thể kết quả: o Tập phổ biến: Danh sách hạng mục độ phổ biến o Luật kết hợp: Luật độ đo lý thú Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Ví dụ: FP-Growth, Khai thác luật kết hợp Ngoài tham số Apriori, FP-Growth Weka hỗ trợ số tiện ích khác: o findAllRulesForSupportedLevel: Khai thác tất luật với độ đo lượng chọn o maxNumberofItems:Số hạng mục tối đa lụât khai thác o rulesMustContainvà transactionsMustContain:Chỉ khai thác hạng mục quan tâm Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Phân loại Sử dụng thẻ Classify (1): Classifier: Lựa chọn phân loại tham số (2): Test Options: Các tùy chọn để kiểm thử mơ hình: o Use training set: Sử dụng tập liệu huấn luyện để kiểm nghiệm o Supplied test set: Sử dụng tập liệu khác o Cross-validation: Chia liệu thành nhiều phần (Folds) để thực nhiều lần đánh giá kết o Percentage split: Chia liệu thành phần theo tỉ lệ %, phần dùng để xây dựng mơ hình, phần lại dành cho kiểm thử o More Options: Điều chỉnh số tham số khác: - Output predictions: Trả kết phân loại chi tiết cho mẫu liệu kiểm nghiệm - Preserve order for % Split: Chia mẫu vào tập huấn luyện kiểm thử không theo cách lựa chọn ngẫu nhiên Thứ tự liệu giữ nguyên - Điều chỉnh việc kết xuất số thông tin (3): Result list: Danh sách kết lần chạy thuật tốn, tương tác danh sách để thực chức phụ - Load model, Save model: Mở/Lưu mơ hình phân loại tập tin - Visualize tree: Một số phân loại sử dụng định cho hình ảnh Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng (4): Classifier output: Kết sau liệt kê văn với phần phân biệt sau: o Run information: Thơng tin chung thuật tốn sử dụng, tập liệu o Classifier model Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Chi tiết mơ hình phân loại, nhiên số phân loại mơ hình phân loại đầy đủ thông tin văn o Summary Liệt kê thông tin tổng quát mức độ xác phân loại thử nghiệm vừa thực thi o Detailed Accuracy By Classvà Confusion Matrix Chi tiết kết độ xác phân loại phân lớp Gom cụm Sử dụng thẻ Cluster (1): Clusterer: Lựa chọn mơ hình gom cụm tham số (2): Cluster mode: Các tùy chọn để kiểm thử mơ hình: o Use training set: Sử dụng tập liệu huấn luyện để kiểm nghiệm o Supplied test set: Sử dụng tập liệu khác o Percentage split: Chia liệu thành phần theo tỉ lệ %, phần dùng để xây dựng mơ hình, phần lại dành cho kiểm thử o Classes to clusters evaluation: Gomcụmtrêntồnbộdữliệuvàđánhgiávớitiêuchíđộlỗilàthấpnhất.Vớiphươngphápn ày ta cóthểápdụngcácphươngphápđánhngồiđểkhảosátchấtlượnggomcụm Ignore attributes: Bỏ qua cácthuộctínhchỉđịnhkhitiếnhànhgomcụm Bộ mơn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 10 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng (3): Clusterer output: Chứacáckếtquảgomcụm o Thơng tin mơhình:Đượcthểhiệntùytheobộgomcụmđượcsửdụng Vídụđốivớithuậttốn Farthest First thìthơng tin đượchiểnthịbaogồmtrọngtâmcủacácnhóm, cònvớithuậttốn HAC thìlàdanhsáchcácnhóm qua mỗivònglặp.TrongkếtquảcủathuậttốnKmeanscòncóthơng tin vềchỉsố SSE Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 11 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng o Kếtquảgomcụm: Thểhiệnsốmẫugomcụmđược/khônggomcụmđược ĐốivớiphươngphápđánhgiáClasses to clusters evaluationthìcòncóthơng tin vềsốmẫubịgomcụmsai Một số định dạng tập tin Attribute-Relation File Format (*.arff) o Là tập tin văn bản, gồm phần: Phần khai báo (header) Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 12 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Phần liệu (data) o Phần khai báo: @relation @attribute @attribute … @attribute o Các kiểu liệu Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date Dữ liệu thiếu ký hiệu dấu chấm hỏi “?” o Phần liệu: Mỗi mẫu liệu đặt dòng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,” Comma Separated Values (*.csv) o Là tập tin văn o Cấu trúc tương tự phần liệu tập tin arff: Các mẫu lưu dòng, thuộc tính ngăn cách dấu phẩy o Dòng chứa tên thuộc tính Ví dụ: Một tập tin csv có nội dung sau: Bộ mơn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 13 Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Có nghĩa liệu gồm có 14 mẫu thuộc tính (outlook, temperature, humidity, windy, play) Hiển thị tập tin arffViewer: Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 14 ... tập liệu Visualize: Thể liệu dạng biểu đồ 1.2 Khảo sát liệu Sử dụng thẻ Preprocess (1) Open file…: Mở tập tin liệu (2) Edit…: Hiển thị chỉnh sửa liệu tay cần thiết (3) Save…: Lưu... Trang Weka Explorer 3.6.3 CTT305 – Khai thác liệu & Ứng dụng Phân loại Sử dụng thẻ Classify (1): Classifier: Lựa chọn phân loại tham số (2): Test Options: Các tùy chọn để kiểm thử mơ hình:... Classvà Confusion Matrix Chi tiết kết độ xác phân loại phân lớp Gom cụm Sử dụng thẻ Cluster (1): Clusterer: Lựa chọn mơ hình gom cụm tham số (2): Cluster mode: Các tùy chọn để kiểm thử mơ