HƯỚNG DẪN SỬ DỤNG WEKA EXPLORER 3.6.3

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 2  5 Selected attribute: Thông tin về thuộc tính đang được chọn: o Type: Kiểu dữ liệu của thuộc tính Numeric: Dạng số, Nominal: Dạng rời

Trang 1

Trường Đại học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin

Bộ môn Khoa Học Máy Tính

Khai thác dữ liệu và ứng dụng

Tài liệu tham khảo

HƯỚNG DẪN SỬ DỤNG WEKA EXPLORER 3.6.3

Tháng 8/2011

Trang 2

MỤC LỤC

1 Giới thiệu 1

1.1 Các chức năng của Weka Explorer 1

1.2 Khảo sát dữ liệu 1

2 Tiền xử lý dữ liệu 3

3 Tập phổ biến & luật kết hợp 5

4 Phân loại 8

5 Gom cụm 10

6 Một số định dạng tập tin 12

Trang 3

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 1

1 Giới thiệu

1.1 Các chức năng của Weka Explorer

Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình

chính, bao gồm:

thuậtt toán áp dụng trong tiền xử lý dữ liệu

1.2 Khảo sát dữ liệu

 Sử dụng thẻ Preprocess

 (1) Open file…: Mở một tập tin dữ liệu

 (2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết

 (3) Save…: Lưu dữ liệu hiện tại ra tập tin

Weka Explorer hỗ trợ một số định dạng trong đó có 2 định dạng chính cần quan tâm là

*.arff và *.csv (Xem phần 6)

 (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc, (xem phần 2)

Trang 4

 (5) Selected attribute: Thông tin về thuộc tính đang được chọn:

o Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số)

o Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét

o Distinct: Số giá trị phân biệt

o Unique: Số mẫu không có giá trị trùng với mẫu khác

o Bảng thống kê:

 Dạng phi số:Thể hiện các giá trị và tần suất của mỗi giá trị

 Dạng số:Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn nhất,

giá trị trung bình và độ lệch chuẩn

Trang 5

2 Tiền xử lý dữ liệu

o Thông thường, với những bộ lọc có thể áp dụng trên các thuộc tính riêng lẻ sẽ cho phép lựa chọn tầm ảnh hưởng của bộ lọc đối với những thuộc tính người dùng quan tâm

o More: Hiển thị thông tin chi tiết về bộ lọc

o Capabilities: Các yêu cầu cần thiết đối với dữ liệu để thực hiện bộ lọc

Trang 6

o Hình bên dưới là màn hình điều chỉnh tham số cho phương pháp chia giỏ, trong

đó có các tham số như số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu

(useEqualFrequency),…

(scale) và giá trị nhỏ nhất (translation)

Trang 7

3 Tập phổ biến & luật kết hợp

 Sử dụng thẻ Asscociate

o Choose: Lựa chọn một phương pháp

o Textbox: Thay đổi tham số cho phương pháp đã lựa chọn

 Ví dụ: Apriori: Khai thác tập phổ biến và luật kết hợp

o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến của các tập

hạng mục khai thác được sẽ nằm trong khoảng này

o metricType: Độ đo tính lý thú của luật kết hợp, gồm có Confidence, Lift,

Leverage, Conviction

o minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này

Trang 8

o numRule và delta: Thuật toán luôn khởi động với mức độ lý thú mục tiêu cao

nhất Khisố luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của

minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn

o outputItemsets: Kết xuất tập phổ biến trong kết quả

 Thể hiện kết quả:

o Tập phổ biến: Danh sách các hạng mục và độ phổ biến

o Luật kết hợp: Luật và độ đo lý thú

Trang 9

 Ví dụ: FP-Growth, Khai thác luật kết hợp

Ngoài các tham số như của Apriori, FP-Growth trong Weka còn được hỗ trợ một số tiện ích khác:

o findAllRulesForSupportedLevel: Khai thác tất cả các luật với độ đo đã lượng chọn

o maxNumberofItems:Số hạng mục tối đa trong lụât khai thác được

o rulesMustContainvà transactionsMustContain:Chỉ khai thác trên các hạng mục được quan tâm

Trang 10

4 Phân loại

 Sử dụng thẻ Classify

 (1): Classifier: Lựa chọn bộ phân loại và các tham số

 (2): Test Options: Các tùy chọn để kiểm thử mô hình:

o Use training set: Sử dụng chính tập dữ liệu huấn luyện để kiểm nghiệm

o Supplied test set: Sử dụng một tập dữ liệu khác

o Cross-validation: Chia dữ liệu thành nhiều phần (Folds) để thực hiện nhiều lần đánh giá kết quả

o Percentage split: Chia dữ liệu thành 2 phần theo tỉ lệ %, một phần dùng để xây dựng mô hình, phần còn lại dành cho kiểm thử

o More Options: Điều chỉnh một số tham số khác:

- Output predictions:

Trả ra kết quả phân loại chi tiết cho từng mẫu trong dữ liệu kiểm nghiệm

- Preserve order for % Split:

Chia các mẫu vào tập huấn luyện và kiểm thử không theo cách lựa chọn ngẫu nhiên Thứ tự như trong dữ liệu hiện tại được giữ nguyên

- Điều chỉnh việc kết xuất một số thông tin

 (3): Result list: Danh sách kết quả các lần chạy thuật toán, có thể tương tác trên danh

sách này để thực hiện một các chức năng phụ

- Load model, Save model: Mở/Lưu mô hình

phân loại ra tập tin

- Visualize tree: Một số bộ phân loại sử dụng cây

quyết định có thể cho hình ảnh cây

Trang 11

 (4): Classifier output:

Kết quả sau được liệt kê bằng văn bản với những phần phân biệt như sau:

o Run information:

 Thông tin chung về thuật toán được sử dụng, tập dữ liệu

o Classifier model

Trang 12

 Chi tiết mô hình phân loại, tuy nhiên đối với một số bộ phân loại thì mô hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được

o Summary

 Liệt kê thông tin tổng quát về mức độ chính xác của bộ phân loại trong thử nghiệm vừa thực thi

o Detailed Accuracy By Classvà Confusion Matrix

 Chi tiết kết quả độ chính xác của bộ phân loại trên từng phân lớp

5 Gom cụm

 Sử dụng thẻ Cluster

 (1): Clusterer: Lựa chọn mô hình gom cụm và các tham số

 (2): Cluster mode: Các tùy chọn để kiểm thử mô hình:

o Use training set: Sử dụng chính tập dữ liệu huấn luyện để kiểm nghiệm

o Supplied test set: Sử dụng một tập dữ liệu khác

o Percentage split: Chia dữ liệu thành 2 phần theo tỉ lệ %, một phần dùng để xây dựng mô hình, phần còn lại dành cho kiểm thử

o Classes to clusters evaluation:

Gomcụmtrêntoànbộdữliệuvàđánhgiávớitiêuchíđộlỗilàthấpnhất.Vớiphươngphápn

ày ta cóthểápdụngcácphươngphápđánhngoàiđểkhảosátchấtlượnggomcụm

Trang 13

 (3): Clusterer output: Chứacáckếtquảgomcụm

o Thông tin môhình:Đượcthểhiệntùytheobộgomcụmđượcsửdụng

Vídụđốivớithuậttoán Farthest First thìthông tin đượchiểnthịbaogồmtrọngtâmcủacácnhóm, cònvớithuậttoán HAC thìlàdanhsáchcácnhóm qua

mỗivònglặp.TrongkếtquảcủathuậttoánKmeanscòncóthông tin vềchỉsố SSE

Trang 14

o Kếtquảgomcụm: Thểhiệnsốmẫugomcụmđược/khônggomcụmđược

ĐốivớiphươngphápđánhgiáClasses to clusters evaluationthìcòncóthông tin

vềsốmẫubịgomcụmsai

6 Một số định dạng tập tin

 Attribute-Relation File Format (*.arff)

o Là tập tin văn bản, gồm 2 phần:

Phần khai báo (header)

Trang 15

Phần dữ liệu (data)

o Phần khai báo:

@relation <tên dữ liệu>

@attribute <tên thuộc tính 1><Kiểu dữ liệu>

@attribute <tên thuộc tính 2><Kiểu dữ liệu>

…

@attribute <tên thuộc tính n><Kiểu dữ liệu>

o Các kiểu dữ liệu

Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string

Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date

Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?”

o Phần dữ liệu:

Mỗi mẫu dữ liệu được đặt trên một dòng, giá trị của các thuộc tính được liệt kê theo thứ tự từ trái qua phải và ngăn cách bởi dấu phẩy “,”

 Comma Separated Values (*.csv)

o Là tập tin văn bản

o Cấu trúc tương tự phần dữ liệu của tập tin arff: Các mẫu được lưu trên một dòng, các thuộc tính được ngăn cách bằng dấu phẩy

o Dòng đầu tiên chứa tên các thuộc tính

Ví dụ:

Một tập tin csv có nội dung như sau:

Trang 16

Có nghĩa là dữ liệu này gồm có 14 mẫu và 5 thuộc tính (outlook, temperature, humidity, windy, play)

Hiển thị tập tin này bằng arffViewer:

Định dạng
Số trang	16
Dung lượng	1,02 MB