Cấu trúc tương tự phần dữ liệu của tập tin arff: Các mẫu được lưu trên một dòng, các thuộc tính được ngăn cách bằng dấu phẩy.. Dòng đầu tiên chứa tên các thuộc tính.[r]
(1)Giới thiệu WEKA
WEKA – Waikato Environment for Knowledge Analysis
Là phần mềm khai thác liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand Mục tiêu: xây dựng công cụ đại nhằm phát triển kỹ thuật máy học áp dụng chúng vào toán khai thác liệu thực tế
Lịch sử phát triển
1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên Weka
1997 – Quyết định xây dựng lại Weka từ đầu Java, có cài đặt thuật tốn mơ hình hóa
2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award
Xếp hạng Sourceforge.net từ 25-06-2007: 241 (907,318 lượt)
Cấu trúc phần mềm
WEKA xây dựng ngôn ngữ Java, cấu trúc gồm 600 lớp, tổ chức thành 10 packages
Các chức phần mềm:
Khảo sát liệu: tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp
Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá mơ hình học
Biểu diễn trực quan liệu nhiều dạng đồ thị khác
Các phiên WEKA
Snapshots vá lỗi nhất, thường cập nhật hàng đêm
Book versions là phiên thể chức mô tả sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) Ian.H.Witten Eibe Frank
(2)Download: Trang chủ: http://www.cs.waikato.ac.nz/ml/weka/
Các chức WEKA explorer
Explorer: ứng dụng cho phép thực nghiệm nhiệm vụ khai thác liệu thường gặp như: Tiền xử lý liệu
Khai thác luật kết hợp Phân lớp
Gom nhóm
XỬ LÝ DỮ LIỆU VỚI WEKA
Cấu trúc tập tin ARFF (Attribute-Relation File Format )
ARFF định dạng liệu chuyên biệt Weka, tổ chức liệu theo cấu trúc qui định trước
Cấu trúc tập tin *.ARFF bao gồm thành phần:
(3)Phần khai báo:
@relation <tên liệu>
@attribute <tên thuộc tính 1> <Kiểu liệu> @attribute <tên thuộc tính 2> <Kiểu liệu> …
@attribute <tên thuộc tính n> <Kiểu liệu>
Các kiểu liệu
o numeric: kiểu liệu số, gồm real integer o nominal: kiểu liệu danh sách
o string: kiểu liệu dạng chuỗi
o date: kiểu liệu thời gian (ngày tháng năm, phút giây…)
Phần liệu:
Mỗi mẫu liệu đặt dịng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,”
(4)Dòng ghi bắt đầu dấu % Dữ liệu thiếu biểu diễn dấu ?
Chuỗi có khoảng trắng phải đặt dấu nháy đơn
Các giá trị phần data phải tuyệt đối theo thông tin khai báo header
Comma Separated Values (*.csv) Là tập tin văn
Cấu trúc tương tự phần liệu tập tin arff: Các mẫu lưu một dịng, thuộc tính ngăn cách dấu phẩy
Dịng chứa tên thuộc tính Ví dụ tập tin csv:
Có nghĩa liệu gồm có 14 mẫu thuộc tính (outlook, temperature, humidity, windy, play)
(5)Khảo sát liệu: sử dụng thẻ Preprocess
(1) Open file…: Mở tập tin liệu
(2) Edit…: Hiển thị chỉnh sửa liệu tay cần thiết
(3) Save…: Lưu liệu tập tin Weka Explorer hỗ trợ số
định dạng có định dạng cần quan tâm *.arff *.csv
(6)(5) Selected attribute: Thơng tin thuộc tính chọn: Type: Kiểu liệu thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số)
Missing: Số mẫu thiếu giá trị thuộc tính xét
Distinct: Số giá trị phân biệt
Unique: Số mẫu khơng có giá trị trùng với mẫu khác
Bảng thống kê:
Dạng phi số: Thể giá trị tần suất giá trị
(7)Các chức Weka Explorer thể thẻ (tab) hình chính, bao gồm:
Preprocess: Cho phép mở, điều chỉnh, lưu tập tin liệu, thẻ chứa
thuậtt toán áp dụng tiền xử lý liệu
Classify: Cung cấp mơ hình phân loại liệu hồi quy
Cluster: Cung cấp mô hình gom cụm
Associate: Khai thác tập phổ biến luật kết hợp
Select Attributes: Lựa chọn thuộc tính thích hợp tập liệu
(8)Tiền xử lý liệu: xử lý liệu liên tục
Trong Data Mining, số kỹ thuật khai phá luật kết hợp (association rule mining) thực liệu phân loại (categorical/ nominal data) Điều yêu cầu phải thực việc rời rạc hóa thuộc tính có kiểu liên tục (như kiểu numeric chẳn hạn)
Bước 1: nạp file liệu
(9)(10) attributeIndices nhập số tương ứng với index thuộc tính liên tục mà ta muốn rời rạc
bins nhập số khoảng muốn chia
(11)(12)(13)Phân lớp sử dụng ID3 với Weka
(14)(15) Bước 2: chọn kiểu test nhập liệu test cần Có nhiều kiểu test, có kiểu chính:
o Use training set: sử dụng tập huấn luyện tập test o Supplied test set: định tập test
o Cross-validation: lấy dòng liệu làm liệu test o Percentage split: chia tỷ lệ phần trăm
Bước 3: tiến hành phân lớp, bấm Start
(16)Run information: thông tin mơ hình học, tên quan hệ, số mẫu, thuộc tính và kiểu test
(17)Tổng kết: số liệu thống kê cho biết độ xác phân lớp theo kiểu test cụ thể
Độ xác chi tiết phân lớp
Confusion matrix: cho biết mẫu gán vào lớp Các phần tử ma trận thể số mẫu test có lớp thật dịng lớp dự đốn cột
Phân lớp sử dụng Navie bayes (xem clip)
(18)https://www.youtube.com/watch?v=C9YL8kQE7Ns -Các chức phần mềm WEKA
https://www.youtube.com/watch?v=7hLXzifK7r8 - Chức tiền xử lí liệu
https://www.youtube.com/watch?v=7H7PgfvmJY8 - Ví dụ minh họa tièn xử lý liệu
https://www.youtube.com/watch?v=9Psn1wKGcYA - Chức phân lớp Classify Weka
https://www.youtube.com/watch?v=6_jcJVFGymk -Minh họa thuật toán ID3 Weka
https://www.youtube.com/watch?v=docE3QtP6AI -Minh họa Navie Bayes Weka
https://www.youtube.com/watch?v=9z7FBV5BUrA&t=68s Bài tập
1. Tạo tập tin ARFF cho tất tập lab01, lab02 2. Chuẩn hóa liệu cần
: https://www.youtube.com/watch?v=C9YL8kQE7Ns https://www.youtube.com/watch?v=7hLXzifK7r8 https://www.youtube.com/watch?v=7H7PgfvmJY8 https://www.youtube.com/watch?v=9Psn1wKGcYA https://www.youtube.com/watch?v=6_jcJVFGymk https://www.youtube.com/watch?v=docE3QtP6AI https://www.youtube.com/watch?v=9z7FBV5BUrA&t=68s