1. Trang chủ
  2. » Cao đẳng - Đại học

dream high fly high thông báo

18 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 741,58 KB

Nội dung

Cấu trúc tương tự phần dữ liệu của tập tin arff: Các mẫu được lưu trên một dòng, các thuộc tính được ngăn cách bằng dấu phẩy.. Dòng đầu tiên chứa tên các thuộc tính.[r]

(1)

Giới thiệu WEKA

WEKAWaikato Environment for Knowledge Analysis

Là phần mềm khai thác liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand Mục tiêu: xây dựng công cụ đại nhằm phát triển kỹ thuật máy học áp dụng chúng vào toán khai thác liệu thực tế

Lịch sử phát triển

1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên Weka

1997 – Quyết định xây dựng lại Weka từ đầu Java, có cài đặt thuật tốn mơ hình hóa

2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award

Xếp hạng Sourceforge.net từ 25-06-2007: 241 (907,318 lượt)

Cấu trúc phần mềm

WEKA xây dựng ngôn ngữ Java, cấu trúc gồm 600 lớp, tổ chức thành 10 packages

Các chức phần mềm:

Khảo sát liệu: tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp

Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá mơ hình học

Biểu diễn trực quan liệu nhiều dạng đồ thị khác

Các phiên WEKA

Snapshots vá lỗi nhất, thường cập nhật hàng đêm

Book versions là phiên thể chức mô tả sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) Ian.H.Witten Eibe Frank

(2)

Download: Trang chủ: http://www.cs.waikato.ac.nz/ml/weka/

Các chức WEKA explorer

Explorer: ứng dụng cho phép thực nghiệm nhiệm vụ khai thác liệu thường gặp như: Tiền xử lý liệu

Khai thác luật kết hợp Phân lớp

Gom nhóm

XỬ LÝ DỮ LIỆU VỚI WEKA

Cấu trúc tập tin ARFF (Attribute-Relation File Format )

ARFF định dạng liệu chuyên biệt Weka, tổ chức liệu theo cấu trúc qui định trước

Cấu trúc tập tin *.ARFF bao gồm thành phần:

(3)

Phần khai báo:

@relation <tên liệu>

@attribute <tên thuộc tính 1> <Kiểu liệu> @attribute <tên thuộc tính 2> <Kiểu liệu> …

@attribute <tên thuộc tính n> <Kiểu liệu>

Các kiểu liệu

o numeric: kiểu liệu số, gồm real integer o nominal: kiểu liệu danh sách

o string: kiểu liệu dạng chuỗi

o date: kiểu liệu thời gian (ngày tháng năm, phút giây…)

Phần liệu:

Mỗi mẫu liệu đặt dịng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,”

(4)

Dòng ghi bắt đầu dấu % Dữ liệu thiếu biểu diễn dấu ?

Chuỗi có khoảng trắng phải đặt dấu nháy đơn

Các giá trị phần data phải tuyệt đối theo thông tin khai báo header

Comma Separated Values (*.csv) Là tập tin văn

Cấu trúc tương tự phần liệu tập tin arff: Các mẫu lưu một dịng, thuộc tính ngăn cách dấu phẩy

Dịng chứa tên thuộc tính Ví dụ tập tin csv:

Có nghĩa liệu gồm có 14 mẫu thuộc tính (outlook, temperature, humidity, windy, play)

(5)

Khảo sát liệu: sử dụng thẻ Preprocess

(1) Open file…: Mở tập tin liệu

(2) Edit…: Hiển thị chỉnh sửa liệu tay cần thiết

(3) Save…: Lưu liệu tập tin Weka Explorer hỗ trợ số

định dạng có định dạng cần quan tâm *.arff *.csv

(6)

(5) Selected attribute: Thơng tin thuộc tính chọn: Type: Kiểu liệu thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số)

Missing: Số mẫu thiếu giá trị thuộc tính xét

Distinct: Số giá trị phân biệt

Unique: Số mẫu khơng có giá trị trùng với mẫu khác

Bảng thống kê:

Dạng phi số: Thể giá trị tần suất giá trị

(7)

Các chức Weka Explorer thể thẻ (tab) hình chính, bao gồm:

Preprocess: Cho phép mở, điều chỉnh, lưu tập tin liệu, thẻ chứa

thuậtt toán áp dụng tiền xử lý liệu

Classify: Cung cấp mơ hình phân loại liệu hồi quy

Cluster: Cung cấp mô hình gom cụm

Associate: Khai thác tập phổ biến luật kết hợp

Select Attributes: Lựa chọn thuộc tính thích hợp tập liệu

(8)

Tiền xử lý liệu: xử lý liệu liên tục

Trong Data Mining, số kỹ thuật khai phá luật kết hợp (association rule mining) thực liệu phân loại (categorical/ nominal data) Điều yêu cầu phải thực việc rời rạc hóa thuộc tính có kiểu liên tục (như kiểu numeric chẳn hạn)

Bước 1: nạp file liệu

(9)(10)

attributeIndices nhập số tương ứng với index thuộc tính liên tục mà ta muốn rời rạc

bins nhập số khoảng muốn chia

(11)(12)(13)

Phân lớp sử dụng ID3 với Weka

(14)(15)

 Bước 2: chọn kiểu test nhập liệu test cần Có nhiều kiểu test, có kiểu chính:

o Use training set: sử dụng tập huấn luyện tập test o Supplied test set: định tập test

o Cross-validation: lấy dòng liệu làm liệu test o Percentage split: chia tỷ lệ phần trăm

 Bước 3: tiến hành phân lớp, bấm Start

(16)

Run information: thông tin mơ hình học, tên quan hệ, số mẫu, thuộc tính và kiểu test

(17)

Tổng kết: số liệu thống kê cho biết độ xác phân lớp theo kiểu test cụ thể

Độ xác chi tiết phân lớp

Confusion matrix: cho biết mẫu gán vào lớp Các phần tử ma trận thể số mẫu test có lớp thật dịng lớp dự đốn cột

Phân lớp sử dụng Navie bayes (xem clip)

(18)

https://www.youtube.com/watch?v=C9YL8kQE7Ns -Các chức phần mềm WEKA

https://www.youtube.com/watch?v=7hLXzifK7r8 - Chức tiền xử lí liệu

https://www.youtube.com/watch?v=7H7PgfvmJY8 - Ví dụ minh họa tièn xử lý liệu

https://www.youtube.com/watch?v=9Psn1wKGcYA - Chức phân lớp Classify Weka

https://www.youtube.com/watch?v=6_jcJVFGymk -Minh họa thuật toán ID3 Weka

https://www.youtube.com/watch?v=docE3QtP6AI -Minh họa Navie Bayes Weka

https://www.youtube.com/watch?v=9z7FBV5BUrA&t=68s Bài tập

1. Tạo tập tin ARFF cho tất tập lab01, lab02 2. Chuẩn hóa liệu cần

: https://www.youtube.com/watch?v=C9YL8kQE7Ns https://www.youtube.com/watch?v=7hLXzifK7r8 https://www.youtube.com/watch?v=7H7PgfvmJY8 https://www.youtube.com/watch?v=9Psn1wKGcYA https://www.youtube.com/watch?v=6_jcJVFGymk https://www.youtube.com/watch?v=docE3QtP6AI https://www.youtube.com/watch?v=9z7FBV5BUrA&t=68s

Ngày đăng: 04/04/2021, 00:40

TỪ KHÓA LIÊN QUAN

w