1. Trang chủ
  2. » Luận Văn - Báo Cáo

Weka: Tìm hiểu chi tiết và ứng dụng của phần mềm WEKA. Khai phá dữ liệu, Hệ trợ giúp quyết định

53 3,7K 39

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 1,85 MB

Nội dung

Báo cáo Hệ trợ giúp quyết định, khai phá dữ liệu chi tiết phần mềm Weka và ứng dụng của Weka, ví dụ thực tế. Weka phục vụ cho việc quản lý, vận hành và lập kế hoạch của một tổ chức, giúp mọi người đưa ra quyết định về các vấn đề có thể thay đổi nhanh chóng và không dễ dàng xác định trước tức là các vấn đề quyết định không có cấu trúc và bán cấu trúc. Cùng với sự ra đời của Hệ trợ giúp quyết định, phần mềm Weka cũng được tạo ra để hỗ trợ đắc lực cho con người trong việc phân tích dữ liệu và lập các mô hình dự đoán, phục vụ tốt nhất cho quá trình tổ chức, ra quyết định

Trang 1

BÁO CÁO

HỆ TRỢ GIÚP QUYẾT ĐỊNH

ĐỀ TÀI: TÌM HIỂU VỀ PHẦN MỀM WEKA VÀ

ỨNG DỤNG

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU……… 3

CHƯƠNG I: Tổng quan về Weka……… 4

I Giới thiệu chung về Weka……….4

II Cài đặt Weka……….7

CHƯƠNG II: Tìm hiểu về Weka……… 9

I Menu thành phần Weka………9

II Các môi trường chức năng chính của Weka………14

CHƯƠNG III: Các định dạng dữ liệu của Weka……… 16

I Định dạng ARFF……… 16

II Sparse ARFF Files……… 18

CHƯƠNG IV: Môi trường Explorer………19

I Preprocess……….19

II Classify……….25

III Cluster……… 30

IV Associate……….32

V Select Attributes……… 33

VI Visualize……… 34

CHƯƠNG V: Ví dụ minh họa……… 38

1 Preprocess……….38

2 Classify……… 42

3 Cluster……… 45

4 Associate……… 48

KẾT LUẬN……….52

TÀI LIỆU THAM KHẢO……….53

Trang 3

LỜI MỞ ĐẦU

Ngày nay, khi mà thời buổi công nghiệp hóa, hiện đại hóa đang ngày càngphát triển trên toàn cầu thì công nghệ thông tin cũng trở thành trợ thủ đắc lực củacon người trong cuộc sống và ở bất kỳ quốc gia nào để có thể hòa nhập với thếgiới Đứng trước những thách thức, trước sự bùng nổ mạnh mẽ của thời đại côngnghệ 4.0, cũng như việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đờisống, kinh tế xã hội thì Hệ trợ giúp quyết định (DSS - Decision Support System) là

hệ thống thông tin được tạo ra và phát triển để trợ giúp công tác ra quyết định, đặcbiệt đối với các hoạt động ra quyết định kinh doanh hoặc tổ chức

Các DSS phục vụ cho việc quản lý, vận hành và lập kế hoạch của một tổchức, giúp mọi người đưa ra quyết định về các vấn đề có thể thay đổi nhanh chóng

và không dễ dàng xác định trước - tức là các vấn đề quyết định không có cấu trúc

và bán cấu trúc. Hệ thống hỗ trợ quyết định có thể được vi tính hóa hoàn toàn hoặcđược hỗ trợ bởi con người, nhưng cũng có thể kết hợp cả hai Khi đề cập đến DSS,người ta thường dùng các khái niệm như: người ra quyết định, quá trình ra quyếtđịnh và hệ thống tin học trợ giúp

Cùng với sự ra đời của Hệ trợ giúp quyết định, phần mềm Weka cũng đượctạo ra để hỗ trợ đắc lực cho con người trong việc phân tích dữ liệu và lập các môhình dự đoán, phục vụ tốt nhất cho quá trình tổ chức, ra quyết định Và đây cũngchính là đề tài mà nhóm chúng em sẽ nghiên cứu trong bài báo cáo này

Chúng em xin chân thành cảm ơn sự giúp đỡ tận tình của cô giáo Giảng viênĐoàn Thị Thanh Hằng để chúng em có thể hoàn thành bài báo cáo này Do kiếnthức còn hạn hẹp nên bài báo cáo của nhóm chúng em còn nhiều thiếu xót Vì vậy,chúng em rất mong sẽ nhận được sự góp ý, giúp đỡ của thầy/cô để chúng em có thểhoàn thiện bài báo cáo tốt hơn nữa

Chúng em xin chân thành cảm ơn!

Trang 4

CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA

I Giới thiệu chung về Weka

1 Khái niệm

Weka là một bộ phần mềm mã nguồn mở miễn phí khai thác dữ liệu, đượcxây dựng bằng ngôn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổchức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu

Weka là phần mềm thuộc dự án phát triển của Đại học Waikato, NewZealand, nó là tên viết tắt của Waikato Environment for Knowledge Analysis.Ngoài khuôn khổ trường đại học, Weka được phát âm vần điệu với Mecca, đây làmột loài chim không bay với bản chất tò mò chỉ tìm thấy trên các đảo ở NewZealand, đồng thời, loài chim này cũng chính là biểu tượng cho phần mềm Weka

Hình 1: Loài chim Mecca được chọn là biểu tượng của ứng dụng Weka

Weka cung cấp các thuật toán học tập mà bạn có thể dễ dàng áp dụng chocác bộ dữ liệu (dataset) Nó cũng bao gồm một loạt các công cụ để chuyển đổi các

bộ dữ liệu như các thuật toán để phân loại và lấy mẫu mà không cần phải viết bất

kỳ mã chương trình nào

Trang 5

Theo KDNuggets (2005) đánh giá, Weka là sản phẩm khai thác dữ liệu được

sử dụng nhiều nhất, nổi bật và hiệu quả nhất năm 2005

Weka chứa một bộ sưu tập các công cụ trực quan và các thuật toán để phântích dữ liệu cũng như lập các mô hình dự đoán, cùng với các giao diện người dùng

đồ họa để dễ dàng truy cập các chức năng này

2 Ưu điểm của Weka

Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 vàđược sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáodục và nghiên cứu bởi những ưu điểm sau:

 Tính khả dụng miễn phí theo Giấy phép Công cộng GNU (giấy phép cungcấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự dochạy, nghiên cứu, chia sẻ và thay đổi phần mềm)

 Được thực hiện bởi ngôn ngữ lập trình Java nên Weka có tính di động khi

nó chạy được trên hầu hết bất kỳ nền tảng điện toán hiện đại nào đã đượcthử nghiệm như Linux, Windows hay hệ điều hành Macintosh

 Tổng hợp toàn diện các kỹ thuật tiền xử lý và mô hình hóa dữ liệu

 Giao diện đồ họa giúp người dùng dễ sử dụng

Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử

lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hóa và lựa chọn tínhnăng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ liệu có sẵn dướidạng một tệp phẳng hoặc quan hệ, trong đó mỗi điểm dữ liệu được mô tả bằng một

số thuộc tính cố định (thông thường là thuộc tính số hoặc danh nghĩa, nhưng một sốloại thuộc tính khác cũng được hỗ trợ). Weka cung cấp quyền truy cập vào cơ sở dữliệu SQL bằng cách sử dụng Java Database Connectivity và có thể xử lý kết quảđược trả về bởi truy vấn cơ sở dữ liệu

Trang 6

3 Những tính năng vượt trội của Weka

Như đã nói ở trên, Weka được đánh giá là sản phẩm khai thác dữ liệu nổi bật

là bởi những tính năng đặc biệt sau:

 Hỗ trợ nhiều thuật toán máy học và khai thác dữ liệu

 Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng download

 Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu)

 Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu

4 Kiến trúc thư viện Weka

Để thuận tiện cho việc sử dụng của người dùng, kiến trúc thư viện của Wekađược xây dựng với hơn 600 lớp và được tổ chức thành 10 gói (package), trong đó,mỗi package sẽ thực hiện một nhiệm vụ chức năng riêng biệt trong quá trình khaithác dữ liệu Để người dùng có thể tự xây dựng ứng dụng của bản thân mình thìngười dùng có thể trực tiếp sử dụng những package này để xây dựng các chươngtrình

Weka  có một số lượng lớn các công cụ hồi quy và phân loại. Các gói bản địa

là các gói được bao gồm trong phần mềm Weka thực thi, trong khi các gói không phải gốc khác có thể được tải xuống và sử dụng trong môi trường R.Weka. Trong

số các gói bản địa, công cụ nổi tiếng nhất là gói cây mô hình M5p Một số công cụ hồi quy phổ biến là:

 M5Rules (thuật toán M5' được trình bày dưới dạng hàm toán học không có cây)

 DecisionStump (giống như M5' nhưng với một đầu ra số duy nhất trong mỗi nút)

Trang 7

 M5P (tách miền thành các vùng nhị phân kế tiếp và sau đó phù hợp với các mô hình tuyến tính cho mỗi nút cây)

 RandomForest (một số cây mô hình kết hợp)

 RepTree (một số cây mô hình kết hợp)

 ZeroR (giá trị trung bình của kết quả đầu ra)

 DecisionRules (chia tách dữ liệu thành nhiều vùng dựa trên một biến độc lập và cung cấp một giá trị đầu ra cho mỗi phạm vi)

 LinearRegression

 Sự hồi quy vector hỗ trợ

 SimpleLinearRegression (sử dụng một biến chặn và chỉ 1 biến đầu vàocho dữ liệu đa biến)

 MultiLayerPerceptron (mạng nơron)

 GaussianProcesses

II Cài đặt Weka

Trang chủ Weka https://www.cs.waikato.ac.nz/ml/weka/ cung cấp đầy đủcác loại phiên bản trong các môi trường khác nhau Đồng thời, nó cũng cung cấphướng dẫn sử dụng ngay trên trang chủ của Weka hoặc trong các file dưới dạngPDF ngay sau khi cài đặt phần mềm Không những vậy, Weka còn cung cấp cácfile dữ liệu đã xây dựng sẵn theo định dạng ARFF để tiết kiệm thời gian trong quátrình xây dựng bộ dữ liệu

Trang 8

version nhưng vẫn mang khuyết điểm khi có thể chưa được ổn địnhbằng các phiên bản của Book version.

2 Môi trường hỗ trợ

Weka hỗ trợ chạy được trên rất nhiều hệ điều hành khác nhau, trong đó đượcchia thành hai nhóm chính là những phiên bản dành cho môi trường Windows vàcác platform (nền tảng) khác như Linux, Macintosh…

Điều kiện để khởi chạy được Weka chính là chương trình của bạn phải nhấtđịnh phải đi kèm với máy ảo Java (JVM – Java virtual machine)

Trang 9

CHƯƠNG II: TÌM HIỂU VỀ WEKA

I Menu thành phần của Weka

Phiên bản mới nhất của Weka được cập nhật vào ngày 9/4/2018 thì ứng dụng

đã được cập nhật lên phiên bản 3.8.3 Trong phiên bản mới nhất, menu của Wekagồm 5 thành phần chính:

Hình 2: Màn hình Menu của Weka

1 Program

Chương trình Program bao gồm:

- LogWindow (Ctrl+L): là nơi ghi lại thông tin hệ thống hay lỗi phátsinh trong suốt quá trình sử dụng phần mềm

- Memory usage (Ctrl+M): sử dụng bộ nhớ

- Settings: cài đặt Weka

- Exit (Ctrl+E): chức năng đóng chương trình Weka

Trang 10

Hình 3: Các chức năng của Program

2 Applications

Applications chứa các môi trường chức năng chính của Weka

- Explorer: cung cấp môi trường để khảo sát dữ liệu

- Experimenter: môi trường tiến hành các thực nghiệm và kiểm chứnggiữa các mô hình học

- Knowledge Flow: cũng có các chức năng tương tự như Explorernhưng Knowledge Flow lại có giao diện kéo – thả tiện lợi Đồng thờicòn hỗ trợ chức năng học tăng dần (incremental learning)

- Workbench: được coi là ứng dụng tất cả trong một, Workbench là ứngdụng kết hợp tất cả các ứng dụng ở bên trong nó

- Simple CLI: cung cấp giao diện dòng lệnh để thực thi Weka, tính năngnày tương tự như cửa sổ Command Prompt của Windows, nó hỗ trợcho các hệ điều hành không có chức năng của các cửa sổ dòng lệnh,

Trang 11

SimpleCLI sẽ thực thi trực tiếp các lệnh của Weka mà không cầnthông qua giao diện.

Hình 4: Các môi trường chức năng của Application

3 Visualization

Visualization bao gồm các phương pháp biểu diễn trực quan giúp ta nhận rõđược bản chất của tập dữ liệu:

- Plot (Ctrl+P): vẽ biểu đồ 2D cho một tập dữ liệu

- ROC (Ctrl+R): biểu diễn một đường cong ROC đã lưu trước đó

- TreeVisualizer (Ctrl+T): biểu diễn đồ thị có hướng (ví dụ như câyquyết định…)

- GraphVisualizer (Ctrl+G): biểu diễn đồ thị tổng quát

- BoundaryVisualizer (Ctrl+B): biểu diễn 2D về biên giữa các lớp

Trang 12

Hình 5: Các chức năng của Visualization

4 Tools

Một số ứng dụng tiện ích khác được tích hợp trong Tools:

- Package manager (Ctrl+U): Một giao diện đồ họa cho trình quản lý góicủa Weka

- ArffViewer (Ctrl+A): là ứng dụng cho phép xem các file ARFF dướidạng bảng tính, nó giống như một file text với các dữ liệu được lưu nốitiếp nhau, giúp ta có cái nhìn trực quan hơn thay vì nhìn trực tiếp vào nộidung của file ARFF

- SqlViewer (Ctrl+S): là chức năng dùng để kết nối các dữ liệu từ bênngoài khi biểu diễn bảng SQLđể truy vấn cơ sở dữ liệu

- Bayes net editor (Ctrl+N): ứng dụng để chỉnh sửa, hiển thị và tìm hiểu cácmạng lưới của Bayes

Trang 13

Hình 6: Các chức năng trong Tools

Trang 14

Systeminfor là thông tin về hệ thống, nó liệt kê một số tham số nội bộ cầnthiết để chạy trong môi trường Java/Weka Ví dụ như CLASSPATH, đây là tham

số liên quan đến vấn đề của ngôn ngữ Java…

Hình 8: Systeminfo là thông tin về hệ thống

II Các môi trường chức năng chính của Weka

Như đã nói ở trên, trong Applications có chứa 4 môi trường là:

- Simple CLI với giao diện đơn giản và kiểu dòng lệnh (như MS-DOS)

- Explorer là môi trường cho phép thực hiện tất cả các chức năng củaWeka để khám phá dữ liệu

- Experimenter là môi trường cho phép tiến hành các thí nghiệm và thựchiện các kiểm tra thống kê (statistical tests) giữa các mô hình học máy

- KnowledgeFlow là môi trường cho phép bạn tương tác đồ họa kiểukéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm

Trang 15

Trong số 4 môi trường trên thì môi trường Explorer là môi trường được sửdụng nhiều nhất Trong Explorer có các chức năng chính là:

- Preprocess: để chọn và thay đổi (xử lý) dữ liệu làm việc

- Classify: để huấn luyện và kiểm tra các mô hình học máy (phânloại, hoặc hồi quy/dự đoán)

- Cluster: để học các nhóm từ dữ liệu (phân cụm)

- Associate: để khám phá các luật kết hợp từ dữ liệu

- Select attributes: để xác định và lựa chọn các thuộc tính liên quan(quan trọng) nhất của dữ liệu

- Visualize: để xem (hiển thị) biểu đồ tương tác 2 chiều đối với dữliệu

Hình 9: Các chức năng trong Explorer

Trang 16

CHƯƠNG III: CÁC ĐỊNH DẠNG DỮ LIỆU CỦA

là giá trị thuộc tính của các thể hiện (instance) có chung tập hợp các thuộc tính

ARFF dễ thao tác và dễ hiểu, người dùng có thể tự tạo cho mình một fileARFF khi hiểu về những quy định chuẩn của nó Tuy nhiên, vì là định dạng chuyêndụng cho mỗi chương trình Weka nên những ứng dụng khác không thể đọc được

nó Do đó, khi sử dụng kết hợp Weka với các chương trình khác thì người dùngbuộc phải xây dựng các module để chuyển kiểu dữ liệu từ ARFF sang kiểu dữ liệutương ứng với chương trình đó

2 Cấu trúc của file ARFF

ARFF gồm 2 phần riêng biệt:

- Header: chứa tên quan hệ, danh sách các thuộc tính và kiểu dữ liệu củachúng

- Data: chứa thông tin của các instance được tổ chức theo đúng thứ tựkhai báo thuộc tính

3 Ký hiệu trong file ARFF

Trang 17

Khai báo @relation đặt tên quan hệ:

 datatype là 1 trong 4 loại sau:

- numeric: real, integer

Ví dụ: @attribute 67DCHT22 real

@attribute 67HT22 integer @attribute HT22 numeric

<date format> là định dạng dữ liệu ngày tháng, nó cho phép

biểu diễn ngày, tháng, năm và giờ, phút, giây: yyyy-MM-dd HH:mm:ss

Khai báo @data: báo hiệu bắt đầu phần dữ liệu:

@data

Trong đó:

Trang 18

 Cụm @data sẽ nằm trên một dòng đơn

 Mỗi instance được thể hiện bằng một dòng, kết thúc bằng cặp ký tựxuống dòng, giá trị các thuộc tính xuất hiện theo đúng thứ tự khai báo

 Các thuộc tính thiếu giá trị được biểu diễn bằng dấu (?)

II Sparse ARFF Files

Sparse ARFF là một dạng mở rộng của file ARFF Cấu trúc phần header củasparse ARFF hoàn toàn tương tự với file ARFF nguyên thủy, tuy nhiên, nó chỉ khác

ở những instance được biểu diễn trong phần data

Phần data không biểu diễn tường mình số 0

 Mỗi thể hiện được đặt trong dấu {}

 Cú pháp: <index> <space> <value>

 Với index là chỉ mục thuộc tính (bắt đầu từ 0)

Trang 19

CHƯƠNG IV: MÔI TRƯỜNG EXPLORER

Explorer là môi trường cho phép người dùng thực hiện tất cả các chức năngcủa Weka để khám phá dữ liệu Do đó, đây cũng là môi trường chính và đượcngười dùng sử dụng nhiều nhất trong quá trình khai phá dữ liệu cùng với 6 chứcnăng cụ thể dưới đây

I Preprocess

Hình 10: Giao diện Preprocess

Preprocess là một trong các chức năng của Explorer, hỗ trợ người dùng cácthao tác cần làm trong bước tiền xử lý dữ liệu – một chức năng chính của Weka.Nói cách khác, Preproccess là chức năng giúp người dùng hiệu chỉnh dữ liệu trướckhi tiến hành các chức năng khác Preprocess có các chức năng chính sau đây:

1 Đọc dữ liệu

Trang 20

Preprocess giúp người dùng có thể đọc và xử lý dữ liệu cần làm việc Trongtiền xử lý dữ liệu, Preprocess hỗ trợ tải lên 4 loại file:

- Open file: hiển thị hộp thoại cho phép bạn duyệt dữ liệu từ file có sẵn

trong máy vào Weka Hệ thống có thể đọc các tệp ở nhiều định dạngkhác nhau như ARFF, CVS, XRFF… Bên cạnh những định dạng dữliệu đã được Weka xây dựng sẵn, người dùng cũng có thể thêm địnhdạng file mới bằng cách hiệu chỉnh gói chức năng

weka.core.convertes Tuy nhiên, để có thể hiệu chỉnh gói phần mềm

này thì người dùng phải có một kiến thức nhất định về Java

Hình 11: Một số định dạng được hỗ trợ

- Open URL: đọc dữ liệu từ nơi lưu trữ dữ liệu bằng địa chỉ URL

(Uniform Resource Locator)

- Open DB: đọc dữ liệu từ cơ sở dữ liệu như MS SQL, MySQL,

PostGre Lưu ý, để thực hiện công việc này, người phải chỉnh sửa file

cấu hình trong weka/ experiment/ DatabaseUtils.props Để hiệu chỉnh

được cấu hình đúng thì người dùng có thể tham khảo một số tài liệu doWeka soạn trên trang web chủ của nó

Trang 21

- Generate: phát sinh dữ liệu mới từ các bộ phát sinh dữ liệu

DataGenerators Dữ liệu ở đây sẽ được phát sinh ngẫu nhiên theo quyđịnh của bộ phát sinh này trong phần mềm Weka đã cài đặt

2 Hiệu chỉnh dữ liệu (Edit)

Đôi khi chúng ta nhận thấy rằng dữ liệu cần phải được hiệu chỉnh khi dữ liệu

sai hoặc có giá trị bị thiếu thì Edit là chức năng giúp người dùng có thể điền hoặc

chỉnh sửa dữ liệu, giúp dữ liệu được hoàn thiện đầy đủ hơn

Khi nhấp chuột vào Edit, hệ thống sẽ hiển thị lên cửa sổ pop-up Viewer, nơi

biển diễn dữ liệu dưới dạng bảng biểu một cách trực quan, giúp người dùng dễdàng thay đổi giá trị Với thanh tiêu đề ở trên, khi nhấp chuột phải vào từng tiêu đề,

hệ thống sẽ tiếp tục mở ra thêm một cửa sổ pop-up với các tùy chọn chức năng màWeka hỗ trợ để người dùng thao tác trên tập dữ liệu:

Hình 12: Một số chức năng Weka hỗ trợ thao tác trên tập dữ liệu

 Get mean: lấy trung bình giá trị của một thuộc tính trong tất cả các

mẫu, nói cách khác là lấy trung bình tất cả các dòng trong một cột

Trang 22

 Set all values to: đặt giá trị của một thuộc tính trong tất cả các mẫu

 Rename attribute: đổi tên thuộc tính.

 Attribute as class: đặt thuộc tính đang chọn làm thuộc tính phân lớp.

 Delete attribute(s): xóa thuộc tính.

 Sort data (ascending): sắp xếp dữ liệu tăng dần theo thuộc tính được

chọn

 Optimal column width (all, current): tối ưu hóa chiều rộng của cột

sao cho dễ nhìn nhất (về mặt thẩm mỹ trực quan)

3 Cung cấp thông tin về tập dữ liệu (Current Relation)

Khi dữ liệu được tải lên, bảng Preprocess sẽ hiển thị nhiều thông tin khácnhau, trong đó có Current Relation Current Relation cung cấp một cái nhìn trựcquan và chi tiết về dữ liệu mà ta đang làm việc với 3 mục như sau:

 Relation: hiển thị tên của mối quan hệ

 Instances: số lượng của các mẫu bản ghi trong dữ liệu.

 Attributes: số lượng của các thuộc tính trong dữ liệu.

a Attributes

Bên dưới hộp Current Relation là hộp Attributes Attributes chứa các thuộctính của quan hệ được hiển thị theo danh sách gồm 3 cột:

- No: số thứ tự của thuộc tính được sắp xếp trong tệp dữ liệu

- Ô tích chọn thuộc tính: ô này cho phép người sử dụng được tùy chọnquyết định thuộc tính có được xuất hiện trong mối quan hệ hay không

- Name: hiển thị tên thuộc tính theo danh sách như ở trong tệp dữ liệu.

Trang 23

Phía trên danh sách các thuộc tính của quan hệ là các tùy chọn chức năngtiện dụng cho danh sách thuộc tính:

- All: tất cả các ô đều được chọn

- None: xóa tất cả các dấu đã chọn

- Invert: cũng giống như All nhưng Invert đánh dấu chọn đảo ngược

các thuộc tính

- Pattern: cho phép người dùng chọn thuộc tính dựa trên Perl 5 Regular

Expression

Khi các thuộc tính mong muốn đã được chọn, người dùng có thể xóa các

thuộc tính này khi nhấp chuột vào nút Remove nằm bên dưới danh sách thuộc tính.

Tuy nhiên, nếu việc xóa không như mong muốn, người dùng có thể hoàn tác lại quá

trình khi nhấp vào nút Undo, nằm bên cạnh nút Edit ở góc trên cùng bên phải của

bảng Preprocess

Khi người sử dụng nhấp vào các hàng thuộc tính khác nhau trong danh sách,các trường trong hộp Selected Attribute và các cột lớp nằm ở góc bên phải mànhình cũng sẽ thay đổi

Selected Attribute hiển thị các đặc tính, thông tin riêng của từng thuộc tínhđược chọn trong danh sách:

- Name: tên của thuộc tính, giống như tên trong danh sách thuộc tính

Attributes

- Type: loại thuộc tính, thường hiển thị dưới hai dạng là Nominal hoặc

Numeric

- Missing: số lượng và tỷ lệ phần trăm của các cá thể trong dữ liệu mà

thuộc tính này bị thiếu

- Distinct: số lượng giá trị khác nhau mà dữ liệu chứa cho thuộc tính

- Unique: số lượng và tỷ lệ phần trăm của các cá thể trong dữ liệu có

giá trị cho thuộc tính này mà không có trường hợp nào khác có

Trang 24

Hộp Class là nơi biểu diễn trực quan cho từng thuộc tính, mỗi cột biểu diễn

cho mỗi giá trị của thuộc tính Khi nhấp vào nút Visualize All tất cả các thuộc tính

sẽ được biểu diễn

tùy chọn được hiển thị trong trường bên cạnh nút Choose Nhấp vào hộp này với

nút chuột trái sẽ trả về một hộp thoại GenericObjectEditor Nhấp chuột bằng nútchuột phải (hoặc Alt + Shift + nhấp chuột trái) sẽ hiển thị menu hoặc các thuộc tínhtrong GenericObjectEditor hộp thoại, hoặc để sao chép chuỗi thiết lập hiện tại vàoclipboard

5 Lưu dữ liệu (Save)

Sau khi đã hiệu chỉnh xong dữ liệu, Weka giúp người dùng lưu lại theo nhiềuđịnh dạng khác nhau

Hình 13: Một số định dạng được hỗ trợ

Trang 25

Bên cạnh đó, người dùng cũng có thể xem lại nhật ký hệ thống bằng cách

Trang 26

Khi nhấp chuột phải (hoặc tổ hợp phím Alt + Shift + chuột trái), người dùng

có thể sao chép chuỗi thiết lập vào clipboard hoặc hiển thị các thuộc tính trong hộpthoại GenericObjectEditor

Weka cho phép người sử dụng chọn một trong các trình phân loại có sẵn

trong hệ thống bằng cách nhấp vào nút Choose.

2 Test Options

Kết quả của việc áp dụng các Classify đã chọn sẽ được kiểm tra theo mộttrong bốn tùy chọn thử nghiệm được đặt trong hộp Test Options:

- Use training set: sử dụng chính tập huấn luyện là tập test.

- Supplied test set: chỉ định tập test mới Khi nhập chuột vào nút Set…,

hệ thống sẽ trả về hộp thoại cho phép người dùng chọn tệp để kiểmtra

- Cross-validation: trình phân loại sử dụng số lượng các Folds được

nhập vào textbox để đánh giá

của nó theo tỷ lệ phần trăm nhất định của dữ liệu được tổ chức để thửnghiệm Hiệu quả của dữ liệu được lưu trữ phụ thuộc vào giá trị được

nhập trong textbox %.

Các tùy chọn thử nghiệm khác có thể được đặt bằng cách nhấp vào nút More

Options… với các tùy chọn:

Hình 15: More options

Ngày đăng: 30/11/2018, 17:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w