Báo cáo Hệ trợ giúp quyết định, khai phá dữ liệu chi tiết phần mềm Weka và ứng dụng của Weka, ví dụ thực tế. Weka phục vụ cho việc quản lý, vận hành và lập kế hoạch của một tổ chức, giúp mọi người đưa ra quyết định về các vấn đề có thể thay đổi nhanh chóng và không dễ dàng xác định trước tức là các vấn đề quyết định không có cấu trúc và bán cấu trúc. Cùng với sự ra đời của Hệ trợ giúp quyết định, phần mềm Weka cũng được tạo ra để hỗ trợ đắc lực cho con người trong việc phân tích dữ liệu và lập các mô hình dự đoán, phục vụ tốt nhất cho quá trình tổ chức, ra quyết định
Trang 1BÁO CÁO
HỆ TRỢ GIÚP QUYẾT ĐỊNH
ĐỀ TÀI: TÌM HIỂU VỀ PHẦN MỀM WEKA VÀ
ỨNG DỤNG
Trang 2MỤC LỤC
LỜI MỞ ĐẦU……… 3
CHƯƠNG I: Tổng quan về Weka……… 4
I Giới thiệu chung về Weka……….4
II Cài đặt Weka……….7
CHƯƠNG II: Tìm hiểu về Weka……… 9
I Menu thành phần Weka………9
II Các môi trường chức năng chính của Weka………14
CHƯƠNG III: Các định dạng dữ liệu của Weka……… 16
I Định dạng ARFF……… 16
II Sparse ARFF Files……… 18
CHƯƠNG IV: Môi trường Explorer………19
I Preprocess……….19
II Classify……….25
III Cluster……… 30
IV Associate……….32
V Select Attributes……… 33
VI Visualize……… 34
CHƯƠNG V: Ví dụ minh họa……… 38
1 Preprocess……….38
2 Classify……… 42
3 Cluster……… 45
4 Associate……… 48
KẾT LUẬN……….52
TÀI LIỆU THAM KHẢO……….53
Trang 3LỜI MỞ ĐẦU
Ngày nay, khi mà thời buổi công nghiệp hóa, hiện đại hóa đang ngày càngphát triển trên toàn cầu thì công nghệ thông tin cũng trở thành trợ thủ đắc lực củacon người trong cuộc sống và ở bất kỳ quốc gia nào để có thể hòa nhập với thếgiới Đứng trước những thách thức, trước sự bùng nổ mạnh mẽ của thời đại côngnghệ 4.0, cũng như việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đờisống, kinh tế xã hội thì Hệ trợ giúp quyết định (DSS - Decision Support System) là
hệ thống thông tin được tạo ra và phát triển để trợ giúp công tác ra quyết định, đặcbiệt đối với các hoạt động ra quyết định kinh doanh hoặc tổ chức
Các DSS phục vụ cho việc quản lý, vận hành và lập kế hoạch của một tổchức, giúp mọi người đưa ra quyết định về các vấn đề có thể thay đổi nhanh chóng
và không dễ dàng xác định trước - tức là các vấn đề quyết định không có cấu trúc
và bán cấu trúc. Hệ thống hỗ trợ quyết định có thể được vi tính hóa hoàn toàn hoặcđược hỗ trợ bởi con người, nhưng cũng có thể kết hợp cả hai Khi đề cập đến DSS,người ta thường dùng các khái niệm như: người ra quyết định, quá trình ra quyếtđịnh và hệ thống tin học trợ giúp
Cùng với sự ra đời của Hệ trợ giúp quyết định, phần mềm Weka cũng đượctạo ra để hỗ trợ đắc lực cho con người trong việc phân tích dữ liệu và lập các môhình dự đoán, phục vụ tốt nhất cho quá trình tổ chức, ra quyết định Và đây cũngchính là đề tài mà nhóm chúng em sẽ nghiên cứu trong bài báo cáo này
Chúng em xin chân thành cảm ơn sự giúp đỡ tận tình của cô giáo Giảng viênĐoàn Thị Thanh Hằng để chúng em có thể hoàn thành bài báo cáo này Do kiếnthức còn hạn hẹp nên bài báo cáo của nhóm chúng em còn nhiều thiếu xót Vì vậy,chúng em rất mong sẽ nhận được sự góp ý, giúp đỡ của thầy/cô để chúng em có thểhoàn thiện bài báo cáo tốt hơn nữa
Chúng em xin chân thành cảm ơn!
Trang 4CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA
I Giới thiệu chung về Weka
1 Khái niệm
Weka là một bộ phần mềm mã nguồn mở miễn phí khai thác dữ liệu, đượcxây dựng bằng ngôn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổchức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu
Weka là phần mềm thuộc dự án phát triển của Đại học Waikato, NewZealand, nó là tên viết tắt của Waikato Environment for Knowledge Analysis.Ngoài khuôn khổ trường đại học, Weka được phát âm vần điệu với Mecca, đây làmột loài chim không bay với bản chất tò mò chỉ tìm thấy trên các đảo ở NewZealand, đồng thời, loài chim này cũng chính là biểu tượng cho phần mềm Weka
Hình 1: Loài chim Mecca được chọn là biểu tượng của ứng dụng Weka
Weka cung cấp các thuật toán học tập mà bạn có thể dễ dàng áp dụng chocác bộ dữ liệu (dataset) Nó cũng bao gồm một loạt các công cụ để chuyển đổi các
bộ dữ liệu như các thuật toán để phân loại và lấy mẫu mà không cần phải viết bất
kỳ mã chương trình nào
Trang 5Theo KDNuggets (2005) đánh giá, Weka là sản phẩm khai thác dữ liệu được
sử dụng nhiều nhất, nổi bật và hiệu quả nhất năm 2005
Weka chứa một bộ sưu tập các công cụ trực quan và các thuật toán để phântích dữ liệu cũng như lập các mô hình dự đoán, cùng với các giao diện người dùng
đồ họa để dễ dàng truy cập các chức năng này
2 Ưu điểm của Weka
Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 vàđược sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáodục và nghiên cứu bởi những ưu điểm sau:
Tính khả dụng miễn phí theo Giấy phép Công cộng GNU (giấy phép cungcấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự dochạy, nghiên cứu, chia sẻ và thay đổi phần mềm)
Được thực hiện bởi ngôn ngữ lập trình Java nên Weka có tính di động khi
nó chạy được trên hầu hết bất kỳ nền tảng điện toán hiện đại nào đã đượcthử nghiệm như Linux, Windows hay hệ điều hành Macintosh
Tổng hợp toàn diện các kỹ thuật tiền xử lý và mô hình hóa dữ liệu
Giao diện đồ họa giúp người dùng dễ sử dụng
Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử
lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hóa và lựa chọn tínhnăng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ liệu có sẵn dướidạng một tệp phẳng hoặc quan hệ, trong đó mỗi điểm dữ liệu được mô tả bằng một
số thuộc tính cố định (thông thường là thuộc tính số hoặc danh nghĩa, nhưng một sốloại thuộc tính khác cũng được hỗ trợ). Weka cung cấp quyền truy cập vào cơ sở dữliệu SQL bằng cách sử dụng Java Database Connectivity và có thể xử lý kết quảđược trả về bởi truy vấn cơ sở dữ liệu
Trang 63 Những tính năng vượt trội của Weka
Như đã nói ở trên, Weka được đánh giá là sản phẩm khai thác dữ liệu nổi bật
là bởi những tính năng đặc biệt sau:
Hỗ trợ nhiều thuật toán máy học và khai thác dữ liệu
Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng download
Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu)
Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu
4 Kiến trúc thư viện Weka
Để thuận tiện cho việc sử dụng của người dùng, kiến trúc thư viện của Wekađược xây dựng với hơn 600 lớp và được tổ chức thành 10 gói (package), trong đó,mỗi package sẽ thực hiện một nhiệm vụ chức năng riêng biệt trong quá trình khaithác dữ liệu Để người dùng có thể tự xây dựng ứng dụng của bản thân mình thìngười dùng có thể trực tiếp sử dụng những package này để xây dựng các chươngtrình
Weka có một số lượng lớn các công cụ hồi quy và phân loại. Các gói bản địa
là các gói được bao gồm trong phần mềm Weka thực thi, trong khi các gói không phải gốc khác có thể được tải xuống và sử dụng trong môi trường R.Weka. Trong
số các gói bản địa, công cụ nổi tiếng nhất là gói cây mô hình M5p Một số công cụ hồi quy phổ biến là:
M5Rules (thuật toán M5' được trình bày dưới dạng hàm toán học không có cây)
DecisionStump (giống như M5' nhưng với một đầu ra số duy nhất trong mỗi nút)
Trang 7 M5P (tách miền thành các vùng nhị phân kế tiếp và sau đó phù hợp với các mô hình tuyến tính cho mỗi nút cây)
RandomForest (một số cây mô hình kết hợp)
RepTree (một số cây mô hình kết hợp)
ZeroR (giá trị trung bình của kết quả đầu ra)
DecisionRules (chia tách dữ liệu thành nhiều vùng dựa trên một biến độc lập và cung cấp một giá trị đầu ra cho mỗi phạm vi)
LinearRegression
Sự hồi quy vector hỗ trợ
SimpleLinearRegression (sử dụng một biến chặn và chỉ 1 biến đầu vàocho dữ liệu đa biến)
MultiLayerPerceptron (mạng nơron)
GaussianProcesses
II Cài đặt Weka
Trang chủ Weka https://www.cs.waikato.ac.nz/ml/weka/ cung cấp đầy đủcác loại phiên bản trong các môi trường khác nhau Đồng thời, nó cũng cung cấphướng dẫn sử dụng ngay trên trang chủ của Weka hoặc trong các file dưới dạngPDF ngay sau khi cài đặt phần mềm Không những vậy, Weka còn cung cấp cácfile dữ liệu đã xây dựng sẵn theo định dạng ARFF để tiết kiệm thời gian trong quátrình xây dựng bộ dữ liệu
Trang 8version nhưng vẫn mang khuyết điểm khi có thể chưa được ổn địnhbằng các phiên bản của Book version.
2 Môi trường hỗ trợ
Weka hỗ trợ chạy được trên rất nhiều hệ điều hành khác nhau, trong đó đượcchia thành hai nhóm chính là những phiên bản dành cho môi trường Windows vàcác platform (nền tảng) khác như Linux, Macintosh…
Điều kiện để khởi chạy được Weka chính là chương trình của bạn phải nhấtđịnh phải đi kèm với máy ảo Java (JVM – Java virtual machine)
Trang 9CHƯƠNG II: TÌM HIỂU VỀ WEKA
I Menu thành phần của Weka
Phiên bản mới nhất của Weka được cập nhật vào ngày 9/4/2018 thì ứng dụng
đã được cập nhật lên phiên bản 3.8.3 Trong phiên bản mới nhất, menu của Wekagồm 5 thành phần chính:
Hình 2: Màn hình Menu của Weka
1 Program
Chương trình Program bao gồm:
- LogWindow (Ctrl+L): là nơi ghi lại thông tin hệ thống hay lỗi phátsinh trong suốt quá trình sử dụng phần mềm
- Memory usage (Ctrl+M): sử dụng bộ nhớ
- Settings: cài đặt Weka
- Exit (Ctrl+E): chức năng đóng chương trình Weka
Trang 10Hình 3: Các chức năng của Program
2 Applications
Applications chứa các môi trường chức năng chính của Weka
- Explorer: cung cấp môi trường để khảo sát dữ liệu
- Experimenter: môi trường tiến hành các thực nghiệm và kiểm chứnggiữa các mô hình học
- Knowledge Flow: cũng có các chức năng tương tự như Explorernhưng Knowledge Flow lại có giao diện kéo – thả tiện lợi Đồng thờicòn hỗ trợ chức năng học tăng dần (incremental learning)
- Workbench: được coi là ứng dụng tất cả trong một, Workbench là ứngdụng kết hợp tất cả các ứng dụng ở bên trong nó
- Simple CLI: cung cấp giao diện dòng lệnh để thực thi Weka, tính năngnày tương tự như cửa sổ Command Prompt của Windows, nó hỗ trợcho các hệ điều hành không có chức năng của các cửa sổ dòng lệnh,
Trang 11SimpleCLI sẽ thực thi trực tiếp các lệnh của Weka mà không cầnthông qua giao diện.
Hình 4: Các môi trường chức năng của Application
3 Visualization
Visualization bao gồm các phương pháp biểu diễn trực quan giúp ta nhận rõđược bản chất của tập dữ liệu:
- Plot (Ctrl+P): vẽ biểu đồ 2D cho một tập dữ liệu
- ROC (Ctrl+R): biểu diễn một đường cong ROC đã lưu trước đó
- TreeVisualizer (Ctrl+T): biểu diễn đồ thị có hướng (ví dụ như câyquyết định…)
- GraphVisualizer (Ctrl+G): biểu diễn đồ thị tổng quát
- BoundaryVisualizer (Ctrl+B): biểu diễn 2D về biên giữa các lớp
Trang 12Hình 5: Các chức năng của Visualization
4 Tools
Một số ứng dụng tiện ích khác được tích hợp trong Tools:
- Package manager (Ctrl+U): Một giao diện đồ họa cho trình quản lý góicủa Weka
- ArffViewer (Ctrl+A): là ứng dụng cho phép xem các file ARFF dướidạng bảng tính, nó giống như một file text với các dữ liệu được lưu nốitiếp nhau, giúp ta có cái nhìn trực quan hơn thay vì nhìn trực tiếp vào nộidung của file ARFF
- SqlViewer (Ctrl+S): là chức năng dùng để kết nối các dữ liệu từ bênngoài khi biểu diễn bảng SQLđể truy vấn cơ sở dữ liệu
- Bayes net editor (Ctrl+N): ứng dụng để chỉnh sửa, hiển thị và tìm hiểu cácmạng lưới của Bayes
Trang 13Hình 6: Các chức năng trong Tools
Trang 14Systeminfor là thông tin về hệ thống, nó liệt kê một số tham số nội bộ cầnthiết để chạy trong môi trường Java/Weka Ví dụ như CLASSPATH, đây là tham
số liên quan đến vấn đề của ngôn ngữ Java…
Hình 8: Systeminfo là thông tin về hệ thống
II Các môi trường chức năng chính của Weka
Như đã nói ở trên, trong Applications có chứa 4 môi trường là:
- Simple CLI với giao diện đơn giản và kiểu dòng lệnh (như MS-DOS)
- Explorer là môi trường cho phép thực hiện tất cả các chức năng củaWeka để khám phá dữ liệu
- Experimenter là môi trường cho phép tiến hành các thí nghiệm và thựchiện các kiểm tra thống kê (statistical tests) giữa các mô hình học máy
- KnowledgeFlow là môi trường cho phép bạn tương tác đồ họa kiểukéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm
Trang 15Trong số 4 môi trường trên thì môi trường Explorer là môi trường được sửdụng nhiều nhất Trong Explorer có các chức năng chính là:
- Preprocess: để chọn và thay đổi (xử lý) dữ liệu làm việc
- Classify: để huấn luyện và kiểm tra các mô hình học máy (phânloại, hoặc hồi quy/dự đoán)
- Cluster: để học các nhóm từ dữ liệu (phân cụm)
- Associate: để khám phá các luật kết hợp từ dữ liệu
- Select attributes: để xác định và lựa chọn các thuộc tính liên quan(quan trọng) nhất của dữ liệu
- Visualize: để xem (hiển thị) biểu đồ tương tác 2 chiều đối với dữliệu
Hình 9: Các chức năng trong Explorer
Trang 16CHƯƠNG III: CÁC ĐỊNH DẠNG DỮ LIỆU CỦA
là giá trị thuộc tính của các thể hiện (instance) có chung tập hợp các thuộc tính
ARFF dễ thao tác và dễ hiểu, người dùng có thể tự tạo cho mình một fileARFF khi hiểu về những quy định chuẩn của nó Tuy nhiên, vì là định dạng chuyêndụng cho mỗi chương trình Weka nên những ứng dụng khác không thể đọc được
nó Do đó, khi sử dụng kết hợp Weka với các chương trình khác thì người dùngbuộc phải xây dựng các module để chuyển kiểu dữ liệu từ ARFF sang kiểu dữ liệutương ứng với chương trình đó
2 Cấu trúc của file ARFF
ARFF gồm 2 phần riêng biệt:
- Header: chứa tên quan hệ, danh sách các thuộc tính và kiểu dữ liệu củachúng
- Data: chứa thông tin của các instance được tổ chức theo đúng thứ tựkhai báo thuộc tính
3 Ký hiệu trong file ARFF
Trang 17 Khai báo @relation đặt tên quan hệ:
datatype là 1 trong 4 loại sau:
- numeric: real, integer
Ví dụ: @attribute 67DCHT22 real
@attribute 67HT22 integer @attribute HT22 numeric
<date format> là định dạng dữ liệu ngày tháng, nó cho phép
biểu diễn ngày, tháng, năm và giờ, phút, giây: yyyy-MM-dd HH:mm:ss
Khai báo @data: báo hiệu bắt đầu phần dữ liệu:
@data
Trong đó:
Trang 18 Cụm @data sẽ nằm trên một dòng đơn
Mỗi instance được thể hiện bằng một dòng, kết thúc bằng cặp ký tựxuống dòng, giá trị các thuộc tính xuất hiện theo đúng thứ tự khai báo
Các thuộc tính thiếu giá trị được biểu diễn bằng dấu (?)
II Sparse ARFF Files
Sparse ARFF là một dạng mở rộng của file ARFF Cấu trúc phần header củasparse ARFF hoàn toàn tương tự với file ARFF nguyên thủy, tuy nhiên, nó chỉ khác
ở những instance được biểu diễn trong phần data
Phần data không biểu diễn tường mình số 0
Mỗi thể hiện được đặt trong dấu {}
Cú pháp: <index> <space> <value>
Với index là chỉ mục thuộc tính (bắt đầu từ 0)
Trang 19CHƯƠNG IV: MÔI TRƯỜNG EXPLORER
Explorer là môi trường cho phép người dùng thực hiện tất cả các chức năngcủa Weka để khám phá dữ liệu Do đó, đây cũng là môi trường chính và đượcngười dùng sử dụng nhiều nhất trong quá trình khai phá dữ liệu cùng với 6 chứcnăng cụ thể dưới đây
I Preprocess
Hình 10: Giao diện Preprocess
Preprocess là một trong các chức năng của Explorer, hỗ trợ người dùng cácthao tác cần làm trong bước tiền xử lý dữ liệu – một chức năng chính của Weka.Nói cách khác, Preproccess là chức năng giúp người dùng hiệu chỉnh dữ liệu trướckhi tiến hành các chức năng khác Preprocess có các chức năng chính sau đây:
1 Đọc dữ liệu
Trang 20Preprocess giúp người dùng có thể đọc và xử lý dữ liệu cần làm việc Trongtiền xử lý dữ liệu, Preprocess hỗ trợ tải lên 4 loại file:
- Open file: hiển thị hộp thoại cho phép bạn duyệt dữ liệu từ file có sẵn
trong máy vào Weka Hệ thống có thể đọc các tệp ở nhiều định dạngkhác nhau như ARFF, CVS, XRFF… Bên cạnh những định dạng dữliệu đã được Weka xây dựng sẵn, người dùng cũng có thể thêm địnhdạng file mới bằng cách hiệu chỉnh gói chức năng
weka.core.convertes Tuy nhiên, để có thể hiệu chỉnh gói phần mềm
này thì người dùng phải có một kiến thức nhất định về Java
Hình 11: Một số định dạng được hỗ trợ
- Open URL: đọc dữ liệu từ nơi lưu trữ dữ liệu bằng địa chỉ URL
(Uniform Resource Locator)
- Open DB: đọc dữ liệu từ cơ sở dữ liệu như MS SQL, MySQL,
PostGre Lưu ý, để thực hiện công việc này, người phải chỉnh sửa file
cấu hình trong weka/ experiment/ DatabaseUtils.props Để hiệu chỉnh
được cấu hình đúng thì người dùng có thể tham khảo một số tài liệu doWeka soạn trên trang web chủ của nó
Trang 21- Generate: phát sinh dữ liệu mới từ các bộ phát sinh dữ liệu
DataGenerators Dữ liệu ở đây sẽ được phát sinh ngẫu nhiên theo quyđịnh của bộ phát sinh này trong phần mềm Weka đã cài đặt
2 Hiệu chỉnh dữ liệu (Edit)
Đôi khi chúng ta nhận thấy rằng dữ liệu cần phải được hiệu chỉnh khi dữ liệu
sai hoặc có giá trị bị thiếu thì Edit là chức năng giúp người dùng có thể điền hoặc
chỉnh sửa dữ liệu, giúp dữ liệu được hoàn thiện đầy đủ hơn
Khi nhấp chuột vào Edit, hệ thống sẽ hiển thị lên cửa sổ pop-up Viewer, nơi
biển diễn dữ liệu dưới dạng bảng biểu một cách trực quan, giúp người dùng dễdàng thay đổi giá trị Với thanh tiêu đề ở trên, khi nhấp chuột phải vào từng tiêu đề,
hệ thống sẽ tiếp tục mở ra thêm một cửa sổ pop-up với các tùy chọn chức năng màWeka hỗ trợ để người dùng thao tác trên tập dữ liệu:
Hình 12: Một số chức năng Weka hỗ trợ thao tác trên tập dữ liệu
Get mean: lấy trung bình giá trị của một thuộc tính trong tất cả các
mẫu, nói cách khác là lấy trung bình tất cả các dòng trong một cột
Trang 22 Set all values to: đặt giá trị của một thuộc tính trong tất cả các mẫu
Rename attribute: đổi tên thuộc tính.
Attribute as class: đặt thuộc tính đang chọn làm thuộc tính phân lớp.
Delete attribute(s): xóa thuộc tính.
Sort data (ascending): sắp xếp dữ liệu tăng dần theo thuộc tính được
chọn
Optimal column width (all, current): tối ưu hóa chiều rộng của cột
sao cho dễ nhìn nhất (về mặt thẩm mỹ trực quan)
3 Cung cấp thông tin về tập dữ liệu (Current Relation)
Khi dữ liệu được tải lên, bảng Preprocess sẽ hiển thị nhiều thông tin khácnhau, trong đó có Current Relation Current Relation cung cấp một cái nhìn trựcquan và chi tiết về dữ liệu mà ta đang làm việc với 3 mục như sau:
Relation: hiển thị tên của mối quan hệ
Instances: số lượng của các mẫu bản ghi trong dữ liệu.
Attributes: số lượng của các thuộc tính trong dữ liệu.
a Attributes
Bên dưới hộp Current Relation là hộp Attributes Attributes chứa các thuộctính của quan hệ được hiển thị theo danh sách gồm 3 cột:
- No: số thứ tự của thuộc tính được sắp xếp trong tệp dữ liệu
- Ô tích chọn thuộc tính: ô này cho phép người sử dụng được tùy chọnquyết định thuộc tính có được xuất hiện trong mối quan hệ hay không
- Name: hiển thị tên thuộc tính theo danh sách như ở trong tệp dữ liệu.
Trang 23Phía trên danh sách các thuộc tính của quan hệ là các tùy chọn chức năngtiện dụng cho danh sách thuộc tính:
- All: tất cả các ô đều được chọn
- None: xóa tất cả các dấu đã chọn
- Invert: cũng giống như All nhưng Invert đánh dấu chọn đảo ngược
các thuộc tính
- Pattern: cho phép người dùng chọn thuộc tính dựa trên Perl 5 Regular
Expression
Khi các thuộc tính mong muốn đã được chọn, người dùng có thể xóa các
thuộc tính này khi nhấp chuột vào nút Remove nằm bên dưới danh sách thuộc tính.
Tuy nhiên, nếu việc xóa không như mong muốn, người dùng có thể hoàn tác lại quá
trình khi nhấp vào nút Undo, nằm bên cạnh nút Edit ở góc trên cùng bên phải của
bảng Preprocess
Khi người sử dụng nhấp vào các hàng thuộc tính khác nhau trong danh sách,các trường trong hộp Selected Attribute và các cột lớp nằm ở góc bên phải mànhình cũng sẽ thay đổi
Selected Attribute hiển thị các đặc tính, thông tin riêng của từng thuộc tínhđược chọn trong danh sách:
- Name: tên của thuộc tính, giống như tên trong danh sách thuộc tính
Attributes
- Type: loại thuộc tính, thường hiển thị dưới hai dạng là Nominal hoặc
Numeric
- Missing: số lượng và tỷ lệ phần trăm của các cá thể trong dữ liệu mà
thuộc tính này bị thiếu
- Distinct: số lượng giá trị khác nhau mà dữ liệu chứa cho thuộc tính
- Unique: số lượng và tỷ lệ phần trăm của các cá thể trong dữ liệu có
giá trị cho thuộc tính này mà không có trường hợp nào khác có
Trang 24Hộp Class là nơi biểu diễn trực quan cho từng thuộc tính, mỗi cột biểu diễn
cho mỗi giá trị của thuộc tính Khi nhấp vào nút Visualize All tất cả các thuộc tính
sẽ được biểu diễn
tùy chọn được hiển thị trong trường bên cạnh nút Choose Nhấp vào hộp này với
nút chuột trái sẽ trả về một hộp thoại GenericObjectEditor Nhấp chuột bằng nútchuột phải (hoặc Alt + Shift + nhấp chuột trái) sẽ hiển thị menu hoặc các thuộc tínhtrong GenericObjectEditor hộp thoại, hoặc để sao chép chuỗi thiết lập hiện tại vàoclipboard
5 Lưu dữ liệu (Save)
Sau khi đã hiệu chỉnh xong dữ liệu, Weka giúp người dùng lưu lại theo nhiềuđịnh dạng khác nhau
Hình 13: Một số định dạng được hỗ trợ
Trang 25Bên cạnh đó, người dùng cũng có thể xem lại nhật ký hệ thống bằng cách
Trang 26Khi nhấp chuột phải (hoặc tổ hợp phím Alt + Shift + chuột trái), người dùng
có thể sao chép chuỗi thiết lập vào clipboard hoặc hiển thị các thuộc tính trong hộpthoại GenericObjectEditor
Weka cho phép người sử dụng chọn một trong các trình phân loại có sẵn
trong hệ thống bằng cách nhấp vào nút Choose.
2 Test Options
Kết quả của việc áp dụng các Classify đã chọn sẽ được kiểm tra theo mộttrong bốn tùy chọn thử nghiệm được đặt trong hộp Test Options:
- Use training set: sử dụng chính tập huấn luyện là tập test.
- Supplied test set: chỉ định tập test mới Khi nhập chuột vào nút Set…,
hệ thống sẽ trả về hộp thoại cho phép người dùng chọn tệp để kiểmtra
- Cross-validation: trình phân loại sử dụng số lượng các Folds được
nhập vào textbox để đánh giá
của nó theo tỷ lệ phần trăm nhất định của dữ liệu được tổ chức để thửnghiệm Hiệu quả của dữ liệu được lưu trữ phụ thuộc vào giá trị được
nhập trong textbox %.
Các tùy chọn thử nghiệm khác có thể được đặt bằng cách nhấp vào nút More
Options… với các tùy chọn:
Hình 15: More options