Thực nghiệm với chức năng Explorer

Một phần của tài liệu Tiểu luận khai phá dữ liệu GOM CỤM DỮ LIỆU VÀ CÔNG CỤ WEKA (Trang 53)

Như đã giới thiệu ở trên, Weka cho phép người dùng chọn lựa 1 trong 4 phương pháp kiểm thử để đánh giá mức độ chính xác của thuật toán. Trong bài thu hoạch này chọn phương pháp kiểm thử Cross-Validation là tập mẫu được chia thành nhiều tập mẫu con, một phần được dùng để kiểm tra kết quả của quá trình huấn luyện hệ thống trên tập dữ liệu gồm các phần còn lại. Số lượng tập mẫu con do người khai thác hệ thống quyết định.

Mục đích thực nghiệm là mong muốn tìm ra một thuật toán có độ chính xác cao nhất có thể ứng với tập dữ liệu mẫu đã thu thập được để áp dụng vào việc dự đoán các thể hiện mới trong tương lai.

CHƯƠNG 4

THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ DỮ LIỆU 4.1. Cài đặt hệ thống

4.1.1. Thuật toán áp dụng

Trong ứng dụng được xây dựng của bài thu hoạch này sử dụng thuật toán phân lớp Naïve Bayes; và thuật toán Kmeans để gom cụm dữ liệu.

Giao diện chính của chương trình

Chức năng của giao diện:

Cho phép người dùng chọn ứng dụng để thử nghiệm và thoát khỏi chương trình.

Giao diện About chương trình

Giao diện thử nghiệm thuật toán Kmeans

+ Open File: Mở tập dữ liệu mẫu. + Save File: Xuất file kết quả.

+ X, Y: Nhập tạo độ X, Y vào textbox +Add: Thêm điểm vào đồ thị.

+ Create Random Numpoints: Tạo bảng điểm ngẫu nhiên và add vào đồ thị. +Run: Chạy thuật toán Kmean để gom cụm.

+Clear: Xoá màn hình và vẽ lại đồ thị.

Giao diện gom cụm theo Kmeans

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1. Kết luận

Bài thu hoạch đã trình bày được các vấn đề cơ bản về khám phá tri thức, khai phá dữ liệu, máy học và gom cụm dữ liệu; các thuật toán và phương pháp gom cụm; nghiên cứu một số kỹ thuật phân lớp cơ bản trong khai phá dữ liệu, đó là phương pháp phân lớp cây quyết định với thuật toán: C4.5, phương pháp xác xuất Naïve Bayes và cài đặt thử nghiệm được thuật toán gom cụm Kmeans.

Trong quá trình hoàn thành bài thu hoạch này, dù đã đạt được những kiến thức nhất định, nhưng em nhận thấy vẫn còn rất nhiều tìm ẩn trong lĩnh vực Khai phá dữ liệu.

2. Hướng phát triển : Do những hạn chế về kiến thức và thời gian nên tôi mới chỉ đáp ứng phương pháp gom cụm k-means trên tập các điểm, chưa thể thực hiện bằng các phương pháp gom cụm khác và trên các lĩnh vực khác. Trong thời gian tới em sẽ cố

gắng phát triển hệ thống trên để có thể áp dụng cho các mô hình kinh doanh doanh nghiệp hiện nay.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]. PGS-TS. Đỗ Phúc, “Bài giảng Data Mining – Data Warehouse”.

[2]. Hoàng Thị Lan Giao (2010), chuyên đề khai phá dữ liệu trường Đại Học Khoa Học Huế.

Tiếng Anh

[3]. Heikki Mannila, Association Rules, 1996.

[4]. Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining. (1996), Institude of Information Technology National center for Natural Science and Technology.

[5]. John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp. 339-346.

[6]. Xindong Wu, Vipin Kumar, “The Top Ten Algorithms in Data Mining”, Chapman & Hall/CRC.

[7]. Jiawei Han, University of Illinois at Urbana-Champaign, Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publisher.

[8]. Website http://www.cs.waikato.ac.nz/ml/weka

Một phần của tài liệu Tiểu luận khai phá dữ liệu GOM CỤM DỮ LIỆU VÀ CÔNG CỤ WEKA (Trang 53)

Tải bản đầy đủ (DOC)

(59 trang)
w