Hiện nay có rất nhiều cấu trúc lưu trữ các tập dữ liệu mẫu được đề xuất bởi các chuyên gia và tổ chức nghiên cứu về máy học chẳng hạn như định dạng *.CSV, *.Arff. Trong bài thu hoạch này chọn cấu trúc lưu trữ dữ liệu dễ sử dụng và khai thác đó là định dạng *.CSV.
3.3.6.1. Cấu trúc tập CSV
Là một tập tin văn bản có tối thiểu 2 dòng, dòng đầu là dòng chứa các tiêu đề và dòng thứ 2 trở đi là các dòng dữ liệu :
Bảng 3-3 : Cấu trúc lưu trữ tập dữ liệu mẫu dạng CSV Header_1,Header_2,…,Header_n
Data_1,Data_2,…,Data_n
Ví dụ : Tập dữ liệu tín dụng được cho trong Bảng 3-1 sẽ được tổ chức như sau :
Tuoi,GioiTinh,NgheNghiep,ThuNhap,KetHon,Con,Xe,TKTK,ChoO,TheChap,ChoVay
TrungNien,Nu,LD_TriOc,Thap,Khong,1_Con,Khong,Khong,Nha_Thue,Khong,Khong TrungNien,Nam,LD_CoTayNghe,TB,Co,n_Con,Co,Khong,Nha_Rieng,Co,Co
TrungNien,Nu,LD_TriOc,Thap,Co,0_Con,Co,Co,Nha_Rieng,Khong,Khong ………
3.3.6.2. cấu trúc tập Arff
% chú thích
@Relation <Tên tập dữ liệu>
@Attribute <Tên thuộc tính 1> <Kiểu thuộc tính 1> …
@Attribute <Tên thuộc tính n> <Kiểu thuộc tính n>
@Attribute <Tên thuộc tính phân lớp> {Giá trị 1, Giá trị 2,…} @Data
<dữ liệu>
Kiểu thuộc tính sẽ là một trong hai kiểu sau: Real (kiểu dữ liệu liên tục) hoặc là Discrete (kiểu dữ liệu rời rạc). Nếu thuộc tính kiểu Discrete thì trong khai báo thuộc tính sẽ liệt kê đầy đủ các giá trị mà thuộc tính có thể nhận như:
@Attribute ket-hon {co, khong}
Ví dụ : Tập dữ liệu tín dụng được cho trong Bảng 3-1 sẽ được tổ chức như sau :
% Tập dữ liệu tín dụng ngân hàng
@relation Bank
@attribute Tuoi Real @attribute ThuNhap Real
@attribute GioiTinh {Nam, Nu} ………
@attribute Chovay {Co, Khong} @data
30,3000000,Nam,Co 23,1000000,Nu,Khong 40,3500000,Nam,Co ………
3.3.7. Thực nghiệm với chức năng Explorer
Như đã giới thiệu ở trên, Weka cho phép người dùng chọn lựa 1 trong 4 phương pháp kiểm thử để đánh giá mức độ chính xác của thuật toán. Trong bài thu hoạch này chọn phương pháp kiểm thử Cross-Validation là tập mẫu được chia thành nhiều tập mẫu con, một phần được dùng để kiểm tra kết quả của quá trình huấn luyện hệ thống trên tập dữ liệu gồm các phần còn lại. Số lượng tập mẫu con do người khai thác hệ thống quyết định.
Mục đích thực nghiệm là mong muốn tìm ra một thuật toán có độ chính xác cao nhất có thể ứng với tập dữ liệu mẫu đã thu thập được để áp dụng vào việc dự đoán các thể hiện mới trong tương lai.
CHƯƠNG 4
THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ DỮ LIỆU 4.1. Cài đặt hệ thống
4.1.1. Thuật toán áp dụng
Trong ứng dụng được xây dựng của bài thu hoạch này sử dụng thuật toán phân lớp Naïve Bayes; và thuật toán Kmeans để gom cụm dữ liệu.
Giao diện chính của chương trình
Chức năng của giao diện:
Cho phép người dùng chọn ứng dụng để thử nghiệm và thoát khỏi chương trình.
Giao diện About chương trình
Giao diện thử nghiệm thuật toán Kmeans
+ Open File: Mở tập dữ liệu mẫu. + Save File: Xuất file kết quả.
+ X, Y: Nhập tạo độ X, Y vào textbox +Add: Thêm điểm vào đồ thị.
+ Create Random Numpoints: Tạo bảng điểm ngẫu nhiên và add vào đồ thị. +Run: Chạy thuật toán Kmean để gom cụm.
+Clear: Xoá màn hình và vẽ lại đồ thị.
Giao diện gom cụm theo Kmeans
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Kết luận
Bài thu hoạch đã trình bày được các vấn đề cơ bản về khám phá tri thức, khai phá dữ liệu, máy học và gom cụm dữ liệu; các thuật toán và phương pháp gom cụm; nghiên cứu một số kỹ thuật phân lớp cơ bản trong khai phá dữ liệu, đó là phương pháp phân lớp cây quyết định với thuật toán: C4.5, phương pháp xác xuất Naïve Bayes và cài đặt thử nghiệm được thuật toán gom cụm Kmeans.
Trong quá trình hoàn thành bài thu hoạch này, dù đã đạt được những kiến thức nhất định, nhưng em nhận thấy vẫn còn rất nhiều tìm ẩn trong lĩnh vực Khai phá dữ liệu.
2. Hướng phát triển : Do những hạn chế về kiến thức và thời gian nên tôi mới chỉ đáp ứng phương pháp gom cụm k-means trên tập các điểm, chưa thể thực hiện bằng các phương pháp gom cụm khác và trên các lĩnh vực khác. Trong thời gian tới em sẽ cố
gắng phát triển hệ thống trên để có thể áp dụng cho các mô hình kinh doanh doanh nghiệp hiện nay.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. PGS-TS. Đỗ Phúc, “Bài giảng Data Mining – Data Warehouse”.
[2]. Hoàng Thị Lan Giao (2010), chuyên đề khai phá dữ liệu trường Đại Học Khoa Học Huế.
Tiếng Anh
[3]. Heikki Mannila, Association Rules, 1996.
[4]. Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining. (1996), Institude of Information Technology National center for Natural Science and Technology.
[5]. John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp. 339-346.
[6]. Xindong Wu, Vipin Kumar, “The Top Ten Algorithms in Data Mining”, Chapman & Hall/CRC.
[7]. Jiawei Han, University of Illinois at Urbana-Champaign, Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publisher.
[8]. Website http://www.cs.waikato.ac.nz/ml/weka