Cấu trúc tập dữ liệu mẫu

Hiện nay có rất nhiều cấu trúc lưu trữ các tập dữ liệu mẫu được đề xuất bởi các chuyên gia và tổ chức nghiên cứu về máy học chẳng hạn như định dạng *.CSV, *.Arff. Trong bài thu hoạch này chọn cấu trúc lưu trữ dữ liệu dễ sử dụng và khai thác đó là định dạng *.CSV.

3.3.6.1. Cấu trúc tập CSV

Là một tập tin văn bản có tối thiểu 2 dòng, dòng đầu là dòng chứa các tiêu đề và dòng thứ 2 trở đi là các dòng dữ liệu :

Bảng 3-3 : Cấu trúc lưu trữ tập dữ liệu mẫu dạng CSV Header_1,Header_2,…,Header_n

Data_1,Data_2,…,Data_n

Ví dụ : Tập dữ liệu tín dụng được cho trong Bảng 3-1 sẽ được tổ chức như sau :

Tuoi,GioiTinh,NgheNghiep,ThuNhap,KetHon,Con,Xe,TKTK,ChoO,TheChap,ChoVay

TrungNien,Nu,LD_TriOc,Thap,Khong,1_Con,Khong,Khong,Nha_Thue,Khong,Khong TrungNien,Nam,LD_CoTayNghe,TB,Co,n_Con,Co,Khong,Nha_Rieng,Co,Co

TrungNien,Nu,LD_TriOc,Thap,Co,0_Con,Co,Co,Nha_Rieng,Khong,Khong ………

3.3.6.2. cấu trúc tập Arff

% chú thích

@Relation <Tên tập dữ liệu>

@Attribute <Tên thuộc tính 1> <Kiểu thuộc tính 1> …

@Attribute <Tên thuộc tính n> <Kiểu thuộc tính n>

@Attribute <Tên thuộc tính phân lớp> {Giá trị 1, Giá trị 2,…} @Data

<dữ liệu>

Kiểu thuộc tính sẽ là một trong hai kiểu sau: Real (kiểu dữ liệu liên tục) hoặc là Discrete (kiểu dữ liệu rời rạc). Nếu thuộc tính kiểu Discrete thì trong khai báo thuộc tính sẽ liệt kê đầy đủ các giá trị mà thuộc tính có thể nhận như:

@Attribute ket-hon {co, khong}

Ví dụ : Tập dữ liệu tín dụng được cho trong Bảng 3-1 sẽ được tổ chức như sau :

% Tập dữ liệu tín dụng ngân hàng

@relation Bank

@attribute Tuoi Real @attribute ThuNhap Real

@attribute GioiTinh {Nam, Nu} ………

@attribute Chovay {Co, Khong} @data

30,3000000,Nam,Co 23,1000000,Nu,Khong 40,3500000,Nam,Co ………

3.3.7. Thực nghiệm với chức năng Explorer

Như đã giới thiệu ở trên, Weka cho phép người dùng chọn lựa 1 trong 4 phương pháp kiểm thử để đánh giá mức độ chính xác của thuật toán. Trong bài thu hoạch này chọn phương pháp kiểm thử Cross-Validation là tập mẫu được chia thành nhiều tập mẫu con, một phần được dùng để kiểm tra kết quả của quá trình huấn luyện hệ thống trên tập dữ liệu gồm các phần còn lại. Số lượng tập mẫu con do người khai thác hệ thống quyết định.

Mục đích thực nghiệm là mong muốn tìm ra một thuật toán có độ chính xác cao nhất có thể ứng với tập dữ liệu mẫu đã thu thập được để áp dụng vào việc dự đoán các thể hiện mới trong tương lai.

CHƯƠNG 4

THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ DỮ LIỆU 4.1. Cài đặt hệ thống

4.1.1. Thuật toán áp dụng

Trong ứng dụng được xây dựng của bài thu hoạch này sử dụng thuật toán phân lớp Naïve Bayes; và thuật toán Kmeans để gom cụm dữ liệu.

Giao diện chính của chương trình

Chức năng của giao diện:

Cho phép người dùng chọn ứng dụng để thử nghiệm và thoát khỏi chương trình.

Giao diện About chương trình

Giao diện thử nghiệm thuật toán Kmeans

+ Open File: Mở tập dữ liệu mẫu. + Save File: Xuất file kết quả.

+ X, Y: Nhập tạo độ X, Y vào textbox +Add: Thêm điểm vào đồ thị.

+ Create Random Numpoints: Tạo bảng điểm ngẫu nhiên và add vào đồ thị. +Run: Chạy thuật toán Kmean để gom cụm.

+Clear: Xoá màn hình và vẽ lại đồ thị.

Giao diện gom cụm theo Kmeans

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1. Kết luận

Bài thu hoạch đã trình bày được các vấn đề cơ bản về khám phá tri thức, khai phá dữ liệu, máy học và gom cụm dữ liệu; các thuật toán và phương pháp gom cụm; nghiên cứu một số kỹ thuật phân lớp cơ bản trong khai phá dữ liệu, đó là phương pháp phân lớp cây quyết định với thuật toán: C4.5, phương pháp xác xuất Naïve Bayes và cài đặt thử nghiệm được thuật toán gom cụm Kmeans.

Trong quá trình hoàn thành bài thu hoạch này, dù đã đạt được những kiến thức nhất định, nhưng em nhận thấy vẫn còn rất nhiều tìm ẩn trong lĩnh vực Khai phá dữ liệu.

2. Hướng phát triển : Do những hạn chế về kiến thức và thời gian nên tôi mới chỉ đáp ứng phương pháp gom cụm k-means trên tập các điểm, chưa thể thực hiện bằng các phương pháp gom cụm khác và trên các lĩnh vực khác. Trong thời gian tới em sẽ cố

gắng phát triển hệ thống trên để có thể áp dụng cho các mô hình kinh doanh doanh nghiệp hiện nay.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]. PGS-TS. Đỗ Phúc, “Bài giảng Data Mining – Data Warehouse”.

[2]. Hoàng Thị Lan Giao (2010), chuyên đề khai phá dữ liệu trường Đại Học Khoa Học Huế.

Tiếng Anh

[3]. Heikki Mannila, Association Rules, 1996.

[4]. Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining. (1996), Institude of Information Technology National center for Natural Science and Technology.

[5]. John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp. 339-346.

[6]. Xindong Wu, Vipin Kumar, “The Top Ten Algorithms in Data Mining”, Chapman & Hall/CRC.

[7]. Jiawei Han, University of Illinois at Urbana-Champaign, Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publisher.

[8]. Website http://www.cs.waikato.ac.nz/ml/weka

Gia lượng thông tin (Information Gain)

Mô hình hồi quy tuyến tính đa biến