Hình 4.4: Giao diện chương trình thực nghiệm K-Mea- 123docz.net

iris.data.csv (có kèm theo trong thư mục \bin\debug). Sau khi nhập đúng tập dữ liệu, “Số cụm” và “Số thuộc tính” sẽ được chương trình lấy tự động từ tập dữ liệu và điền vào 2 Textbox tương ứng.

Nhấn nút “K-Means cổ điển”, chương trình sẽ tiến hành phân cụm theo thuật toán K-Means cổ điển và ghi kết quả phân cụm và các thông số tính toán vào tập KQ_Kmeans.csv cùng thư mục nêu trên.

Tương tự cho nút “K-Means cải tiến”, chương trình sẽ tiến hành phân cụm theo thuật toán K-Means cải tiến và ghi kết quả phân cụm và các thông số tính toán vào tập KQ_KmeansCT.csv cùng thư mục nêu trên.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tiểu luận tập trung nghiên cứu lý thuyết và áp dụng một số kỹ thuật phân cụm dữ liệu theo phương pháp phân chia (K-Means, K-Medois, K-Prototypes, K-Means cải tiến). Đây là bước khởi đầu trong quá trình tìm

hiểu những vấn đề cần quan tâm khi giải quyết các bài toán khai phá dữ liệu trong thực tế.

Trong khuôn khổ của một tiểu luận nên chưa ứng dụng cụ thể vào một cơ sở dữ liệu thực tế nào (ứng dụng Phân loại bệnh nhân chỉ để minh họa cho tiểu luận – không áp dụng trong thực tế) và mới chỉ dừng lại ở việc phân cụm, chưa rút ra các phân tích, quyết định hay tri thức dựa trên việc phân cụm đó nên kết quả thực nghiệm chưa mang ý nghĩa thực tế. Tuy nhiên cũng đã thực hiện được một số kết quả ban đầu để phát hiện tri thức.

Những kết quả mà tiểu luận đã thực hiện:

+ Về lý thuyết, tiểu luận tập trung tìm hiểu các kỹ thuật phân cụm truyền thống và các phương pháp cải tiến.

+ Về thực tiễn, tiểu luận đã đưa ra các kết quả cài đặt thử nghiệm trên một phần dữ liệu thực của một bệnh viện bao gồm các kết quả phân cụm, cải tiến chất lượng phân cụm dựa trên thuật toán K-Prototypes.

Qua quá trình thực nghiệm và nghiên cứu lý thuyết có thể đưa ra một số kết luận như sau:

• Mỗi một thuật toán phân cụm áp dụng cho một số mục tiêu và kiểu dữ liệu nhất định.

• Mỗi thuật toán có một mức độ chính xác riêng và khả năng thực hiện trên từng kích thước dữ liệu là khác nhau. Điều này còn tùy thuộc vào cách thức tổ chức dữ liệu ở bộ nhớ chính, bộ nhớ ngoài... của các thuật toán.

• Khai phá dữ liệu sẽ hiệu quả hơn khi bước tiền xử lý, lựa chọn thuộc tính, mô hình được giải quyết tốt.

Với những phần nghiên cứu và thử nghiệm đã thực hiện, hướng phát triển thêm của tiểu luận có thể đề xuất như sau:

• Độ chính xác phân cụm phụ thuộc vào nhiều yếu tố như chất lượng dữ liệu, thuật toán cài đặt, phương pháp tính độ tương đồng của các đối tượng dữ liệu. Ngoài ra, các giá trị khuyết hay các thuộc tính dư thừa cũng

phần nào làm ảnh hưởng đến chúng. Vì vậy hướng phát triển sau này là ứng dụng có thể tự động xử lý các giá trị khuyết, phát hiện và loại bỏ các thuộc tính dư thừa, cải tiến phương pháp tính độ tương đồng,... nhằm nâng cao chất lượng và tốc độ phân cụm dữ liệu.

• Tiến hành cài đặt và tiếp tục nghiên cứu áp dụng các kỹ thuật khai phá dữ liệu phối hợp để phát triển ứng dụng Phân loại bệnh nhân để đưa ra được các phân tích, hỗ trợ quá trình ra quyết định, rút ra được các tri thức từ việc phân loại thông qua quá trình điều trị của bệnh nhân. Thực hiện đầy đủ những việc đó thì ứng dụng mới có khả năng triển khai thử nghiệm trong thực tế.

• Về thuật toán K-Means cải tiến cần nghiên cứu sâu hơn về cơ sở toán học của việc cải tiến, phân tích độ phức tạp để chứng minh tính đúng đắn và chính xác của thuật toán. Trong việc thực nghiệm, cần thử trên nhiều bộ dữ liệu đa cấp khác nhau, kích thước khác nhau để có thể thu được kết quả khách quan hơn.

Hình 4.4: Giao diện chương trình thực nghiệm K-Means cải tiến

Hình 3.12: Report thể hiện dữ liệu ban đầu chưa phân cụm Hình 3.13: Report thể hiện dữ liệu sau khi phân cụm Hình 3.14: Report thể hiện trọng tâm của các cụm