4.1. Các kết quả
Chương trình có thể chạy với các bộ dữ liệu khác nhau. Nhưng để đánh giá kết quả của giải thuật phân cụm mờ sử dụng tập mờ loại hai khoảng so với phương pháp FCM. Chúng ta sẽ tiến hành phân cụm với các bộ dữ liệu mà tạo ra các cụm khác nhau với cả hai phương pháp.
4.4.1. Cụm hình vuông có kích thước giống nhau
xét tập dữ liệu X gồm có 8 mẫu, tạo thành hai cụm có kích thước giống nhau. Mỗi mẫu được biểu diễn bởi hai thuộc tính . File dữ liệu để phân cụm được lưu dưới dạng file txt, có dạng như sau:
Hình 4.1 File định dạng Identical_square_data
Mỗi mẫu được biểu diễn trên 1 dòng, giá trị các thuộc tính cách nhau bởi dấu ‘ ; ’. cột cuối chỉ ra rằng mẫu chưa được phân vào cụm nào.
Hình 4.3: Kết quả phân cụm Identical_square_data khi sử dụng FCM
Ta thấy rằng đối với các cụm có kích thước bằng nhau thì FCM cũng có thể đạt được kết quả phân cụm mong muốn, khi đó phương pháp phân cụm mờ sử dụng tập mờ loại 2 khoảng cũng có kết quả phân cụm như FCM.
4.1.2. Cụm hình vuông có kích thước khác nhau
Xét một tập dữ liệu gồm 18 mẫu tạo ra hai cụm hình vuông có kích thước khác nhau, mỗi mẫu được miêu tả bởi 2 thuộc tính . Định dạng file dữ liệu phân cụm tương tự như trên:
Hình 4.5 : Kết quả phân cụm Different_squares_data khi sử dụng FCM
Hình 4.6: Kết quả phân cụm Different_squares_data với phân cụm sử dụng IT2FS.
Ta thấy rằng khi phân cụm với các tập dữ liệu tạo ra các cụm có kích thước khác nhau. Thì giải thuật phân cụm mờ sử dụng tập mờ loại hai khoảng cập nhật tâm
cụm chính xác hơn so với FCM, do đó trong trường hợp này giải thuật phân cụm mờ sử dụng tập mờ loại hai khoảng hiệu quả hơn FCM.
4.1.3. Tập dữ liệu đa chiều
Mỗi mẫu trong tập dữ liệu được biểu diễn bởi nhiều thuộc tính. Ta sử dụng bộ dữ liệu phân cụm là phân cụm các bệnh nhân tiểu đường ở vùng ấn độ Pima, vì trong vùng này tỉ lệ người lớn mắc bệnh là rất cao. Bộ dữ liệu là của một viện nghiên cứu về bệnh tiểu đường của phụ nữ với nữ giới ít nhất là 21 tuổi. Định dạng bộ dữ liệu được trình bầy theo hình 4.7
Hình 4.7: Pima_Indians _Diabetes.txt
File dữ liệu để phân cụm được lưu ở dạng file txt, mỗi dòng của file biểu diễn một mẫu trong tập dữ liệu. Giá trị thuộc tính của mỗi mẫu được biểu diễn cách nhau bởi dấu “ ; ”. Như ví dụ trên biểu diễn file dữ liệu của bệnh nhân tiểu đường ở vùng ấn độ Pima. Tại dòng 1 ta có thể hiểu như sau: dòng 1 cho biết thông tin của một người nào đó như sau:
1. Số lần mang thai : 6
3. Huyết áp tâm trương ( mm Hg) :72 4. Triceps độ dày da gấp: 35
5. 2 giờ isulin huyết thanh: 0
6. Chỉ số khối cơ thể (trọng lượng cơ thể kg / chiều cao m)^2 : 33.6 7. Tiểu đường phản chức năng: 0.627
8. Tuổi: 50
Với các tham số đầu vào phân cụm là : Số lượng mẫu để phân cụm : 768 Số đặc trưng của mỗi mẫu : 8 Tham số mờ m: 1.1
Tham số mờ m1 : 1.1 Tham số mờ m2 : 8.0
Số đặc trưng để phân cụm : 3 Số cụm : 2
Mẫu thuộc cụm 1 : thử nghiệm dương tính với bệnh tiểu đường Mẫu thuộc cụm 2 : thử nghiệm âm tính với bệnh tiểu đường Ta có file kết quả phân cụm ở Data.txt có dạng như sau :
Để có thể quan sát kết quả phân cụm một cách trực quan chúng ta có thể quan sát các cụm trên nền không gian 2D hoặc 3D.
Hình 4.8: Quan sát kết quả ở 2D
4.2. Đánh giá kết quả
Dựa vào các kết quả đạt được vừa trình bày ở trên, ta có thể có đánh giá kết quả của phương pháp phân cụm mờ sử dụng tập mờ loại hai khoảng dựa trên tỷ lệ nhận dạng (Recognition rate %).
Tỷ lệ nhận dạng (Recognition rate %) được xác định dựa trên sự so sánh giữa kết quả phân cụm tập dữ liệu khi sử dụng phương pháp phân cụm cụ thể nào đó với danh sách phân cụm các mẫu ban đầu.
Kết quả phân cụm với tập dữ liệu đa chiều có tỷ lệ nhận dạng của phương pháp phân cụm mờ sử dụng tập mờ loại hai khoảng là: 68 %, còn tỷ lệ nhận dạng của phương pháp FCM là 60%. Tỷ lệ nhận dạng của phương pháp phân cụm sử dụng tập mờ loại hai khoảng lớn hơn phương pháp FCM nên phương pháp được đánh giá là tốt hơn. Mặt khác khi cho thêm các mẫu khác biệt vào để gây nhiễu thì tỷ lệ nhận dạng đạt được không thay đổi là mấy, tức là phương pháp có khả năng phân cụm một cách chính xác nhất ngay cả khi có nhiễu
4.3. Các vấn đề tồn tại và hướng phát triển
Trong quá trình thiết kế và cài đặt chương trình, tôi nhận thấy tuy kết quả đạt được là tương đối khả quan nhưng vẫn còn những vấn đề cần khắc phục:
▪ Chương trình không hoàn toàn phân cụm với tất cả các bộ dữ liệu, chỉ có thể phân cụm với dữ liệu có đặc trưng là dạng số. Với các bộ dữ liệu có giá trị đặc trưng là dạng ngôn ngữ thì dữ liệu phải được qua quá trình tiền xử lý.
▪ Phương pháp phân cụm sử dụng tập mờ loại hai khoảng chưa đạt hiệu quả tối ưu nhất với tất các hình dạng khác nhau của cụm.
Những vấn đề nêu ra trên đây là những vấn đề còn tồn tại của chương trình. Để thu được các kết quả mong muốn, các vấn đề đó phải được giải quyết triệt để. Đó cũng chính là những định hướng phát triển chương trình sau này. Đây cũng có thể coi là những kinh nghiệm trong quá trình triển khai thuật toán mà tôi muốn chia sẻ với những ai quan tâm tới bài toán phân cụm mờ sử dụng tập mờ loại hai khoảng.
4.4. Kết luận
Trong chương này, tôi đã trình bày những kết quả thu được của quá trình phân cụm bộ dữ liệu bệnh tiểu đường của người ấn độ Pima. Những kết quả này là rất khả quan khi so sánh với phương pháp phân cụm FCM thông thường. Tuy vậy, chương trình vẫn tồn tại những hạn chế khi thiết kế và cài đặt nên trong tương lai cần phải khắc phục những vấn đề này để thu được một hệ thống phân cụm dữ liệu khả năng ứng dụng cao trong các bài toán thực tế.
TỔNG KẾT