Tôi tiến hành mô phỏng phân cụm ảnh bằng hình ảnh nhƣ hình 4.3. Đối với hình ảnh này tôi lựa chọn số cụm là 7, và hệ số mờ cho phân cụm mờ m=2, xấp xỉ dƣới cho phân cụm thô là 0.95. Kết quả sau khi phân cụm bằng phân cụm thô và phân cụm mờ của hình chụp cắt lớp trên đƣợc thể hiện nhƣ trong hình 4.4 và
Hình 4.4 Phân vùng ảnh chụp cắt lớp sử dụng phân cụm (a)Phân vùng ảnh sử dụng phân cụm mờ
(b) Phân vùng ảnh sử dụng phân cụm thô Phân cụm ảnh với ảnh ban đầu là ảnh màu
Hình 4.6: Hình ảnh tế bào đƣợc nhuộm màu H&E
Ở đây tôi phân cụm ảnh màu bằng hình ảnh nhƣ hình 4.3. Đối với hình ảnh này tôi lựa chọn số cụm là 3, và hệ số mờ và xấp xỉ dƣới cho phân cụm thô vẫn lựa chọn nhƣ trƣờng hợp trên là 2 và 0.95. Kết quả sau khi phân cụm bằng phân
cụm thô và phân cụm mờ của hình tế bào nhuộm màu H&E đƣợc thể hiện nhƣ trong hình 4.7 và 4.8.
Hình 4.7 Phân vùng ảnh màu sử dụng phân cụm (a)Phân vùng ảnh sử dụng phân cụm mờ (b) Phân vùng ảnh sử dụng phân cụm thô
4.4 So sánh và đánh giá:
Để đánh giá kết quả phân cụm với thực nghiệm trên tôi thực hiện tính 3 chỉ số đánh giá với từng phƣơng pháp phân cụm mờ và phân cụm thô. Ba chỉ số tôi sử dụng ở đây là: Davies-Bouldin, Xie-Beni, và Silhouette. Chỉ số ở phƣơng pháp nào có giá trị nhỏ hơn thì kết quả phân cụm của phƣơng pháp đó tốt hơn.
- Chỉ số Davies-Bouldin là hàm tỉ lệ tổng khoảng cách trong cụm và giữa các cụm. 1 ( ) ( ) 1 max ( , ) c w k w l k b k l d U d U DB c d U U
Với k≥1, l≥c. Trong công thức trên, khoảng cách trong cụm dw(Uk) đƣợc tối hiểu và khoảng cách giữa các cụm db(Uk,Ul) đƣợc cực đại. Khoảng cách có thể đƣợc tính bằng công thức tính khoảng cách truyền thống Euclide
- Chỉ số Xie-Beni thể hiện giá trị mờ dựa trên hàm trong đó xác định các phân vùng mờ. Hàm này phụ thuộc vào bộ dữ liệu, độ đo khoảng
cách, khoảng cách giữa các tâm cụm và phân vùng mờ, không phân biệt có sử dụng thuật toán mờ hay không.
2 2 ij 1 1 2 , min c n i j i j i j i j u v x X N v v - Chỉ số Silhouette là một cách khác để ƣớc tính số lƣợng các cụm phân tán. Chỉ số Silhouette tính với từng điểm với độ rộng phụ thuộc vào độ thuộc của nó trong cụm bất kỳ.
1 1 max( , ) N i i k i i i b a S N a b
Với N là tổng số các điểm, ai là khoảng cách trung bình giữa xi mẫu và tất cả các điểm trong các cụm đó, và bi là khoảng cách không tƣơng đồng giữa xi và các mẫu trong các cụm khác.
Dƣới đây là kết quả chỉ số của hai phƣơng pháp phân cụm thô và phân cụm mờ với các trƣờng hợp lựa chọn số cụm . Bảng 4.1 là kết quả của trƣờng hợp phân cụm với ảnh xám, bảng 4.2 là kết quả của trƣờng hợp phân cụm thứ hai với ảnh màu.
Chỉ số C (Số cụm) FCM RCM Davies Bouldin 5 0.0696 0.0659 6 0.0744 0.0703 7 0.0799 0.0764 Xie Beni 5 0.2378 0.2503 6 0.1893 0.1795 7 0.1913 0.2049 Silhouette 5 -0.8507 -0.8523 6 -0.8410 -0.8467 7 -0.8851 -0.8932
Chỉ số C (Số cụm) FCM RCM Davies Bouldin 2 0.6829 0.4246 3 0.3878 0.3418 Xie Beni 2 0.5340 0.5810 3 0.1204 0.1230 Silhouette 2 -0.7139 -0.7239 3 -0.3666 -0.3897
Bảng 4.2 Bảng giá trị các chỉ số trong trƣờng hợp phân cụm là ảnh màu Ở bảng 4.1 trên tôi lựa chọn đƣa ra kết quả tốt nhất từ 3 lựa chọn số cụm tốt nhất là 5,6,7 còn bảng 4.2 tôi đƣa ra kết quả phân cụm từ 2 lựa chọn số cụm là 2,3. Nhìn vào kết quả các chỉ số ở cả 2 bảng 4.1 và 4.2, tuy chỉ số Xie Beni ở bảng 4.2 và 2 trƣờng hợp của chỉ số Xie Beni với số cụm 6 và 7 ở bảng 4.1 có kết quả tốt hơn ở thuật toán FCM nhƣng dựa trên tất cả kết quả của cả 3 chỉ số thì thuật toán RCM lại cho nhiều kết quả tốt tốt hơn. Do vậy, kết quả phân cụm ảnh sử dụng phân cụm thô là tốt hơn.
KẾT LUẬN
Chƣơng 1 của luận văn tôi đã trình bày tổng quan về phân cụm dữ liệu bao gồm độ tƣơng đồng, từ giá trị của độ tƣơng đồng giữa các đối tƣợng để phân chúng vào cùng một nhóm hay khác nhóm, và các phƣơng pháp phân cụm bao gồm: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lƣới và các thuật toán của chúng.
Chƣơng 2 tôi trình bày về lý thuyết tập thô với các định nghĩa về hệ thông tin, hệ quyết định, xấp xỉ tập hợp. Với khái niệm cơ bản của tập thô là vùng xấp xỉ trên và vùng xấp xỉ dƣới của tập dữ liệu. Với vùng xấp xỉ dƣới chứa những đối tƣợng chắc chắn thuộc về cụm và vùng xấp xỉ trên chứa những đối tƣợng có thể thuộc cụm.
Tiếp đó trong chƣơng 3 tôi trình bày các thuật toán phân cụm: phân cụm thô, phân cụm mờ, phân cụm thô-mờ, phân cụm bóng. Trong khi phân cụm mờ có ƣu điểm giải quyết đƣợc trƣờng hợp các cụm chồng chéo nhau thì phân cụm thô lại giải quyết tốt trƣờng hợp có các phần tử ngoại lai, hay các đối tƣợng chứa thông tin không chắc chắn. Phân cụm thô-mờ kết hợp từ hai thuật toán phân cụm thô và mờ, lấy ƣu điểm của cả hai phƣơng pháp này để đƣa vào thuật toán phân cụm của mình. Phân cụm bóng lấy tƣ tƣởng từ các vùng xấp xỉ của phân cụm thô và phát triển từ phân cụm thô-mờ, nó làm giảm sự chồng chéo trong các cụm nhƣ ở trong phân cụm mờ.
Chƣơng cuối cùng xây dựng phân vùng ảnh sử dụng phân cụm thô, so sánh với phân vùng ảnh sử dụng phân cụm mờ đã đƣợc xây dựng trƣớc đây. Kết quả cho thấy phân cụm thô có kết quả phân cụm tốt hơn. Trong thời gian tới, tôi sẽ tiếp tục nghiên cứu và ứng dụng phân cụm thô-mờ, phân cụm bóng vào lĩnh vực cụ thể.
Tài liệu tham khảo
[1] Anil K. Jain,Richard C. Dubes, Algorithms for Clustering Data, 1988 [2] J.C. Bezdek, Pattern Recognition With Fuzzy Objective Function Algorithms, Kluwer Academic Publishers, Norwell, MA, USA, 1981 [3] Z.Pawlak, Rough sets, International Journal of Information and
Computer Science 11 (1982)
[4] P.Lingras, C.West, Interval set clustering of web users with rough k- means, Journal of Intelligent Information System 23 (2004)
[5] S.Mitra, H.Banka, W.Pedrycz, Rough-fuzzy collaborative clustering, IEEE Transaction on System, Man, and Cybernetics (Part B) (2006) [6] P.Maji, S.K.Pal, Rough set based generalized fuzzy c-means
algorithm and quantitative indices, IEEE Transaction on Systems, Man, and Cybernetics (2007)
[7] W.Pedrycz, Shadowed sets: representing and processing fuzzy sets IEEE Transactions on Systems, Man, and Cybernetics (Part B) (1998)
[8] S.Mitra, W.Pedrycz, B.Barman, Shadowed c-means: intergrating fuzzy and rough clustering, Pattern Recognition 43 (2010)
[9] Z.Pawlak, Rough Sets, Theoretical Aspects of Reasoning about Data, Kluwer Academic, Dordrech, 1991
[10] W.Predycz, Shadowed sets: representing and processing fuzzy sets, IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics 28 (1998)
[11] P.Maji, S.K.Pal, Rough-Fuzzy C-Means Algorithm, Fundamental Informaticae 80, (2007) 475-496
[12] Juraj Horvath, Image Segmentation Using Fuzzy C-Means, IEEE International Conference on Computational Cybernetics ICCC, 2004 [13] Yang, Huang, Imgage segmentation by Fuzzy C-Means clustering