Trong phần bài thu hoạch này em xin trình bày 3 thuật toán phân cụm hình ảnhđang được sử dụng rộng rãi và hiệu quả trong y tế là K-means, Fuzzy C-MeansFCM và Rough Fuzzy C-Means RFCM; so
Trang 1CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG
MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU
ĐỀ TÀI:
Giảng viên: PGS.TS Đỗ Phúc Học viên: Nguyễn Mai Thương - MSHV: CH1101124
Tp.HCM, Tháng 11/2012
Trang 2LỜI MỞ ĐẦU
hân đoạn là quá trình phân chia vùng không gian hình ảnh vào một số khuvực không bị chồng chéo và phải có sự đồng nhất Sự thành công của một hệthống phân tích hình ảnh phụ thuộc rất nhiều vào chất lượng phân đoạn hình ảnh
P
Trong việc phân tích các hình ảnh y tế cho máy tính hỗ trợ chẩn đoán và điều trị,quá trình phân đoạn thường được yêu cầu như là một giai đoạn sơ bộ Tuy nhiên,các phân vùng trong hình ảnh y tế thì thực sự rất phức tạp nên việc phân đoạnchính xác là rất quan trọng cho việc phát hiện các khối u, phù nề, và mô hoại tử để
sự can thiệp đánh giá của con người Điều này thường hay xảy ra do các hạn chế
về thu thập hình ảnh, các biến đổi không ngừng của bệnh lý học và sinh học Vìvậy, điều quan trọng là cần có một phương pháp đáng tin cậy để đo các cấu trúckhác nhau trong não Một trong những phương pháp này chính là phân đoạn hìnhảnh để cô lập đối tượng và khu vực hình ảnh cần quan tâm
Trang 3Trong phần bài thu hoạch này em xin trình bày 3 thuật toán phân cụm hình ảnhđang được sử dụng rộng rãi và hiệu quả trong y tế là K-means, Fuzzy C-Means(FCM) và Rough Fuzzy C-Means (RFCM); so sánh thực nghiệm kết quả phân tích
hình ảnh của các thuật toán lược dịch dựa trên bài phân tích Rough-Fuzzy
Clustering Algorithm for Segmentation of Brain MR của 2 tác giả Pradipta Maji và
Sankar K Pal thuộc Machine Intelligence Unit, Indian Statistical Random VersusDiscriminant Analysis Based Institute, Kolkata, 700 108, India Trong phần cài đặtchương trình, em xin trình bày cài đặt 2 thuật toán K-means và Fuzzy C-Means đểminh họa cho quá trình phân cụm
Vì thời gian nghiên cứu có hạn nên không tránh khỏi sai sót, mong được sự góp ý,phê bình từ thầy cô và các bạn
Em xin chân thành cảm ơn:
- Trường Đại Học Công Nghệ Thông Tin TP HCM và phòng khoa học máy tính
đã tạo điều kiện cho em được nghiên cứu và học tập
- Thầy PGS.TS Đỗ Phúc đã tận tâm giảng dạy và giúp đỡ em trong suốt quátrình học tập và nghiên cứu về lý thuyết phân cụm dữ liệu
- Các anh chị học viên của lớp CH6 đã giúp đỡ em trong suốt quá trình học, trauđổi, thực hiện đồ án và hoàn thành các bài tập
Em xin chân thành cảm ơn !
Trang 4CÁC THUẬT NGỮ DÙNG TRONG BÀI VIẾT
Centroid: trọng tâm, trung tâm khối lượng
Cluster: cụm
Cluster analysis: phân tích cụm
Fuzzy cluster: cụm mờ
Pixel: điểm ảnh
Membership: tính liên thuộc, độ liên thuộc
Membership function: hàm liên thuộc
Noisy data: dữ liệu nhiễu
Objective function: hàm mục tiêu
Outliers: các phần tử biên
Segmentation: phân đoạn hóa
Rough set: tập thô
Fuzzy factor: tham số mờ hóa
Partition: sự phân hoạch
Rough Fuzzy C-Means (RFCM) algorithm: thuật toán Rough Fuzzy C-Means choviệc gom cụm thô mờ
Fuzzy C-Means (FCM) algorithm: thuật toán Fuzzy C-Means cho việc gom cụmmờ
Trang 5MỤC LỤC
CHƯƠNG I: TỐNG QUAN VỀ PHÂN CỤM DỮ LIỆU 6
I Phân cụm dữ liệu 6
1 Clustering 6
2 Hard clustering 6
3 Fuzzy Clustering 7
4 Các yêu cầu đối với phân cụm 7
5 Các kỹ thuật phân cụm 8
II Một số ứng dụng của phân cụm dữ liệu 9
1 Biểu diễn dữ liệu gene 9
2 Phân cụm dữ liệu trong sức khỏe tâm lý 10
3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường 10
4 Phân cụm dữ liệu đối với hoạt động Phân đoạn ảnh 11
CHƯƠNG II: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 12
I Thuật toán K-means 12
1 Khái niệm 12
2 Các bước của thuật toán K-means 12
3 Ưu và nhược điểm của thuật toán: 15
II Thuật toán Fuzzy C-Means 16
1 Hàm mục tiêu 16
2 Các bước của thuật toán Fuzzy C-Means 17
3 Ưu và nhược điểm của thuật toán 18
III Thuật toán Rough-Fuzzy C-Means 19
1 Tập thô (Rough Sets) 19
2 Hàm mục tiêu 20
3 Cluster Prototypes 21
4 Các bước của thuật toán Rough Fuzzy C-Means 22
Trang 6CHƯƠNG III: CÁC PHƯƠNG PHÁP ĐÁNH GIÁ HÌNH ẢNH 25
I Phân lớp điểm ảnh Pixel trong hình ảnh MR 25
1 Chỉ số Davies-Bouldin (DB) 25
2 Chỉ số Dunn 25
3 Chỉ số β 26
4 Các đánh giá theo chỉ số 26
II Các tính chất quy định phân đoạn hóa hình ảnh 28
1 Homogeneity 28
2 Edge Value 29
CHƯƠNG IV: CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ 30
I Cài đặt thuật toán K-means và Fuzzy C-Means Clustering 30
1 Phân tích các yêu cầu 30
2 Pseudo-Code 30
3 Class diagram 31
4 Hiện thực chương trình 34
5 Giao diện chương trình 36
II Kết quả thực nghiệm 41
1 Đánh giá kết quả phân cụm ảnh trên máy MR 41
2 Đánh giá kết quả phân cụm ảnh trên máy CT 42
III Kết luận 44
Tài liệu tham khảo 45
Trang 7CHƯƠNG I: TỐNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Hình 2.1 Hard clustering
Trang 83 Fuzzy Clustering
Phân cụm mờ cho phép mỗi vector đặc trưng có thể thuộc về một hoặc nhiều cụm
với độ liên thuộc khác nhau (có giá trị nằm giữa 0 và 1) và có sự mơ hồ hoặc mờranh giới giữa các cụm
Hình 3.1 Phân cụm mờ
4 Các yêu cầu đối với phân cụm
Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt với những tập dữ
liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu (CSDL) lớn cóthể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn có thểlàm ảnh hưởng tới kết quả Vậy làm cách nào để chúng ta có thể phát triển cácthuật toán phân cụm có khả năng mở rộng cao đối với các CSDL lớn
Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán được
thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số) Tuy nhiên, nhiều ứngdụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhịphân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hay dạnghỗn hợp của những kiểu dữ liệu này
Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định các
cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan Cácthuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình
Trang 9cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm có thể có bất cứmột hình dạng nào Do đó, việc phát triển các thuật toán có thể khám phá ra cáccụm có hình dạng bất kỳ là một việc làm quan trọng.
Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán
phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tíchphân cụm (như số lượng các cụm mong muốn)
Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng
dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số thuật toánphân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụmthấp
Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm
với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra vớicác thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khácnhau Do đó, việc quan trọng là phát triển các thuật toán mà ít nhạy cảm với thứ tựvào của dữ liệu
Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc một
số các thuộc tính Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiềuthấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chấtlượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sự tháchthức với các đối tượng dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vìkhi xét những không gian với số chiều lớn có thể rất thưa và có độ nghiêng lớn
Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới
các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu
có trạng thái phân cụm tốt và thỏa mãn các ràng buộc
Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ
hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần được giải thích ýnghĩa và ứng dụng rõ ràng
5 Các kỹ thuật phân cụm
Trang 10 Phương pháp phân cụm dựa trên lưới
Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp dụngnhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triểntrên cơ sở của các phương pháp đó như:
này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ ápdụng cho các dữ liệu có thuộc tính số
chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí
lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hang ngày, chúngchỉ xử lí các dữ liệu thực không chắc chắn
nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron củatầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối vớitất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xácđịnh vị trí của nơron ra tương ứng
II Một số ứng dụng của phân cụm dữ liệu
1 Biểu diễn dữ liệu gene
Phân cụm là một trong những phân tích được sử dụng thường xuyên nhất trong biểudiễn dữ liệu gene (Yeung et al., 2003; Eisen at al., 1998)
Dữ liệu biểu diễn gene là một tâp hợp các phép đo được lấy từ DNA (còn gọi là DNAchip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNAthành các hàng siêu nhỏ Các nhà nghiên cứu sử dụng các con chip như vậy để sànglọc các mẫu sinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùng một lúc Cácđoạn DNA gắn trên chip được gọi là probe (mẫu dò) Trên mỗi điểm của chip có hàngngàn phân tử probe với trình tự giống nhau Một tập hợp dữ liệu biểu diễn gene có thểđược biểu diễn thành một ma trận giá trị thực:
Trang 11- d là số lượng mẫu hay điều kiện thử
Bởi vì các biểu ma trận gốc chứa nhiễu, giá trị sai lệch, hệ thống biến thể, do đó tiền
xử lý là đòi hỏi cần thiết trước khi thực hiện phân cụm
Dữ liệu biểu diễn gen có thể được phân cụm theo hai cách Cách thứ nhất là nhóm cáccác mẫu gen giống nhau, ví dụ như gom các dòng của ma trận D Cách khác là nhómcác mẫu khác nhau trên các hồ sơ tương ứng, ví dụ như gom các cột của ma trận D
2 Phân cụm dữ liệu trong sức khỏe tâm lý
Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao gồm cả việc thúcđẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sức khỏe, và công tác phòngchống bệnh tật và người khuyết tật (Clatworthy et al., 2005)
Trong sự phát triển hệ thống chăm sóc sức khỏe, phân cụm dữ liệu được sử dụng đểxác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ thể(Hodges và Wotring, 2000)
Trong thúc đẩy y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vàonhóm sẽ có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá
và tạo điều kiện thuận lợi cho sự phát triển của quảng cáo Ngoài ra, phân cụm dữ liệuđược sử dụng để xác định các nhóm dân cư bị rủi ro do phát triển y tế và các điều kiệnnhững người có nguy cơ nghèo
3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường
Trang 12Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để phân đoạn thị trường
và xác định mục tiêu thị trường (Chrisoppher, 1969; Saunders, 1980, Frank andGreen, 1968)
Trong phân đoạn thị trường, phân cụm dữ liệu thường được dùng để phân chia thịtrường thành nhưng cụm mang ý nghĩa, chẳng hạn như chia ra đối tượng nam giới từ21-30 tuổi và nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không
có khuynh hướng mua các sản phẩm mới
4 Phân cụm dữ liệu đối với hoạt động Phân đoạn ảnh
Phân đoạn ảnh là việc phân tích mức xám hay màu của ảnh thành các lát đồng nhất(Comaniciu and Meer, 2002)
Phân cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu, khai phá dữ liệu làquá trình khám phá và phân tích một khối lượng lớn dữ liệu để lấy được các thông tinhữu ích (Berry and Linoff, 2000)
Phân cụm dữ liệu cũng là một vấn đề cơ bản trong nhận dạng mẫu (patternrecognition) Nhìn chung, Thông tin hữu dụng có thể được khám phá từ một khốilượng lớn dữ liệu thông qua phương tiện tự động hay bán tự động (Berry and Linoff,2000)
Trong khai phá dữ liệu gián tiếp, không có biến nào được chọn ra như một biến đích,
và mục tiêu là để khám phá ra một vài mối quan hệ giữa tất cả các biến Trong khi đóđối với khai phá dữ liệu gián tiếp một vài biến lại được chọn ra như các biến đích.Phân cụm dữ liệu là khai phá dữ liệu gián tiếp, bởi vì trong khai phá dữ liệu, ta khôngđảm bảo chắc chắn chính xác cụm dữ liệu mà chúng ta đang tìm kiếm, đóng vai trò gìtrong việc hình thành các cụm dữ liệu đó, và nó làm như thế nào
Vấn đề phân cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dù chưa có địnhnghĩa đồng bộ về phân cụm dữ liệu và có thể sẽ không bao giờ là một và đi đến thốngnhất (Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998)
Trang 13CHƯƠNG II: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU
I Thuật toán K-means
1 Khái niệm
K-means là phương pháp tiếp cận phân hoạch tập dữ liệu thành các cụm là các tập rõ,bằng cách xác định trước số cụm k, sau đó xếp từng điểm dữ liệu vào một trong k cụmsao cho độ phân biệt trong các k cụm là thấp nhất
không gian dữ liệu)
2 Các bước của thuật toán K-means
Gồm bốn bước:
1 Chọn ngẫu nhiên k điểm làm trọng tâm (centroid) ban đầu của k cụm
2 Tính khoảng cách từ các điểm đến trọng tâm để gán (hoặc gán lại) từng điểm vàocụm có trọng tâm gần điểm đang xét nhất Nếu không có phép gán lại nào thìdừng Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và thuật toánkhông thể cải thiện làm giảm độ phân biệt hơn được nữa
Công thức Euclide dùng để tính khoảng cách (t là số lần lặp):
4 Quay lại bước 2
Minh họa thuật toán với k=2 Hình 4.1 mô phỏng về hình dạng cụm dữ liệu được khám phá bởi K-means
Trang 14Hình 4.1 Mô phỏng về hình dạng cụm dữ liệu được khám phá bởi K-means.
Dùng k-means để gom cụm với k = 2
Bước 1 : Khởi tạo ma trận phân hoạch U có 4 cột ứng với 4 điểm và 2 dòng ứng với 2 cụm,
Bước 3: Tính vector trọng tâm:
Do có hai cụm C1, C2 nên có hai vector trọng tâm v1, v2
Trang 15Gom các đối tượng vào cụm
Tính khoảng cách Euclide từ từng điểm đến cụm c1, c2 chọn cụm có khoảng cách gần nhất để đưa đối tượng vào cụm
Tính toán tương tự ta có:
Trang 16Lặp cho đến khi | Un – Un-1| < epsilon thì dừng, nếu sai thì quay về bước 3.
3 Ưu và nhược điểm của thuật toán:
a) Ưu điểm:
n: số điểm trong không gian dữ liệu
k: số cụm cần phân hoạch
t: số lần lặp (t là khá nhỏ so với n)
b) Nhược điểm:
vào việc chọn k điểm khởi đầu Do đó có thể phải chạy lại thuật toán với nhiều bộ khởi đầu khác nhau để có được kết quả đủ tốt
phải thử với các giá trị k khác nhau
Trang 17II Thuật toán Fuzzy C-Means
Fuzzy C-Means là phương pháp phân cụm dữ liệu mờ Phương pháp này (được pháttriển bởi Dunn năm 1973 và được hoàn thiện bởi Bezedk vào năm 1981) thường được
sử dụng trong việc nhận dạng mẫu
Phân hoạch mờ xem các cụm là các tập mờ và một điểm dữ liệu sẽ có mức độ thuộc
về (membership) một cụm là giá trị số thực nằm trong đoạn [0,1] Nguyên tắc của
thuật toán dựa vào việc tối thiểu hàm mục tiêu.
1 Hàm mục tiêu
Trang 182 Các bước của thuật toán Fuzzy C-Means
công thức (3.2.3) Sau khi xác định được độ liên thuộc của các đối tượng, các trọngtâm mới của cụm sẽ được tính toán theo công thức (3.2.2) Quá trình dừng khi cáctrọng tâm đã được tính toán hết
Các bước như sau:
Một số ví dụ áp dụng thuật toán Fuzzy C-Means
Hình 2.1 So sánh kết quả xử lý hình ảnh sử dụng thuật toán K-means cho hình trước
và thuật toán Fuzzy C-Means cho hình sau với việc phân thành 2 cụm A và B
Trong Hình 2.1, dựa vào kết quả sau khi phân cụm, ta có thể thấy dấu tròn được đánhdấu màu đỏ thuộc về cụm B nhiều hơn là cụm A
Trang 19Hình 2.2 Kết quả xử lý hình ảnh sử dụng thuật toán Fuzzy C-Means
3 Ưu và nhược điểm của thuật toán
a) Ưu điểm
chiều
đương K-means với độ phức tạp là O(t.k.n)
b) Nhược điểm
nhiên, các kết quả về độ liên thuộc lại không luôn đúng với các mức độ của
dữ liệu, và nó có thể không chính xác trong một môi trường bị nhiễu Trongthực tế, phân tích dữ liệu, nhiễu loạn và chênh lệch là những điều không thểtránh khỏi Do đó, cần làm giảm bớt điểm yếu của thuật toán Fuzzy C-Means và có sự phân tích hình ảnh tốt hơn tùy thuộc vào mức độ dữ liệu
Trang 20III Thuật toán Rough-Fuzzy C-Means
”Bằng việc kết hợp mờ và các tập thô, kế đến là giới thiệu thuật toán C-Means, ta cóthuật ngữ Rough Fuzzy C-Means (RFCM)” (lược dịch theo Maji va Pal, 2007a, c) đã
mô tả
Rough Fuzzy C-Means (RFCM) là phương pháp phân cụm các dữ liệu thô mờ Nócho phép một dữ liệu có thể được cùng lúc nằm ở hai hay nhiều cụm dữ liệu khácnhau
Thuật toán RFCM thêm vào các khái niệm về độ liên thuộc mờ của các tập mờ, cáckhông gian xấp xỉ dưới và trên của tập thô vào trong thuật toán Fuzzy C-Means chophép xử lý hiệu quả các phân vùng có dữ liệu chồng chéo và các tập thô mờ
1 Tập thô (Rough Sets)
Lý thuyết của tập thô bắt đầu với khái niệm về một không gian xấp xỉ, theo đó, luôn
là một cặp <U,R>, với U là tập nền (hay vũ trụ) và R là tập quan hệ tương đương, nhưvậy R có tính chất phản xạ, đối xứng, và bắc cầu Quan hệ R chia tập U thành các lớp
bằng phép chia U/R như sau:
U / R={X1, X2,… , X m}
biệt Các lớp tương đương của R và tập rỗng là các tập cơ sở trong không gian xấp xỉ
<U,R>
Phương trình đặc trưng X: được định nghĩa gồm 1 cặp xấp xỉ dưới và trên như sau:
R ( X )=¿X i ⊆ X X i ; R ( X )=¿X i ∩ X ≠ ∅ X i
R ( X ) là hợp của các tập cơ sở giao với X khác rỗng Khoảng cách ¿]được gọi là đại
Trang 21diện cho tập X trong không gian xấp xỉ <U,R> hoặc đơn giản hơn, nó có thể gọi là tậpthô của X.
Các tính chất:
1 Tập X ∈2 Uđược gọi là xác định trong <U,R> nếu R ( X )=R ( X )
2 Với bất kì X , Y ∈2 U, X được gọi là chứa trong Y, viết là X ⊆ X , nếu
R ( X ) ⊆ R (Y ) và R ( X )⊆ R ( XY )
R (Y ) và R ( X ) ⊆ R ( XY )
2 Hàm mục tiêu
ChoA(β i) và A(β i) là các xấp xỉ dưới và trên của cụm β i, với B(β i)={A(β i)−A (β i)}
phân vào các cụm c theo công thức:
Trong RFCM, mỗi cụm được biểu diễn bởi một trọng tâm, mộ vùng rõ có độ xấp xỉthấp và vùng ranh giới mờ (Fuzzy boundary) Theo định nghĩa của vùng xấp xỉ và
Trang 22ranh giới thấp của tập thô, nếu một đối tượng x j ∈ A(β i) thì khi đó
x j ∉ A(β k), ∀ k ≠ i và x j ∉ B(β i), ∀ i Nghĩa là x j chỉ nằm trong β i duy nhất Vì vậy, trọnglượng của các đối tượng trong vùng xấp xỉ thấp của 1 cụm sẽ độc lập với các trọngtâm của các cụm khác Ngoài ra, các đối tượng trong vùng xấp xỉ thấp có các ảnhhưởng giống nhau với các trọng tâm và cụm tương ứng
nào khác Các đối tượng ở vùng ranh giới phải có các ảnh hưởng khác nhau đến cáctrọng tâm và cụm khác Như vậy, trong RFCM, giá trị của độ liên thuộc của các đối
sẽ phân thành 2 lớp: vùng xấp xỉ thấp và vùng ranh giới Chỉ các đối tượng trong vùngranh giới mới là đối tượng mờ
Công thức (4.1.2)
Với
Trang 23mờ hóa ḿ Giá trị của tham số w, ~wtrong khoảng 0<~w< w<1.
4 Các bước của thuật toán Rough Fuzzy C-Means
tự các công thức (3.2.3) và (4.1.2) Việc xử lý tuần tự được gọi là tối ưu hóa xen kẽ
Xử lý bắt đầu bằng việc chọn ngẫu nhiên đối tượng c là trọng tâm của cụm c nào đó.Giá trị thành viên của các đối tượng này được tính theo công thức (3.2.3)
Đặt µ i=(µ i 1 , … , µ ij ,…, µ¿) là đại diện cho cụm mờ β i với trọng tâm vi Sau khi tính toán
Nếu (µ¿¿ij−µ kj)>δ¿ , khi đó x j ∈ A(β k) hay x j ∈ A(β i) Ngược lại, x j ∈ A(β i) và