Khảo sát ứng dụng các thuật toán K-Means, Fuzzy C-Means, và Rough Fuzzy C-Means vào phân đoạn hình ảnh y tế

Trong phần bài thu hoạch này em xin trình bày 3 thuật toán phân cụm hình ảnhđang được sử dụng rộng rãi và hiệu quả trong y tế là K-means, Fuzzy C-MeansFCM và Rough Fuzzy C-Means RFCM; so

Trang 1

CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU

ĐỀ TÀI:

Giảng viên: PGS.TS Đỗ Phúc Học viên: Nguyễn Mai Thương - MSHV: CH1101124

Tp.HCM, Tháng 11/2012

Trang 2

LỜI MỞ ĐẦU

hân đoạn là quá trình phân chia vùng không gian hình ảnh vào một số khuvực không bị chồng chéo và phải có sự đồng nhất Sự thành công của một hệthống phân tích hình ảnh phụ thuộc rất nhiều vào chất lượng phân đoạn hình ảnh

P

Trong việc phân tích các hình ảnh y tế cho máy tính hỗ trợ chẩn đoán và điều trị,quá trình phân đoạn thường được yêu cầu như là một giai đoạn sơ bộ Tuy nhiên,các phân vùng trong hình ảnh y tế thì thực sự rất phức tạp nên việc phân đoạnchính xác là rất quan trọng cho việc phát hiện các khối u, phù nề, và mô hoại tử để

sự can thiệp đánh giá của con người Điều này thường hay xảy ra do các hạn chế

về thu thập hình ảnh, các biến đổi không ngừng của bệnh lý học và sinh học Vìvậy, điều quan trọng là cần có một phương pháp đáng tin cậy để đo các cấu trúckhác nhau trong não Một trong những phương pháp này chính là phân đoạn hìnhảnh để cô lập đối tượng và khu vực hình ảnh cần quan tâm

Trang 3

Trong phần bài thu hoạch này em xin trình bày 3 thuật toán phân cụm hình ảnhđang được sử dụng rộng rãi và hiệu quả trong y tế là K-means, Fuzzy C-Means(FCM) và Rough Fuzzy C-Means (RFCM); so sánh thực nghiệm kết quả phân tích

hình ảnh của các thuật toán lược dịch dựa trên bài phân tích Rough-Fuzzy

Clustering Algorithm for Segmentation of Brain MR của 2 tác giả Pradipta Maji và

Sankar K Pal thuộc Machine Intelligence Unit, Indian Statistical Random VersusDiscriminant Analysis Based Institute, Kolkata, 700 108, India Trong phần cài đặtchương trình, em xin trình bày cài đặt 2 thuật toán K-means và Fuzzy C-Means đểminh họa cho quá trình phân cụm

Vì thời gian nghiên cứu có hạn nên không tránh khỏi sai sót, mong được sự góp ý,phê bình từ thầy cô và các bạn

Em xin chân thành cảm ơn:

- Trường Đại Học Công Nghệ Thông Tin TP HCM và phòng khoa học máy tính

đã tạo điều kiện cho em được nghiên cứu và học tập

- Thầy PGS.TS Đỗ Phúc đã tận tâm giảng dạy và giúp đỡ em trong suốt quátrình học tập và nghiên cứu về lý thuyết phân cụm dữ liệu

- Các anh chị học viên của lớp CH6 đã giúp đỡ em trong suốt quá trình học, trauđổi, thực hiện đồ án và hoàn thành các bài tập

Em xin chân thành cảm ơn !

Trang 4

CÁC THUẬT NGỮ DÙNG TRONG BÀI VIẾT

Centroid: trọng tâm, trung tâm khối lượng

Cluster: cụm

Cluster analysis: phân tích cụm

Fuzzy cluster: cụm mờ

Pixel: điểm ảnh

Membership: tính liên thuộc, độ liên thuộc

Membership function: hàm liên thuộc

Noisy data: dữ liệu nhiễu

Objective function: hàm mục tiêu

Outliers: các phần tử biên

Segmentation: phân đoạn hóa

Rough set: tập thô

Fuzzy factor: tham số mờ hóa

Partition: sự phân hoạch

Rough Fuzzy C-Means (RFCM) algorithm: thuật toán Rough Fuzzy C-Means choviệc gom cụm thô mờ

Fuzzy C-Means (FCM) algorithm: thuật toán Fuzzy C-Means cho việc gom cụmmờ

Trang 5

MỤC LỤC

CHƯƠNG I: TỐNG QUAN VỀ PHÂN CỤM DỮ LIỆU 6

I Phân cụm dữ liệu 6

1 Clustering 6

2 Hard clustering 6

3 Fuzzy Clustering 7

4 Các yêu cầu đối với phân cụm 7

5 Các kỹ thuật phân cụm 8

II Một số ứng dụng của phân cụm dữ liệu 9

1 Biểu diễn dữ liệu gene 9

2 Phân cụm dữ liệu trong sức khỏe tâm lý 10

3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường 10

4 Phân cụm dữ liệu đối với hoạt động Phân đoạn ảnh 11

CHƯƠNG II: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 12

I Thuật toán K-means 12

1 Khái niệm 12

2 Các bước của thuật toán K-means 12

3 Ưu và nhược điểm của thuật toán: 15

II Thuật toán Fuzzy C-Means 16

1 Hàm mục tiêu 16

2 Các bước của thuật toán Fuzzy C-Means 17

3 Ưu và nhược điểm của thuật toán 18

III Thuật toán Rough-Fuzzy C-Means 19

1 Tập thô (Rough Sets) 19

2 Hàm mục tiêu 20

3 Cluster Prototypes 21

4 Các bước của thuật toán Rough Fuzzy C-Means 22

Trang 6

CHƯƠNG III: CÁC PHƯƠNG PHÁP ĐÁNH GIÁ HÌNH ẢNH 25

I Phân lớp điểm ảnh Pixel trong hình ảnh MR 25

1 Chỉ số Davies-Bouldin (DB) 25

2 Chỉ số Dunn 25

3 Chỉ số β 26

4 Các đánh giá theo chỉ số 26

II Các tính chất quy định phân đoạn hóa hình ảnh 28

1 Homogeneity 28

2 Edge Value 29

CHƯƠNG IV: CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ 30

I Cài đặt thuật toán K-means và Fuzzy C-Means Clustering 30

1 Phân tích các yêu cầu 30

2 Pseudo-Code 30

3 Class diagram 31

4 Hiện thực chương trình 34

5 Giao diện chương trình 36

II Kết quả thực nghiệm 41

1 Đánh giá kết quả phân cụm ảnh trên máy MR 41

2 Đánh giá kết quả phân cụm ảnh trên máy CT 42

III Kết luận 44

Tài liệu tham khảo 45

Trang 7

CHƯƠNG I: TỐNG QUAN VỀ PHÂN CỤM DỮ LIỆU

Hình 2.1 Hard clustering

Trang 8

3 Fuzzy Clustering

Phân cụm mờ cho phép mỗi vector đặc trưng có thể thuộc về một hoặc nhiều cụm

với độ liên thuộc khác nhau (có giá trị nằm giữa 0 và 1) và có sự mơ hồ hoặc mờranh giới giữa các cụm

Hình 3.1 Phân cụm mờ

4 Các yêu cầu đối với phân cụm

 Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt với những tập dữ

liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu (CSDL) lớn cóthể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn có thểlàm ảnh hưởng tới kết quả Vậy làm cách nào để chúng ta có thể phát triển cácthuật toán phân cụm có khả năng mở rộng cao đối với các CSDL lớn

 Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán được

thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số) Tuy nhiên, nhiều ứngdụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhịphân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hay dạnghỗn hợp của những kiểu dữ liệu này

 Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định các

cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan Cácthuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình

Trang 9

cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm có thể có bất cứmột hình dạng nào Do đó, việc phát triển các thuật toán có thể khám phá ra cáccụm có hình dạng bất kỳ là một việc làm quan trọng.

 Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán

phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tíchphân cụm (như số lượng các cụm mong muốn)

 Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng

dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số thuật toánphân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụmthấp

 Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm

với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra vớicác thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khácnhau Do đó, việc quan trọng là phát triển các thuật toán mà ít nhạy cảm với thứ tựvào của dữ liệu

 Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc một

số các thuộc tính Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiềuthấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chấtlượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sự tháchthức với các đối tượng dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vìkhi xét những không gian với số chiều lớn có thể rất thưa và có độ nghiêng lớn

 Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới

các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu

có trạng thái phân cụm tốt và thỏa mãn các ràng buộc

 Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ

hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần được giải thích ýnghĩa và ứng dụng rõ ràng

5 Các kỹ thuật phân cụm

Trang 10

 Phương pháp phân cụm dựa trên lưới

Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và áp dụngnhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triểntrên cơ sở của các phương pháp đó như:

này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ ápdụng cho các dữ liệu có thuộc tính số

chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí

lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hang ngày, chúngchỉ xử lí các dữ liệu thực không chắc chắn

nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron củatầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối vớitất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xácđịnh vị trí của nơron ra tương ứng

II Một số ứng dụng của phân cụm dữ liệu

1 Biểu diễn dữ liệu gene

Phân cụm là một trong những phân tích được sử dụng thường xuyên nhất trong biểudiễn dữ liệu gene (Yeung et al., 2003; Eisen at al., 1998)

Dữ liệu biểu diễn gene là một tâp hợp các phép đo được lấy từ DNA (còn gọi là DNAchip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNAthành các hàng siêu nhỏ Các nhà nghiên cứu sử dụng các con chip như vậy để sànglọc các mẫu sinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùng một lúc Cácđoạn DNA gắn trên chip được gọi là probe (mẫu dò) Trên mỗi điểm của chip có hàngngàn phân tử probe với trình tự giống nhau Một tập hợp dữ liệu biểu diễn gene có thểđược biểu diễn thành một ma trận giá trị thực:

Trang 11

- d là số lượng mẫu hay điều kiện thử

Bởi vì các biểu ma trận gốc chứa nhiễu, giá trị sai lệch, hệ thống biến thể, do đó tiền

xử lý là đòi hỏi cần thiết trước khi thực hiện phân cụm

Dữ liệu biểu diễn gen có thể được phân cụm theo hai cách Cách thứ nhất là nhóm cáccác mẫu gen giống nhau, ví dụ như gom các dòng của ma trận D Cách khác là nhómcác mẫu khác nhau trên các hồ sơ tương ứng, ví dụ như gom các cột của ma trận D

2 Phân cụm dữ liệu trong sức khỏe tâm lý

Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao gồm cả việc thúcđẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sức khỏe, và công tác phòngchống bệnh tật và người khuyết tật (Clatworthy et al., 2005)

Trong sự phát triển hệ thống chăm sóc sức khỏe, phân cụm dữ liệu được sử dụng đểxác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ thể(Hodges và Wotring, 2000)

Trong thúc đẩy y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vàonhóm sẽ có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá

và tạo điều kiện thuận lợi cho sự phát triển của quảng cáo Ngoài ra, phân cụm dữ liệuđược sử dụng để xác định các nhóm dân cư bị rủi ro do phát triển y tế và các điều kiệnnhững người có nguy cơ nghèo

3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường

Trang 12

Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để phân đoạn thị trường

và xác định mục tiêu thị trường (Chrisoppher, 1969; Saunders, 1980, Frank andGreen, 1968)

Trong phân đoạn thị trường, phân cụm dữ liệu thường được dùng để phân chia thịtrường thành nhưng cụm mang ý nghĩa, chẳng hạn như chia ra đối tượng nam giới từ21-30 tuổi và nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không

có khuynh hướng mua các sản phẩm mới

4 Phân cụm dữ liệu đối với hoạt động Phân đoạn ảnh

Phân đoạn ảnh là việc phân tích mức xám hay màu của ảnh thành các lát đồng nhất(Comaniciu and Meer, 2002)

Phân cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu, khai phá dữ liệu làquá trình khám phá và phân tích một khối lượng lớn dữ liệu để lấy được các thông tinhữu ích (Berry and Linoff, 2000)

Phân cụm dữ liệu cũng là một vấn đề cơ bản trong nhận dạng mẫu (patternrecognition) Nhìn chung, Thông tin hữu dụng có thể được khám phá từ một khốilượng lớn dữ liệu thông qua phương tiện tự động hay bán tự động (Berry and Linoff,2000)

Trong khai phá dữ liệu gián tiếp, không có biến nào được chọn ra như một biến đích,

và mục tiêu là để khám phá ra một vài mối quan hệ giữa tất cả các biến Trong khi đóđối với khai phá dữ liệu gián tiếp một vài biến lại được chọn ra như các biến đích.Phân cụm dữ liệu là khai phá dữ liệu gián tiếp, bởi vì trong khai phá dữ liệu, ta khôngđảm bảo chắc chắn chính xác cụm dữ liệu mà chúng ta đang tìm kiếm, đóng vai trò gìtrong việc hình thành các cụm dữ liệu đó, và nó làm như thế nào

Vấn đề phân cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dù chưa có địnhnghĩa đồng bộ về phân cụm dữ liệu và có thể sẽ không bao giờ là một và đi đến thốngnhất (Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998)

Trang 13

CHƯƠNG II: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

I Thuật toán K-means

1 Khái niệm

K-means là phương pháp tiếp cận phân hoạch tập dữ liệu thành các cụm là các tập rõ,bằng cách xác định trước số cụm k, sau đó xếp từng điểm dữ liệu vào một trong k cụmsao cho độ phân biệt trong các k cụm là thấp nhất

không gian dữ liệu)

2 Các bước của thuật toán K-means

Gồm bốn bước:

1 Chọn ngẫu nhiên k điểm làm trọng tâm (centroid) ban đầu của k cụm

2 Tính khoảng cách từ các điểm đến trọng tâm để gán (hoặc gán lại) từng điểm vàocụm có trọng tâm gần điểm đang xét nhất Nếu không có phép gán lại nào thìdừng Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và thuật toánkhông thể cải thiện làm giảm độ phân biệt hơn được nữa

Công thức Euclide dùng để tính khoảng cách (t là số lần lặp):

4 Quay lại bước 2

Minh họa thuật toán với k=2 Hình 4.1 mô phỏng về hình dạng cụm dữ liệu được khám phá bởi K-means

Trang 14

Hình 4.1 Mô phỏng về hình dạng cụm dữ liệu được khám phá bởi K-means.

Dùng k-means để gom cụm với k = 2

Bước 1 : Khởi tạo ma trận phân hoạch U có 4 cột ứng với 4 điểm và 2 dòng ứng với 2 cụm,

Bước 3: Tính vector trọng tâm:

Do có hai cụm C1, C2 nên có hai vector trọng tâm v1, v2

Trang 15

Gom các đối tượng vào cụm

Tính khoảng cách Euclide từ từng điểm đến cụm c1, c2 chọn cụm có khoảng cách gần nhất để đưa đối tượng vào cụm

Tính toán tương tự ta có:

Trang 16

Lặp cho đến khi | Un – Un-1| < epsilon thì dừng, nếu sai thì quay về bước 3.

3 Ưu và nhược điểm của thuật toán:

a) Ưu điểm:

n: số điểm trong không gian dữ liệu

k: số cụm cần phân hoạch

t: số lần lặp (t là khá nhỏ so với n)

b) Nhược điểm:

vào việc chọn k điểm khởi đầu Do đó có thể phải chạy lại thuật toán với nhiều bộ khởi đầu khác nhau để có được kết quả đủ tốt

phải thử với các giá trị k khác nhau

Trang 17

II Thuật toán Fuzzy C-Means

Fuzzy C-Means là phương pháp phân cụm dữ liệu mờ Phương pháp này (được pháttriển bởi Dunn năm 1973 và được hoàn thiện bởi Bezedk vào năm 1981) thường được

sử dụng trong việc nhận dạng mẫu

Phân hoạch mờ xem các cụm là các tập mờ và một điểm dữ liệu sẽ có mức độ thuộc

về (membership) một cụm là giá trị số thực nằm trong đoạn [0,1] Nguyên tắc của

thuật toán dựa vào việc tối thiểu hàm mục tiêu.

1 Hàm mục tiêu

Trang 18

2 Các bước của thuật toán Fuzzy C-Means

công thức (3.2.3) Sau khi xác định được độ liên thuộc của các đối tượng, các trọngtâm mới của cụm sẽ được tính toán theo công thức (3.2.2) Quá trình dừng khi cáctrọng tâm đã được tính toán hết

Các bước như sau:

Một số ví dụ áp dụng thuật toán Fuzzy C-Means

Hình 2.1 So sánh kết quả xử lý hình ảnh sử dụng thuật toán K-means cho hình trước

và thuật toán Fuzzy C-Means cho hình sau với việc phân thành 2 cụm A và B

Trong Hình 2.1, dựa vào kết quả sau khi phân cụm, ta có thể thấy dấu tròn được đánhdấu màu đỏ thuộc về cụm B nhiều hơn là cụm A

Trang 19

Hình 2.2 Kết quả xử lý hình ảnh sử dụng thuật toán Fuzzy C-Means

3 Ưu và nhược điểm của thuật toán

a) Ưu điểm

chiều

đương K-means với độ phức tạp là O(t.k.n)

b) Nhược điểm

nhiên, các kết quả về độ liên thuộc lại không luôn đúng với các mức độ của

dữ liệu, và nó có thể không chính xác trong một môi trường bị nhiễu Trongthực tế, phân tích dữ liệu, nhiễu loạn và chênh lệch là những điều không thểtránh khỏi Do đó, cần làm giảm bớt điểm yếu của thuật toán Fuzzy C-Means và có sự phân tích hình ảnh tốt hơn tùy thuộc vào mức độ dữ liệu

Trang 20

III Thuật toán Rough-Fuzzy C-Means

”Bằng việc kết hợp mờ và các tập thô, kế đến là giới thiệu thuật toán C-Means, ta cóthuật ngữ Rough Fuzzy C-Means (RFCM)” (lược dịch theo Maji va Pal, 2007a, c) đã

mô tả

Rough Fuzzy C-Means (RFCM) là phương pháp phân cụm các dữ liệu thô mờ Nócho phép một dữ liệu có thể được cùng lúc nằm ở hai hay nhiều cụm dữ liệu khácnhau

Thuật toán RFCM thêm vào các khái niệm về độ liên thuộc mờ của các tập mờ, cáckhông gian xấp xỉ dưới và trên của tập thô vào trong thuật toán Fuzzy C-Means chophép xử lý hiệu quả các phân vùng có dữ liệu chồng chéo và các tập thô mờ

1 Tập thô (Rough Sets)

Lý thuyết của tập thô bắt đầu với khái niệm về một không gian xấp xỉ, theo đó, luôn

là một cặp <U,R>, với U là tập nền (hay vũ trụ) và R là tập quan hệ tương đương, nhưvậy R có tính chất phản xạ, đối xứng, và bắc cầu Quan hệ R chia tập U thành các lớp

bằng phép chia U/R như sau:

U / R={X1, X2,… , X m}

biệt Các lớp tương đương của R và tập rỗng là các tập cơ sở trong không gian xấp xỉ

<U,R>

Phương trình đặc trưng X: được định nghĩa gồm 1 cặp xấp xỉ dưới và trên như sau:

R ( X )=¿X i ⊆ X X i ; R ( X )=¿X i ∩ X ≠ ∅ X i

R ( X ) là hợp của các tập cơ sở giao với X khác rỗng Khoảng cách ¿]được gọi là đại

Trang 21

diện cho tập X trong không gian xấp xỉ <U,R> hoặc đơn giản hơn, nó có thể gọi là tậpthô của X.

Các tính chất:

1 Tập X ∈2 Uđược gọi là xác định trong <U,R> nếu R ( X )=R ( X )

2 Với bất kì X , Y ∈2 U, X được gọi là chứa trong Y, viết là X ⊆ X , nếu

R ( X ) ⊆ R (Y ) và R ( X )⊆ R ( XY )

R (Y ) và R ( X ) ⊆ R ( XY )

2 Hàm mục tiêu

ChoA(β i) và A(β i) là các xấp xỉ dưới và trên của cụm β i, với B(β i)={A(β i)−A (β i)}

phân vào các cụm c theo công thức:

Trong RFCM, mỗi cụm được biểu diễn bởi một trọng tâm, mộ vùng rõ có độ xấp xỉthấp và vùng ranh giới mờ (Fuzzy boundary) Theo định nghĩa của vùng xấp xỉ và

Trang 22

ranh giới thấp của tập thô, nếu một đối tượng x j ∈ A(β i) thì khi đó

x j ∉ A(β k), ∀ k ≠ i và x j ∉ B(β i), ∀ i Nghĩa là x j chỉ nằm trong β i duy nhất Vì vậy, trọnglượng của các đối tượng trong vùng xấp xỉ thấp của 1 cụm sẽ độc lập với các trọngtâm của các cụm khác Ngoài ra, các đối tượng trong vùng xấp xỉ thấp có các ảnhhưởng giống nhau với các trọng tâm và cụm tương ứng

nào khác Các đối tượng ở vùng ranh giới phải có các ảnh hưởng khác nhau đến cáctrọng tâm và cụm khác Như vậy, trong RFCM, giá trị của độ liên thuộc của các đối

sẽ phân thành 2 lớp: vùng xấp xỉ thấp và vùng ranh giới Chỉ các đối tượng trong vùngranh giới mới là đối tượng mờ

Công thức (4.1.2)

Với

Trang 23

mờ hóa ḿ Giá trị của tham số w, ~wtrong khoảng 0<~w< w<1.

4 Các bước của thuật toán Rough Fuzzy C-Means

tự các công thức (3.2.3) và (4.1.2) Việc xử lý tuần tự được gọi là tối ưu hóa xen kẽ

Xử lý bắt đầu bằng việc chọn ngẫu nhiên đối tượng c là trọng tâm của cụm c nào đó.Giá trị thành viên của các đối tượng này được tính theo công thức (3.2.3)

Đặt µ i=(µ i 1 , … , µ ij ,…, µ¿) là đại diện cho cụm mờ β i với trọng tâm vi Sau khi tính toán

Nếu (µ¿¿ij−µ kj)>δ¿ , khi đó x j ∈ A(β k) hay x j ∈ A(β i) Ngược lại, x j ∈ A(β i) và

Định dạng
Số trang	47
Dung lượng	2,88 MB

Tài liệu tham khảo	Loại	Chi tiết
[6] Rough-Fuzzy Clustering Algorithm for Segmentation of Brain MR Images.Pradipta Maji and Sankar K. Pal.Machine Intelligence Unit, Indian Statistical Institute, Kolkata, 700 108, India 2010 [7] http://wikipedia.org/	Link
[1] Tập Slide bài giảng môn học Khai phá dữ liệu và kho dữ liệu – PGS.TS. Đỗ Phúc	Khác
[2] Giáo trình khai thác dữ liệu – PGS.TS. Đỗ Phúc. Nhà xuất bản Đại học Quốc gia - 2006	Khác
[4] Unsupervised Optimal Fuzzy Clustering. I.Gath and A. B. Geva. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1989, 11(7), 773- 781	Khác
[5] Rough-Fuzzy Clustering: An Application to Medical Imagery. Sushmita Mitra and Bishal Barman.Electrical Engineering Department, S. V. National Institute of Technology, Surat, INDIA 2008	Khác
[8] Rough Set Based Generalized Fuzzy C –Means Algorithm and Quantitative Indices.Pradipta Maji and Sankar K. Pal,Fellow, IEEE, 2007	Khác
[9] Bải giảng Chương 5: Gom cụm dữ liệu. TS. Võ Thị Ngọc Châu.Khoa Khoa học và Kỹ thuật máy tính, trường ĐH Bách Khoa Tp.HCM	Khác