Nghiên cứu thuật toán phân cụm dữ liệu mờ và ứng dụng

Đánh giá theo chất lượng cụm ...45 Trang 7 DANH MỤC CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu MF Hàm liên thuộc của phần tử x trong AFCM Fuzzy C-means SSFCM Thuật toán phân cụm bán giám sát mờ

TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU VÀ LÝ THUYẾT TẬP MỜ 3 1.1 Một số kiến thức cơ sở

Tập mờ

Một ánh xạ f X: Y là một quy tắc cho mỗi phần tử xXtương ứng với một phần tử y Y sao cho y f x( )

Tập mờ [3] được coi là phần mở rộng của tập kinh điển Nếu X là một không gian nền (một tập nền) và những phần tử của nó được biểu thị bằng x , thì một tập mờ

A trong X được xác định bởi một cặp các giá trị:

Trong đó  A   x được gọi là hàm liên thuộc của x trong A viết tắt là MF Nó không còn là hàm hai giá trị như đối với tập kinh điển nữa, mà là một hàm với một tập các giá trị hay còn gọi là một ánh xạ Tức là, hàm liên thuộc ánh xạ mỗi một phần tử của X tới một giá trị liên thuộc trong khoảng [0,1], thỏa mãn:

Hình 1.1 Một số dạng hàm thuộc cơ bản

Như vậy, kiến trúc của một tập mờ phụ thuộc vào hai yếu tố: không gian nền và hàm liên thuộc phù hợp Sự đặc biệt của hàm thuộc là nó mang tính chủ quan với ý nghĩa là với cùng định nghĩa một khái niệm nhưng với mỗi người khác nhau thì hàm thuộc có thể được xây dựng khác nhau

Các hàm liên thuộc được xây dựng từ những hàm cơ bản như: Kết nối hành vi, hàm bậc nhất, hình thang, hình tam giác, hàm phân bố Gaussian, đường cong sigma, đường cong đa thức bậc hai và bậc ba Hình 1.1 ở trên mô tả một vài dạng hàm thuộc cơ bản

Có rất nhiều sự lựa chọn rộng rãi để chúng ta có thể lựa chọn hàm liên thuộc phù hợp Ngoài 11 hàm liên thuộc được xây dựng sẵn, bộ công cụ logic mờ trong Matlab cũng cho phép chúng ta tạo hàm liên thuộc của chính mình nếu chúng ta nhận thấy các hàm liên thuộc được định nghĩa sẵn là chưa đủ Nhưng với những hàm liên thuộc ngoại lai này, không có nghĩa là chắc chắn sẽ đưa ra được một hệ thống đầu ra mờ hoàn hảo Để tính lực lượng của một tập mờ, tuỳ thuộc vào không gian nền và hàm liên thuộc là rời rạc hay liên tục mà ta có các cách tính như sau:

 (1.2) a) Các phép toán trên tập mờ

Tương tự như các tập kinh điển, những phép toán cơ bản trên tập mờ là phép hợp, phép giao và phép phủ định cũng được định nghĩa thông qua hàm liên thuộc

Phép giao: Điểm giao nhau của hai tập mờ A và B được xác định tổng quát bởi một ánh xạ nhị phân T , tập hợp của hai hàm liên thuộc sẽ là như sau:

   (1.3) Điểm giao nhau của những phép toán mờ thường được coi như những phép toán tiêu chuẩn T (tiêu chuẩn tam giác), ta có những yêu cầu cơ bản sau:

Toán hạng chuẩn T là một ánh xạ bậc hai T( ) thoả mãn: Đường biên: T(0,0)0; ( ,1)T a T(1, )a a (1.4) Đơn điệu: T a b( , )T c d( , ) nếu a  c và b d (1.5)

Kết hợp: T a T b c( , ( , ))T T a b c( ( , ), ) (1.7) Yêu cầu đầu tiên tác động một cách khái quát tới những tập xoắn Yêu cầu thứ hai làm giảm những giá trị liên thuộc trong A hoặc B , không thể đưa ra kết quả làm

Nếu X là tập hợp các đối tượng rời rạc Nếu X là không gian liên tục. tăng giá trị liên thuộc ở điểm giao A B, Yêu cầu thứ ba chỉ ra rằng thứ tự của toán hạng bên trong tập mờ là không khác nhau Cuối cùng, yêu cầu thứ tư cho phép chúng ta đưa ra điểm giao nhau của bất kỳ phần tử nào của tập ở bên trong thứ tự của từng cặp

Trên cơ sở đó, người ta thường sử dụng một số phép toán giao thoả mãn chuẩn T-norm như sau:

T chuẩn yếu nhất:   min( x, y ) max( x, y ) 1

Phép hợp: Giống như điểm giao nhau mờ, phép toán kết hợp mờ được xác định khái quát bằng một ánh xạ nhị phân S

Những toán hạng kết hợp mờ này thường được coi như những toán hạng không tiêu chuẩn T (hoặc tiêu chuẩn S), chúng phải thoả mãn những yêu cầu cơ bản sau: Toán hạng không tiêu chuẩn T (hoặc tiêu chuẩn S) là một ánh xạ bậc hai S( ) thoả mãn: Đường biên: S(1,1) 1; ( ,0) S a S(0, )a a (1.14) Đơn điệu: S a b( , )S c d( , ) nếu a  c và b d (1.15) Giao hoán: S a b( , )S b a( , ) (1.16) Kết hợp: S a S b c( , ( , ))S S a b c( ( , ), ) (1.17)

Trên cơ sở đó, người ta thường sử dụng một số phép toán giao thoả mãn chuẩn

S chuẩn yếu nhất:   max( x, y ) min( x, y ) 0

Phép bù mờ: Bù mờ là một trong các phép toán logic cơ bản Để suy rộng chúng ta cần tới toán tử N gọi là toán tử phủ định mờ Toán tử này thoả mãn điều kiện sau: Hàm N:[0,1][0,1] không tăng được gọi là hàm phủ định nếu thoả mãn các điều kiện sau: Điều kiện biên: N(0) 1 và N(1)0 Đơn điệu: N A( )N B( ) nếu A  B

Nếu N N A( ( ))A thì phép phủ định này gọi là phủ định chặt

Trên cơ sở đó, người ta thường sử dụng một số phép toán phủ định như sau:

Phân cụm

Phân cụm dữ liệu [7], [1], là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng, còn các đối tượng thuộc các cụm khác nhau sẽ ít tương đồng

Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin hữu ích cho việc ra quyết định

Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm Phân cụm dữ liệu đang là vấn đề mở và khó vì người ta cần phải giải quyết nhiều vấn đề cơ bản về dữ liệu để nó phù hợp với nhiều dạng dữ liệu khác nhau

Mục tiêu của phân cụm dữ liệu là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn Trong thực tế, không có tiêu chuẩn tuyệt đối “tốt” được đưa ra mà không phụ thuộc vào kết quả phân cụm Vì vậy, phân cụm đòi hỏi người sử dụng phải cung cấp tiêu chuẩn phân cụm một cách rõ ràng theo cách mà kết quả phân cụm sẽ đáp ứng được yêu cầu của bài toán đặt ra

Hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc dữ liệu Hơn nữa, các phương pháp phân cụm cần có một cách thức biểu diễn cấu trúc của dữ liệu và với mỗi cách thức biểu khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp

Phân cụm là một thách thức trong lĩnh vực nghiên cứu vì những ứng dụng tiềm năng của chúng được đưa ra ngay trong chính những yêu cầu đặc biệt của chúng Sau đây là những yêu cầu cơ bản của phân cụm trong khai phá dữ liệu:

Có khả năng mở rộng: Nhiều thuật toán phân cụm dữ liệu làm việc tốt với những tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên một CSDL lớn có thể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả Vậy làm thế nào để chúng ta phát triển các thuật toán phân cụm có khả năng mở rộng cao đối với các CSDL lớn?

Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán được thiết kế cho việc phân cụm dữ liệu có kiểu số Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu định danh - không thứ tự, và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này

Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan Các thuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm có thể có bất cứ một hình dạng nào Do đó, việc phát triển các thuật toán có thể khám phá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng

Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân cụm chẳng hạn như số lượng các cụm mong muốn, số bước lặp tối đa cần thực hiện Kết quả của phân cụm thường bị ảnh hưởng nhiều bởi các tham số đầu vào Trong một số trường hợp, các tham số rất khó để xác định, nhất là với các tập dữ liệu có kích thước lớn Điều này không những gây trở ngại cho người dùng mà còn khó có thể điều chỉnh được chất lượng của phân cụm

Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau Do đó, việc quan trọng là phát triển các thuật toán mà ít nhạy cảm với thứ tự vào của dữ liệu

Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các thuộc tính Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều thấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Một thách thức đối với các thuật toán phân cụm là các đối tượng dữ liệu cần phân cụm có số chiều lớn, đặc biệt trong trường hợp dữ liệu rất thưa và có độ nghiêng lớn

Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc

Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, nhu cầu phân cụm cần được giải thích ý nghĩa và ứng dụng rõ ràng Với những yêu cầu đáng lưu ý này, các nghiên cứu về phân tích phân cụm diễn ra như sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể gây ảnh hưởng tới các phương pháp phân cụm Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong không gian đa chiều và các biến thể của các phương pháp khác

Phân cụm dữ liệu được chia thành 2 nhóm cơ bản: Phân cụm cứng (phân cụm chính xác) và phân cụm mờ Trong phân cụm cứng, mỗi điểm dữ liệu chỉ thuộc vào một cụm duy nhất nào đó Còn trong phân cụm mờ, một điểm dữ liệu có thể thuộc vào nhiều cụm khác nhau Trong trường hợp này, khái niệm độ thuộc được sử dụng và được hiểu là xác suất để một điểm thuộc vào một cụm nào đó.

Phương pháp giải bài toán tối ưu đa mục tiêu

1.3.1 Phương pháp nhân tử Lagrange

Phương pháp nhân tử Lagrange[4] là một phương pháp để tìm cực tiểu hoặc cực đại địa phương của một hàm số chịu các điều kiện giới hạn Đây cũng là một phương pháp khá hiệu quá trong những bài toán cực trị có điều kiện ràng buộc ngoài ra còn có thể dùng phương pháp này để tìm điều kiện xảy ra dấu bằng của bất đẳng thức

Trong đó cực trị có điều kiện của hàm hai biến z = f(x,y) được hiểu là cực trị của hàm này với điều kiện là các biến x, y phải thỏa mãn ràng buộc dưới dạng phương trình ( , )x y 0 Để tìm cực trị có điều kiện của hàm z = f(x,y) theo phương pháp nhân tử Lagrange khi ràng buộc ( , )x y 0 được xác định, một hàm bổ trợ là hàm

Trong đó  là một nhân tử hằng chưa biết gọi là nhân tử Lagrange Điều kiện cần để có cực trị là hệ các phương trình sau có nghiệm:

Vấn đề tồn tại và đặc tính của cực trị có điều kiện được giải bằng cách xét dấu vi phân cấp 2 của hàm Lagrange tại các điểm P(x 0 , y 0 ) (gọi là điểm dừng của hàm L) Đạo hàm cấp 2 của hàm L được xác định bởi:

2 '' 2 '' '' xx xy yy y d L  L dx  2L dxdy L d  (1.28)

Trong đó dx, dy thỏa mãn ràng buộc biểu thị bằng phương trình:

Các bước thực hiện của phương pháp nhân tử Lagrange được mô tả như sau:

1 Phát biểu bài toán dưới dạng mô hình toán học: Tìm cực đại (hoặc cực tiểu) của hàm z = f(x,y) thỏa mãn ràng buộc ( , )x y 0

2 Thiết lập hàm Lagrange như trong công thức (1.26)

3 Tìm điểm dừng từ hệ phương trình (1.27)

4 Xét dấu d 2 L tại điểm P x y ( , 0 0 ) tìm được ở bước 3

Nếu d 2 L < 0 thì P x y ( , 0 0 )là cực đại

Nếu d 2 L > 0 thì P x y ( , 0 0 )là cực tiểu

Từ các bước thực hiện trên, phương pháp nhân tử Lagrange có thể được áp dụng để tìm cực trị cho các hàm nhiều biến

1.3.2 Phương pháp thỏa dụng mờ

Phương pháp thỏa dụng mờ đã được áp dụng cho nhiều bài toán quy hoạch như: quy hoạch tuyến tính [4], quy hoạch tuyến tính ngẫu nhiên [5] và quy hoạch hỗn hợp mờ-ngẫu nhiên [5] Trong những bài toán này, hàm mục tiêu của bài toán là các hàm đa mục tiêu được xem xét Ý tưởng cơ bản của phương pháp thỏa dụng mờ tương tác là: Trước hết, tách từng phần của hàm đa mục tiêu và giải quyết những bài toán riêng biệt bằng một phương pháp thích hợp Sau đó, dựa trên các nghiệm của bài toán, xây dựng các hàm thoả dụng mờ cho mỗi bài toán con Cuối cùng, tổ hợp các hàm rời rạc này thành một hàm thỏa dụng mờ kết hợp và giải bài toán ban đầu bằng một lược đồ lặp

Trong trường hợp bài toán là bài toán quy hoạch tuyến tính, hàm mục tiêu có dạng một hàm đa mục tiêu như sau: p   i i 1 min z x ,

Ax b, A R   , b R (1.31) Định nghĩa 1 [5]: (Hàm thỏa dụng mờ)

Trong một miền chấp nhận được X, đối với mỗi hàm mục tiêu z i , i = 1, p , hàm thỏa dụng mờ được định nghĩa như sau:

Trong đó: z , z , i i i 1, , p là giá trị lớn nhất và nhỏ nhất của x i trong X tương ứng Định nghĩa 2 [5]: (Nghiệm tối ưu Pareto)

Trong một miền chấp nhận được X, một điểm x*X được gọi là nghiệm tối ưu

Pareto nếu và chỉ nếu không tồn tại một điểm x X nào khác mà  i (x) i (x*) với mọi i =1, , p và  i   x  j   x* với ít nhất một j   1, , p 

Phương pháp thỏa dụng mờ [5] tương tác bao gồm 2 phần chính là phần khởi tạo và phần lặp như sau:

Giải các bài toán con dưới đây: min z i (x), i=1, p, (1.33)

Với điều kiện thỏa mãn ràng buộc trong công thức (1.31) Giả sử các nghiệm tối ưu tìm được tương ứng của các bài toán con này là x 1 , , x p

- Tính toán các giá trị của các hàm mục tiêu z i ,i = 1, p tại p nghiệm tìm được và lập bảng pay-off Sau đó, xác định cận trên và cận dưới của mỗi hàm mục tiêu z i

- Xác định các hàm thỏa dụng mờ cho mỗi mục tiêu của bài toán z i , i=1, p công thức:

- Xây dựng một hàm thỏa dụng mờ kết hợp:

Với các tham số b 1, ,b p được chọn ngẫu nhiên thỏa mãn:

- Giải bài toán (1.36)-(1.37) với m ràng buộc (1.31) và p ràng buộc nữa như trong công thức (1.38) dưới đây, chúng ta có được nghiệm tối ưu x ( r ) i   i z x  z ,i1, , p (1.38)

- Nếu  min min   i   z ,i i 1, , p  với  là một ngưỡng nào đó thì x   r không chấp nhận Ngược lại, nếu x   r S p thì đưa x   r vào tập S p

- Trong trường hợp cần mở rộng S p thì r = r + 1 và kiểm tra điều kiện:

Nếu r > L 1 hoặc sau L2 lần lặp liên tiếp mà không mở S p (L 1 , L 2 là giá trị tùy chọn) thì a i   r z ,i i 1, , p và xác định chỉ số h ngẫu nhiên trong

- Trong trường hợp không cần mở rộng tập S p thì chuyển sang Bước 3

Kết luận

Trong chương này, luận văn đã trình bày lý thuyết về: tập mờ, phân cụm mờ, phương pháp giải tối ưu Một số phương pháp, công thức toán học cần thiết để sử dụng khi phân tích các thuật toán Các kiến thức này là nền tảng để giải quyết các bài toán mà luận văn hướng tới trong các chương tiếp theo.

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ

Phân cụm mờ (Fuzzy C-means – FCM)

Thuật toán phân cụm mờ được Bezdek [7], [1] đề xuất dựa trên độ thuộc u kj của phần tử dữ liệu X k từ cụm j Hàm mục tiêu được xác định như sau:

+ C là số cụm, N là số phần tử dữ liệu, r là số chiều của dữ liệu

+ u kj là độ thuộc của phần tử dữ liệu X k từ cụm j

+ X k R r là phần tử thứ k của X = {X 1 , X 2 , , X N }

Khi đó ràng buộc của (2.1) là:

Sử dụng phương pháp Lagrange, xác định được tâm của cụm dựa vào (2.3) và độ thuộc dựa vào (2.4) từ hàm mục tiêu (2.1) và ràng buộc (2.2):

Khi đó thuật toán phân cụm mờ được mô tả như sau:

Thuật toán phân cụm mờ

Input : Tập dữ liệu X gồm N phần tử trong không gian r chiều; số cụm C; mờ hóa m; ngưỡng ԑ; số lần lặp lớn nhất MaxStep>0

Output : Ma trận U và tâm cụm V

Bước 2: u kj   t  random;  k 1,N ; j 1,C   thỏa mãn điều kiện (2.2) Bước 3: Lặp lại

Bước 5: Tính V j   t ; j   1,C  bởi công thức (2.3)

Bước 6: Tính u ; k kj   t   1,N; j  1,C  bởi công thức (2.4)

Bước 7: Cho đến khi: U   t U   t 1   hoặc t > MaxStep

Thuật toán phân cụm bán giám sát mờ chuẩn (SSFCM)

Các thuật toán phân cụm bán giám sát mờ xây dựng dựa trên các thuật toán phân cụm mờ kết hợp với các thông tin bổ trợ được người dùng cung cấp Các thông tin bổ trợ nhằm mục đích hướng dẫn, giám sát và điều khiển quá trình phân cụm Thông tin bổ trợ thường được xây dựng dựa trên 3 loại cơ bản [23] là:

+ Các ràng buộc Must-link và Cannot-link: Ràng buộc Must-link yêu cầu 2 phần tử phải thuộc vào cùng 1 cụm, ngược lại ràng buộc Cannot-link chỉ ra 2 phần tử không thuộc cùng 1 cụm (mà phải thuộc 2 cụm khác nhau)

+ Các nhãn lớp của một phần dữ liệu: Một phần của dữ liệu được gán nhãn và phần còn lại không được gán nhãn

+ Độ thuộc được xác định trước

Một số nghiên cứu về phân đoạn ảnh sử dụng phân cụm bán giám sát thường dùng loại thông tin bổ trợ là giá trị hàm độ thuộc bổ trợ Với loại thông tin bổ trợ này, Zhang [23] đã áp dụng quy tắc entropy để giảm số chiều và đề xuất một tiếp cận mới với ý tưởng là kết hợp một thành phần theo quy tắc entropy vào hàm mục tiêu Bên cạnh đó, Yasunori [20] đã đề xuất thuật toán phân cụm bán giám sát mờ trên cơ sở của FCM bổ sung thêm hàm độ thuộc bổ trợ sử dụng trong quá trình phân cụm Bouchachia và Pedryzc [8] sử dụng thông tin bổ trợ vào việc xác định các thành phần u kj thông qua giá trị trung gian u ik

Yasunori et al [20] đã đề xuất một thuật toán phân cụm bán giám sát mờ với thông tin bổ trợ là hàm độ thuộc bổ sung trong hàm mục tiêu của FCM để cải thiện hiệu quả trong quá trình phân cụm của thuật toán Khi đó hàm mục tiêu [20] được xác định như sau:

Với điều kiện ràng buộc (2.2), khi đó hàm độ thuộc bổ trợ của phần tử X k với cụm C j là u kj  [0,1] đồng thời thỏa mãn

Khi đó dựa vào điều kiện (2.2) và hàm mục tiêu (2.5) chúng ta có

Và u kj được xác định theo 2 trường hợp sau

2 kj k i i u 1 u , khi k arg min X V u , k 1,N , j 1,C. u , khi k arg min X V

Các bước thực hiện thuật toán SSFCM như sau được trình bày như sau: Input: Tập dữ liệu X gồm N phần tử , số cụm C, ma trận độ thuộc bổ trợ U ngưỡng  , số lần lặp tối đa maxStep > 0 Output: Ma trận U và tâm cụm V

Bước 2: Khởi tạo ngẫu nhiên V j   t ;  j 1,C  

Bước 5: Tính u kj  k 1,N ; j   1,C  bởi công thức (2.7) với m1 hoặc công thức (2.8) với m1 Bước 6: Tính V j   t 1   j 1,C   bởi công thức (2.6)

Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy (eSFCM)

Thuật toán eSFCM được Yasunori và cộng sự [20] đề xuất năm 2009, đến năm 2012 Yin [21] có đề xuất hiệu chỉnh hệ số Entropy và khi đó thuật toán phân cụm bán giám sát mờ dựa trên thuật toán eSFCM, sử dụng độ thuộc bổ trợ u kj để tăng hiệu suất phân cụm với điều kiện

Với tâm cụm ban đầu được xác định theo công thức

 (2.10) Để sử dụng khoảng cách Mahalanobis, ma trận hiệp phương sai của các mẫu được tính như sau:

Sau đó, khoảng cách được tính bởi công thức (với AP  1 )

Khi đó hàm mục tiêu của eSFCM được xác định như sau:

  N C kj k j 2 A 1 N C  kj kj kj kj  k 1 j 1 k 1 j 1

Với điều kiện ràng buộc (2.2) và hàm mục tiêu (2.13) ta có các công thức xác định ma trận độ thuộc

Thuật toán xác định hàm mục tiêu eSFCM được mô tả cụ thể như sau:

Input: Tập dữ liệu X gồm N phần tử , số cụm C, độ thuộc bổ trợ U ngưỡng

, số lần lặp tối đa maxStep > 0 Output: Ma trận U và tâm cụm V

Bước 1: Tính ma trận A theo công thức (2.11) với ma trận độ thuộc U đã cho và các tâm cụm v j ban đầu;

Bước 5: Tính u kj  k 1,N ; j   1,C  bởi công thức (2.14)

Bước 6: Tính V j   t 1   j 1,C   bởi công thức (2.15)

Thuật toán phân cụm bán giám sát mờ của Bouchachia và Pedrycz

Bouchachia và Pedrycz [8] đã đề xuất phương pháp phân cụm bán giám sát mờ với thông tin bổ trợ là độ thuộc bổ trợ u k j cho trước, khi đó hàm mục tiêu [8] được xác định bởi

  C N ik 2 ik 2 C L  ik ik  2 ik 2 C  ik  i 1 k 1 i 1 k 1 i 1

Tham số  được xác định bởi công thức:

(2.17) với các phần tử của ma trận độ thuộc U được tính như sau:

C ik ik i 1 ik C ik i 1 lk

Với H là số lớp, mỗi lớp h chứa một số các cụm C h thỏa mãn

h là tập các cụm thuộc vào lớp h thì các giá trị u ik được cho bởi công thức (t là số bước lặp)

Tâm cụm i được xác định bởi

Thuật toán SSFCMBP được thực hiện theo các bước như sau:

Input: Tập dữ liệu X gồm N phần tử , số cụm C, độ thuộc bổ trợ U ngưỡng

 , số lần lặp tối đa maxStep > 0 Output: Ma trận U và tâm cụm V

Bước 1: Áp dụng FCM cho toàn bộ dữ liệu (cả dữ liệu được gán nhãn và không được gán nhãn) để nhận được ma trận độ thuộc U (0) Bước 2: Xác định tập  h của mỗi lớp

Bước 3: Xác định ma trận M  ( m hi H C )  trong đó: m hi = 1 nếu cụm i thuộc lớp h và bằng 0 nếu ngược lại

Bước 4: Khởi tạo U   0 với U   0 đã có, t = 0

Bước 8: Tính toán U   t theo công thức (2.19)

Bước 11: Tính V   t dùng công thức (2.20)

Bước 12: Tính U   t dùng công thức (2.18)

Bước 14: Tính toán ma trận M   t

Bước 15: Until M ( t ) M ( t 1 )  hoặc số lần lặp lớn nhất

Phân cụm bán giám sát mờ an toàn

2.3.1 Phân cụm bán giám sát mờ an toàn C-Means (Safe Semi-supervised Fuzzy c-Means Clustering (S3FCM))

Gan và cộng sự đã đề xuất phương pháp phân cụm bán giám sát mờ an toàn C- Means [11] được phát triển từ phương pháp phân cụm bán giám sát mờ truyền thống Trong thuật toán này, các mẫu được gán nhãn sai sẽ được khai thác cẩn thận bằng cách giới hạn các dự đoán tương ứng là các dự đoán do phân nhóm không được giám sát Trong khi đó, các dự đoán của các mẫu được dán nhãn khác sẽ tiếp cận với các nhãn đã cho Do đó, các mẫu được dán nhãn dự kiến sẽ được khám phá một cách an toàn thông qua sự cân bằng giữa phân nhóm không giám sát và phân nhóm bán giám sát

Hàm mục tiêu của phương pháp này như sau:

 n c n c m sa ik ik ik ik k ik k i k i n c ik ik k ik k i

 c ik i u k n ; 0u ik   1, k 1, ,n;  1 và  2 là các tham số

U u là ma trận phân hoạch thu được sau khi sử dụng phương pháp phân cụm Fuzzy C-Means (FCM) với dữ liệu chưa gán nhãn, sau đó sẽ sử dụng thuật toán đối sánh Kuhn–Munkres [15] để ánh xạ các nhãn dự đoán với các nhãn tương đương đã cho Nhãn của u ik có thể tính toán bởi công thức:

 c ik j ik ik ik jk u d d

Trong đó:   ik  1 f b ik k  2 u b ik k

Tâm cụm v i được tính bởi công thức:

   n n n ik k ik ik k k ik ik k k k k k i n n n ik ik ik k ik ik k k k k u x u f b x u u b x v u u f b u u b

Phương pháp phân cụm bán giám sát mờ an toàn S3FCM có hiệu suất phân cụm tốt hơn so với phương pháp phân cụm bán giám sát mờ tiêu chuẩn SSFCM do trong phương pháp phân cụm bán giám sát mờ an toàn S3FCM ngoài việc cũng sử dụng các thông tin bổ trợ thì phương pháp này còn trải qua quá trình kiểm tra các nhãn của các điểm dữ liệu sau khi được gán Các điểm dữ liệu nếu được dự đoán là gán nhãn sai sẽ được thay thế bằng các nhãn khác Tuy nhiên phương pháp này có bất lợi về thời gian chạy so với các phương pháp trước đó như FCM hay SSFCM do trải qua quá trình kiểm tra và cập nhật các nhãn của các điểm dữ liệu

2.3.2 Phương pháp phân cụm bán giám sát an toàn có trọng số độ tin cậy (Confidence-weighted safe semi-supervised clustering) (CS3FCM) Ý tưởng chính của phương pháp CS3FCM [12] là mỗi một phần tử khác nhau thì có một ảnh hưởng khác nhau đến hiệu suất phân cụm Về mặt hình thức, có 2 tập dữ liệu: tập thứ nhất là X x ,x , , x1 2 l  là tập dữ liệu được gán nhãn, và tập thứ hai

X là tập dữ liệu không được gán nhãn Trong đó C là số cụm, phần tử x k có nhãn y k   1, , c  Trong phương pháp CS3FCM, các tác giả đã sử dụng FCM để chia tất cả các điểm dữ liệu thành các cụm sau đó tính toán ma trận phân hoạch

U u và ước lượng các nhãn đầu ra Y  y 1 , , ,y y l l  1 ,y n sử dụng thuật toán đối sánh Kuhn–Munkres [15], nhãn ước lượng y k | l k  1 và nhãn chính xác y k | l k  1 được só sánh để có được ma trận N c bao gồm các phần tử p ij , trong đó p ij đo lường khả năng của nhãn 𝑖 th được phân lớp vào lớp 𝑗 th

 c ij  i u và 0 p ij 1 Đối với một phần tử được gán nhãn x k , nếu y k  y k và k , k y y p là cao thì độ an toàn tin cậy của nó là cao Trọng số s k của x k có thể được tính toán như sau:

Gan và cộng sự đã xây dựng một biểu đồ cục bộ W    w kr n n  để định nghĩa các hàng xóm (với các dữ liệu không được gán nhãn) cho các phần tử được gán nhãn và xác định trọng số của biểu đồ:

Trong đó N p (x k ) đại diện cho tập dữ liệu của p hàng xóm gần nhất của các phần tử được gán nhãn x k , trong khi x r đại diện cho các phần tử không được gán nhãn Hàm mục tiêu của CS3FCM được tính như sau:

  N C m    l C      l N C   c ik ik k ik ik ik kr ik ir k i k i k k r l i

 C ik i u k N Độ thuộc của u ik đối với dữ liệu được gán nhãn x k được tính toán như sau:

C jk j jk ik C j jk ik ik p p q q q (2.28) Độ thuộc của u ir đối với dữ liệu không được gán nhãn x r được tính toán như sau:

C ir j ir ir C j ir ir ir z z t t t (2.29)

Tâm cụm v i được tính bởi:

N l ik k k ik ik k k k i N l ik k ik ik k k u x s u f x u s u f

Phương pháp phân cụm bán giám sát mờ an toàn có trọng số tin cậy CS3FCM có hiệu suất phân cụm tốt hơn so với các phương pháp đã trình bày ở trên như FCM, SSFCM, S3FCM Trong phương pháp phân cụm bán giám sát mờ an toàn có trọng số CS3FCM, thuật toán tiến hành so sánh và tính toán các mức độ ảnh hưởng của các điểm dữ liệu Các điểm dữ liệu nếu có mức độ ảnh hưởng lớn tới các điểm còn lại thì mang trọng số lớn, ngược lại các điểm dữ có mức độ ảnh hưởng nhỏ thì có trọng số nhỏ Tuy nhiên phương pháp này có bất lợi về thời gian chạy so với các phương pháp trước đó như FCM hay SSFCM do quá trình xây dựng các đồ thị cục bộ, trải qua quá trình kiểm tra và cập nhật các nhãn của các điểm dữ liệu.

Phân cụm mờ viễn cảnh

2.4.1 Tập mờ viễn cảnh Để giải quyết các vấn đề về dữ liệu nhiễu nhằm cải thiện hiệu suất phân cụm, khái niệm tập mờ viễn cảnh được sử dụng Khái niệm này do Cường, B C đã mở rộng và tổng quát hóa tập mờ Zadeh [22] và tập mờ trực cảm [6] và đề xuất tập mờ viễn cảnh [9]

Một tập mờ viễn cảnh trong một tập nền không rỗng X được định nghĩa như sau:

Trong đó A x( )là độ khẳng định của mỗi phần tử xN, A x( )là độ trung lập (do dự) và A x( ) là độ phủ định thoả mãn các ràng buộc: ij ij ij

0  , , 1, 0A x( )A x( )A x( )1 (2.32) Mức độ từ chối của một phần tử được tính như sau:

Nếu A x( )0 thì tập mờ viễn cảnh trở thành tập mờ trực cảm Nếu ( ) ( )0

  thì tập mờ viễn cảnh trở thành tập mờ truyền thống

2.4.2 Phân cụm mờ viễn cảnh

Thuật toán phân cụm mờ viễn cảnh được đưa ra dựa trên ý tưởng của thuật toán phân cụm mờ mờ trực cảm và áp dụng trên tập mờ viễn cảnh Ý tưởng của thuật toán là thiết kế hàm mục tiêu là tổng của hai thành phần là tổng khoảng cách của các điểm dữ liệu đến các tâm cụm và đại lượng entropy Thành phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm mờ thường FCM với mục tiêu cực tiểu hóa đại lượng (𝜇(2 − 𝜉))‖𝑋 − 𝑉‖ 2 Cũng giống với thuật toán FCM, một điểm dữ liệu nếu thuộc về một cụm thì khoảng cách từ điểm đó tới tâm cụm phải nhỏ nên do đó độ thuộc của điểm dữ liệu vào cụm sẽ lớn Với việc thay thế thành phần độ thuộc trong FCM bằng đại lượng (𝜇(2 − 𝜉)), điều này càng thể hiện rõ hơn khi một điểm dữ liệu nếu càng gần tâm cụm thì không những giá trị độ khẳng định 𝜇 phải lớn và giá trị độ từ chối 𝜉 phải nhỏ Ở đây, tác giả sử dụng giá trị (2 − 𝜉) trong mô hình để chắc chắn với giá trị (𝜇(2 − 𝜉)) ≤ 1 thì 𝜇 ≤ 1, thỏa mãn điều kiện của PFS

Thành phần thứ hai trong hàm mục tiêu chính là đại lượng entropy 𝜂(𝑙𝑜𝑔 𝜂 + 𝜉) Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu sẽ giảm giá trị

𝜂 và 𝜉, với mục tiêu cực tiểu 𝜉 nhanh hơn so với 𝜂 Điều này sẽ giúp cực tiểu độ từ chối của mô hình, giúp việc phân cụm cụm cải tiến được độ chính xác hơn

Thuật toán phân cụm mờ viễn cảnh (FCPFS) [18] được đề xuất với hàm mục tiêu được mô tả như sau:

2 ij ij ij ij ij

(2.34) Với các ràng buộc được định nghĩa như sau: ij ij ij ij ij ij

Sử dụng phương pháp Lagrange tính toán được nghiệm tối ưu của hàm mục tiêu (2.34) là: ij ij 1 ij ij

1/ ij  1 ( ij  ij) (1 (  ij ij) )  

Trong đó (0,1)là một hệ số mũ được sử dụng để điều khiển độ từ chối của các tập mờ viễn cảnh

Thuật toán phân cụm mờ viễn cảnh được trình bày như bảng sau:

Input: Tập dữ liệu 𝑋 với (𝑁) bản ghi và d thuộc tính, ngưỡng; số mờ m; số mũ và số vòng lặp tối đa Maxsteps0

Output: Ma trận , ,   và tâm cụm V;

Step 2:  kj   t random , kj   t random, kj   t random; (k 1, , ;N j1, , )C thoả mãn ràng buộc (2.35)

Step 5: Tính toán V j   t ( j1, ,C) bằng công thức (2.38)

Step 6: Tính toán  kj   t (k 1, , ;N j1, ,C) bằng công thức (2.39)

Step 7: Tính toán  kj   t (k 1, , ;N j1, ,C) bằng công thức (2.40)

Step 8: Tính toán  kj   t (k 1, , ;N j1, ,C) bằng công thức (2.41)

Phương pháp phân cụm mờ viễn cảnh FCPFS có hiệu suất phân cụm tốt hơn so với các phương pháp đã trình bày ở trên như FCM, SSFCM, S3FCM, CS3FCM, đặc biệt đối với các dạng dữ liệu có nhiễu và dữ liệu bị gán nhãn sai Do trong phương pháp phân cụm mờ viễn cảnh FCPFS có sử dụng khái niệm tập mờ viễn cảnh, trong đó bao gồm các thuộc tính như độ thuộc, độ trung lập và độ từ chối của một điểm dữ liệu đối với các cụm Các thuộc tính này có thể cho kết quả phân cụm tốt hơn hiệu suất phân cụm đối với tập mờ và mờ trực cảm Tuy nhiên hiệu suất của phương pháp này cũng phụ thuộc vào quá trình khởi tạo các yếu tố ban đầu.

Thuật toán phân cụm bán giám sát mờ lai ghép

Nội dung trình bày trong phần này bao gồm: lược đồ tổng quan về sự kết hợp giữa kỹ thuật xử lý ảnh với thuật toán phân cụm bán giám sát mờ Chi tiết về phương pháp tách ngưỡng Otsu và thuật toán phân cụm bán giám sát mờ sử dụng trong sơ đồ tổng quan Cuối cùng, nhận xét về phương pháp lai ghép giữa kỹ thuật xử lý ảnh với thuật toán phân cụm bán giám sát mờ

Trong hình 2.1 [2], chúng tôi minh họa mô hình hợp tác giữa Otsu - FCM – eSFCM bằng một sơ đồ tổng quan Đầu vào là một ảnh X-quang nha khoa và với một vài tham số do người dùng xác định như là số lượng cụm (C), số mờ hóa (m), ngưỡng Otsu (T) và ngưỡng dừng ()

Từ một ảnh X-quang có thể có hoặc không có chứa các vùng nền, khi đó sử dụng một thủ tục để kiểm tra điều này trước khi phân đoạn ảnh Phương pháp Otsu được áp dụng để loại bỏ các khu vực nền từ hình ảnh Phương pháp này có ưu điểm là xử lý nhanh và hiệu quả có thể xác định các nền với các phần chính của ảnh Sau đó tiến hành phân cụm mờ (FCM) Các kết quả của quá trình phân cụm là các tâm cụm và ma trận độ thuộc Khi đó kết quả nhận được là gần đúng với kết quả của bài toán, đồng thời sử dụng các kết quả đó là các thông tin bổ trợ cho các thuật toán phân cụm bán giám sát mờ trong bước tiếp theo Sau đó, thuật toán phân cụm bán giám sát mờ (eSFCM) để cải thiện các kết quả của quá trình phân cụm trong giai đoạn xử lý phân đoạn ảnh sau đó

Hình 2.1 Lược đồ tổng quan của phương pháp lai ghép

Phương pháp tách ngưỡng Otsu [16]

Phương pháp tách ngưỡng Otsu biến đổi một hình ảnh ban đầu vào thành một ảnh nhị phân Nó được giới thiệu trong [16] (Otsu, 1979) và cũng được sử dụng trong

[17] bởi Rad, Rahim & Norouzi (2014) Một ảnh đầu vào có thể được chia thành 3 khu vực bằng cách phân phối mật độ: Vùng có mật độ thấp nhất tương ứng với nền hoặc vùng mô mềm; các khu vực mật độ trung bình tương ứng với xương; và các khu vực mật độ cao nhất tương ứng với răng Tuy nhiên, trong nhiều trường hợp các ảnh,

Bắt đầu Ảnh đầu vào và các tham số

Kiểm tra xem ảnh đầu vào có vùng nền hay không?

Dùng phương pháp tách ngưỡng Otsu để loại bỏ vùng nền trong ảnh

Dùng thuật toán FCM Để loại bỏ các vùng cấu trúc răng từ các kết quả của bước trước

Dùng thuật toán eSFCM để làm rõ và cải tiến các kết quả với ma trận độ thuộc được xác định trước từ FCM Đánh giá hiệu năng của thuật toán bằng các tiêu chuẩn khác nhau

Các kết quả phân đoạn ảnh

Kết thúc mật độ của các răng đóng vào xương để hoàn toàn 2 vùng: vùng nền và vùng ảnh (còn gọi là vùng chính) nên được sử dụng trong phương pháp Otsu

Otsu là một phương pháp tách ngưỡng nổi tiếng trong các kỹ thuật xử lý ảnh dựa trên pixel Có rất nhiều phương pháp xác định để có được một ngưỡng phù hợp

Kỹ thuật đơn giản nhất trong các phương pháp tách ngưỡng là phân chia hình ảnh thành hai vùng dựa trên một ngưỡng toàn cục T Trong trường hợp này, phương pháp Otsu chọn một ngưỡng với mục tiêu nhằm giảm thiểu những thay đổi của các lớp bên trong của các điểm ảnh màu đen và trắng và nhãn mỗi điểm ảnh trong hình ảnh khu vực chính ( ) r 0 hoặc khu vực nền ( ) r 1 Mỗi điểm ảnh được gán nhãn dựa trên giá trị cấp xám của nó ( f x( )) Nói cách khác:

Kết quả của bước tách ngưỡng là một ảnh nhị phân để đơn giản hóa quá trình phân tích hình ảnh trong các bước tiếp theo

Trong trường hợp tổng quát mà số lượng các cụm (C) là lớn hơn 2, nhiều ngưỡng có thể được sử dụng để xác định các cụm khác nhau Giả sử T T 1 , 2 , , T n ( T i là điểm cách đều ở trong đoạn [min, max] với mọi i = 1, 2, , n) là các ngưỡng Giá trị của mỗi điểm ảnh ( f x( )) được tính là trung bình của các giá trị R, G, B tại điểm ảnh đó

Input: Một ảnh X-quang nha khoa và số lần lặp lớn nhất MaxStep

Output: Ảnh nhị phân của ảnh đầu vào Otsu:

Bước 1: Chọn 1 ngưỡng khởi tạo T (0) , số bước lặp t = 1

Bước 4: Phân hoạch ảnh thành 2 nhóm R1, R2 (dựa vào ngưỡng T (0) )

Bước 5: Tính toán giá trị mức xác trung bình  1   t , 2   t trên các nhóm R1, R2

Chọn ngưỡng mới theo công thức T   t  1 2   1   t   2   t 

Bước 7: Cho đến khi  1   t  1   t 1  , 2   t  2   t 1  hoặc t = MaxStep

Một điểm ảnh thuộc vào

1 2 n 1 n n cluster 1 if f x T cluster 2 if T f x T cluster n if T f x T cluster n 1 if f x T

Sau đó, u ij trong ma trận độ thuộc U bằng 1 nếu điểm ảnh j thuộc về cụm i và bằng 0 nếu ngược lại

Ví dụ 1 Đối với một hình ảnh 9x9 như trong Hình 2.2, sử dụng phương pháp Otsu với T (0) = 3 Sau 5 lần lặp, chúng ta có hai vùng (hai cụm) của hình ảnh đầu vào tương ứng với các giá trị 0 hoặc 1 như trong Hình 2.3

Hình 2.2 Ảnh đầu vào cỡ 9x9

Hình 2.3 Ảnh nhị phân của ảnh đầu vào khi áp dụng phương pháp Otsu

Thuật toán phân cụm bán giám sát mờ đã được đề xuất bởi Yasunori [20], Yukihiro, Makito & Sadaaki (2009), và vào năm 2012, Yin, Shu & Huang (2012)

[21] đề xuất sửa đổi yếu tố entropy và sau đó thuật toán phân cụm bán giám sát mờ dựa trên Entropy (eSFCM) sử dụng giá trị bổ trợ để tăng hiệu suất phân nhóm với điều kiện ràng buộc:

Các tâm cụm ban đầu được xác định theo công thức (2.45)

Các ma trận hiệp phương sai của mẫu bằng cách sử dụng khoảng cách Mahalanobis được tính như sau

Sau đó, khoảng cách được tính bằng:

A 1 2 1 2 1 2 d x ,x  x x A x x , A P  (2.47) Sau đó, hàm mục tiêu của eSFCM được xác định bởi

  N C kj k j 2 A 1 N C  kj kj kj kj  k 1 j 1 k 1 j 1

(2.48) Giải bài (2.44) - (2.48), chúng ta có được các nghiệm:

Thuật toán bán giám sát mờ lai ghép được thực hiện dựa trên sự lai ghép của phương pháp Otsu, phương pháp phân cụm mờ (FCM) với phương pháp phân cụm bán giám sát mờ (eSFCM) Các bước thực hiện của thuật toán được trình bày như sau:

Thuật toán phân cụm bán giám sát mờ có đặc trưng không gian

Trong mục 2.6.1, luận văn đã trình bày một phương pháp kết hợp giữa phân cụm mờ với phân cụm bán giám mờ và Ostu Để phát triển tiếp các kết quả đã có, mục này đề xuất phương pháp phân cụm bán giám sát mờ có sử dụng các thông tin đặc trưng không gian Nội dung trình bày trong mục này bao gồm: lược đồ tổng quát của thuật toán phân cụm bán giám sát mờ có đặc trưng không gian Sau đó, việc xây dựng các đặc trưng không gian của một ảnh X-quang nha khoa trong một cơ sở dữ liệu đặc trưng nha khoa được trình bày trong các ý sau đây Tiếp theo trình bày quá trình xác định thông tin mới bổ trợ cho quá trình phân cụm bằng cách kết hợp các kết quả của FCM với các thông tin đặc trưng không gian Mô hình hóa bài toán phân đoạn nha khoa dưới dạng một bài toán phân cụm bán giám sát mờ có ràng buộc đặc trưng không gian (SSFC-SC) và giải bài toán bằng phương pháp nhân tử Lagrange để nhận được các tâm cụm tối ưu và ma trận độ thuộc được đưa ra trong mục 2.8.1 Cuối cùng, các ưu điểm và nhược điểm của SSFC-SC được trình bày trong mục 2.8.3

Lược đồ tổng quát của mô hình toán học

Hình 2.4 dưới đây xác định cơ chế chính của mô hình đề xuất Đầu vào là một ảnh X-quang nha khoa và với một vài tham số do người dùng xác định như là số lượng cụm (C), các số mờ hóa (m), ngưỡng Otsu (T) và ngưỡng dừng ( ) Xác định các thông tin bổ trợ của ảnh và đồng thời tiến hành phương pháp phân cụm FCM cũng được sử dụng để phân đoạn các ảnh X-quang nha khoa đầu vào thành cùng một số cụm Ma trận độ thuộc nhận được từ FCM cùng với các thông tin đặc trưng không gian được sử dụng cho việc tính toán các thông tin bổ trợ cho thuật toán phân cụm bán giám sát mờ mới Sử dụng thông tin này, việc xây dựng và giải quyết bài toán phân đoạn ảnh nha khoa bằng các thuật toán phân cụm bán giám sát mờ mới (SSFC-SC) được thiết lập Sau đó thuật toán SSFC-SC lặp lại để sử dụng xác định các tâm cụm và ma trận độ thuộc, xác định ảnh phân đoạn Cuối cùng, các chỉ số hiệu năng được áp dụng để đánh giá chất lượng của các kết quả đạt được Ảnh nha khoa: 5 đặc trưng cơ bản của một ảnh nha khoa Các đặc trưng này sẽ nhận được bằng cách áp dụng các phương pháp trích trọn đặc trưng từ một ảnh X- quang nha khoa như sau:

Hình 2.4 Lược đồ hoạt động của thuật toán mới

Entropy, giá trị Edge và cường độ

Những đặc trưng này được sử dụng để mô tả cấu trúc của một ảnh X-quang có thể được phân thành ba vùng tách biệt: vùng nền, vùng cấu trúc răng và các vùng răng

- Entropy: đo lường mức độ ngẫu nhiên của thông tin đạt được trong một phạm vi nhất định và được tính bằng các phương trình (2.51), (2.52) sau:

Trong đó z là một biến ngẫu nhiên, p(zi) là xác suất của pixel thứ i , i = 1,2, ,

L (L là số lượng điểm ảnh)

Chúng tôi đã thực hiện một thủ tục Matlab để xác định giá trị entropy từ một ảnh X-quang như sau:

- Giá trị edge và cường độ: đo số những thay đổi của các giá trị điểm ảnh trong một khu vực và được xác định bởi các phương trình (2.53-2.57)

(2.55) Trong đó f x y( , ) là độ dài của vector gradient, b(x, y) và e(x, y) là một ảnh nhị phân và cường độ của ảnh X-quang tương ứng T1 là một ngưỡng Chuẩn hóa giá trị edge và cường độ, ta có các phương trình sau đây:

 (2.57) Đoạn mã Matlab sau đây được sử dụng để xác định Giá trị edge và cường độ từ một ảnh X-quang for i= 1:N for j = 1:L if EDGEIM (i,j) == 1 edgepoints = trackedge(i,j, edge); if ~isempty(edgepoints) edge = edge + 1; edgelist{edge} = edgepoints; end end end end imadjust(I)

Local Patterns Binary - LBP Đặc trưng này là một trường hợp đặc biệt của Texture Spectrum Model, được sử dụng để xác định sự khác biệt giữa các phân vùng trong một ảnh X-quang Đó là bất biến đối với bất kỳ chuyển đổi cường độ ánh sáng và bảo đảm trật tự của mật độ điểm ảnh trong một khu vực nhất định Các bước sau đây tính giá trị LBP (xem hình 2.5 và phương trình 2.58, 2.59 để biết chi tiết)

- Bước 1: Chọn 3 x 3 cửa sổ mẫu từ một điểm ảnh trung tâm nhất định

- Bước 2: So sánh giá trị của nó với những điểm ảnh trong cửa sổ Nếu lớn hơn sau đó đánh dấu 1; nếu không đánh dấu là 0

- Bước 3: Đặt tất cả các giá trị nhị phân từ các điểm ảnh trên bên trái để các điểm ảnh cuối bởi hướng kim đồng hồ thành một chuỗi 8-bit Chuyển nó sang hệ thập phân

Trường hợp giá trị của điểm ảnh trung tâm (xc, yc) là và là giá trị của điểm ảnh thứ n trong cửa sổ Đoạn mã Matlap sau đây được sử dụng để xác định giá trị LBP từ một ảnh X- quang

RGB đo màu của một ảnh X-quang, được chia thành ba ma trận theo giá trị Red- Green-Blue Đối với một hình ảnh được 256 màu sắc, những ma trận đều giống nhau vì cả hai đều đo một hình ảnh màu xám [23] Đối với một hình ảnh 24 bit, Đặc trưng

RGB được tính như sau

Trong đó N là số lượng điểm ảnh Một cách khác để tính toán các đặc trưng RGB là ba ma trận độc lập hR[],hG[] và hB[] với giá trị được xác định từ các bảng hệ màu tương đương trong các hình ảnh Đoạn mã Matlab sau đây được sử dụng để xác định giá trị RGB:

RGB=reshape(ones(64,1)*reshape(jet(64),1,192),[64,64,3]);

Gradient Đặc trưng Đặc trưng này có thể được sử dụng để phân biệt khác nhau nhỏ giữa các bộ phận răng như men, cementum, xi măng, ống tủy, vv Các bước sau đây tính toán Gradient giá trị

- Bước 1: Áp dụng bộ lọc Gaussian đến ảnh X-quang để giảm nhiễu nền

- Bước 2: Áp dụng bộ lọc Gaussian (DoG) để tính toán sự khác biệt của ảnh theo trục x và y Mỗi điểm ảnh được đặc trưng bởi một vector gradient

- Bước 3: Chuẩn hóa vector gradient và nhận được một vector 2D cho mỗi điểm ảnh như sau

Với  là hướng của vector gradient

Trường hợp I (x, y) là một vector điểm ảnh, G (x, y, k) là một hàm Gaussian của vector điểm ảnh, * là các toán tử chập giữa x và y, là một ngưỡng Đoạn mã Matlab sau đây được sử dụng để xác định Gradient giá trị từ một ảnh X-quang imgradient(I) Đặc trưng mức Patch Đặc trưng này được sử dụng để tính toàn bộ vector gradient với từng điểm ảnh ở mức patch, được biểu thị bởi δ(z)

Với m z   là biên độ gradient tại điểm ảnh z, m z   là giá trị tiêu chuẩn của

  m z và  g là hằng số    z thường được xác định bởi phương pháp Hard Binning như sau

Xác định thông tin bổ trợ

Cách xác định các thông tin bổ trợ cho thuật toán mới SSFC-SC có liên quan đến cơ sở dữ liệu Đặc trưng nha khoa, các ma trận độ thuộc tối ưu của FCM và kiến thức của chuyên gia như sau:

- Bước 1: Từ ma trận độ thuộc tối ưu của FCM, xác định giá trị độ thuộc tối thiểu cho mỗi điểm dữ liệu và các thiết lập

- Bước 2: Dựa vào các đặc trưng của ảnh nha khoa tại nội dung ý a), khi đó ta ký hiệu là pw pw pw pw pw 1 , 2 , 3 , 4 , 5 để tính toán giá trị đặc trưng của ảnh nha khoa tương ứng Chuẩn hóa các đặc trưng của ảnh nha khoa ta xác định được trọng số đặc trưng của từng điểm ảnh:

- Bước 3: Tính toán thông tin đặc trưng: l i i 1

- Bước 4: Tổng hợp các mức độ thuộc ở bước 1 và 3 để có được các thông tin bổ trợ như sau:

Trong đó [0,1] là kiến thức của chuyên gia trợ giúp cho việc xác định thông tin bổ trợ cho quá trình phân cụm bán giám sát mờ mới

Ví dụ 1: Giả sử rằng chúng ta có ma trận độ thuộc tối ưu của FCM như trong bảng 2.1 Do đó, một danh sách các giá trị u 1 được tính như trong bảng 2.2

Bảng 2.1 Ma trận độ thuộc cuối cùng của FCM

Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5 Điểm 1 0.2 0.1 0.15 0.5 0.05 Điểm 2 0.6 0.05 0.1 0.1 0.15 Điểm 3 0.15 0.3 0.1 0.2 0.25

Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5 Điểm 1 - - - - 0.05 Điểm 2 - 0.05 - - - Điểm 3 - - 0.1 - -

Các đặc trưng nha khoa và danh sách các giá trị u 2 được thể hiện trong bảng 2.3 và 2.4 tương ứng

Bảng 2.3 Các định các đặc trưng nha khoa

EEG LBP RGB Grandient Patch Tổng Điểm 1 0.5 0.6 0.6 0.7 0.3 2.7 Điểm 2 0.3 0.3 0.6 0.1 0.5 1.8 Điểm 3 0.6 0.4 0.8 0.7 0.3 2.8

Bảng 2.4 Xác định u 2 Điểm 1 Điểm 2 Điểm 3 u2 0.96 0.64 1.0

Với = 0.7, ma trận bổ trợ được xác định ở bảng 2.5

Bảng 2.5 Xác định ma trận bổ trợ

Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5 Điểm 1 0 0 0 0 0.672 Điểm 2 0 0.448 0 0 0 Điểm 3 0 0 0.7 0 0

Thuật toán phân cụm bán giám sát mờ SSFC-SC cho ảnh nha khoa

2.7.1 Mô hình hóa phân đoạn ảnh nha khoa

Dựa trên các phân tích trên, hàm mục tiêu bài toán phân đoạn nha khoa được xác định như sau:

Trong phương trình (2.72), hàm mục tiêu J bao gồm ba thành phần chính: J 1 là hàm mục tiêu chuẩn của Fuzzy C-Means (FCM) được xác định trong phương trình (2.73) với mục đích để tối thiểu hóa khoảng cách giữa các tâm cụm và điểm dữ liệu Thành phần J 2 thể hiện thông tin đặc trưng không gian ảnh nha khoa và thành phần J

3 xác định các thông tin bổ trợ của phân cụm bán giám sát mờ Cụ thể:

Trong phương trình (2.73), u k j là độ thuộc của điểm dữ liệu X k vào cụm thứ j, m là tham số mờ hóa cho thấy mức độ mờ của vấn đề phân cụm và thường được chọn là m = 2, V j là tâm cụm thứ j Để xác định hàm mục tiêu J 2 , luận văn đề xuất ý tưởng về việc sử dụng một cửa sổ không gian thích ứng (Hình 2.6), để phát hiện kích thước của cửa sổ không gian thích ứng cho một điểm ảnh cần được xác định Xuất phát từ việc quan sát hai điểm ảnh không gian lân cận nhau có giá trị điểm ảnh tương tự nhau, nếu sự khác biệt của các giá trị điểm ảnh giữa hai vùng láng giềng khác nhau sẽ có giá trị điểm ảnh khác nhau lớn hơn một ngưỡng nó đó, khi chắc chắn là chúng thuộc về hai cụm riêng biệt Một cửa sổ không gian thích ứng là một hình chữ nhật có kích thước là nxm và trung tâm là một điểm ảnh tương ứng cần được xác định Các giá trị điểm ảnh thuộc về cửa sổ không gian thích ứng đó có giá trị tương tự với điểm ảnh trung tâm trong thời hạn nào đó Kích thước của cửa sổ là cặp số tối đa xác định sự không gian của các giá trị điểm ảnh với điểm ảnh trung tâm Nếu sự khác biệt nhỏ hơn một ngưỡng, tăng kích thước của một đơn vị trong cả hai hướng Nếu không, hãy dừng lại và ghi kích thước cuối cùng

Hình 2.6 Cửa sổ đồng nhất thích ứng

Mã giả xác định cửa sổ không gian thích ứng:

N1=3; while ok d1=0; if (i>=floor(N1/2)) and (i=floor(N1/2))and(k

Tiêu đề	Nghiên cứu thuật toán phân cụm dữ liệu mờ và ứng dụng
Tác giả	Souksakhone Boutdyvong
Người hướng dẫn	Ts. Vũ Đức Thái
Trường học	Trường Đại học Công nghệ thông tin & Truyền thông
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Thái Nguyên

Định dạng
Số trang	78
Dung lượng	1,83 MB