Thuật toán phân cụm mờ theo ĐSGT

5. Ý nghĩa thực tiễn của đề tài

3.1 Thuật toán phân cụm mờ theo ĐSGT

Dựa trên những ưu điểm của cấu trúc ĐSGT là ngữ nghĩa ngơn ngữ được lượng hóa bằng các ánh xạ định lượng của ĐSGT, ảnh hưởng của độ đo tính mờ của các gia tử tác tác động lên độ đo tính mờ của các giá trị ngơn ngữ được xem xét thơng qua hàm độ đo tính mờ là ánh xạ định lượng ngữ nghĩa,chúng tôi tiếp cận giải quyết bài toán phân cụm mờ áp dụng ĐSGT theo hướng giá trị tập mờ của mỗi thuộc tính được biểu diễn bởi một nhãn ngôn ngữ và tập các giá trị ngôn ngữ được giả thiết là một đại số gia tử, từ đó đề xuất thuật tốn phân cụm mờ HA_K-Means, thuật toán này là sự mở rộng của thuật tốn K-Means, trong đó việc xem thuộc tính như một cấu trúc ĐSGT làm cho việc phân các đối tượng về các cụm trở nên đơn giản và hiệu quả.

Trong phần này, chúng tơi trình bày phương pháp xây dựng thuật toán phân cụm mờ sử dụng đại số gia cho thuật toán K-Means [CT1].

Thuật toán K-means với phân cụm rõ: Thuật toán này thuộc phương pháp phân cụm phân hoạch. K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật tốn K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác định trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm (centroid) là nhỏ nhất.

Thuật toán K-Means thực hiện qua các bước chính sau:

1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại diện bằng các tâm của cụm.

2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

4. Xác định lại tâm mới cho các cụm

5. Thực hiện lại bước 2 cho đến khi khơng có sự thay đổi cụm nào của các đối tượng.

Mơ tả Thuật tốn K-Means

Xây dựng thuật toán HA_K-Mean

Phương pháp xây dựng thuật toán phân cụm mờ sử dụng đại số gia tử cho thuật tốn K-Means xem mỗi thuộc tính là một cấu trúc của ĐSGT nên việc đánh giá đơn giản, trực quan và hiệu quả hơn. Các bước thực hiện như sau:

Bước 1: Xem miền trị thuộc tính mờ là một ĐGST (giải sử ký hiệu Dom(A)). Chuyển đổi các giá trịtrong Dom(A) về [0,1].

Start

Number of cluster k centroid

Distance object to centroid Grouping based on minimum distance

No object movie group?

Bước 2: Với mỗi x∈ [0,1] sẽ tương ứng với mỗi phần tử trongtrong ĐGST.

Bước 3: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại

diện bằng các tâm của cụm.

Bước 4. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng

khoảng cách Euclidean).

Bước 5. Nhóm các đối tượng vào cụm gần nhất Bước 6. Xác định lại tâm mới cho cáccụm

Bước 7. Thực hiện lại bước 4 cho đến khi khơng có sự thay đổi cụm nào của các đối

tượng

Ví dụ minh họa thuật tốn HA_K-Mean:

Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuộc được biểu diễn bởi 2 đặc trưng X và Y như sau. Mục đích của ta là nhóm các thuốc đã cho vào 2 cụm (K=2) dựa vào các đặc trưng của chúng.

Bảng 3.1 Giá trị đặc trưng

Object Weight index (X) pH (Y)

Medicine A 1 1

Medicine B 3 1

Medicine C 4 3

Medicine D 6 4

Bước 1-2: Chúng tôi xem miền trị của thuộc tính là một ĐSGT và biến đổi các giá

trị số lượng về giá trị trong [0, 1] tương ứng, được xác định như sau: Thuộc tính weight index:

Gọi Xweight index= ( Xweight index, Gweight index,Hweight index,≤) là đại số gia tử, với Gweight index= {cao, thấp}, H+weight index = {rất, hơn}, H-weight index = {khả năng, ít}, rất > hơn và ít > khả năng.

Chọn Wweight index = 0.6, fm(thấp) = 0.6, fm(cao) = 0.4, fm(rất) = 0.2, fm(hơn) = 0.2, fm(khả năng) = 0.4, fm(ít) = 0.2, và Dom(weight index) = [0,10].

Ta có fm(rất thấp) = 0.15, fm(hơn thấp) = 0.15, fm(ít thấp) = 0.15, fm(khả năng thấp) = 0.15. Do rất thấp < hơn thấp < thấp < khả năng thấp< ít thấp nên ta có I(rất thấp) = [0, 0.15], I(hơn thấp) = [0.15, 0.30], I(khả năng thấp) = [0.30, 0.45], I(ít thấp)=[0.45, 0.60]. I(ít cao) = [0.60, 0.68], I(khả năng cao)=[0.68, 0.76], I(hơn cao)=[0.76, 0.86], I(rất cao)=[0.86, 1].

Từ định nghĩa 1.6, ta có thể tính được giá trị ngữ nghĩa của các từ như sau: v(rất

thấp)=0.12; v(hơn thấp)=0.204; v(thấp)=0.24; v(khả năng thấp)=0.3; v(ít

thấp)=0.424; v(ít cao)=0.576; v(khả năng cao)=0.7; v(cao)=0.76; v(hơn cao)=0.796;

v(rất cao)=0.88.

Thuộc tính pH:

Gọi XpH= ( XpH, GpH,HpH,≤) là đại số gia tử, với GpH= {cao, thấp}, H+

pH = {rất, hơn}, H-pH = {khả năng, ít}, rất > hơn và ít > khả năng.

Chọn WpH= 0.5, fm(thấp) = 0.5, fm(cao) = 0.5, fm(rất) = 0.4, fm(hơn) = 0.1, fm(khả

năng) = 0.1, fm(ít) = 0.4, và Dom(pH) = [0,10].

Ta có fm(rất thấp) = 0.2, fm(hơn thấp) = 0.05, fm(ít thấp) = 0.2, fm(khả năng thấp) = 0.05. Do rất thấp < hơn thấp < thấp < khả năng thấp< ít thấp nên ta có I(rất thấp) = [0, 0.2], I(hơn thấp) = [0.2, 0.25], I(khả năng thấp) = [0.25, 0.3], I(ít thấp)=[0.3, 0.5]. I(ít cao) = [0.5, 0.7], I(khả năng cao)=[0.7, 0.75], I(hơn cao)=[0.75, 0.8], I(rất

cao)=[0.8, 1].

Và, ta có thể tính được giá trị ngữ nghĩa của các từ như sau: v(rất thấp)=0.1; v(hơn thấp)=0.225; v(thấp)=0.25; v(khả năng thấp)=0.275; v(ít thấp)=0.4; v(ít cao)=0.6; v(khả năng cao)=0.725; v(cao)=0.75; v(hơn cao)=0.775; v(rất cao)=0.9.

Chuyển các giá trị thuộc tính weight index và pH về khoảng [0,1], tiếp đến xác định thuộc các giá trị đó thuộc từ nào và chúng ta có bảng giá trị sau khi chuyển đổi như sau:

Bảng 3.2 Giá trị đặc trưng theo ĐSGT

Object Weight index (X) pH (Y)

Medicine A 0.12 0.1

Medicine B 0.204 0.1

Medicine C 0.3 0.225

Medicine D 0.424 0.4

Bước 3: Khởi tạo tâm (centroid) cho 2 cụm. Giả sử ta chọn A là tâm của cụm thứ

nhất (tọa độ tâm cụm thứ nhất c1(0.12,0.1)) và B là tâm của cụm thứ 2 (tọa độ tâm cụm thứ hai c2 (0.204,0.1)).

Bước 4: Ma trận khoảng cách

ã2 = ỵ 00.084 0.084 0.219 0.4270 0.158 0.372 ]4 = 0.12,0.1

]Š = 0.024,0.1 †NMFG 1†NMFG 2

Bước 5. Nhóm các đối tượng vào cụm gần nhất

G2 = ỵ1 0 0 00 1 1 1 group 1group 2

Ta nhận thấy rằng cụm 1 có 1 đối tượng A, cụm 2 có 3 đối tượng B,C,D Lần 2:

Bước 4: Tính lại tọa độ tâm, do cụm 1 có 1 đối tượng A nên tâm khơng thay đổi

c1=(0.12,0.1). Tâm cụm 2 sau khi tính lại là c2=(0.309,0.242) Ma trận khoảng cách

Bước 5. Nhóm các đối tượng vào cụm gần nhất

4 = ỵ1 1 0 00 0 1 1 †NMFG 1†NMFG 2

Lần 3:

Bước 4: Tính lại tọa độ tâm, cụm 1 có tâm mới c1=(0.162, 0.362). Tâm cụm 2 sau

khi tính lại là c2=(0.1, 0.313) Ma trận khoảng cách

ã = ỵ 0.042 0.042 0.186 0.3980.3221 0.265 0.107 0.107 †NMFG 1†NMFG 2

Bước 5. Nhóm các đối tượng vào cụm gần nhất

= ỵ1 1 0 00 0 1 1 †NMFG 1†NMFG 2

Kết quả thực hiện phân cụm:

Bảng 3.3 Kết quả phân cụm theo ĐSGT

Object Weight index (X) pH (Y) Group

Medicine A 0.12 0.1 1

Medicine B 0.204 0.1 1

Medicine C 0.3 0.225 2

Medicine D 0.424 0.4 2

Đại số gia tử tuyến tính đầy đủ

Tổng quan về phân cụm mờ