Cấu trúc khoảng cách

Một phần của tài liệu Ứng dụng phương sai trong phân cụm dữ liệu mờ (Trang 42 - 70)

Trong lý thuyết xác suất và thống kê, phương sai của một biến ngẫu nhiên là độ đo sự phân tán thống kê của biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa. Phương sai của một biến ngẫu nhiên là bình phương của độ lệch chuẩn[1].

Trong lý thuyết xác suất, giá trị kỳ vọng, giá trị mong đợi (hoặc kỳ vọng toán học), hoặc trung bình (mean) của một biến ngẫu nhiên là trung bình có trọng số của tất cả các giá trị của thể của biến đó, hay là được tính bằng tổng các tích giữa xác suất xảy ra của mỗi giá trị có thể của biến với giá trị đó [3].

Còn hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên. Nếu 2 biến có xu hướng thay đổi cùng nhau (nghĩa là, khi một biến có giá trị cao hơn giá trị kỳ vòng thì biến kia có xu hướng cũng cao hơn giá trị kỳ vọng), thì hiệp phương sai giữa hai biến này có giá trị dương. Mặt

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

khác, nếu một biến nằm trên giá trị kì vọng còn biến kia có xu hướng nằm dưới giá trị kì vọng, thì hiệp phương sai của hai biến này có giá trị âm[6].

Ma trận hiệp phương sai của tập hợp m biến ngẫu nhiên là một ma trận vuông hạng (m × m), trong đó các phần tử nằm trên đường chéo (từ trái sang phải, từ trên xuống dưới) lần lượt là phương sai tương ứng của các biến này, trong khi các phần tử còn lại (không nằm trên đường chéo) là các phương sai của đôi một hai biến ngẫu nhiên khác nhau trong tập hợp[5].

Bây giờ giả sử cả xi và vj đều được gắn vào các ma trận phương sai - hiệp phương sai ∑i và ∑j. Trường hợp này xảy ra khi người ta muốn giải nghĩa một số thông tin thống kê liên quan đến các yếu tố đầu vào. Khi đó, đầu vào xi và tâm cụm vj chỉ là các đại diện hoặc ví dụ của một phạm vi rộng hơn các dữ liệu vào - các trung tâm cụm, mở rộng của chúng được xác định bởi ma trận phương sai-hiệp phương sai tương ứng.

Để thực hiện mục đích đó, người ta đã đề xuất sử dụng ở đây khoảng cách phân kỳ, thường được dùng trong thiết lập xác suất, tiến tới một thừa số nhân, có thể được biểu diễn như sau:

Trong đó ma trận Id là viết tắt của ma trận đơn vị. Sự hợp lý đó gồm những điều sau đây:

- Các giá trị phương sai - hiệp phương sai có mặt ở đây cần khác biệt với những gì liên quan đến các thành phần của vector xivj, điều đó loại bỏ bất kỳ ý tưởng pha trộn nào đối với các thành phần của vectơ với các giá trị của phương sai - hiệp phương sai. Điều này cũng góp phần vào việc gán trọng số đồng thời có thể giúp loại bỏ các thuộc tính không liên quan của dữ liệu bằng cách phân bổ thích hợp các giá trị phương sai.

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

- Các ma trận ∑i và ∑j có vai trò như nhau đối với trọng số của các thành phần của xi - vj như trong phần đầu của biểu thức (2.7).

- Biểu thức (2.7) còn được gọi là khoảng cách Kullback - Leibler đối xứng (Kullback, 1968), được sử dụng rộng rãi trong lý thuyết thông tin để biểu diễn độ bất định tương đối, xây dựng một cầu nối đến lý thuyết thông tin. Từ quan điểm này, biểu thức (2.7) thêm vào các phân bố xác suất cơ sở các đơn vị ban đầu là Gaussian với trung bình và các ma trận phương sai - hiệp phương sai (xi, ∑i) và .

- Các khía cạnh của việc sử dụng khoảng cách xác suất để phân cụm có thể không phải là những dữ liệu mang tính xác suất, đây vốn là một vấn đề mở. Cho đến bây giờ việc phân cụm theo khía cạnh cực tiểu hàm mục tiêu giống như biểu thức (2.2) là có liên quan, bất kỳ độ đo khoảng cách có thể được đưa vào ở trên đều có liên quan đến vấn đề tối ưu hóa hàm mục tiêu. Trong khi đó, giả định Gauss có thể được thúc đẩy bởi hạn chế trong lý thuyết thông tin hoặc thiết lập thống kê.

Hình 2.1: Ví dụ thể hiện giới hạn của khoảng cách Euclid trong dựng hình theo hàm Gaussian

- Trong trường hợp các thông số vào với các ma trận phương sai - hiệp phương sai, mà cũng giống các số hạng phương sai - hiệp phương sai của các tâm cụm, người ta hồi phục công thức khoảng cách Manhalobis được thể hiện như trong biểu thức (2.7).

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

Để minh họa cho các khả năng thể hiện của khoảng cách ở biểu thức (2.7), chúng ta sẽ so sánh nó với khoảng cách Euclid, một khoảng cách rất hay được sử dụng.

Cuối cùng giá trị phương sai-hiệp phương sai là sự kết hợp các giá trị ngôn ngữ như là thành phần mở rộng của dữ liệu, chúng làm tăng số chiều của dữ liệu lên một nếu hạng từ có số chiều là một.

Ví dụ hình 2.1 ở trên ta thấy ở phía bên trái, hai đường phân bố Gausian có giá trị chính là 1 và 3, trong khi độ lệch chuẩn đều là 0.2. Khoảng cách Euclid giữa 2 điểm (1, 0.2) và (3, 0.2) là d = 2.0, trong khi đó khoảng cách xác suất cho cùng các tham số là = 3.16.

Tuy nhiên, trong trường hợp thứ hai, độ lệch chuẩn của mỗi đường phân bố Gausian tăng lên tới 0.6, khoảng cách Euclid không thay đổi, trong khi khoảng cách sử dụng biểu thức (2.7) giảm xuống trị số mới 2.88, điều này cho thấy nhìn vào trực giác về vị trí của hai đường phân bố trong phần bên phải của hình thì phần chồng lên quan trọng hơn với sự tăng lên của độ lệch chuẩn, vì vậy hai đường phân bố trở nên gần nhau hơn. Nói cách khác, khoảng cách Euclid có xu hướng bỏ qua hoàn toàn phần chồng lên[13].

2.2.2. Thuật toán Fuzzy C-Means cải tiến

Bây giờ chúng ta sẽ tiến hành thực hiện một thuật toán FCM cải tiến dựa vào công thức khoảng cách (2.7).

Xét dữ liệu (xi,i), với xi (i = 1 n) là một vec-tơ m chiều và ∑i là một ma trận hiệp phương sai chéo (m x m). Tương tự, để (vj, )thể hiện trung tâm của cụm j (vj là một vec-tơ cột (m x 1) và là một ma trận hiệp phương sai chéo (m x m)).

Sau đó, tương tự với FCM chuẩn, thuật toán được đề nghị sẽ tối ưu hóa

hàm mục tiêu với ràng buộc . Cho nên, thế

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

Trong đó i là thừa số Lagrangian. Điều kiện cần cho tối ưu hóa hàm mục tiêu J được xác định bằng cách đặt đạo hàm riêng bằng 0 đối với mỗi đối số cụ thể là:

trong đó diag(xi - vj) là ma trận chéo trong đó các phần tử chéo là các thành phần của vectơ xi - vj .

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Từ (2.9) và (2.10), bằng một số biến đổi, ta sẽ có:

Các biểu thức (2.14-2.15) suy ra vj và . Cụ thể hơn, để giải (2.14- 2.15), ta có thể viết lại:

Trong đó , > 0 (k = 1 m). Tương tự, đặt:

Sau đó thay thế những biểu thức này vào (2.11) và sau một số bước hoán đổi, (2.11) sẽ thành:

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Hoặc tương đương:

Tương tự, bằng cách thay thế trong biểu thức (2.18), ta có:

Hoặc tương đương:

(với k = 1 )

Bình phương biểu thức (2.18) và cho bằng vế phải của phương trình (2.20) sẽ đưa đến một đa thức bậc 4 đối với vjk (phương trình bậc hai), và có thể dễ dàng giải được bằng cách sử dụng công cụ giải tích hoặc số học. Thay thế lại kết quả của vjk vào biểu thức (2.18) hoặc (2.20) sẽ có giá trị .

Từ các phương trình trước, cần lưu ý:

- Phương trình trên cho thấy thuật toán đề cập trên đây đưa ra cách sử dụng rõ hơn của ma trận phương sai - hiệp phương sai của cả các thông số đầu vào và tâm cụm. Nói một cách chặt chẽ hơn, trong trường hợp tính toán các giá trị phương sai - hiệp phương sai không được người dùng đề cập, thì ta trở lại thuật toán FCM chuẩn. Thật vậy, đặt trong biểu thức (2.7), sẽ dẫn đến khoảng cách Euclid. Do đó, điều này sẽ dẫn đến những cách giải tương tự trong biểu thức (2.4-2.5).

- Cách giải phương trình đối với vjk được chỉ ra trong các biểu thức (2.20-2.18) như giải một phương trình bậc hai được thực hiện một cách trực tiếp bằng giải tích hoặc bằng số học.

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

- Trong trường hợp phương trình bậc hai có nghiệm thực, thì đương nhiên một hạn chế trên nghiệm là nghiệm phải nằm trong phạm vi xik nhỏ nhất và xik lớn nhất.

- Thật vậy, từ biểu thức (2.17), ta sẽ dễ dàng thấy rằng điều kiện cuối cùng để biểu thức (2.17) triệt tiêu là thay đổi dấu trong biểu thức xikvjk với một vài trị số i vì lượng ( ) luôn là dương. Điều này chỉ xuất hiện nếu

vjk nằm trong phạm vi các giá trị được gán cho xik.

- Từ biểu thức (2.19), sẽ dễ hiểu rằng khi σik là dương, thì tìm được đó cũng dương không phụ thuộc vào các giá trị của vjk.

- Xét về độ phức tạp tính toán, cách giải trên vẫn có thể so sánh với cách giải của thuật toán FCM chuẩn. Bên cạnh đó, sự tăng số chiều của dữ liệu không làm tăng độ phức tạp tính toán khi giải phương trình đa thức từ (2.18 20). Thật vậy, trong không gian m chiều, phương trình đa thức được lặp lại m lần. Nói cách khác, độ phức tạp của việc tìm kiếm trung tâm cụm về toàn cục tỷ lệ tuyến tính với độ phức tạp của việc giải phương trình bậc hai khi hiệu chỉnh các cụm khi phân cụm với dữ liệu có số chiều cao.

- Một trường hợp đặc biệt liên quan đến tình huống mà tất cả dữ liệu đều có phương sai như nhau, nghĩa là σik = hằng số (với mọi i), sau đó biểu thức (2.17) sẽ trở thành ta sẽ có:

Biểu thức (2.21) tương đương thuật toán FCM chuẩn. Nói cách khác, trong trường hợp dữ liệu vào có phương sai bằng nhau, người ta có thể tính tâm cụm được cung cấp bởi thuật toán FCM chuẩn. Tuy nhiên, phương sai của tâm cụm không nhất thiết bằng với phương sai σik của dữ liệu vào như được đề cập trong biểu thức (2.18). Nói đúng ra, dù tâm cụm của vj trùng

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

khớp một cách chính xác với tâm cụm được tính toán trong thuật toán FCM chuẩn thì nó cũng không đưa ra cùng một kết quả vì giá trị của ma trận U là khác nhau đối với các trường hợp.

- Một trường hợp đặc biệt khác xảy ra khi tất cả vectơ vào xi hoặc ít nhất thành phần xik trùng nhau, thì các phương sai σik không nhất thiết giống nhau. Trong trường hợp này, dễ thấy rằng biểu thức (2.17) dẫn đến nghiệm tầm thường vjk = xik, và:

Đặt chúng ta có được khôi phục từ FCM chuẩn với ma trận trọng số U.

Trong trường hợp tổng quát, các σik hoặcxikkhông như nhau xác định sự tồn tại và không đồng nhất của lời giải trong vjk, hoặc tương tự trong .

Trước tiên, từ biểu thức (2.18) và điều kiện σjk ≥ 0, ta có , điều đó dẫn đến:

hoặc:

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ .

Từ biểu thức (2.20) và (2.18) nếu giữ nguyên điều kiện ở biểu thức (2.23) hoặc (2.24), thì:

Đặt F1(vjk)F2(vjk) tương ứng vào vế phải và vế trái của đẳng thức (2.25). Lấy đạo hàm đối với vj k , ta có:

Và:

Đặt: và

Ta có:

khi

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

Sau một số biến đổi sẽ thành:

Sau đó cũng có thể khai triển thành:

+ , | <1 , =1, . 2 (2.32)

Do đó, từ công thức trên, ta suy ra F2(m1) > 0. Nói cách khác, F2 giống như một đường parabol mà không cắt trục x. Hãy chú ý rằng cả F1 và F2 sẽ liên tục ngoại trừ vjk = m2. Trong trường hợp sau, F1 là một đường tiệm cận với đường thẳng đứng vjk = m2.

Hai trường hợp phát sinh: • Trường hợp 1: m1 ≤ m2

Nếu biểu thức (2.23) có hiệu lực. Sử dụng biểu thức (2.26-2.27), sẽ dẫn tới và , tạo thành các hàm F1(vjk)F2(vjk) đơn điệu tăng không đổi trong biểu thức (2.23). Bên cạnh đó, vì , khi vjk

→ , tức là F1 đi từ 0 , trong khi F2 là một đường pa-ra-bôn, tăng từ

F2(m1) >0 khi vjk . Từ tính liên tục của F1 trong [m1, m2] và tính liên tục của F2 trong(−∞,+∞), thì F1 phải đi qua đường cong F2 tại điểm duy nhất giữa m1 và m2.

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ • Trường hợp 2: m2<m1

Giữ nguyên điều kiện (2.24). Tương tự, sử dụng công thức (2.26 - 2.27), sẽ có đạo hàm của F1 và F2 mang giá trị âm, nghĩa là các hàm đều không tăng. Tương tự , khi vjk → , F1 giảm cho tới khi vjk =

m1, F2 giảm từ vô cùng khi (vì vậy, rõ ràng nó đi qua đường thẳng

vjk = m2 tới một trị số F2(m1) > 0). Cho nên, từ tính liên tục của F1 trong [m2,m1] và F2 trong (−∞, + ∞), cả hai đường cong F1 và F2 giao nhau tại điểm duy nhất giữa F1 và F2.

Điều này chứng minh sự tồn tại và duy nhất của phép giải trong khoảng [min(m1, m2); max(m1, m2)].

Cũng cần lưu ý nó xuất phát từ những biến thiên của hàm F1 mà các số hạng phương sai có thể đi từ 0 và không có cận trên về mặt lý thuyết độc lập với giá trị xik. Thực vậy, khi F1 , vjk tới điểm m2, trong khi vjk nằm tại một điểm nào đó giữa m1 và m2 , thì kết quả là vô giá trị vì biểu thức của được đề cập như biểu thức (2.18) liên quan đến F1 .

Chính xác thì phần phân tích được thực hiện ở phần trước chỉ cho thấy rằng cách giải tốt nhất * *

(U , , )V như trong các biểu thức (2.13), (2.18) và (2.20 & 2.18) là những điều kiện cần thiết cho * *

(U , , )V trở thành mức tối thiểu của hàm mục tiêu (2.8).

Để chứng minh, ta cần đánh giá Entropy của Hessian tại mỗi vec-tơ

* *

(U , , )V như sau:

- Đối với U*, ta xác định được . Khi biểu thức (2.13) giống với kết quả trong trường hợp của thuật toán FCM chuẩn, tính dương của giá trị này được chứng minh bởi Bezdek(1980).

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

- Đối với V *, lập luận tương tự như trong (Bezdek (1980); Bezdek (1987), ta có các giá trị riêng của ma trận Hessian (Hessian của J tại V*) mang giá trị dương. Đặt y = (y1,y2,… ,yc) với yi m,y 0, và t . Đạo hàm theo vj có thể được so sánh tương tự với các đạo hàm riêng của vj

theo y đặt H(t) = J(V∗ + t.y), thì được xác định dương nếu và chỉ nếu . Sau một số biến đổi:

Σ 1Σ ∗2. + =1 =1 1(2.33)

Ta có thuật toán FCM cải tiến như trong bảng sau:

Bảng 2.2: Bảng thuật toán FCM cải tiến

Bước 1 Cho c:2 ≤ c < n; Cho : ; Cho sai số ε; Khởi tạo U(0)

Bước 2 Tính trung điểm phân cụm c với *

,

j j j bằng cách: For với mỗi thành phần k (k = 1 m)

- If σik là hằng Then tính vjk theo (2.21) và thay thế vào (2.18) để có

- Else:

 Giải hàm bậc hai (2.18 & 2.19) trong vjk với (m là số chiều của dữ liệu) và j = 1 m.

 Thay thế vjk trong (2.15) để xác định * j, hoặc tương tự (2.18). End Cập nhật khoảng cách ij sử dụng (2.7) và * , j j j Bước 3: Tính 1 U , sử dụng (2.16) và * , j j j tìm được ở bước 2

Bước 4: Nếu thì dừng, nếu không thì và

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Biểu thức trên rõ ràng mang giá trị dương vì cả i và *

j đều dương, đồng thờiy 0, ta sẽ chứng minh đầy đủ cho biểu thức (2.20).

- Tương tự, sử dụng biểu thức (2.12), thật dễ để thấy rằng

là một ma trận chéo của các phần tử dương, chúng thể hiện sự đầy

Một phần của tài liệu Ứng dụng phương sai trong phân cụm dữ liệu mờ (Trang 42 - 70)