Các đặc điểm nổi bật và thuật toán DF

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 50 - 56)

Chúng ta muốn phân cụm một mẫu gồm n đối tượng On từ tập ON rất lớn, tương đương với việc phân cụm trong ma trận con Dn của DN. Lược đồ lấy mẫu tăng dần đã được đề cập tới là một sự sửa đổi phù hợp của lược đồ dữ liệu đối tượng trong [11]. Để sử dụng phương pháp này, ta phải xem xét dữ liệu quan hệ như dữ liệu đối tượng liên quan đến cột thứ i Dicủa DN(tương đương với dòng thứ i, bởi vì DN là ma trận đối xứng) như một vectơ đặc trưng cho đối tượng oi. 1 2

, , , N .

N

D  D DD  Bất kỳ một bản đồ chỉ đường nào cũng có một bảng cho biết khoảng cách giữa các cặp thành phố trên bản đồ là một quan hệ thuộc kiểu này một cách chính xác. Với cách giải thích này, Di tương ứng với vị trí của thành phố i(= đối tượng oi) bằng việc chỉ rõ, thay vì nói các tọa độ vuông của nó - khoảng cách của nó tới N 1 thành phố khác (tức là N 1 khoảng cách giữa thành phố i và các thành phố khác trên bản đồ là các “đặc trưng” của nó).

Chúng ta nên sử dụng các đặc điểm nào trong N như là các đặc điểm nổi

bật? Đến lúc này, không có lý thuyết nào chỉ ra một cách tối ưu cho việc lựa chọn các đặc điểm nổi bật, nhưng chúng ta tin rằng việc lựa chọn các đặc điểm nổi bật là hợp lý khi các đặc điểm đó rất khác so với các đặc điểm còn lại. Điều này dẫn tới việc lựa chọn các hàng (tương ứng với việc chọn các đặc điểm nổi bật) cũng rất khác nhau. Thực hiện điều này bằng cách chọn các hàng tương ứng với các đối tượng không giống nhau (rất phi tương tự). Chọn h, số các đặc điểm nổi bật được chọn, và H, giới hạn các đặc điểm nổi bật chỉ đến từ các hàng từ 1 đến H của D. Giới hạn này cho phép phần lựa chọn các đặc điểm nổi bật của eNERF được thực hiện chỉ với phần đầu H x H của D, là phần có thể nạp được

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

Thuật toán DF (chọn h đặc điểm nổi bật từ H hàng của DN) Chọn: h = số đặc điểm nổi bật được chọn

H = số dòng ứng viên cho h đặc điểm nổi bật, hH.

Vào: Một ma trận phi tương tự DH cỡ H x H (đương nhiên H<N)

(DF 1) Định nghĩa m1 = 1 với đặc điểm nổi bật đầu tiên tương ứng với hàng

đầu tiên của D. Khởi tạo mảng tìm kiếm

1 1 1 1

1 2 11 1

[ , ,...,H]T [d ,...,dH]T

 

.

(DF 2) Định nghĩa m2 = j khi 1jk1 với 1kH . Với m3, chúng ta muốn một hàng rất phi tương tự đối với cả 2 hàng m1 và m2, tương ứng với một đối tượng ở xa so với cả

1 m o và 2 m o . (DF 3) Định nghĩa mảng tìm kiếm tiếp theo

2 2 2 2 2 2 1 1 1 2 1 1 [ , ,...,H]T [ min{ , dm },...,min{H, dm H}]T  

(DF 4) Định nghĩa m3 = i, khi i2 k2 với 1kH

(DF 5) Sau j bước, sử dụng mảng tìm kiếm

1 1 1 2 1 1 [ , ,..., ] [ min{ , },...,min{ , }] j j j j j j T j j T H dm H dm H    để chọn đặc

trưng thứ j+1 là dòng trong số các ứng viên còn lại mà chỉ số (index) của nó đạt tới giá trị lớn nhất của j

.

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

viên còn lại mà chỉ số của nó đạt tới giá trị lớn nhất của j

. Các ràng buộc (ties) có thể bị phá vỡ bởi bất kỳ một quy tắc nào nếu không có một đối số giảm thiểu duy nhất ở giai đoạn nào đó. Tại sao sử dụng thuật ngữ “đặc điểm nổi bật”? Thuật toán DF là một thuật toán lựa chọn đặc điểm, nhưng thường không dùng theo nghĩa thông thường là nhận dạng mẫu, nghĩa là, chúng ta không lựa chọn các đặc điểm tốt (good) cho thiết kế phân lớp hoặc phân cụm, mà đúng hơn là, ta đang lựa chọn các đặc điểm nổi bật cho lấy mẫu tăng dần. Đó là hi vọng, tất nhiên là những đặc trưng này sẽ giúp chúng ta tìm được các cụm tốt trong D,

nhưng chất lượng của các đặc trưng cho phân cụm không xác định lựa chọn của chúng. Tuy nhiên, có thể liên hệ đến thuật toán DF để phân cụm trong D theo

cách cụ thể này.

Để thấy rằng thuật toán DF là hợp lý dưới dạng lấy mẫu các cụm tiềm năng, ta liên hệ nó với chỉ số tách của Dunn cho bất kỳ phân hoạch rõ của N đối tượng. Chỉ số của Dunn [8] dựa trên những xem xét hình học được thiết kế để nhận dạng các tập có các cụm tròn trịa và tách biệt nhau. Để hiểu chỉ số này, gọi S và

T là các tập con không rỗng hữu hạn của p, và đặt d: p x p là ma trận bất kỳ trên p. Đường kính của S và khoảng cách giữa S và T theo thứ tự là:

 , ( ) max{ ( , )} S dia S d   x y x y (2.11)

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn và: ( , ) min{ ( , )} S T dist S T d    x y x y (2.12)

Đặt U là một c-phân hoạch rõ của N đối tượng thành c tập C1,…,Cc và đặt [ ]

Ddij là ma trận N x Ncác cặp phi tương tự giữa các đối tượng. Dunn đã định nghĩa chỉ số tách (separation index) của U là:

   1 1 1 ( , ) ( ) min min max{ (C )} i j i c j c k j i k c dist C C sep U dia                            (2.13)

Cực đại sep(U) của U sẽ cực đại hóa khoảng cách giữa các cụm trong khi

cực tiểu hóa các khoảng cách trong một cụm. Trong các nghiên cứu về cụm hợp lệ, một c-phân hoạch U mà cực đại hóa sep(U) trên các giá trị khác nhau của c

được lấy như giá trị tối ưu của c. Chú ý rằng sep(U) không xác định khi c1 hoặc cn. Dunn đã gọi U tròn trịa và tách được (compact and separated:CS) liên quan tới d nếu và chỉ nếu các ràng buộc sau được thỏa mãn: với mọi s, q, r

qr, bất kỳ cặp điểm x y, Cs cùng gần (với d) hơn bất kỳ cặp cặp u, v với

q C

uvCr. Dunn đã chứng tỏ rằng X có thể được phân cụm thành một

c-phân hoạch tròn trịa và tách được đối với d nếu và chỉ nếu

max { }>1

hcn

U Msep(U) . Ta thấy rằng phương pháp để lựa chọn c đặc điểm nổi bật đầu tiên là phù hợp với định nghĩa của Dunn, bằng cách hiển thị là khi

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

1

{o ,...,o }

H H

O  có c cụm tròn trịa và tách được, c đặc điểm nổi bật đầu tiên được chọn bởi lược đồ chỉ liệt kê chọn một mẫu từ mỗi một trong các cụm.

Định lý DF [7]. Nếu OH có c cụm tròn trịa và tách được, thì c đặc điểm nổi

bật đầu tiên được chọn bởi thuật toán DF sẽ bao gồm một dòng tương ứng với

một đối tượng từ một trong c cụm.

Chứng minh:

Gỉa sử chúng ta có thể phân hoạch OH {o ,...,o }1 H thành c2 cụm CS:

1, 2,...., c

C C C . Để thuận tiện, ta ký hiệu số thứ tự của các cụm bằng một chỉ số trên trong dấu ngoặc đơn, ví dụ (2)

7

o cho biết đối tượng thứ 7 là ở trong cụm thứ hai được phân tách tốt. Bởi vì các cụm là trọn trịa và tách được, nên có:

( ) ( ) ( ) ( )

kp ( ki , pi ) ( ki , jh ) kj

dd o od o od với mọi 1 i hc (2.14)

và có thể áp dụng với k, p, j.

Trước hết ta chọn đối tượng o1, không mất tính tổng quát, giả sử o1 thuộc về

C1. Khi đó mảng tìm kiếm ban đầu 1

được định nghĩa là 1 1 1 1 11 1 [ ( , ),..., ( ,d o o d o oH)]T [d ,...,d H]T  

Sau đó áp dụng công thức (2.14) với i1, ta thấy thành phần lớn nhất trong

1

(và do đó việc lựa chọn đặc điểm nổi bật thứ hai) phải tương ứng với một đối tượng trong C2,....,Cc (nhưng không trong C1). Điều này hoàn tất việc chứng minh cho c2, và bây giờ tiếp tục cho trường hợp c3. Gỉa sử giá trị lớn nhất xuất hiện trong thành phần thứ hai của 1

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

tiếp tục giả sử o2 thuộc về cụm được phân tách C2. Mảng tìm kiếm 2 được cập nhật là 2 1 1 1 21 2 [ min{ ,d },...,min{H,d H}]T

Gỉa sử rằng một thành phần lớn nhất được tìm thấy ở vị trí thứ ba và o3 là đối tượng thứ 3 được chọn m3 3 . Ta sẽ chứng minh bằng phản chứng rằng o3

không thể thuộc về C1 hoặc C2.

Việc chứng minh bằng phản chứng được bắt đầu bằng giả sử rằng o3 thuộc về C1 hoặc C2, giả sử là C1. Lựa chọn o3 có nghĩa là

1

3 23 1 3 2 3 1 2

min{ ,d }  min{ ( , ), ( , )} d o o d o o  min{ ( , ), ( , )}d o oj d o oj

với mọi j=1,…,n (2.15) Nhưng phương trình (2.15) có nghĩa là:

1 3 1 2

( , ) min{ ( , ), ( , )}j j

d o od o o d o o với mọi j=1,…,n (2.16) Bây giờ, đặt j4 là chỉ số bất kỳ mà ojkhông thuộc về C1 và C2 (ít nhất tồn tại một giá trị j vì c3 và với k = 1, 2, 3 chúng ta có okC1C2). Không mất tính tổng quát, giả sử rằng j4 thỏa mãn bất đẳng thức (2.16) với o4C3, và do đó d o o( , )1 4 d o o( , )2 4 . Khi đó, bất đẳng thức (2.16) cho

1 3 1 4

( , ) ( , )

d o od o o với o1C o1, 3C1 và o4C3; nhưng điều này mâu thuẫn với phương trình (2.14) khi ik 1, ph3 và j4. Vì vậy đối tượng thứ ba đã chọn phải không ở trong những cụm đại diện trước đó. Lặp lại đối số này cho

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 50 - 56)

Tải bản đầy đủ (PDF)

(111 trang)