Lấy mẫu tăng dần và thuật toán PS

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 56 - 60)

Tiêu chuẩn để chấp nhận On dựa trên việc so sánh sự phân bố các đặc điểm

nổi bật được tìm thấy bởi thuật toán DF trong các cột tương ứng với OnON

bằng cách sử dụng thống kê kiểm định phân kỳ (divergence test statistic). Lược đồ tốt nhất được minh họa bởi một ví dụ nhỏ, được hiển thị trong hình 2.5, ở đó ta mô tả một ma trận phi tương tự D8 cỡ 8 x 8 trong các hình vuông, và hai (lựa chọn tùy ý) đặc điểm nổi bật m1 = đặc điểm 1 vàm2 = đặc điểm 7. Bây giờ hãy tưởng tượng rằng mẫu ứng viên hiện tại là O3 = {o2, o4, o8}. Về bản chất, ta sẽ chấp nhận O3 như một mẫu đại diện cho O8 nếu đối với mỗi đặc điểm nổi bật mk, sự phân bố của các giá trị nổi bật O3(tương ứng với các ô được tô trong hàng mk) gần xấp xỉ với phân bố của các giá trị nổi bật tương ứng đối với toàn bộ mẫu (tương ứng với tất cả các thành phần trong hàng mk). Cụ thể hơn, ta sẽ chấp nhận

O3 nếu lược đồ của (d12,d14,d18) đủ gần với (0,d12,d13,d14,d15,d16,d17,d18) và lược đồ của (d72,d74,d78) xấp xỉ gần với (d71,d72,d73,d74,d75,d76, 0,d78). Xấp xỉ là “đủ gần”

khi thống kê kiểm định phân kỳ là ở đuôi trái của phân phối chi-bình phương

phù hợp với mỗi đặc điểm nổi bật.

Trong phần dưới cùng của hình 2.5, chúng ta đã rút ra các giá trị có liên quan cần thiết cho các kiểm định phân kỳ và hiển thị chúng như vectơ p (các giá trị mẫu) và q (các giá trị “quần thể”). Mẫu sẽ được chấp chận nếu và chỉ nếu

div(p1,q1) VÀ div(p7,q7) cùng bé hơn hoặc bằng 1

(1 )

F

 , trong đó F là hàm phân phối tích lũy cho phân phối chi-bình phương với b-1 bậc tự do (b

được thảo luận ở dưới). Việc sử dụng một kiểm định dựa trên lược đồ để chấp nhận các yêu cầu lựa chọn các khoảng biểu đồ.

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn o2 o4 o8 DF m1 = 1  0 d12 d13 d14 d15 d16 d17 d18 d21 0 d23 d24 d25 d26 d27 d28 d31 d32 0 d34 d35 d36 d37 d38 d41 d42 d43 0 d45 d46 d47 d48 d51 d52 d53 d54 0 d56 d57 d58 d61 d62 d63 d64 d65 0 d67 d68 DF m2 = 7  d71 d72 d73 d74 d75 d76 0 d78 d81 d82 d83 d84 d85 d86 d87 0 Các giá trị mẫu  (d12 d14 d18) = p1 Các giá trị (Pop.)  (0 d12 d13 d14 d15 d16 d17 d18) = q1 div(p1,q1) Các giá trị (Pop.)  (d71 d72 d73 d74 d75 d76 0 d78) = q7 Các giá trị mẫu  (d72 d74 d78) = p7 div(p7,q7)

Hình 2.5 Kiểm tra kết thúc lấy mẫu tăng dần sử dụng DFs 1 và 7 cho các đối tượng mẫu

2, 4 và 8.

Đặt b biểu thị cho số khoảng mong muốn của lược đồ. Các độ rộng

của các khoảng lược đồ (histogram interval widths) chỉ được dựa trên các giá trị đặc điểm nổi bật của mẫu ban đầu, và các độ rộng khác nhau, khi cần thiết, mỗi khoảng lược đồ giữ lại (gần như có thể) cùng một số mẫu quan sát ban đầu. Để ký hiệu đơn giản, ta giảm mức thứ hai của những chỉ số dưới và đặt d(1) d(2) ...d( )n biểu thị trình tự các số liệu thống kê cho các giá trị của đặc điểm nổi bật mk từ các cột của D tương ứng với một

mẫu ban đầu

1 2

{o ,o ,...,o }

n

n i i i

O  . Sau đó b khoảng của các lược đồ được sử

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

(1+[ ) (1+ ), (1+ ) (1+ ) , (1+ ) (1+ ( -1) ) ),

[0, d n / b] ),[dn / bd2n / b ),[d2n / bd3n / b ), . . . , (db n / b )

         

ở đây    biểu thị cho hàm trần, việc tham khảo các khoảng theo cách này như là các khoảng chấp nhận được, bởi vì các khoảng chia dữ liệu mẫu một cách chính xác, gần như bằng nhau và thành b khoảng. Khi khoảng được chọn bằng

cách sử dụng On ban đầu, các khoảng tương tự được sử dụng - chúng không được định nghĩa lại - cho tất cả các mẫu ứng viên được lấy thêm sau đó. Ví dụ, giả sử rằng mẫu ban đầu là

1 2

45 {o ,o ,...,o }i i i45 (adsbygoogle = window.adsbygoogle || []).push({});

O  với 45 giá trị được lưu trữ tương ứng d(1) d(2) ...d(45) cho đặc điểm nổi bật mk. Khi đó, với b4, các khoảng được chia thành 4 là [0,d(13)),[d(13),d(24)),[d(24),d(35)), và [d(35), ) . Gỉa sử 45 giá

trị dữ liệu đều rõ ràng, (gần bằng nhau) tương ứng số lượng trong bốn khoảng là 12, 11, 11 và 11.

Có thêm một vấn đề liên quan đến ma trận dữ liệu mẫu sẽ được đưa đến LNERF cho phân cụm. Khi

1 2

{o ,o ,...,o }

n

n i i i

O  , tương ứng với các cột của Dn

được chấp nhận, sau đó chính xác những gì dữ liệu được chuyển tới phần phân cụm mẫu của eNERF? Mẫu được sử dụng bởi LNERF bao gồm tập tất cả các cặp phi tương tự của các đối tượng trong

1 2

{ , ,..., }

n

i i i

o o o coi như một mảng là một ma trận con cỡ n x n của toàn bộ ma trận mẫu DN. Ký hiệu ma trận con này bởi Dn, với phần tử

jk

n

d là cặp phi tương tự giữa các đối tượng mẫu

j i ok i o . Ví dụ, nếu mẫu được chấp nhận là

1 2 3

3 { ,i i , } = { , , }i 2 4 8

Oo o o o o o như trong hình 2.5, thì ma trận dữ liệu mẫu phi tương tự sẽ được xử lý bởi LNERF là:

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn 24 28 42 48 82 84 0 0 0 d d d d d d          

Nhớ lại rằng chúng ta đặt F ký hiệu cdf cho phân phối chi-bình phương với -1

b bậc tự do. Lược đồ lấy mẫu được đưa ra trong thuật toán sau.

Thuật toán PS: Lấy mẫu tăng dần quan hệ (Relational Progressive Sampling)

Vào: Một ma trận phi tương tự D cỡ h x N. Các dòng của D tương ứng với h

đặc điểm nổi bật {m1, m2,…, mh} được chọn bằng việc chạy thuật toán DF trên DH.

Các ràng buộc: D thỏa mãn điều kiện (dij 0;dijdji;dii 0)

Chọn: b = số khoảng lược đồ (number of histogram intervals)

p = tỉ lệ phần trăm mẫu ban đầu (initial sample percentage) của N. (adsbygoogle = window.adsbygoogle || []).push({});

p

 tỉ lệ phần trăm tăng (incremental percentage)

PS

điều kiện dừng (termination criterion)

(PS 1). Lấy ngẫu nhiên (không thay thế) n (pN) / 100 cột chỉ số  1, ,2 , 

n n

Ic cc từ IN 1, 2,,N.

(PS 2) For k = 1 to h: xác định các khoảng (bins) lược đồ EC cho đặc điểm nổi bật mkvới 1 2 { , ,..., } k k k n m c m c m c d d d . (PS 3) For i = 1 to b, for k = 1 to h:

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

Tính Nik, tập đầy đủ cho số khoảng i và mk, sử dụng hàng mk của D. Tính nik, số lượng mẫu cho khoảng i và mk, sử dụng

1 2

{ , ,..., }

k k k n

m c m c m c

d d d

(PS 4) For k = 1 to h: Tính điều kiện kiểm định phân kỳ (divergence test criterion) cho đặc điểm nổi bật mk:

1 ln k k k b i i i k k i i N n nN div n N n Nn                 (2.17)

(PS 5) While (divkF1(1PS) với ít nhất một giá trị k{1 2, ,...,h})

min{ , ( ) / 100}:

n N n pN n n n

      

Chọn ngẫu nhiên D ( n) các cột chưa được chọn trước đó của D

n n

DD  D, thêm n cột vào Dn cũng như thêm n dòng vào Dn

Tính: 1 ln ; 1, 2,..., k k k b i i i k k i i N n nN div n k h N n Nn                  END WHILE

Output: Ma trận phi tương tự Dn cỡ n x n

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 56 - 60)