Khai phá luật kết hợp trọng số với phương pháp lấy- 123docz.net

, x ik }→ {x ik

2.4.2.3 Khai phá luật kết hợp trọng số với phương pháp lấy mẫu

Trong 2 thuật toán trê n, thời gian xử lý sẽ rất lớn nếu số lượng giao dịch cần xử lý quá lớn (do cần phải quét toàn bộ CSDL). Sử dụng phương pháp lấy mẫu để khắc phục điều này.

Kỹ thuật lấy mẫu

Kỹ thuật lấy mẫu ở đây là kỹ thuật lấy mẫu ngẫu nhiên được sử dụng trong các bài toán xác suất thống kê. Kỹ thuật ngẫu nhiên đơn giản SRS (Simple Random Sampling) là kỹ thuật chọn ngẫu nhiên n đ ơn vị từ N đơn vị. Mỗi cách lấy mẫu là một trong n cách, do đó xác suất của việc là 1 . Vấn đề chính là

n N

của kỹ thuật SRS là phải tính toán kích thước mẫu sao cho độ chính xác của mẫu là đảm bảo.

Để tính toán số lượng mẫu cần thiết, ta sẽ bắt đầu từ độ hỗ trợ của các tập mục. Gọi y là số lần xuất hiện của tập mục X trong cơ sở dữ liệu D, N là tổng số giao dịch. Xác suất chọn lựa giao dịch chứa X sẽ là:

Px = y /N (2.12)

Nói cách khác, xác suất chọn giao dịch chứa X sẽ là:

p = y /N (2.13)

Gọi n là số mẫu cần lấy. Khi kích thước phải đủ lớn, giả sử xác suất lựa chọn giao dịch là p, nghĩa là, p là một hằng đối với mỗi lần chọn. Điều này nói lên rằng xác xuất mà một mẫu chứa m lần xuất hiện của tập X sẽ là:

P ( y =m) =C n p

m (1 −

〈/ 2

Từ trên, với ước lượng pˆ =

với pˆ trung bình và có độ lệch là :

, giả sử rằng pˆ được phân phối chuẩn

n N − n N − 1 p(1 − p) n (2.15)

Với kỹ thuật lấy mẫu ngẫu nhiên đơn giản, ta chọn một số dư sai số (margin of error) d theo xác xấut ước lượng pˆ và hệ số rủi ro (risk factor) 〈

thỏa mãn :

Pr(| pˆ - p|) ≥ d)= 〈 (2.16)

Giá trị d biểu thị biên lỗi, còn 〈 biểu thị xác xuất ước lượng vượt qua ngoài biên d. Do sự phân phối chuẩn của pˆ , ta có:

d =Z 〈 2 N − n N − 1 p(1 − p) n (2.17)

Ở đây, Z〈/2 là một giá trị sao cho tích phân của mật độ chuẩn từ Z 〈/2 đến

∞ bằng 〈/2. Do đó: n = n0 1 + n0 N z 2 p(1 − p) n0 d 2 (2.18)

Trong công thức tính toán n trên, có tham 3 số chưa biết là d, 〈 và p. Giá trị cực đại của n0 tìm được khi p =1/2. Do đó, ta có tểh ấn định p =1/2 để tính cho n, nghĩa là:

z 2 1 N .Z 2

n = 〈 / 2 = 〈 / 2 (2.19)

4d 2 z 2 4d 2 N +Z 2

Thuật toán chọn mẫu 4d 2 N

Ý tưởng: Khi th ực hiệnxử lý, trước hết chọn mẫu ngẫu nhiên từ CSDL

Một số ký hiệu sử dụng trong thuật toán

Z : giá trị của Z〈/2

〈 : Hệ số rủi ro d : Biên lỗi

n : Kích thước mẫu

N : Tổng số giao dịch trong toàn bộ CSDL

S : Tập các giao dịch sau khi lấy mẫu (từ CSDL của mẫu) Ti : Giao dịch thử i

Vào: N, wminsup, minconf, d và 〈

Ra: Một danh sách các luật đáng quan tâm với hệ số rủi ro 〈

Thuật toán SRS

1) Thuật toán lấy mẫu (wminsup, minconf, D, w, 〈, d, n, N)

2) Z = Calculate(〈); N .Z 2 3) n = ; 4d 2 N +Z 2 4) for(i = 1; I ≤ n; i ++) a[i] = GenRamdom(N); 5) Sort(a);

6) for each transaction Ti in D (i = 1..N) 7) if (i = a[i])

8) S = S ∪ Ti

9) Execute(wminsup, minconf, S, w) Các thủ tục sử dụng trong thuật toán này:

Calculate(() : Tính toán giá trị Z〈/2 từ phân phối chuẩn

GenRandom(N): Sinh số nguyên ngẫu nhiên trong khoản g [1, N] Sort(a) : Sắp xếp mảng a theo thứ tự tăng dần

Execute(wminsup, minconf, S, w): Thực hiện một trong hai thuật toán MINVAL(O) hoặc MINVAL(W) trên tập mẫu các giao dịch S.

Khai phá luật kết hợp trọng số với phương pháp lấy mẫu

Các khái niệm cơ bản [18, 22]

Cách tiếp cận khai phá luật kết hợp