Phân chia không gian

b. Thuật toán sinh luật nhanh

2.3.3 Phân chia không gian

Thông thường người ta chia mỗi chiều thành một số phần cố định. Tuy nhiên với phương pháp này, khi số chiều tăng thì số grid tăng theo hàm mũ, trong khi mật độ trung bình của mỗi grid giảm nhanh. Phương pháp của chúng ta cố định số grid bất kể số chiều.

Cho một tập hạng mục I có n hạng mục, miền của chiều thứ k được phân chia thành mk khoảng (được xem là các khoảng cơ sở). Để đơn giản hoá, ta giả sử mỗi chiều được chia thành số các khoảng cơ sở giống nhau, nghĩa là mk = m ; k=1,2,…n, trong đó m là số nguyên dương. Khi đó, n

k n

k N mN =∏1≤ ≤ = N =∏1≤ ≤ =

là tổng số ô lưới trong không gian với mỗi ô lưới là một hình lập phương n chiều mà bề rộng mỗi chiều chính xác là một khoảng cơ sở. N là hằng số. Khi đó m là hàm của N và n. Giá trị m có thể khác nhau với các tập hạng mục khác nhau. Thêm nữa, số các counter trung bình cần cho mỗi tập hạng mục tương ứng tuyến tính với N. Một ưu điểm của phương pháp phân chia này là chúng ta có thể điều khiển một cách dễ dàng số các counter bằng cách thay đổi giá trị của N. Điều này cho chúng ta khả năng tận dụng hết ưu điểm của không gian lưu trữ sẵn có một cách linh động. Với một tập n hạng mục, chúng ta có m=

n N . Vì m nguyên, thay vì ép giá trị N duy nhất cho tất cả các tập hạng mục, chúng ta đặt biên trên Nˆ của N tương ứng với không gian sẵn có và với một tập n hạng mục đã cho, N phải là giá trị lớn nhất có thể (≤Nˆ ) mà làm cho n N

nguyên, N=n Nˆn khác nhau không đáng kể với các tập hạng mục khác

nhau. Hình 1(a) minh hoạ các phần không gian của một tập 2 hạng mục {fashion, sport} và tập 3 hạng mục {fashion, book, sport} với N=225. Do đó, mỗi chiều được chia thành  225=15 khoảng cho tập 2 hạng mục {fashion, sport} và được chia thành 3 225=6 khoảng cho tập 3 hạng mục {fashion, book, sport}. Chú ý rằng số chiều tăng, mặc dù khoảng trên mỗi chiều trở nên lớn hơn, số các giao dịch trung bình trong mỗi grid vẫn được duy trì xấp xỉ như cũ.

Mỗi grid tương ứng là một tập cụ thể hoá của I. Bất kỳ hộp nào trong không gian là sự kết hợp của các grid liền kề nhau, có dạng hình khối, cũng tương ứng duy nhất với tập cụ thể hoá của I. Với 2 tập hạng mục có trọng số bất kỳ I1, I2, nếu I1 là cụ thể hoá của I2 thì hộp tương ứng với I1 được bao hoàn toàn trong hộp tương ứng với I2. Chúng ta có thể hoán đổi thuật ngữ “box” (hộp) và “weighted itemset” (tập hạng mục có trọng số). Độ hỗ trợ của một box được định nghĩa là độ hỗ trợ của tập hạng mục có trọng số tương ứng.

Cho α là số các giao dịch trung bình mà hỗ trợ một grid.

ℜ= =

α . Mật độ của một grid được định nghĩa là tỉ số của độ hỗ trợ của grid này và α . Về

trực giác, mật độ có thể xem như biểu thị mức độ tập trung tương ứng của các giao dịch trong không gian. Một grid là đặc nếu mật độ của nó ở trên ngưỡng d, ở đây d là số thực nhỏ (d>1). Để giới hạn không gian tìm kiếm, chúng ta chỉ xem xét kỹ các grid đặc và vùng được tạo bởi các grid đặc. Một vùng đặc (dense region) là sự hợp nhất của một tập các ô lưới đặc liền kề. Mỗi hộp trong một vùng đặc tương ứng với một hộp đặc (dense box), là một ứng viên của tập hạng mục có trọng số phổ biến.

Cắt tỉa các counter

Xét các luật kết hợp có dạng X1X2…Xn-1 ⇒Xn. Nhận thấy với tập n

hạng mục, có thể có n luật (mỗi hạng mục có thể thoả mãn vế phải của luật). Để đánh giá độ tin cậy ta không chỉ cần các counter chính (primary counter) để ghi lại độ hỗ trợ của grid này, mà còn cần các counter, gọi là counter hình chiếu (projected counter), ghi lại độ hỗ trợ của các hình chiếu grid trên mỗi không gian (n-1) chiều, nghĩa là độ hỗ trợ của mỗi tập hạng mục bên trái có thể của WAR. Các counter này có thể tạo một lần cho các tập hạng mục khác

nhau. Ví dụ {fashion, sport, book} và {fashion, sport, houseware} có {fashion, sport} chung. Số các counter cần tạo ra để khai phá tất cả các WAR cho tất cả các tập phổ biến là rất lớn, chúng ta xem xét phương pháp cắt giảm số các counter dựa trên 2 thuộc tính hình học:

- Một grid n chiều b được phân chia cho counter chính không thể là dày đặc nếu một trong các hình chiếu b’ của nó lên một không gian n-1 chiều có độ hỗ trợ nhỏ hơn d x α. ví dụ trong hình 1(b), nếu grid bị che tối trên không gian {fashion, sport} có độ hỗ trợ nhỏ hơn d x α, grid 3 chiều bị che tối không thể là dày đặc.

- Với một grid n chiều b’ được chia (partition for) cho counter hình chiếu, cho φ(b’) là tập các grid n chiều mà được chia cho các counter chính và

chồng lấp lên b’. Trong hình 1(c), đường tối đặc viền quanh b’ và các grid bị che tạo thành φ(b’). b’ không thể dày đặc nếu độ hỗ trợ của φ(b’) nhỏ hơn d x

α.

Dựa trên 2 thuộc tính hình học này chúng ta sẽ thu thập các counter hình chiếu (từ tập n hạng mục) lên các tập n-1 hạng mục trước các counter chính của các tập n hạng mục và thu thập các counter chính của các tập n hạng mục trước các counter hình chiếu (từ các tập n+1 hạng mục) lên các tập n hạng mục. Từ đó, các counter của tất cả các tập phổ biến n hạng mục được xếp thành 2 mức: mức 2(n-1) và 2(n-1) +1. Hình 2.4 minh hoạ quá trình tạo các counter của tập tới khi thành {fashion, sport, book}.

Hình 2.4 Cắt tỉa các counter (Counter pruning).

2.3.4 Tạo ra các luật kết hợp có trọng số

Để tìm kiếm dải được kết hợp với mỗi hạng mục, chúng ta bắt đầu từ hộp bao nhỏ nhất của mỗi vùng dày đặc và rút ngắn lại theo hướng các luật lớn nhất. Ta có thể lấy một grid và phát triển theo các luật lớn nhất. Vì các luật lớn nhất thường có volume lớn, sự co lại theo hướng các luật lớn nhất, nói chung hiệu quả hơn gia tăng theo nó. Đây là giải thuật đầu tiên sử dụng co (shrink) thay vì grow trong khai phá các luật kết hợp hay phân cụm. Một shrinkage được định nghĩa là hành động giảm span của một hộp theo một chiều bằng chính xác một khoảng cơ sở. Với mỗi hạng mục, dải trọng số của nó có thể được co lại theo 2 hướng: tăng biên dưới hoặc giảm biên trên, do đó có 2n shrinkage khác nhau có thể áp dụng cho 1 tập n hạng mục có trọng số. Kết quả là có thể có 2n tập n hạng mục có trọng số mới được tạo ra. Ta gọi các tập này

là tập cụ thể hoá tức thời của tập ban đầu. Hay tập ban đầu là tập khái quát hoá tức thời của các tập mới được tạo ra này. Do đó mỗi tập hạng mục có trọng số (ngoại trừ các tập đó biểu diễn một grid đơn trên một số chiều của nó) có 2n tập cụ thể hoá tức thời. Nói cách khác, mỗi tập hạng mục có trọng số trừ tập mà biểu diễn toàn bộ miền có 2n tập khái quát hoá tức thời.

Hình 2.5 minh hoạ một ví dụ. Vùng dày đặc mà hộp bao nhỏ nhất của nó được chỉ ra trong hình 2.5(b) với các grid tối (tô đậm) và các grid sáng (không tô) là các grid dày đặc và các grid không dày đặc tương ứng. Hình 2.5(c) chỉ 6 hướng khác nhau để co một tập có trọng số 3 hạng mục bao gồm {fashion, sport, book} và các kết quả tương ứng của chúng.

Hình 2.5: Region shrinkage

Rõ ràng, mỗi hộp dày đặc có thể được tìm thấy bởi một shrinkage từ các tập khái quát tức thời của nó và do đó có thể được tìm thấy bởi một tập shrinkage từ hộp bao nhỏ nhất của vùng dày đặc. Giả sử rằng mỗi lần chúng ta có thể chỉ thực hiện một shrinkage trên một hộp ứng viên tại một thời điểm, toàn bộ quá trình có thể được xem là các thao tác tuần tự (Bj, Hj) (j=1,2,…)

với Bj là một hộp ứng viên và Hj là một shrinkage theo một số hướng. Cho ψj

là tập chứa hộp bao nhỏ nhất của vùng dày đặc (B1) và tất cả các hộp được tạo ra qua các thao tác (B1, H1),…(Bj-1, Hj-1). Vì vậy ψ j biểu diễn tập các hộp ứng

viên (để co hơn nữa) sẵn có trước thao tác thứ j. Rõ ràng, chúng ta có Bj∈ψ j

tại mỗi bước. Chuỗi dừng lại khi tất cả các WAR đã được tạo ra. Chú ý rằng tại mỗi bước, có nhiều hộp ứng viên trong ψj và các hướng co khác nhau để

chọn. Kết quả là các giải thuật khác nhau cho hộp ứng viên được chọn và hướng co có thể tạo ra chuỗi thao tác khác nhau và do đó có thể yêu cầu số các thao tác khác nhau trước khi tất cả các luật cần thiết được tạo ra. Do vậy, hiệu quả của giải thuật phụ thuộc vào lượng thời gian tiêu thụ tại mỗi bước và số các thao tác cần thiết.

Bởi mỗi tập hạng mục có trọng số I có 2n tập khái quát hoá tức thời, có 2n tập có trọng số khác nhau có thể tạo ra I bởi một shrinkage. Có thể dùng giải thuật vét cạn (brute force). Song giải thuật này không hiệu quả bởi thực tế một hộp có thể được kiểm tra nhiều lần qua các đường dẫn shrinkage khác nhau. Hình 2.6 là một ví dụ minh hoạ

Đường dẫn shrinkage “(a) (b)  (d)” là “giảm biên trên của chiều 2” sau đó “giảm biên trên của chiều 1” trong khi đường dẫn “(a)  (c)  (d)” là “giảm biên trên của chiều 1” sau đó “giảm biên trên của chiều 2”. 2 đường dẫn này là hoán vị của nhau. Khái quát, nếu nó có b shrinkage để tìm hộp B’ từ B (với B’ được bao bởi B) thì tồn tại b! đường dẫn shrinkage khác nhau. Để tránh tạo thừa các tập hạng mục có trọng số, chúng ta đưa ra một kỹ thuật shrinkage có thứ tự. Điều này bảo đảm rằng mỗi tập hạng mục có trọng số được tạo ra chính xác một lần.

Shrinkage có thứ tự

Đầu tiên chúng ta chọn một hoán vị, gọi là Ω, của 2n hướng co khác nhau và giữ lại thứ tự này trong suốt toàn bộ quá trình. Ví dụ, 6 hướng co trong hình 5(c) có thể được sắp xếp theo tăng biên dưới của chiều 1, giảm biên trên của chiều 1, tăng biên dưới của chiều 2, giảm biên trên của chiều 2, tăng biên dưới của chiều 3, giảm biên trên của chiều 3. Sau đó suốt quá trình co, một shrinkage của hướng thứ k trong chuỗi thứ tự Ω có thể thực hiện trên hộp B chỉ khi không có shrinkage của hướng sau hướng thứ k trong chuỗi đã được thực hiện để tạo ra B. Chúng ta gọi shrinkage như vậy là một shrinkage hợp lệ. Ví dụ nếu chúng ta lấy hộp trong hình 2.5(c)(4) làm ứng viên để tạo các tập hạng mục có trọng số mới (cũng được thể hiện trên hình 2.7(a)), theo thứ tự chúng ta lấy (pick), 3 hướng co có thể được áp dụng như minh hoạ trong hình 2.7(b). Hình 2.7(c) chỉ ra một trường hợp shrinkage không hợp lệ bởi việc giảm biên trên của chiều 1 không được phép sau khi giảm biên trên của chiều 2. Chú ý rằng hộp được thể hiện trong hình 2.7(c) có thể nhận được bằng một shrinkage hợp lệ từ tập khái quát hoá tức thời khác (trong hình 2.5(c)(2)) của nó như được chỉ ra trong hình 2.7(d). Rõ ràng là phương pháp shrinkage có

thứ tự này tránh hoàn toàn việc tạo thừa hộp trong phương pháp brute force trước đó.

Hình 2.7 Shrinkage có thứ tự

Chứng minh tính đúng đắn:

Bổ đề 6.1 Cho hai tập hạng mục có trọng số bất kỳ WI1 và WI2 với WI1 là tập cụ thể hoá của WI2. WI1 luôn có thể được tạo ra bằng cách thực hiện một chuỗi shrinkage có thứ tự trên WI2.

Cm: cho ( ' 1 l , ' 1 u ), ( ' 2 l , ' 2 u ),…,( ' n l , ' n

u ) và (l1, u1), (l2, u2),…,(ln, un) là các toạ độ của WI1 và WI2 trên mỗi chiều tương ứng. Sau đó ta có thể co WI2 thành WI1

bằng cách sau: đầu tiên co l1 thành l1’, rồi u1 thành u1’,… un thành un’.  đpcm.

Bổ đề 6.2. Với 2 tập hạng mục có trọng số bất kì WI1 và WI2, WI1 là tập cụ thể hoá của WI2. Tồn tại đúng một đường dẫn shrinkage hợp lệ từ WI2 thành WI1.

Cm: chúng ta giả sử điều ngược lại là đúng. Tồn tại 2 đường dẫn (P và Q) để co từ WI2 về WI1. Giả sử điểm khác nhau đầu tiên là tại bước P co biên trên (on) p trong khi Q co biên q và p < q, rồi sau bước này, trong Q, p không thể co được hơn nữa đối với thứ tự Ω. Kết quả là Q và P không thể rút gọn tới cùng một hộp  đpcm.

2.3.5 Cấu trúc dữ liệu và giải thuật

Nếu tất cả các luật kết hợp lớn nhất được người sử dụng yêu cầu, một hàng đợi có thể được sử dụng để duy trì tập hộp ứng viên (ψ ). Chúng ta lấy ra một

hộp ở đầu hàng đợi để kiểm tra và sau khi rút gọn, các hộp mới được gắn thêm một cách dễ dàng vào cuối hàng đợi. Giải thuật kết thúc khi tất cả các luật kết hợp có trọng số lớn nhất thoả mãn ngưỡng độ hỗ trợ và độ tin cậy được tìm thấy.

Một sự tối ưu hoá tức thời là mỗi khi một luật thoả mãn nào đó được lấy ra từ một hộp, chúng ta sẽ loại bỏ nó ra khỏi tập hộp ứng viên và không thực hiện rút gọn trên tập này nữa. Thêm vào đó, khi tất cả các shrinkage cần thiết được thực hiện trên một hộp, hộp này sẽ không được duy trì trong tập hộp ứng viên ψ nữa để ψ ngắn gọn và hiệu quả hơn

Tuy nhiên, nếu người sử dụng chỉ cần một số (chẳng hạn g) WAR maximum với volume lớn nhất, chúng ta có thể chọn cấu trúc dữ liệu khác phụ thuộc vào g có là một số nhỏ tương đối hay không (so sánh với số lượng tất cả các WAR lớn nhất thoả mãn điều kiện). Nếu g là một số nhỏ, có thể tối ưu hoá giải thuật tổng quát bằng cách lấy hộp có khối lượng lớn nhất trong tập các ứng viên ψ để khảo sát tại mỗi bước j. Một cấu trúc đống (heap) sẽ làm cho

quá trình như vậy thuận lợi hơn. Một lượng phí nhất định là cần thiết để duy trì đống.

Các khái niệm

Phương pháp tổng quát