3.1.2. Cây tìm kiếm duyệt theo hạng mục
Trong cách này, chúng ta xem xét tập hợp tất cả các hạng mục (cột) được sử dụng trong tập dữ liệu và do đó là sẽ tìm số lượng giao tác (hàng) của tập dữ liệu chứa các kết hợp khác nhau của các mục. Chúng ta gọi phương pháp này là phương pháp ngang và gọi các thuật toán liên quan của nó như là các thuật toán ngang.
Cây tìm kiếm được xây dựng từ các nút, mỗi nút được kết hợp từ các hạng mục trong tập dữ liệu ban đầu. Nút đầu tiên tương ứng mức 1 trên cây là nút gốc có giá trị rỗng. Mức thứ 2 gồm n nút (với n là số lượng hạng mục không trùng nhau trong tập dữ liệu), mỗi nút được biểu diễn bằng một hạng mục trong tập dữ liệu. Nếu gọi x là một nút ở mức thứ hai, ở mức thứ ba, các nút con của x sẽ được xây dựng bằng cách kết hợp x với một trong các hạng mục chưa xuất hiện trong x, tương tự cho các mức tiếp theo.
Ví dụ 3.1: Ta xét lại cơ sở dữ liệu giao tác của ví dụ 2.16 bảng 2.13. Cơ sở dữ liệu này có 4 mục được sắp xếp theo độ phổ biến tăng dần nếu trùng độ phổ biến thì sắp theo thứ tự từ điển. 1234 123 124 134 234 13 12 13 12 14 1 3 4 23 2 24 14 34 23 24 34
42
Mã giao tác Nội dung Tập dữ liệu D
1 a, b, c, e b, a, c 2 a, c, f, g a, c 3 b, d, h d, b 4 a, c, i, j, k a, c 5 a, b, l b, a 6 a, c, m, n a, c 7 b, c, p b, c 8 a, b, c, d, q, r d, b, a, c Bảng 3.1 Tập dữ liệu D được cắt tỉa với minsup=2.
Hình 3.3 trình bày cây tìm kiếm duyệt theo hạng mục với tập dữ liệu D bảng 3.1 có 4 hạng mục là d, b, a, c. Mở rộng mục d, b, a trong không gian tìm kiếm của thuật toán ngang của tập dữ liệu D bảng 3.1
Hình 3.3 Mở rộng mục d, b, c trong không gian tìm kiếm của thuật toán ngang của tập dữ liệu bảng 3.1
Hình 3.3 cho thấy không gian tìm kiếm của các thuật toán nằm ngang cho tập dữ liệu của bảng 3.1. Các thuật toán khai thác duyệt theo hạng mục thường được sử dụng để khai thác các tập dữ liệu có đặc điểm ít hạng mục và nhiều giao tác như các tập dữ liệu trong thương mại. Tuy nhiên, với các tập dữ liệu có đặc điểm số hạng mục thì nhiều nhưng số giao tác lại ít, thì các thuật toán khai thác dữ liệu duyệt theo hạng mục thường gặp phải hạn chế về không gian lưu trữ cũng như hiệu năng tính toán do
{} d b a c db da dc ba bc ac dba dac dbac bac
43 số lượng các ứng viên xuất hiện trong quá trình khai thác tăng theo cấp độ hàm mũ. Vì vậy, các thuật toán được xây dựng dựa theo cấu trúc cây tìm kiếm duyệt theo giao tác được xem là giải pháp khá hiệu quả đối với lớp bài toán này.
Trong luận văn này kết hợp phương pháp tiếp cận ngang với kỹ thuật phân chia để trị, sử dụng một số định nghĩa để thiết lập giao tác giữa số hàng và hạng mục trong tập dữ liệu được chia và để trích xuất các tập phổ biến từ tập dữ liệu rất lớn các hạng mục.
3.2. Phương pháp khai thác ngang
Trong chương này trình bày phương pháp khai thác ngang bao gồm: mô tả một số định nghĩa và ví dụ. Sau đó, trình bày thuật toán Mining Row Item Horizontal (MRIH).
3.2.1. Sử dụng phương pháp chia để trị trong khai thác ngang
Phương pháp khai thác ngang được xây dựng dựa trên phương pháp phân chia để trị. Trong cách tiếp cận này, chúng ta chia ra một tập dữ liệu dựa trên các mô hình phổ biến của của tập dữ liệu. Nhìn chung, chúng ta có thể phân chia các mô hình được khai thác của từng tập dữ liệu trong các loại khác nhau dựa trên các mục có trong mỗi mẫu. Với mục đích này, trước tiên chúng ta nên sắp xếp các mục trong mỗi giao tác theo thứ tự (thứ tự dựa trên các giá trị phổ biến tăng dần) và sau đó phân loại các mẫu phổ biến theo thứ tự như sau: Các mẫu có chứa mục đầu tiên (theo thứ tự chung) sẽ là các thành viên của thể loại đầu tiên, mẫu có chứa mục thứ hai và không chứa mục đầu tiên sẽ là thành viên của thể loại thứ hai, các mẫu có chứa mục thứ ba và không chứa các mục đầu tiên và thứ hai sẽ là thành viên của nhóm thứ ba và tiếp tục như vậy như vậy cho đến hết hạng mục.
Ví dụ 3.2: Ta xét lại cơ sở dữ liệu giao tác ví dụ 3.1 được cắt tỉa như bảng 3.1. Cơ sở dữ liệu này có 4 mục được sắp xếp theo độ phổ biến tăng dần nếu trùng độ phổ biến thì sắp theo thứ tự từ điển. Chúng ta có thể chia mô hình trích xuất của tập dữ liệu này thành 4 lớp khác biệt như sau:
1) Các mẫu chứa d.
2) Các mẫu có chứa b và không chứa d. 3) Các mẫu có chứa a và không chứa d và b. 4) Các mẫu chỉ chứa c.
44 Để sử dụng cách tiếp cận này trong việc khai thác mô hình phổ biến trên cơ sở dữ liệu giao tác, trước hết chúng ta sẽ xem xét một số định nghĩa và sau đó sẽ trình bày phương pháp theo chiều ngang.
3.2.2. Định nghĩa 1:
Tập dữ liệu theo thứ tự là một cơ sở dữ liệu giao tác mà các hạng mục của cơ sở dữ liệu giao tác được sắp xếp theo thứ tự tăng dần độ phổ biến, nếu trùng độ phổ biến thì xếp theo thứ tự từ điển.
Ví dụ 3.3: Ta xét lại bảng 3.1. Tập dữ liệu D là tập dữ liệu cắt tỉa với minsup=2, sắp xếp các hạng mục thứ tự tăng dần theo độ phổ biến, nếu trùng độ phổ biến thì xếp theo thứ tự từ điển.
3.2.3. Định nghĩa 2:
Loại bỏ hạng mục X trong cơ sở dữ liệu giao tác D: cho mỗi hạng mục X trong cơ sở dữ liệu giao tác D các hạng mục đã sắp xếp theo thứ tự, ta sẽ loại bỏ tất cả các mục trước X, mục X và tất cả các hàng không chứa X, ký hiệu X-cond D.
Ví dụ 3.4: