Chương 2 CƠ SỞ LÝ THUYẾT
3.1. Khai thác dữ liệu theo cấu trúc cây tìm kiếm
3.1.2. Cây tìm kiếm duyệt theo hạng mục
Trong cách này, chúng ta xem xét tập hợp tất cả các hạng mục (cột) được sử dụng trong tập dữ liệu và do đó là sẽ tìm số lượng giao tác (hàng) của tập dữ liệu chứa các kết hợp khác nhau của các mục. Chúng ta gọi phương pháp này là phương pháp ngang và gọi các thuật toán liên quan của nó như là các thuật toán ngang.
Cây tìm kiếm được xây dựng từ các nút, mỗi nút được kết hợp từ các hạng mục trong tập dữ liệu ban đầu. Nút đầu tiên tương ứng mức 1 trên cây là nút gốc có giá trị rỗng. Mức thứ 2 gồm n nút (với n là số lượng hạng mục không trùng nhau trong tập dữ liệu), mỗi nút được biểu diễn bằng một hạng mục trong tập dữ liệu. Nếu gọi x là một nút ở mức thứ hai, ở mức thứ ba, các nút con của x sẽ được xây dựng bằng cách kết hợp x với một trong các hạng mục chưa xuất hiện trong x, tương tự cho các mức tiếp theo.
Ví dụ 3.1: Ta xét lại cơ sở dữ liệu giao tác của ví dụ 2.16 bảng 2.13. Cơ sở dữ liệu này có 4 mục được sắp xếp theo độ phổ biến tăng dần nếu trùng độ phổ biến thì sắp theo thứ tự từ điển. 1234 123 124 134 234 13 12 13 12 14 1 3 4 23 2 24 14 34 23 24 34
42
Mã giao tác Nội dung Tập dữ liệu D
1 a, b, c, e b, a, c 2 a, c, f, g a, c 3 b, d, h d, b 4 a, c, i, j, k a, c 5 a, b, l b, a 6 a, c, m, n a, c 7 b, c, p b, c 8 a, b, c, d, q, r d, b, a, c
Bảng 3.1 Tập dữ liệu D được cắt tỉa với minsup=2.
Hình 3.3 trình bày cây tìm kiếm duyệt theo hạng mục với tập dữ liệu D bảng 3.1 có 4 hạng mục là d, b, a, c. Mở rộng mục d, b, a trong không gian tìm kiếm của thuật toán ngang của tập dữ liệu D bảng 3.1
Hình 3.3 Mở rộng mục d, b, c trong không gian tìm kiếm của thuật toán ngang của tập dữ liệu bảng 3.1
Hình 3.3 cho thấy không gian tìm kiếm của các thuật toán nằm ngang cho tập dữ liệu của bảng 3.1. Các thuật toán khai thác duyệt theo hạng mục thường được sử dụng để khai thác các tập dữ liệu có đặc điểm ít hạng mục và nhiều giao tác như các tập dữ liệu trong thương mại. Tuy nhiên, với các tập dữ liệu có đặc điểm số hạng mục thì nhiều nhưng số giao tác lại ít, thì các thuật toán khai thác dữ liệu duyệt theo hạng mục thường gặp phải hạn chế về không gian lưu trữ cũng như hiệu năng tính toán do
{} d b a c db da dc ba bc ac dba dac dbac bac
43
số lượng các ứng viên xuất hiện trong quá trình khai thác tăng theo cấp độ hàm mũ. Vì vậy, các thuật toán được xây dựng dựa theo cấu trúc cây tìm kiếm duyệt theo giao tác được xem là giải pháp khá hiệu quả đối với lớp bài toán này.
Trong luận văn này kết hợp phương pháp tiếp cận ngang với kỹ thuật phân chia để trị, sử dụng một số định nghĩa để thiết lập giao tác giữa số hàng và hạng mục trong tập dữ liệu được chia và để trích xuất các tập phổ biến từ tập dữ liệu rất lớn các hạng mục.