Chương 2 CƠ SỞ LÝ THUYẾT
3.2. Phương pháp khai thác ngang
Trong chương này trình bày phương pháp khai thác ngang bao gồm: mô tả một số định nghĩa và ví dụ. Sau đó, trình bày thuật toán Mining Row Item Horizontal (MRIH).
3.2.1. Sử dụng phương pháp chia để trị trong khai thác ngang
Phương pháp khai thác ngang được xây dựng dựa trên phương pháp phân chia để trị. Trong cách tiếp cận này, chúng ta chia ra một tập dữ liệu dựa trên các mô hình phổ biến của của tập dữ liệu. Nhìn chung, chúng ta có thể phân chia các mô hình được khai thác của từng tập dữ liệu trong các loại khác nhau dựa trên các mục có trong mỗi mẫu. Với mục đích này, trước tiên chúng ta nên sắp xếp các mục trong mỗi giao tác theo thứ tự (thứ tự dựa trên các giá trị phổ biến tăng dần) và sau đó phân loại các mẫu phổ biến theo thứ tự như sau: Các mẫu có chứa mục đầu tiên (theo thứ tự chung) sẽ là các thành viên của thể loại đầu tiên, mẫu có chứa mục thứ hai và không chứa mục đầu tiên sẽ là thành viên của thể loại thứ hai, các mẫu có chứa mục thứ ba và không chứa các mục đầu tiên và thứ hai sẽ là thành viên của nhóm thứ ba và tiếp tục như vậy như vậy cho đến hết hạng mục.
Ví dụ 3.2: Ta xét lại cơ sở dữ liệu giao tác ví dụ 3.1 được cắt tỉa như bảng 3.1. Cơ sở dữ liệu này có 4 mục được sắp xếp theo độ phổ biến tăng dần nếu trùng độ phổ biến thì sắp theo thứ tự từ điển. Chúng ta có thể chia mô hình trích xuất của tập dữ liệu này thành 4 lớp khác biệt như sau:
1) Các mẫu chứa d.
2) Các mẫu có chứa b và không chứa d. 3) Các mẫu có chứa a và không chứa d và b. 4) Các mẫu chỉ chứa c.
44
Để sử dụng cách tiếp cận này trong việc khai thác mô hình phổ biến trên cơ sở dữ liệu giao tác, trước hết chúng ta sẽ xem xét một số định nghĩa và sau đó sẽ trình bày phương pháp theo chiều ngang.
3.2.2. Định nghĩa 1:
Tập dữ liệu theo thứ tự là một cơ sở dữ liệu giao tác mà các hạng mục của cơ sở dữ liệu giao tác được sắp xếp theo thứ tự tăng dần độ phổ biến, nếu trùng độ phổ biến thì xếp theo thứ tự từ điển.
Ví dụ 3.3: Ta xét lại bảng 3.1. Tập dữ liệu D là tập dữ liệu cắt tỉa với minsup=2, sắp xếp các hạng mục thứ tự tăng dần theo độ phổ biến, nếu trùng độ phổ biến thì xếp theo thứ tự từ điển.
3.2.3. Định nghĩa 2:
Loại bỏ hạng mục X trong cơ sở dữ liệu giao tác D: cho mỗi hạng mục X trong cơ sở dữ liệu giao tác D các hạng mục đã sắp xếp theo thứ tự, ta sẽ loại bỏ tất cả các mục trước X, mục X và tất cả các hàng không chứa X, ký hiệu X-cond D.
Ví dụ 3.4:
Hình 3.4 Loại bỏ mục d, b, a, c của tập dữ liệu D
Tập dữ liệu D b, a, c a, c d, b a, c b, a a, c b, c d, b, a, c d-cond D b b, a, c b-cond D a, c a c a, c c-cond D NULL a-cond D c c c c c
45
3.2.4. Định nghĩa 3:
Loại bỏ Y|X trong cơ sở dữ liệu giao tác Y-cond D: chúng ta có thể định nghĩa loại bỏ Y|X tương tự như định nghĩa 2 như sau: loại bỏ tất cả các mục trước X, mục X và tất cả các hàng không chứa X trong cơ sở dữ liệu giao tác Y-cond D, ký hiệu Y|X-cond.
Ví dụ 3.5:
Hình 3.5 Loại bỏ b|a, b|c của tập dữ liệu cắt tỉa b-cond
Như vậy, mỗi hạng mục phổ biến có thể được trích xuất từ tập dữ liệu loại bỏ X, chứa mục X. Bằng chứng, dựa vào định nghĩa 2, ta thấy tất cả các hàng không chứa X được loại bỏ khỏi tập dữ liệu loại bỏ X. Vì vậy, đối với mỗi hàng của tập dữ liệu loại bỏ X, X có xuất hiện trong hàng. Do đó, nếu tần số của tập Y bằng hoặc lớn
hơn minsup, cho tất cả chúng, mục X có mặt và X Y là một mẫu phổ biến.
Kết quả là chúng ta có thể trích xuất tất cả các mẫu phổ biến có chứa X và không chứa các mục trước X trong tập dữ liệu thứ tự từ loại bỏ X. Vì chúng ta đã chia mô hình trích xuất của cơ sở dữ liệu sang một số lớp khác nhau dựa trên các mục chứa hoặc thiếu, chúng ta có thể sử dụng kết quả này để trích xuất tập hợp tất cả các mẫu phổ biến của tập dữ liệu tương ứng.
Ví dụ 3.6: Hình 3.4 thể hiện mức đầu tiên của phương pháp khai thác theo chiều ngang trên cơ sở dữ liệu giao tác của bảng 3.1. Hình 3.5 cho thấy dữ liệu đã loại bỏ b, loại bỏ a, và c đã loại bỏ. Vậy ta thấy rằng mỗi mẫu được trích xuất phổ biến từ tập dữ liệu loại bỏ X đã chứa mục X.