7. Bố cục luận văn
2.3. MỘT SỐ ĐỊNH NGHĨA CỦA BÀI TOÁN
Ví dụ: Cho một CSDL giao tác D, I= {A, B, C, D, E, F, G} lưu trữ dữ liệu bán hàng được biểu diễn như sau:
Bảng 2.1. Cơ sở dữ liệu giao tác
TID Transactions T1 (A,1) (C,1) (D,1) T2 (A,2) (C,6) (E,2) (G,5) T3 (A,1) (B,2) (C,1) (D,6) (E,1) (F,5) T4 (B,4) (C,3) (D,3) (E,1) T5 (B,2) (C,2) (E,1) (G,2)
Trong bảng 2.1 mô tả số liệu bán hàng cho 7 mặt hàng và 5 giao tác mô tả mỗi lần giao dịch. Giá trị biễu diễn sau các tên hàng chính là số lượng bán của các mặt hàng trong mỗi lần giao dịch được gọi là giá trị hữu ích nội (internal utility)của mỗi mục trong mỗi giao tác.
Trong bảng 2.1, giá trị hữu ích nội của A trong giao tác T2 là 2
Bảng 2.2. Biểu diễn giá trị lợi nhuận của các mục trong CSDL
Item A B C D E F G
Profit 5 2 1 2 3 1 1
Trong bảng 2.2 đại diện cho lợi nhuận bán hàng của mỗi mặt hàng chính là giá trị hữu ích ngoại (external utility)trong CSDL giao tác D.
Ví dụ: Trong bảng 2.2, giá trị hữu ích ngoại của mục A là 5
Định nghĩa 1: Giá trị hữu ích của mục (item) ij trong giao tác Td, ký hiệu u(ij, Td) được xác định như sau:
u(ij, Td) = q(ij, Td) * p(ij) Trong đó:
+ p(ij) là giá trị hữu ích ngoại Ví dụ: Trong bảng 2.1 và bảng 2.2 u(C, T1) = 1 * 1 = 1 u(B, T4) = 4 * 2 = 8 u(C, T4) = 3 * 1 = 3 u(D, T3) = 6 * 2 = 12
Định nghĩa 2: Giá trị hữu ích của tập mục (itemset) X trong giao tác Td, ký hiệu u(X, Td) bằng tổng giá trị hữu ích của tất cả các mục chứa X trong giao tác Td.
u(X, Td) = ∑ijX ˄ X Td u(ij, Td)
Ví dụ: Trong bảng 2.1 và bảng 2.2, tính độ hữu ích của tập mục {AC} trong giao tác T1, T2.
u(AC,T1) = u(A,T1) + u(C,T1) = 1 * 5 + 1 * 1 = 6 u(AC, T2) = u(A,T2) + u(C,T2) = 2*5 + 6*1 = 16
Định nghĩa 3: Giá trị hữu ích của tập mục X trong CSDL giao tác D, ký hiệu u(X) được xác định bằng tổng các giá trị hữu ích của X trong tất cả các giao tác chứa X trong D.
u(X) = ∑ u(X, Td)
Td D ˄ X ∈ Td
Ví dụ: Trong bảng 2.1 và bảng 2.2, tính giá trị hữu ích của tập mục {ACD}, {BE} trong CSDL giao tác D.
u(ACD) = u(ACD, T1) + u(ACD, T3) = (1*5 + 1*1 + 1*2) + (1*5 + 1*1 + 6*2) = 26
u(BE) = u(BE, T3) + u(BE, T4) + u(BE, T5) = 7 + 11 + 7 = 25
Định nghĩa 4: Một tập mục X được gọi là tập mục hữu ích cao nếu giá trị hữu ích của X lớn hơn hoặc bằng ngưỡng hữu ích tối thiểu minutil do người dùng quy định u(X) ≥ minutil. Ngược lại, X được gọi là tập mục hữu ích thấp.
Định nghĩa 5: Bài toán khai phá tập mục hữu ích cao – High Utility Itemset Mining (HUIM) là bài toán tìm tất cả các tập mục có giá trị hữu ích cao lớn hơn hoặc bằng ngưỡng hữu ích tối thiểu.
H = {X | X I, u(X) ≥ minutil} Trong đó:+ I là tập mục trong CSDL giao tác.
+ H tập hợp các tập mục hữu ích cao.
Ví dụ: Trong bảng 2.1 và bảng 2.2, kiểm tra tập mục {BDE} có phải là tập mục hữu ích trong CSDL giao tác không? Với minutil = 30.
- u(BDE) = u(BDE, T3) + u(BDE, T4) = 22 + 17 = 36 ≥ minutil, vậy {BDE} là tập mục hữu ích cao.
- u(BD) = 30 ≥ minutil, {BD} là tập mục hữu ích cao.
- u(B) = 16, u(D) = 19, u(E) = 15; u(DE) = 24, u(BE) = 25, vậy các mục B, D, E, DE, BE là tập mục hữu ích thấp.
Theo tính chất của tập mục phổ biến: Nếu một tập mục là tập mục phổ biến thì mọi tập con khác rỗng của nó cũng là tập mục phổ biến.
Đối với các ứng dụng phân tích thị trường, vấn đề khai phá tập mục hữu ích cao chính là tìm tất cả các bộ mặt hàng tạo ra một khoản lợi nhuận không nhỏ so với giá trị nhà kinh doanh đưa ra. Khai phá tập mục hữu ích cao không thể áp dụng tính chất Apriori để rút gọn không gian tìm kiếm. Vì các tập mục con khác rỗng của tập hữu ích cao không phải là tập hữu ích cao. Xét ví dụ trên thì tập mục {BDE} là tập hữu ích cao nhưng tập mục con B, D, E không phải là tập hữu ích cao.