Bài toán khai thác tập mục lợi ích cao

Một siêu thị bán lẻ kinh doanh hàng trăm sản phẩm khác nhau từ các nhà cung cấp. Họ bày bán các sản phẩm theo các khu vực khác nhau, việc sắp xếp này phụ thuộc vào các chiến lược kinh doanh, kích thích người mua. Mỗi sản phẩm được bán ra sẽ đem lại một giá trị lợi nhuận xác định được tính là chênh lệch giữa giá bán và giá mua. Mỗi khách hàng vào siêu thị mua một vài sản phẩm với số lượng nhất định, tập hợp sản phẩm khách hàng mua này sẽ đem lại một giá trị lợi nhuận cho siêu thị, được gọi là một giao dịch. Tất cả các giao dịch sẽ được siêu thị lưu trữ lại, tạo ra một cơ sở dữ liệu giao dịch. Những người lãnh đạo siêu thị muốn tìm ra các tập hợp sản phẩm mà khách hàng đã mua đem lại lợi nhuận (ví dụ: 30% tổng lợi nhuận) cho siêu thị, từ đó đưa ra các chiến lược kinh doanh, tiếp thị như xếp các mặt hàng này cạnh nhau, đưa ra các chương trình khuyến khích khách hàng mua sản phẩm này thì sẽ mua thêm một sản phẩm khác trong tập các sản phẩm đã tìm ra. Bài toán HUIM đã được nhóm tác giả R.C. Chan, Q. Yang, Y.D. Shen đề xuất vào năm 2003. Cùng với sự phát triển của nền kinh tế, nhu cầu tính toán doanh thu, hiệu quả kinh doanh theo thời gian thực với lượng dữ liệu lớn ngày càng trở nên cấp thiết.

Danh sách các giao dịch Giá trị lợi nhuận

T1 a:1,c:18,e:1 a 3$ T2 b:6,d:1,e:1,f:1 b 9$ T3 a:2,c:1,e:1 c 1$ T4 d:1,e:1 d 5$ T5 c:4,e:2 e 6$ T6 b:1,f:1 f 1$ T7 b:10,d:1,e:1 T8 a:3,c:25,d:3,e:1 T9 a:1,b:1,f:3 T10 b:6,c:2,e:2,f:4

Bảng 2.1: Danh sách giao dịch và bảng lợi nhuận của từng sản phẩm

Việc xác định tổ hợp sản phẩm với số lượng bán ra có lợi nhuận cao hơn một ngưỡng cho trước có ý nghĩa tính toán doanh thu và đặt ra chiến lược kinh doanh.

Mô hình toán học của bài toán được phát biểu như sau:

Cho:

- I = {i1, i2,. . . , im} là một tập hợp hữu hạn của m mục khác biệt.

- D = {T1, T2,. . . , Tn} là một tập các giao dịch, Tq ∈ D (1 ≤q ≤ n) là một tập hợp con của I và có một số nhận dạng duy nhất q, được gọi là TID. Với mỗi ij

trong một giao dịch Tq có số lượng được biểu thị là q (ij, Tq).

- Một bảng lợi nhuận ptable = {pr(i1), pr(i2),. . . , pr(im)} cho biết giá trị lợi nhuận của mỗi khoản ij, giá trị lợi nhuận là chênh lệch giữa giá mua và giá bán.

- δ là ngưỡng tiện ích tối thiểu theo tùy chọn của người dùng.

Trong Bảng 2.1, có 10 giao dịch và 6 mặt hàng khác nhau, được biểu thị từ (a) đến (f). Giá trị lợi nhuận (tiện ích bên ngoài) của mỗi mục được hiển thị dưới dạng bảng lợi nhuận = {a: 3, b: 9, c: 1, d: 5, e: 6, f: 1}. Ngưỡng tiện ích tối thiểu được đặt là (δ = 30%).

Định nghĩa 1: Lợi ích của một item ij trong một giao dịch Tq được ký hiệu là u(ij, tq), và được định nghĩa là:

𝑢(𝑖𝑗, 𝑇𝑞) = 𝑞(𝑖𝑗, 𝑇𝑞) × 𝑝𝑟(𝑖𝑗)

Trong đó: q là số lượng ij trong Tq, pr là lợi nhuận của ij.

Ví dụ, lợi ích của các item (a), (c) và (e) trong giao dịch T1 được tính tương ứng:

u(a, T1) = q(a, T1) × pr(a) = 1 × 3 = 3; u(c, T1) = q(c, T1) x pr(c) = 18 × 1 = 18 u(e, T1) = q(e, T1) × pr(e) = 1 × 6 = 6

Định nghĩa 2: Lợi ích của một itemset X trong giao dịch Tq được ký hiệu là u (X, Tq), và được định nghĩa như sau:

𝑢(𝑋, 𝑇 𝑞) = ∑ 𝑢(𝑖𝑗, 𝑇𝑞)

𝑖𝑗⊆𝑋∧𝑋⊆𝑇𝑞

Ví dụ, tiện ích của itemset (ac) và (ace) trong giao dịch T1 được tính tương ứng:

u(ac, T1) = u(a, T1) + u(c, T1)

= q(a, T1) × pr(a) + q(c, T1) × pr(c) = 1 × 3 + 18 × 1 = 21

u(ace, T1) = u(a, T1) + u(c, T1) + u(2, T1)

29 = 1 × 3 + 18 × 1 + 1 × 6 = 27

Định nghĩa 3: Lợi ích của một itemset X trong cơ sở dữ liệu D được biểu diễn là u(X), và được định nghĩa là:

𝑢(𝑋) = ∑ 𝑢(𝑋, 𝑇𝑞)

𝑋⊆𝑇𝑞∧𝑇𝑞∈𝐷

Ví dụ, lợi ích của các itemset (b) và (bc) trong D tương ứng được tính như sau: u(b) = u(b, T2) + u(b, T6) + u(b, T7) + u(b, T9) + u(b, T10)

= 54 + 9 + 90 + 9 + 54 = 216 u(bc) = u(bc, T10) = 56

Định nghĩa 4: Lợi ích của một giao dịch Tq được ký hiệu là tu(Tq), và được định nghĩa là:

𝑡𝑢(𝑇𝑞) = ∑ 𝑢(𝑋, 𝑇𝑞)

𝑋⊆𝑇𝑞

Ví dụ:

tu(T1) = u(a, T1) + u(c, T1) + u(e, T1) = 3 + 18 + 6 = 27. Các giao dịch từ T2 đến T10 được tính tương ứng là:

tu(T2) = 66, tu(T3) = 13, tu(T4) = 11, tu (T5) = 16, tu(T6) = 10, tu(T7) = 101, tu(T8) = 55, tu(T9) = 15, tu(T10) = 72.

Định nghĩa 5: Tổng lợi ích của một cơ sở dữ liệu D được biểu thị là TU, và được định nghĩa như sau:

𝑇𝑈 = ∑ 𝑡𝑢(𝑇𝑞)

𝑇𝑞∈𝐷

Ví dụ, tổng lợi ích trong cơ sở dữ liệu D được tính như sau: TU = 27 + 66 + 13 + 11 + 16 + 10 + 101 + 55 + 15 + 72 = 386

Định nghĩa 6: Một itemset X trong một cơ sở dữ liệu D là một HUI nếu và chỉ nếu tiện ích của nó là không ít hơn ngưỡng lợi ích tối thiểu được tính là:

𝐻𝑈𝐼 ← {𝑋|𝑢(𝑋) ≥ 𝑇𝑈 × 𝛿}

Ví dụ, lợi ích của tập (b) và (bc) được tính tương ứng là: u(b) = 216 và u(bc) = 56.

Như vậy, itemset (b) là một HUI vì u(b) = 216> 386 × 0.3 = 115.8 Itemset (bc) không phải là HUI vì u(bc) = 56 <115.8

Dựa trên các định nghĩa trên, chúng ta xác định vấn đề của HUIM theo các tác giả [4,5]. Ta có D là một cơ sở dữ liệu giao dịch định lượng, bảng lợi nhuận của nó và một ngưỡng hữu ích tối thiểu cho người sử dụng cụ thể δ. Vấn đề của HUIM từ D là tìm tập các tập thuộc tính lợi ích cao, trong đó lợi ích của một itemset X không nhỏ hơn (TU × δ).

Bài toán khai thác tập mục lợi ích cao

Kết quả thực nghiệm và đánh giá