Giới thiệu bài toán

Một phần của tài liệu Khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ (Trang 50)

Bài toán khai phá dữ liệu để tìm luật kết hợp thể hiện mối liên quan trong việc mua sắm của người tiêu dùng từ bảng dữ liệu nhị phân đã được nghiên cứu từ lâu. Trong đó, các mặt hàng có vai trò như nhau, vì chúng chỉ được đại diện bởi các hai giá trị duy nhất là 1 và 0, thể hiện cho việc chúng có được mua hay không được mua trong một giao dịch của khách hàng. Vậy khi nhà quản lý siêu thị cho rằng: trong các giao dịch, việc mặt hàng bán với số lượng cao phải có ý nghĩa hơn mặt hàng bán với số lượng ít ỏi (như việc bán 10 chiếc máy giặt phải được quan tâm hơn việc bán 1 chiếc máy giặt). Nhưng bài toán 0 và 1 lại không hề thể hiện sự khác nhau đó. Câu hỏi đặt ra là: Bài toán khai phá cơ sở dữ liệu giao dịch với giá trị không chỉ còn là 0 và 1 mà là các con số thể hiện số lượng các item giao dịch trong giao tác được thực hiện như thế nào và có sự khác biệt so với bài toán khai phá bảng giao dịch nhị phân ra sao?

Trong [14], Hilderman và các cộng sự đã đề xuất bài toán khai phá “tập mục cổ phần cao” vào năm 1997 (thuật ngữ “Tập mục cổ phần cao” được tác giả Nguyễn Huy Đức sử dụng trong [2, 5, 6] dịch từ thuật ngữ tiếng Anh “share measures”). Trong mô hình này, giá trị của các mục dữ liệu là một con số, số đó có thể là một số nguyên dương như số lượng đã bán của một mặt hàng. “Cổ phần (hay đóng góp) của một tập mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu” [2]. Tỷ lệ đóng góp này được đo bằng tổng giá trị của tập mục trên tổng giá trị của toàn bộ bảng giao tác. Khai phá tập mục cổ phần cao là việc tìm ra tất cả các tập mục có cổ phần không nhỏ hơn một ngưỡng quy định bởi người sử dụng.

Khai phá tập mục phổ biến và khai phá tập mục cổ phần cao cho ra các kết quả khác nhau từ cùng một bảng dữ liệu. Kể cả đối với bảng dữ liệu khai phá là bảng nhị phân, kết quả này cũng không phải là giống nhau.

Ví dụ với bảng dữ liệu nhị phân sau:

TID Bánh mì Trứng Bia

2 1 1 1 0

3 1 0 1 0

4 1 0 0 0

Với ngưỡng hỗ trợ là 55%, các tập mục phổ biến tìm thấy là: {Bánh mì} (100%), {Trứng} (75%), {Bánh mì, Trứng} (75%).

Nhưng với ngưỡng cổ phần là 55%, các tập mục cổ phần cao tìm thấy lại là: {Bánh mì, Bơ, Trứng} (60%).

Trong khai phá tập mục phổ biến truyền thống, các thuật toán chủ yếu dựa vào tính chất đặc biệt của tập mục phổ biến là tính chất Apriori (mọi tập con của tập phổ biến đều là tập phổ biến – mọi tập cha của tập không phổ biến đều là tập không phổ biến). Tuy nhiên, trong mô hình khai phá tập mục cổ phần cao, tính chất này không còn đúng nữa. Như ví dụ bên trên, tập mục {Bánh mì, Bơ, Trứng} là tập mục cổ phần cao, trong khi các tập con của nó lại không phải là tập mục cổ phần cao. Vì lý do đó, việc rút gọn không gian tìm kiếm trong khai phá tập mục cổ phần cao không thể thực hiện như đối với khai phá tập mục phổ biến.

Từ năm 1997 trở lại đây, các nhà khoa học đã đề nghị một số thuật toán khai phá tập mục cổ phần cao như các thuật toán ZP, ZSP, SIP, FSM, AFSM… Trong đó thuật toán AFSM được TS Nguyễn Huy Đức cải tiến từ thuật toán FSM làm cho việc khai phá tất cả các tập mục cổ phần cao từ cơ sở dữ liệu giao tác cho trước hiệu quả và nhanh hơn [6].

Một phần của tài liệu Khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ (Trang 50)

Tải bản đầy đủ (PDF)

(73 trang)