Bài toán kinh điển dẫn đến việc khai phá luật kết hợp

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 32 - 33)

Bài toán giỏ mua hàng trong siêu thị.

Giả định chúng ta có rất nhiều mặt hàng, ví dụ như “bánh mì”, “sữa”,…(coi là tính chất hoặc trường). Khách hàng khi đi siêu thị sẽ bỏ vào giỏ mua hàng của họ một số mặt hàng nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua các mặt hàng nào đồng thời, chúng ta không cần biết khách hàng cụ thể là ai. Nhà quản lý dùng những thông tin này để điều chỉnh việc nhập hàng về siêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần nhau, hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khắc đỡ mất công tìm kiếm.

Bài toán này hoàn toàn có thể áp dụng trong các lĩnh vực khác. Ví dụ:

 Giỏ hàng = văn bản. Mặt hàng = từ. Khi đó, những từ hay đi cùng nhau sẽ giúp

ta nhanh chóng tìm ra các lối diễn đạt, hay các khái niệm có mặt trong văn bản.

 Giỏ hàng = văn bản. Mặt hàng = câu. Khi đó, những văn bản có nhiều câu giống nhau giúp phát hiện ra sự đạo văn, hay những “website đúp”.

Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất hiện thường xuyên một các đồng thời. Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước. Nói cách khác, thuật toán khai phá luật kết hợp cho phép tạo ra các luật mô tả các sự kiện xảy ra đồng thời (một cách thường xuyên) như thế nào. Các thuật toán này trải qua hai pha: pha đầu là đi tìm các sự kiện xảy ra thường xuyên, pha hai là tìm luật.[3]

Vấn đề khám phá luật kết hợp được phát biểu như sau:

 Cho trước tỉ lệ hỗ trợ và độ tin cậy

 Tìm tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ θ và độ tin cậy β lớn hơn tương ứng.

Ví dụ: Gọi D là sơ sở dữ liệu mua bán với θ = 40% và β = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau:

 Liệt kê tất cả những quy luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo

một số mục khác.

 Chỉ xét những quy luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.

Chúng ta hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một cơ sở dữ liệu về các yêu cầu của khách hàng. Giả sử công ty đó quan tâm đến mối quan hệ

“tuổi, giới tính, nghề nghiệp → sản phẩm”. Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Chẳng hạn, trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua hàng gì (ví dụ: áo dài) là nhiều nhất?. [2]

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 32 - 33)