Khai phá luật kết hợp (Assocition Rules)

Một phần của tài liệu Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt (Trang 25 - 27)

2.2.1. Giới thiệu

Với việc sử dụng máy quét, các siêu thị lớn và các cửa hàng đã thu thập được một số lượng lớn các hồ sơ giao dịch của khách hàng trong cơ sở dữ liệu của họ. Mỗi bản ghi là một danh sách tất cả các mặt hàng đã mua của một khách hàng trên một giao dịch mua duy nhất. Người quản lý sẽ quan tâm đến việc có một số các mặt hàng luôn được mua cùng với nhau.

Một doanh nghiệp có thể sử dụng kiến thức về các mô hình mua bán để cải thiện vị trí của các mặt hàng này trong các cửa hàng hoặc bố trí các trang thư đặt hàng và các trang web.

Nhu cầu này đã dẫn đến sự phát triển của các kỹ thuật mà tự động tìm kiếm sự kết hợp giữa các mặt hàng đã được lưu trữ trong cơ sở dữ liệu. Luật kết hợp là một trong những kỹ thuật phổ biến nhất của khai thác dữ liệu cho các mô hình khám phá địa phương trong các hệ thống học không giám sát.

Một giỏ hàng đề cập đến một tập hợp các mặt hàng được mua bởi một khách hàng trong một lần giao dịch duy nhất. Ở đây, ta không quan tâm đến số lượng các mặt hàng của một loại được mua trong một giao dịch mà chỉ quan tâm đến các loại mặt hàng khác nhau nào đã được mua cùng nhau.

Mục đích là để tìm ra tập các mặt hàng (itemsets) mà xuất hiện cùng nhau trong nhiều giao dịch. Nói cách khác là, muốn khám phá những sự kết hợp quan trọng giữa các mặt hàng mà sự hiện diện của một số mặt hàng trong một giao dịch sẽ bao hàm sự hiện diện của một số mặt hàng khác trong cùng một giao dịch. Các luật kết hợp cung cấp thông tin dưới hình thức các câu lệnh if-then. Các quy tắc này được tính toán từ các dữ liệu, và không giống như các quy tắc if-then của logic, các luật kết hợp là xác suất trong tự nhiên. Trong liên kết phân tích tiền đề (if là một phần của các câu lệnh If-then) và kết quả (phần then) thì tập các mặt hàng là rời nhau (không có bất kỳ một mặt hàng nào là chung). Ngoài các tiền đề và kết quả, một luật kết hợp có hai con số quan trọng biểu diễn mức độ có ích và không chắc chắn về nguyên tắc. Hai con số này phải được xác định trước bởi các chuyên gia đã biết rõ về doanh nghiệp.

Số đầu tiên được gọi là số hỗ trợ cho luật. Giá trị hỗ trợ là số lượng giao dịch trong D mà bao gồm tất cả các mặt hàng trong các tiền đề và các kết quả của quy tắc. Lấy giá trị hỗ trợ chia cho |D| ta được số hỗ trợ s và s thường được biểu diễn dưới dạng tỷ lệ phần trăm.

Các số khác được biết đến như độ tin cậy của các quy tắc. Độ tin cậy là tỷ lệ số lượng các giao dịch bao gồm tất cả các mặt hàng trong các kết quả cũng như tiền đề (cụ thể là số hỗ trợ) với số lượng các giao dịch bao gồm tất cả các mặt hàng trong tiền đề.

Ví dụ, nếu một cơ sở dữ liệu của siêu thị đã giao dịch ở 100 000 điểm bán hàng, trong đó có 2 000 điểm bao gồm cả hai mặt hàng A và B và 800 trong số này bao gồm mặt hàng C, các luật kết hợp là: "Nếu A và B được mua thì sau đó C cũng được mua trong cùng một lần" có giá trị hỗ trợ của 800 giao dịch (do đó số hỗ trợ là 800/100000=0,8%) và độ tin cậy là 40% (= 800 / 2,000).

Một cách để suy nghĩ số hỗ trợ là xác suất mà một giao dịch được lựa chọn ngẫu nhiên từ cơ sở dữ liệu sẽ bao gồm tất cả các mục trong tiền đề và kết quả, trong khi độ tin cậy chính là xác suất có điều kiện mà 1 giao dịch được lựa chọn ngẫu nhiên sẽ bao gồm tất cả các mặt hàng trong kết quả giao dịch bao gồm tất cả các mặt hàng trong tiền đề.

Cho 1 tập toàn bộ các mặt hàng khác nhau được tìm thấy trong cơ sở dữ liệu D được đưa ra bởi tập I= {i1, i2,...,in}

Tập hợp này tương ứng với toàn bộ những mặt hàng khác nhau mà công ty đã bán. Cơ sở dữ liệu D là một tập hợp các giao dịch nơi mà mỗi giao dịch T là một tập các mặt hàng T I, nghĩa là T là một tập con của I. Mỗi giao dịch được xác định bởi một nhãn được gọi là một định danh giao dịch - TID.

Lấy A là một tập các mặt hàng. Một giao dịch T là chứa A nếu và chỉ nếu A T. Luật kết hợp chính là được biểu diễn dưới hình thức A C, trong đó A I và C

I và A C = , A là tiền đề và C là kết quả.

Luật kết hợp A C chứa số hỗ trợ s, trong đó s là tỷ lệ phần trăm của giao dịch trong D mà có chứa A C, tức là hợp của 2 tập A và C. Đó chính là xác suất P(A C).

Luật kết hợp A C có độ tin cậy c trong giao dịch D trong đó c là tỷ lệ phần trăm của các giao dịch trong D có chứa A và cũng chứa C. Đó chính là xác suất có điều kiện, P(C | A).

Quy tắc này thoả mãn cả hai ngưỡng hỗ trợ tối thiểu (min_sup) và ngưỡng độ tin cậy tối thiểu (min_conf) được gọi là độ bền vững.

Một tập các mặt hàng có số hỗ trợ lớn hơn ngưỡng hỗ trợ quy định tối thiểu, min_sup, được gọi là một tập các mặt hàng phổ biến. Tập hợp tất cả các mặt hàng k phổ biến ở trong D thường được ký hiệu là Lk.

Một phần của tài liệu Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt (Trang 25 - 27)