lxxxvi
Các kết quả ở bảng 3.6 thu được bằng cách sử dụng SAS, thủ tục CATMOD. Để so sánh bảng 3.6 với bảng 3.5, chú ý rằng tỷ số chênh bằng exp(4tham số tương tác trong bảng 3.6). Do đó tỷ số chênh ngưỡng bằng 2 trong bảng 3.5 tương ứng với một giá trị ngưỡng của tham số tương tác trong bảng 3.6 là ln2
0,1732
4 . Vì vậy ta có thể chọn các tham số tương tác vượt qua được ngưỡng này.
Từ bảng 3.6 chỉ ra rằng tất cả các tương tác được tìm thấy trong bảng 3.5 vẫn mạnh đáng kể, ngoại trừ (rice, pasta), (brioches, ice cream) và (crackers, juices) chúng có tỷ số chênh ước lượng thấp hơn 2 một chút. Hơn nữa có 14 kết hợp dương mạnh nữa: 9 trong số chúng là tinned meat kết hợp với coke, crackers, juices, oil, tomato sauce, beer, frozen vegetables, frozen fish và ice cream; 3 trong số chúng là ice cream kết hợp
với frozen vegetables, rice và frozen fish; 2 kết hợp cuối cùng là (mozzarella, rice) và
(crackers, rice). Bảng 3.6 cho thấy rằng khơng có các tương tác âm nào đáng kể.
3.1.4.2. Các quy tắc kết hợp
Cách phổ biến nhất để phân tích dữ liệu giỏ thị trường là sử dụng các quy tắc kết hợp – một phương pháp khai thác dữ liệu địa phương (cục bộ). Ta bắt đầu với một thiết lập đơn giản. Xét các sản phẩm ice cream và coke. Để nghiên cứu sự kết hợp giữa hai sản phẩm này thì tập dữ liệu có thể được rút gọn về bảng sự kiện hai chiều như bảng 3.4. Điều này cho thấy giá của quy tắc “Nếu ice cream, thì coke” là
Giá (ice cream coke) = 170 0,0036
46727
Giá = 0,0036 có nghĩa là chỉ có 0,36% các giao dịch được xét sẽ có cả ice cream và coke trong giỏ. Giá của một quy tắc kết hợp có tính đối xứng, tức là giá của quy tắc “Nếu coke, thì ice cream” =0,0036.
Độ tin cậy của một quy tắc phụ thuộc vào thân và đầu của quy tắc: Độ tin cậy (ice cream coke) = 170 0, 22
lxxxvii Tương ứng với tần số điều kiện hàng thứ 2 của coke = 1.
Độ tin cậy (coke ice cream) = 170 0,034
4949
Tương ứng với tần số điều kiện cột thứ 2 của ice cream = 1.
Trong trường hợp thứ nhất, nó là tỉ lệ giữa những người mua ice cream trong số những người mua coke. Trường hợp thứ hai, nó là tỉ lệ giữa những người mua coke trong số
những người mua ice cream.
Như vậy giá của quy tắc được xét khá nhỏ – ice cream và coke hiện diện chỉ trong
0,36% các giao dịch, do đó các kết luận dựa trên giá có thể khơng phải là giá trị thực tế lắm. Kết luận này là tương đối; nó cịn phụ thuộc vào giá của các quy tắc khác. Để có được một bức tranh tồn diện hơn về các quy tắc kết hợp, bây giờ ta chuyển tới một ứng dụng đầy đủ của mơ hình hóa quy tắc kết hợp. Thuật toán Apriori là một quy tắc giá ngưỡng = 0,05 giá(mode) , ở đây mode là quy tắc có giá cực đại trong số tất cả các quy tắc ở một cấp xác định, dẫn tới việc chọn một số quy tắc liên quan.