2.4.1. Luật kết hợp có thuộc tính số
Phần trước đã cung cấp tổng quan về luật kết hợp nhị phân, trong đó các mục chỉ có thể được biểu diễn bởi các giá trị Boolean. Trong thực tế, CSDL không chỉ chứa các thuộc tính nhị phân, mà còn chứa các thuộc tính số và hạng mục mà không thể được khai phá bằng các kỹ thuật cổ điển. Phát hiện các luật có loại thuộc tính như vậy được gọi là bài toán luật kết hợp có thuộc tính số. Các miền giá trị của một giao dịch là một tập con các số thực chứ không phải là {0,1}.
Để xử lý dữ liệu số, luật kết hợp có thuộc tính số đã được đề xuất như là một mở rộng của luật kết hợp nhị phân, trong đó các thuộc tính nhị phân có thể được coi là một trường hợp đặc biệt của các thuộc tính hạng mục.
Khai phá luật kết hợp với thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule) là một trong những hướng tiếp cận quan trọng trong lĩnh vực khai phá luật kết hợp (sẽ được đề cập ở mục 2.5). Dạng luật này được đề xuất nghiên cứu lần đầu tiên trong [27].
Bảng dữ liệu sau đây minh họa một CSDL bao gồm các thuộc tính số (quantitative), và thuộc tính hạng mục (categorical).
Ngày gọi Giờ bắt đầu Thời gian đàm thoại Phương thức gọi(1,0) Loại cước (1,2,3,4,5,6) Cước cuộc gọi 01/07 10:25:48 00:00:47 1(nhân công) 3(Di động) 712 07/07 09:45:31 00:17:06 1 1(Nội hạt) 3436 16/07 15:40:43 00:00:10 0(tự động) 4(DV1080) 636 16/07 15:41:23 00:09:25 1 1 1818 16/07 15:42:25 00:01:36 1 2 1454 23/07 06:52:37 00:02:44 1 1 2485 26/07 07:29:57 00:00:55 1 1 833 28/07 07:08:30 00:03:14 1 3 3527 29/07 06:30:00 00:00:15 0 4 820 30/07 11:42:45 00:01:10 1 1 350 30/07 14:12:48 00:03:25 1 3 3768
Bảng 2.4. CSDL chi tiết của 9 cuộc gọi điện thoại
Trong CSDL trên: Thời gian đàm thoại và Giờ bắt đầu gọi là thuộc tính số, Loại cước là thuộc tính hạng mục. Với CSDL này, chúng ta có thể rút ra một số luật kết hợp sau:
<Giờ bắt đầu: 07:00:00 ..22:59:59 > AND <Thời gian đàm thoại: 00:00:30 .. 00:20:00> AND <Phương thức gọi: Nhân công> → <Loại cước: Nội hạt>, với độ hỗ trợ 55.5% (5/9) và độ tin cậy 83.3% (5/6).
Hướng tiếp cận được đề xuất trong [27] nhằm tìm kiếm luật kết hợp dạng nêu trên bằng cách phân khoảng miền giá trị của các thuộc tính số và thuộc tính hạng mục để chuyển tất cả về thuộc tính nhị phân, sau đó áp dụng các thuật toán điển hình khi phá luật kết hợp nhị phân trước đây.