II. NỘI DUNG
2.4.3 Khai phá luật kết hợp định lượng
Luật kết hợp định lượng là luật kết hợp đa chiều trong đó các con số của thuộc tính được rời rạc hóa trong quá trình khai phá để đáp ứng một số tiêu chuẩn khai phá, như làm cho độ tin cậy của luật kết hợp là chặt nhất. Trong phần này, chúng ta sẽ tập trung đến việc làm thế nào để khai phá các luật kết hợp định lượng có hai thuộc tính định lượng về phía bên trái của luật, và một thuộc tính xác đinh ở bên phải của luật, ví dụ:
Aquan1 ^ Aquan2 ⇒ Acat
0-D (apex) cuboid
1-D cuboid
2-D cuboid
Ví dụ, chúng ta tìm hiểu về mối quan hệ liên kết giữa các cặp thuộc tính định lượng, như tuổi và thu nhập khách hàng , và loại truyền hình mà khách hàng muốn mua. Một ví dụ về một hiệp hội định lượng 2-D quy tắc là
age(X; “30-34") ^ income(X; “42K - 48K") ⇒ buys(X; “high resolution TV") Làm thế nào để tìm ra luật như vậy? Hãy nhìn vào một phương pháp được sử dụng trong một hệ thống gọi là ARCS (Hệ thống gộp nhóm luật kết hợp) trong đó lấy ý tưởng từ quá trình xử lý hình ảnh. Về bản chất, cách tiếp cận cặp bản đồ thuộc tính định lượng vào một lưới 2-D cho những bộ dữ liệu thỏa mãn một điều kiện thuộc tính xác định. Từ lưới đó tìm kiếm cụm điểm, từ đó các luật kết hợp được tạo ra. Các bước sau đây được suy ra từ ARCS: các thuộc tính định lượng có thể có một vùng rất rộng của các phạm vi miền giá trị của chúng. Nếu như chúng ta biểu diễn trên lưới 2-D mỗi điểm của tất cả các giá trị của thuộc tính thu nhập trên một trục và tuổi tác trên trục khác thì lưới đó quá lớn. Để giảm kích thước của lưới xuống để có thể quản lý, ta sẽ phân vùng các phạm vi của các thuộc tính định lượng vào các đoạn. Những đoạn này là động và có thể được tiếp tục kết hợp trong quá trình khai phá.
income 71-80K 61-70K 51-60K 41-50K 31-40K 21-30K <=20K 32 33 34 35 36 37 38 age
Hình sau cho thấy một lưới 2-D cho các luật kết hợp 2-D dự đoán các điều kiện buy(X,”high resolution TV")
Ta có 4 luật sau:
age(X; 34) ^ income(X; “30 - 40K") ⇒ buys(X; “high resolution TV") (6.1)
age(X; 35) ^ income(X; “30- 40K") ⇒ buys(X; “high resolution TV") (6.2)
age(X; 34) ^ income(X; “40 - 50K") ⇒ buys(X; “high resolution TV") (6.3)
Chúng ta có thể lần thứ một quy tắc đơn giản để thay thế bốn quy tắc trên không? Nhìn vào lưới ta thấy 4 quy tác này khá gần gũi và tạo thành 1 cụm trên lưới nên ta có thể nhóm thành một luật. Thật vậy, bốn luật có thể được kết hợp với nhau để tạo thành luật sau (6.5) dưới đây, một quy tắc đơn giản mà đã gộp lại và thay thế bốn luật trên.
age(X; “34 - 35") ^ income(X; “30 - 50K") ⇒buys(X; “high resolution
TV") (6.5)