Khai phỏ luật kết hợp định lƣợng là quỏ trỡnh khai phỏ cỏc luật kết hợp cho cỏc CSDL với cỏc thuộc tớnh cú giỏ trị khụng đơn giản là giỏ trị nhị phõn. Đối với cỏc luật kết hợp định lƣợng XY, X và , X và Y cú thể là sự kết hợp của cỏc giỏ trị nhị phõn, phõn loại, khoảng số.
Luật kết hợp định lƣợng gồm cú 2 kỹ thuật chớnh:
Ánh xạ cỏc thuộc tớnh nhận giỏ trị trong khoảng nào đú thành cỏc thuộc
tớnh nhị phõn
Chuyển thuộc tớnh giỏ trị số thành một thuộc tớnh. Ta xột vớ dụ về điều tra dõn số trong bảng sau:
SSN# TUỔI GIỚI TÍNH ĐÃ KẾT HễN SỐ CON LƢƠNG
006 26 Nam Sai 0 250000
345 54 Nữ Đỳng 2 550000
746 37 Nam Sai 1 800000
Giải thớch thụng tin nhƣ sau :
SSN#: Định danh cho mỗi đối tƣợng điều tra. Khi khai phỏ ta khụng quan
tõm tới thụng tin này.
Tuổi: Thuộc tớnh này nhận nhiều giỏ trị khỏc nhau, nú khụng phải là giỏ
trị nhị phõn. Để khai phỏ dữ liệu dạng này ta ỏnh xạ thuộc tớnh nhận giỏ trị trong khoảng nào đú thành cỏc thuộc tớnh nhị phõn. Vớ dụ ỏnh xạ tuổi từ 0-21 thành ―rất trẻ‖, từ 22-35 thành ―trẻ‖, 36-55 thành ―Trung niờn‖, ―Già‖.
Giới tớnh: Nhận một trong hai giỏ trị: ―Nam‖, ―Nữ‖, do vậy cú thể chuyển thuộc tớnh này thành 2 thuộc tớnh.
Đó kết hụn: Tƣơng tự nhƣ thuộc tớnh giới tớnh ta cú thể chuyển thành 2
thuộc tớnh ―Đó kết hụn‖ và ―Chƣa kết hụn‖.
Số con: Ánh xạ thành cỏc thuộc tớnh ―Khụng cú con‖, ―Một con‖, ―Nhiều
con‖.
Lƣơng: Ánh xạ thành cỏc khoảng: ―Lƣơng ớt‖,‖Lƣơng trung bỡnh‖,
―Lƣơng cao‖.
Việc ỏnh xạ phải hoàn toàn rừ ràng đối với ngƣời khai phỏ dữ liệu. Với cỏc ỏnh xạ trờn dữ liệu của vớ dụ trở thành CSDL với 14 thuộc tớnh sau:
1. Rất trẻ 8. Chƣa kết hụn
2. Trẻ 9. Khụng cú con
3. Trung niờn 10. Một con
4. Già 11. Nhiều con
5. Nam 12. Lƣơng ớt
6. Nữ 13. Lƣơng trung bỡnh
7. Đó kết hụn 14. Lƣơng cao
Vớ dụ sau khi khai phỏ ta đƣợc cỏc luật kết hợp dạng:
Tuổi [40,50]Đó kết hụn Lƣơng=500000
Sau khi tất cả cỏc luật đƣợc sinh ra, cỏc luật đƣợc nhúm lại theo từng nhúm giỏ trị, vớ dụ: Với cỏc luật sau:
(r1) Tuổi=50Đó kết hụn Lƣơng=500000
(r2) Tuổi=55Đó kết hụn Lƣơng=500000
(r3) Tuổi [50,55]Đó kết hụn Lƣơng=500000
Cỏch này cú qỳa nhiều hạn chế khi cú quỏ nhiều giỏ trị cho mỗi thuộc tớnh.
Tổng hợp lại, khai phỏ định lượng gồm 3 bước chớnh:
Tiền xử lý: Nhiệm vụ chớnh của bƣớc này là chuyển đổi cỏc thuộc tớnh số và phõn loại thành cỏc thuộc tớnh nhị phõn để cú thể sử dụng đƣợc cỏc thuật toỏn khai phỏ luật kết hợp nhị phõn. Cỏch làm: Gỏn giỏ trị cho cỏc thuộc tớnh phõn loại, ỏnh xạ cỏc khoảng giỏ trị của cỏc thuộc tớnh số thành tập cỏc thuộc tớnh. Điểm quan trọng của bƣớc này là phải xỏc định đựoc cỏc khoảng của cỏc thuộc tớnh số sao cho phự hợp, bởi việc làm này ảnh hƣởng tới việc khai phỏ dữ liệu. Ngƣời ta đó nghiờn cứu và cú thuật toỏn để chia khoảng cỏc thuộc tớnh số sao cho phự hợp. Sau khi đó tỡm đƣợc cỏc khoảng giỏ trị trong mỗi khoảng đƣợc ỏnh xạ thành cỏc thuộc tớnh.
Tỡm tập mục phổ biến: Sử dụng cỏc thuật toỏn khai phỏ luật kết hợp nhị phõn để tỡm cỏc tập mục phổ biến với CSLD đó ỏnh xạ.
Sinh luật: Sử dụng thủ tục sinh luật từ cỏc tập mục phổ biến đó nờu đối với CSDL nhị phõn trờn.