Khai phỏ luật kết hợp định lƣợng

Một phần của tài liệu Khai phá dữ liệu sử dụng luật kết hợp (Trang 69)

Khai phỏ luật kết hợp định lƣợng là quỏ trỡnh khai phỏ cỏc luật kết hợp cho cỏc CSDL với cỏc thuộc tớnh cú giỏ trị khụng đơn giản là giỏ trị nhị phõn. Đối với cỏc luật kết hợp định lƣợng XY, X và , XY cú thể là sự kết hợp của cỏc giỏ trị nhị phõn, phõn loại, khoảng số.

 Luật kết hợp định lƣợng gồm cú 2 kỹ thuật chớnh:

 Ánh xạ cỏc thuộc tớnh nhận giỏ trị trong khoảng nào đú thành cỏc thuộc

tớnh nhị phõn

Chuyển thuộc tớnh giỏ trị số thành một thuộc tớnh. Ta xột vớ dụ về điều tra dõn số trong bảng sau:

SSN# TUỔI GIỚI TÍNH ĐÃ KẾT HễN SỐ CON LƢƠNG

006 26 Nam Sai 0 250000

345 54 Nữ Đỳng 2 550000

746 37 Nam Sai 1 800000

Giải thớch thụng tin nhƣ sau :

 SSN#: Định danh cho mỗi đối tƣợng điều tra. Khi khai phỏ ta khụng quan

tõm tới thụng tin này.

 Tuổi: Thuộc tớnh này nhận nhiều giỏ trị khỏc nhau, nú khụng phải là giỏ

trị nhị phõn. Để khai phỏ dữ liệu dạng này ta ỏnh xạ thuộc tớnh nhận giỏ trị trong khoảng nào đú thành cỏc thuộc tớnh nhị phõn. Vớ dụ ỏnh xạ tuổi từ 0-21 thành ―rất trẻ‖, từ 22-35 thành ―trẻ‖, 36-55 thành ―Trung niờn‖, ―Già‖.

 Giới tớnh: Nhận một trong hai giỏ trị: ―Nam‖, ―Nữ‖, do vậy cú thể chuyển thuộc tớnh này thành 2 thuộc tớnh.

 Đó kết hụn: Tƣơng tự nhƣ thuộc tớnh giới tớnh ta cú thể chuyển thành 2

thuộc tớnh ―Đó kết hụn‖ và ―Chƣa kết hụn‖.

 Số con: Ánh xạ thành cỏc thuộc tớnh ―Khụng cú con‖, ―Một con‖, ―Nhiều

con‖.

 Lƣơng: Ánh xạ thành cỏc khoảng: ―Lƣơng ớt‖,‖Lƣơng trung bỡnh‖,

―Lƣơng cao‖.

Việc ỏnh xạ phải hoàn toàn rừ ràng đối với ngƣời khai phỏ dữ liệu. Với cỏc ỏnh xạ trờn dữ liệu của vớ dụ trở thành CSDL với 14 thuộc tớnh sau:

1. Rất trẻ 8. Chƣa kết hụn

2. Trẻ 9. Khụng cú con

3. Trung niờn 10. Một con

4. Già 11. Nhiều con

5. Nam 12. Lƣơng ớt

6. Nữ 13. Lƣơng trung bỡnh

7. Đó kết hụn 14. Lƣơng cao

Vớ dụ sau khi khai phỏ ta đƣợc cỏc luật kết hợp dạng:

Tuổi  [40,50]Đó kết hụn  Lƣơng=500000

Sau khi tất cả cỏc luật đƣợc sinh ra, cỏc luật đƣợc nhúm lại theo từng nhúm giỏ trị, vớ dụ: Với cỏc luật sau:

(r1) Tuổi=50Đó kết hụn  Lƣơng=500000

(r2) Tuổi=55Đó kết hụn  Lƣơng=500000

(r3) Tuổi [50,55]Đó kết hụn  Lƣơng=500000

Cỏch này cú qỳa nhiều hạn chế khi cú quỏ nhiều giỏ trị cho mỗi thuộc tớnh.

Tổng hợp lại, khai phỏ định lượng gồm 3 bước chớnh:

Tiền xử lý: Nhiệm vụ chớnh của bƣớc này là chuyển đổi cỏc thuộc tớnh số và phõn loại thành cỏc thuộc tớnh nhị phõn để cú thể sử dụng đƣợc cỏc thuật toỏn khai phỏ luật kết hợp nhị phõn. Cỏch làm: Gỏn giỏ trị cho cỏc thuộc tớnh phõn loại, ỏnh xạ cỏc khoảng giỏ trị của cỏc thuộc tớnh số thành tập cỏc thuộc tớnh. Điểm quan trọng của bƣớc này là phải xỏc định đựoc cỏc khoảng của cỏc thuộc tớnh số sao cho phự hợp, bởi việc làm này ảnh hƣởng tới việc khai phỏ dữ liệu. Ngƣời ta đó nghiờn cứu và cú thuật toỏn để chia khoảng cỏc thuộc tớnh số sao cho phự hợp. Sau khi đó tỡm đƣợc cỏc khoảng giỏ trị trong mỗi khoảng đƣợc ỏnh xạ thành cỏc thuộc tớnh.

Tỡm tập mục phổ biến: Sử dụng cỏc thuật toỏn khai phỏ luật kết hợp nhị phõn để tỡm cỏc tập mục phổ biến với CSLD đó ỏnh xạ.

Sinh luật: Sử dụng thủ tục sinh luật từ cỏc tập mục phổ biến đó nờu đối với CSDL nhị phõn trờn.

Một phần của tài liệu Khai phá dữ liệu sử dụng luật kết hợp (Trang 69)

Tải bản đầy đủ (PDF)

(107 trang)