Phát hiện luật kết hợp định lượng

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 33 - 34)

Hầu hết các CSDL là CSDL định lượng mà không phải là CSDL tác vụ. Phát hiện luật kết hợp từ các CSDL định lượng (số, phân loại) có ý nghĩa ứng dụng lớn hơn nhiều so với CSDL tác vụ. Năm 1996, R. Srikant và R. Agrawal [73] lần đầu đề

cập tới bài toán này. Giải pháp của các tác giả rất đơn giản: đầu tiên, rời rạc hoá các thuộc tính định lượng để chuyển CSDL đã cho thành CSDL tác vụ, và sau đó, áp dụng một thuật toán phát hiện luật kết hợp đã biết từ CSDL tác vụ (kiểu như thuật toán Apriori).

Phương pháp rời rạc hoá CSDL định lượng như sau:

Nếu A là thuộc tính định lượng rời rạc có tập giá trị {v1, v2, …, vk} và k đủ bé thì biến đổi thuộc tính này thành k thuộc tính A_v1, A_v2, … A_vk. Giá trị của bản ghi tại trường A_vk bằng True (Yes hoặc 1) nếu giá trị thuộc tính A ban đầu là vk, ngược lại nó sẽ nhận giá trị False (No hoặc 0) như bảng 1.2.

Bảng 1.2: Rời rạc hoá thuộc tính định lượng có số giá trị nhỏ

Thu nhập

rời rạc hoá

Thu nhập: cao Thu nhập: thấp

cao 1 0

34

Nếu A là thuộc tính số liên tục hoặc có giá trị rời rạc {v1, v2, …, vp} với p lớn, thì ta ánh xạ thành q thuộc tính nhị phân <A: start1..end1>, <A: start2..end2>,…, <A: startq..endq>. Giá trị của bản ghi tại trường <A: starti..endi> sẽ bằng True (Yes hoặc 1) nếu giá trị ban đầu của nó tại trường A thuộc khoảng [starti..endi], ngược lại sẽ bằng False (No hoặc 0) như minh họa trong bảng 1.3.

Bảng 1.3: Rời rạc hoá thuộc tính định lượng có giá trị số

Tuổi

rời rạc hoá

<Tuổi: 1..29> <Tuổi: 30..59> <Tuổi: 60..80>

70 0 0 1

45 0 1 0

22 1 0 0

17 1 0 0

Phương pháp rời rạc hoá CSDL định lượng như trên có một số nhược điểm chính như sau:

(i) Khi rời rạc hoá CSDL định lượng, số thuộc tính có thể sẽ tăng lên nhiều và dẫn đến phình to CSDL tác vụ.

(ii) Nếu một thuộc tính định lượng được chia thành nhiều khoảng khi đó độ hỗ

trợ của thuộc tính khoảng đơn trong phân chia có thể là rất nhỏ.

(iii) Tại các điểm “biên gãy” của các thuộc tính được rời rạc hoá thường là thiếu tính tự nhiên do những giá trị rất gần nhau (hoặc tương tự nhau) của một thuộc tính lại nằm ở hai khoảng chia khác nhau, chẳng hạn khi rời rạc hoá thuộc tính tuổi

ở trên, 59 tuổi được coi là "trung niên" trong khi 60 tuổi được xem là "già".

Để giải quyết tốt nhất vấn đề này, người ta đã đề xuất ứng dụng lý thuyết tập mờ để chuyển đổi CSDL định lượng ban đầu thành CSDL mờ và thực hiện phát hiện luật kết hợp trên CSDL này. Từ đó hướng nghiên cứu phát hiện luật kết hợp mờ ra đời và phát triển [34, 38-41, 44, 45, 54, 55, 57, 61, 63, 82, 98].

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(133 trang)