Phát hiện luật kết hợp định lượng

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 33 - 34)

Hầu hết các CSDL là CSDL định lượng mà không phải là CSDL tác vụ. Phát hiện luật kết hợp từ các CSDL định lượng (số, phân loại) có ý nghĩa ứng dụng lớn hơn nhiều so với CSDL tác vụ. Năm 1996, R. Srikant và R. Agrawal [73] lần đầu đề cập tới bài toán này. Giải pháp của các tác giả rất đơn giản: đầu tiên, rời rạc hố các thuộc tính định lượng để chuyển CSDL đã cho thành CSDL tác vụ, và sau đó, áp

dụng một thuật toán phát hiện luật kết hợp đã biết từ CSDL tác vụ (kiểu như thuật toán Apriori).

Phương pháp rời rạc hoá CSDL định lượng như sau:

Nếu A là thuộc tính định lượng rời rạc có tập giá trị {v1, v2, …, vk} và k đủ bé thì biến đổi thuộc tính này thành k thuộc tính A_v1, A_v2, … A_vk. Giá trị của bản ghi tại trường A_vk bằng True (Yes hoặc 1) nếu giá trị thuộc tính A ban đầu là vk,

ngược lại nó sẽ nhận giá trị False (No hoặc 0) như bảng 1.2.

Bảng 1.2: Rời rạc hố thuộc tính định lượng có số giá trị nhỏ

Thu nhập

rời rạc hoá

Thu nhập: cao Thu nhập: thấp

cao 1 0

thấp 0 1

34

Nếu A là thuộc tính số liên tục hoặc có giá trị rời rạc {v1, v2, …, vp} với p lớn, thì ta ánh xạ thành q thuộc tính nhị phân <A: start1..end1>, <A: start2..end2>,…, <A: startq..endq>. Giá trị của bản ghi tại trường <A: starti..endi> sẽ bằng True (Yes hoặc 1) nếu giá trị ban đầu của nó tại trường A thuộc khoảng [starti..endi], ngược lại sẽ bằng False (No hoặc 0) như minh họa trong bảng 1.3.

Bảng 1.3: Rời rạc hố thuộc tính định lượng có giá trị số

Tuổi

rời rạc hố

<Tuổi: 1..29> <Tuổi: 30..59> <Tuổi: 60..80>

70 0 0 1

45 0 1 0

22 1 0 0

17 1 0 0

Phương pháp rời rạc hoá CSDL định lượng như trên có một số nhược điểm

chính như sau:

(i) Khi rời rạc hố CSDL định lượng, số thuộc tính có thể sẽ tăng lên nhiều và dẫn đến phình to CSDL tác vụ.

(ii) Nếu một thuộc tính định lượng được chia thành nhiều khoảng khi đó độ hỗ trợ của thuộc tính khoảng đơn trong phân chia có thể là rất nhỏ.

(iii) Tại các điểm “biên gãy” của các thuộc tính được rời rạc hoá thường là

thiếu tính tự nhiên do những giá trị rất gần nhau (hoặc tương tự nhau) của một thuộc tính lại nằm ở hai khoảng chia khác nhau, chẳng hạn khi rời rạc hố thuộc tính tuổi

ở trên, 59 tuổi được coi là "trung niên" trong khi 60 tuổi được xem là "già".

Để giải quyết tốt nhất vấn đề này, người ta đã đề xuất ứng dụng lý thuyết tập

mờ để chuyển đổi CSDL định lượng ban đầu thành CSDL mờ và thực hiện phát

hiện luật kết hợp trên CSDL này. Từ đó hướng nghiên cứu phát hiện luật kết hợp

mờ ra đời và phát triển [34, 38-41, 44, 45, 54, 55, 57, 61, 63, 82, 98].

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(133 trang)