Mô hình hình thức của phát hiện luật kết hợp

Một phần của tài liệu Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng (Trang 31)

Kí hiệu I = {i1, i2, …, im} là tập các thuộc tính nhị phân (mỗi thuộc tính biểu thị một mặt hàng trong siêu thị và được gọi là một mục dữ liệu); tập X ⊂ I được gọi là tập mục dữ liệu; TID là tập định danh của các tác vụ (mỗi vụ mua hàng được xem là một tác vụ). Quan hệ nhị phân D ⊂ I x TID được gọi là cơ sở dữ liệu. Mỗi tác vụ t có thể được biểu diễn như một véc tơ nhị

phân, với t[k] = 1 nếu t mua mặt hàng ik, ngược lại t[k] = 0. Một tác vụ t

được gọi là chứa tập mục dữ liệu X nếu X ⊂ t. Chẳng hạn ở cơ sở dữ liệu D

được minh hoạ ở bảng 3, ta có I = { A, C, D, T, W } và TID = {1, 2, 3, 4, 5, 6}, tác vụ 1 chứa tập X = {A, C, T, W}.

Luật kết hợp biểu thị mối quan hệ giữa tập con của các tập mục dữ liệu. Một luật kết hợp ngầm định ở dạng X → Y, (X được gọi là tiền đề, Y được gọi là hệ quả) với X, Y là các tập mục dữ liệu (hay itemset) và X ∩Y = ∅. [2],[11]

Ở đây, tập mục dữ liệu X được nói là có độ hỗ trợ (hoặc tần suất) s trong cơ sở dữ liệu D nếu có s% của các tác vụ trong D chứa tập mục dữ liệu này[2],[5],[10],[14]

Luật kết hợp (X → Y) được nói là có độ tin cậy c trong D nếu có c% của các tác vụ chứa X cũng chứa Y.

Kí hiu:

SuppX là độ hỗ trợ của X , Supp(X) = || t∈D sao cho X ⊂ t|| / ||D||

Conf(X→ Y) là độ tin cậy của luật X→ Y, Conf(X → Y) =Supp(X∪Y)/Supp(X)

Luật (X → Y) có độ hỗ trợ Supp(X → Y) trong D với Supp(X→Y)=Supp(X∪Y).

Ví d: Cho CSDL tác vụ dưới đây, trong đó A, B, C, D là các mục dữ liệu; Ti

(Ti=1, 2, 3, 4, 5, 6 ) là các tác vụ. Tập các tác vụ Các mục dữ liệu 1 2 3 4 5 6 A C T W C D W A C T W A C D W A C D T W C D T Bảng 3: CSDL tác vụ tại một cửa hàng

Biểu diễn dưới dạng nhị phân: mỗi giá trị của mục dữ liệu (Item) thể

hiện thuộc tính xuất hiện, hay không xuất hiện (nhận giá trị 0) trong tác vụ.

TID A C D T W T1 1 1 0 1 1 T2 0 1 1 0 1 T3 1 1 0 1 1 T4 1 1 1 0 1 T5 1 1 1 1 1 T6 0 1 1 1 0

Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng

Định nghĩa tp ph biến: Tập X được gọi là phổ biến nếu Supp(X) ≥

minSupp, ở đây minSupp là giá trị nào đó do người sử dụng đưa vào và được gọi là độ hỗ trợ cực tiểu.

Định nghĩa độ tin cy: Luật kết hợp r = X → Y được gọi là luật tin cậy hay luật mong muốn khi và chỉ khi Supp(r) ≥ minSupp và Conf(r) ≥ minConf, ở đây minSupp và minConf là ngưỡng cho trước của các độ hỗ trợ và độ tin cậy và tương ứng được gọi là độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.

Luật kết hợp tin cậy r = X → Y được gọi là luật chính xác nếu Conf(r) = 1 và được gọi là xấp xỉ nếu Conf(r) < 1.

Ng nghĩa ca lut kết hp: Luật kết hợp r = X → Y có độ hỗ trợ α và độ

tin cậy β, qui ước viết gọn dưới dạng X → Y (α; β) có nghĩa là đối với cơ sở

dữ liệu đã cho có α% các tác vụ chứa cả hai tập mục dữ liệu X, Y; trong đó có β% các tác vụ chứa tập mục dữ liệu X cũng sẽ chứa tập mục dữ liệu Y.

Ví dụ: Xét luật AW→C trong ví dụ 2 thì tập mục dữ liệu ACW có độ hỗ trợ là 67% và luật này có độ tin cậy là 100% nên có thể viết luật này dưới dạng AW→C(0,67;1,0).

Trong lĩnh vực bán hàng có thể diễn giải như sau:

- Có 67% những vụ mua sắm mua cả 3 mặt hàng A, C, W. - 100% những vụ mua sắm có mua A, W cũng mua C.

Việc tìm ra các luật kết hợp kiểu như vậy sẽ tăng cường các chức năng truy vấn cơ sở dữ liệu và kết xuất thông tin, tri thức từ dữ liệu, chẳng hạn:

• Nhận diện được tất cả các luật có chứa mặt hàng C như là hệ quả. Các luật này giúp cửa hàng xây dựng nội dung và thực hiện kế hoạch quảng cáo cho việc bán mặt hàng C.

• Nhận diện được tất cả các luật có các mặt hàng A, W ở trong tiền đề. Các luật này giúp xác định được những mặt hàng nào sẽ bị ảnh hưởng và tồn

• Nhận được tất cả các luật có A, W trong phần tiền đề, C nằm trong phần hệ quả. Các luật này giúp cửa hàng xác định được những mặt hàng cần bổ

sung thêm để nó cùng được bán với các mặt hàng A, W trong khi vẫn tôn trọng mong muốn là mặt hàng C cũng sẽđược bán.

Nhận được tất cả các luật liên quan đến các mặt hàng bố trí ở mỗi gian hàng trong cửa hàng. Các luật này giúp bố trí sắp xếp cửa hàng sao cho việc bán các mặt hàng trong gian này tác dụng thúc đẩy việc bán các mặt hàng trong gian kia.

Một phần của tài liệu Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng (Trang 31)