Các tập mục cổ phần cao của CSDL bảng 2.1

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu luật kết hợp và ứng dụng trong bài toán xây dựng hệ hỗ trợ học sinh trung học phổ thông (Trang 39 - 41)

2.4.4 Nội dung bài toán:

Cho CSDL giao tác DB và ràng buộc cổ phần minShare, khai phá tập mục cổ phần cao là tìm tập HS (High Share), chứa tất cả các tập mục cổ phần cao, tức là tập HSX X|  I Sh X, ( )minShare.

Thủ tục mô tả thuật toán FSM nhƣ sau :

Thuật toán FSM

Input: Cơ sở dữ liệu giao tác DB, ngƣỡng cổ phần minShare (s%).

Output: Tập F gồm các tập mục cổ phần cao. Method:

1. k:=1, F1:=, C1:=I;

2. for each TDB // duyệt cơ sở dữ liệu DB

3. tính giá trị lmv(ip) và CF(ip) của các mục ip trong C1; 4. for each ipC1

5. if lmv(ip) ≥min_lmv then 6. F1:F1 ip

7. else if CF i( )pmin_lmv then 8. C1:C1\ ip ; 9. RC1:C1; 11. for k:=2 to h 12. begin 13. for each Xp, XqRCk-1 14. Ck :=Apriori-join(Xp, Xq);

15. for each TDB // duyệt cơ sở dữ liệu DB

16. tính giá trị lmv(X) và CF(X) của các ứng viên X trong Ck;

18. if lmv(X)≥ min_lmv 19. Fk :Fk  X 20. else if CF(X)<min_lmv 21. Ck :  Ck - X ; 22. RCk:= Ck; 22. end 23. return FFk ; Nhận xét:

- Dữ liệu cho khai phá tập mục phổ biến là trƣờng hợp đặc biệt của dữ liệu cho khai phá cổ phần cao khi tất cả các mục dữ liệu trong các giao tác có giá trị là 0 hoặc 1.

- Tập mục cổ phần cao mang ý nghĩa khác với tập mục phổ biến. Tập mục phổ biến chỉ quan tâm đến số lần xuất hiện của tập mục trong các giao tác, trong khi đó tập mục cổ phần cao quan tâm đến tổng giá trị các mục dữ liệu của tập mục trong các giao tác. Tập mục phổ biến quan tâm xem nhóm hàng X

(tập mục) có bán đƣợc hay không mà bỏ qua các tham số rất quan trọng là tổng số lƣợng hàng bán đƣợc hoặc tổng lợi nhuận mang lại,…Với ngƣỡng

minShare cho trƣớc, một tập mục X có thể chỉ chứa trong một số ít giao tác của CSDL nhƣng lại là tập mục cổ phần cao nếu cổ phần Sh(X) của nó vƣợt ngƣỡng minShare. Kể cả khi khai phá trên tập dữ liệu có giá trị nhị phân ( 0 hoặc 1) thì khai phá tập mục cổ phần cao cũng cho kết quả khác với khai phá tập mục phổ biến. Chẳng hạn, với CSDL cho trong bảng 2.4, tập mục

XABCDGH chỉ xuất hiện trong giao tác T01, có cổ phần ( ) 6 50% 12

Sh X   và độ hỗ trợ sup( ) 1 20%

5

X   . Nếu ngƣỡng cổ phần minShare=30% thì X là tập mục cổ phần cao, cũng lấy ngƣỡng độ hỗ trợ minsup=30% thì X không phải tập mục phổ biến.

TID A B C D E F G H tmv T01 1 1 1 1 0 0 1 1 6 T02 1 0 0 0 0 0 0 0 1 T03 1 0 0 0 1 0 0 0 2 T04 0 1 0 0 0 1 0 0 2 T05 0 0 0 1 0 0 0 0 1 lmv 3 2 1 2 1 1 1 1 12

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu luật kết hợp và ứng dụng trong bài toán xây dựng hệ hỗ trợ học sinh trung học phổ thông (Trang 39 - 41)