Cây SAWFI-tree sau khi chèn 12 giao tác tron g3 lô của dòng dữ liệu

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ (Trang 33 - 96)

Bảng đầu mục

Bảng đầu mục lưu trữ các mục theo thứ tự từ điển, thông tin về trọng số, tần số của các mục và con trỏ trỏ đến nút cùng tên đầu tiên của SAWFI-treẹ Hình 1 biểu diễn cây SAWFI-tree và bảng đầu mục (để đơn giản hình chúng tơi khơng vẽ các con trỏ). Ta có thể dễ dàng phát hiện ra các giao tác của mỗi lô và tần số xuất hiện của các mục trong các lơ của dịng dữ liệụ Chẳng hạn, giao tác {b,c,d,e} xuất hiện một lần ở lô thứ ba (B13) và giao tác {b,c,d} xuất hiện hai lần: một lần ở lô thứ hai (B12) và một lần ở lô thứ ba (B13) (nằm trên nhánh thứ tư từ phải sang). Ta cũng có số đếm hỗ trợ của các mục trong cửa sổ khai phá lần lượt là a:4, b:7, c:8, d:9 và e:6.

Thuật tốn khai phá SWFI-miner

Dưới đây là một số tính chất quan trọng của SAWFI-tree được chúng tôi sử dụng trong q trình khai phá TMTX với trọng số thích nghi trên dịng dữ liệu theo kiểu FP-growth [7,8].

Tính chất 1. Cấp cao nhất của cây SAWFP-tree bằng độ dài của giao tác dài nhất

trên dòng dữ liệụ

Tính chất 2. Tổng các giá trị tần số trong các lô tại bất kỳ nút nào trên cây cũng

lớn hơn hoặc bằng tổng các giá trị tần số tại các nút con của nó.

Tính chất 3. Tần số xuất hiện trong mỗi lô của một mục trên cây bằng tổng các

33

Tính chất 4. Phân bố tần số trong các lô của đường đi trên cây chính là phân bố

tần số của nút hậu tố.

Tính chất 5. Cây điều kiện của mục cao nhất theo thứ tự từ điển là cây rỗng.

Sử dụng cách tiếp cận FP-growth [7,8], thủ tục SWFI-miner khai phá TMTX với trọng số thích nghi trên dịng dữ liệu từ cây SAWFP-tree như sau:

Thủ tục cập nhật cây SAWFI-tree

Theo như đã trình bày ở trên, việc tổ chức lưu trữ dữ liệu dòng giao tác dưới dạng cấu trúc cây như SAWFI-tree cho phép ta có thể dễ dàng cập nhật thơng tin (xóa các giao tác trong một lô cũ nhất, bổ sung các giao tác cho một lô mới nhất), đáp ứng sự biến đổi nhanh của dòng dữ liệu tại những thời điểm tiếp theọ

Để xóa thơng tin của lô cũ nhất trên cây SAWFI-tree, ta cần thực hiện như sau: Trong danh sách các giá trị tần số xuất hiện của mỗi nút, tại ví trí thứ j (1 < j ≤

K) bằng giá trị tần số của vị trí thứ (j-1) và thay giá trị tại vị trí thứ nhất bằng 0.

Tỉa tất cả nút mà tại đó mọi giá trị tần số đều bằng 0.

Các giao tác của lô mới được chèn lên cây như thường lệ sau khi đã xóa bỏ thơng tin của lô cũ nhất.

34

CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

3.1. Ứng dụng thuật tốn khai phá tập mục thường xun phân tích cơ sở dữ liệu bán hàng siêu thị

3.1.1. Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng Đặt bài toán Đặt bài toán

Tại một siêu thị trong kí kinh doanh có bán các mặt hàng: Bàn chải (BC), Kem đánh răng (KR), Bột giặt (BG), Dầu gội (DG), Sữa tắm (ST) và Xà phịng (XP). Các dữ liệu về định danh và thơng tin trong các giỏ hàng được lưu trữ trong CSDL giao tác (Bảng 4), sau khi đã mã hóa các mặt hàng BC, KR, BG, DG, ST và XP tương ứng a, b, c, d, e và f .

Yêu cầu bài toán: Tại cùng thời điểm, với các ngưỡng độ hỗ trợ khác nhau (được qui định bởi nhà quản lí) tương ứng là: 0.85, 0.5, 0.6, 0.55, 0.65, 0.7, 0.75, 0.8

- Mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện cùng nhau trong các giỏ hàng?

- Mức độ quan trọng của mặt hàng/nhóm mặt hàng phổ biến xuất hiện đó?

Ở đây, ta hiểu ngưỡng độ hỗ trợ được qui định bởi nhà quản lí, đó là ngưỡng dùng để xác định nếu phần trăm mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện mà lớn hơn ngưỡng độ hỗ trợ thì nhà quản lí có thể ra quyết định đầu tư cho mặt hàng/nhóm các mặt hàng đó.

Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)

TID Giỏ hàng 1 a, d, e, f 2 a, d, e 3 a, c, d, e, f 4 b, c, f 5 a, b, c, d, e 6 a, c, e 7 a, c, d, e 8 a, b, c, d, e 9 c, d, e, f 10 a, b, c, d, e Ứng dụng thuật toán

Tiến hành thực hiện các bước của thuật tốn MFIMT theo trình tự dưới đây:

Bước 1: Sắp xếp các ngưỡng độ hỗ trợ tối thiểu theo thứ tự tăng dần ta được:

εt1 < εt2 < ⋯ < εtk (với k=8)

Bước 2: Thực hiện thuật toán Apriori, với ngưỡng độ hỗ trợ tối thiểu εt1 = 0.5

35 Q trình thực hiện thuật tốn Apriori được minh họa như sau:

- Duyệt CSDL giao tác lần thứ nhất, tính độ hỗ trợ (SC) của các mục đơn.

SC(a) = 0.8, SC(b) = 0.4, SC(c) = 0.8, SC(d) = 0.8, SC(e) = 0.9, SC(f) = 0.4.

Loại bỏ các tập “b” và “f” không thỏa mãn εt1 = 0.5 . Ta được L1 = {a, c, d, e}.

Kết nối L1 với L1 được tập 2-tập mục ứng viên C2 = {ac, ad, ae, cd, ce, de}.

Trong C2 khơng có tập nào chứa các mục đơn khơng phải là TMTX, do vậy C2

không bị tỉa tập mục nàọ

- Duyệt CSDL giao tác lần thứ hai, tính độ hỗ trợ của các 2-tập mục ứng viên.

SC(ac) = 0.6, SC(ad) = 0.7, SC(ae) = 0.8, SC(cd) = 0.6, SC(ce) = 0.7, SC(de) = 0.8.

Các 2-tập mục đều thỏa εt1, do vậy: L2 = {ac, ad, ae, cd, ce, de}.

Kết nối L2 với L2 được các 3-tập mục ứng viên C3 = {acd, ace, ade, cde}.

Trong C3 khơng có tập nào chứa các tập mục không phải là TMTX, do vậy C3

không bị tỉa tập mục nàọ

- Duyệt CSDL giao tác lần thứ ba, tính độ hỗ trợ của các 3-tập mục ứng viên.

SC(acd) = 0.5, SC(ace) = 0.6, SC(ade) = 0.7, SC(cde) = 0.6.

Ta được L3 = {acd, ace, ade, cde}.

Cuối cùng, ta thu được tập các TMTX cùng với số độ hỗ trợ tương ứng là:

FI1 = { a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,

cd: 0.6, ce: 0.7, de: 8, acd: 0.5, ace: 0.6, ade: 0.7, cde: 0.6}.

Bước 3: Thực hiện chu trình lặp với i=2,3,..,k để xét cho các ngưỡng độ hỗ trợ

tối thiểu εt2, … , εtk(k=8).

+ Với i=2: Ngưỡng độ hỗ trợ tối thiểu εt2 = 0.55. Từ tập FP1 loại bỏ tập mục

acd:0.5 không thỏa mãn ngưỡng εt2, ta thu được tập các TMTX FP2.

FI2 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,

cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.

+ Với i=3: Ngưỡng độ hỗ trợ tối thiểu εt3 = 0.6. Từ tập FP2 các tập mục đều

thỏa mãn ngưỡng εt3 nên không loại bỏ tập mục nào từ FP2, ta thu được tập các

TMTX FP3.

FI3 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,

cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.

Tương tự với quá trình lập luận như trên. Kết quả ta thu được bảng các TMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đâỵ

Bảng 5. Bảng các tập TMTX tương ứng với các ngưỡng

Ngưỡng 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

Tập

TMTX FI

36 Các tập mục phổ biến và độ hỗ trợ a:0.8 c:0.8 d:0.8 e:0.9 ac:0.6 ad:0.7 ae:0.8 cd:0.6 ce:0.7 de:0.8 acd:0.5 ace:0.6 ade:0.7 cde:0.6 a:0.8 c:0.8 d:0.8 e:0.9 ac:0.6 ad:0.7 ae:0.8 cd:0.6 ce:0.7 de:0.8 ace:0.6 ade:0.7 cde:0.6 a:0.8 c:0.8 d:0.8 e:0.9 ac:0.6 ad:0.7 ae:0.8 cd:0.6 ce:0.7 de:0.8 ace:0.6 ade:0.7 cde:0.6 a:0.8 c:0.8 d:0.8 e:0.9 ad:0.7 ae:0.8 ce:0.7 de:0.8 ade:0.7 a:0.8 c:0.8 d:0.8 e:0.9 ad:0.7 ae:0.8 ce:0.7 de:0.8 ade:0.7 a:0.8 c:0.8 d:0.8 e:0.9 ae:0.8 de:0.8 a:0.8 c:0.8 d:0.8 e:0.9 ae:0.8 de:0.8 e:0.9

Sau khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các ngưỡng (từ bảng 6 đến bảng 10).

Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

nhau với ngưỡng 𝛆𝐭𝟏 = 𝟎. 𝟓

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8

Bột giặt:0.8 Dầu gội:0.8 Sữa tắm:0.9

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Dầu gội:0.5

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Dầu gội:0.5

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bảng 7. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

nhau với ngưỡng 𝛆𝐭𝟐 = 𝟎. 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎. 𝟔

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8

Bột giặt:0.8 Dầu gội:0.8

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8

37 Sữa tắm:0.9

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8

Bàn chải, Bột giặt, Sữa tắm:0.6 Bàn chải, Dầu gội, Sữa tắm:0.7 Bột giặt, Dầu gội Sữa tắm:0.6

Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8

Bàn chải, Bột giặt, Sữa tắm:0.6 Bàn chải, Dầu gội, Sữa tắm:0.7 Bột giặt, Dầu gội Sữa tắm:0.6

Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

nhau với ngưỡng 𝛆𝐭𝟒 = 𝟎. 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎. 𝟕

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau

Bàn chải:0.8 Bột giặt:0.8 Dầu gội:0.8 Sữa tắm:0.9

Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8

Bàn chải, Dầu gội, Sữa tắm:0.7

Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8

Bàn chải, Dầu gội, Sữa tắm:0.7

Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

nhau với ngưỡng 𝛆𝐭𝟔 = 𝟎. 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎. 𝟖

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau

Bàn chải:0.8 Bột giặt:0.8 Dầu gội:0.8 Sữa tắm:0.9

Bàn chải, Sữa tắm:0.8 Dầu gội, Sữa tắm:0.8

Bàn chải, Sữa tắm:0.8 Dầu gội, Sữa tắm:0.8

Bảng 10. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

nhau với ngưỡng 𝛆𝐭𝟖 = 𝟎. 𝟖𝟓

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên

xuất hiện cùng nhau

Sữa tắm:0.9 

Phân tích, đánh giá kết quả khai phá

Qua quá trình khai phá dữ liệu ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng độ hỗ trợ tối thiểu tương ứng (từ bảng 6 đến bảng 10) và có các phân tích, đánh giá như sau:

38 - Với các ngưỡng độ hỗ trợ tối thiểu tăng dần thì số các mặt hàng/nhóm hàng xuất hiện thường xuyên là giảm dần.

- Với ngưỡng độ hỗ trợ tối thiểu nhỏ nhất (εt1=0.5) và kết quả trong bảng 4 nhận

thấy:

+ Thu được tập 14 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 6)

+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của 14 mặt hàng/nhóm hàng là: “Sữa tắm:0.9” (mức độ quan trọng nhất), tiếp đến là “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …, “Bột giặt, Dầu gội, Sữa tắm:0.6” có mức độ quan trọng nhỏ nhất (cột 2 trong bảng 6).

+ Có 10 giỏ hàng thường xuyên có các mặt hàng xuất hiện cùng nhau là: “Bàn chải, Bột giặt”; “Bàn chải, Bột giặt, Dầu gội”; “Bàn chải, Bột giặt, Sữa tắm”; “Bột giặt, Dầu Gội, Sữa tắm”.

+ Mức độ quan trọng từ lớn nhất đến nhỏ nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau theo trình tự là: “Bàn chải, Sữa tắm:0.8”, “Dầu gội, Sữa tắm:0.8”, …, “Bột giặt, Dầu gội Sữa tắm:0.6”.

+ Mức độ quan trọng nhỏ nhất của nhóm các mặt hàng xuất hiện cùng nhau là “Bàn chải, Bột giặt, Dầu gội:0.5”

- Với hai ngưỡng độ hỗ trợ tối thiểu εt2 = 0.55 và εt3 = 0.6 và kết quả trong

bảng 7 nhận thấy:

+ Số các mặt hàng/nhóm hàng xuất hiện thường xuyên đều bằng nhau (là 13), số các mặt hàng/nhóm hàng xuất hiện cùng nhau thường xuyên đều bằng nhau (là 9)

+ Thu được tập 13 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 7)

+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của của 13 mặt hàng/nhóm hàng là: “Sữa tắm:0.9”, “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …, “Bột giặt, Dầu gội, Sữa tắm:0.6” (cột 2 trong bảng 9).

+ Có 9 giỏ hàng thường xuyên có các mặt hàng xuất hiện cùng nhau là: “Bàn chải, Bột giặt”; “Bàn chải, Bột giặt, Dầu gội”; “Bàn chải, Bột giặt, Sữa tắm”; “Bột giặt, Dầu Gội, Sữa tắm”.

+ Mức độ quan trọng lớn nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau là “Bàn chải, Sữa tắm:0.8” và mức độ quan trọng nhỏ nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau là “Bột giặt, Dầu gội Sữa tắm:0.6”.

- Với hai ngưỡng ngưỡng độ hỗ trợ tối thiểu εt4, εt5, εt6 và εt7 được phân tích,

đánh giá tương tự như trên.

- Với ngưỡng độ hỗ trợ tối thiểu εt8 = 0.85 và kết quả trong bảng 10 cho thấy:

+ Chỉ có một mặt hàng xuất hiện thường xuyên cùng độ hỗ trợ là “Sữa tắm:0.9”. + Khơng có nhóm các mặt hàng xuất hiện cùng nhaụ

- Nếu ngưỡng độ hỗ trợ càng nhỏ thì mặt hàng/nhóm các mặt hàng phổ biến xuất hiện càng xuất hiện nhiều, ngược lại thì mặt hàng/nhóm các mặt hàng phổ biến xuất hiện ít đị

39

3.1.2. Ứng dụng thuật toán BMB khai phá TMTX

Dưới đây trình ví dụ ứng dụng của thuật tốn BMB khai phá TMTX trong phân tích CSDL bán hàng siêu thị.

Đặt bài toán

Giả sử siêu thị bán các mặt hàng bao gồm: Bàn chải (a), Dầu gội (b), Kem đánh răng (c), Dầu xả vải (d), Bột giặt (e), Xà phịng (f), Bàn cạo râu (g), Băng dính (h). Trong kì kinh doanh, siêu thị bán được 10 giỏ hàng, dữ liệu của các giỏ hàng bán được cho trong bảng 11 dưới đâỵ

Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)

Yêu cầu: Với ngưỡng độ hỗ trợ tối thiểu minsup=4.

- Mặt hàng/nhóm các mặt hàng nào thường xuyên xuất hiện cùng nhau trong các giỏ hàng?

- Mức độ quan trọng của mặt hàng/nhóm mặt hàng thường xuyên xuất hiện như thế nàỏ

Ứng dụng thuật toán BMB và thuật toán FP-Growth khai phá TMTX trong CSDL giao tác

Để tiến hành thực nghiệm thuật toán BMB với trường hợp nghiên cứu đặt ra ở trên, quá trình khai phá các TMTX trong CSDL bán hàng siêu thị là như sau:

Pha 1. Chuyển CSDL giao tác TDB về ma trận nhị phân A có dạng như trong

bảng 10.

40

Pha 2: Tìm các tập TMTX từ ma trận nhị phân A Bước k=1:

Tính độ hỗ trợ của từng véc tơ cột của Ạ ta có tổng trên các cột: sum(a)=8, sum(b)=3, sum(c)=8, sum(d)=2,

sum(e)=7, sum(f)=4, sum(g)=5, sum(h)=1.

Chỉ có các 1-tập mục a, c, e, f, g thỏa mãn độ hỗ trợ không nhỏ hơn minsup=4. Vậy tập các 1-tập mục thường xuyên cùng với độ hỗ trợ tương ứng là:

L1={a:8, c:8, e:7, f:4, g:5}.

Vì card(L1)>1 nên quá trình tìm kiếm tiếp tục.

Bước k=2:

a) Xóa 3 cột b, d và h (vì có tổng các phần tử nhỏ hơn minsup)

Xóa các dịng T5 và T10 (có tổng các phần tử <2) của ma trận A, thu được ma trận rút gọn A1 (bảng 13).

Bảng 13. Ma trận rút gọn A1

b) Tổ hợp chập 2 của 5 cột của A1 ta được 10 tập ứng viên: C2={ac, ae, af, ag, ce, cf, cg, ef, eg, fg}

Tính độ hỗ trợ của từng véc tơ cột trong A1, chỉ xét các phần tử trong tập ứng viên C2 ta có:

sum(ac)=8, sum(ae)=5, sum(af)=4, sum(ag)=5, sum(ce)=5, sum(cf)=4, sum(cg)=5, sum(ef)=3, sum(eg)=4, sum(fg)=3

Ta thu được tập các 2-tập mục thường xuyên cùng với độ hỗ trợ tương ứng là: L2={ac:8, ae:5, af:4, ag:4, ce:5, cf:4, cg:5, eg:4}.

Vì card(L2)=8>2, quá trình tiếp tục.

Bước k=3:

a) Khơng có cột nào của A1 bị xóa (vì tổng trên các véc tơ cột đều >minsup) Xóa dịng T3, T4 (vì có tổng các phần tử<3) của A1 thu được ma trận rút gọn A2 (bảng 14)

41

Bảng 14. Ma trận rút gọn A2

b) Các tổ hợp chập 3 của 5 cột của A2 ta được 10 tập ứng viên: C3={ace, acf, acg, aef, aeg, afg, cef, ceg, cfg, efg}

Tính độ hỗ trợ của từng véc tơ cột trong A2, chỉ xét các phần tử trong tập ứng viên C3 ta có:

sum(ace)=5, sum(acf)=4, sum(acg)=5, sum(aef)=3, sum(aeg)=4, sum(afg)=3, sum(cef)=3, sum(ceg)=4, sum(cfg)=3, sum(efg)=2.

Ta thu được tập các 3-tập mục thường xuyên cùng với độ hỗ trợ tương ứng là:

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ (Trang 33 - 96)

Tải bản đầy đủ (PDF)

(96 trang)