Ngày nay, với sự phát triển nhanh chóng của các kỹ thuật về cơ sở dữ liệu đã tạo điều kiện cho việc lưu trữ và sử dụng dữ liệu lớn trong kinh doanh, y tế, giáo dục, các tổ chức [r]
(1)Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017
Abstract: High utility itemsets (HUIs) mining is one of popular problems in data mining Several parallel and sequential algorithms have been proposed in the literature to solve this problem All the parallel algorithms to try reduce synchronization cost and caculation global profit of itemsets In this paper, we present a parallel method for mining HUIs from projection-based indexing to speed up performance and reduce memory requirements The experimental results show that the performance and number candidate of our algorithm is better than some non parallel algorithms
Keywords: Data Mining, Parallel Mining, Shared Memory, High Utility, Projection index, PPB-Miner algorithm
I GIỚI THIỆU
Ngày nay, với phát triển nhanh chóng kỹ thuật sở liệu tạo điều kiện cho việc lưu trữ sử dụng liệu lớn kinh doanh, y tế, giáo dục, tổ chức khoa học, phủ,… Một chủ đề quan trọng nghiên cứu khai phá liệu gần tìm kiếm tập mục lợi ích cao từ sở liệu giao dịch Mục tiêu trích xuất thơng tin hữu ích từ liệu có quan tâm đến lợi ích, số lượng, chi phí,… phần tử Đã có nghiên cứu đề xuất để khai phá tập lợi ích cao [1]–[6],… Tuy nhiên, thuật toán chủ yếu thực khai phá Vấn đề đặt liệu lớn, thuật tốn khó đáp ứng mặt thời gian thực không gian lưu trữ
Trong khai phá tập lợi ích cao có số thách thức sau: Thứ nhất, với khối lượng liệu lớn khơng gian tìm kiếm lớn vấn đề hợp Thứ hai, tập lợi ích cao khơng có tính chất đóng [7] Do vậy, số lượng ứng cử viên sinh lớn chi phí lớn thời gian duyệt liệu nhiều lần CSDL để kiểm tra ứng viên số thuật toán [2], [8], [9] …hoặc tiêu tốn nhiều thời gian không gian nhớ để sinh điều kiện [10], [11], [12],…Thứ ba, với khối lượng liệu lớn giới hạn thời gian tính tốn u cầu nhớ máy tính khơng đáp ứng Do đó, việc thiết kế thuật toán dựa kiến trúc song song cần thiết
Trong báo chúng tơi xây dựng thuật tốn song song PPB-Miner để khai phá tập lợi ích cao với số đóng góp sau:
- Dùng bảng số để tăng tốc độ thực giảm yêu cầu nhớ Từ bảng số tập phần tử, sinh ứng viên, tìm tập lợi ích cao tạo nhanh bảng số từ tập tiền tố
- Sử dụng cấu trúc danh sách lợi ích (utility-list) để loại nhanh ứng viên độc lập xử lý phần tử xử lý
- Tối ưu lưu trữ giá trị để tính danh sách lợi ích - Xây dựng thuật tốn song song khai phá tập lợi ích cao mơ hình chia sẻ nhớ
Nội dung báo tổ chức sau: phần II trình bày số khái niệm định nghĩa Các vấn đề liên quan đến khai phá tập lợi ích cao trình bày phần III Phần IV đề xuất
Phƣơng pháp song song khai phá tập lợi ích cao dựa số hình chiếu
Parallel Method for Mining High Utility Itemsets from Projection-Based Indexing
(2)Các cơng trình nghiên cứu phát triển CNTT Truyền thơng Tập V-1, Số 17 (37), tháng 6/2017
thuật tốn PPB-Miner Phần V trình bày kết đạt so sánh với thuật toán khác Cuối kết luận
II KHÁI NIỆM VÀ ĐỊNH NGHĨA
Cho sở liệu gồm giao dịch Ti D =
{T1,T2,T3,…Tn}, giao dịch xác định
bởi Tid, I={i1,i2,i3,…in} phần tử (item) xuất
trong giao dịch, X I tập phần tử (itemsets) Một tập X gọi tập k-phần tử số lượng phần tử X k
Để thuận lợi giải thích khái niệm, đưa Bảng Cơ sở liệu giao dịch Bảng Bảng lợi ích ngồi phần tử
Bảng Cơ sở liệu giao dịch
Tid Giao dịch
A B C D E F
1 1
2 25 0
3 0 0
4 12 0
5
6 0 1
7 0 0
8 0
9 0 0
10 0
Bảng Bảng lợi ích phần tử
Item A B C D E F
Lợi ích 10
Định nghĩa [2] - Lợi ích (internal utility) phần tử giá trị phần tử giao dịch Ký hiệu: O(ik,Tj) – lợi ích phần
tử ik giao dịch Tj
Ví dụ, O(A,T1) = 1; O(C,T1) = Bảng
Định nghĩa [2] - Lợi ích ngồi (external utility) phần tử giá trị lợi ích phần tử bảng lợi ích Ký hiệu: S({ik}) lợi ích ngồi phần
tử ik
Ví dụ, S({A}) = 3; S({B}) = 10 Bảng Định nghĩa [2] - Lợi ích phần tử
tử Ký hiệu: U( ik,Tj) = S({ik}) * O(ik,Tj) lợi ích
của phần tử ik giao dịch Tj
Ví dụ, U({A},T1) = 3*1 = 3; U({C},T1) = 1*2 =
2,…
Định nghĩa [2] - Lợi ích tập phần tử X giao dịch Tj tổng giá trị lợi ích tất phần
tử tập X giao dịch Tj Ký hiệu: U(X,Tj) =
∑ ( ) – lợi ích tập phần tử X giao dịch Tj
Ví dụ, U({AC},T1) = 3*1 + 1*2 =
Định nghĩa [2] - Lợi ích tập phần tử X sở liệu tổng lợi ích tập phần tử X tất giao dịch chứa X Ký hiệu: AU(X) = ∑ ( )
Ví dụ, xét tập {AC}, ta thấy {AC}, xuất giao dịch: T1, T5 nên ta có: AU({AC}) =
U({AC},T1) + U({AC},T5) = (3*1 + 1*2) + (3*2 +
1*8) = 19
Định nghĩa [2]– Tập phần tử lợi ích cao: Tập X gọi tập phần tử lợi ích cao (HUI – High Utility Itemsets) AU(X) ≥ minutil, ngược lại gọi X tập phần tử lợi ích thấp Trong minutil ngưỡng lợi ích tối thiểu cho trước
Ví dụ, lợi ích tối thiểu minutil = 12 {AC} tập phần tử lợi ích cao
Định nghĩa [2] - Lợi ích giao dịch tổng lợi ích phần tử giao dịch Ký hiệu: TU(Tj) = ∑ ( ) – lợi ích giao
dịch Tj
Ví dụ, TU(T1) = 1*3 + 2*1 + 1*6 + 1*5 + 1*2 =
18, TU(T2) = 1*10 + 25*1 = 35
Định nghĩa [2] - Lợi ích giao dịch có trọng số tập phần tử X tổng lợi ích giao dịch có chứa tập phần tử X Ký hiệu: TWU(X) = ∑ ( ) lợi ích giao dịch có trọng số tập phần tử X
Ví dụ: TWU({AC}) = TU(T1) + TU(T5) = 18 + 24
(3)Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017
Định nghĩa [2] – Cho tập phần tử X giao dịch T, cho X T tập hợp tất phần tử đứng sau X T kí hiệu T\X
Ví dụ, Bảng T1\{AC} = {DEF} Định nghĩa 10 [2]– Lợi ích cịn lại tập phần tử X giao dịch T, kí hiệu : RU(X,T) tổng lợi ích phần tử T\X giao dịch T, RU(X,T) = = ∑ ( ) ( )
Định nghĩa 11 – Tổng lợi ích cịn lại tập phần tử X sở liệu tổng lợi ích cịn lại tập phần tử X tất giao dịch chứa X Ký hiệu: SRU(X) = ∑ ( )
Định nghĩa 12 [4] – Cấu trúc utility-list tập phần tử: utility-list tập phần tử X bao gồm trường: tid, iutil, rutil Trong đó:
- Tid số giao dịch chứa X;
- iutil lợi ích X Tid, tức U(X, Tid); - rutil lợi ích cịn lại X Tid, tức RU(X, Tid);
Định lý [4] – Cho utility-list tập phần tử X, tổng X.iutils X.rutils nhỏ ngưỡng lợi ích tối thiểu (minutil) lợi ích tập phần tử mở rộng từ tập phần tử X nhỏ lợi ích tối thiểu III VẤN ĐỀ LIÊN QUAN
Trong phần này, chúng tơi trình bày số nghiên cứu liên quan đến thuật toán khai phá tập lợi ích cao III.1 Thuật tốn khai phá tập lợi ích cao
Năm 2005, Ying Liu đưa thuật toán hai pha (two-phase) để khai phá nhanh tập lợi ích cao [3] Pha một, tìm tất tập ứng viên có TWU lớn ngưỡng minutil Pha hai, với tập ứng viên tính tốn xác lợi ích tập Với thuật tốn địi hỏi duyệt liệu nhiều lần sinh nhiều ứng viên
Năm 2010, thuật tốn sử dụng cấu trúc mẫu lợi ích [11] Vincent cộng giới thiệu Thuật toán gồm bước sau: bước 1, xây dựng mẫu lợi ích (tree); bước 2, sinh tập tiềm từ UP-tree thuật toán UP-Growth; bước 3, xác định
tập lợi ích cao từ tập tiềm Thuật toán yêu cầu phức tạp xây dựng duyệt nhiều lần
Năm 2012, Mengchi Liu giới thiệu thuật toán HUI-Miner [4] khai phá tập lợi ích cao khơng sinh tập ứngviên Thuật tốn sử dụng cấu trúc utility-list để loại nhanh tập ứng viên không cần duyệt liệu nhiều lần Nhưng nhược điểm thuật tốn chi phí kết hợp tập lợi ích cao tương đối lớn
Thuật toán UDepth [9] Wei đưa thực khai phá sở liệu theo chiều dọc Thuật toán gồm bước: duyệt liệu để xác định TWU phần tử; loại bỏ phần tử có TWU nhỏ ngưỡng tối thiểu; xếp lại phần tử có TWU cao theo thứ tự giảm dần; từ phần tử ik có TWU cao,
tìm tất tập có phần tử ik tiền tố duyệt lại
sở liệu lần để xác định tập lợi ích cao Năm 2013, Gou cộng đưa thuật toán PB [2] dựa bảng số để tăng tốc độ thực giảm yêu cầu nhớ Thuật toán sử dụng bảng số tập để sinh ứng viên, tìm tập lợi ích cao tạo nhanh bảng số từ tập tiền tố Nhược điểm thuật tốn sử dụng mơ hình TWU làm ngưỡng để cắt tỉa tập ứng viên mơ hình tạo ngưỡng cao dẫn đến số lượng ứng viên sinh lớn làm tốn nhiều chi phí kiểm tra ứng viên
Năm 2015, [13] tác giả đề xuất mô hình CWU để loại bỏ tập ứng viên Đây mơ hình tương đối hiệu thuật tốn khai phá tập lợi ích cao theo chiều sâu [2], [9], [12], v.v III.2 Thuật toán song song khai phá tập lợi ích cao
Năm 2008, A Erwin [14] đề xuất thuật tốn sử dụng mơ hình TWU với tăng trưởng mẫu dựa cấu trúc liệu mẫu lợi ích nén (CTU-tree) Thuật tốn song song lược đồ chiếu (projection scheme) để lưu trữ đĩa nhớ khơng đủ liệu lớn Kết thực nghiệm thuật toán thực hiệu với liệu lớn, dày có tập mẫu lớn
(4)Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017
cấu trúc WIT để lưu trữ liệu cục xử lý Các phần tử SlaverSite gửi MasterSite TWU lớn ngưỡng tối thiểu MasterSite kết hợp để khai phá tập lợi ích cao tập xuất hai SlaverSite khác
Năm 2013, Kannimuthu [5] cộng trình bày thuật tốn FUI khai phá tập lợi ích cao, công việc phân chia theo cách tiếp cận master nhiều slave Các giá trị lợi ích trích xuất song song slave Tổng lợi ích tính master Kết thực nghiệm cho thấy, thời gian thực thi nhanh so với thuật toán trước
IV ĐỀ XUẤT THUẬT TỐN
Trong phần này, chúng tơi trình bày thuật tốn song song PPB-Miner khai phá tập lợi ích cao dựa bảng số (IT) bảng ứng viên (TC) nhằm tính nhanh giá trị AU SRU tập phần tử trình khai phá Áp dụng định lý 1, sử dụng tổng iutils rutils tương ứng với AU SRU để tỉa ứng viên
Để tiết kiệm nhớ tính danh sách lợi ích, với phần tử ik giao dịch Tj,
chúng lưu trữ thêm đại lượng UR Trong đó, UR(ik,Tj) = U(ik,Tj) + RU(ik,Tj)
Với cách tổ chức liệu tính U(ik,Tj) = UR(ik,Tj) - UR(ik+1,Tj) RU(ik,Tj) =
UR(ik+1,Tj) Trong đó, ik+1 phần tử phía sau
ik Bằng cách lưu trữ này, ta vừa tiết kiệm
nhớ khơng cần lưu iutil rutil
Ví dụ, từ sở liệu minh họa Bảng với minutil = 56 Với lần duyệt liệu lần đầu ta tính AU TWU phần tử kết Bảng Từ Bảng loại D (vì TWU(D) = 50 < 56) xếp giảm dần theo AU tập HTWU1
Bảng Kết tính TWU AU
Itemsets A B C D E F
TWU 99 102 133 50 113 87
AU 24 40 57 24 45 12
Ta loại D khỏi giao dịch Sau tiến hành xếp phần tử giao dịch giảm dần theo AU có thứ tự C:57, E:45, B:40, A:24, F:12 ta Bảng
Bảng Lợi ích UR phần tử giao dịch
Tid Giao dịch
1 (C,12), (E,10), (A,5), (F,2)
2 (C,35), (B,10),
3 (E,12), (F,2)
4 (C,22), (B,10)
5 (C,24), (E,16), (A,6)
6 (C,6), (F,2)
7 (C,2)
8 (E,45), (B,35), (A,15), (F,6)
9 (A,6)
10 (C,14), (E,10)
Một số cấu trúc sử dụng thuật toán PPB-Miner gồm:
- Bảng tập ứng viên TCk có k-phần tử với tiền tố
tập X, tập phần tử chứa: lợi ích thực tế AU(X) tổng lợi ích cịn lại SRU(X) tương ứng
Ví dụ, Bảng gồm tập ứng viên có phần tử với tiền tố {C}
Bảng Tập ứng viên TC2 với tiền tố {C}
Itemsets AU SRU
CE 39 11
CA 19
CF 10
CB 57
- Bảng số ITX tập X gồm: giao dịch
Tj chứa tập X; vị trí p phần tử cuối tập
X xuất giao dịch Tj; U(X,Tj) – giá trị lợi
ích tập X giao dịch Tj; RU(X,Tj) – giá trị
lợi ích phần tử cịn lại sau tập X giao dịch Tj Ví dụ, từ Bảng ta xây dựng bảng số
ITC tập {C} Bảng sau: U({C},T1) =
UR({C},T1) – UR({E},T1) = 12 – 10 = 2;
RU({C},T1) = UR({E},T1); tương tự với giao
dịch 2, 4, 5, 6, 7, 10 Với thứ tự xếp giao dịch từ bảng ITC xác định
(5)Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017
dụ, với giao dịch sau vị trí sinh tập ứng viên {CE}, {CA} tính nhanh U({CE},T5) = U({C},T5) + (UR({E},T5) -
UR({A},T5)) = + (16-6) = 18 RU({CE},T5) =
UR({A},T5) = Tương tự, U({CA},T5) =
U({C},T5) + (UR({A},T5) - 0) = + (6 - 0) = 14
RU({CA},T5) = A phần tử cuối
giao dịch
Hình Thuật tốn PPB-Miner
Giả sử với hai luồng xử lý, thuật tốn PPB-Miner mơ tả Hình
Bảng Chỉ số ITC tập {C}
Tid Vị trí cuối U({C},Tj) RU({C},Tj)
1 10
2 25 10
4 12 10
5 16
6
7
10 10
IV.1 Mơ tả thuật tốn PPB-Miner
- INPUT: sở liệu giao dịch, lợi ích phần
tử, minutil - ngưỡng lợi ích tối thiểu OUTPUT: Tất tập lợi ích cao
-
Công việc Master:
1 Phân chia giao dịch cho luồng theo phương pháp động sử dụng thư viện OpenMP
2 Đợi luồng tính TWU, AU cục xong thực hiện:
2.1 Tính TWU, AU tồn cục
2.2 Từ tập I, loại phần tử có TWU nhỏ minutil, lập danh sách HTWU1 với phần tử giảm
dần theo AU; đưa 1-HUIs vào tập HUIs;
2.3 Phân chia giao dịch cho luồng đợi luồng thực xong việc loại phần tử có TWU nhỏ minutil xếp phần tử giao dịch giảm dần theo AU;
4 Phân chia phần tử HTWU1 cho
luồng để khai phá HUIs
Công việc luồng (Threads):
1 Nhận liệu từ Master để thực tính TWU AU cục bộ;
2 Nhận giao dịch từ Master thực loại phần tử có TWU nhỏ minutil xếp phần tử giao dịch giảm dần theo AU
3 Nhận phần tử i HTWU1 từ Master thực
hiện: 3.1 k=1; 3.2 X = i;
3.3 Xây dựng bảng IT1 phần tử i;
Local database
- Tính TWU, AU cục
Database
- Tính TWU, AU cục
- Tính TWU, AU tồn cục
- Loại phần tử có TWU thấp, lập danh sách HTWU1
giảm dần theo AU, đưa 1-HUIs vào HUIs - Phân chia giao dịch
- Loại phần từ có TWU thấp
- Sắp xếp giao dịch giảm dần theo AU
- Chia 1-itemsets HTWU1 cho luồng
- k=1
- Xây dựng ITk
- Xây dựng TCk+1
- k=k+1 Ouput k+1 – HUIs L=size(k+1 – HUIs)
Ouput k+1 – HUIs L=size(k+1 – HUIs)
F T
- Loại phần từ có TWU thấp
- Sắp xếp giao dịch giảm dần theo AU
- Xây dựng ITk
- Xây dựng TCk+1
- k=k+1
L>1
Local database
L>1
(6)Các công trình nghiên cứu phát triển CNTT Truyền thơng Tập V-1, Số 17 (37), tháng 6/2017
3.4 Gọi hàm PB-Miner(X,k,ITX) để khai phá tập HUIs;
//Hàm PB-Miner
Hàm PB-Miner(X,k,IT{x})
- INPUT: X – tập phần tử tiền tố; k – số phần tử tập; ITX – bảng số tập X; HTWU1
OUTPUT: danh sách tập có lợi ích cao -
//Xây dựng bảng TCk+1 với X tiền tố dựa
bảng IT{X}
1: TCk+1={};
2: For (j,p) IT{X}{
//p phần tử cuối tập X
2.1: For ip+1 Tj {
2.1.1: If (ip+1 HTWUk) {X’ = X ip+1};
2.1.2: If (X’ ∉ TCk+1) {
Chèn (X’, U(X,Tj) + (UR(ip+1,Tj) -
UR(ip+2,Tj), UR(ip+2,Tj)) vào bảng TCk+1
(Itemsets, AU, SRU)
//Chú ý, ip+2 cuối UR(ip+2,Tj) = 0;
}
2.1.3: If (X’ TCk+1) {
SRU(X’) = SRU(X’) + UR(ip+2,Tj);
AU(X’) = AU(X’) + U(X,Tj) + (UR(ip+1,Tj) -
UR(ip+2,Tj);
} }
3: For X’ TCk+1 {
3.1: If (AU(X’) + SRU(X’) ≥ minutil) { Chèn X’ vào tập HTWUk+1 ;
}
3.2: If (AU(X’) minutil){ Chèn X’ vào tập HUIs; }
4: For (X’ HTWUk+1){
4.1: Xây dựng IT{X’} từ IT{X} ;
4.2: k = k +1;
4.3: PB-Miner (X’, k, ITX’);
//tìm tập lợi ích cao theo chiều sâu với tiền tố tập {X’}
}
5: Return HUIs; IV.2 Ví dụ minh họa
Trong phần minh họa bước thuật toán với hai luồng xử lý Cơ sở liệu
giao dịch, bảng lợi ích ngồi tương ứng Bảng Bảng 2, ngưỡng lợi ích tối thiểu minutil = 56
Công việc Master:
Bước 1, Master thực phân chia giao dịch cho luồng;
Bước 2, Sau nhận TWU, AU cục từ luồng thực hiện:
Bước 2.1, Tính TWU, AU tồn cục kết Bảng
Bảng Kết TWU AU toàn cục
Itemsets A B C D E F
TWU 99 102 133 50 113 87
AU 24 40 57 24 45 12
Bảng Bảng HTWU1
Itemsets C E B A F
TWU 133 113 102 99 87
AU 57 45 40 24 12
Bước 2.2, Từ Bảng 7, loại D TWU(D) = 50 < 56 xếp giảm dần theo AU HTWU1 Kết
như Bảng
Từ Bảng ta có AU(C) = 57 > 56 nên đưa C HUIs ta HUIs = {C :57};
Bước 2.3, Phân chia giao dịch cho luồng, giả sử luồng phụ trách từ giao dịch đến giao dịch 5; luồng 2: phụ trách từ giao dịch đến giao dịch 10 Đợi luồng luồng loại phần tử có TWU nhỏ 56 xếp phần tử giao dịch giảm dần theo AU xong
Bước 3, Phân công: luồng phụ trách khai phá HUIs với tiền tố: C, B, F; luồng 2: phụ trách khai phá HUIs với tiền tố: E, A
Công việc luồng (Threads): Bước 1, Tính TWU AU cục bộ;
(7)Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017 Bước 3, Giả sử phân công sau: luồng phụ
trách khai phá HUIs với tiền tố: C, B, F; luồng 2: phụ trách khai phá HUIs với tiền tố: E, A
Giả sử thực luồng với phần tử C:
Bước 3.1, k=1;
Bước 3.2, X={C}
Bước 3.3, Xây dựng bảng ITC sau:
giao dịch ta có U(C,T1) =UR(C,T1) – UR(E,T1) = 12
– 10 = 2; RU(C,T1) = UR(E,T1) = 10 Tương tự cho
các giao dịch 2, 3, 5, 6, 7, 10 Kết Bảng
Bảng Bảng số ITC tiền tố C
Tid Vị trí cuối U(C,Tj) RU(C,Tj)
1 12 - 10 = 10
2 35 - 10 = 25 10
4 22 - 10 = 12 10
5 24 - 16 = 16
6 - =
7 - =
10 14 - 10 = 10
Bước 3.4, Luồng gọi hàm PB-Miner({C},1,ITC) để khai phá tập HUIs
Hàm PB-Miner({C},k,ITC)
//Xây dựng bảng TC2 với C tiền tố dựa bảng ITC
Bước 1, TC2={};
Bước 2, Với (j, p) ITC thực Giả
sử với (1, 1) – giao dịch vị trí
2.1 Với phần tử ip+1 đứng sau vị trí p
giao dịch Tj thực Giả sử với phần tử E
2.1.1 Ta có, E HCWU1 nên tạo tập {CE} = C E;
2.1.2 Ta có, {CE} TC2 nên đưa tương ứng:
Itemsets = {CE}; U({CE},T1) = U({C},T1) +
(UR(E,T1) - UR(A,T1)) = + (10 - 5) = 7;
RU({CE},T1) = UR(A,T1) = vào TC2(Itemsets,
AU, SRU)
Lặp lại Bước 2.1, với hai phần tử A, F sau vị trí giao dịch Bảng TC2 Bảng 10
Bảng 10 Bảng TC2 với tiền tố C
Itemsets AU RU
CE
CA
CF
Lặp lại Bước 2, với (2, 1) – giao dịch 2, sau vị trí có phần tử B HCWU1 nên tạo tập {CB}
= {C} B
Ta thấy, {CB} TC2 nên đưa tương ứng: Itemsets
= {CB}; U({CB},T2) = U({C},T1) + (UR(B,T2) -
UR(,T2)) = 25 + (10 - 0) =35; RU({CB},T2) =
UR(,T2) = vào TC2(Itemsets, AU, SRU) Kết
như Bảng 11
Bảng 11 Bảng TC2 với tiền tố C
Itemsets AU SRU
CE
CA
CF
CB 35
Lặp lại Bước 2, với (4, 1) - giao dịch 4, sau vị trí có phần tử B HTWU1 nên tạo tập {CB} = {C}
B
2.1.3 Vì {CB} TC2 nên cập nhật giá trị AU
và SRU {CB} Bảng sau:
AU({CB}) = AU({CB}) + U({C},T4) + (UR(B,T4) -
UR(,T4)) = 35 + 12 + (10 - 0) = 57 ;
SRU({CB}) = SRU({CB}) + RU(,T4) = + =
Tương tự, lặp lại Bước 2 với (5, 1), (6, 1), (7, 1), (10, 1) ta kết bảng TC2 với tiền tố C
kết Bảng 12
Bảng 12 Bảng TC2 với tiền tố C
Itemsets AU SRU
CE 39 11
CA 19
CF 10
CB 57
Bước 3, duyệt tập X’ TC2
3.1 Chỉ có AU({CB}) + RU({CB}) = 57 + = 57 > 56 nên HTWU2 = ({CB})
3.2 Chỉ có AU({CB}) = 57 > 56 nên HUs = HUs
{CB:57} = {C:57, CB:57}
Bước 4, với X’ HTWU2
4.1 Xây dựng bảng IT{CB} từ bảng ITC kết
quả Bảng 13
Bảng 13 Bảng số IT{CB} tập {CB}
Tid Vị trí cuối U({CB},Tj) RU({CB},Tj)
2 35