Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu

3 3 0
Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu trình bày các nội dung chính sau: Các thuật ngữ cho khai phá tập mục lợi ích cao trên dòng dữ liệu; Khai phá tập mục lợi ích cao trên dòng dữ liệu.

Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 KHAI PHÁ TẬP MỤC LỢI ÍCH CAO VỚI CÂY COFI-TREE TRÊN DÒNG DỮ LIỆU Nguyễn Huy Đức1, Đỗ Oanh Cường1 Trường Đại học Thủy lợi, email: ducnghuy@tlu.edu.vn GIỚI THIỆU Khai phá tập mục lợi ích cao hướng mở rộng tổng quát khai phá tập mục phổ biến, đề xuất vào năm 2004 [3] Trong [1], tác giả đề xuất thuật toán khai phá hiệu tập mục lợi ích cao CSDL giao tác, dựa cấu trúc COFI-tree Trong thực tế, có nhiều ứng dụng sinh dịng liệu (data streams) theo thời gian thực dòng giao tác dây chuyền bán lẻ, dịng kích web ứng dụng web,… Các dòng giao tác xuất liên tục, theo thời gian không giới hạn số lượng Do vậy, thời điểm khai phá, cần lấy giao tác khoảng thời gian Khi chuyển sang thời điểm sau, số giao tác cũ cần loại bỏ cần xét thêm giao tác xuất Điều quan trọng khai phá dòng liệu phải kế thừa kết cũ khoảng thời gian trước để tạo kết khoảng thời gian Dựa phương pháp cửa sổ trượt (Sliding window-based methods) khai phá tập mục phổ biến [2] cách khai phá [1], báo đề xuất thuật tốn khai phá tập mục lợi ích cao dòng liệu CÁC THUẬT NGỮ CHO KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRÊN DỊNG DỮ LIỆU Phân hoạch dòng giao tác thành khối định nghĩa cửa sổ gồm số khối Tại thời điểm, ta khai phá cửa sổ Ở thời điểm sau, có khối giao tác cũ, cần loại khỏi cửa sổ, có khối giao tác xuất thêm vào cửa sổ Ví dụ, dịng giao tác bảng 2.1 có khối giao tác B1 - B5, cửa sổ chứa khối giao tác, W1 chứa khối B1-B3 , W2 chứa khối B2 - B4 Nếu khai phá cửa sổ W1 thời điểm sau khai phá cửa sổ W2 Bảng 2.1 Dòng liệu giao tác Bảng 2.2 Bảng lợi ích Ký hiệu khối giao tác Bj, cửa sổ Wk, có số thuật ngữ sau: - Lợi ích tập mục X khối Bj, ký hiệu u B j ( X ) , tổng lợi ích tập mục X giao tác thuộc khối Bj, tức là: uB j ( X )    u (i p , Tq ) Tq B j i p X Tq - Lợi ích tập mục X cửa sổ Wk, ký hiệu uWk ( X ) , tổng lợi ích tập mục X uWk ( X )  72 khối u B j Wk thuộc ( X ) Bj W k, tức : Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 Ví dụ, dịng giao tác bảng 2.1 (với bảng lợi ích 2.2), uB1 ( BD)  u ( BD, T2 )  66 , uW1 ( BD)  u B1 ( BD )  u B2 ( BD )  u B3 ( BD )  66 - Ngưỡng lợi ích tối thiểu Wk phần trăm tổng lợi ích giao tác cửa sổ Wk Giá trị lợi ích tối thiểu xác định minutilWk  Wk  tu (Tq ) Tq Wk Ví dụ: W1  30%, minutilW1 =30%.196  58,8 - Tập mục X gọi tập mục lợi ích cao cửa sổ Wk uWk ( X )  minutilWk - Khai phá tập mục lợi ích cao Wk tìm tập HUWk chứa tất tập mục lợi ích   cao, HUWk  X / X  I , uWk ( X )  minutilWk - Lợi ích TWU tập mục X khối Bj, ký hiệu twu B j ( X ) , tổng lợi ích TWU tập mục X giao tác thuộc khối Bj, tức là: twuB j ( X )   u (Tq ) X Tq B j - Lợi ích TWU tập mục X cửa sổ Wk, ký hiệu twuWk ( X ) , tổng lợi ích TWU tập mục X khối thuộc Wk, tức : twuWk ( X )   twuB j ( X ) B j Wk - X gọi tập mục lợi ích TWU cao cửa sổ Wk twuWk ( X )  minutilWk Ví dụ: uW1 ( BD)  66, twuW1 ( BD)  twuB1 ( BD)  twuB2 ( BD)  twuB3 ( BD) =71    71 Với minutilW1  58,8 BD tập mục lợi ích cao tập mục lợi ích TWU cao KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRÊN DÒNG DỮ LIỆU Khai phá cửa sổ giống khai phá CSDL Dựa cách khai phá [1] phương pháp cửa sổ trượt [2], mục đề xuất cách khai phá dịng liệu, gọi thuật tốn COUIS-Mine (Co-Occurrence Utility Itemsets over Data Stream Mine) Thuật toán gồm hai bước : Bước 1: Xây dựng HUI-Tree cửa sổ thời Wk, sau khai phá tìm tập mục có lợi ích TWU cao Wk Bước 2: Duyệt lại cửa sổ Wk để tính lợi ích thực tập mục tìm bước 1, từ xác định tập mục lợi ích cao Wk Để khai phá tiếp cửa sổ Wk+1 , thuật toán loại bỏ thông tin khối giao tác cũ bổ sung thông tin khối giao tác xuất vào HUI-Tree 3.1 Xây dựng HUI-Tree Giả sử kích thước cửa sổ (số khối giao tác cửa sổ) s Xây dựng HUI-Tree thực theo thuật toán [1] với cải tiến: trường twu nút thay dãy [twu1 , twu , , twu s ] - dãy giá trị TWU s khối giao tác cửa sổ Thuật toán xây dựng HUI-tree Input: Dòng DL giao tác, bảng lợi ích, kích thước khối b, kích thước cửa sổ s Output: Cây HUI-tree Method: Cây HUI-tree xây dựng sau: Chia dòng giao tác thành khối Bj, xác định cửa sổ thời Wk Tạo cây: - Tạo nút gốc R Xây dựng bảng đầu mục chứa tất mục liệu theo trật tự từ điển, giá trị twu gán - Duyệt khối Bj cửa sổ thời Wk , với giao tác T  B j , tính lợi ích tu (T ) Giả sử mục liệu T [x | L] , x mục liệu đầu L phần lại, gọi hàm insert _ tree([x | L], R) Hàm insert_tree([x | L], R): xét giao tác T thuộc khối giao tác thứ i cửa sổ thời Nếu R có nút N nhãn x điều chỉnh giá trị thứ i dãy twu nút N: N.twu i : N.twu i  tu T  , trường twu mục x bảng đầu mục tăng thêm tu(T) Ngược lại, tạo nút N nút nút R gán nhãn x, giá trị thứ i dãy twu nút N gán tu(T): N.twu i : tu T  , 73 Tuyển tập Hội nghị Khoa học thường niên năm 2020 ISBN: 978-604-82-3869-8 trường twu mục x bảng đầu mục tăng thêm tu(T) bổ sung đường liên kết từ bảng đầu mục đến nút N Nếu L khác rỗng gọi đệ quy hàm insert _ tree(L, N) 3.2 Cập nhật HUI-tree 3.3 Khai phá HUI-tree Khai phá HUI-tree cửa sổ thực khai phá CSDL [1] Với minutilW2  57,3 , khai phá HUI-tree hình 3.2 nhận kết bảng 3.1 Khi khối giao tác B4 xuất hiện, ta cần xóa thơng tin khối B1 đưa thơng tin khối B4 vào Xóa thơng tin khối B1 sau: với nút cây, thay đổi dãy [twu1 , twu , twu ] cách chuyển dãy twu , twu dịch lên đầu thành [twu , twu , 0] Nếu dãy chuyển thành [0, 0, 0] nút chứa bị tỉa khỏi (Hình 1.1) (hình 2.2) minh họa HUI-tree với kích thước cửa sổ s = Bảng 3.1 Kết khai phá TT Tập ứng viên E BDE BE DE D BD B Lợi ích TWU 151 111 111 111 111 111 111 Lợi ích 25 111 105 22 30 106 110 Tập mục lợi ích cao khơng có có khơng khơng có có KẾT LUẬN Bài báo đề xuất khai phá tập mục lợi ích cao dịng liệu thực theo thuật toán [1], với thay đổi nút chứa dãy [twu1, twu2, …, twus] để giải việc cập nhật khối giao tác Chiều cao HUI-tree giới hạn chiều dài giao tác dài (thường nhỏ so với số mục liệu), kỹ thuật máy tính đủ đáp ứng nhớ để lưu tiền tố [4] Thuật toán thực nghiệm số tập liệu với kết thực hiệu Hình 1.1 Cây HUI-Tree cửa sổ W1 TÀI LIỆU THAM KHẢO Hình 2.2 Cây HUI-Tree cửa sổ W2 Nhận xét: Đường từ nút N lên gốc xác định mẫu có lợi ích TWU tổng giá trị dãy twu nút N Ví dụ, hình 2.5, đường từ nút E (từ bảng đầu mục trỏ ra) lên gốc xác định mẫu ECA có twu (ECA) = 12 + + = 12 [1] Nguyễn Huy Đức, 2019, Khai phá tập mục lợi ích cao với COFI-tree, Kỷ yếu Hội nghị Khoa học thường niên ĐH Thủy lợi, 2019 [2] J.H Chang, W.S Lee, Online data stream mining of recent frequent itemsets by sliding window method Journal of Information Sciences , 31(2),76-90, 2005 [3] A foundational Approach to Mining Itemset Utilities from Databases Proceedings of the 4th SIAM International Conference on Data Mining, Florida, USA, 2004 [4] X Zhu, Y Liu, An efficient frequent pattern mining algorithm using a highly compressed prefix tree, Intelligent Data Analysis, vol 23, no S1, pp 153-173, 2019 74 ...  71 Với minutilW1  58,8 BD tập mục lợi ích cao tập mục lợi ích TWU cao KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRÊN DÒNG DỮ LIỆU Khai phá cửa sổ giống khai phá CSDL Dựa cách khai phá [1] phương pháp cửa... tập mục lợi ích cao cửa sổ Wk uWk ( X )  minutilWk - Khai phá tập mục lợi ích cao Wk tìm tập HUWk chứa tất tập mục lợi ích   cao, HUWk  X / X  I , uWk ( X )  minutilWk - Lợi ích TWU tập. .. sổ thời Wk, sau khai phá tìm tập mục có lợi ích TWU cao Wk Bước 2: Duyệt lại cửa sổ Wk để tính lợi ích thực tập mục tìm bước 1, từ xác định tập mục lợi ích cao Wk Để khai phá tiếp cửa sổ Wk+1

Ngày đăng: 09/07/2022, 15:04

Hình ảnh liên quan

Ví dụ, dòng giao tác bảng 2.1 có các khối giao tác B 1 - B5 , mỗi cửa sổ chứa 3 khối giao  tác, W 1 chứa 3 khối B1-B3 , W2  chứa 3 khối   - Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu

d.

ụ, dòng giao tác bảng 2.1 có các khối giao tác B 1 - B5 , mỗi cửa sổ chứa 3 khối giao tác, W 1 chứa 3 khối B1-B3 , W2 chứa 3 khối Xem tại trang 1 của tài liệu.
trường twu của mục x trong bảng đầu mục tăng thêm tu(T) và bổ sung đường liên kết từ  bảng đầu mục  đến nút mới N - Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu

tr.

ường twu của mục x trong bảng đầu mục tăng thêm tu(T) và bổ sung đường liên kết từ bảng đầu mục đến nút mới N Xem tại trang 3 của tài liệu.
(Hình 1.1) và (hình 2.2) minh họa cây HUI-tree với kích thước cửa sổ s = 3.   - Khai phá tập mục lợi ích cao với cây COFI-tree trên dòng dữ liệu

Hình 1.1.

và (hình 2.2) minh họa cây HUI-tree với kích thước cửa sổ s = 3. Xem tại trang 3 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan