Bài viết trình bày một phương pháp khai thác tập lợi ích cao có lợi nhuận âm trên CSDL phân tán dọc. Việc khai thác tập lợi ích cao đã được nghiên cứu và công bố rộng rãi trong những năm gần đây.
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 3, 2020 25-38 KHAI THÁC TẬP MỤC LỢI ÍCH CAO CÓ LỢI NHUẬN ÂM TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC Cao Tùng Anha*, Ngô Quốc Huya, Võ Hồng Khanga Khoa Cơng nghệ Thơng tin, Trường Đại học Cơng nghệ TP.HCM, TP Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Email: ct.anh@hutech.edu.vn a Lịch sử báo Nhận ngày 27 tháng 02 năm 2020 Chỉnh sửa ngày 24 tháng năm 2020 | Chấp nhận đăng ngày 24 tháng năm 2020 Tóm tắt Tập lợi ích cao (TLIC) vấn đề quan trọng khai phá liệu, xem xét lợi ích mục (chẳng hạn lợi nhuận lãi suất) khám phá từ sở liệu (CSDL) giao dịch hỗ trợ cho việc kinh doanh đơn vị Bài báo trình bày phương pháp khai thác tập lợi ích cao có lợi nhuận âm CSDL phân tán dọc Việc khai thác tập lợi ích cao nghiên cứu công bố rộng rãi năm gần Có nhiều thuật tốn khai thác tập lợi ích cao (TLIC) cách cắt tỉa ứng cử viên dựa giá trị lợi ích dựa giá trị sử dụng có trọng số giao dịch Các thuật toán hướng tới mục đích làm giảm khơng gian tìm kiếm Trong báo này, đề xuất phương pháp khai thác tập lợi ích cao có lợi nhuận âm (TLIC-TSA) từ CSDL phân tán dọc Phương pháp không tích hợp CSDL từ CSDL cục bên tham gia để hình thành CSDL tập trung thực việc quét CSDL bên tham gia lần Các thí nghiệm cho thấy thời gian chạy phương pháp hiệu so với khai thác sở liệu tập trung Từ khóa: Cơ sở liệu; Cơ sở liệu phân tán dọc; Khai thác liệu; Lợi nhuận âm; Tập lợi ích cao DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.666(2020) Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2020 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC 4.0 25 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] EXPLOIT MINING HIGH UTILITY ITEMSETS WITH NEGATIVE UNIT PROFITS FROM VERTICALLY DISTRIBUTED DATABASES Cao Tung Anha*, Ngo Quoc Huya, Vo Hoang Khanga a Faculty of Information Technology, Hochiminh City University of Technology, Hochiminh City, Vietnam * Corresponding author: Email: ct.anh@hutech.edu.vn Article history Received: February 27th, 2020 Received in revised form: June 24th, 2020 | Accepted: September 24th, 2020 Abstract High Utility Itemset (HUI) mining is an important problem in the data mining literature that considers the utilities for businesses of items (such as profits and margins) that are discovered from transactional databases There are many algorithms for mining high utility itemsets (HUIs) by pruning candidates based on estimated and transaction-weighted utilization values These algorithms aim to reduce the search space In this paper, we propose a method for mining HUIs with negative unit profits from vertically distributed databases This method does not integrate databases from the relevant local databases to form a centralized database Experiments show that the run-time of this method is more efficient than that of the centralized database Keywords: Data mining; Database; High utility itemset; Negative unit profits; Vertically distributed databases DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.666(2020) Article type: (peer-reviewed) Full-length research article Copyright © 2020 The author(s) Licensing: This article is licensed under a CC BY-NC 4.0 26 Cao Tùng Anh, Ngơ Quốc Huy, Võ Hồng Khanh GIỚI THIỆU Khai thác tập lợi ích cao (TLIC) hình thức chung việc khai thác tập thuộc tính thường xuyên (TMTX) (Agrawal & Shafer, 1996) Nó nhằm mục đích tìm tập lợi ích cao từ sở liệu Tuy nhiên, khơng giống khai thác TMTX, TLIC khơng đáp ứng tính chất Apriori, tập hợp TLIC khơng có khả TLIC Do đó, chúng tơi khơng thể sử dụng đầy đủ thuật tốn TMTX cho khai thác TLIC Năm 2004, Yao, Hamilton, Butz (2004) đề xuất mơ hình khai thác TLIC Họ đề xuất thuật toán UMining UMining_H (UMining với heuristic) để tìm TLIC (Yao & Hamilton, 2006) Gần đây, số thuật toán dựa việc sử dụng trọng số giao dịch (TWU) phát triển (Erwin & Gopalan & Achuthan, 2007a, 2007b; Le, Nguyen, Cao & Vo, 2009; Liu, Liao & Choudhary, 2005) Trước tiên, thuật toán hai pha (Two - Phase) đề xuất Liu ctg (2005) Sau đó, số thuật tốn hiệu đề xuất (Erwin et al., 2007b), chúng dựa phương pháp không tạo ứng cử viên để khai thác TLIC Trong Vo, Nguyen, Le (2009), tác giả đề xuất WIT-tree, cấu trúc liệu thuật toán hiệu để khai thác TLIC Mặc dù có nhiều thuật tốn để khai thác TLIC, chưa có mơ hình khai thác tập lợi ích cao có lợi nhuận âm sở liệu (CSDL) phân tán dọc Ngày nay, việc cạnh tranh công ty trở nên ngày gay gắt, chiến dịch khuyến với ưu đãi tối đa cho người dùng, với mục tiêu kích cầu mua hàng, số sản phẩm khuyến đính kèm sản phẩm khơng tránh đến việc lỗ tạo khoản đơn vị lợi nhuận âm Ngoài cơng ty hạ giá bán thấp giá mua số sản phẩm để thu hồi vốn từ phát sinh đơn vị lợi nhuận âm Từ thực tế nghiên cứu, báo này, đề xuất phương pháp khai thác TLIC-TSA (tập lợi ích cao có lợi nhuận âm) CSDL phân tán dọc Những đóng góp viết sau: • Chúng tơi đề xuất mơ hình chung để khai thác TLIC-TSA từ sở liệu phân tán dọc; • Với phương pháp đề xuất (TLIC-TSA) thực quét CSDL cục bên tham gia lần khơng cần tích hợp CSDL nhiều bên thành CSDL tập trung Điều nhằm giảm thời gian khai thác theo phương pháp cũ giảm yêu cầu nhớ bên tiến hành khai thác Phần lại báo tổ chức sau: Phần trình bày tảng lý thuyết số phương pháp để giải vấn đề khai thác TLIC Mơ hình cho TLIC-TSA sở liệu phân tán dọc trình bày phần 3, phần này, thảo luận cách hoạt động MasterSite, SlaverSite cách chúng trao đổi thông tin với Phần cung cấp kết thử nghiệm đánh giá hiệu suất 27 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] chiến lược đề xuất Cuối cùng, chúng tơi trình bày kết luận cơng việc tương lai phần CÁC NGHIÊN CỨU LIÊN QUAN Trong năm gần đây, nhiều thuật toán TLIC đề xuất (Le et al., 2009; Liu et al., 2005; Yao et al., 2004) Tính hữu dụng tập thuộc tính đặc trưng ràng buộc lợi ích Nghĩa là, tập thuộc tính thú vị với người dùng lợi ích thỏa mãn ràng buộc lợi ích định (minutil) Thuật toán FHN: đề xuất Lin, Fournier-Viger, Gan (2016) Ý tưởng thuật tốn dựa cấu trúc danh sách lợi ích dương âm để khai thác hiệu nhóm lợi ích cao, đồng thời xem xét lợi nhuận đơn vị dương âm Tính hữu ích tập thuộc tính tính giá trị giao dịch lợi ích tập thuộc tính Giá trị giao dịch tập thuộc tính, ký hiệu xpq, giá trị thuộc tính liên kết với tập thuộc tính ip tq giao dịch Giá trị lợi ích mặt hàng, ký hiệu yp, số thực định người dùng cho hai mục ip iq, yp lớn yq người dùng thích ip tập thuộc tính iq Vấn đề khai thác tập thuộc tính dựa lợi ích khám phá tập H tất TLIC, TLIC = {S | S ⊆ I, u(S) ≥ minutil} 𝑢(𝑆) = ∑𝑖𝑝 ∈𝑆 ∑𝑡𝑞∈𝑇𝑠 𝑓(𝑥𝑝𝑞 , 𝑦𝑝 ) (1) f (xpq, yp) = xpq ⋅ yp Ts tập hợp giao dịch có chứa mục S 2.1 Phương pháp giá trị lợi ích ước tính Yao ctg (2004) làm giảm khơng gian tìm kiếm cách cắt tỉa ứng cử viên dựa giá trị lợi ích ước tính Lợi ích tập thuộc tính Sk ln nhỏ giới hạn lợi ích Sk dựa lợi ích giới hạn Sk, Yao Hamilton đề xuất thuật toán UMining (Yao & Hamilton, 2006) để khai thác tất tập lợi ích cao 2.2 Các cơng thức Liu ctg (2005) giảm khơng gian tìm kiếm cách cắt tỉa ứng cử viên dựa giá trị sử dụng trọng số giao dịch (TWU) Lợi ích vật phẩm S nhỏ giá trị twu S 𝑇𝑊𝑈(𝑆) = 𝑡𝑢(𝑇𝑠 ) = ∑𝑡𝑞∈𝑇𝑠 𝑡𝑢(𝑡𝑞 ) = ∑𝑡𝑞∈𝑇𝑠 ∑𝑖𝑝 ∈𝑡𝑞 𝑓(𝑥𝑝𝑞 , 𝑦𝑝 ) (2) 𝑢(𝑆) = ∑𝑡𝑞 ∈𝑇𝑠 ∑𝑖𝑝 ∈𝑆 𝑓(𝑥𝑝𝑞 , 𝑦𝑝 ) ≤ ∑𝑡𝑞 ∈𝑇𝑠 ∑𝑖𝑝 ∈𝑡𝑞 𝑓(𝑥𝑝𝑞 , 𝑦𝑝 ) = 𝑇𝑊𝑈(𝑆) (3) 28 Cao Tùng Anh, Ngô Quốc Huy, Võ Hoàng Khanh 𝑇𝑈𝑊(𝑆 𝑘−1 ) = ∑𝑡𝑞 ∈𝑇 𝑆𝑘−1 𝑡𝑢(𝑡𝑞 ) ≥ ∑𝑡𝑞∈𝑇 𝑘 𝑡𝑢(𝑡𝑞 ) = 𝑇𝑊𝑈(𝑆 𝑘 ) 𝑆 (4) Cách tính áp dụng tính tốn chúng tơi liệu bên gửi máy để khai thác Erwin ctg (2007a) đề xuất thuật toán hiệu cách sử dụng phương pháp tăng trưởng mẫu Họ phát triển biểu diễn liệu nhỏ gọn có tên nén lợi ích mở rộng CFP (Gopalan & Sucahyo, 2004) để khai thác TLIC thuật tốn có tên CTU-PRO Zida, Fournier-Viger, Lin, Wu, Tseng (2017) đề xuất thuật toán giải tốc độ chạy, nghiên cứu thử nghiệm nhiều liệu khác cho thấy EFIM nói chung nhanh hai đến ba bậc so với thuật toán đại d2HUP, HUIMiner, HUP-Miner, FHM UP-Growth+ liệu dày đặc hoạt động tốt tập liệu thưa thớt nhiên chưa so sánh với TWU TWU nhanh thuật toán trên, EFIM so với HUI-miner nhanh so với TWU, TWU nhanh lần HUI EFIM nhanh 2,5 lần nên chọn TWU Khái niệm TWU sử dụng để cắt xén không gian tìm kiếm CTU-PRO, phải qt lại sở liệu để xác định lợi ích thực tế mục TWU cao Thuật toán tạo Cây CUP có tên GlobalCUP-Tree từ CSDL giao dịch sau lần xác định mục TWU cao riêng lẻ Đối với mục TWU cao, chiếu nhỏ có tên LocalCUP-Tree trích xuất từ GlobalCUP để khai thác tất TLIC bắt đầu với mục làm tiền tố Le ctg (2009) đề xuất cấu trúc liệu WIT (WIT-TREE) thuật toán khai thác TLIC (thuật toán khai thác TWU), thuật toán cải tiến thời gian khai thác, nhằm tính nhanh TWU độ có ích itemset Chúng tơi nhận thấy thuật tốn phù hợp để khai thác TLIC-TSA sở liệu phân tán dọc Cấu trúc liệu WIT: 𝑇𝑖𝑑𝑠𝑒𝑡 Đỉnh: ký hiệu: 𝑋𝑥 𝑡𝑤𝑢(𝑋) , bao gồm trường: Mục liệu X, Tidset: giao dịch chứa X twu: Tổng trọng số giao dịch X Giá trị TWU(X) tính cách tổng hợp tất giá trị TWU giao dịch mà giá trị chúng chứa Tidset Do đó, việc tính tốn TWU(X) u(X) thực nhanh chóng cách sử dụng Tidset Cung: Kết nối đỉnh cấp thứ k (gọi X) với đỉnh cấp thứ k + (gọi Y) 𝑋 ≡ 𝜃𝑘 𝑌 29 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] DỮ LIỆU (HOẶC VẬT LIỆU) VÀ PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Đặt vấn đề Một siêu thị bán n mặt hàng 𝐼 = {𝑖1, 𝑖2 , … 𝑖𝑛 } cần chun mơn hóa, siêu thị cần lưu trữ thơng tin giao dịch k máy tính (k chi nhánh), tức chi nhánh lưu trữ thông tin mặt hàng (bộ sản phẩm) Chúng ta hình thành sau: Cơ sở liệu D chia thành n (chi nhánh tham gia) chi nhánh {D1, D2 …, Dn}, Dj chứa tập hợp mục 𝐽 = {𝑖𝑗1 , 𝑖𝑗2 , … 𝑖𝑗𝑣 } (v số mục liệu chi nhánh Dj), giao dịch Dj chứa mục chứa ij Giả sử Ii∩Ij = ∅, ∀i ≠j ⋃𝑘𝑗=1 𝐼𝑗 = 𝐼 Khi giao dịch tạo, có ID giao dịch mới, mặt hàng mua số lượng mặt hàng cập nhật chi nhánh tương ứng Do đó, khơng phải CSDL tập trung làm cho siêu thị dễ quản lý không bị tải trường hợp lượng liệu khổng lồ Vấn đề làm để khai thác TLIC từ CSDL nhiều chi nhánh mà khơng tích hợp (thực phép kết) chúng lại với thành CSDL tập trung (cơ sở liệu lớn trường hợp tích hợp tất chi nhánh lại với nhau)? Ví dụ: Giả sử ta có CSDL giao dịch siêu thị Bảng Bảng Dữ liệu giao dịch Tập thuộc tính TID A B C D E F G H T1 1 0 T2 T3 5 0 T4 3 0 T5 2 Nhưng thực tế, liệu giao dịch, mục lợi nhuận có trọng số âm mục lại được chia lưu trữ ba chi nhánh (ở ba địa điểm khác nhau) Bảng 2, 3, Bảng Dữ liệu giao dịch chi nhánh A B C D Tập thuộc tính Lợi ích T1 1 A -1 T2 B T3 C T4 3 D 30 Cao Tùng Anh, Ngô Quốc Huy, Võ Hoàng Khanh T5 Bảng Dữ liệu giao dịch chi nhánh E F Tập thuộc tính Lợi ích T1 0 E T2 F -1 T3 T4 T5 Bảng Dữ liệu giao dịch chi nhánh G H Tập thuộc tính Lợi ích T1 G -1 T2 H T3 0 T4 0 T5 Yêu cầu khai thác từ liệu ba chi nhánh khai thác tập lợi ích cao CSDL tập trung tồn cục 3.2 Mơ hình khai thác Bước 1: MasterSite (MS) gửi yêu cầu khai thác tới tất chi nhánh (tên CSDL khai thác, minutil) chờ thông tin từ chi nhánh Bước 2: SlaverSite (SS) nhận thông tin yêu cầu từ MasterSite SlaverSite tính tốn thơng tin cần thiết gửi đến MasterSite Trình tự bước sau: • Nhận yêu cầu khai thác, minutil • Tính tổng lợi ích tất giao dịch theo liệu chi nhánh (TWU(Ti,j)) với i giao dịch thứ i j chi nhánh Tính tập giao dịch mục liệu (tidset) độ lợi ích mục liệu tất giao dịch CSDL cục • Gửi thơng tin đến MasterSite Bước 3: Khi nhận đủ thông tin từ tất chi nhánh, MS khai thác TLIC-TSA cách gọi thuật toán TWU-Mining (Le et al., 2009) Sau có kết khai thác, MS gửi tập lợi ích cao tồn cục cho tất chi nhánh 31 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Hình Mơ hình khai thác TLIC-TSA Áp dụng mơ hình khai thác cho liệu minh họa: Bước 1: MS gửi yêu cầu khai thác CSDL chi nhánh Bảng 2, 3, với minutil = 30 đến ba chi nhánh Bước 2: Tại chi nhánh tiến hành khai thác cách: tính tidset giá trị lợi ích cao mục đơn Tiếp tính tổng lợi nhuận giao dịch CSDL cục chi nhánh Ví dụ chi nhánh tính tidset giá trị lợi ích cao mặt hàng B ta có: Bx345/14, mặt hàng B xuất giao dịch 3, 4, tổng lợi ích B giao dịch 14 Tổng lợi nhuận giao dịch T1, T2 chi nhánh là: TWU(T1,1) = 1x(-1) + 1x(1) + 1x(2) = TWU(T2,1) = 2x(-1) + 6x(1) = Tương tự, tính tidset tổng lợi ích tất mặt hàng (mục liệu đơn) tổng lợi ích giao dịch chi chi nhánh ta có Bảng 5, 6, 7: Bảng Kết tính tốn chi nhánh Tdset TID TWU Lợi ích -1 -2 -1 -2 T1 Tdset T2 Lợi ích T3 14 Tdset T4 15 Lợi ích T5 Tdset Lợi ích 10 A B C D 32 Cao Tùng Anh, Ngô Quốc Huy, Võ Hồng Khanh Bảng Kết tính tốn chi nhánh Tdset TID TWU Lợi ích 3 T1 Tdset T2 Lợi ích -5 T3 -2 T4 T5 E F Bảng Kết tính tốn chi nhánh G H Tdset TID TWU Lợi ích -5 -2 T1 15 Tdset T2 -5 Lợi ích 15 T3 T4 T5 -2 Sau chi nhánh gửi kết tính tốn cho bên Master Bước 3: Tại MS, sau nhận thông tin từ chi nhánh (n chi nhánh), MS tính tổng lợi nhuận giao dịch (Ti) dựa kết từ CSDL cục chi nhánh (j) Ta có Bảng chứa tổng lợi ích giao dịch 𝑇𝑊𝑈(𝑇𝑖 ) = ∑𝑗∈[1,𝑛] 𝑇𝑊𝑈(𝑇𝑖𝑗 ) (5) Bảng Tổng lợi ích giao dịch từ CSDL cục TID TWU T1 17 T2 T3 12 T4 18 T5 Để tính giá trị TWU(X) tồn cục mục liệu X, MS tính tổng giá trị TWU giao tác mà tid chúng chứa Tidset với giá trị lợi nhuận dương Ví dụ: TWU(B) = TWU(T3) + TWU(T4) + TWU(T5) = 35 TWU(D) = TWU(T1) + TWU(T3) + TWU(T4) = 47 Từ tính toán TWU so sánh với minutil = 30, MS xây dựng mức thứ WIT-Tree (như Hình 2) 33 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] MS tiếp tục trình khai thác TLIC-TSA dựa thuật toán TWU-Mining với minutil = 30 Xét nút {A} kết hợp với {B}, ta có itemset ABx34 với TWU(AB) = 18+20 = 38 Kết hợp với C, ta có itemset ACx1234 với TWU(AC) = 18+12+18+20 = 68 Kết hợp với D, ta có itemset ADx134 với TWU(AD) = 18+18+20 = 56 Kết hợp với E, ta có itemset AEx234 với TWU(AE) = 12+18+20 = 50 Kết hợp với BD, ta có itemset ABDx34 với TWU(ABD) = 18+20 = 38 Kết hợp với {ABE}, ta có itemset ABDEx34 với TWU(ABDE) = 18+20 = 38 Tiếp đó, tính u(ABDE) = 31, thỏa minutil, thêm vào TLIC-TSA, TLICTSA = {ABDE} Làm tương tự cho bước (chi tiết Hình 2) Sau MS tính tốn xong, ta có tập lợi ích cao có lợi nhuận âm TLIC-TSA = {BCD, BDE, ABDE, BCDE, ABCDE} MS gửi kết cho tất bên Hình WIT-tree áp dụng cho TLIC-TSA 34 Cao Tùng Anh, Ngơ Quốc Huy, Võ Hồng Khanh THỰC NGHIỆM Ngôn ngữ thực nghiệm sử dụng ngôn ngữ C# phiên 2014 Cấu hình máy tính bên Intel 3.2GHz, xử lý Core i5, Ram 8GB, hệ điều hành Window 10 – 64 bit Chúng thực nghiệm với năm bên khác để đo thời gian thực Thời gian đo tính từ MS gửi yêu cầu khai thác cho bên tính tổng thời gian thực tất bên MS Thời gian truyền liệu bên trường hợp coi không đáng kể Cơ sở liệu thử nghiệm có tính (Bảng 9): Bảng Dữ liệu thực nghiệm CSDL #Giao dịch #Tập thuộc tính Ghi BMS-POS 515597 1656 Chỉnh sửa Retails 88162 16469 Chỉnh sửa Accidents 340183 468 Chỉnh sửa Chúng sửa đổi liệu thực nghiệm cách thêm cột giá trị (ngẫu nhiên phạm vi từ đến 10) cho mục tương ứng với giao dịch Chúng tạo thêm bảng để lưu trữ giá trị lợi ích tập thuộc tính, cột giá trị lợi ích có giá trị âm dương (giá trị phạm vi từ đến 10) Mỗi CSDL thực nghiệm chia thành năm phần ngẫu nhiên xấp xỉ lưu trữ năm máy tích khác mạng cục (Bảng 10) Bảng 10 Kết thực nghiệm CSDL Minutil (%) TWU-Mining TLIC-TSA Phân tán #TLIC 4.0 36.09 30.19 3.0 52.75 47.64 2.0 91.35 82.23 18 1.0 176.46 164.33 142 0.8 10.43 9.25 24 0.6 22.23 13.94 41 0.4 53.44 31.26 59 0.2 167.19 146.97 215 0.8 12.34 10.26 0.6 28.63 14.31 0.4 62.25 49.69 11 0.2 183.2 156.75 123 BMS-POS Retails Accidents Trong Le ctg (2009), tác giả thực nghiệm cho kết TWU-Mining nhanh thuật tốn dựa giới hạn lợi ích (Yao & Hamilton, 2006) Two 35 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] - Phase (Liu et al., 2005), chúng tơi so sánh mơ hình đề xuất với TWU-Mining để đánh giá thời gian thực Hình Thời gian thực nghiệm CSDL BMS-POS Hình Thời gian thực nghiệm CSDL Retails Hình Thời gian thực nghiệm CSDL Accidents Kết thực nghiệm Bảng 10, Hình 3, 4, cho thấy thời gian thực phương pháp khai thác TLIC-TSA đề xuất sở liệu phân tán dọc thời gian thực sở liệu tập trung Do tính tốn phân tán chi nhánh thực trước liệu gom tập trung nơi nên việc khai thác tập lợi ích 36 Cao Tùng Anh, Ngơ Quốc Huy, Võ Hồng Khanh cao có lợi nhuận âm MasterSite tốn thời gian nhớ so với thực CSDL tập trung lớn KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo này, chúng tơi trình bày mơ hình khai thác TLIC-TSA có lợi nhuận âm từ sở liệu phân tán dọc thực nghiệm để thấy hiệu mơ hình đề xuất Theo kỹ thuật WIT, thuật toán quét lần sở liệu cục bên tham gia sau tính tốn gửi kết cho MS Do đó, việc khai thác tập thuộc tính lợi ích cao MasterSite tốn thời gian Nếu cộng thời gian tính tốn bên lại kết thực nghiệm cho thấy tổng thời gian so với TWUMining CSDL tập trung Tuy nhiên, đề cập đến khai thác tập lợi ích cao có lợi nhuận âm từ sở liệu phân tán dọc, thuật toán hiệu để khai thác TLIC có lợi nhuận âm sở liệu phân tán ngang thảo luận Bên cạnh việc nghiên cứu bảo tồn tính riêng tư cho liệu bên tham gia nghiên cứu thời gian tới TÀI LIỆU THAM KHẢO Agrawal, R., & Shafer, J C (1996) Parallel mining of association rules IEEE Transactions on knowledge and Data Engineering, 8(6), 962-969 http://doi.org/ 10.1109/69.553164 Erwin, A., Gopalan, R P., & Achuthan, N R (2007a) CTU-Mine: An efficient high utility itemset mining algorithm using the pattern growth approach Paper presented at The 7th IEEE International Conference on Computer and Information Technology (CIT 2007), Fukushima, Japan http://doi.org/10.1109/CIT.2007.120 Erwin, A., Gopalan, R P., & Achuthan, N R (2007b) A bottom-up projection based algorithm for mining high utility itemsets In K L Ong, W Li, & J Gao (Eds.), Proceedings of the 2nd international workshop on Integrating artificial intelligence and data mining - Volume 84 (pp 3-11) Australian Computer Society Inc, Australia Gopalan, R P., & Sucahyo, Y G (2004) High performance frequent patterns extraction using compressed FP-tree Paper presented at The SIAM International Workshop on High Performance and Distributed Mining (HPDM), Orlando, USA Le, B., Nguyen, H., Cao, T A., & Vo, B (2009) A novel algorithm for mining high utility itemsets Paper presented at The 2009 First Asian Conference on Intelligent Information and Database Systems, Donghoi, Vietnam http://doi.org/ 10.1109/ACIIDS.2009.55 Lin, J C W., Fournier-Viger, P., & Gan, W (2016) FHN: An efficient algorithm for mining high-utility itemsets with negative unit profits Knowledge-Based Systems, 111, 283-298 https://doi.org/10.1016/j.knosys.2016.08.022 Liu, Y., Liao, W K., & Choudhary, A (2005) A fast high utility itemsets mining algorithm In G Weiss, M Saar-Tsechansky, B Zadrozny (Eds), Proceedings of 37 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] the 1st international workshop on Utility-based data mining (pp 90-99) Association for Computing Machinery, USA Vo, B., Nguyen, H., & Le, B (2009) Mining high utility itemsets from vertical distributed databases Paper presented at The 2009 IEEE-RIVF International Conference on Computing and Communication Technologies (pp 1-4), Danang, Vietnam http://doi.org/10.1109/RIVF.2009.5174650 Yao, H., & Hamilton, H J (2006) Mining itemset utilities from transaction databases Data & Knowledge Engineering, 59(3), 603-626 http://doi.org/10.1016/j.datak.2005.10.004 Yao, H., Hamilton, H J., & Butz, C J (2004) A foundational approach to mining itemset utilities from databases In M W Berry, U Dayal, C Kamath, & D Skillicorn (Eds.), Proceedings of the 2004 SIAM International Conference on Data Mining (pp 482-486) Society for Industrial and Applied Mathematics, USA Zida, S., Fournier-Viger, P., Lin, J C W., Wu, C W., & Tseng, V S (2017) EFIM: a fast and memory efficient algorithm for high-utility itemset mining Knowledge and Information Systems, 51(2), 595-625 http://doi.org/10.1007/s10115-0160986-0 38 ... pháp khai thác TLIC-TSA đề xuất sở liệu phân tán dọc thời gian thực sở liệu tập trung Do tính toán phân tán chi nhánh thực trước liệu gom tập trung nơi nên việc khai thác tập lợi ích 36 Cao Tùng... ích cao có lợi nhuận âm từ sở liệu phân tán dọc, thuật tốn hiệu để khai thác TLIC có lợi nhuận âm sở liệu phân tán ngang thảo luận Bên cạnh việc nghiên cứu bảo tồn tính riêng tư cho liệu bên tham... Bảng Dữ liệu giao dịch chi nhánh G H Tập thuộc tính Lợi ích T1 G -1 T2 H T3 0 T4 0 T5 Yêu cầu khai thác từ liệu ba chi nhánh khai thác tập lợi ích cao CSDL tập trung tồn cục 3.2 Mơ hình khai thác