1. Trang chủ
  2. » Tất cả

Khai thác tập hữu ích cao tương quan trên cơ sở dữ liệu giao dịch có lợi nhuận âm

7 6 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 863,59 KB

Nội dung

Nguyễn Văn Lễ, Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý KHAI THÁC TẬP HỮU ÍCH CAO TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH CÓ LỢI NHUẬN ÂM Nguyễn Văn Lễ*, Nguyễn Thị Thanh Thủy+, Mạnh Thiên Lý+ *Khoa Công[.]

Nguyễn Văn Lễ, Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý KHAI THÁC TẬP HỮU ÍCH CAO TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH CÓ LỢI NHUẬN ÂM Nguyễn Văn Lễ*, Nguyễn Thị Thanh Thủy+, Mạnh Thiên Lý+ Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Thực phẩm TPHCM + Khoa Công nghệ thông tin, Trường Đại học Cơng nghiệp Thực phẩm TPHCM * Tóm tắt: Việc khai thác tập hữu ích cao tương quan (Correlated Hight Utility Itemset) sở liệu giao dịch nghiên cứu rộng rãi để khám phá hành vi mua hàng người dùng Từ đó, nhà quản lý doanh nghiệp điều chỉnh chiến lược bán hàng cách phù hợp để tăng lợi nhuận Các cách tiếp cận khai thác tập hữu ích cao tương quan trước thực sở liệu có lợi nhuận dương mà quan tâm đến giá trị lợi nhuận âm Trên thực tế, doanh nghiệp giảm lợi nhuận mặt hàng tồn kho lâu ngày để kích thích người mua, chí giảm lợi nhuận đến mức âm để tiêu thụ hết lượng hàng tồn kho Để khai thác tập hữu ích cao tương quan hiệu sở liệu giao dịch có lợi nhuận âm, chúng tơi đề xuất thuật tốn CHN (Correlated High utility itemset with Negative profit) Đánh giá thử nghiệm năm sở liệu Chess, Mushroom, Pumsb, Retail Kosarak cho thấy thuật tốn CHN có hiệu suất thực thi cách hiệu Từ khóa: Tập hữu ích cao, tính tương quan, khai thác liệu, sở liệu giao dịch, tập hữu ích cao tương quan I GIỚI THIỆU Xã hội ngày phát triển nhu cầu mua sắm khách hàng ngày tăng Các tổ chức kinh doanh thành lập khắp nơi với hình thức bán hàng đa dạng Khi khách hàng có nhiều lựa chọn doanh nghiệp phải nghiên cứu thói quen mua hàng họ Ban đầu, doanh nghiệp quan tâm đến việc tìm hiểu mặt hàng thường khách hàng mua Nhiều thuật toán đề xuất để khai thác luật kết hợp để giải hiệu nhu cầu [1,2] Tuy nhiên, luật kết hợp có giới hạn là1khơng đề cập đến lợi nhuận sản phẩm Các thuật tốn khai thác tập hữu ích cao (HUIM) nghiên cứu để tìm tập sản phẩm có lợi nhuận cao (High Utility Itemset – HUI) như: Thuật toán Two-Phase [3], UP-Growth [4], HUIMiner [5], FHM [6], EFIM [7], D2HUP [8] Năm 2016, Lin cộng đề xuất thuật toán FHN [9] khai thác HUI sở liệu có lợi nhuận âm cách hiệu Mặc dù thuật tốn hữu ích việc khám phá tập hữu ích cao, nhiên số lượng HUI tìm Tác giả liên hệ: Nguyễn Văn Lễ, Email: lenv@hufi.edu.vn Đến tòa soạn: 8/2020, chỉnh sửa: 9/2020, chấp nhận đăng: 10/2020 SOÁ 03 (CS.01) 2020 thấy lớn chúng tìm thấy HUI dựa ngưỡng tối thiểu bỏ qua mối tương quan mục bên mẫu Nhiều HUI chứa mặt hàng có tương quan yếu thực tế không mang lại ý nghĩa Để giải vấn đề này, J C W Lin cộng đề xuất thuật toán FDHUP [10] để khai thác HUI có ràng buộc tần suất cao Sau đó, vào năm 2017, W Gan cộng đề xuất thuật tốn CoHUIM [11] xem xét tính tương quan lợi nhuận sản phẩm giao dịch Tuy nhiên, thuật toán tạo tập hợp lớn ứng cử viên việc quét lại sở liệu gốc nhiều lần làm tăng đáng kể thời gian thực nhớ lưu trữ Năm 2019, nhóm tác giả W Gan cộng đề xuất thuật toán CoUPM [12] cải tiến từ thuật CoHUIM việc sử dụng cấu trúc lưu trữ Ulility-List tăng hiệu suất khai thác tập hữu ích cao tương quan Tuy nhiên, thuật toán hiệu thực thi sở liệu có lợi nhuận âm Để giải vấn đề này, đề xuất thuật tốn có tên CHN để khai thác tập hữu ích cao tương quan cách hiệu sở liệu giao dịch có lợi nhuận âm Những đóng góp báo: a) Áp dụng cấu trúc liệu PNU – List để lưu trữ liệu trình khai thác tập hữu ích cao tương quan CHUIs sở liệu giao dịch có lợi nhuận âm b) Áp dụng nhiều chiến lược tỉa để giảm khơng gian tìm kiếm như: U-Prune, LA-Prune, Kulc-Prune, EUCS c) Kết thực nghiệm so sánh với thuật toán CoUPM cho thấy thuật toán CHN có thời gian thực nhanh thuật tốn CoUPM sở liệu Chess, Mushroom, Pumsb, Retail Kosarak Cấu trúc báo chia làm phần Phần trình bày giới thiệu; Phần trình bày cơng trình liên quan; Phần trình bày định nghĩa ký hiệu; Phần trình bày thuật tốn đề xuất CHN; Phần trình bày kết thực nghiệm đánh giá; Phần trình bày kết luận hướng phát triển II CÁC CƠNG TRÌNH LIÊN QUAN Khai thác tập hữu ích cao (HUI) nghiên cứu rộng rãi có nhiều ứng dụng thực tế để hỗ trợ việc kinh doanh hiệu Các tiếp cận ban đầu khai thác HUI chủ yếu dựa hai pha, pha sinh ứng viên có khả tập hữu ích cao, pha hai thực quét lại sở liệu để xác định ứng viên thực HUI Một số thuật toán đề xuất giai đoạn như: Two-Phase [3], CTU-Mine [13], TWU-Mining TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 94 KHAI THÁC TẬP HỮU ÍCH CAO TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH CÓ LỢI NHUẬN ÂM [14], UP-Growth [4], UP-Growth+ [15] Những thuật tốn tốn nhiều thời gian nhớ phải thực hai pha quét sở liệu nhiều lần Năm 2012, Liu cộng đề xuất thuật toán HUI-Miner [5] với cấu trúc liệu Utility-List để khai thác HUI pha với chiến lược tỉa TWU làm giảm đáng khơng gian tìm kiếm tăng hiệu suất thực thi thuật toán Năm 2014, Fournier cộng bổ sung chiến lược tỉa EUCP vào thuật toán HUI-Miner đề xuất thuật tốn FHM [6] có thời gian khai thác HUI nhanh vượt trội so với thuật toán HUI-Miner Năm 2017, Zida cộng đề xuất thuật toán EFIM [7] sử dụng chế chiếu gộp liệu có hiệu cao khai thác sở liệu thưa Năm 2018, Krishnamoorthy đề xuất thuật toán HMiner [16] với cấu trúc liệu CUL nhiều chiến lược tỉa hiệu cho hiệu suất thực thi vượt trội thời gian nhớ sử dụng so với thuật toán EFIM Tuy nhiên, thuật toán hiệu tìm số lượng HUI khơng đầy đủ khai thác sở liệu có lợi nhuận âm Để giải vấn đề này, Lin cộng đề xuất cải tiến cấu trúc Utility-list để lưu trữ tách biệt lợi nhuận dương âm đề xuất thuật toán FHN [9] để khai thác đầy đủ tập HUI sở liệu giao dịch có lợi nhuận âm Ngồi ra, năm 2019, Singh cộng đề xuất thuật toán EHNL [17] để khai thác HUI hiệu với ràng buộc chiều dài tập mục sở liệu có lợi nhuận âm Tập hữu ích cao khai thác với thuật tốn trình bày có nhiều ứng dụng hữu ích thực tế Tuy nhiên, thuật toán quan tâm đến độ hữu ích tập mục kết mà không quan tâm đến tương quan mục bên Do đó, kết khai thác cịn chứa nhiều tập mục có mối tương quan thấp mục bên khơng có ý nghĩa thực tế Ví dụ, sở liệu phát sinh giao dịch mua hàng gồm sản phẩm (A) có trị giá lợi nhuận cao kèm với sản phẩm (B) có lợi nhuận thấp có giao dịch sở liệu Khi khai thác HUI, tập gồm hai sản phẩm tìm thấy lợi nhuận cao vượt ngưỡng mức lợi nhuận tối thiểu Tuy nhiên, tương quan hai sản phẩm có giao dịch sở liệu nên kết luận khách hàng mua sản phẩm A mua kèm sản phẩm B khơng xác Để giải vấn đề này, nhiều nghiên cứu đề xuất để tính tốn mối tương quan mục tập mục khai thác Khái niệm "độ đo" mục Omiecinski [18] đưa từ sớm để khai thác luật kết hợp với ba độ đo any-confidence, all-confidence bond Tuy nhiên, ba độ đo chưa đánh giá mối tương quan mục tập mục khai thác Năm 2018, Fournier-Viger cộng [19] trình bày khái niệm "Correlation" dựa ba độ đo đề xuất thuật toán CHIs để khai thác tập hữu ích cao tương quan sở liệu giao dịch Bên cạnh đó, Lin cộng đề xuất thuật toán CoHUIM [11] khai thác tập hữu ích cao tương quan (CoHUI) dựa độ đo Kulc chế chiếu sở liệu trình khai thác Năm 2019, Gan cộng [12] đề xuất thuật toán CoUPM khai thác CoHUI dựa cấu trúc liệu Utility-list với nhiều chiến lược tỉa khác cho kết khai thác CoHUI hiệu thuật toán CoHUIM III CÁC ĐỊNH NGHĨA VÀ KÝ HIỆU SOÁ 03 (CS.01) 2020 Cho tập 𝐼 = {𝑖1 , 𝑖2 , , 𝑖𝑚 } gồm m mục phân biệt sở liệu giao dịch 𝐷 = {𝑇1 , 𝑇2 , , 𝑇𝑛 }, với n số lượng giao dịch 𝐷 ∀ 𝑇𝑗 ∈ 𝐷 , 𝑇𝑗 = {𝑥𝑙 |𝑙 = 1, 2, … , 𝑁𝑗 , 𝑥𝑙 ∈ 𝐼}, với 𝑁𝑗 số mục giao dịch 𝑇𝑗 Bảng trình bày ví dụ sở liệu giao dịch 𝐷 Bảng trình bày lợi nhuận mục Mỗi mục 𝑥𝑖 tập mục I có giá trị lợi nhuận xác định 𝑃(𝑥𝑖 ) có số lượng mua 𝑄(𝑥𝑖 , 𝑇𝑗 ) giao dịch 𝑇𝑗 Độ hữu ích mục 𝑥𝑖 giao dịch 𝑇𝑗 ký hiệu 𝑈(𝑥𝑖 , 𝑇𝑗 ) với 𝑈(𝑥𝑖 , 𝑇𝑗 ) = 𝑃(𝑥𝑖 ) ∗ 𝑄(𝑥𝑖 , 𝑇𝑗 ) Độ hữu ích tập mục 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑘 } ⊆ 𝑇𝑗 định nghĩa 𝑈(𝑋, 𝑇𝑗 ) = ∑𝑥𝑖∈𝑋 𝑈(𝑥𝑖 , 𝑇𝑗 ) Độ hữu ích dương tập mục 𝑋 giao dịch 𝑇𝑗 định nghĩa 𝑃𝑈(𝑋, 𝑇𝑗 ) = ∑𝑥𝑖 ∈𝑋 𝑈(𝑥𝑖 ,𝑇𝑗)>0 𝑈(𝑥𝑖 , 𝑇𝑗 ) Độ hữu ích âm tập 𝑋 giao dịch 𝑇𝑗 định nghĩa 𝑁𝑈(𝑋, 𝑇𝑗 ) = ∑𝑥𝑖∈𝑋 𝑈(𝑥𝑖,𝑇𝑗 )0 𝑈(𝑥𝑖 , 𝑇𝑗 ) [9] Bảng I Cơ sở liệu giao dịch có lợi nhuận âm TID 𝑇1 𝑇2 𝑇3 𝑇4 𝑇5 𝑇6 𝑇7 𝑇8 Giao dịch (𝑻) Số lượng (𝑸) 𝑎, 𝑏, 𝑐, 𝑑 𝑎, 𝑏, 𝑐 𝑎, 𝑐, 𝑑, 𝑒, 𝑓 𝑏, 𝑐, 𝑒 𝑏, 𝑐, 𝑑, 𝑒 𝑎, 𝑏, 𝑐, 𝑑, 𝑒, 𝑓 𝑐, 𝑒 𝑐, 𝑑, 𝑒 3, 1, 4, 3, 3, 4, 1, 2, 2, 2, 5, 6, 5, 4, 2, 5, 1, 3, 1, 2, 5, 2, Độ hữu ích dương (𝑷𝑻𝑼) 9, -1, 16, -4 25 9, -3, 17 12, 4, -4, 6, 25 -2, 20, 12 32 -6, 20, -8, 18 38 6, -5, 4, -6, 3, 16 8, 17 20, -4, 12 32 Độ hữu ích (𝑼) Bảng II Lợi nhuận mục Các mục (Items) Lợi nhuận (P) -1 -2 3 Định nghĩa Tập mục 𝑋 gọi tập mục hữu ích cao (𝐻𝑈𝐼) độ hữu ích 𝑋 lớn giá trị ngưỡng độ hữu ích tối thiểu (minUtil) Trong giá trị minUtil cung cấp người dùng [16] Ta có: 𝐻𝑈𝐼𝑠 = {𝑋 | 𝑈(𝑋) >= 𝑚𝑖𝑛𝑈𝑡𝑖𝑙} Định nghĩa Giá trị Positive Transaction Weighted Utility (𝑃𝑇𝑊𝑈) tập mục 𝑋 𝐷 ký hiệu 𝑃𝑇𝑊𝑈(𝑋) = ∑𝑋⊆𝑇𝑗 ∈𝐷 𝑃𝑇𝑈(𝑇𝑗 ) [9] Ví dụ, Bảng 1, ta có 𝑃𝑇𝑊𝑈(𝑎𝑏) = 𝑃𝑇𝑈(𝑇1 ) + 𝑃𝑇𝑈(𝑇2 ) + 𝑃𝑇𝑈(𝑇6 ) = 25 + 17 + 26 = 68 Bảng trình bày giá trị 𝑃𝑇𝑊𝑈 tập mục gồm phần tử D Tính chất Nếu 𝑃𝑇𝑊𝑈(𝑋) < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 tập mục mở rộng từ 𝑋 không 𝐻𝑈𝐼 [16] Định nghĩa Độ hỗ trợ tập mục 𝑋 sở liệu 𝐷 ký hiệu 𝑆𝑈𝑃(𝑋) số lượng giao dịch chứa 𝑋 𝐷 [16] Ví dụ 𝑆𝑈𝑃(𝑎𝑏) = có giao dịch chứa TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 95 Nguyễn Văn Lễ, Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý {ab} 𝑇1 , 𝑇2 𝑇6 Độ hỗ trợ mục sở liệu 𝐷 thể Bảng Bảng III Độ hỗ trợ mục Items PTWU SUPPORT f a b d e c 41 83 128 136 160 202 Định nghĩa (Thứ tự mục) Thứ tự toàn phần mục sở liệu 𝐷 xếp tăng dần theo độ hỗ trợ [11] Xét mục x y, Ta có 𝑥 ≺ y 𝑆𝑈𝑃(𝑥) < 𝑆𝑈𝑃(𝑦) Trường hợp 𝑆𝑈𝑃(𝑥) = 𝑆𝑈𝑃(𝑦) thứ tự dựa vào thứ tự Alphabet x y Với sở liệu 𝐷 (Bảng 1) độ hỗ trợ (Bảng 3) thứ tự tồn phần xác định f ≺ a ≺ b ≺ d ≺ e ≺ c Với giá trị minUtil = 42, mục 𝑓 bị loại bỏ khỏi sở liệu 𝐷 (Tính chất 1) tồn sở liệu 𝐷 xếp lại theo thứ tự toàn phần trình bày Bảng Định nghĩa Sự tương quan phần tử tập mục 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑘 } định nghĩa 𝑆𝑢𝑝(𝑋) 𝑘𝑢𝑙𝑐(𝑋) = (∑𝑥𝑖 ∈𝑋 ) Với 0 𝑘𝑢𝑙𝑐(𝑋) [11] ) 𝑘 sup(𝑥𝑖 Giá trị 𝑘𝑢𝑙𝑐(𝑋) gần tính tương quan mục 𝑋 cao Ngược lại, 𝑘𝑢𝑙𝑐(𝑋) gần tính tương quan mục X thấp sup (𝑎𝑏) Ví dụ: 𝑘𝑢𝑙𝑐(𝑎𝑏) = ( sup(𝑎) + sup (𝑎𝑏) sup (𝑏) 3 )= ( + )= 0.675 Tính chất Xét thứ tự toàn phần 𝑥1 ≺ 𝑥1 ≺ ⋯ ≺ 𝑥𝑘 ≺ 𝑥𝑘+1 mục sở liệu 𝐷, đó, giá trị kulc thỏa tính chất Downward closure 𝑘𝑢𝑙𝑐(𝑥1 , … , 𝑥𝑘+1 ) ≤ 𝑘𝑢𝑙𝑐(𝑥1 , … , 𝑥𝑘 ) [11] Bảng IV Cơ sở liệu giao dịch sau loại bỏ 𝑓 xếp theo thứ tự toàn phần TID Giao dịch (𝑻) 𝑇1 𝑇2 𝑇3 𝑇4 𝑇5 𝑇6 𝑇7 T8 𝑎, 𝑏, 𝑑, 𝑐 𝑎, 𝑏, 𝑐 𝑎, 𝑑, 𝑒, 𝑐 𝑏, 𝑒, 𝑐 𝑏, 𝑑, 𝑒, 𝑐 𝑎, 𝑏, 𝑑, 𝑒, 𝑐 𝑒, 𝑐 𝑑, 𝑒, 𝑐 Số lượng (𝑸) Độ hữu ích (𝑼) 3, 1, 2, 3, 3, 4, 2, 2, 2, 4, 6, 4, 6, 2, 5, 3, 1, 3, 2, 4, 9, -1, -4, 16 9, -3, 12, -4, 6, -2, 12, 20 -6, -8, 18, 20 6, -5, -6, 3, 9, -4, 12, 20 Độ hữu ích dương (𝑷𝑻𝑼) 25 17 22 32 38 13 17 32 Định nghĩa Tập mục 𝑋 gọi tập hữu ích cao tương quan (Correlated High Utility Itemset - CHUI) 𝑘𝑢𝑙𝑐(𝑋) ≥ 𝑚𝑖𝑛𝐶𝑜𝑟 𝑈(𝑋) ≥ 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 Trong minUtil giá trị ngưỡng độ hữu ích tối thiểu minCor giá trị ngưỡng tương quan tối thiểu [11] 𝐶𝐻𝑈𝐼𝑠 = {𝑋 ⊆ 𝐼 | 𝑈(𝑋) ≥ 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 ∧ 𝑘𝑢𝑙𝑐(𝑋) ≥ 𝑚𝑖𝑛𝐶𝑜𝑟} Ví dụ, Bảng 4, 𝑈(𝑎𝑏𝑐) = 43, 𝑘𝑢𝑙𝑐(𝑎𝑏𝑐) = 0.575 Với 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 < 43 𝑚𝑖𝑛𝐶𝑜𝑟 < 0.575 tập mục {𝑎𝑏𝑐} CHUI Ngược lại, tập mục {𝑎𝑏𝑐} CHUI Định nghĩa Xét tập mục 𝑋 ⊆ 𝑇𝑗 , tập tất mục sau 𝑋 𝑇𝑗 định nghĩa 𝑅𝑒(𝑋, 𝑇𝑗 ) = {𝑥𝑖 𝑇𝑗 |𝑦𝑋, 𝑦 ≺ 𝑥𝑖 } Ví dụ: Với liệu Bảng 4, 𝑅𝑒(𝑎𝑑, 𝑇1 ) = {𝑐} , 𝑅𝑒(𝑎𝑑, 𝑇3 ) = 𝑅𝑒(𝑎𝑑, 𝑇6 ) = {𝑒, 𝑐} SOÁ 03 (CS.01) 2020 Định nghĩa Độ hữu ích dương cịn lại sau tập mục 𝑋 giao dịch 𝑇𝑗 , ký hiệu 𝑃𝑅𝑈(𝑋, 𝑇𝑗 ), tổng độ hữu ích tất mục có độ hữu ích dương tập 𝑅𝑒(𝑋, 𝑇𝑗 ) [9]: 𝑃𝑅𝑈(𝑋, 𝑇𝑗 ) = ∑ 𝑈(𝑥𝑖 , 𝑇𝑗 ) 𝑥𝑖 𝑅𝑒(𝑋,𝑇𝑗)𝑈(𝑥𝑖 ,𝑇𝑗 )>0 Ví dụ: Với liệu Bảng 4, 𝑃𝑅𝑈(𝑎𝑏, 𝑇6 ) = 𝑈(𝑒, 𝑇6 ) + 𝑈(𝑐, 𝑇6 ) = + = Trong 𝑈(𝑑, 𝑇6 ) khơng tính vào 𝑃𝑅𝑈 có độ hữu ích âm IV THUẬT TOÁN CHN A Cấu trúc PNU-List PNU-List cấu trúc lại từ cấu trúc liệu UtilityList [5,9] Mỗi tập mục biểu diễn PNU-List tương ứng Cấu trúc PNU-List tập mục 𝑋 lưu trữ tập liệu, chứa bốn thành phần (𝑇𝑖𝑑, 𝑃𝑢𝑡𝑖𝑙, 𝑁𝑢𝑡𝑖𝑙, 𝑃𝑟𝑢𝑡𝑖𝑙) Trong đó, 𝑇𝑖𝑑 số thứ tự giao dịch có chứa 𝑋, 𝑃𝑢𝑡𝑖𝑙 𝑣à 𝑁𝑢𝑡𝑖𝑙 độ hữu ích dương độ hữu ích âm tập mục 𝑋 giao dịch 𝑇𝑖𝑑, 𝑃𝑟𝑢𝑡𝑖𝑙 tổng độ hữu ích dương mục sau 𝑋 giao dịch 𝑇𝑖𝑑 PNU-List tập mục phần tử gồm năm mục xếp theo thứ tự toàn phần a ≺ b ≺ d ≺ e ≺ c Trong đó, mục 𝑓 bị loại 𝑃𝑇𝑊𝑈(𝑓) < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 (Tính chất 1) PNU-List tập mục {a} gồm với Tid có giá trị 1, 2, 3, nghĩa tập mục {a} xuất giao dịch tương ứng 𝑇1 , 𝑇2 , 𝑇3 , 𝑇6 sở liệu D (Bảng 4) Xét thứ với Tid=1, ta có độ hữu ích dương 𝑃𝑢𝑡𝑖𝑙 = 𝑈(𝑎, 𝑇1 ) = 9, độ hữu ích âm 𝑁𝑢𝑡𝑖𝑙 = (vì tập mục {𝑎} có phần tử a có giá trị độ hữu ích dương 9, khơng có phần tử khác có giá trị độ hữu ích âm); độ hữu ích dương mục sau {𝑎} 𝑃𝑟𝑢𝑡𝑖𝑙 = 16 (vì mục sau {𝑎} giao dịch 𝑇1 gồm {b, d, c} 𝑐 có độ hữu ích dương 16 cịn b d có độ hữu ích âm) Tương tự cho lại PNU-List khác B Các chiến lược tỉa Chiến lược tỉa áp dụng trình khai thác tập 𝐶𝐻𝑈𝐼𝑠 nhằm thu hẹp khơng gian tìm kiếm đồng thời tăng hiệu suất thực thi thuật toán, đặc biệt thời gian thực dung lượng nhớ sử dụng Các chiến lược tỉa áp dụng báo gồm: U-Prune, Kulc-Prune, LA-Prune EUCS-Prune [5,6,10,11] Chiến lược (U-Prune): Nếu tổng độ hữu ích dương tập mục 𝑋 tổng độ hữu ích dương mục sau 𝑋 nhỏ 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 tập mở rộng từ 𝑋 𝐶𝐻𝑈𝐼 Nghĩa 𝑃𝑈(𝑋) + 𝑃𝑅𝑈(𝑋) < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙  𝑌  𝑋, 𝑌 𝐶𝐻𝑈𝐼 Khi ngừng mở rộng với tập mục 𝑋 Ví dụ: Xét tập mục {𝑎, 𝑒} với PNU-List tương ứng Hình 1, 𝑈(𝑎𝑒) + 𝑅𝑈(𝑎𝑒) = ∑(𝑃𝑢𝑡𝑖𝑙 + 𝑃𝑟𝑢𝑡𝑖𝑙) = 27 + = 35 < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 = 42 Khi ngừng mở rộng với tập {𝑎, 𝑒} Chiến lược (LA-Prune): Xét tập 𝑋 𝑌, 𝑃𝑈(𝑋) + 𝑃𝑅𝑈(𝑋) − ∑𝑋⊆𝑇𝑗 ∈ 𝐷𝑌𝑇𝑗 𝑃𝑈(𝑋 , 𝑇𝑗 ) + 𝑃𝑅𝑈(𝑋, 𝑇𝑗 ) < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 tập mục 𝑋𝑌 khơng phải 𝐶𝐻𝑈𝐼 tập mở rộng từ 𝑋𝑌 𝐶𝐻𝑈𝐼 (nghĩa  𝑍  𝑋𝑌 𝑍 khơng phải 𝐶𝐻𝑈𝐼 ) TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 96 KHAI THÁC TẬP HỮU ÍCH CAO TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH CĨ LỢI NHUẬN ÂM Hình PNU-List tập mục phần tử phần tử Chiến lược (EUCS-Prune): Xét 𝑋, 𝑌 hai tập mục phần tử, Nếu 𝑃𝑇𝑊𝑈(𝑋, 𝑌) < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 tập mục 𝑋𝑌 𝐶𝐻𝑈𝐼 tập mở rộng từ 𝑋𝑌 khơng phải 𝐶𝐻𝑈𝐼 Khi dừng mở rộng với itemset 𝑋𝑌 Chiến lược (Kulc-Prune): Nếu 𝑘𝑢𝑙𝑐(𝑋) < 𝑚𝑖𝑛𝐶𝑜𝑟 tập mở rộng từ 𝑋 khơng phải lài 𝐶𝐻𝑈𝐼 Giả sử 𝑦 phần tử mở rộng từ tập 𝑋 để có tập 𝑋𝑦, theo tính chất 2, ta có 𝑘𝑢𝑙𝑐(𝑋𝑦) < 𝑘𝑢𝑙𝑐(𝑋) < 𝑚𝑖𝑛𝐶𝑜𝑟 Do tập mở rộng từ 𝑋 khơng phải 𝐶𝐻𝑈𝐼 C Thuật tốn CHN Thuật tốn 𝐶𝐻𝑁 có liệu đầu vào sở liệu giao dịch 𝐷 có lợi nhuận âm, kết thực thuật tốn tập hữu cao có tương quan (CHUIs) Đầu tiên quét sở liệu 𝐷 để tính 𝑆𝑈𝑃(𝑖), 𝑅𝑇𝑊𝑈(𝑖) 𝑈(𝑖) cho mục 𝑖 𝐼 trình bày dịng Nếu 𝑅𝑇𝑊𝑈(𝑖)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙 đưa i vào tập 𝐼 ∗ loại bỏ mục 𝑖 ∉ 𝐼 ∗ khỏi sở liệu 𝐷 trình bày dịng Dịng xếp mục tập 𝐼 ∗ tăng dần theo độ hỗ trợ 𝑆𝑈𝑃 đồng thời xếp mục sở liệu 𝐷 theo thứ tự 𝐼 ∗ Dòng quét sở liệu 𝐷 để xây dựng danh sách PNU-List cho phần tử 𝑖 ∉ 𝐼 ∗ , ký hiệu 𝑈𝐿𝑠 Dòng khởi tạo cấu trúc 𝐸𝑈𝐶𝑆 dòng gọi thực thuật toán 𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼 Thuật toán 1: (Thuật tốn - CHN) Vào: 𝐷: Cơ sở liệu giao dịch có lợi nhuận âm, 𝑚𝑖𝑛𝑈𝑡𝑖𝑙: Ngưỡng độ hữu ích tối thiểu, 𝑚𝑖𝑛𝐶𝑜𝑟: Ngưỡng tương quan tối thiểu Ra: Các tập mục độ hữu ích cao có tương quan (𝐶𝐻𝑈𝐼𝑠) Quét sở liệu 𝐷 để tính 𝑆𝑈𝑃(𝑖), 𝑅𝑇𝑊𝑈(𝑖) 𝑈(𝑖) cho mục 𝑖 có 𝐼 Tính 𝐼 ∗ = {𝑖 𝐼 | 𝑅𝑇𝑊𝑈(𝑖)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙} loại bỏ mục 𝑖 ∉ 𝐼 ∗ khỏi sở liệu 𝐷 Sắp xếp 𝐼 ∗ tăng theo 𝑆𝑈𝑃, xếp mục 𝐷 theo thứ tự 𝐼 ∗ Quét sở liệu 𝐷 để tính PNU-List cho phần tử 𝑖 ∉ 𝐼 ∗ 𝑈𝐿𝑠 Khởi tạo cấu trúc 𝐸𝑈𝐶𝑆 𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼(, 𝑈𝐿𝑠, 𝑚𝑖𝑛𝑈𝑡𝑖𝑙, 𝑚𝑖𝑛𝐶𝑜𝑟, 𝐸𝑈𝐶𝑆) Thuật toán (𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼) thực đệ quy mở rộng khơng gian tìm kiếm để xác định tập mục có phải 𝐶𝐻𝑈𝐼 hay khơng Thuật tốn có đầu vào gồm P: PNU-List mức đóng vai trị tiền tố, danh sách PNU-List có tiền tố P; ngưỡng độ hữu ích tối thiểu minUtil; ngưỡng tương quan tối thiểu minCor cấu trúc 𝐸𝑈𝐶𝑆 Đầu tập mục hữu ích cao có tương quan (𝐶𝐻𝑈𝐼𝑠 ) Dịng duyệt qua PNU-List 𝑋 có SỐ 03 (CS.01) 2020 danh sách PNU-List 𝑈𝐿𝑠 Dòng kiểm tra điều kiện 𝑈(𝑋)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙 𝑘𝑢𝑙𝑐(𝑋) 𝑚𝑖𝑛𝐶𝑜𝑟 𝑋 tập hữu ích cao tương quan 𝐶𝐻𝑈𝐼 Dịng kiểm tra điều kiện 𝑃𝑈(𝑋) + 𝑃𝑅𝑈(𝑋)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙 ( chiến lược tỉa UPrune) điều kiện 𝑘𝑢𝑙𝑐(𝑋)  𝑚𝑖𝑛𝐶𝑜𝑟 (chiến lược tỉa Kulc-prune) tạo danh sách PNU-List mở rộng ( 𝑒𝑥𝑈𝐿𝑠 ) từ PNU-List 𝑋 từ dòng đến 11 ngược lại ngừng mở rộng với 𝑋 Dòng áp dụng chiến lược tỉa EUCS-Prune, 𝐸𝑈𝐶𝑆(𝑋, 𝑌) 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 thực thủ tục 𝑃𝑁𝑈Construct(𝑃, 𝑋, 𝑌) để tạo PNU-List 𝑋𝑌 từ PNU-List 𝑋 𝑌 thêm vào danh sách 𝑒𝑥𝑈𝐿𝑠, ngược lại không tạo PNU-List 𝑋𝑌 Dòng 12 gọi đệ quy thủ tục 𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼 để tiếp tục mở rộng khơng gian tìm kiếm Thuật tốn 2: 𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼 Vào: 𝑃: PNU-List với vai trị tiền tố; 𝑈𝐿𝑠: Danh sách PNU-List có tiền tơ PNU-List 𝑃, 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 : Ngưỡng độ hữu ích tối thiểu, 𝑚𝑖𝑛𝐶𝑜𝑟 : Ngưỡng tương quan tối thiểu, 𝐸𝑈𝐶𝑆: Cấu trúc EUCS Ra: Các tập mục độ hữu ích cao có tương quan (𝐶𝐻𝑈𝐼𝑠) for each 𝑋 𝑈𝐿𝑠 if 𝑈(𝑋)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙  𝑘𝑢𝑙𝑐(𝑋) 𝑚𝑖𝑛𝐶𝑜𝑟 then 𝐶𝐻𝑈𝐼𝑠  𝑋 end if if (𝑃𝑈(𝑋) + 𝑃𝑅𝑈(𝑋)  𝑚𝑖𝑛𝑈𝑡𝑖𝑙  𝑘𝑢𝑙𝑐(𝑋) 𝑚𝑖𝑛𝐶𝑜𝑟) //U-Prune Kulc-Prune 𝑒𝑥𝑈𝐿𝑠 =  //Khởi tạo danh sách PNU-List mở rộng từ X for each 𝑌 after 𝑋 in 𝑈𝐿𝑠 if 𝐸𝑈𝐶𝑆(𝑋, 𝑌) 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 then //Áp dụng chiến lược tỉa EUCP 𝑒𝑥𝑈𝐿𝑠  𝑃𝑁𝑈Construct(𝑃, 𝑋, 𝑌); 10 end if 11 end for 12 𝑆𝑒𝑎𝑟𝑐ℎ𝐶𝐻𝑈𝐼(𝑋, 𝑒𝑥𝑈𝐿𝑠, 𝑚𝑖𝑛𝑈𝑡𝑖𝑙, 𝑚𝑖𝑛𝐶𝑜𝑟, 𝐸𝑈𝐶𝑆); //gọi đệ quy thuật toán 13 end if 14.end for Thuật toán (𝑃𝑁𝑈𝐶𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡) thực kết hợp PNU-List 𝑃𝑥 𝑃𝑦 thành PNU-List 𝑃𝑥𝑦 Dòng khởi tạo giá trị ban đầu cho 𝑈𝐿𝐴 tổng độ hữu ích dương 𝑃𝑈(𝑃) độ hữu ích cịn lại sau 𝑃 𝑃𝑅𝑈(𝑃) Dòng 2, duyệt qua phần tử 𝑒𝑥 𝑃𝑥 tìm phần tử 𝑒𝑦  𝑃𝑦 cho 𝑒𝑥 𝑡𝑖𝑑 = 𝑒𝑦 𝑡𝑖𝑑 Nếu tìm thấy tạo phần tử 𝑒𝑥𝑦 kết hợp từ 𝑒𝑥 𝑒𝑦 trường hợp xem xét dòng Nếu PNU-List tiền tố 𝑃   (trường hợp dòng 4), nghĩa PNU-List 𝑃𝑥𝑦 xây dựng có từ mục trở lên, ngược lại (trường hợp dịng 7) 𝑃𝑥𝑦 PNU-List TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 97 Nguyễn Văn Lễ, Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý xây dựng có mục Dịng tạo phần tử 𝑒𝑥𝑦 ứng với trường hợp 1, dòng tạo phần tử 𝑒𝑥𝑦 ứng với trường hợp 2, dòng 10 thêm 𝑒𝑥𝑦 vào PNU-List 𝑃𝑥𝑦 Dòng 12 xét điều kiện không tồn 𝑒𝑦  𝑃𝑦 mà 𝑒𝑥 𝑡𝑖𝑑 = 𝑒𝑦 𝑡𝑖𝑑 áp dụng chiến lược tỉa LA-Prune từ dòng 13 đến 15 để loại bỏ sớm tập mục khơng phải 𝐶𝐻𝑈𝐼 Dịng 18 trả kết PNU-List 𝑃𝑥𝑦 Thuật toán 3: (𝑃𝑁𝑈𝐶𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡) Vào: 𝑃 : PNU-List với vai trò tiền tố; 𝑃𝑥, 𝑃𝑦 : Hai PNU-List cần kết hợp; 𝑚𝑖𝑛𝑈𝑡𝑖𝑙: Ngưỡng độ hữu ích tối thiểu Ra: 𝑃𝑥𝑦: PNU-List sau kết hợp 𝑃𝑥 𝑃𝑦 𝑆𝑒𝑡 𝑈𝐿𝐴 = 𝑃𝑈(𝑃) + 𝑃𝑅𝑈(𝑃); for each element 𝑒𝑥 𝑃𝑥 then if  𝑒𝑦  𝑃𝑦  𝑒𝑥 𝑡𝑖𝑑 = 𝑒𝑦 𝑡𝑖𝑑 then if 𝑃   then Tìm 𝑒  𝑃 cho 𝑒 𝑡𝑖𝑑 = 𝑒𝑥 𝑡𝑖𝑑; 𝑒𝑥𝑦 =< 𝑒𝑥 𝑡𝑖𝑑, 𝑒𝑥 𝑃𝑢𝑡𝑖𝑙 + 𝑒𝑦 𝑃𝑢𝑡𝑖𝑙 − 𝑒 𝑃𝑢𝑡𝑖𝑙, 𝑒𝑥 𝑁𝑢𝑡𝑖𝑙 + 𝑒𝑦 𝑁𝑢𝑡𝑖𝑙 − 𝑒 𝑁𝑢𝑡𝑖𝑙 , 𝑒𝑦 𝑃𝑟𝑢𝑡𝑖𝑙 >; else 𝑒𝑥𝑦 = < 𝑒𝑥 𝑡𝑖𝑑, 𝑒𝑥 𝑃𝑢𝑡𝑖𝑙 + 𝑒𝑦 𝑃𝑢𝑡𝑖𝑙, 𝑒𝑥 𝑁𝑢𝑡𝑖𝑙 + 𝑒𝑦 𝑁𝑢𝑡𝑖𝑙, 𝑒𝑦 𝑃𝑟𝑢𝑡𝑖𝑙 >; end if 10 𝑃𝑥𝑦  𝑒𝑥𝑦; 11 else 12 𝑈𝐿𝐴 = 𝑈𝐿𝐴 − 𝑒𝑥 𝑃𝑢𝑡𝑖𝑙 − 𝑒𝑥 𝑃𝑟𝑢𝑡𝑖𝑙; 13 if 𝑈𝐿𝐴 < 𝑚𝑖𝑛𝑈𝑡𝑖𝑙 then // áp dụng chiến lược tỉa LA-Prune 14 return null; 15 end if 16 end if 17 end for 18 return 𝑃𝑥𝑦; V THỰC NGHIỆM Thuật toán 𝐶𝐻𝑁 cài đặt ngơn ngữ lập trình Java, chạy thử nghiệm máy tính Dell Precision Tower 3620, Intel Core i7-7800X CPU @3.5GHz, nhớ RAM 32GB hệ điều hành Windows 10 Các sở liệu thử nghiệm tải từ thư viện SPMF [20] sở liệu giao dịch có lợi nhuận âm gồm Chess, Mushroom, Pumsb, Retail Kosarak Chi tiết sở liệu trình bày Bảng Thực nghiệm thuật toán CHN so sánh với thuật toán khai thác tập CHUI CoUPM [12] Kết thực nghiệm đánh giá dựa thời gian thực thi dung lượng nhớ sử dụng Bảng V Đặc điểm sở liệu thực nghiệm Cơ sở liệu Chess Mushroom Pumsb Retail Kosarak Số lượng giao dịch 3,196 8,124 49,046 88,162 990,002 Số lượng Độ dài trung item (I) bình (A) 75 37 119 23 2113 74 16,470 10.3 41,270 8.1 Độ dày (A/I) % 49.3333 19.3277 3.5021 0.0625 0.0196 Hình 2, trình bày kết thực nghiệm so sánh thuật toán CHN thuật toán CoUPM thời gian thực thi nhớ sử dụng Kết thực nghiệm cho thấy thuật tốn CHN có thời gian thực thi hiệu thuật toán CoUPM tất sở liệu từ dày Chess đến sở liệu thưa kosarak Tuy nhiên nhớ sử dụng thuật tốn CHN có hiệu thuật toán CoUPM sở liệu Pumsb tất ngưỡng ngưỡng tương quan lớn Hình trình bày kết thực nghiệm hai thuật toán CHN CoUPM sở liệu dày Chess dày trung bình Mushroom Với sở liệu Chess, ngưỡng minCor=0.86 thời gian thực thuật toán CHN nhanh thuật toán CoUPM từ đến lần Đặc biệt, giảm ngưỡng minCor cịn 0.7 thời gian thực CHN hiệu có thời gian thực thuật tốn CoUPM lên đến 25 lần ngưỡng minUtil=130,000 Với sở liệu Mushroom, thời gian thực thuật toán CHN tốt thuật toán CoUPM tất ngưỡng minCor minUtil Kết chứng tỏ chiến lược tỉa cấu trúc liệu sử dụng thuật toán CHN phù hợp khai thác tập CHUI sở liệu có lợi nhuận âm Hình So sánh thời gian thực thi sở liệu dày SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 98 KHAI THÁC TẬP HỮU ÍCH CAO TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH CĨ LỢI NHUẬN ÂM Hình So sánh thời gian thực thi sở liệu thưa Hình So sánh nhớ sử dụng sở liệu dày SOÁ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THOÂNG 99 Nguyễn Văn Lễ, Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý Hình So sánh nhớ sử dụng sở liệu thưa Hình trình bày kết thực nghiệm sở liệu từ thưa Pumsb thưa Kosarak Kết thực nghiệm cho thấy thuật tốn CHN có thời gian thực thấp thuật toán CoUPM sở liệu thử nghiệm Với sở liệu lớn, có độ dài trung bình giao dịch cao sở liệu Pumsb thời gian thực thuật toán CHN nhanh thuật toán CoUPM từ đến 10 lần ngưỡng minCor=0.85, từ 10 đến 30 lần ngưỡng minCor=0.8 Đặc biệt với ngưỡng minCor=0.75 thuật tốn CHN cho kết tất ngưỡng minUtil thuật tốn CoUPM có kết ngưỡng minUtil 10,000,000 9,800,000, ngưỡng cịn lại khơng cho kết Với sở liệu Retail, biểu đồ thực nghiệm (Hình 3) cho thấy thuật tốn CHN có tốc độ xử lý nhanh hơn thuật toán CoUPM khoảng 25 lần ngưỡng minCor=0.3 minUtil=5000 Tại ngưỡng khác, thuật tốn CHN chứng tỏ tính hiệu thuật toán CoUPM Với sở liệu thưa Kosarak, thuật tốn CHN có thời gian thực thi ổn định trung bình khoảng giây tất ngưỡng minCor minUtil Trong thuật tốn CoUPM có thời gian thực cao hơn, trung bình khoảng 25 giây cho tất ngưỡng SỐ 03 (CS.01) 2020 Hình 4,5 so sánh nhớ sử dụng hai thuật toán CHN CoUPM hai nhóm sở liệu dày thưa Kết thực nghiệm cho thấy thuật tốn CHN có dung lượng nhớ sử dụng thấp thuật toán CoUPM hầu hết sở liệu thực nghiệm ngưỡng minCor cao Khi ngưỡng minCor giảm xuống thấp thuật tốn CHN sử dụng nhớ nhiều thuật toán CoUPM hầu hết sở liệu, ngoại trừ sở liệu lớn Pumsb Kết cho thấy việc sử dụng chiến lược tỉa cấu trúc liệu lưu trữ có ảnh hưởng đến nhớ sử dụng thuật toán CHN Thật vậy, Với cấu trúc liệu PNU-List sử dụng thuật toán CHN, PNU-List gồm giá trị cấu trúc liệu Utility-List thuật tốn CoUPM gồm giá trị Ngồi ra, thuật tốn CHN áp dụng chiến lược tỉa EUCS để lưu ma trận giá trị RTWU phần tử dẫn đến tốn nhớ trình thực thi VI KẾT LUẬN Bài báo đề xuất thuật toán 𝐶𝐻𝑁 khai thác tập hữu ích cao tương quan (𝐶𝐻𝑈𝐼𝑠) sở liệu có lợi nhuận âm Thuật tốn sử dụng cấu trúc PNU-List biểu diễn tách biệt giá trị lợi nhuận âm dương để khai TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 100 ... CHN) Vào:

Ngày đăng: 28/02/2023, 20:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w