DANH MĀC CÁC THUÀT NGĀ, CHĀ VI¾T TÂT eu External Utility Đß hữu ích bên ngoài lợi nhuận iu Internal Utility Đß hữu ích bên trong số l°ợng HUI High Utility Itemset Tập mục có đß hữu ích c
M ā c tiêu nghiên c ứ u
Nghiờn cứu cỏc ph°Ăng phỏp Án tập mục đò hữu ớch cao nhạy cảm hiện cú dựa trên các công trình đã công bố g¿n đây
Tìm hiểu những °u điểm và hạn chế của các ph°¡ng pháp Án từ đó đề xuất ph°¡ng pháp Án hiệu quả h¡n
Tìm hiểu các thông số đánh giá tính hiệu quả của các ph°¡ng pháp Án tập mục cú đò hữu ớch cao nhạy cảm
Tiến hành cài đặt thử nghiệm ph°¡ng pháp đề xuất, đánh giá dựa trên các thông số, so sánh vái các ph°¡ng pháp Án hiện có.
T ổ ng quan nghiên c ứ u c ủa đÁ tài
Bài toỏn Án cỏc tập mục đò hữu ớch cao nhạy cảm đang là chủ đề đ°ợc nhiều nhà nghiên cứu quan tâm Mục tiêu của bài toán là bảo vệ các thông tin nhạy cảm khụng thể khai phỏ đ°ợc bằng cỏc ph°Ăng phỏp khai phỏ tập mục cú đò hữu ớch cao vỏi cựng mòt ng°ỡng đò hữu ớch tối thiểu do ng°ói dựng quy đònh Đồng thói, cỏc ph°Ăng phỏp Án tập mục cú đò hữu ớch cao nhạy cảm làm giảm thiểu cỏc hiệu ứng phụ trên các thông tin không nhạy cảm và tính toàn vẹn của c¡ sở dữ liệu ban đ¿u
Hiện đó cú mòt số ph°Ăng phỏp Án hiệu quả để giải quyết vấn đề này, tuy nhiờn những ph°¡ng pháp này vÃn còn tạo ra các hiệu ứng phụ không mong muốn Đề tài đề xuất ph°Ăng phỏp Án mòt cỏch phự hợp, để Án cỏc tập mục cú đò hữu ớch cao nhạy cảm mòt cỏch hiệu quả, làm giảm thiểu cỏc hiệu ứng phụ trờn cỏc thụng tin không nhạy cảm Kết quả thực nghiệm cho thấy thuật toán đề xuất hiệu quả h¡n các thuật toán hiện có về mặt các hiệu ứng phụ nh° Án nh¿m các thông tin không nhạy cảm, chất l°ợng của c¡ sở dữ liệu sau quá trình Án.
Đòi t°ÿ ng, ph ¿ m vi nghiờn c ứ u
Ph°Ăng phỏp Án cỏc tập mục cú đò hữu ớch cao nhạy cảm trong cỏc cĂ sở dữ liệu giao tác lán.
Đóng góp của đÁ tài
T Á p m āc đá h ā u ích cao và bài toán khai phá t Á p m āc đá h ā u ích cao
Khi thực hiện khai phỏ tập phổ biến ng°ói ta đó bỏ qua giỏ trò đò hữu ớch đ°ợc gắn vái mỗi mục Có những tập mục không phải là tập phổ biến (có t¿n suất xuất hiện thấp) nh°ng lại cú giỏ trò đò hữu ớch cao hĂn nhiều so vỏi tập phổ biến Trong thực tế, việc khai phỏ cỏc tập mục mang giỏ trò đò hữu ớch cao là rất quan trỏng và cú ý nghĩa rất lỏn trong đói sống xó hòi Từđú dÃn đến mòt h°ỏng nghiờn cứu mỏi trong khai phỏ dữ liệu, đú là khai phỏ tập mục đò hữu ớch cao
Cụ thể, mòt siờu thò kinh doanh hàng trăm mặt hàng từ nhiều nhà cung cấp khác nhau Há bày bán các mặt hàng theo từng khu vực, việc sắp xếp các mặt hàng phụ thuòc vào chiến l°ợc kinh doanh, kớch thớch khỏch hàng Mỗi mặt hàng đ°ợc bỏn sẽ đem lại mòt giỏ trò lợi nhuận đ°ợc xỏc đònh là chờnh lệch giữa giỏ bỏn và giỏ mua
Theo đú, mỗi khỏch hàng vào siờu thò mua mòt vài mặt hàng vỏi số l°ợng nhất đònh, tập hợp tất cả sản phÁm khỏch hàng mua sẽ đem lại mòt giỏ trò lợi nhuận cho siờu thò, đ°ợc gỏi là mòt giao tỏc Tất cả cỏc giao tỏc sẽ đ°ợc siờu thò l°u trữ lại và tạo ra mòt cĂ sở dữ liệu giao tỏc Ng°ói quản lý siờu thò muốn tập hợp tất cả sản phÁm mà khỏch hàng đó mua đem lại lợi nhuận cho siờu thò (vớ dụ: 30% tổng lợi nhuận), từ đú đ°a ra cỏc chiến l°ợc kinh doanh, tiếp thò hoặc sắp xếp cỏc mặt hàng cạnh nhau và đ°a ra các ch°¡ng trình khuyến mãi, khuyến khích khách hàng mua sản phÁm này thì sẽ mua thờm mòt sản phÁm khỏc trong cỏc sản phÁm đó tỡm ra
Bài toỏn khai phỏ tập mục đò hữu ớch cao đó đ°ợc nhúm tỏc giả R.C Chan, Q
Từ nhu cầu ngày càng cao trong tính toán doanh thu, hiệu quả kinh doanh theo thời gian thực, Yang, Y.D Shen đã đề xuất phương pháp tính toán dựa trên cơ sở dữ liệu lớn vào năm 2003 Với sự phát triển của nền kinh tế, khối lượng dữ liệu đang tăng lên nhanh chóng, khiến nhu cầu ứng dụng phương pháp này trở nên cấp thiết.
Khai phỏ tập mục đò hữu ớch cao là bài toỏn mở ròng và tổng quỏt của khai phỏ tập phổ biến Trong khai phỏ tập mục đò hữu ớch cao, giỏ trò của mục trong giao tác đ°ợc quan tâm nhiều nhất (nh° số l°ợng đã bán của mặt hàng), ngoài ra còn có bảng lợi nhuận cho biết đò hữu ớch mang lại khi bỏn mặt hàng đú Đò hữu ớch của tập mục là số đo lợi nhuận của tập mục đóng góp trong c¡ sở dữ liệu, nó có thể là tổng lợi nhuận hay tổng chi phí của tập mục
Mòt trong những lý do của khai phỏ tập mục đò hữu ớch cao là khỏm phỏ ra tất cả cỏc tập mục cú đò hữu ớch khụng nhỏ hĂn ng°ỡng đò hữu ớch tối thiếu do ng°ói dựng quy đònh Từ đú xỏc đònh đ°ợc cỏc tập mục đò hữu ớch cao, cỏc tập mục đò hữu ích cao nhạy cảm Sau đó xây dựng các ph°¡ng pháp bảo vệ các dữ liệu nhạy cảm, làm hạn chế cỏc thụng tin nhạy cảm bò lò ra ngoài, nhất là trong kinh doanh
Bài toán khai phá tập mục đích không cao được sử dụng trên cơ sở dữ liệu giao dịch Mỗi giao dịch có thể là một giao dịch mua hàng, một truy cập internet Luận văn này sử dụng CSDL giao dịch như sau:
B Á ng 1.10: CÂ sỗ d ā li ầ u giao tỏc
Mỏt sò khỏi niầm vÁ khai phỏ tÁp māc đỏ hāu ớch cao:
Cho I = {i 1 , i 2 , & , i m } là mòt tập m mục (item) phõn biệt, trong đú mỗi mục i p * I cú đò hữu ớch bờn ngoài (đ°ợc gỏi là lợi nhuận) eu(i p ), 1 f p f m và D {T1, T2, & , Tn} là mòt cĂ sở dữ liệu (CSDL) giao tỏc, trong đú Ti là mòt giao tỏc chứa mòt tập cỏc mục đ°ợc chứa trong I
Mòt tập gồm mòt hoặc nhiều mục đ°ợc gỏi là tập mục (itemset) Mòt giao tỏc
T hỗ trợ mòt tập mục X nếu X ⊆ I Mòt tập mục X = {i 1 , i 2 , & , i k } chứa k mục đ°ợc gỏi là k-itemset Mỗi mục i p trong giao tỏc T q đ°ợc kết hợp vỏi mòt số l°ợng cỏc mục i p có trong giao tác T q
Cho CSDL giao tác nh° Bảng 1.10, Bảng 1.11 chứa lợi nhuận của các giao tác và Bảng 1.12 chứa cỏc tập mục đò hữu ớch cao Luận văn sử dụng mòt số đònh nghĩa nh° sau: Đònh ngh*a 1.1: Số l°ợng mục i p trong giao tỏc T q , ký hiệu là iu(i p , T q ) Ví dụ: trong Bảng 1.10 có iu(b, T 8 ) = 15 và iu(d, T 8 ) = 35. Đònh ngh*a 1.2: Lợi nhuận của mục ip, thể hiện đò quan trỏng của mục ip, ký hiệu là eu(i p )
Ví dụ: trong Bảng 1.11 có eu(b) = 2 và eu(d) = 1 Đònh ngh*a 1.3: Đò hữu ớch của mục i p trong giao tỏc T q , ký hiệu là u(i p , T q ), đ°ợc tính nh° sau: u(ip, Tq) = iu(ip, Tq) ∗ eu(ip)
Ví dụ: u(b, T8) = iu(b, T8) ∗ eu(b) = 15 ∗ 2 = 30 Đònh ngh*a 1.4: Đò hữu ớch của tập mục X trong giao tỏc Tq, ký hiệu là u(X, Tq) đ°ợc tính nh° sau: u(X, T q ) = ∑ u(i p , T q ) i p *X
Ví dụ: u(bd, T 8 ) = u(b, T 8 ) + u(d, T 8 ) = 15 ∗ 2 + 35 ∗ 1 = 65 Đònh ngh*a 1.5: Đò hữu ớch của tập mục X, ký hiệu là u(X), đ°ợc tớnh nh° sau: u(X) = ∑ u(X, T q )
Ví dụ: u(bd) = u(bd, T4) + u(bd, T 8 ) + u(bd, T 9 ) = 10 + 65 + 50 = 125 Đònh ngh*a 1.6: Đò hữu ớch của giao tỏc Tq, ký hiệu là tu(Tq), đ°ợc tớnh nh° sau: tu(T q ) = ∑ u(i p , T q ) i p *T q
Ví dụ: tu(T 8 ) = u(b, T 8 ) + u(d, T 8 ) + u(e, T 8 ) = 15 ∗ 2 + 35 ∗ 1 + 3 ∗ 5 80 Đònh ngh*a 1.7: Bài toỏn khai phỏ tập mục đò hữu ớch cao Mòt tập mục X đ°ợc gỏi là tập mục đò hữu ớch cao nếu đò hữu ớch của X lỏn hĂn hoặc bằng ng°ỡng đò hữu ớch tối thiểu do ng°ói dựng quy đònh, ký hiệu là minutil Gỏi HUI là tập hợp cỏc tập mục đò hữu ớch cao, ta cú HUI = {X | X * I, u(X) g minutil}.
M ỏ t s ò thu Á t toỏn khai phỏ t Á p m āc đỏ h ā u ớch cao
Bài toỏn khai phỏ tập mục đò hữu ớch cao giỳp giải quyết vấn đề mà bài toỏn khai phỏ tập phổ biến khụng giải quyết đ°ợc Trong khai phỏ tập mục đò hữu ớch cao cỏc mục cú thể xuất hiện nhiều l¿n trong mòt giao tỏc, mỗi mục cú mòt trỏng số (lợi nhuận, đò hữu ớch…) Kết quả của khai phỏ tập mục đò hữu ớch cao đ°ợc ứng dụng để tìm ra các tập mục trong c¡ sở dữ liệu mang lại lợi nhuận cao
Hiện có nhiều nhà nghiên cứu và đề xuất ra các thuật toán khai phá tập mục đò hữu ớch cao hiệu quả Năm 2005, Liu và cỏc đồng sự đề xuất thuật toỏn Two-Phase vỏi cỏc khỏi niệm về đò hữu ớch của giao tỏc (Transaction Utility - TU) và đò hữu ớch của giao tác có tráng số (Transaction Weighted Utility -TWU) để cải tiến không gian tỡm kiếm khai phỏ tập mục đò hữu ớch cao [17] Giỏ trò TWU của tập mục đò hữu ớch thỏa mãn tính bao đóng giảm, do đó hoàn toàn có thể dựa vào TWU và sửa đổi các thuật toỏn khai phỏ tập phổ biến để khai phỏ tập mục đò hữu ớch cao Vỡ vậy, tỏc giả đó sửa đổi thuật toỏn Apriori để khai phỏ tập mục đò hữu ớch cao
Thuật toán Two-Phase bao gồm hai giai đoạn chính Giai đoạn 1 tìm tất cả tập mục cú đò hữu ớch lỏn hĂn ng°ỡng do ng°ói dựng quy đònh dựa trờn đò hữu ớch của giao tỏc cú trỏng số Trong giai đoạn 1 chỉ cú những kết hợp của những tập mục đò hữu ích cao của giao tác có tráng số mái đ°ợc thêm vào tập ứng viên trong suốt quá trỡnh tỡm kiếm thụng tin Tuy cỏc tập mục cú đò hữu ớch thấp cú thể đ°ợc đỏnh giỏ cao nh°ng thuật toán lại không đánh giá thấp bất kỳ tập mục nào Giai đoạn 2 duyệt cĂ sở dữ liệu để lỏc ra cỏc tập mục cú đò hữu ớch cao từ tập mục đò hữu ớch cao đ°ợc tỡm thấy trong giai đoạn 1 So vỏi cỏc thuật toỏn khai phỏ tập mục đò hữu ớch cao hiện nay, thuật toỏn Two-Phase gặp vấn đề là mòt số l°ợng rất lỏn cỏc tập ứng viờn đ°ợc tạo ra nh°ng h¿u hết cỏc ứng viờn đ°ợc sinh ra là cú đò hữu ớch khụng cao sau khi cỏc giỏ trò đò hữu ớch này đ°ợc tớnh chớnh xỏc ở giai đoạn 2 của thuật toỏn Ngoài ra, thuật toỏn thực hiện duyệt cĂ sở dữ liệu nhiều l¿n sẽ gặp vấn đề về tốc đò xử lý nếu c¡ sở dữ liệu có l°ợng giao tác lán Để giải quyết các vấn đề liên quan đến việc có nhiều tập ứng viên đ°ợc sinh ra làm giảm năng suất thực hiện của thuật toán Two-Phase Tseng và các đồng sự đã đề xuất thuật toán UP-Growth vào năm 2010 [18] Thuật toán UPGrowth gồm hai b°ỏc chớnh B°ỏc 1, xõy dựng cấu trỳc cõy Up-Tree B°ỏc 2, xỏc đònh cỏc tập mục đò hữu ớch cao từ cỏc tập mục hữu ớch cao tiềm năng (PHUIs) Trong giai đoạn đ¿u, thuật toán duyệt c¡ sở dữ liệu để tính toán TWU cho từng mục Sau đó, ở giai đoạn hai, thuật toỏn duyệt cĂ sở dữ liệu và loại bỏ những mục cú giỏ trò TWU nhỏ hĂn ng°ỡng đò hữu ớch tối thiểu do ng°ói dựng quy đònh ra khỏi giao tỏc t°Ăng ứng Mặc dù h°áng tiếp cận này của thuật toán UPGrowth sinh ra ít ứng viên h¡n trong giai đoạn 1 Việc duyệt CSDL gốc vÃn rất tốn thãi gian do CSDL gốc quá lán và vÃn còn chứa nhiều mục không triển váng
Theo đú, mòt cải tiến của thuật toỏn Up-Growth [18] đ°ợc Tseng và cỏc đồng sự đề xuất vào năm 2013 cũng nhằm mục đớch khai phỏ cỏc tập mục đò hữu ớch cao, và đ°ợc gái tên là UpGrowth+ [19] Thuật toán áp dụng các kỹ thuật cắt tỉa để rút gán các tập ứng viên Sau khi tối °u trên cây Up-Tree chúng ta sẽ có đ°ợc các tập mục đò hữu ớch cao tiềm năng (PHUIs) ớt hĂn so vỏi Up-Growth Thuật toỏn này đ°ợc đánh giá là dễ cài đặt và có thãi gian thực thi tốt h¡n thuật toán Up-Growth vì chỉ thực hiện duyệt c¡ sở dữ liệu hai l¿n
Thuật toán HUI-Miner được Liu và Qu đề xuất để khai phá tập mục đồ hữu ích cao [20] Thuật toán này sử dụng cấu trúc danh sách lợi ích để lưu trữ thông tin hữu ích về một tập Sau đó, thuật toán cắt tỉa không gian tìm kiếm Phiên bản cải tiến của HUI-Miner là thuật toán FHM do Phillipe và các cộng sự đề xuất vào năm 2014 Thuật toán này được coi là thuật toán khai phá tập mục đồ hữu ích cao tốt nhất hiện nay.
Mỗi thuật toán đều phát huy hiệu quả chiến l°ợc tỉa ứng viên của mình và đÁy nhanh tốc đò tỡm kiếm tập mục đò hữu ớch cao Tuy nhiờn, trong quỏ trỡnh khai phỏ, các thuật toán vÃn quét các giao tác rỗng và ch°a có ph°¡ng án xử lý các dòng dữ liệu t°¡ng đồng vái nhau (giống các ph¿n tử xuất hiện trong giao tác và chỉ khác số l°ợng)
Năm 2014, Philippe Fournier và cộng sự phát hiện HUI-Miner thực hiện khai phá theo từng giai đoạn, tạo ra các tập ứng viên theo mô hình hai giai đoạn Điều này khiến HUI-Miner tốn nhiều thời gian cho việc liên kết để tạo ra các tập và xác định độ hữu ích của mỗi tập Để giảm các liên kết không cần thực hiện, Philippe và cộng sự đề xuất chiến lược cắt tỉa mới mang tên EUCP (Estimated Utility Cooccurrence Pruning) Phương pháp này cho phép cắt tỉa không cần ghép nối dựa trên ước tính độ hữu ích của các cặp phần tử cùng xuất hiện Thuật toán có tên là FHM (Fast High-utility Minner) Thực nghiệm so sánh FHM với thuật toán HUI-Miner cho thấy giảm 95% các kết nối và nhanh hơn sáu lần.
Năm 2017, Bảy Vừ và còng sự đề xuất mòt thuật toỏn cải tiến từ EFIM (IEFIM - Improve EFfcient high utility Itemset Mining) Thuật toán đề xuất dùng giải pháp chiếu ng°ợc P-set để giảm số l°ợng giao tác c¿n xét trong thuật toán EFIM và làm giảm thãi gian khai phá HUI Thuật toán IEFIM làm giảm đáng kể số l°ợng giao tác c¿n xét và thãi gian thực thi trên các CSDL th°a.
K ¿ t lu Án Ch°¢ng 1
Bài toỏn khai phỏ tập mục đò hữu ớch cao đó tỡm ra cỏc giỏ trò hữu ớch dựa trờn ng°ỡng tối thiểu do ng°ói dựng quy đònh Tuy nhiờn, trong kinh doanh dữ liệu c¿n đ°ợc chia sẻ để cùng nhau hợp tác Do đó, vấn đề đặt ra là làm thế nào để dữ liệu vÃn đ°ợc chia sẻ giữa các doanh nghiệp mà vÃn đảm bảo đ°ợc tính bảo mật trong dữ liệu Để giải quyết vấn đề đú, bài toỏn Án tập mục cú đò hữu ớch cao đ°ợc đề xuất.