Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
0,94 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Đặng Thị Kim Trang PHƯƠNG PHÁP ẨN CÁC TẬP MỤC CÓ ĐỘ HỮU ÍCH CAO TRONG CƠ SỞ DỮ LIỆU GIAO TÁC LỚN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH - NĂM 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Khắc Chiến (Ghi rõ học hàm, học vị) Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Hiện nay, lĩnh vực kinh doanh việc tính tốn doanh số tối ưu hóa lợi nhuận bán hàng cơng việc quan trọng, ảnh hưởng trực tiếp đến doanh thu chiến lược bán hàng công ty, siêu thị hay đơn vị bán lẻ Đặc biệt, với số lượng hàng hóa lớn, giá khác nhau, nên việc tính tốn lợi nhuận tối ưu bán hàng quan trọng Với số lượng giao tác lên đến hàng chục nghìn giao tác, việc tính tốn xem mặt hàng đem lại doanh số cao, mặt hàng kinh doanh không hiệu dù bán với số lượng lớn trở nên khó khăn liệu lớn, liên tục Khai phá tập phổ biến thường mơ tả q trình lấy thơng tin có giá trị từ sở liệu lớn, bắt nguồn từ dạng mẫu có sẵn tồn sở liệu, mẫu có khuynh hướng gom nhóm lại với định nghĩa mơ hình khai thác Khai phá tập mục độ hữu ích cao mở rộng toán khai phá tập phổ biến, nhiều tác giả quan tâm với mục đích đánh giá ý nghĩa tập mục khai phá luật kết hợp Để khai phá tập mục có độ hữu ích cao, giá trị sử dụng lợi nhuận tập mục, chẳng hạn tổng lợi nhuận mà doanh nghiệp thu bán tập mục giao tác Khác với khai phá tập phổ biến, độ hữu ích tập mục khơng thỏa tính chất bao đóng giảm nên độ phức tạp tốn cao Ngồi ra, hợp tác kinh doanh việc muốn chia sở liệu với để có lợi, mang lại nhiều rủi ro để lộ thông tin nhạy cảm như: số định danh cá nhân, số tài khoản ngân hàng,… Để giải vấn đề này, tri thức nhạy cảm ẩn cách chuyển đổi sở liệu ban đầu thành sở liệu sửa đổi theo số chiến lược cụ thể trình ẩn gọi làm liệu Bên cạnh đó, năm gần đây, khai phá liệu bảo vệ tính riêng tư trở thành hướng nghiên cứu quan trọng Trong phần luận văn này, xin tập trung nghiên cứu toán khai phá tập mục có độ hữu ích cao bảo vệ tính riêng tư để ẩn tập mục có độ hữu ích cao nhạy cảm sở liệu giao tác có kích thước lớn Một vấn đề đặt giải toán làm giảm hiệu ứng phụ như: ẩn nhầm tập mục có độ hữu ích cao khơng nhạy cảm, khác CSDL ban đầu CSDL sau sửa đổi,… Vì thế, luận văn tập trung nghiên cứu thuật tốn ẩn tập mục có độ hữu ích cao nhạy cảm đề xuất phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm hiệu nhằm giảm thiểu hiệu ứng phụ Mục tiêu nghiên cứu Nghiên cứu phương pháp ẩn tập mục độ hữu ích cao nhạy cảm có dựa cơng trình cơng bố gần Tìm hiểu ưu điểm hạn chế phương pháp ẩn từ đề xuất phương pháp ẩn hiệu Tìm hiểu thơng số đánh giá tính hiệu phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm Tiến hành cài đặt thử nghiệm phương pháp đề xuất, đánh giá dựa thông số, so sánh với phương pháp ẩn có Tổng quan nghiên cứu đề tài Bài toán ẩn tập mục độ hữu ích cao nhạy cảm chủ đề nhiều nhà nghiên cứu quan tâm Mục tiêu tốn bảo vệ thơng tin nhạy cảm khai phá phương pháp khai phá tập mục độ hữu ích cao với ngưỡng độ hữu ích tối thiểu người dùng quy định Đồng thời, phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm làm giảm thiểu hiệu ứng phụ thông tin không nhạy cảm tính tồn vẹn sở liệu ban đầu Hiện có số phương pháp ẩn hiệu để giải vấn đề này, nhiên phương pháp tạo hiệu ứng phụ không mong muốn Kết thực nghiệm cho thấy thuật toán đề xuất hiệu thuật toán có mặt hiệu ứng phụ ẩn nhầm thông tin không nhạy cảm, chất lượng sở liệu sau trình ẩn Đối tượng, phạm vi nghiên cứu Phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm sở liệu giao tác lớn Đóng góp đề tài Luận văn đề xuất phương pháp cải tiến thuật tốn EHSHUI cơng trình Trieu cộng (2020) [4]; Vo, B cộng (2013) [14] Phương pháp đề xuất lựa chọn tập mục nhạy cảm hợp lý mục sửa đổi Thực nghiệm ra, phương pháp đề xuất hiệu EHSHUI [4] thuật toán [14] thời gian thực sử dụng nhớ CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tập mục phổ biến khai phá tập phổ biến truyền thống 1.1.1 Tập mục phổ biến 1.1.2 Khám phá tri thức khai thác liệu 1.1.3 Khai phá tập phổ biến truyền thống 1.2 Tập mục độ hữu ích cao tốn khai phá tập mục độ hữu ích cao Khi thực khai phá tập phổ biến người ta bỏ qua giá trị độ hữu ích gắn với mục Có tập mục khơng phải tập phổ biến (có tần suất xuất thấp) lại có giá trị độ hữu ích cao nhiều so với tập phổ biến Trong thực tế, việc khai phá tập mục mang giá trị độ hữu ích cao quan trọng có ý nghĩa lớn đời sống xã hội Từ dẫn đến hướng nghiên cứu khai phá liệu, khai phá tập mục độ hữu ích cao Cụ thể, siêu thị kinh doanh hàng trăm mặt hàng từ nhiều nhà cung cấp khác Họ bày bán mặt hàng theo khu vực, việc xếp mặt hàng phụ thuộc vào chiến lược kinh doanh, kích thích khách hàng Mỗi mặt hàng bán đem lại giá trị lợi nhuận xác định chênh lệch giá bán giá mua Theo đó, khách hàng vào siêu thị mua vài mặt hàng với số lượng định, tập hợp tất sản phẩm khách hàng mua đem lại giá trị lợi nhuận cho siêu thị, gọi giao tác Tất giao tác siêu thị lưu trữ lại tạo sở liệu giao tác Người quản lý siêu thị muốn tập hợp tất sản phẩm mà khách hàng mua đem lại lợi nhuận cho siêu thị (ví dụ: 30% tổng lợi nhuận), từ đưa chiến lược kinh doanh, tiếp thị xếp mặt hàng cạnh đưa chương trình khuyến mãi, khuyến khích khách hàng mua sản phẩm mua thêm sản phẩm khác sản phẩm tìm Bài tốn khai phá tập mục độ hữu ích cao nhóm tác giả R.C Chan, Q Yang, Y.D Shen đề xuất vào năm 2003 [27] Cùng với phát triển kinh tế, nhu cầu tính tốn doanh thu, hiệu kinh doanh theo thời gian thực với lượng liệu lớn ngày trở nên cấp thiết Khai phá tập mục độ hữu ích cao tốn mở rộng tổng quát khai phá tập phổ biến Trong khai phá tập mục độ hữu ích cao, giá trị mục giao tác quan tâm nhiều (như số lượng bán mặt hàng), ngồi cịn có bảng lợi nhuận cho biết độ hữu ích mang lại bán mặt hàng Độ hữu ích tập mục số đo lợi nhuận tập mục đóng góp sở liệu, tổng lợi nhuận hay tổng chi phí tập mục Một lý khai phá tập mục độ hữu ích cao khám phá tất tập mục có độ hữu ích khơng nhỏ ngưỡng độ hữu ích tối thiếu người dùng quy định Từ xác định tập mục độ hữu ích cao, tập mục độ hữu ích cao nhạy cảm Sau xây dựng phương pháp bảo vệ liệu nhạy cảm, làm hạn chế thơng tin nhạy cảm bị lộ ngồi, kinh doanh Bài toán Khai phá tập mục độ hữu ích cao sử dụng sở liệu giao tác Mỗi giao tác giao tác mua hàng, truy cập internet Luận văn sử dụng CSDL giao tác sau: Bảng 1.10: Cơ sở liệu giao tác TID T1 T2 T3 T4 T5 T6 T7 T8 T9 Bảng 1.12: Bảng HUI Transaction (Item, InUtility) (a,10), (b,2), (e,5) (c,4), (d,2), (e,7), (f,15) (b,15), (c,15), (e,1), (f,1) (a,5), (b,4), (c,20), (d,2), (e,5) (b,25), (c,15) (a,15), (e,7), (f,15) (a,25), (c,15), (d,40) (b,15), (d,35), (e,3) (a,5), (b,10), (c,20), (d,30), (e,2), (f,3) Bảng 1.11: Bảng lợi nhuận Item Profit a b c d e f 10 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 = 250 HID Itemset Utility ef 425 a 422 acd 372 aef 367 ae 342 f 340 af 322 ad 317 ac 300 10 cdef 281 11 cef 279 12 def 257 Một số khái niệm khai phá tập mục độ hữu ích cao: Cho I = {i1 , i2 , … , im } tập m mục (item) phân biệt, mục ip ∈ I có độ hữu ích bên ngồi (được gọi lợi nhuận) eu(ip ), ≤ p ≤ m D = {T1 , T2 , … , Tn } sở liệu (CSDL) giao tác, Ti giao tác chứa tập mục chứa I Một tập gồm nhiều mục gọi tập mục (itemset) Một giao tác T hỗ trợ tập mục X X ⊆ I Một tập mục X = {i1 , i2 , … , ik } chứa k mục gọi k-itemset Mỗi mục ip giao tác Tq kết hợp với số lượng mục ip có giao tác Tq Cho CSDL giao tác Bảng 1.10, Bảng 1.11 chứa lợi nhuận giao tác Bảng 1.12 chứa tập mục độ hữu ích cao Luận văn sử dụng số định nghĩa sau: Định nghĩa 1.1: Số lượng mục ip giao tác Tq , ký hiệu iu(ip , Tq ) Ví dụ: Bảng 1.10 có iu(b, T8 ) = 15 iu(d, T8 ) = 35 Định nghĩa 1.2: Lợi nhuận mục ip , thể độ quan trọng mục ip , ký hiệu eu(ip ) Ví dụ: Bảng 1.11 có eu(b) = eu(d) = Định nghĩa 1.3: Độ hữu ích mục ip giao tác Tq , ký hiệu u(ip , Tq ), tính sau: u(ip , Tq ) = iu(ip , Tq ) ∗ eu(ip ) Ví dụ: u(b, T8 ) = iu(b, T8 ) ∗ eu(b) = 15 ∗ = 30 Định nghĩa 1.4: Độ hữu ích tập mục X giao tác Tq , ký hiệu u(X, Tq ) tính sau: u(X, Tq ) = ∑ u(ip , Tq ) ip ∈X Ví dụ: u(bd, T8 ) = u(b, T8 ) + u(d, T8 ) = 15 ∗ + 35 ∗ = 65 Định nghĩa 1.5: Độ hữu ích tập mục X, ký hiệu u(X), tính sau: u(X) = ∑ u(X, Tq ) X⊆Tq ∧Tq ∈D Ví dụ: u(bd) = u(bd, T4 ) + u(bd, T8 ) + u(bd, T9 ) = 10 + 65 + 50 = 125 Định nghĩa 1.6: Độ hữu ích giao tác Tq , ký hiệu tu(Tq ), tính sau: tu(Tq ) = ∑ u(ip , Tq ) ip ∈Tq Ví dụ: tu(T8 ) = u(b, T8 ) + u(d, T8 ) + u(e, T8 ) = 15 ∗ + 35 ∗ + ∗ = 80 Định nghĩa 1.7: Bài toán khai phá tập mục độ hữu ích cao Một tập mục X gọi tập mục độ hữu ích cao độ hữu ích X lớn ngưỡng độ hữu ích tối thiểu người dùng quy định, ký hiệu minutil Gọi HUI tập hợp tập mục độ hữu ích cao, ta có HUI = {X | X ∈ I, u(X) ≥ minutil} 1.3 Một số thuật toán khai phá tập mục độ hữu ích cao Bài tốn khai phá tập mục độ hữu ích cao giúp giải vấn đề mà tốn khai phá tập phổ biến khơng giải Trong khai phá tập mục độ hữu ích cao mục xuất nhiều lần giao tác, mục có trọng số (lợi nhuận, độ hữu ích…) Kết khai phá tập mục độ hữu ích cao ứng dụng để tìm tập mục sở liệu mang lại lợi nhuận cao Hiện có nhiều nhà nghiên cứu đề xuất thuật toán khai phá tập mục độ hữu ích cao hiệu Năm 2005, Liu đồng đề xuất thuật toán Two-Phase với khái niệm độ hữu ích giao tác (Transaction Utility - TU) độ hữu ích giao tác có trọng số (Transaction Weighted Utility -TWU) để cải tiến khơng gian tìm kiếm khai phá tập mục độ hữu ích cao [17] Giá trị TWU tập mục độ hữu ích thỏa mãn tính bao đóng giảm, hồn tồn dựa vào TWU sửa đổi thuật toán khai phá tập phổ biến để khai phá tập mục độ hữu ích cao Vì vậy, tác giả sửa đổi thuật toán Apriori để khai phá tập mục độ hữu ích cao Liu Qu đề xuất thuật toán HUI-Miner (High Utility Itemset Miner) [20] để khai phá tập mục độ hữu ích cao sử dụng cấu trúc mới, gọi danh sách lợi ích, để lưu trữ tất thơng tin hữu ích tập tìm thơng tin để cắt tỉa khơng gian tìm kiếm Thuật tốn HUI-Miner xem thuật toán tốt để khai phá tập mục độ hữu ích cao có xuất thuật tốn FHM [21], thuật tốn khai phá tập mục độ hữu ích cao đề xuất Phillipe đồng vào năm 2014 Mỗi thuật toán phát huy hiệu chiến lược tỉa ứng viên đẩy nhanh tốc độ tìm kiếm tập mục độ hữu ích cao Tuy nhiên, q trình khai phá, thuật tốn quét giao tác rỗng chưa có phương án xử lý dòng liệu tương đồng với (giống phần tử xuất giao tác khác số lượng) Năm 2014, Philippe Fournier cộng [3] xem xét thấy HUI-Miner thực khai phá giai đoạn, không tạo tập ứng viên theo mơ hình hai giai đoạn Do HUIMiner tiêu tốn thời gian cho việc liên kết để tạo tập tốn thời gian để đánh giá độ hữu ích tập Để giảm liên kết cần thực hiện, Philippe cộng đề xuất chiến lược cắt tỉa gọi EUCP (Estimated Utility Cooccurrence Pruning) Phương pháp cho phép cắt tỉa khơng cần ghép nối dựa ước tính độ hữu ích cặp phần tử xuất Thuật tốn có tên FHM (Fast High-utility Minner) Thực nghiệm so sánh FHM với thuật toán HUI-Miner cho thấy giảm 95% kết nối nhanh sáu lần Đồng thời, có nhiều thuật tốn phát triển nhằm nâng cao hiệu khai phá HUI, EFIM (EFfcient high utility Itemset Mining) thuật toán áp dụng nhiều kỹ thuật để cải thiện tốc độ khơng gian tìm kiếm Tuy nhiên, EFIM cịn tốn nhiều chi phí qt dịng liệu để xác định liên quan đến ứng viên xét làm giảm hiệu thuật toán, đặc biệt sở liệu thưa Năm 2017, Bảy Võ cộng đề xuất thuật toán cải tiến từ EFIM (IEFIM Improve EFfcient high utility Itemset Mining) Thuật toán đề xuất dùng giải pháp chiếu ngược P-set để giảm số lượng giao tác cần xét thuật toán EFIM làm giảm thời gian khai phá HUI Thuật toán IEFIM làm giảm đáng kể số lượng giao tác cần xét thời gian thực thi CSDL thưa 1.4 Kết luận Chương Bài toán khai phá tập mục độ hữu ích cao tìm giá trị hữu ích dựa ngưỡng tối thiểu người dùng quy định Tuy nhiên, kinh doanh liệu cần chia sẻ để hợp tác Do đó, vấn đề đặt làm để liệu chia sẻ doanh nghiệp mà đảm bảo tính bảo mật liệu Để giải vấn đề đó, tốn ẩn tập mục có độ hữu ích cao đề xuất CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP ẨN TẬP MỤC ĐỘ HỮU ÍCH CAO 2.1 Một số khái niệm Phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm (gọi tắt tập mục nhạy cảm) nhằm bảo vệ thông tin nhạy cảm sở liệu giao tác, cho chúng khám phá phương pháp khai phá tập mục độ hữu ích cao với ngưỡng độ hữu ích tối thiểu người dùng quy định Sửa đổi sở liệu trình chuyển đổi sở liệu ban đầu thành sở liệu sửa đổi, cho khai phá tập mục nhạy cảm từ sở liệu sửa đổi giảm thiểu hiệu ứng phụ tập mục không nhạy cảm Trong luận văn sử dụng số định nghĩa sau tham khảo cơng trình [3,4,13,14,15,16] Cho tập mục có độ hữu ích cao nhạy cảm (gọi tắt là: tập mục nhạy cảm) cần phải ẩn, ký hiệu SHUI = {S1, S2, …, Sm}, Sd ∈ SHUI, (1 ≤ d ≤ m) Bài toán ẩn tập mục nhạy cảm việc sửa đổi CSDL D ban đầu thành CSDL D’ cho độ hữu ích tất tập mục nhạy cảm Sd ∈ SHUI phải nhỏ ngưỡng độ hữu ích tối thiểu người dùng quy định, tức u(Si ) < minutil, với i = ÷ m Định nghĩa 2.1: Gọi SHUI = {S1, S2, …, Sm} tập hợp mục nhạy cảm, Si tập mục nhạy cảm cần ẩn trước đưa CSDL bên ngồi, ta có SHUI, HUI Gọi NSHUI tập hợp mục độ hữu ích cao khơng nhạy cảm (gọi tắt là: tập mục khơng nhạy cảm), ta có SHUI ∪ NSHUI = HUI Định nghĩa 2.2: Gọi ST tập hợp giao tác nhạy cảm mà giao tác ST có chứa tập mục nhạy cảm Q trình sửa đổi liệu tốn ẩn tập mục nhạy cảm gồm ba bước sau: Bước 1: Áp dụng thuật tốn khai phá độ hữu ích cao sở liệu giao tác D để có tất tập mục độ hữu ích cao (HUI); Bước 2: Xác định tập hợp tập mục nhạy cảm (các tập mục độ hữu ích cao nhạy cảm) SHUI dựa yêu cầu người dùng; 10 Trieu cộng (2020) [4] đề xuất cải tiến thuật toán HHUIF Thuật toán nhằm mục đích sửa số lượng mục giao tác sửa đổi, để ẩn tập mục có độ hữu ích cao nhạy cảm Thuật toán hiệu HHUIF MSICF hiệu ứng phục thời gian chạy Thuật toán EHSHUI bao gồm ba bước heuristic: - Giao tác chứa Si SHUI có độ hữu ích cao chọn giao tác sửa đổi - Mục tác động đến NSHUI chọn làm mục sửa đổi - Xác định giá trị độ hữu ích: 𝑑𝑖𝑓𝑓𝑢 = 𝑢(𝑆𝑖) – 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 + để giảm số lượng mục ivic từ giao tác Tvic Input: Cơ sở liệu giao tác D, tập mục có độ hữu ích cao HUI; Tập mục có độ hữu ích cao nhạy cảm SHUI = {S1, S2,… Ss} Ngưỡng tối thiểu minutil Output: Cơ sở liệu sửa đổi D’ Computer fHSUIs(Si), ≤ i ≤ |SHUIs| ˄ Si ∈ SHUIs; Sort SHUIs in decreasing order of fHSUIs(Si); foreach (Si ∈ SHUIs) DSi = projectData (D, Si); diffu = u(Si) - minutil + 1; while (diffu > 0) Tvic = findVictimTransaction (DSi, Si); ivic = findVictimItem (Si,Tvic); if (u (ivic, Tvic) > diffu) then diffu 10 dec = ⌈ 11 iu(ivic, Tvic) = iu(ivic, Tvic) – dec; 12 diffu = 0; 13 ⌉; eu(ivic ) else 14 diffu = diffu – u(Si, Tvic); 15 remove ivic from Tvic ; 16 Update (D); 11 Chạy thử thuật toán với CSDL bảng 1.10, bảng 1.11 bảng 1.12, với tập mục nhạy cảm SHUI = {acd, cdef} Xây dựng Bảng: I-List; HUI-Table; T-Table Bảng 2.1: Bảng I-List thuật toán EHSHUI Giao tác (Mục, số lượng) TID TU(T) I-List T1 (a,10),(b,2),(e,5) 99 (a,10,70) (b,2,4) (e,5,25) T2 (c,4), (d,2), (e,7), (f,15) 191 (c,4,4) (d,2,2), (e,7,35), (f,15,150) T3 (b,15), (c,15), (e,1), (f,1) 60 (b,15,30) (c,15,15) (e,1,5) (f,1,10) T4 (a,5), (b,4), (c,20), (d,2), (e,5) 90 (a,5,35)(b,4,8)(c,20,20)(d,2,2)(e,5,25) T5 (b,25), (c,15) 65 (b,25,50)(c,15,15) T6 (a,15), (e,7), (f,15) 290 (a,15,105)(e,7,35)(f,15,150) T7 (a,25), (c,15), (d,40) 230 (a,25,175)(c,15,15)(d,40,40) T8 (b,15), (d,35), (e,3) 80 (b,15,30)(d,35,35)(e,3,15) T9 (a,5),(b,10),(c,20),(d,30),(e,2),(f,3) 145 (a,5,35)(b,10,20)(c,20,20)(d,30,30)(e,2,10)(f,3,30) Bảng 2.2: Bảng HUI-Table thuật toán EHSHUI HID Itemset Utility ef 425 a 422 acd 372 aef 367 ae 342 f 340 af 322 ad 317 ac 300 10 cdef 281 11 cef 279 12 def 257 TIDs T2, T3,T6,T9 T1,T4,T6,T7,T9 T4,T7,T9 T6,T9 T1,T4,T6,T9 T2,T3,T6,T9 T6,T9 T4,T7,T9 T4,T7,T9 T2,T9 T2,T9 T2,T9 Bảng 2.3: Bảng T-Table thuật toán EHSHUI TID SID NSID T2 10 1,6,11,12 T4 2,5,8,9 T7 2,8,9 T9 3,10 I-List (c,4,4) (d,2,2) (e,7,35) (f,15,150) (a,5,35) (b,4,8) (c,20,20) (d,2,2) (e,5,25) (a,25,175)(c,15,15)(d,40,40) 1,2,4,5,6,7,8,9,11,12 (a,5,35)(b,10,20)(c,20,20)(d,30,30)(e,2,10)(f,3,30) 12 Sắp xếp Si SHUI giảm dần theo tần suất: f(acd) = 3, f(cdef) =2 * Chọn ngẫu nhiên: S1 = {cdef} để ẩn trước có giao tác hỗ trợ T2, T9 Độ hữu ích S1: u(cdef) = 281 munitil = 250, muốn ẩn S1 độ hữu ích S1 phải < 250 Tính toán diffu = 281 – 250 + = 32, muốn ẩn S1 phải giảm độ hữu ích u(S1) 32 Bảng 2.4: Bảng CSDL chiếu S1: TID T2 SID 10 T9 3,10 NSID 1,6,11,12 I-List (c,4,4) (d,2,2), (e,7,35), (f,15,150) 1,2,4,5,6,7,8,9,11,12 (c,20,20)(d,30,30)(e,2,10)(f,3,30) Tìm giao tác nạn nhân Tvic cần sửa đổi: u(cdef, T2) = 191 u(cdef, T9) = 90 Chọn T2 làm giao tác sửa đổi Tìm mục nạn nhân mà Ivic cần sửa đổi: u(c, T2) = 4; u(d, T2) = 2; u(e, T2) = 35; u(f, T2) =150 Có mục e f lớn diffu Tính tốn mục e phải giảm để ẩn tập mục nhạy cảm S1: dec = ⌈ diffu ⌉ eu(ivic ) dec(e, T2) = |diffu/eu(e)| = 32/5 = coi loại e khỏi giao tác T2 Tính độ hữu ích tập mục SID NSID u(cdef) = 281 - 191 = 90 < minutil = 250 ẩn u(ef) = 425 - 35 - 150 = 240 < minutil = 250 ẩn nhầm u(f) = 340 – 150 = 190 < minutil = 250 ẩn nhầm u(cef)= 279 – – 35 - 150 = 90 < minutil = 250 ẩn nhầm u(def) = 257 – – 35 - 150 = 70 < minutil = 250 ẩn nhầm Tính tốn mục f phải giảm để ẩn tập mục nhạy cảm S1: dec = ⌈ diffu ⌉ eu(ivic ) dec(f, T2) = |diffu/eu(f)| = 32/10 = giảm f độ hữu ích giảm 40 Tính độ hữu ích tập mục SID NSID u(cdef) = 281- 40 = 241 < minutil = 250 ẩn u(ef) = 425 – 40 = 385 13 u(f) = 340 - 40 = 300 u(cef) = 279 - 40 = 239 < minutil = 250 ẩn nhầm u(def) = 257 – 40 = 217 < minutil = 250 ẩn nhầm Vậy mục f sửa tạo ẩn nhầm nhất, chọn mục f làm mục sửa đổi Cập nhật giá trị: bảng T-Table HUI-Table Bảng 2.5: cập nhật lại HUI-Table (lần 1) HID 10 11 12 Itemset ef a acd aef ae f af ad ac cdef cef def Utility 425 422 372 367 342 340 322 317 300 281 279 257 ẩn cdef 385 422 372 367 342 300 322 317 300 241 239 217 TIDs T2, T3,T6,T9 T1,T4,T6,T7,T9 T4,T7,T9 T6,T9 T1,T4,T6,T9 T2,T3,T6,T9 T6,T9 T4,T7,T9 T4,T7,T9 T2,T9 T2,T9 T2,T9 Bảng 2.6: cập nhật lại T-Table (lần 1) TID T2 SID 10 NSID 1,6,11,12 T4 2,5,8,9 T7 2,8,9 T9 3,10 I-List (c,4,4) (d,2,2), (e,7,35), (f,11,110) (a,5,35)(b,4,8)(c,20,20)(d,2,2)(e,5,25) (a,25,175)(c,15,15)(d,40,40) 1,2,4,5,6,7,8,9,11,12 (a,5,35)(b,10,20)(c,20,20)(d,30,30)(e,2,10)(f,3,30) * Tiếp tục ẩn S2 = {acd} có giao tác hỗ trợ T4, T7, T9 Độ hữu ích S2: u(acd) = 372 munitil = 250, muốn ẩn S2 độ hữu ích S2 phải < 250 Tính tốn diffu = 372 – 250 + = 123, muốn ẩn S2 phải giảm độ hữu ích u(S2) 123 Bảng 2.7: Bảng CSDL chiếu S2 TID T4 SID NSID 2,5,8,9 T7 2,8,9 T9 3,10 1,2,4,5,6,7,8,9,11,12 I-List (a,5,35)(c,20,20)(d,2,2) (a,25,175)(c,15,15)(d,40,40) (a,5,35)(c,20,20)(d,30,30) 14 Tìm giao tác nạn nhân Tvic cần sửa đổi: u(acd, T4) = 57 u(acd, T7) = 230 u(acd, T9) = 85 Vậy chọn Tvic = T7 Tìm mục nạn nhân mà Ivic cần sửa đổi: u(a,T7) = 175, u(c,T7) = 15, u(d,T7) = 40 Vậy có u(a,T7) = 175 > diffu Ivic = a Tính tốn mục a phải giảm để ẩn tập mục nhạy cảm S2: dec = ⌈ dec(a, T7) = |123/7| = 18 giảm 18 a độ hữu ích giảm 126 Tính độ hữu ích tập mục SID NSID u(acd) = 372 - 18*7 = 246 < minutil =250 ẩn u(a) = 422 - 18*7 = 296 u(ad) = 317 - 18*7 = 191 < minutil = 250 ẩn nhầm u(ac) = 300 - 18*7 = 174 < minutil = 250 ẩn nhầm Cập nhật giá trị: bảng T-Table HUI-Table Bảng 2.8: cập nhật lại HUI-Table (lần 2) HID 10 11 12 Itemset ef a acd aef ae f af ad ac cdef cef def Utility 425 422 372 367 342 340 322 317 300 281 279 257 ẩn cdef 385 422 372 367 342 300 322 317 300 241 239 217 ẩn acd 385 296 246 367 342 300 322 191 174 241 239 217 TIDs T2, T3,T6,T9 T1,T4,T6,T7,T9 T4,T7,T9 T6,T9 T1,T4,T6,T9 T2,T3,T6,T9 T6,T9 T4,T7,T9 T4,T7,T9 T2,T9 T2,T9 T2,T9 diffu ⌉ eu(ivic ) 15 Bảng 2.9: cập nhật lại T-Table (lần 2) TID T2 SID 10 NSID 1,6,11,12 T4 2,5,8,9 T7 2,8,9 T9 I-List (c,4,4) (d,2,2), (e,7,35), (f,11,110) (a,5,35)(b,4,8)(c,20,20)(d,2,2)(e,5,25) (a,7,35)(c,15,15)(d,40,40) 3,10 1,2,4,5,6,7,8,9,11,12 (a,5,35)(b,10,20)(c,20,20)(d,30,30)(e,2,10)(f,3,30) 2.4 Kết luận Chương Thuật tốn EHSHUI hồn thành việc ẩn tập mục độ hữu ích cao nhạy cảm Tuy nhiên, Thời gian chạy thuật toán tăng lên với phát triển HUI Lý tốn thời gian cách tính tốn để định số lượng khơng phải SHUI bị ảnh hưởng cho mục nhạy cảm Sau nhận thấy tồn thuật toán Luận văn đề xuất thuật toán để cải tiến thuật toán Phương pháp đề xuất thuật toán ẩn tập mục nhạy cảm hiệu trình bày Chương 16 CHƯƠNG 3: ĐỀ XUẤT PHƯƠNG PHÁP ẨN TẬP MỤC ĐỘ HỮU ÍCH CAO 3.1 Cơ sở để đề xuất thuật toán Phương pháp ẩn tập mục nhạy cảm để bảo vệ quyền riêng tư không để ẩn tất tập mục nhạy cảm mà để giảm thiểu hiệu ứng phụ thơng tin khơng nhạy cảm tính tồn vẹn sở liệu gốc Trên sở phương pháp ẩn tổng quát này, toán ẩn tập mục nhạy cảm sửa đổi sở liệu ban đầu cách xóa giảm số lượng mục để độ hữu ích tập mục nhạy cảm giảm xuống ngưỡng độ hữu ích tối thiểu Hầu hết cơng trình tập trung vào việc xác định: giao tác chọn để sửa đổi 𝑇𝑣𝑖𝑐 mục chọn để sửa đổi 𝐼𝑣𝑖𝑐 giao tác sửa đổi 𝑇𝑣𝑖𝑐 Trong luận văn này, tập trung vào: (i) Khi ẩn tập mục nhạy cảm, thứ tự chọn ẩn tập mục nhạy cảm trước tiên ảnh hưởng đến trình ẩn gây hiệu ứng phụ không mong muốn Luận văn chọn tập mục có độ hữu ích cao nhạy cảm lớn cần ẩn trước Vì ẩn tập mục nhạy cảm ẩn tập mục nhạy cảm khác, khơng cần ẩn tập mục nhạy cảm Điều chứng minh ví dụ minh họa Do đó, tăng hiệu q trình ẩn (ii) Luận văn chọn mục cần sửa đổi (ivic) nằm số tập mục nhạy cảm nhiều để sửa đổi trước Nếu có nhiều mục vậy, luận văn chọn mục nằm số tập mục khơng nhạy cảm để sửa đổi Điều giảm thiểu hiệu ứng phụ tập mục có độ hữu ích cao khơng nhạy cảm (iii) Trong hầu hết thuật toán xuất [4, 13, 14, 15, 16], chúng sửa đổi giao tác Điều làm tăng thời gian xử lý Trong luận văn sử dụng hệ số đề xuất [14] để tính tỷ lệ giảm số lượng mục cần sửa đổi ivic tất giao tác nhạy cảm hỗ trợ tập mục nhạy cảm Si cần ẩn Sau đó, thuật tốn đề xuất sửa đổi tất giao tác nhạy cảm lúc Điều làm giảm số lần quét sở liệu thời gian cần thiết để ẩn tập mục nhạy cảm Đặt Sj tập mục có độ hữu ích cao nhạy cảm Để ẩn Sj, độ hữu ích Sj phải giảm lượng theo cơng thức sau: 17 𝑑𝑖𝑓𝑓𝑢 = 𝑢(𝑆𝑗 ) − 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 + Trong đó, u(Sj) độ hữu ích tập mục nhạy cảm Sj minutil ngưỡng độ hữu ích tối thiểu Hệ số tính sau: 𝛼 = 𝑑𝑖𝑢 × Trong đó, 𝑑𝑖𝑢 = ⌈ 𝑑𝑖𝑓𝑓𝑢 𝑒𝑢(𝑖𝑝 ) 𝑒𝑢(𝑖𝑝 ) 𝑠𝑢𝑚(𝑖𝑝 ) ⌉, 𝑠𝑢𝑚(𝑖𝑝 ) tổng độ hữu ích mục 𝑖𝑝 tất giao tác nhạy cảm hỗ trợ 𝑆𝑗 Định nghĩa 3.1: Xác định mục cần sửa đổi (ivic): mục nằm số tập mục nhạy cảm nhiều Nếu có nhiều mục thỏa mãn, luận văn chọn mục nằm số tập mục khơng nhạy cảm Đối với thuật tốn ẩn tập mục nhạy cảm có, thường phải quét sở liệu nhiều lần, luận văn sử dụng cấu trúc liệu trình bày [4] để giảm số lần quét sở liệu, cấu trúc liệu giới thiệu Định nghĩa 3.2, Định nghĩa 3.3 Định nghĩa 3.4 Định nghĩa 3.2: Cho giao tác T, danh sách mục (I-list) lưu trữ thông tin mục T Mỗi mục i I-list gồm ba thành phần: 𝑖 = 〈𝐼𝑡𝑒𝑚, 𝐼𝑛𝑈𝑡𝑖𝑙𝑖𝑡𝑦, 𝑈𝑡𝑖𝑙𝑖𝑡𝑦〉 Trong Item mục i, InUtility số lượng i T, Utility độ hữu ích i T Ví dụ Bảng 2.1, I-list T1 (a,10,70) (b,2,4) (e,5,25) Định nghĩa 3.3: Cho sở liệu D, tập hợp tập mục độ hữu ích cao 𝐻𝑈𝐼 = {𝑋 | 𝑋 ∈ 𝐼, 𝑢(𝑋) ≥ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙}, Bảng tập mục độ hữu ích cao (HUI-table) chứa thông tin tập mục độ hữu ích cao khai thác từ D Mỗi tập mục độ hữu ích cao X bảng HUI-table có bốn thành phần: X = Trong HID định danh X, Items danh sách mục có X, HUI-utility độ hữu ích X, TIDs cho biết giao tác hỗ trợ X D Với sở liệu giao tác cho Bảng 1.10 Bảng 1.11, ngưỡng độ hữu ích tối thiểu minutil = 250 Chúng ta xây dựng bảng HUI-Table Bảng 1.12 18 Định nghĩa 3.4: Cho sở liệu D, tập hợp tập mục nhạy cảm 𝑆𝐻𝑈𝐼 = {𝑆1 , 𝑆2 , , 𝑆𝑘 } , Bảng giao tác (T-table) chứa thông tin giao tác nhạy cảm D Mỗi giao tác T bảng T-table có bốn thành phần: T = Trong TID mã định danh T, SID NSID mã định danh tập mục nhạy cảm tập mục không nhạy cảm hỗ trợ T I-list danh sách mục T 3.2 Thuật toán đề xuất Thuật toán IEHSHUI Input: Cơ sở liệu giao tác D, tập mục có độ hữu ích cao HUI; Tập mục có độ hữu ích cao nhạy cảm SHUI = {S1, S2,… Ss} Ngưỡng tối thiểu minutil Output: Cơ sở liệu sửa đổi D’ Sort 𝑆𝐻𝑈𝐼 in decreasing order of 𝑢(𝑆𝑖 ); foreach (𝑆𝑗 ∈ 𝑆𝐻𝑈𝐼) 𝑑𝑖𝑓𝑓𝑢 = 𝑢(𝑆𝑗 ) − 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 + Find set of sensitive transaction 𝑆𝑇 support 𝑆𝑖 while (𝑑𝑖𝑓𝑓𝑢 > 0) Find 𝑖𝑣𝑖𝑐 by Definition 10 𝑑𝑖𝑢 = ⌈𝑒𝑢(𝑖 𝑑𝑖𝑓𝑓𝑢 𝑣𝑖𝑐 ) ⌉ 𝑒𝑢(𝑖 ) Calculate factor 𝛼 = 𝑑𝑖𝑢 × 𝑠𝑢𝑚(𝑖𝑣𝑖𝑐 ), for each 𝑇𝑞 ∈ 𝑆𝑇 𝑣𝑖𝑐 where 𝑠𝑢𝑚(𝑖𝑣𝑖𝑐 ) = ∑𝑇𝑞∈𝑆𝑇 𝑢(𝑖𝑣𝑖𝑐 , 𝑇𝑞 ) 10 Modify the quantity of 𝑖𝑣𝑖𝑐 11 𝑖𝑢(𝑖𝑣𝑖𝑐 ) − 𝑖𝑢(𝑖𝑣𝑖𝑐 ) × 𝛼 𝑖𝑓 𝛼 < 𝑖𝑢(𝑖𝑣𝑖𝑐 ) = { 𝑖𝑓 𝛼 ≥ 12 Modify 𝑑𝑖𝑓𝑓𝑢 13 Update (D); Ví dụ minh họa: Với sở liệu đưa bảng 1.10, bảng 1.11 ngưỡng độ hữu ích tối thiểu minutil = 250, khai thác tất tập mục có độ hữu ích cao HUI trình bày bảng 1.12 19 Bảng 1.10: Cơ sở liệu giao tác TID Bảng 1.12: Bảng HUI Transaction (Item, InUtility) T1 (a,10),(b,2),(e,5) T2 (c,4), (d,2), (e,7), (f,15) T3 (b,15), (c,15), (e,1), (f,1) T4 (a,5), (b,4), (c,20), (d,2), (e,5) T5 (b,25), (c,15) T6 (a,15), (e,7), (f,15) T7 (a,25), (c,15), (d,40) T8 (b,15), (d,35), (e,3) T9 (a,5),(b,10),(c,20),(d,30),(e,2),(f,3) Bảng 1.11: Bảng lợi nhuận Item a b c d e f Profit 1 10 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 = 250 HID Itemset Utility ef 425 a 422 acd 372 aef 367 ae 342 f 340 af 322 ad 317 ac 300 10 cdef 281 11 cef 279 12 def 257 Giả sử tập mục nhạy cảm cần ẩn SHUI = {ae, ef, aef} Dòng 1: Sắp xếp theo thứ tự giảm dần u(Sj): SHUI = {ef (425), aef (367), ae (342)} Dòng 2: chọn ẩn S1 = {ef} Dịng 3: tính tốn 𝑑𝑖𝑓𝑓𝑢 = 𝑢(ef) – 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 + = 425 – 250 + = 176 Dịng 4: Tìm tập giao tác nhạy cảm hỗ trợ S1 như: ST = {T2, T3, T6, T9} Dòng 5: diffu > Dịng 6: Tìm mục ivic cần sửa đổi: Có mục e f Mục e có tập mục nhạy cảm: {ae}, {ef} {aef} Mục f có tập mục nhạy cảm: {ef} {aef} Vì vậy, chọn mục e để sửa đổi nằm số tập mục nhạy cảm nhiều Dịng 7: Tính tốn mục e phải giảm để ẩn tập mục nhạy cảm S1 = {ef} như: 𝑑𝑖𝑢 = ⌈ 𝑑𝑖𝑓𝑓𝑢 176 ⌉=⌈ ⌉ = 36 𝑒𝑢(𝑒) Dịng 8: Tính hệ số cho mục e 𝑠𝑢𝑚(𝑒) = 𝑢(𝑒, 𝑇2) + 𝑢(𝑒, 𝑇3) + 𝑢(𝑒, 𝑇6) + 𝑢(𝑒, 𝑇9) = 35 + + 35 + 10 = 85 20 𝛼 = 𝑑𝑖𝑢 × 𝑒𝑢(𝑒) = 36 × = 2.12 > 𝑠𝑢𝑚(𝑒) 85 Dịng 11: Vì > 1, thuật tốn IEHSHUI điều chỉnh số lượng mục e giao tác T2, T3, T6, T9 đến giá trị (không cho 0) Số mục e T2 > giảm (Còn lại 1) Số mục e T3 > giữ nguyên Số mục e T6 > giảm (Còn lại 1) Số mục e T9 > giảm (Còn 1) Vậy số lượng mục e giảm là: + + + = 13, Mà profit(e)=5 Vậy giảm độ hữu ích đi: 13x5 = 65 Dòng 12: cập nhật giá trị: Độ hữu ích tập mục nhạy cảm S1 = {ef}, giảm xuống lại là: u(ef) = 425 – 65 = 360 Cập nhật: diffu = 360 – 250 + = 111 Dòng 13: Cập nhật lại sở liệu Vì diffu > tiếp tục quay lại dịng 5, Thuật tốn IEHSHUI chọn mục f để sửa đổi Dịng 7: Tính tốn số lượng mục f cần phải giảm để ẩn tập mục nhạy cảm S1 = {ef} thì: 𝑑𝑖𝑢 = ⌈ 𝑑𝑖𝑓𝑓𝑢 111 ⌉=⌈ ⌉ = 12 𝑒𝑢(𝐹) 10 Dịng 8: Tính hệ số cho mục f 𝑠𝑢𝑚(𝐹) = 𝑢(𝐹, 𝑇2) + 𝑢(𝐹, 𝑇3) + 𝑢(𝐹, 𝑇6) + 𝑢(𝐹, 𝑇9) = 150 + 10 + 150 + 30 = 340 𝛼 = 𝑑𝑖𝑢 × 𝑒𝑢(𝐹) 10 = 12 × = 0.35 𝑠𝑢𝑚(𝐹) 340 Vì = 0.35 < Tính số mục f phải giảm giao tác T2, T3, T6, T9 sau: Số mục f phải giảm T2 15 * 0.35 = Số mục f phải giảm T6 15 * 0.35 = 21 Số mục f phải giảm lại T9 * 0.35 = Tổng số mục f cần phải giảm để ẩn {ef} là: 12 Vậy số mục f phải giảm T3 12 – – - = Nhưng số mục f T3 1, giảm mục f khỏi giao tác T3, coi loại bỏ mục f khỏi giao tác T3 Do đó, T3 không hỗ trợ tập mục nhạy cảm {ef} Độ hữu ích tập mục {ef} phải giảm u(ef, T3) f bị loại bỏ khỏi giao tác T3 Cập nhật lại giá trị: u(ef) = 360 - 5*10 – 5*10 – 1*10 – u(ef,T3) = 360 -110 - 15= 235 < 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 = 250 Như mục tập mục S1 = ẩn thành công Diffu = 235 - 250 + = -14 < Dòng 13: cập nhật lại sở liệu Làm tương tự để ẩn tập mục nhạy cảm S2 = S3 = cuối Thuật toán đề xuất IEHSHUI ẩn tất tập mục nhạy cảm ẩn nhầm tập mục không nhạy cảm, < f >, < af >, < cdef>, < cef > < def > Do đó, thuật tốn đề xuất IEHSHUI, sửa đổi nhiều giao tác thời điểm nhanh chóng ẩn tập mục nhạy cảm Trong phần 4, thực nghiệm so sánh đánh giá thuật toán đề xuất IEHSHUI với thuật toán EHSHUI [4] 3.3 Kết luận Chương Như vậy, với thuật toán đề xuất, ẩn nhầm tập mục khơng nhạy cảm hơn, thay đổi sở liệu trước sau sửa đổi Về giá trị độ hữu ích tồn sở liệu so với thuật tốn EHSHUI Để có sở đánh giá khách quan hơn, thuật toán đề xuất chạy thực nghiệm sở liệu thực tế trình bày Chương 22 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm liệu sử dụng Thực nghiệm thực máy tính Intel ® Core™ i7 CPU 2.00 GHz, RAM 8GB chạy Windows 10 Các thuật toán thực ngôn ngữ Java Cơ sở liệu thử nghiệm thu trang web http://www.philippefournier- viger.com/spmf/index.php?link=datasets.php có đặc điểm sau Bảng 4.1: Bảng 4.1: Cơ sở liệu dùng cho thực nghiệm Cơ sở liệu Số giao tác Số lượng mục Chess 3196 75 Mushroom 8124 120 giao tác Luận văn thêm ngẫu nhiên số lượng cho mục giao tác giá trị phạm vi [1-10] cách sử dụng phân phối đồng giá trị lợi nhuận mặt hàng sở liệu tạo ngẫu nhiên 4.2 Kết thực nghiệm Trong phần này, luận văn so sánh thuật toán đề xuất IEHSHUI với thuật toán EHSHUI [4] thuật toán (VoBay2013) [14] thời gian thực sử dụng nhớ Thực nghiệm chạy 50 lần, sau lấy giá trị trung bình Số lượng tập mục nhạy cảm chọn ngẫu nhiên lầ lượt 0.1, 0.2, 0.3, 0.4 0.5 số tập mục có độ hữu ích cao (HUI) 23 Hình 4.1: So sánh thời gian thực tập liệu Chess Hình 4.2: So sánh thời gian thực tập liệu Mushroom Hình 4.1 Hình 4.2 cho thấy thuật toán đề xuất IEHSHUI hiệu mặt thời gian thực sở liệu Chess Mushroom Thuật toán IEHSHUI nhanh thuật toán EHSHUI [4] nhiều lần thuật tốn IEHSHUI sửa đổi nhiều giao tác lúc để ẩn thông tin nhạy cảm Thuật toán EHSHUI [4] sửa đổi lần giao tác Hình 4.3 Hình 4.4 cho thấy việc sử dụng nhớ thuật toán đề xuất IEHSHUI nhiều thuật toán khác Điều thuật toán đề xuất phải lựa chọn mục cần sửa đổi Hình 4.3: So sánh việc sử dụng nhớ tập liệu Chess 24 Hình 4.4: So sánh việc sử dụng nhớ tập liệu Mushroom 4.3 Kết luận Chương Luận văn đề xuất thuật toán IEHSHUI để bảo vệ tập mục nhạy cảm cách hiệu dựa chiến lược lựa chọn tập mục nhạy cảm hợp lý mục sửa đổi Kết thử nghiệm cho thấy thuật toán IEHSHUI hiệu EHSHUI [4] thuật toán [14] thời gian thực Hướng nghiên cứu tiếp theo, tác giả tiếp tục cải tiến thuật toán thử nghiệm thuật toán đề xuất sở liệu giao tác khác so sánh với thuật toán khác để đánh giá hiệu hiệu suất phép đo khác KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn đề xuất thuật toán IEHSHUI để bảo vệ tập mục nhạy cảm cách hiệu dựa chiến lược lựa chọn tập mục nhạy cảm hợp lý mục sửa đổi Kết thử nghiệm cho thấy thuật toán IEHSHUI hiệu EHSHUI [4] thuật toán [14] thời gian thực Trong tương lai, tiếp tục nghiên cứu, cải tiến thử nghiệm thuật toán đề xuất sở liệu giao tác khác so sánh với thuật toán khác để đánh giá hiệu hiệu suất phép đo khác CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Chien, N.K and D.T.K Trang An Improved Algorithm to Protect Sensitive High Utility Itemsets in Transaction Database in International Conference on Nature of Computation and Communication 2021 Springer https://doi.org/10.1007/978-3-030-929428_9