Ẩn tập mục hữu ích cao và phổ biến nhạy cảm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	661,83 KB

Nội dung

Bài viết nghiên cứu và đề xuất thuật toán có tên gọi là ATMTU để ẩn các tập mục hữu ích cao và phổ biến nhạy cảm (SHUFIs). Thuật toán ATMTU thực hiện qua 3 bước chính, gồm: (1) Xác định giảm độ hỗ trợ hay giảm giá trị hữu ích là hiệu quả hơn để ẩn SHUFIs; (2) Xác định giao tác mục tiêu và mục mục tiêu để sửa dữ liệu; (3) Sửa CSDL với mục và giao tác bị sửa được chọn ở bước 2. Kết quả thực nghiệm cho thấy thuật toán mà chúng tôi đề xuất có hiệu ứng phụ thấp hơn thuật toán hiện tại.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00145 ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM Huỳnh Triệu Vỹ1, Lê Quốc Hải2, Trương Ngọc Châu3, Lê Quốc Hiếu4 Trường Đại học Phạm Văn Đồng Trường Cao đẳng Sư phạm Quảng Trị Trường Đại học Bách khoa Đà Nẵng Trường Đại học Kinh tế Luật - Đại học Quốc gia TP HCM htvy@pdu.edu.vn, hailq79@gmail.com, truongngocchau@yahoo.com, hieulq@uel.edu.vn TĨM TẮT: Mục đích tốn bảo vệ tính riêng tư khai phá hữu ích cao (PPUM) can thiệp vào sở liệu (CSDL) để ẩn thông tin nhạy cảm khai thác thuật tốn khai phá hữu ích cao (HUM) nhằm hạn chế rủi ro mà chủ sở hữu liệu gặp phải chia sẻ CSDL bên Tuy nhiên, việc tác động vào liệu để che giấu thông tin thường sinh hiệu ứng phụ mát dư thừa thông tin Mục đích thuật tốn PPUM thực thao tác che dấu liệu riêng tư hay nhạy cảm CSDL trước chúng chia sẻ bên cho hiệu ứng phụ trình che dấu tối thiểu Bài báo chúng tơi nghiên cứu đề xuất thuật tốn có tên gọi ATMTU để ẩn tập mục hữu ích cao phổ biến nhạy cảm (SHUFIs) Thuật toán ATMTU thực qua bước chính, gồm: (1) Xác định giảm độ hỗ trợ hay giảm giá trị hữu ích hiệu để ẩn SHUFIs; (2) Xác định giao tác mục tiêu mục mục tiêu để sửa liệu Ở bước đưa chiến lược heuristic khác để xác định mục mục tiêu giao tác mục tiêu cho phương án lựa chọn bước thứ nhằm giảm thiểu hiệu ứng phụ; (3) Sửa CSDL với mục giao tác bị sửa chọn bước Kết thực nghiệm cho thấy thuật tốn mà chúng tơi đề xuất có hiệu ứng phụ thấp thuật tốn Từ khóa: Tập mục hữu ích cao, tập mục hữu ích cao phổ biến, tập mục hữu ích cao phổ biến nhạy cảm I GIỚI THIỆU Khai phá tập mục hữu ích cao (HUIM) mơ hình trích chọn tập mục (mẫu) có giá trị hữu ích lớn ngưỡng tối thiểu cho trước từ CSDL Các mơ hình HUIM nhà nghiên cứu quan tâm phát triển đưa vào ứng dụng nhiều lĩnh vực quản lý chuỗi cung ứng, tài chính, y khoa, … Mơ hình HUIM lần đề xuất H Yao cộng [1] cải tiến nhiều thuật toán hiệu [2-6] Bên cạnh HUIM, nhiều mơ hình HUIM biến thể mở rộng đề xuất, như: Khai phá tập mục hữu ích trung bình cao (HAUIM) [7], khai phá tập mục hữu ích cao đóng (HCUIM) [8], khai phá tập mục hữu ích cao (HURIM) [9], khai phá tập mục hữu ích cao phổ biến (HUFIM) [10], khai phá mẫu hữu ích cao từ CSDL (HUSPM) [11], Ngày nay, phát triển nhanh chóng Công nghệ thông tin tạo môi trường thuận lợi để thúc đẩy hợp tác thương mại toàn cầu kinh doanh xuyên quốc gia Trong môi trường kinh doanh quốc tế, việc chia sẻ liệu đối tác cơng bố bên ngồi internet cần thiết để thúc đẩy phát triển Tuy nhiên, bên liệu ẩn chứa thơng tin riêng tư nhạy cảm (gọi chung thông tin nhạy cảm) mà chủ sở hữu không muốn tiết lộ bên ngồi, việc lộ thơng tin nhạy cảm bên ngồi khiến cho bên sở hữu liệu đánh bí mật kinh doanh lợi cạnh tranh Để đảm bảo thông tin nhạy cảm không bị khai thác, liệu trước chia sẻ cần phải gọt, tỉa cho thông tin nhạy cảm bị khai thác trì việc khai thác từ CSDL thơng tin có giá trị khác Chính yêu cầu thực tế này, thập kỷ qua chủ đề bảo tính riêng tư khai phá liệu (PPDM) trở thành chủ đề nghiên cứu quan trọng, nhiều nhà nghiên cứu quan tâm [12-14] Các mở rộng PPDM đề xuất như: PPUM [15-18], Bảo vệ tính riêng tư khai phá mẫu hữu ích cao (PPUSPM) [19], Bảo vệ tính riêng tư khai phá tập mục hữu ích cao phổ biến (PPUFIM) [20] Các thuật toán ẩn tập mục hữu ích cao phổ biến nhạy cảm nói chung ẩn tập mục cách tác động lên liệu giảm độ hữu ích, loại bỏ mục số giao tác thêm vào giao tác để làm cho độ hữu ích độ phổ biến tập mục nhạy cảm giảm xuống ngưỡng tối thiểu cho trước Việc tác động lên liệu thường làm sinh hiệu ứng phụ làm biến đổi số lượng tập mục hữu ích cao thay đổi liệu Hiệu ứng phụ cao chất lượng liệu chia sẻ thấp Vì vậy, mục tiêu hầu hết toán PPUFIM [20] giảm độ hữu ích độ hỗ trợ (hoặc hai tiêu chí) tập mục nhạy cảm xuống ngưỡng tối thiểu cho hiệu ứng phụ chi phí thấp Trong báo này, đề xuất thuật tốn để ẩn tập mục hữu ích cao phổ biến nhạy cảm dựa heuristics để (1) lựa chọn xác mục mục tiêu giao tác mục tiêu, (2) lựa chọn giải pháp giảm độ hữu ích hay giảm độ hỗ trợ tập mục nhạy cảm xuống thấp ngưỡng tối thiếu cho tác động đến kết khai phá liệu Phần lại báo bố cục sau: Phần II trình bày vấn đề liên quan đến ẩn tập mục hữu ích cao phổ biến nhạy cảm Phần quan trọng báo đề xuất thuật toán kết thực nghiệm trình bày phần III cuối kết luận báo II CÁC VẤN ĐỀ LIÊN QUAN A Ẩn tập mục hữu ích cao phổ biến nhạy cảm Bài toán ẩn tập mục hữu ích cao nhạy cảm đề xuất lần J.S Yeh cộng [15] vào năm 2010 Trong nghiên cứu này, tác giả đề xuất phương pháp ẩn tập mục hữu ích cao nhạy cảm kỹ thuật can thiệp Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu, Lê Quốc Hiếu 17 vào CSDL gốc để giảm giá trị hữu ích tập mục hữu ích cao nhạy cảm cần ẩn xuống thấp ngưỡng hữu ích tối thiểu, cách giảm giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu giao tác mục tiêu Hai thuật toán đề xuất [15] có tên HHUIF (Hiding High Utility Item First Algorithm) MSICF (Maximum Sensitive Itemsets Conflict First Algorithm) Phương pháp tối ưu để lựa chọn mục mục tiêu giao tác mục tiêu mà thuật toán HHUIF áp dụng chọn mục giao tác thích hợp cho hữu ích giao tác chọn cao Trong đó, để giảm số lần sửa liệu, thuật toán MSICF lựa chọn mục mục tiêu mục xuất nhiều tập mục nhạy cảm Nhược điểm thuật toán [15] số trường hợp tập mục nhạy cảm ẩn trình sửa CSDL tiếp tục thực nên dẫn đến nhiều tập mục hữu ích cao bị mất; nữa, trường hợp giá trị hữu ích tập mục nhạy cảm với ngưỡng hữu ích tối thiểu tập mục nhạy cảm khơng ẩn C.W Lin cộng [17] đề xuất hai thuật toán có tên MSU-MAU (Maximum Sensitive Utility-MAximum item Utility) MSU-MIU(Maximum Sensitive Utility-Minimum Item Utility), thuật toán sử dụng lý thuyết Max-Min hữu ích để giảm thiểu hiệu ứng phụ sử dụng CSDL chiếu để tăng tốc độ sửa đổi liệu trình ẩn tập mục nhạy cảm so với hai thuật toán đề xuất [15] Tuy nhiên, thuật toán không khắc phục nhược điểm thuật toán [15] Để khắc phục hạn chế [17], V.H Trieu cộng [18] đề xuất thuật tốn có tên HHUSI áp dụng heuristics vào lựa chọn mục mục tiêu giao tác mục tiêu cho việc sửa đổi chúng CSDL tác động tối thiểu lên mục hữu ích cao khơng nhạy cảm Dựa giải thuật di truyền, C.W Lin cộng [16] đề xuất thuật toán ẩn tập mục nhạy cảm phương pháp chèn vào CSDL giao tác với thuật tốn di truyền có tên GA-based Điểm bật thuật toán GA-based áp dụng giải thuật di truyền để tính tốn số giao tác tối thiểu cần chèn vào CSDL cho ẩn tập mục nhạy cảm Kết thực nghiệm cho thấy thuật toán GA-based hiệu thuật toán trước Tuy nhiên, nhược điểm phương pháp chèn giao tác làm xuất tập mục hữu ích cao mới, hay gọi tập ma, tập mà khơng phải tập mục hữu ích cao CSDL gốc trở thành tập mục hữu ích cao CSDL sửa đổi thuật toán Cũng dựa giải thuật di truyền, C.W Lin cộng [22] tiếp tục đề xuất thuật tốn có tên gọi PPUMGAT Để ẩn tập mục hữu ích cao nhạy cảm PPUMGAT sử dụng phương pháp xóa giao tác chèn giao tác [16] Để xác định số giao tác cần xóa PPUMGAT dựa giải thuật di truyền đồng thời lý thuyết pre-large sử dụng để tăng tốc độ tính tốn thuật tốn Bài tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm đề xuất lần Rajalaxmi cộng [23] Trong nghiên cứu này, tác giả đề xuất thuật tốn có tên gọi MSMU (Minimum Support and Maximum Utility) MCRSU (Maximum Conflict Ratio for Support and Utility) Phương pháp tiếp cận [23] sửa liệu để giảm độ hỗ trợ hữu ích tập mục nhạy cảm xuống thấp ngưỡng hỗ trợ tối thiểu ngưỡng hữu ích tối thiểu Cả hai thuật tốn ẩn tập mục nhạy cảm qua hai phiên sửa liệu: Phiên giảm độ hỗ trợ tập mục nhạy cảm xuống ngưỡng hỗ trợ tối thiểu; Phiên kiểm tra lại hữu ích tập mục nhạy cảm, hữu ích tập mục nhạy cảm cịn lớn ngưỡng hữu ích tối thiểu tiếp tục sửa liệu để giảm hữu ích tập nhạy cảm xuống ngưỡng hữu ích tối thiểu Nhược điểm hai thuật toán làm nhiều tập mục không nhạy cảm phải thực sửa liệu để giảm độ hỗ trợ hữu ích tập mục nhạy cảm xuống thấp ngưỡng tối thiểu Để khắc phục hạn chế này, X Liu [20] đề xuất thuật toán ẩn tập mục hữu ích cao phổ biến nhạy cảm dựa kỹ thuật sửa liệu gốc có tên HUFI Thuật tốn thực lặp q trình sửa liệu độ hỗ trợ hữu ích tập mục nhạy cảm thấp ngưỡng tối thiểu Để giảm hiệu ứng phụ [20] đưa khái niệm giá trị biên cực đại dựa vào biên cực xác định giảm độ hỗ trợ hay giảm hữu ích để ẩn tập mục nhạy cảm hiệu Tuy nhiên, phương pháp chọn giao tác mục tiêu mục mục tiêu thuật tốn HUFI hồn tồn giống cho trường hợp giảm độ hỗ trợ giảm giá trị hữu ích để ẩn tập mục nhạy cảm Đây nguyên nhân làm cho phương pháp làm tăng hiệu ứng phụ Trên sở phân tích ưu, nhược điểm thuật tốn đề xuất, để giảm hiệu ứng phụ q trình ẩn luật, báo chúng tơi đề xuất phương pháp heuristic để cực tiểu hóa trình ẩn tập mục cách: (1) chọn cách ẩn tập mục cách linh hoạt dựa giá trị biên cực đại đề xuất X Liu [20], (2) chọn mục mục tiêu giao tác mục tiêu khác cho trường hợp giảm độ hỗ trợ hay giảm hữu ích tập mục B Phát biểu định nghĩa sở Trong phần trình bày lại định nghĩa FIM [24], HUIM [1] HUFIM [10] mà sử dụng phần đề xuất thuật toán { } tập hữu hạn gồm mục Mỗi mục Phát biểu: Cho có giá trị hữu ích { }, với { } ngoại, ký hiệu Một tập mục Một CSDL giao tác chứa n giao tác, giao tác có định danh gọi Tid Mỗi mục giao tác kết hợp với trọng số gọi hữu ích nội (số lượng), ký hiệu CSDL cho Bảng sử dụng cho tất ví dụ báo Định nghĩa 1: Độ hỗ trợ tập mục X CSDL D, ký hiệu support(X), định nghĩa: , Trong đó: Ví dụ, support({AC}) { } ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM 18 Bảng Giá trị hữu ích ngoại CSDL D Bảng CSDL Giao tác D Tid T1 T2 T3 T4 T5 Transaction A(4), C(1), E(6), F(2) D(1), E(4), F(5) B(3), D(1), E(5), F(1) D(1), E(2), F(6) A(3), C(1), E(1) A B C D E F G H Item Tid Transaction T6 T7 T8 T9 T10 B(1), F(2), H(1) D(1), E(1), F(4), G(1), H(1) B(1), D(1), E(1) B (5), D(4), G(10) F(1) Utility 1 Định nghĩa 2: Một tập mục X gọi tập mục phổ biến CSDL D, độ hỗ trợ lớn ngưỡng hỗ trợ tối thiểu cho trước Cho FIs tập tập mục phổ biến CSDL D FIs ta có: { Định nghĩa 3: Hữu ích mục } giao tác định nghĩa: , ký hiệu Ví dụ, u(A,T1) = q(A,T1) * p(A) = * 4=12; u(C,T1) = q(C,T1) * p(C) = * = Định nghĩa 4: Hữu ích tập mục X giao tác Tc, ký hiệu ∑ Ví dụ, u({A,C},T1) = u(A,T1)+u(C,T1) = 17; , định nghĩa: u({A,C},T5) = u(A,T5)+u(C,T5) = 14 Định nghĩa 5: Hữu ích tập mục X CSDL giao tác D, ký hiệu ∑ HUIs X|X , định nghĩa: I,u X Ví dụ: u({A,C}) = u({A,C},T1)+u({A,C},T5) = 17+14 = 31 Định nghĩa 6: Giá trị hữu ích giao tác Tc ký hiệu ), định nghĩa: ∑ Ví dụ: TU(T1) = 3*4+5*1+1*6+1*2 = 25 Định nghĩa 7: Hữu ích CSDL D, ký hiệu u(D) định nghĩa: ∑ Ví dụ: u(D) = TU(T1) + TU(T2) + TU(T3) + TU(T4) + TU(T5) + TU(T6) + TU(T7) + TU(T8) + TU(T9)+ TU(T10) = 25+11+20+10+14+8+10+7+38+1 = 144 Định nghĩa 8: Tập mục X gọi tập mục hữu ích cao CSDL D, giá trị hữu ích X khơng nhỏ ngưỡng hữu ích tối thiểu cho trước Gọi HUIs tập tập mục hữu ích cao thì: { Ví dụ: với } , tập mục hữu ích cao khai thác từ CSDL cho Bảng gồm tập mục Bảng Bảng Tập tập mục hữu ích cao Itemset Utility Itemset Utility Itemset Utility AC AE ACE ACEF 31 28 38 25 B BD BG BDE 40 48 30 26 BDG DEF EF 38 36 36 Định nghĩa 9: Tập mục X gọi tập mục hữu ích cao phổ biến CSDL D, tập mục X thỏa mãn đồng thời tập mục phổ biến tập mục hữu ích cao Gọi HUFIs tập chứa tập mục hữu ích cao phổ biến, ta có: { } Ví dụ: bảng tập tập mục hữu ích cao phổ biến khai phá từ CSDL cho bảng với Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu, Lê Quốc Hiếu 19 Bảng Tập tập mục hữu ích cao phổ biến Itemset Utility support AC AE ACE 31 28 38 0,2 0,2 0,2 Itemset Utility Support Itemset Utility support B BD BDE 40 48 26 0,4 0,3 0,2 DEF EF 36 36 0,3 0,5 Định nghĩa 10: Tập tập mục hữu ích cao phổ biến nhạy cảm ký hiệu SHUFIs, định nghĩa: { } Định nghĩa 11: Ẩn tập tập mục trình sửa đổi CSDL gốc D trở thành CSDL D', cho tập mục hữu ích cao phổ biến khơng nhạy cảm khai phá từ CSDL D' Các thuật toán thực bảo vệ thông tin riêng tư khai phá hữu ích cao theo hướng tiếp cận sửa liệu gốc để lại hiệu ứng phụ Để đánh giá hiệu thuật tốn, chúng tơi sử dụng đơn vị đo lường đề xuất tác giả [15, 17, 20], cụ thể đơn vị đo lường định nghĩa sau: Định nghĩa 12: (HF-Hiding Failure): HF tỷ lệ tập mục hữu ích cao phổ biến nhạy cảm khai thác từ CSDL sửa đổi D' (SHUFIs') so với SHUFIs ban đầu: Định nghĩa 13: (MC- Miss cost): MC tỷ lệ tập mục hữu ích cao phổ biến không nhạy cảm (nonSHUFIs) bị trình sửa đổi liệu để ẩn SHUFIs gây ra, định nghĩa sau: Định nghĩa 14: (DSS - Database Structure Similarity): DSS tỷ lệ tương đồng cấu trúc CSDL sửa đổi D' so với CSDL gốc D, định nghĩa sau: √ ∑ Trong mẫu giao tác thứ k CSDL D D' độ phổ biến mẫu giao tác thứ k CSDL D D' Định nghĩa 15: (DUS - Database utility similarity): DUS tỷ lệ tương đồng hữu ích CSDL D' với CSDL D, định nghĩa sau: ∑ ∑ Định nghĩa 16: (IUS - Itemsets Utility Similarity): IUS tỷ lệ tương đồng hữu ích tập tập mục hữu ích cao phổ biến CSDL D' (HUFIs') so với tập tập mục hữu ích cao phổ biến CSDL D (HUFIs), định nghĩa: ∑ ∑ III THUẬT TOÁN ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM A Đề xuất thuật tốn Trong phần chúng tơi đề xuất thuật toán thực ẩn tập tập mục hữu ích cao, phổ biến nhạy cảm có tên gọi ATMTU (Ẩn tập mục tối ưu) Mô tả thuật toán Phát biểu: Cho CSDL giao tác D, ngưỡng hữu ích tối thiểu ngưỡng hỗ trợ tối thiểu , tập mục hữu ích cao phổ biến nhạy cảm cần ẩn Tập mục khơng cịn tập mục hữu ích cao phổ biến nhạy cảm hoặc Để giảm độ hỗ trợ hay giá trị hữu ích , cách tiếp cận thuật toán sửa CSDL gốc D cách giảm giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu giao tác mục tiêu Định nghĩa 17: Gọi gây hiệu ứng phụ thấp mục mục tiêu cho sửa mục giao tác nhằm mục đích ẩn ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM 20 Định nghĩa 18: Giao tác mục tiêu, ký hiệu , giao tác chứa nhằm mục đích ẩn cho hiệu ứng phụ thấp cho sửa mục giao tác Như vậy, để ẩn tập mục , ta có phương án để lựa chọn giảm giá trị hữu ích xuống thấp ngưỡng hữu ích tối thiểu giảm độ hỗ trợ xuống thấp ngưỡng hỗ trợ tối thiểu Vấn đề cần giải chọn phương án hiệu hơn? - Phương án 1: Giảm giá trị hữu ích để : Thực lặp trình giảm giá trị hữu ích nội mục mục tiêu giao tác mục tiêu với giá trị hữu ích tối thiểu cần giảm là: - Phương án 2: Giảm độ hỗ trợ khỏi giao tác mục tiêu với số lần tối thiểu là: để ⌈ : Thực lặp q trình xóa mục mục tiêu ⌉ Định nghĩa 19: Gọi SA tập mục chịu tác động sửa xóa tác động trình sửa đổi liệu ký hiệu setSA, định nghĩa: { tập tập mục chịu } Tất thuật toán PPUM theo hướng tiếp cận sửa đổi liệu gốc phải giải vấn đề ẩn tất thông tin nhạy cảm cho trước đảm bảo giảm thiểu hiệu ứng phụ trình thực ẩn gây Với tập mục hữu ích cao phổ biến nhạy cảm cần ẩn, thuật tốn mà chúng tơi đề xuất thực qua ba bước chính: (1) Bước 1: Xác định chọn Phương án hay Phương án để ẩn tập mục hiệu (2) Bước 2: Xác định mục mục tiêu giao tác mục tiêu để sửa liệu nhằm mục đích ẩn tập mục cho hiệu ứng phụ thấp (3) Bước 3: Sửa liệu mục mục tiêu giao tác mục tiêu chọn bước Như vậy, hiệu ứng phụ phụ thuộc vào chiến lược lựa chọn bước bước - Bước (Lựa chọn phương án): Để lựa chọn phương án ẩn tập mục SHUFIs tác giả [20] đưa hai khái niệm biên hữu ích cực đại biên hữu ích cực tiểu chứng minh lựa chọn Phương án hiệu , ngược lại chọn Phương án hiệu Trong thuật tốn ATMTU mà chúng tơi đề xuất báo chọn phương án ẩn tập mục hữu ích cao phổ biến nhạy cảm tương tự phương án lựa chọn thuật toán HUFI [20] - Bước (Xác định mục mục tiêu giao tác mục tiêu): Chiến lược lựa chọn giao tác mục tiêu mục mục tiêu thuật toán HUFI [20] giống cho Phương án Phương án Thuật toán ATMTU mà chúng tơi đề xuất có chiến lược chọn mục mục tiêu giao tác mục tiêu khác cho phương án chọn nhằm giảm thiểu hiệu ứng phụ:  Trường hợp Bước chọn Phương án 1: Để giảm hữu ích tập nhạy cảm Si ta cần giảm giá trị hữu ích nội mục mục tiêu ivic giao tác mục tiêu Tvic lượng ⌈ ⌉ - Nếu , cần lần giảm giá trị hữu ích nội mục giao tác lượng k ẩn tập mục Si Vì nên , hữu ích nội mục giao tác Tvic cập nhật lại Như vậy, Si ẩn sau lần sửa liệu Hữu ích tập mục chịu tác động bị giảm lượng độ hỗ trợ tập mục giảm lượng ⁄ trường hợp không bị ảnh hưởng trường hợp - Ngược lại, , suy , tức cần xóa mục khỏi giao tác tập mục Si chưa ẩn nên trình sửa liệu phải tiếp tục thực Hữu ích tập mục chịu tác động bị giảm lượng độ hỗ trợ tập mục giảm lượng ⁄ Như vậy, cặp mục mục tiêu giao tác mục tiêu cần ưu tiên lựa chọn cặp cho để sửa liệu nhằm mục đích ẩn tập Si đồng thời giảm hiệu ứng phụ Có thể tồn nhiều cặp thỏa mãn điều kiện , trường hợp chọn cặp có lớn nhất, mục đích tránh trường hợp ưu tiên gọt tỉa mục có hữu ích lớn Trong trường hợp khơng tồn cặp cho mục phải xóa khỏi giao tác Tvic để giảm hữu ích Si nhằm mục đích ẩn Si Trong trường hợp chọn phương án hạn chế số lần sửa liệu, nghĩa cần làm cho nhanh đạt điều kiện , vậy, cần chọn giao tác mà hữu ích giao tác đạt cực đại Và mục mục tiêu chọn mục xuất nhiều tập mục nhạy cảm SHUFIs hỗ trợ giao tác mục tiêu, mục đích cách lựa chọn ẩn nhiều tập mục nhạy cảm đồng thời Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu, Lê Quốc Hiếu 21  Trường hợp Bước chọn Phương án 2: Để ẩn tập dựa vào điều kiện giảm độ hỗ trợ, tức thực lặp q trình xóa mục mục tiêu khỏi giao tác mục tiêu Trong trường hợp chiến lược chọn giao tác mục tiêu chọn giao tác cho đạt cực tiểu nhằm mục đích giảm thiểu hữu ích tập mục không nhạy cảm bị ảnh hưởng Và mục mục tiêu lựa chọn tương tự trường hợp chọn mục mục tiêu phương án cho trường hợp , nhằm mục đích ẩn nhiều tập mục nhạy cảm đồng thời Thuật toán ATMTU input: D: CSDL gốc; SHUFIs: tập tập mục hữu ích cao phổ biến nhạy cảm; : ngưỡng hữu ích tối thiểu; δ: ngưỡng hỗ trợ tối thiểu output: D’: CSDL sửa đổi ; ; lặp trình sửa liệu then // thực theo Phương án ; ⌈ 10 ⌉; ; //kết thúc trình sửa liệu 11 ẩn 12 13 ; 14 15 16 ; 17 18 ; // thực theo Phương án 19 ; 22 20 21 ; 22 23 ; Cập nhật CSDL; B Kết thực nghiệm Mô tả CSDL Các sở liệu liệu chạy thực nghiệm sử dụng công bố [25], chi tiết CSDL mô tả Bảng Tập nhạy cảm chọn ngẫu nhiên từ tập HUFIs khai thác thuật tốn HI-FIMi[10], chi tiết mơ tả Bảng Mơ tả hệ thống máy tính: CPU Core I5 2.4GHz, RAM 8GB, Windows 10 So sánh đánh giá kết thực nghiệm a) HF: Kết thực nghiệm cho thấy thuật toán ATMTU HUFI có tỷ lệ HF %, lý hai thuật toán thực ẩn tập mục nhạy cảm tất tập mục nhạy cảm ẩn trình sửa liệu khơng làm tăng giá trị hữu ích độ hỗ trợ tập mục nên không xảy tượng tập mục nhạy cảm ẩn xuất trở lại ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM 22 Bảng Mô tả tập CSDL thực nghiệm CSDL Retail Mushroom Bảng Mô tả thông tin tập nhạy cảm #|D| #|I| #AvgLen #MaxLen 88.162 16.470 10,3 76 8.124 119 23 23 Chú thích: #|D|: Tổng số giao tác; #|I|: Tổng số mục CSDL; #AvgLen: Độ dài trung bình giao tác CSDL; #MaxLen: Độ dài cực đại giao tác CSDL Retail Mushroom Kích thước SHUFIs Kích thước SHUFIs 15 20 10 0,04 0,3 12 25 15 30 20 b) MC: Hình biểu diễn kết so sánh MC thuật toán ATMTU với thuật toán HUFI Kết cho thấy thuật tốn ATMTU có tỷ lệ MC thấp thuật tốn HUFI, lý mang đến kết thuật toán ATMTU sử dụng chiến lược heuristics khác để chọn mục mục tiêu giao tác mục tiêu cho phương án sửa liệu để ẩn tập mục SHUFIs Hình Tỷ lệ MC thực ẩn tập SHUFIs thuật toán HUFI ATMTU c) Thời gian thực thi: Thời gian để thực ẩn tập mục SHUFI thuật toán ATMTU nhanh thuật tốn HUFI, thuật ATMTU thực tiêu chí hạn chế số lần sửa liệu chọn giao tác mục tiêu mục mục tiêu đồng thời với tập mục nhạy cảm thực tìm kiếm tập liệu chứa giao tác hỗ trợ tập mục nhạy cảm thực ẩn, cịn thuật tốn HUFI nhiều thời gian để xây dựng mục để hỗ trợ cho trình sửa liệu phương pháp chọn giao tác mục tiêu mục mục tiêu HUFI khơng xét đến tiêu chí hạn chế số lần sửa liệu nên dẫn đến HUFI thực nhiều lần sửa liệu ATMTU để ẩn tập mục nhạy cảm Hình kết so sánh thời gian thực thi hai thuật toán thực ẩn tập tập mục SHUFI Hình Thời gian thực ẩn tập SHUFIs thuật toán HUFI ATMTU d) DSS, DUS IUS: Chiến lược chọn giao tác mục tiêu mục mục tiêu ảnh hưởng đến hiệu ứng phụ MC hiệu ứng phụ độ tương đồng CSDL trước sau sửa đổi Thuật tốn ATMTU có chiến lược chọn giao tác mục tiêu mục mục tiêu khác cho phương án thực ẩn tập mục SHUFI đồng thời xem xét đến tiêu chí hạn chế số lần sửa CSDL tập mục tập HUFIs bị ảnh hưởng Kết hiệu ứng phụ DSS, DUS IUS thuật toán ATMTU HUFI biểu diễn Hình 3, và cho thấy thuật toán ATMTU tốt thuật toán HUFI Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu, Lê Quốc Hiếu 23 Hình Tỷ lệ DSS thực ẩn tập SHUFIs thuật toán HUFI ATMTU Hình Tỷ lệ DUS thực ẩn tập SHUFIs thuật tốn HUFI ATMTU Hình Tỷ lệ IUS thực ẩn tập SHUFIs thuật toán HUFI ATMTU IV KẾT LUẬN Ẩn tập mục hữu ích cao phổ biến nhạy cảm chủ đề lĩnh vực bảo vệ tính riêng tư khai phá hữu ích cao nhà nghiên cứu quan tâm Mục đích chủ đề nghiên cứu đề xuất thuật toán để sửa liệu cách tự động để tạo CSDL chép với hiệu ứng phụ thấp, để cơng bố bên ngồi chia sẻ cho đối tác, cho thông tin chủ sở hữu cho thông tin nhạy cảm bị khai thác thuật toán khai phá tập mục hữu ích cao phổ biến Trong báo chúng tơi đề xuất thuật tốn có tên gọi ATMTU để ẩn tập mục SHUFI theo hướng tiếp cận heuristic để sửa liệu gốc Trong thuật tốn chúng tơi đề xuất phương pháp lựa chọn mục mục tiêu giao tác mục tiêu khác cho trường hợp giảm giá trị hữu ích giảm độ hỗ trợ tập mục SHUFI để ẩn tập mục nhạy cảm Bằng cách áp dụng heuristic khéo léo cho trường hợp giảm độ hỗ trợ giảm độ hữu ích tập mục nhạy cảm dựa giá trị hữu ích mục thuộc tập mục nhạy cảm để lựa chọn cặp mục mục tiêu tập mục mục tiêu, thuật tốn ATMTU ẩn thành cơng tất tập mục nhạy cảm cực tiểu hóa hiệu ứng phụ trình ẩn tập mục gây Kết thực nghiệm cho thấy thuật toán ATMTU tốt thuật toán HUFI số hiệu ứng phụ thời gian thực thi TÀI LIỆU THAM KHẢO [1] H Yao, H J Hamilton, and C J Butz, “A foundational approach to mining itemset utilities from databases”, in Proceedings of the 2004 SIAM International Conference on Data Mining, 2004: SIAM, pp 482-486 24 ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM [2] V S Tseng, C.-W Wu, B.-E Shie, and P S Yu, “UP-Growth: an efficient algorithm for high utility itemset mining”, in Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, 2010: ACM, pp 253-262 M Liu and J Qu, “Mining high utility itemsets without candidate generation”, in Proceedings of the 21st ACM international conference on Information and knowledge management, 2012: ACM, pp 55-64 P Fournier-Viger, C.-W Wu, S Zida, and V S Tseng, “FHM: Faster high-utility itemset mining using estimated utility co-occurrence pruning”, in International symposium on methodologies for intelligent systems, 2014: Springer, pp 83-92 S Zida, P Fournier-Viger, J C.-W Lin, C.-W Wu, and V S Tseng, “EFIM: a highly efficient algorithm for high-utility itemset mining”, in Mexican International Conference on Artificial Intelligence, 2015: Springer, pp 530-546 Q.-H Duong, P Fournier-Viger, H Ramampiaro, K N{\o}rv{\aa}g, and T.-L Dam, “Efficient high utility itemset mining using buffered utility-lists”, Applied Intelligence, vol 48, no 7, p 20, 2018 Springer J C.-W a L Lin, Ting, P Fournier-Viger, T.-P Hong, J Zhan, and M Voznak, “An efficient algorithm to mine high average-utility itemsets”, Advanced Engineering Informatics, vol 30, 2016 Elsevier T.-L Dam, K Li, P Fournier-Viger, and Q.-H Duong, “CLS-Miner: efficient and effective closed high-utility itemset mining”, Frontiers of Computer Science, vol 13, no 2, p 26, 2019 Springer V a D Goyal, Siddharth and A Sureka, “High utility rare itemset mining over transaction databases”, International Workshop on Databases in Networked Information Systems, p 15, 2015 Springer R U Kiran, T Y Reddy, P Fournier-Viger, M Toyoda, P K Reddy, and M Kitsuregawa, “Efficiently Finding High Utility-Frequent Itemsets Using Cutoff and Suffix Utility”, Pacific-Asia Conference on Knowledge Discovery and Data Mining, p 14, 2019 Springer O K Alkan and P Karagoz, “CRoM and HuspExt: Improving efficiency of high utility sequential pattern extraction”, IEEE Transactions on Knowledge and Data Engineering, vol 27, no 10, p 14, 2015 IEEE R Agrawal and R Srikant, “Privacy-preserving data mining”, ACM Sigmod Record, vol 29, no 2, p 13, 2000 ACM H Quoc Le, S Arch-Int, and N Arch-Int, “Association rule hiding based on intersection lattice”, Mathematical Problems in Engineering, vol 2013, 2013 Hindawi P Cheng, I Lee, J.-S Pan, C.-W Lin, and J F Roddick, “Hide association rules with fewer side effects”, IEICE TRANSACTIONS on Information and Systems, vol 98, no 10, p 12, 2015 The Institute of Electronics, Information and Communication Engineers J.-S Yeh and P.-C Hsu, “HHUIF and MSICF: Novel algorithms for privacy preserving utility mining”, Expert Systems with Applications, vol 37, no 7, pp 4779-4786, 2010 C.-W Lin, T.-P Hong, J.-W Wong, G.-C Lan, and W.-Y Lin, “A GA-based approach to hide sensitive high utility itemsets”, The Scientific World Journal, vol 2014, 2014 J C.-W Lin, T.-Y Wu, P Fournier-Viger, G Lin, J Zhan, and M Voznak, “Fast algorithms for hiding sensitive high-utility itemsets in privacy-preserving utility mining”, Engineering Applications of Artificial Intelligence, vol 55, pp 269-284, 2016 V H Trieu, C T Ngoc, H Le Quoc, and L N Thanh, “HHUSI: An Efficient Algorithm for Hiding Sensitive High Utility Itemsets”, in International Conference on Industrial Networks and Intelligent Systems, Vietnam, 2018: Springer, pp 145-154 B Le, D.-T Dinh, V.-N Huynh, Q.-M Nguyen, and P Fournier-Viger, “An efficient algorithm for hiding high utility sequential patterns”, International Journal of Approximate Reasoning, vol 95, p 17, 2018 Elsevier X Liu, F Xu, and X Lv, “A novel approach for hiding sensitive utility and frequent itemsets”, Intelligent Data Analysis, vol 22, p 33, 2018 IOS Press W Gan, J Chun-Wei, H.-C Chao, S.-L Wang, and S Y Philip, “Privacy preserving utility mining: A survey”, 2018 IEEE International Conference on Big Data (Big Data), p 11, 2018 IEEE J C.-W Lin, T.-P Hong, P Fournier-Viger, Q Liu, J.-W Wong, and J Zhan, “Efficient hiding of confidential high-utility itemsets with minimal side effects”, Journal of Experimental & Theoretical Artificial Intelligence, vol 29, no 6, pp 1225-1245, 2017 R Rajalaxmi and A Natarajan, “Effective sanitization approaches to hide sensitive utility and frequent itemsets”, Intelligent Data Analysis, vol 16, p 20, 2012 IOS Press R Agarwal and R Srikant, “Fast algorithms for mining association rules”, in Proc of the 20th VLDB Conference, 1994, pp 487-499 P Fournier-Viger “An Open-Source Data Mining Library.” http://www.philippe-fournierviger.com/spmf/index.php?link=datasets.php (accessed 2019) [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu, Lê Quốc Hiếu 25 HIDING SENSITIVE HIGH UTILITY AND FREQUENT ITEMSET Huynh Trieu Vy, Le Quoc Hai, Truong Ngoc Chau, Le Quoc Hieu ABSTRACT: Privacy preserving in high utility mining (PPUM) is the process that modifies data item in the database in such a way that sensitive information which can be explored by high utility mining (HUI) algorithms cannot be discovered in the modified database This process aims at avoiding the risk of disclosed sensitive information to competitor of database owner However, modifying database usually affects to non-sensitive information such as lost or redundant high utility patterns which is known as the side effect The target of PPUM algorithm is to hide sensitive information before sharing data outside the parties such that the side is minimal In this paper, we propose a novel algorithm named ATMTU that hides sensitive high utility and frequent itemsets (SHUFIs) by three steps: (1) Specify which method between hiding SHUFIs by reducing utility of sensitive item and hiding SHUFIs by reducing frequency of sensitive item is more efficient; (2) Specify victim item and victim transaction in such a way that modifying victim item in the victim item results in minimal side effect; and (3) Modify victim item in victim transaction selected at the second step The experimental result indicates that ATMTU algorithm achieves better performance compared to previous algorithm when hiding random SHUFIs discovered from Retail and Mushroom datasets ... tập mục hữu ích cao phổ biến CSDL D, tập mục X thỏa mãn đồng thời tập mục phổ biến tập mục hữu ích cao Gọi HUFIs tập chứa tập mục hữu ích cao phổ biến, ta có: { } Ví dụ: bảng tập tập mục hữu ích. .. đồng hữu ích tập tập mục hữu ích cao phổ biến CSDL D' (HUFIs') so với tập tập mục hữu ích cao phổ biến CSDL D (HUFIs), định nghĩa: ∑ ∑ III THUẬT TỐN ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ BIẾN NHẠY CẢM... ẩn tập mục nhạy cảm tất tập mục nhạy cảm ẩn q trình sửa liệu khơng làm tăng giá trị hữu ích độ hỗ trợ tập mục nên không xảy tượng tập mục nhạy cảm ẩn xuất trở lại ẨN TẬP MỤC HỮU ÍCH CAO VÀ PHỔ

Ngày đăng: 30/09/2021, 15:23