tóm tắt tiếng việt: Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.

26 1 0
tóm tắt tiếng việt: Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.Nghiên cứu và phát triển một số kỹ thuật che dấu thông tin nhạy cảm trong khai phá hữu ích cao.ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH TRIỆU VỸ NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO Chuyên ngành KHOA HỌC MÁY TÍNH Mã số 9480101 TÓM.

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH TRIỆU VỸ NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 02/2023 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Trương Ngọc Châu TS Lê Quốc Hải Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Phản biện 3: ……………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường, Trường Đại học Bách khoa Vào hồi … … ngày … tháng … năm 20 Có thể tìm hiểu luận án tại: - Thư viện quốc gia Việt Nam - Trung tâm Học liệu Truyền thông, Trường Đại học Bách khoa, Đại học Đà Nẵng MỞ ĐẦU Đặt vấn đề Ngày nay, với phát triển nhanh chóng ứng dụng công nghệ thông tin hầu hết lĩnh vực, lượng liệu từ hệ thống thông tin, ứng dụng ngày gia tăng lưu trữ thành kho liệu lớn Các phương pháp khai thác liệu truyền thống khơng cịn đáp ứng đầy đủ yêu cầu phân tích, đánh giá, dự đoán, dự báo dựa liệu Do đó, kỹ thuật phát tri thức sở liệu (CSDL) đời nhằm giải toán khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực khác đời sống Mục đích khai phá liệu (KPDL) khám phá tri thức nhằm tìm mẫu mới, thơng tin tiềm ẩn mang tính dự đốn chưa biết đến, có khả mang lại lợi ích cho người sử dụng, quan trọng tìm mẫu chứa đựng thơng tin hỗ trợ định tồn CSDL Có nhiều kỹ thuật nghiên cứu đề xuất KPDL Một kỹ thuật quan trọng ứng dụng rộng rãi khai phá tập mục thường xuyên luật kết hợp Trong khai phá tập mục thường xuyên vai trò mục xuất giao tác Mỗi mục xuất nhiều lần giao tác Tập mục xuất phổ biến CSDL có ý nghĩa người dùng Như vậy, tập mục thường xuyên khai thác mang ngữ nghĩa thống kê nên đáp ứng phần nhu cầu ứng dụng thực tiễn Chẳng hạn nhà kinh doanh quan tâm đến tần suất xuất đồng thời mặt hàng giao dịch khách hàng sử dụng kỹ thuật khai thác tập mục thường xuyên để dự đoán xu mua sắm khách hàng Tuy nhiên, nhà quản lý cần đến thơng tin chi tiết lợi ích mang lại một nhóm mặt hàng khách hàng mua sắm giao dịch Khai phá tập mục thường xun khơng đáp ứng điều Chính điều mà khái niệm đời, Khai phá hữu ích cao, tức có xét đến yếu tố hữu ích mục CSDL (ví dụ: số lượng, lợi nhuận mặt hàng giao tác CSDL) Ngày nay, phát triển nhanh chóng Cơng nghệ thơng tin tạo môi trường thuận lợi để thúc đẩy hợp tác thương mại toàn cầu kinh doanh xuyên quốc gia Trong môi trường kinh doanh quốc tế, việc chia sẻ liệu đối tác công bố bên internet cần thiết để thúc đẩy phát triển Tuy nhiên, bên liệu ẩn chứa thông tin riêng tư nhạy cảm (gọi chung thông tin nhạy cảm) mà chủ sở hữu khơng muốn tiết lộ bên ngồi, việc lộ thơng tin nhạy cảm bên ngồi khiến cho bên sở hữu liệu đánh bí mật kinh doanh lợi cạnh tranh, Do đó, có nhiều mơ hình kỹ thuật nghiên cứu để giải vấn đề đặt ra, làm phép thực trình KPDL tập liệu bảo vệ thông tin nhạy cảm Như vậy, để đảm bảo thông tin nhạy cảm không bị khai thác CSDL chia sẻ bên ngồi, thuật tốn che giấu thơng tin nhạy cảm KPDL áp dụng để sửa liệu nhằm loại bỏ mẫu liệu suy luận thông nhạy cảm từ kết KPDL Q trình thực che giấu thơng tin nhạy cảm gây hiệu ứng phụ Hiệu ứng phụ xác định sai khác thân liệu kết KPDL CSDL gốc so với CSDL sửa đổi Như vậy, vấn đề cần giải tốn che giấu thơng tin nhạy cảm KPDL đề xuất thuật toán che giấu tất thông tin nhạy cảm giảm thiểu hiệu ứng phụ Có nhiều phương pháp tiếp cận để giải toán này: Theo tiếp cận heuristic để thay đổi liệu khóa liệu; theo tiếp cận border-based; theo tiếp cận exact, Để giải tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao, năm 2010 Jieh-Shan Yeh cộng đề xuất phương pháp ẩn tập mục hữu ích cao nhạy cảm theo hướng tiếp cận heuristic để sửa CSDL gốc với thuật toán đề xuất HHUIF (Hiding High Utility Item First Algorithm) MSICF (Maximum Sensitive Itemsets Conflict First Algorithm) Dựa tảng nhiều thuật toán hiệu đề xuất Nhìn chung, hướng tiếp cận thuật tốn đề xuất dựa hướng tiếp cận heuristic để sửa CSDL nhằm tối ưu cục Tuy nhiên, thuật toán tập trung đưa phương pháp tối ưu cục cho tiêu chí cực tiểu hiệu ứng phụ, tiêu chí khác hiệu ứng phụ cịn cao Chính vậy, việc tiếp tục nghiên cứu đề xuất thuật tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao hiệu thuật tốn hướng nghiên cứu cần thiết Nhằm góp phần giải phần vấn đề nêu trên, nghiên cứu sinh chọn đề tài "Nghiên cứu phát triển số kỹ thuật che giấu thông tin nhạy cảm khai phá hữu ích cao" làm nội dung nghiên cứu luận án tiến sĩ kỹ thuật Mục tiêu nghiên cứu Luận án thực nhằm nghiên cứu giải phần thách thức giải toán che giấu thơng tin nhạy cảm khai phá hữu ích cao nhằm mục đích đảm bảo cho chủ sở hữu CSDL che giấu thông tin nhạy cảm thực chia sẻ CSDL bên cho đối tác Cụ thể hơn, luận án nhằm hướng đến hai mục tiêu sau: - Thứ nhất, nghiên cứu đề xuất thuật tốn ẩn tập mục hữu ích cao nhạy cảm luật kết hợp hữu ích cao nhạy cảm dựa kỹ thuật heuristic - Thứ hai, nghiên cứu áp dụng lý thuyết Giàn để giảm hiệu ứng phụ q trình che giấu thơng tin nhạy cảm khai phá hữu ích cao Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu luận án gồm: - Về sở liệu cần thực che giấu thông tin nhạy cảm: CSDL giao tác - Về thuật toán, gồm: Ẩn tập mục hữu ích cao nhạy cảm; ẩn tập mục hữu ích trung bình cao nhạy cảm; ẩn tập mục hữu ích cao phổ biến nhạy cảm; ẩn luật kết hợp hữu ích cao nhạy cảm - Về sở toán học: Giàn giao tập hợp 3.2 Phạm vi nghiên cứu luận án: - Thứ nhất, nghiên cứu tổng quan khai phá hữu ích cao che giấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic để xác định hạn chế thuật toán tại, vấn đề chưa đề xuất giải - Thứ hai, dựa kết phân tích tổng quan khai phá hữu ích cao che giấu thông tin nhạy cảm khai phá hữu ích cao dựa kỹ thuật heuristic, đề xuất số thuật toán cải tiến: + Đề xuất thuật tốn cải tiến ẩn tập mục hữu ích cao nhạy cảm thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm + Đề xuất mô hình thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm, ẩn luật kết hợp hữu ích cao nhạy cảm - Thứ ba, áp dụng tính chất lý thuyết Giàn để chọn mục mục tiêu hiệu nhằm giảm hiệu ứng phụ trình sửa liệu để ẩn thông tin nhạy cảm, cụ thể: Xây dựng giàn giao có ràng buộc tập tập mục hữu ích cao phổ biến, từ giàn giao xây dựng thuật toán chọn mục mục tiêu cho trình sửa CSDL để ẩn tập mục hữu ích cao phổ biến nhạy cảm nhằm giảm hiệu ứng phụ Phương pháp nghiên cứu Phương pháp lý thuyết phương pháp thực nghiệm Ý nghĩa khoa học thực tiễn đề tài Luận án nghiên cứu có ý nghĩa khoa học giá trị thực tiễn, đóng góp lĩnh vực nghiên cứu che giấu thông tin nhạy cảm khai phá hữu ích cao nhằm góp phần giải tốn bảo vệ thơng tin nhạy cảm cá nhân tổ chức CSDL Bố cục luận án Luận án tổ chức thành ba chương mở đầu, kết luận Chương 1: Tổng quan khai phá hữu ích cao che giấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác Chương trình bày tổng quan khai phá hữu ích cao che giấu thơng tin nhạy cảm khai phá hữu ích cao để làm sở đề xuất thuật tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao dựa kỹ thuật heuristic chương Ngoài ra, chương giới thiệu tổng quan ứng dụng lý thuyết Giàn KPDL, sở toán học mà luận án tập trung nghiên cứu để ứng dụng vào việc tối ưu hóa thuật tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao trình bày chương Chương 2: Che giấu thơng tin nhạy cảm khai phá hữu ích cao dựa kỹ thuật heuristic Phần đầu chương trình bày vấn đề che giấu thông tin nhạy cảm khai phá hữu ích cao Phần cịn lại, tập trung vào trình bày mơ hình thuật tốn cải tiến để che giấu thông tin nhạy cảm khai phá hữu ích cao, cụ thể: Thuật tốn ẩn tập mục hữu ích cao nhạy cảm; thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm; thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm; thuật tốn ẩn luật kết hợp hữu ích cao nhạy cảm Chương 3: Che giấu thông tin nhạy cảm khai phá hữu ích cao dựa lý thuyết Giàn Nội dung chương trình bày phần nội dung lý thuyết Giàn có liên quan đến vấn đề che giấu thông tin nhạy cảm KPDL Dựa sở lý thuyết Giàn, phần chương xây dựng Giàn giao có ràng buộc tập tập mục hữu ích cao phổ biến Dựa giàn Giao này, đề xuất thuật tốn tìm mục mục tiêu dựa Giàn giao có ràng buộc tập tập mục hữu ích cao phổ biến để cải tiến thuật tốn ẩn tập mục hữu ích cao phổ biến đề xuất chương Đóng góp luận án Luận án đạt số kết nghiên cứu đóng góp sau đây: 1) Đề xuất thuật tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao dựa kỹ thuật heuristic, bao gồm: - Thuật tốn ẩn tập mục hữu ích cao nhạy cảm Có ba kết nghiên cứu công bố kỷ yếu hội nghị tạp chí: (1) Kỷ yếu Hội thảo quốc tế INISCOM, xuất Springer, năm 2018; (2) Tạp chí Intelligent Data Analysis (thuộc danh mục ISI, Q3), số 24, năm 2020; (3) Kỷ yếu Hội nghị Quốc gia lần thứ XV Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’ 15), năm 2022 Xem tài liệu số 4, danh mục cơng trình tác giả; - Thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm Kết nghiên cứu công bố Kỷ yếu Hội nghị Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’ 13), năm 2020 Xem tài liệu số danh mục cơng trình tác giả; - Thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm Có hai kết nghiên cứu cơng bố kỷ yếu hội nghị: (1) Kỷ yếu Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông, năm 2018; (2) Kỷ yếu Hội nghị Quốc gia lần thứ XIV Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’ 14), năm 2021 Xem tài liệu số danh mục công trình tác giả; - Thuật tốn ẩn luật kết hợp hữu ích cao nhạy cảm Kết nghiên cứu công bố Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’ 10), năm 2017 Hội nghị quốc tế MAPR, xuất IEEE, năm 2018 Xem tài liệu số danh mục cơng trình tác giả 2) Đề xuất thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm dựa lý thuyết giàn, cụ thể: Thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm dựa giàn giao có ràng buộc tập tập mục hữu ích cao phổ biến Kết nghiên cứu đăng tạp chí Cybernetics And Information Technologies (thuộc danh mục Scopus, Q2), số 1/2022 Xem tài liệu số danh mục cơng trình tác giả TỔNG QUAN VỀ KHAI PHÁ HỮU ÍCH CAO VÀ CHE GIẤU THƠNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU GIAO TÁC Nội dung chương tập trung nghiên cứu tổng quan khai phá hữu ích cao che giấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác Ngồi ra, việc lựa chọn cơng cụ tốn học để ứng dụng vào KPDL quan trọng Chính vậy, chương trình bày tổng quan ứng dụng lý thuyết Giàn KPDL Phần cuối chương mô tả CSDL sử dụng để chạy thực nghiệm thuật toán đề xuất luận án Kết nghiên cứu chương sở lý thuyết tảng để xây dựng thuật tốn giấu thơng tin nhạy cảm khai phá hữu ích cao trình bày chương chương luận án 1.1 Tổng quan khai phá hữu ích cao từ CSDL giao tác Khai phá hữu ích cao mở rộng khai phá tập phổ biến vai trò mục CSDL xem xét đến Cơ sở lý thuyết mơ hình khai phá hữu ích cao đề xuất Hong Yao cộng năm 2004 để khai phá từ CSDL giao tác tập tập mục thỏa mãn ngưỡng hữu ích tối thiểu cho trước gọi khai phá tập mục hữu ích cao Cho đến nay, khai phá tập mục hữu ích cao có nhiều hướng nghiên cứu mở rộng để đáp ứng nhu cầu thực tế xã hội: Khai phá tập mục hữu ích cao phổ biến; khai phá tập mục hữu ích trung bình cao; khai phá luật kết hợp hữu ích cao, Cơ sở lý thuyết khai phá hữu ích cao Phát biểu: Cho tập hữu hạn gồm mục 𝐼 = {𝑥1 , 𝑥2 , … , 𝑥𝑚 }, mục 𝑥𝑖 có giá trị hữu ích ngoại, ký hiệu p(𝑥𝑖 ) Tập mục 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑘 }, với 𝑥𝑖 ∈ 𝐼, ≤ 𝑖 ≤ 𝑘 k độ dài X CSDL giao tác 𝐷 = {𝑇1 , 𝑇2 , … , 𝑇𝑛 } chứa n giao tác, giao tác 𝑇𝑐 ⊆ 𝐼 có định danh gọi Tid Mỗi mục 𝑥𝑖 giao tác 𝑇𝑐 kết hợp với trọng số gọi hữu ích nội (số lượng), ký hiệu q(𝑥𝑖 ,𝑇𝑐 ) 1.1.1.1 Khai phá tập mục hữu ích cao Khai phá tập mục hữu ích cao trình khai thác từ CSDL giao tác tất tập mục có giá trị hữu ích khơng nhỏ ngưỡng hữu ích tối thiểu cho trước - Giá trị hữu ích mục x giao tác Tc, ký hiệu u(x,Tc), xác định: 𝑢(𝑥, 𝑇𝑐 ) = 𝑞(𝑥, 𝑇𝑐 ) ∗ 𝑝(𝑥) - Giá trị hữu ích tập mục X giao tác Tc, ký hiệu u(X,Tc), xác định: 𝑢 (𝑋, 𝑇𝑐 ) = ∑𝑥∈𝑋 𝑢(𝑥, 𝑇𝑐 ) - Giá trị hữu ích tập mục X CSDL D, ký hiệu u(X), xác định: 𝑢(𝑋) = ∑𝑋⊆𝑇𝑐 ∧𝑇𝑐 ∈𝐷 𝑢(𝑥, 𝑇𝑐 ) 1.1.1.2 Khai phá tập mục hữu ích cao phổ biến Khai phá tập mục hữu ích cao phổ biến khai thác từ CSDL giao tác tất tập mục thỏa mãn đồng thời ngưỡng hữu ích tối thiểu độ hỗ trợ tối thiểu cho trước 1.1.1.3 Khai phá tập mục hữu ích trung bình cao Khai phá tập mục hữu ích trung bình cao khai thác từ CSDL giao tác tất tập mục thỏa mãn ngưỡng hữu ích trung bình tối thiểu cho trước - Giá trị hữu ích trung bình tập mục X giao tác T c, ký hiệu 𝑢(𝑋,𝑇𝑐 ) au(X,Tc), xác định: 𝑎𝑢(𝑋, 𝑇𝑐 ) = |𝑋| - Giá trị hữu ích trung bình tập mục X CSDL D, ký hiệu au(X), xác định: 𝑎𝑢(𝑋) = ∑𝑋⊆𝑇𝑐 ∧𝑇𝑐 ∈𝐷 𝑎𝑢(𝑋, 𝑇𝑐 ) 1.1.1.4 Khai phá luật kết hợp hữu ích cao Với tập mục hữu ích cao XY (𝑋 ∩ 𝑌 = ∅), luật kết hợp 𝑅: 𝑋 → 𝑌 luật kết hợp hữu ích cao độ tin cậy hữu ích luật R không nhỏ độ tin cậy hữu ích tối thiểu cho trước - Giá trị hữu ích cục mục x tập mục X giao tác Tc ký hiệu luv(x,X,Tc), định nghĩa: 𝑙𝑢𝑣(𝑥, 𝑋, 𝑇𝑐 ) = 𝑢(𝑥, 𝑇𝑐 )|𝑥 ∈ 𝑋 ∧ 𝑋 ⊆ 𝑇𝑐 ∧ 𝑇𝑐 ∈ 𝐷 - Giá trị hữu ích cục tập mục X tập mục Y giao tác Tc ký hiệu luv(X,Y,Tc), định nghĩa: 𝑙𝑢𝑣(𝑋, 𝑌, 𝑇𝑐 ) = ∑𝑥∈𝑋∧𝑋⊆𝑌∧𝑌⊆𝑇𝑐 𝑙𝑢𝑣(𝑥, 𝑋, 𝑇𝑐 ) - Giá trị hữu ích cục tập mục X tập mục Y CSDL D, ký hiệu luv(X,Y), định nghĩa: 𝑙𝑢𝑣(𝑋, 𝑌) = ∑𝑋⊆𝑌∧𝑌⊆𝑇𝑐 ∑𝑥∈𝑋 𝑙𝑢𝑣(𝑥, 𝑋, 𝑇𝑐 ) - Độ tin cậy hữu ích luật𝑅: 𝑋 → 𝑌 ký hiệu uconf(R) định 𝑙𝑢𝑣(𝑋,𝑋𝑌) nghĩa: 𝑢𝑐𝑜𝑛𝑓 (𝑅) = 𝑢(𝑋) Tổng quan tình hình nghiên cứu Năm 2004, Hong Yao cộng đề xuất mơ hình khai phá tập mục hữu ích cao Liu Y cộng đề xuất thuật toán hai pha TwoPhase để khai phá tập mục hữu ích cao Đơn vị đo TWU (Transaction-Weighted-Utilization) sử dụng để tỉa khơng gian tìm kiếm Năm 2012, Liu cộng đề xuất thuật toán HUI-Miner (High Utility Itemset Miner) để khai phá tập mục hữu ích cao không qua bước sinh tập ứng viên HUI-Miner sử dụng cấu trúc lưu trữ có tên gọi utilitylist để lưu trữ thông tin hữu ích tập mục thông tin heuristic để phục vụ cho việc tỉa khơng gian tìm kiếm Dựa cấu trúc utility-list nhiều thuật toán cải tiến đề xuất Mơ hình khai phá tập mục hữu ích cao dựa ngưỡng hữu ích tối thiểu để xác định tập tập mục hữu ích cao nên cho biết thông tin giá trị hữu ích tập mục Tuy nhiên, ứng dụng thực tế nhiều trường hợp sử dụng cần số điều kiện khác để phục vụ tốt cho mục đích khác nhau, nhiều mơ hình khai phá tập mục hữu ích cao mở rộng đề xuất, phổ biến kể đến gồm: Khai phá tập mục hữu ích cao phổ biến, khai phá tập mục hữu ích trung bình cao, 1.2 Che giấu thông tin nhạy cảm khai phá hữu ích cao Các vấn đề che giấu thơng tin nhạy cảm KPDL phân thành hai loại: Che giấu liệu nhạy cảm (sensitive data); Che giấu mẫu nhạy cảm (sensitive patterns) Trong khuôn khổ luận án nghiên cứu che giấu mẫu nhạy cảm khai phá hữu ích cao từ CSDL giao tác, cụ thể: tập mục hữu ích cao nhạy cảm; tập mục hữu ích cao phổ biến nhạy cảm; tập mục hữu ích trung bình cao nhạy cảm luật kết hợp hữu ích cao nhạy cảm 1.2.1 Một số kỹ thuật che giấu thông tin nhạy cảm KPDL Hiện có nhiều kỹ thuật áp dụng để phát triển thuật toán che giấu mẫu nhạy cảm KPDL, nhiên phổ biến chia thành ba kỹ thuật tiếp cận chính: dựa kỹ thuật heuristic (heuristic-based techniques); dựa kỹ thuật bảo vệ biên (Border-based techniques); dựa kỹ thuật Exact (Exact-based techniques) 10 hướng tiếp cận mà nhà nghiên cứu sử dụng cho nhiều kết tốt Dựa kết nghiên cứu, thấy lý thuyết giàn ứng dụng rộng rãi hiệu khai phá tri thức Trong trội ứng dụng toán khai phá luật kết hợp Đối với tốn che giấu thơng tin riêng tư khai phá luật kết hợp, năm 2013 Hai Quoc Le cộng đề xuất thuật toán ẩn luật kết nhạy cảm dựa giàn Ưu điểm thuật tốn việc tính tốn để lựa chọn mục mục tiêu để sửa CSDL đựa tính tốn dựa tính chất giàn, đảm bảo phương án lựa chọn cực tiểu hóa hiệu ứng phụ 1.3 Mơ tả CSDL giao tác sử dụng để chạy thực nghiệm thuật toán luận án Các CSDL lựa chọn để chạy thực nghiệm thuật tốn đề xuất luận án có đặc tính khác về: Số lượng mục tập I, tổng số giao tác CSDL, độ dài trung bình giao tác CSDL, độ dài lớn giao tác CSDL Các CSDL gồm: - T1000_200_40: CSDL sinh ngẫu nhiên chương trình viết ngôn ngữ Java - Foodmart, Retail, Mushroom, Chess Chainstore: Các sở liệu lấy từ thư viên mã nguồn mở (http://www.philippe-fournierviger.com/spmf/), thư viên chia sẻ mã nguồn 226 thuật toán khai phá liệu cơng bố tạp chí lớn giới lĩnh vực công nghệ thông tin, kèm theo thuật toán CSDL chạy thực nghiệm 226 thuật toán Hiện thư viện có triệu lượt truy cập 1.4 Tổng kết chương Trong chương tập trung trình bày tổng quan vấn khai phá hữu ích cao che giấu thông tin nhạy cảm khai phá hữu ích cao, cụ thể: 1) Trình bày sở lý thuyết tảng khai phá hữu ích cao, bao gồm khai phá tập mục hữu ích cao mở rộng khai phá tập mục hữu ích cao từ CSDL giao tác; 2) Đánh giá tổng quan tình hình nghiên cứu khai phá hữu ích cao; 3) Trình bày sở lý thuyết che giấu thơng tin nhạy cảm KPDL, chủ yếu tập trung vào vấn đề che giấu thông tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic để 11 sửa đổi CSDL gốc; giới thiệu tổng quan che giấu thông tin nhạy cảm khai phá hữu ích cao Việc đánh giá tình hình nghiên cứu cách chi tiết khơng trình bày phần này, nội dung trình bày chi tiết chương 4) Giới thiệu tổng quan ứng dụng lý thuyết Giàn KPDL Là sở toán học vận dụng để tối ưu tốn che giấu thơng tin nhạy cảm khai phá hữu ích cao, cụ thể trình bày chương 5) Tập CSDL sử dụng thực nghiệm thuật toán đề xuất luận án mô tả chương Kết nghiên cứu chương kiến thức tảng để giải vấn đề nhằm đạt mục tiêu luận án đề 12 CHE GIẤU THÔNG TIN NHẠY CẢM TRONG KHAI PHÁ HỮU ÍCH CAO DỰA TRÊN KỸ THUẬT HUERISTIC Che giấu thông tin nhạy cảm khai phá hữu ích cao nhằm mục đích đảm bảo thông tin nhạy cảm không bị khai thác CSDL chia sẻ cơng bố bên ngồi Chương tập trung nghiên cứu vấn đề che giấu thông tin nhạy cảm khai phá hữu ích cao nhằm mục đích đề xuất thuật tốn để ẩn thơng tin nhạy cảm từ CSDL giao tác dựa kỹ thuật heuristic 2.1 Quy trình che đấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật hueristic Mơ hình che giấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic đề xuất vào năm 2010 để che giấu tập tập mục hữu ích cao nhạy cảm Nhìn chung, quy trình che giấu thông tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic thực qua ba bước sau: - Bước 1: Xác định tập mẫu hữu ích cao nhạy cảm cần che giấu (bước cần có tham gia chuyên gia phân tích liệu) - Bước 2: Áp dụng thuật toán che giấu tập mẫu hữu ích cao nhạy cảm xác định Bước 1, bước mô tả sau: Với tập gồm mẫu hữu ích cao nhạy cảm, lặp q trình sửa đổi CSDL gốc nhằm mục đích làm cho mẫu hữu ích cao nhạy cảm khơng cịn thỏa mãn ngưỡng tối thiểu xác định Bước Kết bước CSDL sửa đổi (sử dụng để chia sẻ cơng bố bên ngồi) - Bước 3: Đánh giá kết CSDL sửa đổi trước cơng bố bên ngồi 2.2 Tình hình nghiên cứu che đấu thơng tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic 2.2.1 Ẩn tập mục hữu ích cao nhạy cảm Mơ hình che giấu thơng tin nhạy cảm khai phá tập mục hữu ích cao từ CSDL giao tác lần đề xuất J.S Yeh cộng vào năm 2010 với hai thuật tốn heuristic có tên HHUIF (Hiding High Utility Item First Algorithm) MSICF (Maximum Sensitive Itemsets Conflict First Algorithm) Nhược điểm hai thuật toán phương pháp chọn mục mục tiêu giao tác mục tiêu để sửa CSDL giống cho trường hợp xóa mục mục tiêu sửa mục mục tiêu 13 Năm 2014, Lin cộng đề xuất thuật tốn ẩn tập mục hữu ích cao nhạy cảm phương pháp chèn vào CSDL gốc số giao tác giả Để xác định số lượng giao tác giả cần chèn vào CSDL gốc, tác giả sử dụng thuật tốn di truyền có tên GA-based (Genetic Algorithm-based) Nhược điểm phương pháp chèn giao tác giả làm xuất tập mục hữu ích cao giả mạo Cũng dựa giải thuật di truyền, C.W Lin cộng tiếp tục đề xuất thuật tốn có tên gọi PPUMGAT PPUMGAT sử dụng phương pháp xóa giao tác dựa giải thuật di truyền Thuật toán có nhược điểm thuật tốn GA-based làm phát sinh tập mục hữu ích cao giả mạo Năm 2016, Lin cộng đề xuất hai thuật tốn có tên MSU-MAU (Maximum Sensitive Utility-Maximum item Utility) MSU-MIU (Maximum Sensitive Utility-Minimum Item Utility) Phương pháp tiếp cận hai thuật toán sửa giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu giao tác mục tiêu Nhược điểm thuật toán phương pháp chọn mục mục tiêu hoàn toàn giống cho trường hợp sửa giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu giao tác mục tiêu dẫn đến làm tăng số lượng tập mục hữu ích cao không nhạy cảm bị Cũng theo hướng tiếp cận tương tự, năm 2020 Xuan Liu cộng đề xuất ba thuật toán heuristic, gồm: SMAU (Selecting Maximum Utility item first), SMIU (Selecting Minimum Utility item first)và SMSE (Selecting Minimum Side Effects item first) Ba thuật tốn có phương pháp chọn giao tác mục tiêu (giao tác chọn giao tác hỗ trợ tập mục hữu ích cao nhạy cảm cần ẩn hỗ trợ tập mục hữu ích cao khơng nhạy cảm nhất) Mục mục tiêu chọn để sửa thuật toán SMAU mục có giá trị hữu ích lớn giao tác mục tiêu so với mục lại tập mục hữu ích cao nhạy cảm Ngược lại, thuật tốn SMIU chọn mục mục tiêu mục có giá trị hữu ích nhỏ nhất giao tác mục tiêu so với mục lại tập mục hữu ích cao nhạy cảm Thuật tốn SMSE chọn mục mục tiêu mục xuất nhiều tập mục hữu ích cao nhạy cảm hỗ trợ giao tác mục tiêu, trường hợp có nhiều mục xác định mục mục tiêu chọn mục hỗ trợ số tập mục hữu ích cao khơng nhạy cảm hỗ trợ giao tác mục tiêu Nhược điểm thuật toán phương pháp chọn mục mục tiêu hoàn toàn giống cho trường hợp sửa giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu giao tác mục tiêu dẫn đến làm tăng số lượng tập mục hữu ích cao không nhạy cảm bị 2.2.2 Ẩn tập mục hữu ích cao phổ biến nhạy cảm 14 Bài tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm đề xuất Rajalaxmi cộng năm 2012 Trong nghiên cứu này, tác giả đề xuất thuật tốn có tên gọi MSMU (Minimum Support and Maximum Utility) MCRSU(Maximum Conflict Ratio for Support and Utility) Phương pháp tiếp cận sửa liệu để giảm độ hỗ trợ giá trị hữu ích tập mục nhạy cảm xuống thấp ngưỡng hỗ trợ tối thiểu tối thiểu ngưỡng hữu ích tối thiểu Nhược điểm hai thuật toán làm nhiều tập mục không nhạy cảm phải thực sửa liệu để giảm độ hỗ trợ hữu ích tập mục nhạy cảm xuống thấp ngưỡng tối thiểu Để khắc phục hạn chế này, năm 2018 X Liu đề xuất thuật toán ẩn tập mục hữu ích cao phổ biến nhạy cảm dựa kỹ thuật sửa liệu gốc có tên HUFI (Hiding Utility Frequent Itemset) Thuật toán thực lặp trình sửa liệu độ hỗ trợ hữu ích tập mục nhạy cảm thấp ngưỡng tối thiểu Để giảm hiệu ứng phụ tác giả đưa khái niệm giá trị biên cực đại dựa vào biên cực xác định giảm độ hỗ trợ hay giảm hữu ích để ẩn tập mục nhạy cảm hiệu Tuy nhiên, phương pháp chọn giao tác mục tiêu mục mục tiêu thuật toán HUFI hoàn toàn giống cho trường hợp giảm độ hỗ trợ giảm giá trị hữu ích để ẩn tập mục nhạy cảm Đây nguyên nhân làm cho phương pháp làm tăng hiệu ứng phụ 2.2.3 Ẩn tập mục hữu ích trung bình cao nhạy cảm Những năm gần chủ đề khai phá tập mục hữu ích trung bình cao từ CSDL giao tác nhiều nhà nghiên cứu quan tâm có nhiều kết nghiên cứu cơng bố Song song với việc phát triển thuật toán khai phá tập mục hữu ích trung bình cao việc nghiên cứu đề xuất thuật tốn che giấu thơng tin nhạy cảm khai phá hữu ích trung bình cao nhằm đảm bảo thông tin nhạy cảm khai thác thuật toán khai phá tập mục hữu ích trung bình cao từ CSDL chia sẻ cho đối tác cơng bố bên ngồi cần thiết Tuy nhiên, với hiểu biết tác giả luận án thời điểm chưa thấy công bố liên quan đến vấn đề che giấu thông tin nhạy cảm khai phá tập mục hữu ích trung bình cao Chính vậy, chương đề xuất mơ hình thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm nhằm giải tốn che giấu thơng tin nhạy cảm khai phá tập mục hữu ích trung bình cao 2.2.4 Ẩn luật kết hợp hữu ích cao nhạy cảm Cũng tập mục hữu ích cao nhạy cảm, luật kết hợp hữu ích cao chứa thơng tin liên quan đến chiến lược/bí mật kinh doanh luật kết hợp hữu ích cao nhạy cảm cần phải che giấu 15 trước CSDL chia sẻ cơng bố bên ngồi Tuy nhiên theo hiểu biết tác giả luận án, thời điểm chưa thấy có cơng bố liên quan đến vấn đề ẩn luật kết hợp hữu ích cao nhạy cảm Chính vậy, luận án nghiên cứu, đề xuất mơ hình thuật tốn ẩn luật kết hợp hữu ích cao nhạy cảm 2.3 Thuật tốn ẩn tập mục hữu ích cao nhạy cảm đề xuất Ẩn tập mục hữu ích cao nhạy cảm theo kỹ thuật heuristic để sửa đổi CSDL gốc trình mơ tả Hình 3.1 Hiệu ứng phụ trình phụ thuộc vào chiến lược chọn mục mục tiêu giao tác mục tiêu để sửa liệu Hình 3.1: Sơ đồ biểu diễn q trình ẩn tập mục hữu ích cao nhạy cảm Thuật tốn đề xuất thực qua ba bước chính: (1) Xác định giao tác mục tiêu; (2) Xác định mục mục tiêu; (3) Sửa mục mục tiêu để giảm giá trị trị hữu ích nội xóa mục mục tiêu khỏi giao tác mục tiêu Thuật toán đề xuất nhằm cải thiện hiệu ứng phụ trình ẩn tập mục hữu ích cao nhạy cảm gây Để giảm hiệu ứng phụ thuật toán đề xuất đưa định lý tính chất quan trọng chọn mục mục tiêu trình cắt tỉa liệu để ẩn tập mục hữu ích cao phổ biến nhạy cảm để giảm tối đa tác động đến CSDL gốc giảm tối đa tập mục hữu ích cao không nhạy cảm bị ẩn nhầm 16 Thuật tốn đề xuất có độ phức tạp tính tốn: 𝑂(|𝑆𝐻𝑈𝐼| + |D| + |𝐷𝑆| ∗ 𝑡𝑚𝑎𝑥 + |𝐻𝑈𝐼𝑠| ∗ 𝑡𝑚𝑎𝑥 ), tmax độ dài giao tác dài số giao tác chứa tập mục nhạy cảm Kết thực nghiệm cho thấy thuật toán đề xuất gây hiệu ứng phụ thấp so với thuật toán CSDL thực nghiệm Nhận xét thuật toán đề xuất: - Ưu điểm: Thuật toán đưa chiến lược chọn mục mục tiêu giao tác mục tiêu để sửa CSDL dựa tiêu chí ưu tiên giảm giá trị hữu ích nội, hạn chế số lần sửa liệu tính tốn số tập mục hữu ích cao khơng nhạy cảm bị mục ứng viên sửa để định chọn mục mục tiêu gây số tập mục hữu ích cao khơng nhạy cảm bị ẩn nhầm - Nhược điểm: Thuật toán đề xuất dựa phương pháp heuristic để sửa CSDL nhằm hướng đến giảm hiệu ứng phụ trình sửa CSDL gây nên chưa phải cực tiểu hóa hiệu ứng phụ Thuật tốn có thời gian thực thi cao thuật tốn cịn lại số tập mục hữu ích cao khơng nhạy cảm tăng lên 2.4 Thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm đề xuất Thuật toán ẩn tập mục hữu ích cao phổ biến nhạy cảm đề xuất mơ tả Hình 3.2 Dựa phân tích hạn chế thuật tốn ẩn tập mục hữu ích cao phổ biến nhạy cảm Thuật toán đề xuất áp dụng chiến lược thực ẩn tập mục hữu ích cao phổ biến chiến lược chọn mục mục tiêu giao tác mục tiêu dựa phương pháp tối ưu cục để cải thiện hiệu ứng phụ so với thuật toán Dựa vào đơn vị đo Biên cực đại Biên cực tiểu để xác định chọn phương án giảm độ hỗ trợ hay giảm giá trị hữu ích để ẩn tập mục tối ưu Khi xác định phương án thuật toán đề xuất áp dụng chiến lược chọn giao tác mục tiêu mục mục tiêu khác cho phương án thay áp dụng chung chiến lược thuật tốn trước Phương pháp chọn giao tác mục mục tiêu giao tác mục tiêu thuật toán áp dụng theo hướng tiếp cận thuật tốn ẩn tập mục hữu ích cao nhạy cảm đề xuất 17 Hình 3.2 Sơ đồ biểu diễn q trình ẩn tập mục hữu ích cao phổ biến nhạy cảm Thuật tốn đề xuất có độ phức tạp tính tốn: O(n+h*log(h)+(h+m*l)) Trong đó: n kích thước CSDL, h = |STSi|, l = |SHUFIs|, m độ dài lớn tập mục thuộc SHUFIs Đối với CSDL lớn, giá trị n lớn nhiều so với giá trị đại lượng cịn lại độ phức tạp tính tốn thuật tốn xấp xỉ O(n) Kết thực nghiệm CSDL có đặc trưng khác cho thấy thuật tốn đề xuất có hiệu ứng phụ thấp thuật toán Nhận xét thuật toán đề xuất: - Ưu điểm: Thuật tốn có chiến lược chọn mục mục tiêu giao tác mục tiêu hướng đến giảm hiệu ứng phụ MC, hạn chế số lần giảm giá trị hữu ích nội xóa mục số giao tác CSDL Để giảm hiệu ứng phụ MC thuật toán ưu tiên giảm giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu, đồng thời thuật tốn có chiến lược chọn mục mục tiêu giao tác mục tiêu riêng cho trường hợp giảm giá trị hữu ích nội mục mục tiêu xóa mục mục tiêu 18 - Nhược điểm: Trong trường hợp phải giảm độ hỗ trợ để ẩn tập mục nhạy cảm, phương pháp chọn mục mục tiêu thuật toán phù hợp số tập mục hữu ích cao phổ biến nhạy cảm cần ẩn lớn tập mục có mối quan hệ tập mục cha, tập mục 2.5 Thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm đề xuất Tương tự hướng tiếp cận thuật tốn ẩn tập mục hữu ích cao nhạy cảm đề xuất, thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm đề xuất thực qua bước để thực sửa liệu: (1) Xác định giao tác mục tiêu; (2) Xác định mục mục tiêu; (3) Sửa mục mục tiêu Hiệu ứng phụ thuật toán phụ thuộc vào: (1) Xác định giá trị hữu ích nội tối thiểu cần giảm hay xóa mục; (2) Phương pháp chọn mục mục tiêu giao tác mục tiêu Các định lý đảm bảo mặt toán học đưa để xác định xác giá trị hữu ích nội tối thiểu cần giảm hay xóa mục Đồng thời để mục mục tiêu giao tác mục tiêu nhằm giảm hiệu ứng phụ thuật toán xây dựng lập luận logic để chứng minh phương pháp chọn giảm hiệu ứng phụ Thuật tốn có độ phức tạp tính tốn: 𝑂(|𝐷| + |𝑛𝑜𝑛𝐻𝐴𝑈𝐼𝑠|) Kết thực nghiệm cho thấy thuật toán đạt đạt mục tiêu ẩn tất tập mục hữu ích trung bình cao nhạy cảm Hiệu ứng phụ so sánh với thuật tốn nhóm tác giả cơng bố năm 2018 cho thấy hiệu ứng phụ thuật toán đề xuất thấp Nhận xét thuật toán đề xuất: - Ưu điểm: Phương pháp chọn mục mục tiêu giao tác mục tiêu hướng đến giảm số lần phải sửa CSDL hạn chế xóa liệu nhằm giảm số tập mục hữu ích cao phổ biến không nhạy cảm bị ẩn nhầm, đồng thời hạn chế khác biệt CSDL gốc so với CSDL sửa đổi - Hạn chế: Do chưa tìm thấy thuật tốn ẩn tập mục hữu ích trung bình cao nhạy cảm cơng bố, q trình chạy thực nghiệm so sánh thuật tốn EHSHA-UI trình bày luận án với thuật tốn HHAUSI tác giả luận án đề xuất nên chưa mang tính khách quan ... kết CSDL sửa đổi trước công bố bên ngồi 2.2 Tình hình nghiên cứu che đấu thông tin nhạy cảm khai phá hữu ích cao từ CSDL giao tác dựa kỹ thuật heuristic 2.2 .1 Ẩn tập mục hữu ích cao nhạy cảm Mơ... mục mục tiêu giao tác mục tiêu dẫn đến làm tăng số lượng tập mục hữu ích cao khơng nhạy cảm bị 2.2 .2 Ẩn tập mục hữu ích cao phổ biến nhạy cảm 14 Bài toán ẩn tập mục hữu ích cao phổ biến nhạy cảm... giá trị hữu ích để ẩn tập mục nhạy cảm Đây nguyên nhân làm cho phương pháp làm tăng hiệu ứng phụ 2.2 .3 Ẩn tập mục hữu ích trung bình cao nhạy cảm Những năm gần chủ đề khai phá tập mục hữu ích trung

Ngày đăng: 28/02/2023, 14:35

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan