1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bảo vệ tính riêng tư cho dữ liệu mở dùng các kỹ thuật ẩn danh dữ liệu

42 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TRỌNG NGHĨA BẢO VỆ TÍNH RIÊNG TƯ CHO DỮ LIỆU MỞ DÙNG CÁC KỸ THUẬT ẨN DANH DỮ LIỆU Chuyên ngành : Khoa học Máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2021 i CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: TS Trương Tuấn Anh Cán chấm nhận xét 1: PGS.TS Vũ Thanh Nguyên Cán chấm nhận xét 2: PGS.TS Nguyễn Tuấn Đăng Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 22 tháng 01 năm 2021 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch Hội đồng: PGS TS Đặng Trần Khánh Thư ký: TS Phan Trọng Nhân Phản biện 1: PGS.TS Vũ Thanh Nguyên Phản biện 2: PGS TS Nguyễn Tuấn Đăng Ủy viên: TS Trương Tuấn Anh Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ii ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN TRỌNG NGHĨA MSHV: 1870047 Ngày, tháng, năm sinh: 24/09/1994 Nơi sinh: Quảng Trị Chuyên ngành: Khoa học máy tính Mã số: 8480101 I TÊN ĐỀ TÀI: Bảo vệ tính riêng tư cho liệu mở dùng kỹ thuật ẩn danh liệu (Privacy preserving for open sharing data using anonymization techniques) II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu liệu mở yêu cầu liệu mở - Nghiên cứu mơ hình ẩn danh liệu - Mơ tả tốn cần giải về: dùng kỹ thuật ẩn danh liệu bảo vệ tính riêng tư cho liệu mở Luật kết hợp - Đề xuất đánh giá giải pháp giải tốn III NGÀY GIAO NHIỆM VỤ: 10/02/2020 IV NGÀY HỒN THÀNH NHIỆM VỤ: 03/01/2021 V CÁN BỘ HƯỚNG DẪN: TS TRƯƠNG TUẤN ANH Tp HCM, ngày 04 tháng 01 năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA KH&KT MÁY TÍNH iii LỜI CẢM ƠN Sự quan tâm, giúp đỡ thầy gia đình bạn bè động lực lớn giúp cho học viên hoàn thành Luận văn Đầu tiên, học viên xin gửi lời cảm ơn chân thành đến TS Trương Tuấn Anh Thầy hết lòng hướng dẫn, bảo truyền đạt kinh nghiệm quý báu giúp học viên hoàn thành tốt luận văn Học viên xin gửi lời cảm ơn đến bạn mình, người đóng góp ý kiến tích cực phản biện q trình học viên thực luận văn Cuối cùng, học viên xin gửi lời cảm ơn đến gia đình bạn bè quan tâm, động viên giúp đỡ học viên giai đoạn khó khăn để hồn thành tốt Luận văn Thạc sĩ iv TÓM TẮT NỘI DUNG Hiện nay, thời đại liệu lớn (big data), điện toán đám mây (cloud computing) internet vạn vật (internet of things), nhu cầu chia sẻ liệu trở nên thịnh hành, hay nói cách khác phổ biến xu hướng liệu mở (open data) nhằm giúp nhiều người dễ dàng tiếp cận, sử dụng khai thác liệu Tuy nhiên, hầu hết liệu có giá trị liệu liên quan đến cá nhân, liệu chứa đựng thơng tin riêng tư người dùng, ví dụ liệu bệnh tật y tế Vì vậy, để chia sẻ liệu hay biến liệu thành liệu mở (open data), cần phải có chế để kiểm sốt che giấu mối liên hệ liệu nhạy cảm với người dùng, đồng thời giảm thiểu mát giá trị liệu nhằm phục vụ mục đích khai phá liệu Có nhiều hướng tiếp cận giải thuật để bảo vệ tính riêng tư liệu hướng tiếp cận theo mơ hình Ẩn danh liệu kanonymity phổ biến Mặc dù vậy, mơ hình hay giải thuật k-anonymity cịn mang tính tổng qt không hướng đến kỹ thuật khai phá liệu cụ thể, độ mát liệu khai phá lớn Một kỹ thuật khai phá liệu phổ biến Khai phá Luật kết hợp (Association Rule Mining), kỹ thuật hướng tới việc tìm kết hợp phổ biến item (itemset) tập liệu Trong Luận văn này, học viên đề xuất giải thuật bảo vệ tính riêng tư liệu theo mơ hình k-anonymity dựa kỹ thuật di chuyển ghi thành viên nhóm Giải thuật đánh giá tập liệu thực Adult nhằm kiểm tra hiệu độ mát liệu v ABSTRACT Nowadays, in the age of big data, cloud computing and internet of things the need for sharing data becomes prominent In other words, it is the popularity of open data for people to conveniently approach, use and mine However, most of valuable data is data relating to personal sensitive information such as data about diseases Therefore, to share data or to make a dataset open we must have policies to protect it and conceal the relations between sensitive data with people This must concurently not lose much of the data utility which is valuable for data mining techniques As of late, there are many approaches and algorithms for protecting data privacy of which the k-anonymity is the most popular However, most of the k-anonymity algorithms are too general and not concentrate on any concrete data mining technique so the data utility does not remain high Association rule mining is one of the most popular data mining techniques which discovers the association of items or itemsets in a dataset In this thesis, I propose an algorithm for protecting data privacy based on k-anonymity model using the technique of tuple member migration between groups The proposed algorithm was evaluated on Adult dataset to assess the performance as well as the data utility vi LỜI CAM ĐOAN Học viên xin cam đoan nội dung luận văn kết nghiên cứu thực Tất tham khảo từ nghiên cứu liên quan nêu rõ nguồn gốc từ danh mục tài liệu tham khảo luận văn Học viên Nguyễn Trọng Nghĩa vii MỤC LỤC NHIỆM VỤ LUẬN VĂN THẠC SĨ iii LỜI CẢM ƠN iv TÓM TẮT NỘI DUNG v ABSTRACT vi LỜI CAM ĐOAN vii DANH SÁCH BẢNG x DANH SÁCH HÌNH ẢNH xi GIỚI THIỆU ĐỀ TÀI I Dữ liệu mở tầm quan trọng việc bảo vệ tính riêng tư cho liệu mở Tình hình liệu mở Việt Nam giới II CÁC NGHIÊN CỨU LIÊN QUAN Tổng quan hướng tiếp cận mơ hình bảo vệ tính riêng tư 1.1 Các quy tắc 1.2 Ẩn danh liệu dựa ngẫu nhiên hóa 1.3 Ẩn danh liệu dựa k-anonymity 1.4 Sử dụng công nghệ blockchain – smart contract Bảo vệ tính riêng tư dạng liệu khác Các kỹ thuật Ẩn danh liệu dựa k-anonymity 3.1 Dựa tổng quát hoá lược bỏ 3.2 Dựa chia nhóm 3.3 k-anonymity xác suất 3.4 Dựa gom cụm Bảo vệ tính riêng tư Khai phá liệu Luật kết hợp 10 4.1 Tổng quan Khai phá liệu 10 4.2 Khai phá liệu Luật kết hợp vấn đề bảo vệ tính riêng tư 10 Các mơ hình, giải pháp bảo vệ tính riêng tư Khai phá liệu Luật kết hợp 11 viii Giải thuật Ẩn danh liệu dựa di chuyển thành viên nhóm 12 III CÁC KHÁI NIỆM CƠ BẢN 14 IV PHÁT BIỂU BÀI TOÁN 14 V GIẢI PHÁP ĐỀ XUẤT 15 Các định nghĩa 15 Giải thuật 17 Phân tích 18 VI THỰC NGHIỆM VÀ ĐÁNH GIÁ 19 Tập liệu 19 Kết thực nghiệm 20 Đánh giá 25 VII KẾT LUẬN 26 Những điều đạt 26 Những điều chưa đạt 26 Hướng phát triển 26 VIII DANH MỤC CÁC TÀI LIỆU THAM KHẢO 28 PHỤ LỤC 30 ix Một phép di chuyển tuple group gi gj có ý nghĩa mà sau phép di chuyển tổng Risk(gi) + Risk(gj) giảm đi, group có độ rủi ro (trở thành safe group giải tán hồn tồn) Do bước lặp để tìm kiếm group g để di chuyển với group SelG, tối thiểu hàm Risk điều kiện quan trọng - gi→gj phép di chuyển tập ghi từ group gi sang group gj, tập ghi từ group gi di chuyển giá trị quasi attribute phải cập nhật giống với giá trị quasi attribute group gj Phần trình bày mã giả giải thuật U-M3AR 16 Giải thuật Initialization G = set of groups obtained from D (grouping tuples similar on quasi attributes) Divide G into k-safe groups set SG, k-unsafe group set UG, k-unsafe small group set UG_SMALL (unsafe groups having length k/2) Construct R_care from R_initial (rules may be affected in migration operations, each rule in R_care contains at least quasi attribute) Calculate budget Budget(r) for all the rule r in R_care Sort groups in UG by length ascendingly SelG = None Process 10 11 12 13 14 15 16 17 18 19 20 21 while |UG| > or SelG: if SelG is None: SelG = UG.pop(0) // Pop the first unsafe group UG_BIG.remove(SelG); UG_SMALL.remove(SelG) if |SelG| for each um in UM: Pop um from UM; Disperse(um) 17 Disperse(um) Begin For each tuple t of other groups that has migrated into SelG: Return t to its initial group; |g| += Update budget of every rule r in R_affected(g, SelG): Budget(r) += if |g| = UM.add(g) For each remaining origin member t of SelG g = find_group_to_move_dispersing(SG) Update budget of every rule r in R_affected(SelG, g): Budget(r) -= End Phân tích Trọng tâm giải thuật nằm bước tìm group g để thực phép di chuyển tuple với g SelG bước lặp find_group_to_migrate(SelG, remaining_groups) Việc tìm group g thực dựa chiến lược sau: - - - - Chỉ áp dụng với unsafe group: Nếu unsafe group nhận tuple tiếp tục nhận tuple, tương tự unsafe group cho tuple tiếp tục cho tuple Điều để tránh đồng (về giá trị quasi attribute) cho group, group giải tán giải tán ln group nhận nhận ln (Tương tự M3AR) Khi xét phép di chuyển n tuple từ group i sang group j phải đảm bảo budget rule r bị ảnh hưởng phép di chuyển mang giá trị dương, tức Budget(r) > với rule r thuộc R_affected(gi, gj) (Tương tự M3AR) Số lượng tuple di chuyển n tính sau: (Tương tự M3AR) o Nếu gj unsafe:  Nếu gi → gj: n=Min(|gi|,k-|gj|)  Nếu gj → gi: n=Min(|gj|,k-|gi|) o Nếu gi safe:  Nếu gi → gj: n=|gi|  Nếu gj → gi: n=Min(k-|gi|, |gj|-k, origin(gj)) Giải thuật M3AR quét hết tập group g cịn lại UG SG sau tìm phép migration (SelG g) tối ưu về: chi phí (tối thiểu), số tuple cần di chuyển (tối thiểu), rủi ro risk reduction (tối thiểu) Với nhu cầu khai phá liệu tập liệu lớn nay, việc giảm độ phức tạp giải thuật cần thiết Trong giải thuật đề xuất, bước học viên xét tiêu chí giảm thiểu rủi ro risk reduction đồng thời khơng gian tìm kiếm g xếp lại việc thay đổi thứ tự UG_BIG, UG_SMALL Việc tìm group g khơng phải ln ln duyệt hết group cịn lại UG + SG M3AR mà dừng lại 18 tìm lựa chọn làm cho tổng rủi ro SelG g sau phép di chuyển hai group Các tiêu chí chi phí phép di chuyển số tuple cần di chuyển không học viên dùng tới tiêu chí phụ thuộc vào cách thực, cách chọn cấu trúc liệu ảnh hưởng Ở giải thuật đề xuất (U-M3AR) group thuộc UG ban đầu xếp theo thứ tự tăng dần kích thước vịng lặp duyệt theo thứ tự không lấy ngẫu nhiên M3AR Tập xét duyệt (remaining_groups) xếp lại tùy vào kích thước SelG, kích thước SelG nhỏ k/2 ưu tiên tìm kiếm UG_BIG trước, UG_BIG khả có group để thực phép di chuyển với SelG cho tổng rủi ro đạt Ngược lại kích thước SelG lớn k/2 ưu tiên duyệt UG_SMALL trước với lý tương tự Việc không chọn ngẫu nhiên SelG mà duyệt theo thứ tự xếp giúp tiết kiệm chi phí so với lúc giải thuật chạy với cách chọn ngẫu nhiên Tìm group g SG để thực phép di chuyển disperse cho group um_g find_group_to_move_dispersing(um_g, SG): Tiêu chí cho việc lựa chọn g giống giải thuật M3AR, số rule có Budget âm bị ảnh hưởng phép di chuyển (SelG, g) tối thiểu Ở giai đoạn Disperse, số lượng group tập UM thường nhỏ nên tổng chi phí cho việc hoàn thành giai đoạn nhỏ VI THỰC NGHIỆM VÀ ĐÁNH GIÁ Tập liệu - Tập liệu dùng tập Adult [8] thường dùng để đánh giá giải thuật k-anonymity Tập có 32,561 ghi sau loại bỏ ghi chứa null unknown cịn 32,169 ghi Trong thực nghiệm này, học viên giữ lại thuộc tính age, sex, marital-status, native-country, race, education, hours-per-week, capital-gain, workclass thuộc tính đầu chọn làm quasi attribute 19 Thuộc tính Số giá trị khác Loại age 72 Số sex Nhãn marital-status Nhãn native-country 41 Nhãn race Nhãn education 16 Nhãn hours-per-week 94 Số capital-gain 118 Số workclass Nhãn Bảng Mơ tả thuộc tính tập liệu Adult Quasi attribute? Y Y Y Y Y Y N N N Kết thực nghiệm - Giải thuật đánh giá tập Adult [8] so sánh kết với giải thuật OKA [5], GCCG[14] M3AR [2] Cả giải thuật thực ngôn ngữ Python (Python 3) chạy máy tính có cấu hình Windows 10, Intel Core I5 3570 3.4GHz, RAM 8GB Các kết thống kê lấy trung bình lần chạy min_sup=0.5 min_conf=0.5 K OKA GCCG M3AR U-M3AR 10 15 20 2096.34 1192.93 851.56 710.75 612.82 653.20 642.15 568.00 1357.37 1396.02 1387.70 1404.23 943.07 1142.87 1230.96 1278.23 Bảng Kết đánh giá thời gian chạy (giây) K OKA GCCG M3AR U-M3AR 10 15 20 100 100 100 100 44.44 51.11 62.22 68.89 0 0 0 0 Bảng Kết đánh giá Lost Rule Percentage 20 25 30 629.58 565.14 585.24 560.58 1421.85 1415.14 1335.33 1349.90 25 100 80.00 0 30 100 82.22 0 k OKA GCCG M3AR U-M3AR 10 15 20 37.78 62.22 77.78 88.89 0 0 0 0 0 0 Bảng Kết đánh giá New Rule Percentage 25 88.89 15.6 15.6 30 88.89 22.2 22.2 k 10 15 20 25 30 137.78 162.22 177.78 188.89 188.89 188.89 OKA 44.44 51.11 62.22 68.89 80.00 82.22 GCCG 0 0 15.6 22.2 M3AR U-M3AR 0 0 15.6 22.2 Bảng Kết đánh giá Difference Rule Percentage k OKA GCCG M3AR U-M3AR 10 15 1.43 1.15 1.08 2.01 1.54 1.36 2.05 1.64 1.47 2.05 1.64 1.47 Bảng 10 Kết đánh giá CAVG 21 20 1.04 1.34 1.37 1.37 25 1.02 1.19 1.30 1.30 30 1.003 1.14 1.24 1.24 Hình Kết đánh giá thời gian chạy Hình Kết đánh giá Lost Rule Percentage 22 Hình Kết đánh giá New Rule Percentage Hình Kết đánh giá Different Rule Percentage 23 Hình Kết đánh giá CAVG - Giải thích độ đo: Với D tập liệu gốc D’ tập liệu biến đổi đạt k-anonymity R R’ tập Luật (rule) khai phá D D’ min_sup min_conf |R| |R’| số lượng Luật tập R R’ Khi đó: o LRP (Lost Rule Percentage): Phần trăm số rule bị khai phá tập liệu biến đổi D’ so với D |𝑅 − 𝑅′ | 𝐿𝑅𝑃 = |𝑅| o NRP (New Rule Percentage): Phần trăm số rule khai phá tập liệu biến đổi D’ so với D |𝑅′ − 𝑅| 𝑁𝑅𝑃 = |𝑅| o DRP (Different Rule Percentage): Phần trăm số rule khác |𝑅′ − 𝑅| + |𝑅 − 𝑅′| 𝐷𝑅𝑃 = |𝑅| o CAVG (Average Group Size): Kích thước trung bình nhóm tạo tổng kích thước nhóm chia cho số nhóm chia cho k 𝑇𝑜𝑡𝑎𝑙 𝑙𝑒𝑛𝑔𝑡ℎ 𝑜𝑓 𝑎𝑙𝑙 𝑔𝑟𝑜𝑢𝑝𝑠 𝐶𝐴𝑉𝐺 = /𝑘 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑔𝑟𝑜𝑢𝑝𝑠 24 - - - - Đánh giá Dựa vào bảng kết thấy giải thuật đề xuất U-M3AR cho kết khả quan, với thời gian chạy thấp giải thuật M3AR độ đo không mát (LRP = 0) Đối với k = 10 Giải thuật GCCG ln chạy nhanh ba giải thuật cịn lại 25 VII KẾT LUẬN Những điều đạt - Nắm đặc điểm liệu mở tình hình liệu mở Việt Nam giới - Nắm hướng nghiên cứu kỹ thuật bảo vệ tính riêng tư Thêm nhiễu, Ngẫu nhiên hóa, k-anonymity (và mở rộng l-diversity, tcloseness)… ưu, nhược điểm chúng Các kỹ thuật, mô hình bảo vệ tính riêng tư đa phần phải đánh đổi tính riêng tư chất lượng liệu, chưa hướng đến một nhóm kỹ thuật khai phá liệu - Có kiến thức kỹ thuật, giải thuật k-anonymity - Nắm kiến thức Khai phá liệu Luật kết hợp hướng nghiên cứu bảo vệ tính riêng tư Khai phá liệu Luật kết hợp Một hướng tiềm di chuyển ghi nhóm ghi để đạt k-anonymity, kỹ thuật khơng áp dụng Tổng qt hóa hay Lược bỏ mà giữ nguyên miền giá trị thuộc tính tránh nhược điểm Tổng quát hóa Lược bỏ tránh mát liệu Luật kết hợp (mục II 6) - Xây dựng giải thuật để giải toán (đã nêu mục IV) dựa cách di chuyển ghi nhóm để tập liệu đạt k-anonymity cho tối thiểu hóa mát luật Giải thuật dựa sở giải thuật M3AR [2] kết hợp số cải tiến để thu hẹp khơng gian tìm kiếm bước lặp tìm nhóm trao đổi thành viên Đồng thời học viên thực giải thuật khai phá Luật kết hợp tập liệu dựa giải thuật Apriori [13] - Các kết thực nghiệm giải thuật tập liệu Adult [8] khả quan thời gian chạy giảm xuống mát luật không đổi (và nhiều trường hợp 0, k

Ngày đăng: 08/05/2021, 15:45

w