Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
3,05 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG -OO - SOK DARIYA KỸ THUẬT NẶC DANH HĨA DỮ LIỆU LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN ĐỒNG NAI – Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG -OO - SOK DARIYA KỸ THUẬT NẶC DANH HÓA DỮ LIỆU CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 8480201 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG TRẦN KHÁNH ĐỒNG NAI – Năm 2019 LỜI CÁM ƠN Đầu tiên, em xin chân thành cảm ơn thầy PGS.TS Đặng Trần Khánh tận tình hướng dẫn, bảo suốt thời gian thực luận văn Xin chân thành cám ơn thầy cô khoa sau đại học Trường Đại Học Lạc Hồng cung cấp kiến thức quí báu suốt q trình học tập, thầy văn phịng khoa hết lòng giúp đỡ, tạo điều kiện thuận lợi để tơi hồn thành luận văn Xin gửi lời cảm ơn đến người thân gia đình, anh chị, bạn lớp quan tâm giúp đỡ suốt thời gian học tập làm luận văn Do thời gian làm luận văn cịn hạn chế, kiến thức có hạn, nên luận văn khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp q thầy bạn để luận văn hồn chỉnh Xin chân thành cảm ơn! Đồng Nai, ngày 30 tháng 12 năm 2019 HỌC VIÊN SOK DARIYA LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, kết đạt trình học tập nghiên cứu khoa học độc lập Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Khơng có sản phẩm hay nghiên cứu người khác sử dụng luận văn mà khơng có trích dẫn theo quy định Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỹ luật theo quy định cho lời cam đoan Đồng Nai, ngày 30 tháng 12 năm 2019 HỌC VIÊN SOK DARIYA MỤC LỤC LỜI CÁM ƠN LỜI CAM ĐOAN TÓM TẮT LUẬN VĂN Chương 1: Giới thiệu 1.1 Dữ liệu mở 1.2 Vấn đề bảo vệ tính riêng tư 1.3 Dữ liệu mở vấn đề bảo vệ tính riêng tư 1.4 Kỹ thuật ẩn danh bảo vệ tính riêng tư 1.5 Mục tiêu luận văn Chương 2: Giới thiệu liệu mở 10 2.1 Kiến trúc liệu mở 10 2.2 Những case study điển hình 11 2.3 Một số hệ thống quản lý liệu mở phổ biến 13 Chương 3: Một số công cụ hỗ trợ bảo vệ tính riêng tư liệu 16 3.1 Tính riêng tư xuất liệu liệu mở 16 3.1.1 Khả định dạng liệu ẩn danh 16 3.1.2 Kết hợp liệu từ nhiều nguồn khác 16 3.1.3 Xử lý liệu cá nhân sau xóa chúng khỏi tài ngun cơng cộng 16 3.1.4 Những rủi ro trình bảo vệ liệu 16 3.1.5 Khả sử dụng liệu rộng 16 3.2 Các công cụ có phục vụ cho việc bảo vệ tính riêng tư liệu 17 3.2.1 ARX 17 3.2.1.1 Giới thiệu 17 3.2.1.2 Kiến trúc hệ thống 18 3.3 SECRETA 20 3.3.1 Giới thiệu chung 20 3.3.2 Kiến trúc hệ thống 20 3.3.3 Frontend 20 3.4 PSI (Private data Sharing Interface) 22 3.4.1 Giới thiệu 22 4.4.2 Kiến trúc hệ thống 23 3.5 RAPPOR 25 3.6 Amnesia 25 3.6.1 Giới thiệu 26 3.6.2 Kiến thức hệ thống 27 3.6.3 Áp dụng framework để bảo vệ tính riêng tư liệu 27 3.6.4 Các toán framework để bảo vệ tính riêng tư liệu mở 27 Chương 4: Kỹ thuật ẩn danh liệu 30 4.1 Các kỹ thuật ẩn danh hóa liệu 30 4.1.1 K-anonymity 30 4.1.2 l-diversity 38 4.1.3 T-closeness 41 4.1.4 δ-presence 43 4.2 Riêng tư vi phân 44 4.3 Dữ liệu mở ẩn danh hóa liệu 46 4.4 Đo độ hữu dụng liệu sau ẩn danh hóa 46 4.5 Đo mức độ riêng tư liệu sau ẩn danh hóa 49 Chương 5: Bảo vệ tính riêng tư cho liệu mở sử dụng kỹ thuật ẩn danh liệu 50 5.1 Nghiên cứu thiết kế kỹ thuật ẩn danh hóa liệu mở 50 5.2 Hiện thực kỹ thuật ẩn danh hóa liệu đánh giá ARX 51 5.2.1 Giới thiệu sơ lược môi trường thực đánh giá 51 5.2.2 Chi tiết ẩn danh đánh giá ẩn danh với ARX 52 5.2.3 Kết thí nghiệm với phương pháp k-anonymity đánh giá độ rủi ro 62 5.2.4 Hướng phát triển ARX 64 5.2.5 Khả áp dụng ứng dụng vào công việc 64 Chương 6: Kết luận hướng phát triển 66 Tài liệu tham khảo TÓM TẮT LUẬN VĂN Đề tài: KỸ THUẬT NẶC DANH HĨA DỮ LIỆU Ngành: Cơng nghệ thơng tin Mã số: 8480201 Học viên: SOK DARIYA Người hướng dẫn: PGS TS ĐẶNG TRÀN KHÁNH NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn Nhu cầu thu thập chia sẻ liệu trở nên thiếu cho mục đích nghiên cứu ứng dụng Để đảm bảo quyền riêng tư mơi trường phức tạp địi hỏi phải thực loạt biện pháp pháp lý kết hợp với kỹ thuật ẩn danh liệu Ẩn danh liệu nhằm mục đích bảo vệ tập liệu cách ngăn chặn hình thức cơng xâm phạm quyền riêng tư cá nhân, tổ chức Trong luận văn này, học viên giao nhiệm vụ thực nội dung sau đây: • Tìm hiểu liệu mở bảo vệ tính riêng tư • Tìm hiểu vấn đề bảo vệ tính riêng tư dựa nặc danh hóa liệu • Đánh giá khả áp dụng kỹ thuật nặc danh hóa cho liệu khả áp dụng cho liệu mở • Tìm hiểu số cơng cụ hỗ trợ bảo vệ tính riêng tư cho liệu dựa nặc danh • Cài đặt đánh giá (vài) kỹ thuật nặc danh công cụ cụ thể với số tập liệu • Báo cáo tổng kết đề tài Cách thức giải vấn đề • Nghiên cứu tài liệu khoa học sản phẩm công nghệ cho nội dung liên quan đến kỹ thuật nặc danh hóa liệu liệu mở • Đánh giá phân tích khả áp dụng kỹ thuật nặc danh hóa cho liệu bảo vệ tính riêng tư cho liệu sử dụng công nghệ với mã nguồn mở có sẵn • Tìm hiểu cơng nghệ cài đặt công cụ số phương pháp để áp dụng kiểm chứng với tập liệu thí nghiệm • Đánh giá phương pháp nặc danh hóa liệu cài đặt cơng cụ • Đề xuất hướng phát triển cho việc bảo vệ tính riêng tư cho liệu mở dựa nặc danh hóa tốn chủ chốt cần giải Ngày 30 tháng 12 năm 2019 HỌC VIÊN SOK DARIYA Chương 1: Giới thiệu 1.1 Dữ liệu mở Ngày nay, ngữ cảnh mạng vạn vật (internet of things) xu hướng đô thị thông minh (smart city), liệu mở (open data) xu hướng phát triển quan trọng tất yếu giới liệu tạo (ví dụ liệu hệ thống nội quan tổ chức hay liệu tạo từ cá nhân, thiết bị) dần chia sẻ công khai sẵn sàng với người để sử dụng, tra cứu chia sẻ lại mà không bị giới hạn vấn đề liên quan đến quyền, sáng chế, hay chế điều khiển truy xuất khác Hiện tại, hệ thống liệu mở từ cấp cộng đồng nhỏ lẻ đến tập đồn doanh nghiệp lớn phủ thực có nhu cầu ngày cao ngồi nước để dựa vào tạo dịch vụ mới, tri thức [1, 2, 11] Mặc dù mang lại nhiều lợi ích cho xã hội, hệ thống liệu mở phải đối mặt với nhiều vấn đề phải có hệ thống quản trị liệu hiệu quả, Trong đó, bật cấp thiết phải có giải pháp để giải vấn đề quan trọng bảo mật tính riêng tư Rõ ràng, tập liệu mở chia sẻ thu thập lưu trữ thông tin riêng tư nhạy cảm đối tượng người sử dụng, tổ chức, doanh nghiệp môi trường sống xung quanh để phục vụ cho hoạt động tổ chức (từ doanh nghiệp đến phủ) Khi tập liệu cơng bố thành dạng liệu mở ảnh hưởng đến đạo luật xâm phạm quyền riêng tư, bảo mật liệu mà tổ chức phải tuân thủ Do đó, liệu nhạy cảm, mang tính riêng tư phải loại bỏ/che giấu trước công khai liệu Hơn nữa, đặc điểm liệu hệ thống liệu mở lớn, không cấu trúc, đa dạng, nhiều nguồn cập nhật liên tục (ví dụ hệ thống liệu ứng dụng thị thơng minh), đó, vấn đề bảo vệ tính riêng tư liệu trở thành thách thức cho tổ chức muốn công khai liệu mà chưa giải cách hiệu Trong xã hội thơng tin tồn cầu hóa, thật khó để áp dụng kỹ thuật để thỏa sách bảo mật dành cho tổ chức định Do đó, cần tìm hiểu để xây dựng kiến trúc tảng phù hợp kèm với kỹ thuật xử lý liệu nhằm bảo vệ tính riêng tư trước cơng khai liệu mà đảm bảo tối đa chất lượng liệu cho việc phân tích, tính sẵn sàng liên tục hệ thống khả tương thích với đặc điểm liệu (ứng dụng) khác Dữ liệu mở khái niệm với phát triển Internet công nghệ nay, liệu mở trở thành hướng nghiên cứu bật tất yếu, đặc biệt môi trường “smart cities/nations” [1] Các liệu “open” Internet đa phần liệu phủ nhiều lĩnh vực giao thông, y tế, giáo dục, viễn thông, Để làm rõ hơn, xem số ví dụ lĩnh vực viễn thơng, liệu mở dùng vào nhiều ứng dụng kể đến sau [2]: Bản đồ trạm phát sóng: Bản đồ trạm phát sóng (base station) cung cấp thơng tin vị trí trạm phát sóng nhà mạng khả kỹ thuật chúng (3G, 4G, etc.) Từ đó, nhà mạng tiến hành việc khai thác, lắp đặt thuê trạm phát sóng từ nhà mạng khác muốn triển khai dịch vụ Các nhà cung cấp dịch vụ thuê hạ tầng có sẵn (từ nhiều nhà mạng khác nhau) để vừa hợp tác vừa đối thủ cạnh tranh kinh doanh lẫn (coopetition) Ngữ cảnh tiềm kinh doanh tiềm ẩn nhiều thách thức, đơn vị cung cấp dịch vụ viễn thông truyền thống Campuchia hay Việt Nam Dữ liệu từ khách hàng: Nhiều ứng dụng smartphones không phụ thuộc vào nhà cung cấp dịch vụ viễn thông thông qua chúng, người ta thu thập nhiều thơng tin (như vị trí, tốc độ, hình ảnh/video, etc.) [6] Những thơng tin đối thủ nhà cung cấp viễn thơng dùng để phát triển dịch vụ mới, tăng lợi cạnh tranh Những khách hàng dùng mạng nhà cung cấp hồn tồn cung cấp liệu cho nhà cung cấp khác (qua smartphone apps) họ có hạ tầng liệu mở phù hợp tiện tích đem lại khách hàng đồng ý chia sẻ liệu Vấn đề không lại viễn cảnh mà bắt đầu diễn hàng ngày Bản đồ cáp quang: Bản đồ cáp quang cung cấp vị trí lắp đặt cáp quang tương tự đồ giao thông hay đồ đường dẫn nước thành phố Thông qua đồ này, nhà cung cấp dịch vụ quốc gia tư nhân xác định vị trí cáp quang lắp đặt, từ có kế hoạch để khai thác lắp đặt dịch vụ phù hợp Vấn đề tương tự vấn đề trạm phát sóng bên Bản đồ quang phổ: Khi đồ cáp quang hoàn thành lúc nhà Hình 5-3 mơ tả chi tiết phần lõi kiến trúc ARX dựa mô hình UML Trong lớp cơng khai API vẽ nét khung viền dày Thuộc tính tập liệu chia thành tập Buffer khác nhau, dựa loại phép biến đổi phép phân tích áp dụng chúng DataHandle tập hợp buffer lại cung cấp truy cập đến chúng Đối với phần liệu chuyển đổi, output buffer giữ giá trị thuộc tính chuyển đổi Mơ đun chuyển đổi đọc liệu từ input buffer tần suất phân bố giá trị thuộc tính tính tốn mơ-đun phân tích viết giá trị tổng qt hố( qua Gereralizer) tính tốn(qua Aggregator) vào output buffer Hình 5-3: Các lớp quan trọng ARX Lớp Analyzer từ mơ-đun phân tích liệu truy cập liệu từ input output buffer, tạo lớp liệu xác suất phân bố giá trị thuộc tính Bên cạnh đó, lớp cịn sử dụng thành phần snapshot management mơ-đun quản lý liệu để tối ưu hoá Lớp Checker đóng vai trị interface cho giải thuật ẩn danh Nó kết hợp q trình chuyển đổi liệu, phân tích liệu đánh giá tiêu chí bảo mật độ đo tiện ích liệu Thuật tốn tìm kiếm qua mạng tổng quát định sử dụng interface để đánh giá thuộc tính phép biến đổi liệu Giao Diện Lập Trình Ứng Dụng (API) API cung cấp số tính sau (1) nhập liệu vào từ sở liệu quan hệ, (2) sử dụng hàm tổng quát hoá phân cấp, (3) thực t-closeness sử dụng tổng quát hoá phân cấp việc tính khoảng cách, (4) thực việc phân tích rủi ro super- population model luật định, (5) tự động tìm giải pháp tối ưu Giả định sở liệu gồm thuộc tính định danh age, gender, zipcode thuộc tính nhạy cảm LDL cholesterol Đầu tiên, để thực tổng quát hoá phân cấp ARX thực ánh xạ giá trị thành khoảng, nhóm xếp giá trị cách che dấu (masking) ký tự Danh sách biểu diễn ví dụ cách sử dụng sáu khoảng để phân cấp cho thuộc tính LDL cholesterol từ very low (LDL cholesterol 1,8) đến very high (LDL cholesterol lớn 4,9) Ở mức phân cấp cao kế tiếp, khoảng very low tổng quát hoá thành khoảng low, khoảng normal borderline high tổng quát hoá thành khoảng normal, cuối khoảng high very high tổng quát hoá thành khoảng high Ở mức phân cấp cao kế tiếp, khoảng low normal tổng quát thành khoảng low-normal, khoảng high khơng cần thay đổi (hình 5-4) Hình 5-4: PHÂN LOẠI VÀ TẠO TỔNG QT HỐ PHÂN CẤP CHO THUỘC TÍNH LDL CHOLESTEROL Danh sách biểu diễn việc tạo tổng quát hoá phân cấp cho thuộc tính age có giá trị từ [0, 120] Mức khoảng (0,5) Sau mức tiếp theo, định nghĩa khoảng với kích thước lần luợt 10, 20, 40, 80 Các giá trị 80 Các nhãn tự động tạo hàm tổng hợp mà người dùng định nghĩa Ở nhãn định nghĩa [cận dưới, cận trên] Hình 5-5: TẠO TỔNG QT HỐ PHÂN CẤP CHO THUỘC TÍNH AGE Tiếp theo, danh sách dùng phương pháp ẩn danh cách sử dụng ký tự thuộc tính zipcode, 81667 -> 8166* -> 816** -> 81*** -> 8**** -> ***** (hình 5-6) Hình 5-6: TẠO TỔNG QT HỐ PHÂN CẤP CHO THUỘC TÍNH ZIPCODE Hình 5-7: TẠO TỔNG QT HỐ PHÂN CẤP CHO THUỘC TÍNH SEX Hình 5-7 dùng phương pháp xếp gom nhóm để tạo tổng qt hố phân cấp cho thuộc tính sex Hình 5-8 biểu diễn việc tải liệu bảng (tbll) từ hệ sở liệu SQLite, sau định nghĩa kiểu liệu cho bốn thuộc tính Hình 5-8: TẢI DỮ LIỆU TỪ MỘT CSDL QUAN HỆ Cuối cùng, cần định nghĩa cấu hình cho mơ hình bảo vệ liệu, phương thức để đo độ tiện dụng liệu Quá trình biểu diễn hình 5-9 Đầu tiên, định nghĩa thuộc tính sex, age gender thuộc tính định danh liên kết chúng với phân cấp tương ứng Sau đó, định nghĩa thuộc tính ldl cholesterol thuộc tính nhạy cảm Tiếp theo đặt giới hạn nén liệu 100% để độ đo ARX tự động cân việc ứng dụng tổng quát hoá nén liệu để tối ưu độ tiện ích Đối với thuật toán ẩn danh dùng 0.2 t-closeness cho thuộc tính nhạy cảm Tiếp theo, tạo Loss metric, để ưu tiên việc tổng quát hoá việc nén liệu (giá trị 0.0 có nghĩa sử dụng tổng qt hố, 1.0 có nghĩa sử dụng nén liệu) Thuộc tính age định nghĩa quan trọng hai thuộc tính sex zipcode ARX cố gắng giảm thiểu số lượng tổng qt hố cho thuộc tính quan trọng Hình 5-9: ÁP DỤNG T-CLOSENESS CHO THUỘC TÍNH LDL CHOLESTEROL Hình 5-10 trình bày rủi ro khử ẩn danh kết liệu sau chuyển đổi phân tích Hình 5-10: PHÂN TÍCH ĐỘ PHÂN BỐ CỦA TẬP DỮ LIỆU KẾT QUẢ TCLOSENESS Giao Diện Người Dùng Quá Trình Ẩn Danh: Thách thức ẩn danh liệu đạt cân độ tiện ích tính bảo mật Trong ARX, phương thức mơ hình hố phía cạnh khác quy trình làm việc nhiều bước nhằm giải thách thức Hình 5-11 nêu số bước gồm (1) cấu hình mơ hình bảo vệ biến đổi liệu, (2) khai phá khơng gian tìm kiếm, (3) phân tích liệu đầu vào liệu đầu Hình 5-11: Q TRÌNH ẨN DANH CỦA GIAO DIỆN NGƯỜI DÙNG ARX Tại bước cấu hình, liệu đầu vào nhập vào đánh dấu, tổng quát hoá phân cấp tạo ra, phần khác giải thuật ẩn danh định bước Bước khám phá hỗ trợ tìm kiếm liệu ẩn danh phù hợp với yêu cầu người sử dụng Để đảm bảo tính phù hợp, bước phân tích cho phép so sánh tập liệu biến đổi với tập liệu nguồn Thêm vào đó, phân tích rủi ro áp dụng cho liệu đầu vào liệu biến đổi Dựa theo phân tích trên, lời giải sáng giá xem xét đánh giá thay đổi cấu hình cho trình ẩn danh liệu Ba bước trình ẩn danh ánh xạ vào bốn phối cảnh người dùng tương ứng : Cấu hình (Configuration): Trong phối cảnh tập liệu nhập vào công cụ ARX đánh dấu Tiếp theo, tổng quát hoá phân cấp cho liệu định danh liệu nhạy cảm tạo cách bán tự động wizard nhập thủ công vào công cụ Cuối cùng, giải thuật ẩn danh, phương thức để đo lường độ tiện dụng liệu, tham số khác thuộc tính mơ hình biến đổi định bước Hình 5-12: Giao diện ARX configuration Khám phá (Exploration): Khơng gian tìm kiếm xây dựng dựa tham số định trước Phối cảnh này, cho phép người dùng duyệt tìm khơng gian phép biến đổi liệu, tổ chức lọc chúng dựa theo nhu cầu Đánh giá tính hữu dụng (Utility evaluation): để đánh giá phù hợp phép chuyển đổi liệu cụ thể cho kịch sử dụng định, giao diện cho phép so sánh phép biến đổi tập liệu đầu vào với tập liệu nguồn Cuối cùng, kết hợp biểu diễn đồ họa khác kết phân tích cho phép so sánh cell Phân tích rủi ro (Risk analysis): Trong phối cảnh này, việc phân bố quy mô lớp, rủi ro liên quan đến định danh cá nhân riêng lẻ, ước tính rủi ro dựa mẫu phân bố mẫu phân tích Khung nhìn hiển thị chi tiết rủi ro khử ẩn danh ước tính thu từ mơ hình khác Luận văn khơng vào chi tiết cách sử dụng cơng cụ mà tham khảo [28] Sau trình bày số giao diện quan trọng làm việc với ARX Hình 5-13 minh hoạ wizard để tạo tổng quát hoá phân cấp Đầu tiên, chuỗi khoảng định nghĩa Ở bước kế tiếp, cấp hệ thống phân cấp xác định đánh nhãn phù hợp HÌNH 5-13: WIZARD ĐỂ TẠO TỔNG QUÁT HOÁ PHÂN CẤP THEO TỪNG KHOẢNG Các cấu trúc phân cấp biểu diễn dạng bảng hàng chứa luật tổng qt hố cho thuộc tính giá trị Cách biểu diện trực quan có khả tương thích với ứng dụng bên thứ ba, chẳng hạn chương trình bảng tính Hệ thống phân cấp tinh chỉnh với trình chỉnh sửa tích hợp sẵn Khung nhìn trung tâm phía bên phải phối cảnh hỗ trợ thuật giải ẩn danh liệu Trong tab thứ hai khung hiển thị đặc điểm phân bố dùng để phân tích rủi ro ẩn danh dựa rủi ro Các tuỳ chọn để cấu hình trình chuyển đổi triển khai khung nhìn phía bên phải phối cảnh Trong cài đặt chung, giới hạn nén liệu thiết lập tham số liên quan đến hiệu suất điều chỉnh Trong tab thứ hai, phép đo độ tiện ích chọn cấu hình Hai tab lại cho phép người dùng tham số hố mơ hình chuyển đổi thuộc tính trọng số cách ưu tiên loại liệu khác ARX cho phép người dùng so sánh liệu biến đổi với liệu nguồn Hình 5-14 biểu diễn ví dụ phối cảnh Phối cảnh hiển thị tập liệu đầu vào bên trái tập liệu đầu bên phải Cả hai khung nhìn đồng hố cuộn lên xuống Dữ liệu xếp theo thuộc tính theo tất thuộc tính định danh Để người dùng dễ so sánh, ARX hiển thị dạng đồ thị bảng biểu Hình 5-14: ĐÁNH GIÁ DỮ LIỆU CỦA ARX Phân Tích Rủi Ro Của Khử Ẩn Danh: Trong vấn đề này, rủi ro việc người cơng dùng liệu ẩn danh để nhận dạng lại cá nhân dựa vào tập liệu đầu vào tập liệu đầu phân tích dựa mẫu phân bố số lượng mẫu (population-based) Hơn nữa, ARX cung cấp nhìn tổng quan phân bố kích thước lớp liệu tập liệu hỗ trợ phân tích rủi ro liên quan đến nhóm thuộc tính để tìm thuộc tính định danh Hình 5-15: Phân tích rủi ro khử ẩn danh ARX Hình 5-15 biểu diễn phân bố kích thước lớp cho tập liệu đầu vào tập liệu đầu Ở cửa sổ góc bên phải cho thấy so sánh tính phân số số lượng mẫu từ ba mơ hình phân tích rủi ro ba tập mẫu khác Bên cạnh đó, cửa sổ hiển thị kết luật định đề xuất xác minh có thoả mãn theo nghiên cứu Dankar hay khơng Khi tính tốn độ rủi ro ARX phải giải nhiều phương trình số học, phương trình cấu hình phần cài đặt Người dùng tuỳ chỉnh số lần lặp, số lần lặp tối đa cho lần thử độ xác cần thiết Điều ảnh hưởng độ xác kết thời gian thực dự đốn Ngồi ra, ARX hiển thị độ rủi ro tính mẫu mơ hình rủi ro Khi tập thuộc tính chọn xong để phân tích, ARX xác định rủi ro trung bình việc khử ẩn danh có liên quan đến tập cha thuộc tính Kết tính tốn hữu ích để định thuộc tính chọn 5.2.3 Kết thí nghiệm với phương pháp k-anonymity đánh giá độ rủi ro Thí nghiệm thử nghiệm với giải thuật k-anonymity ẩn danh dựa độ rủi ro tiêu chí Dankar, đặt giới hạn nén liệu 100% Tập liệu gồm Adult, Cup, FARS, ATUS, IHIS có sẵn với ARX (bảng 5-1) Bảng 5-1: CÁC TẬP DỮ LIỆU Bảng 5-2 biểu diễn thời gian thực thi ẩn danh dựa rủi ro với ngưỡng 1% độ phân bố mẫu dựa Theo mơ hình Dankar Bảng 5-2: THỜI GIAN THỰC THI CỦA ẨN DANH DỰA TRÊN ĐỘ RỦI RO Bảng 5-3 biểu diễn thời gian thực thi áp dụng giải thuật 5-anonymity nhằm đảm bảo nguy khử ẩn danh lại cao 20% Bảng 5-3: THỜI GIAN THỰC THI CỦA 5-ANONYMITY Bảng 5-4 biểu diễn độ hiệu dụng liệu phương pháp ẩn danh dựa 5anonymity Bảng 5-4: ĐỘ TIỆN ÍCH CỦA ẨN DANH 5-ANONYMITY 5.2.4 Hướng phát triển ARX ARX dựa vào tìm kiếm tồn cục giải pháp tìm tồn khơng gian giải pháp Do ARX bị giới hạn khả làm việc tối đa, xử lý tập liệu có tối đa 15 thuộc tính định danh Điều cần cải tiến thêm cách thêm heuristic để tìm kiếm nhanh Bên cạnh đó, ARX hệ thống mở để hện thực thêm số giải thuật ẩn danh khác phục vụ mục đích ẩn danh liệu mở nói chung Cơng cụ ARX phù hợp với mục tiêu luận văn dễ sử dụng Tôi nghiên cứu áp dụng tương lai cho liệu quan 5.2.5 Khả áp dụng ứng dụng vào công việc Công ty Today Communication Co., Ltd nhà cung cấp dịch vụ Internet hàng đầu (ISP) cho gia đình doanh nghiệp thuộc quy mô, đáp ứng nhu cầu truyền thông liệu ngày tăng nhanh Campuchia Họ cung cấp giải pháp mạng Internet hạng cho quyền lợi lớn công ty khu dân cư đóng góp vào trách nhiệm xã hội công ty Nhiều ứng dụng smartphones không phụ thuộc vào nhà cung cấp dịch vụ viễn thơng thơng qua chúng, người ta thu thập nhiều thơng tin (như vị trí, tốc độ, hình ảnh/video, etc.) Những thơng tin đối thủ nhà cung cấp viễn thơng dùng để phát triển dịch vụ mới, tăng lợi cạnh tranh Những khách hàng dùng mạng nhà cung cấp hoàn tồn cung cấp liệu cho nhà cung cấp khác (qua smartphone apps) họ có hạ tầng liệu mở phù hợp tiện tích đem lại khách hàng đồng ý chia sẻ liệu Để đảm bảo tính riêng tư cho khách hàng Tôi thử nghiệm sử dụng công cụ ARX áp dụng cho ứng dụng web công ty trước công khai thông tin khách hàng trang web APP smartphone Mặc dù thấy ràng khả áp dụng hạn chế kết chưa hồn tồn Nhưng vấn đề bảo vệ tính riêng tư, bật đề cập mã hóa liệu chia sẻ, ẩn danh người dùng điều khiển truy xuất Sau cố gắng thí nghiệm số hệ thống quản lý liệu mở phổ biến với kỹ thuật ẩn danh hóa liệu áp dụng vào cơng việc cơng ty viễn thơng Trong tương lai tơi hý vọng ràng khả bảo vệ tính riêng tư đươc áp dụng nhiều ứng dụng khác Hình 5-16: Cơng cụ ARX Hình 5-16: Giao diện APP ABA Hệ thông quản lý khách hàng Chương 6: Kết luận hướng phát triển Luận văn tìm hiểu kiến thức ẩn danh liệu, liệu mở bao gồm khái niệm, kiến trúc thành phần cần phải có kiến trúc để xây dựng liệu mở, ví dụ xây dựng liệu mở nước giới Ngồi ra, luận văn tìm hiểu framework có việc thực ẩn danh hóa liệu để bảo vệ tính riêng tư liệu Các framework có số giải thuật thực việc ẩn danh, luận văn tìm hiểu phân tích điểm mạnh, điểm yếu giải thuật bảo vệ tính riêng tư Từ kiến thức thu đặc trưng liệu (mở) kiến thức liên quan đến bảo vệ tính riêng tư, luận văn đề xuất bước thực để bảo vệ tính riêng tư liệu, đánh giá kỹ thuật bảo vệ tính riêng tư, đồng thời đánh giá mức độ hiệu dụng liệu ẩn danh Luận văn cài đặt đánh giá thử nghiệm với framework ARX với số liệu thử nghiệm k-anonymity Tóm lại, nhu cầu thu thập chia sẻ liệu trở nên khơng thể thiếu cho mục đích nghiên cứu ứng dụng Để đảm bảo quyền riêng tư mơi trường phức tạp địi hỏi phải thực loạt biện pháp pháp lý kết hợp với kỹ thuật ẩn danh liệu Ẩn danh liệu nhằm mục đích bảo vệ tập liệu cách ngăn chặn hình thức cơng xâm phạm quyền riêng tư cá nhân, tổ chức Trong luận văn này, học viên thực nội dung sau đây: • Nghiên cứu tài liệu khoa học sản phẩm công nghệ cho nội dung liên quan đến kỹ thuật nặc danh hóa liệu liệu mở • Tìm hiểu vấn đề bảo vệ tính riêng tư dựa nặc danh hóa liệu • Đánh giá khả áp dụng kỹ thuật nặc danh hóa cho liệu khả áp dụng cho liệu mở • Tìm hiểu số cơng cụ hỗ trợ bảo vệ tính riêng tư cho liệu dựa nặc danh • Cài đặt đánh giá kỹ thuật nặc danh điển hình k-anonymity công cụ cụ thể với số tập liệu thử nghiệm • Bước đầu đề xuất hướng phát triển cho việc bảo vệ tính riêng tư cho liệu mở dựa nặc danh hóa toán chủ chốt cần giải Tài liệu tham khảo [1] Open data wiki, https://en.wikipedia.org/wiki/Open_data, 07/2019 [2] Open data in telecom, https://manypossibilities.net/2017/06/the-case-for-opendata-in- telecoms/, 07/2019 [3] Rakesh Agrawal, Ramakrishnan Srikant: Privacy-Preserving Data Mining, SIGMOD, Vol 29, pp 439-450, 2000 [4] Benjamin C M Fung, Ke Wang, Rui Chen, Philip S Yu: Privacy-Preserving Data Publishing: A Survey of Recent Developments, ACM Computing Surveys, 42(4), 2010 [5] Anh Tuan Truong, Tran Khanh Dang, Josef Kueng On Guaranteeing kAnonymity in Location Databases, International Conference on Database and Expert Systems Applications, pp 280-287, Springer, 2011 [6] United Nations E-Government Survey 2016, https://publicadministration.un.org/ egovkb/en-us/reports/un-e-government-survey-2016, 06/2019 [7] Vietnam Open Educational Resources – VOER, http://voer.edu.vn/, 05/2019 [7] [8] Bộ Thông Tin Truyền Thông, Viện Công Nghiệp Phần Mềm Nội Dung Số Việt Nam, Báo Cáo Tổng Quan Về Dữ Liệu Mở, Hà Nội, 2017 [9] Ứng dụng minh bạch tài phủ Brazil, http://odimpact.org/casebrazils- open-budget-transparency-portal.html, 09/2019 [10] Ứng dụng phủ Canada cung cấp liệu mở tổ chức, công ty tham gia công tác từ thiện, https://www.canada.ca/en/revenue-agency/services/formspublications/forms/t3010.html, 09/2019 [11] Chính phủ Đan Mạch xây dựng liệu mở thơng tin vị trí, http://odimpact.org/case- denmarks-open-address-data-set.html, 09/2019 [12] CKAN-The open source data portal: https://ckan.org/, 11/2019 [13] DSpace: https://github.com/DSpace/DSpace, 11/2019 [14] Socrata: www.socrata.com, 11/2019 [15] Prasser, F., Kohlmayer, F., Lautenschlaeger, R., & Kuhn, K A (2014) Arx-a comprehensive tool for anonymizing biomedical data In AMIA Annual Symposium Proceedings (Vol 2014, p 984) [16] Poulis, G., Gkoulalas-Divanis, A., Loukides, G., Skiadopoulos, S., & Tryfonopoulos, C (2014) SECRETA: A system for evaluating and comparing relational and transaction anonymization algorithms [17] Gaboardi, M., Honaker, J., King, G., Murtagh, J., Nissim, K., Ullman, J., & Vadhan, S (2016) PSI: A private data sharing interface arXiv preprint arXiv:1609.04340 [18] Erlingsson, Ú., Pihur, V., & Korolova, A (2014, November) Rappor: Randomized aggregatable privacy-preserving ordinal response In Proceedings of the 2014 ACM SIGSAC conference on computer and communications security (pp 1054-1067) [19] Terrovitis, M.: OpenAIRE Anonymization Service 10442/15729, 00-27, 2016 [20] Sweeney, L.: k-anonymity: A model for protecting privacy, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 557-570, 2002 [21] Sweeney, L Datafly: A system for providing anonymity in medical data In Database Security XI, pp 356-381, Springer, Boston, MA., Samarati, 1998.[21] [22] Sweeney, L Datafly: A system for providing anonymity in medical data In Database Security XI, pp 356-381, Springer, Boston, MA., Samarati, 1998 [22] [23] Truta, T M., & Vinay, B (2006, April) Privacy protection: p-sensitive k- anonymity property ICDEW'06 [23] [24] Li, N., Li, T., & Venkatasubramanian, S.: t-closeness: Privacy beyond k- anonymity and l-diversity, ICDE 2007 [24] [25] Aggarwal, C C., & Philip, S Y.: A general survey of privacy-preserving data mining models and algorithms In Privacy-preserving data mining (pp 11-52) Springer, Boston, MA., 2008 [26] Nergiz, M.E.,& Clifton, C.(2009) δ-presence without complete world knowledge IEEE Transactions on Knowledge and Data Engineering, 22(6), 868-883 [27] Dwork, C., & Roth, A.(2014) The algorithmic foundations of differential privacy Foundations and Trends® in Theoretical Computer Science, 9(3–4), 211407 [28] Iyengar, V S (2002, July) Transforming data to satisfy privacy constraints In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (pp 279-288) ACM [29] ARX – Powerful Data Anonymization: http://arx.deidentifier.org/, 08/2019 ... vệ tính riêng tư cho liệu mở sử dụng kỹ thuật ẩn danh liệu 50 5.1 Nghiên cứu thiết kế kỹ thuật ẩn danh hóa liệu mở 50 5.2 Hiện thực kỹ thuật ẩn danh hóa liệu đánh giá ARX 51 5.2.1 Giới... tính riêng tư dựa nặc danh hóa liệu • Đánh giá khả áp dụng kỹ thuật nặc danh hóa cho liệu khả áp dụng cho liệu mở • Tìm hiểu số cơng cụ hỗ trợ bảo vệ tính riêng tư cho liệu dựa nặc danh • Cài đặt... bảo yêu cầu kỹ thuật cho việc phân tích liệu mở chúng cơng bố Hình 1-4: Tái định danh liệu cách liên kết tập liệu [9] 1.5 Mục tiêu luận văn Mục tiêu luận văn tìm hiểu ẩn danh /nặc danh liệu, từ