Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
787,9 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ TRUNG HIẾU PHÁT TRIỂN HỆ THỐNG BẢO VỆ TÍNH RIÊNG TƯ CHO DỮ LIỆU MỞ Chuyên ngành: Khoa học Máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH , tháng 08 năm 2020 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS Đặng Trần Khánh (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : TS Nguyễn An Khương (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : TS Đặng Trần Trí (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 29 tháng 08 năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS TS Trần Minh Quang TS Lê Hồng Trang TS Nguyễn An Khương TS Đặng Trần Trí TS Nguyễn Văn Vũ Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Trung Hiếu MSHV:.167022 Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: Phú Yên Chuyên ngành: Khoa học Máy tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: Phát triển hệ thống bảo vệ tính riêng tư cho liệu mở II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu phát triển hệ thống bảo vệ tính riêng tư : - Kết hợp phương pháp ẩn danh hóa liệu theo cách khác - Tích hợp với hệ thống quản lý liệu mở Hệ thống nghiên cứu thực hóa thử nghiệm với liệu thực tế III NGÀY GIAO NHIỆM VỤ : (Ghi theo QĐ giao đề tài) 10/02/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo QĐ giao đề tài) 20/12/2020 V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS TS Đặng Trần Khánh Tp HCM, ngày 12 tháng 08 năm 2020 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA….……… (Họ tên chữ ký) LỜI CẢM ƠN Trong suốt q trình hồn thành đề tài này, tác giả nhận giúp đỡ, động viên từ gia đình, đồng nghiệp tạo điều kiện hỗ trợ từ phòng Sau Đại Học khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách Khoa Thành phố Hồ Chí Minh Tác giả bày tỏ lòng biết ơn tới thầy cô giáo trực tiếp giảng dạy chuyên đề, môn học khóa học Đặc biệt, tác giả xin gửi lời cảm ơn sâu sắc đến PGS TS Đặng Trần Khánh, giảng viên trực tiếp hướng dẫn khoa học cho đề tài Thầy tận tình bảo, giúp đỡ suốt trình học cao học trường Đại học Bách Khoa TPHCM Thầy người có đóng góp lớn việc góp ý hồn thiện suy nghĩ tác giả trình nghiên cứu Ngoài ra, tác giả xin cảm ơn đến thành viên nhóm nghiên cứu AC Lab D-STAR đồng hành tác giả trình hoàn thành đề cương luận văn Với thời gian nghiên cứu hạn chế, luận văn không tránh khỏi điều thiếu sót, tác giả mong nhận ý kiến đóng góp chân thành từ thầy giáo, đồng nghiệp bạn bè TP HCM, ngày 11 tháng 08 năm 2020 Tác giả Lê Trung Hiếu Trang TÓM TẮT LUẬN VĂN Dữ liệu mở nguồn tài nguyên khổng lồ chưa khai phá hiệu Để thực việc xuất liệu mở, việc bảo vệ tính riêng tư cá nhân tập liệu yêu cầu bắt buộc Nhiều giải pháp đưa cho vấn đề này, có giải pháp ẩn danh hóa liệu Nghiên cứu luận văn giới thiệu hệ thống sử dụng phương pháp ẩn danh hóa khác cách linh động môi trường liệu mở Giải pháp đề xuất kiểm nghiệm với số tập liệu khác số chiều liệu, số lượng thuộc tính định danh gần số lượng ghi Các kết cho thấy giải pháp đề xuất giải vấn đề ẩn danh hóa liệu cho kết có độ hiệu dụng cao hỗ trợ việc xử lý bất đồng với yêu cầu liệu lớn Dữ liệu ẩn danh xuất vào danh mục liệu mở quản lý phần mềm mã nguồn mở vốn sử dụng nhiều tổ chức cung cấp liệu lớn giới Luận văn đề cập đến hướng mở rộng hệ thống tương lai để cải thiện trình ẩn danh hóa liệu THESIS ABSTRACT Open data is a vast resource that is currently untapped Privacy-preserving is an obligatory requirement for data publishers to publish datasets related to individuals Different solutions are proposed and applied to solve this problem Data anonymization is one of them This research introduces a framework to anonymize data flexibly with an open data environment The presented approach is also evaluated with an experimental implementation and tested different datasets Those datasets vary on the number of records, the number of data dimensions and the number of quasi-identifier attributes Evaluation results show that the method in this research successfully resolves the problem of anonymizing data The output datasets also have high utility value The proposed framework supports working asynchronously with components implemented in different technologies The anonymized data is published to an open data management platform that is widely used by large organizations This thesis also mentions some possible evolution directions of the framework to improve the anonymization process in the future Trang LỜI CAM ĐOAN Tôi cam đoan luận văn cơng trình nghiên cứu cá nhân tơi, thực hướng dẫn khoa học PGS TS Đặng Trần Khánh Các số liệu, kết luận nghiên cứu trình bày luận văn hồn tồn trung thực Những tài liệu tham khảo trích dẫn đầy đủ Tơi xin hồn tồn chịu trách nhiệm lời cam đoan Học viên Lê Trung Hiếu Trang MỤC LỤC Danh mục hình ảnh Danh mục bảng biểu 10 Chương I: Giới thiệu đề tài 11 Cơ sở hình thành đề tài 11 1.1 Dữ liệu mở 11 1.2 Ẩn danh hóa liệu để bảo vệ tính riêng tư 12 Các vấn đề cần giải 13 2.1 Quản lý, lưu trữ, truy xuất nguồn liệu mở 13 2.2 Kết hợp phương pháp ẩn danh hóa liệu cách phù hợp để đáp ứng cho nhiều nhu cầu sử dụng liệu khác 14 Ý nghĩa đề tài 15 3.1 Ý nghĩa thực tiễn 15 3.2 Ý nghĩa khoa học 15 Mục tiêu đối tượng nghiên cứu 16 Bố cục luận văn 16 Chương II: Các nghiên cứu liên quan 17 Các hệ thống quản lý liệu mở 17 1.1 Phần mềm CKAN 17 1.2 Phần mềm DSpace 19 Ẩn danh hóa liệu tổng qt với mơ hình k-anonimity mơ hình liên quan 20 2.1 Mơ hình k-anonimity 20 2.2 Mơ hình ℓ-diversity 22 2.3 Mơ hình t-closeness 23 Các công cụ ẩn danh hóa liệu 23 3.1 Phần mềm ARX 23 3.2 Công nghệ RAPPOR 24 Trang Chương III: Đề xuất giải pháp ẩn danh hóa liệu cho hệ thống liệu mở 25 Đề xuất quy trình ẩn danh hóa liệu hệ thống liệu mở 25 Đề xuất sử dụng kiến trúc dịch vụ không đồng 26 Chương IV: Hiện thực, thử nghiệm đánh giá giải pháp đề xuất 27 Triển khai hệ thống thử nghiệm 27 1.1 Các thành phần hệ thống 27 1.2 Luồng thực thi để ẩn danh hóa tập liệu trước đưa vào danh mục liệu mở 30 Thiết kế máy ẩn danh hóa linh động 32 Thử nghiệm đánh giá giải pháp đề xuất 34 3.1 Dữ liệu thử nghiệm phương pháp đánh giá 34 3.2 Kết đo thời gian thực thi q trình ẩn danh hóa 38 3.3 Kết đo độ hiệu dụng tập liệu sau ẩn danh hóa 40 Chương V: Kết luận 41 Danh mục tài liệu tham khảo 43 Phụ lục 47 Trang DANH MỤC HÌNH ẢNH Hình 1: Kiến trúc hệ thống CKAN 18 Hình 2: Cách thức vận hành hệ thống DSpace 19 Hình 3: Kiến trúc chung ARX 24 Hình 4: Một trình ẩn danh hóa hồn chỉnh hệ thống liệu mở 26 Hình 5: Sơ đồ triển khai hệ thống thử nghiệm 28 Hình 6: Luồng thực thi ẩn danh hóa tập liệu xuất lên danh mục liệu mở 32 Hình 7: Tổng quan máy ẩn danh hóa 33 Hình 8: Thời gian ẩn danh hóa liệu tập liệu với số lượng thuộc tính định danh gần khác 39 Hình 9: Độ hiệu dụng tập liệu kết so sánh với kết từ ARX 40 Trang DANH MỤC BẢNG BIỂU Bảng 1: Bảng liệu cá nhân 21 Bảng 2: Bảng liệu thỏa mãn 2-anonimity 22 Bảng 3: Đặc điểm tập liệu sử dụng 35 Bảng 4: Đặc điểm tập liệu SS13ACS 36 Bảng 5: Đặc điểm tập liệu IHIS 36 Bảng 6: Đặc điểm tập liệu ATUS 36 Bảng 7: Đặc điểm tập liệu FARS 37 Bảng 8: Đặc điểm tập liệu CUP 37 Bảng 9: Đặc điểm tập liệu ADULT 37 Trang 10 thực nhiều chiến lược để sử dụng kêt hợp nhiều mơ hình khác việc lựa chọn chiến lược thời điểm thực thi Thử nghiệm đánh giá giải pháp đề xuất 3.1 Dữ liệu thử nghiệm phương pháp đánh giá Hệ thống thử nghiệm triển khai máy tính cá nhân chạy Windows 64 bit dùng CPU AMD Ryzen 3600 3.6GHz 32GB RAM Nghiên cứu sử dụng tập liệu khác 20 kích thước số chiều liệu để thử nghiệm cơng cụ ẩn danh hóa Thời gian ẩn danh hóa lưu lại để đem so sánh chạy toán 5-anonymity với số lượng thuộc tính định danh gần (QI) khác Ngồi ra, độ hiệu dụng kết đánh giá dựa vào phương pháp Granularity [32] Kết đo hiệu dụng giá trị nằm 1, giá trị thể liệu hồn tồn khơng bị biến đổi giá trị thể thông tin liệu bị loại bỏ hoàn toàn Giá trị kết gần thể kết giữ lại nhiều giá trị so với liệu ban đầu Các tập liệu thử nghiệm bao gồm: • SS13ACS : kết khảo sát dân số, xã hội kinh tế Cục Điều tra dân số Hoa Kỳ thực với cá nhân chọn ngẫu nhiên • IHIS: kết khảo sát liên tục sức khỏe cư dân Hoa Kỳ • ATUS: kết khảo sát việc sử dụng thời gian công dân Hoa Kỳ tài trợ Cục Thống kê lao động thực Cục Điều tra dân số • FARS: kết thống kê tai nạn từ Hệ thống Báo cáo phân tích tử vong Hoa Kỳ • CUP: liệu dùng Cuộc thi Khai phá Dữ liệu Khám phá Dữ liệu hàng năm (Knowledge Discovery and Data Mining Tools Competition KDD Cup) lần thứ (diễn vào năm 1998) • ADULT: phần liệu khảo sát dân số Hoa Kỳ năm 1994 Đặc điểm tập liệu trình bày Bảng Ngoài ra, liệu phân cấp sử dụng nghiên cứu lấy từ kết Praser cộng [24] trình bày từ Bảng đến Bảng 20 https://github.com/letrunghieu/transformation-benchmark/tree/master/data Trang 34 Số chiều liệu Tập liệu Số lượng Số ghi Phân loại Số lượng Phân loại 30 Cao 68.725 Thấp IHIS Trung bình 1.193.504 Cao ATUS Trung bình 539.253 Trung bình FARS Trung bình 100.937 Trung bình CUP Trung bình 63.441 Thấp ADULT Trung bình 30.162 Thấp SS13ACS Bảng 3: Đặc điểm tập liệu sử dụng Tên thuộc tính Loại liệu Số giá trị phân biệt Độ cao phân cấp Insurance purchased Rời rạc 2 Workclass Rời rạc 10 Divorced Rời rạc Income Số 464 Sex Rời rạc 2 Mobility Rời rạc Military service Rời rạc Self‐care Rời rạc Grade level Rời rạc 17 Married Rời rạc Education Rời rạc 25 Widowed Rời rạc Cognitive Rời rạc Insurance Medicaid Rời rạc 2 Ambulatory Rời rạc Living with grandchildren Rời rạc Age Số 93 Insurance employer Rời rạc 2 Citizenship Rời rạc Indian Health Service Rời rạc 2 Independent living Rời rạc Weight Số 561 Insurance Medicare Rời rạc 2 Trang 35 Hearing Rời rạc 2 Marital status Rời rạc Vision Rời rạc 2 Insurance Veteran's Association Rời rạc 2 Relationship Rời rạc 18 Insurance Tricare Rời rạc 2 Childbirth Rời rạc Bảng 4: Đặc điểm tập liệu SS13ACS Tên thuộc tính Loại liệu Số giá trị phân biệt Độ cao phân cấp YEAR Số 13 QUARTER Số REGION Rời rạc PERNUM Số 25 AGE Số 86 MARSTAT Rời rạc 10 SEX Rời rạc 2 RACEA Rời rạc 16 EDUC Rời rạc 26 Bảng 5: Đặc điểm tập liệu IHIS Tên thuộc tính Loại liệu Region Rời rạc Age Số Sex Số giá trị phân biệt Độ cao phân cấp 83 Rời rạc Race Rời rạc 23 Marital status Rời rạc Citizenship status Rời rạc Birthplace Rời rạc 155 Highest level of school completed Rời rạc 18 Labor force status Rời rạc Bảng 6: Đặc điểm tập liệu ATUS Trang 36 Tên thuộc tính Loại liệu Số giá trị phân biệt Độ cao phân cấp iage Số 99 irace Rời rạc 20 ideathmon Rời rạc 14 ideathday Rời rạc 33 isex Rời rạc ihispanic Rời rạc 10 istatenum Rời rạc 51 iinjury Rời rạc Bảng 7: Đặc điểm tập liệu FARS Tên thuộc tính Loại liệu Số giá trị phân biệt Độ cao phân cấp ZIP Số 13.294 AGE Số 94 GENDER Rời rạc INCOME Số STATE Rời rạc 53 RAMNTALL Số 814 NGIFTALL Số 81 MINRAMNT Số 58 Bảng 8: Đặc điểm tập liệu CUP Tên thuộc tính Loại liệu sex Rời rạc age Số race Số giá trị phân biệt Độ cao phân cấp 2 72 Rời rạc marital‐status Rời rạc education Rời rạc 16 native‐country Rời rạc 41 workclass Rời rạc occupation Rời rạc 14 salary‐class Rời rạc 2 Bảng 9: Đặc điểm tập liệu ADULT Trang 37 Để đánh giá giải pháp đề xuất, đề tài sử dụng phương pháp đánh giá thời gian thực thi trình ẩn danh hóa độ hiệu dụng tập liệu kết Cụ thể sau: • Đánh giá tác động số lượng thuộc tính định danh gần đến thời gian thực thi hệ thống thử nghiệm cho tập liệu • Đánh giá tác động số lượng ghi tập liệu khác chạy hệ thống cho yêu cầu ẩn danh hóa với số lượng thuộc tính định danh gần tương đương tập liệu • Đánh giá độ hiệu dụng tập liệu kết phương pháp Granularity So sánh kết với tập liệu kết chạy phần mềm ARX có số lượng thuộc tính định danh gần giá trị k mơ hình kanonymity 3.2 Kết đo thời gian thực thi trình ẩn danh hóa Kết đo thời gian ẩn danh hóa liệu tập liệu với số lượng thuộc tính định danh gần thể biểu đồ Hình Mỗi biểu đồ nhỏ thể kết cho tập liệu Trục tung thể thời gian thực thi hệ thống ẩn danh hóa đề xuất, tính giây (s) Trục hồnh thể số lượng thuộc tính định danh gần thí nghiệm Ngoại trừ tập liệu SS13ACS có đến 30 thuộc tính định danh gần đúng, tập liệu khác có tối đa thuộc tính định danh gần mà thơi Có thể thấy thời gian thực ẩn danh hóa tăng theo số lượng thuộc tính định danh gần Trong tập liệu, số lượng thuộc tính cần ẩn danh tăng, thời gian thực thi tăng theo Nhiều thử nghiệm cho thời gian thực thi giây, tối đa gần sáu mươi giây với tập liệu IHIS (có số lượng ghi lớn nhất) Điều củng cố kiến trúc đề nghiên cứu sử dụng tổng tuyến dịch vụ phép công cụ ẩn danh thực thi bất đồng nhận yêu cầu từ dịch vụ giao tiếp người dùng Ngoài ra, so sánh thời gian thực thi máy ẩn danh hóa tập liệu với ta thấy ảnh hưởng số lượng ghi tập liệu đến thời gian cần thiết để ẩn danh tập liệu Cụ thể, tập liệu có nhiều ghi IHIS (hơn triệu ghi) cần năm mươi giây để hồn thành q trình ẩn danh với chín thuộc tính tập liệu SS13ACS cần bảy giây cho trình với ba mươi thuộc tính Cũng với chín thuộc tính định danh gần đúng, hệ thống Trang 38 cần giây để xử lý tập liệu ADULT, tập liệu có ghi Sự khác biệt rõ ràng thí nghiệm với số lượng thuộc tính định danh gần nhỏ 8.00 60.00 50.00 6.00 40.00 4.00 30.00 20.00 2.00 10.00 0.00 0.00 11 16 21 26 SS13ACS IHIS 25.00 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 20.00 15.00 10.00 5.00 0.00 ATUS FARS 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 1.20 1.00 0.80 0.60 0.40 0.20 0.00 CUP ADULT Hình 8: Thời gian ẩn danh hóa liệu tập liệu với số lượng thuộc tính định danh gần khác Trang 39 3.3 Kết đo độ hiệu dụng tập liệu sau ẩn danh hóa 1.00 1.00 0.95 0.95 0.90 0.90 0.85 0.85 0.80 0.80 0.75 0.75 0.70 0.70 11 16 21 SS13ACS 26 ARX IHIS 1.00 1.00 0.95 0.95 0.90 0.90 0.85 0.85 0.80 0.80 0.75 0.75 0.70 ARX 0.70 ATUS ARX FARS 1.00 1.00 0.95 0.95 0.90 0.90 0.85 0.85 0.80 0.80 0.75 0.75 0.70 ARX 0.70 CUP ARX ADULT ARX Hình 9: Độ hiệu dụng tập liệu kết so sánh với kết từ ARX Các biểu đồ Hình biễu diễn kết kiểm tra độ hiệu dụng tập liệu sinh từ hệ thống ẩn danh hóa đề xuất so với tập liệu kết sinh thông qua phần mềm ARX Với liệu gốc, phân cấp, giá trị k cho mơ hình k-anonymity, hai phương pháp ẩn danh hóa thực thi với số lượng thuộc tính định danh gần đúng, sau kết đo phương pháp Granularity Theo đó, giá trị độ hiệu dụng đo phương pháp giá trị nằm khoảng từ không đến Các giá trị gần cho thấy tập liệu kết bị biến đổi so với tập liệu gốc, có giá trị sử dụng cao Ngược lại, Trang 40 tập liệu kết bị thay đổi nhiều so với tập liệu gốc, giá trị hiệu dụng gần không Kết thử nghiệm cho thấy độ hiệu dụng tất thí nghiệm lớn 0.8, giá trị tốt, đặc biệt ẩn danh hóa nhiều thuộc tính định danh gần Sự khác giá trị giải pháp đề xuất ARX nhỏ, cao 0.08 xử lý tập liệu ADULT với chín thuộc tính định danh gần Phần lớn thí nghiệm cịn lại có khác biệt nhỏ 0.03 Điều cho thấy phương pháp đề xuất luận văn hoàn toàn cho kết tốt sử dụng thực tế Ngoài ra, quan sát khác thấy khác biệt có xu hướng tăng số lượng thuộc tính cần ẩn danh tăng CHƯƠNG V: KẾT LUẬN Nghiên cứu luận văn dựa nhu cầu thực tế việc ẩn danh hóa liệu cho hệ thống liệu mở Trong điều kiện khối lượng liệu mở ngày lớn nhu cầu sử dụng ngày cao, việc đóng góp vào kho liệu phải tuân thủ quy định bảo vệ tính riêng tư, đặt nên rào cản cho người cung cấp liệu Trong luận văn đề cập đến hệ thống cho phép sử dụng kết hợp nhiều phương pháp ẩn danh hóa khác tích hợp mơi trường liệu mở, sử dụng kiến trúc dịch vụ không đồng giúp việc thực thành phần hệ thống dễ dàng Kiến trúc thực thử nghiệm với tập liệu khác kích thước số chiều liệu, số lượng thuộc tính định danh gần Kết cho thấy hệ thống giới thiệu đề tài đáp ứng nhu cầu ẩn danh hóa liệu với độ hiệu dụng cao, đồng thời tích hợp thành cơng với hệ thống quản lý liệu mở Ngoài thành phần phát triển nội bộ, thành phần khác phiên thử nghiệm phần mềm mã nguồn mở sử dụng rộng rãi giới Đề tài thực đánh giá kết dựa quan sát thay đổi thời gian thực thi độ hiệu dụng kết thí nghiệm khác Độ hiệu dụng kết đạt từ phương pháp đề xuất so sánh với kết từ phần mềm ARX cho kết tích cực Hệ thống cải tiến tương lai với nhiều thành phần chức nhiều chiến lược ẩn danh hóa nhờ vào linh động với tính trừu tượng hóa cao giải pháp đề xuất Các nghiên cứu học máy tích hợp để hỗ trợ chuyên gia liệu việc chọn chiến lược thực tìm tập Trang 41 liệu tốt từ không gian giải pháp cách hiệu Ngồi ra, giải pháp mở rộng để áp dụng cho loại liệu khác liệu dạng bảng thử nghiệm Đề tài hình thành với mục đích đề xuất hệ thống bảo vệ tính riêng tư cho liệu mở, trọng điểm mơ hình ẩn danh lớp k-anonimity Để đáp ứng yêu cầu sử dụng khác nhau, giải thuật ẩn danh cần kết hợp để vừa đảm bảo chất lượng liệu đầu ra, vừa tránh tính tốn lãng phí khơng cần thiết cung cấp hỗ trợ định cho chuyên gia ẩn danh liệu việc điều khiển trình ẩn danh hoá Trong xu hướng nay, liệu mở ngày nhiều tài nguyên khổng lồ chờ đợi khai khác hứa hẹn mang lại nhiều lợi ích cho xã hội Nếu đề tài thực tốt, liệu cá nhân cung cấp, lưu trữ chia sẻ cách an toàn hệ thống hoàn chỉnh từ lúc liệu cung cấp đến liệu truy xuất mà khơng bị rị rỉ thơng tin định danh không mong muốn Việc đề xuất hệ thống bảo vệ tính riêng tư tích hợp vào hệ thống liệu mở có sẵn giúp nhiều nhà cung cấp liệu vượt qua rào cản luật pháp kỹ thuật để đóng góp vào kho liệu chung Trong trình thực luận văn, tác giả tham gia vào đề tài nghiên cứu khoa học cấp Sở: “Bảo vệ tính riêng tự dựa ẩn danh hố liệu” theo hợp đồng số 08/2018/HĐ-QKHCN ngày 16/11/2018 Đồng thời, có hai báo khoa học liên quan trực tiếp đến nội dung nghiên cứu: • Ha, T., Dang, T.K., Le, H et al Security and Privacy Issues in Deep Learning: A Brief Review SN COMPUT SCI 1, 253 (2020) https://doi.org/10.1007/s42979-020-00254-4 (Xem Phụ lục) • An Elastic Anonymization Framework for Open Data FDSE 2020, chấp nhận (Xem phụ lục) Trang 42 DANH MỤC TÀI LIỆU THAM KHẢO [1] “The Open Definition,” Open Knowledge Foundation, [Trực tuyến] Available: https://opendefinition.org/ [Đã truy cập 11 12 2019] [2] K Zhang, J Ni, K Yang, X Liang, J Ren X S Shen, “Security and Privacy in Smart City Applications: Challenges and Solutions,” IEEE Communications Magazine, tập 55, số 1, pp 122-129, 2017 [3] S Murthy, A Abu Bakar, F Abdul Rahim R Ramli, “A Comparative Study of Data Anonymization Techniques,” Proceedings - 5th IEEE International Conference on Big Data Security on Cloud, BigDataSecurity, pp 306-309, 2019 [4] L Sweeney, “k-anonymity: a model for protecting privacy,” International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, pp 557-570, 2002 [5] K LeFevre, D J DeWitt R Ramakrishnan, “Incognito: Efficient fulldomain K-anonymity,” Proceedings of the ACM SIGMOD International Conference on Management of Data, số 49-60, 2005 [6] K LeFevre, D J DeWitt R Ramakrishnan, “Mondrian multidimensional K-anonymity,” Proceedings - International Conference on Data Engineering, p 25, 2006 [7] L Sweeney, “Achieving k-anonymity privacy protection using generalization and suppression,” International Journal of Uncertainty, Fuzziness and Knowlege-Based Systems, tập 10, số 5, pp 571-588, 2002 [8] N Guo, M Yang, Q Gong, Z Chen J Luo, “Data anonymization based on natural equivalent class,” Proceedings of the 2019 IEEE 23rd International Conference on Computer Supported Cooperative Work in Design, CSCWD 2019, pp 22-27, 2019 [9] C Skinner, C Marsh, S Openshaw C Wymer, “Disclosure control for census microdata,” Journal of Official Statistics, tập 10, số 1, pp 31-51, 1994 Trang 43 [10] R H Mc Guckin S V Nguyen, “Public use microdata: Disclosure and usefulness,” Journal of Economic and Social Measurement, tập 16, số 1, pp 19-39, 1990 [11] P Samarati, “Protecting respondents' identities in microdata release,” IEEE Transactions on Knowledge and Data Engineering, tập 13, số 6, pp 1010-1027, 2001 [12] A Takemura, “Local recoding by maximum weight matching for disclosure control of microdata sets,” ITME Discussion Paper,, số 40, pp 114, 1999 [13] J Domingo-Ferrer J Mateo-Sanz, “Practical data-oriented microaggregation for statistical disclosure control,” IEEE Transactions on Knowledge and Data Engineering, tập 14, số 1, pp 189-201, 2002 [14] N R Adam J C Worthmann, “Security-control methods for statistical databases: a comparative study,” ACM Computing Surveys, tập 21, số 4, pp 515-556, 1989 [15] R Agrawal R Srikant, “Privacy-preserving data mining,” ACM SIGMOD, pp 439-450, 2000 [16] C C Aggarwal P S Yu, “A condensation approach to privacy preserving data mining,” Lecture Notes in Computer Science, pp 183-199, 2004 [17] S Kim W Winkler, “Masking Microdata Files,” Proc Section on Survey Research Methods, pp 114-119, 1995 [18] A Singh, F Yu G Dunteman, “MASSC: A new data mask for limiting statistical information loss and disclosure,” Work Session on Statistical Data, số 23, pp 1-13, 2004 [19] A Machanavajjhala, J Gehrke, D Kifer M Venkitasubramaniam, “L-diversity: privacy beyond k-anonymity,” 22nd International Conference on Data Engineering (ICDE'06), p 24, 2006 Trang 44 [20] T M Truta B Vinay, “Privacy protection: P-Sensitive k-Anonymity property,” ICDEW 2006 - Proceedings of the 22nd International Conference on Data Engineering Workshops, 2006 [21] L Ninghui, L Tiancheng S Venkatasubramanian, “t-Closeness: Privacy beyond k-anonymity and ℓ-diversity,” Proceedings - International Conference on Data Engineering, số 3, pp 106-115, 2007 [22] Y Rubner, C Tomasi L J Guibas, “Earth mover's distance as a metric for image retrieval,” International Journal of Computer Vision, tập 40, số 2, pp 99-121, 2000 [23] F Prasser F Kohlmayer, “Putting Statistical Disclosure Control into Practice: The ARX Data Anonymization Tool,” Medical Data Privacy Handbook, pp 111-148, 2015 [24] F Prasser, J Eicher, H Spengler, R Bild K A Kuhn, “Flexible data anonymization using ARX—Current status and challenges ahead,” Software - Practice and Experience, tập 50, số 7, pp 1277-1304, 2020 [25] Ú Erlingsson, V Pihur A Korolova, “RAPPOR : Randomized Aggregatable Privacy-Preserving Ordinal Response,” Proceedings of the ACM Conference on Computer and Communications Security, pp 10541067, 2014 [26] S L Warner, “Randomized response: A survey technique for eliminating evasive answer bias,” Journal of the American Statistical Association, tập 60, số 309, pp 63-69, 1965 [27] E Curry, “Message-Oriented Middleware,” Middleware for Communications, Chichester, UK, John Wiley & Sons, Ltd, 2005, pp 1-28 [28] I Wagner D Eckhoff, “Technical Privacy Metrics: A Systematic Survey,” ACM Computing Surveys, tập 51, số 3, pp 1-38, 2018 [29] K S Babu, N Reddy, N Kumar, M Elliot S K Jena, “Achieving KAnonymity Using Improved Greedy Heuristics for Very Large Relational Databases,” Trans Data Privacy, tập 6, số 1, pp 1-17, 2013 [30] J Soria-Comas, J Domingo-Ferrer, D Sánchez S Martínez, “TCloseness through Microaggregation: Strict Privacy with Enhanced Utility Trang 45 Preservation,” IEEE Transactions on Knowledge and Data Engineering, tập 27, số 11, pp 3098-3110, 2015 [31] M Nergiz C Clifton, “Thoughts on k-Anonymization,” 22nd International Conference on Data Engineering Workshops (ICDEW'06), 2006 [32] V S Iyengar, “Transforming data to satisfy privacy constraints,” Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 279-288, 2002 [33] R J Bayardo R Agrawal, “Data privacy through optimal kanonymization,” Proceedings - International Conference on Data Engineering, pp 217-228, 2005 [34] J Domingo-Ferrer V Torra, “Ordinal, continuous and heterogeneous k-anonymity through microaggregation,” Data Mining and Knowledge Discovery, tập 11, số 2, pp 195-212, 2005 [35] B C Fung, K Wang P S Yu, “Top-down specialization for information and privacy preservation,” Proceedings - International Conference on Data Engineering, pp 205-216, 2005 [36] M E Nergiz C Clifton, “δ-Presence without Complete World Knowledge,” IEEE Transactions on Knowledge and Data Engineering, tập 22, số 6, pp 868-883, 2010 [37] M E Nergiz, M Atzori C Clifton, “Hiding the presence of individuals from shared databases,” Proceedings of the ACM SIGMOD International Conference on Management of Data, pp 665-676, 2007 Trang 46 PHỤ LỤC Nội dung báo khoa học tác giả thực trình làm luận văn Trang 47 LÝ LỊCH TRÍCH NGANG Họ tên: Lê Trung Hiếu Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: Phú Yên Địa liên lạc: A8.21 Chung cư Flora Fuji, Phước Long B, Quận 9, TPHCM QUÁ TRÌNH ĐÀO TẠO 09/2009 – 05/2014: Sinh viên trường Đại học Bách Khoa Thành phố Hồ Chí Minh 09/2016 – 08/2020: Học viên cao học trường Đại học Bách Khoa Thành phố Hồ Chí Minh Q TRÌNH CƠNG TÁC 03/2013 – 07/2015: Kỹ sư phần mềm - công ty TNHH Mango Ads – TP Hồ Chí Minh 08/2015 – 03/2019: Kỹ sư trưởng - công ty TNHH Codeforce Vina – TP Hồ Chí Minh 04/2019 – 08/2020: Kỹ sư trưởng - cơng ty TNHH NFQ Asia– TP Hồ Chí Minh ... Khoa học Máy tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: Phát triển hệ thống bảo vệ tính riêng tư cho liệu mở II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu phát triển hệ thống bảo vệ tính riêng tư : - Kết... nay, liệu mở xu hướng giới nước Tuy nhiên, việc công khai liệu cần phải thỏa mãn yêu cầu bảo vệ tính riêng tư cá nhân xuất liệu Việc đề xuất hệ thống bảo vệ tính riêng tư cho liệu mở giúp ích cho. .. bảo tính riêng tư yêu cầu cấp thiết hàng đầu tiến hành việc “mở” liệu [2] 1.2 Ẩn danh hóa liệu để bảo vệ tính riêng tư Có nhiều hướng tiếp cận để bảo vệ tính riêng tư liệu: • Mã hóa liệu (data encryption):