1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bảo vệ tính riêng tư trong xử lý câu truy vấn trên dòng dữ liệu

122 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 122
Dung lượng 9,88 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN NGỌC THIÊN AN BẢO VỆ TÍNH RIÊNG TƯ TRONG XỬ LÝ CÂU TRUY VẤN TRÊN DÒNG DỮ LIỆU Chuyên ngành: Khoa Học Máy Tính Mã số: 604801 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2012 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hướng dẫn khoa học: PGS TS ĐẶNG TRẦN KHÁNH (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: TS NGUYỄN CHÁNH THÀNH (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: PGS TS VŨ THANH NGUYÊN (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP HCM, ngày 24 tháng 12 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS TS THOẠI NAM, CT TS NGUYỄN CHÁNH THÀNH, PB PGS TS VŨ THANH NGUYÊN, PB PGS TS ĐẶNG TRẦN KHÁNH, UV TS HUỲNH TƯỜNG NGUYÊN, TK Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT PGS TS Thoại Nam PGS TS Thoại Nam ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC THIÊN AN MSHV: 10071046 Ngày sinh: 10 – 02 – 1987 Nơi sinh: TP.HCM Chuyên ngành: Khoa Học Máy Tính Mã số : 604801 I TÊN ĐỀ TÀI: Bảo Vệ Tính Riêng Tư Trong Xử Lý Câu Truy Vấn Trên Dòng Dữ Liệu II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng giải pháp bảo vệ tính riêng tư cho liệu cá nhân xử lý câu truy vấn Dòng Dữ Liệu III NGÀY GIAO NHIỆM VỤ: 04 – 07 – 2011 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 23 – 11 – 2012 V CÁN BỘ HƯỚNG DẪN: PGS TS ĐẶNG TRẦN KHÁNH Tp HCM, ngày 08 tháng 03 năm 2013 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO PGS TS Đặng Trần Khánh PGS TS Đặng Trần Khánh TRƯỞNG KHOA KH&KTMT PGS TS Thoại Nam Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu LỜI CẢM ƠN Trước hết, tơi xin gửi lời cảm ơn đến giảng viên hướng dẫn luận văn minh – PGS TS Đặng Trần Khánh - tận tình hướng dẫn, động viên giúp đỡ nhiều thời gian thực luận văn Tôi xin cảm ơn tổ chức JICA tạo điều kiện cho tham gia dự án nghiên cứu liên quan đến đề tài luận văn hỗ trợ kinh phí dự hội nghị trình tơi thực luận văn Cuối cùng, tơi xin chân thành cảm ơn gia đình, bạn bè thành viên DSTAR-Lab hỗ trợ suốt thời gian qua 25 – 11 – 2012 Nguyễn Ngọc Thiên An i Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu TĨM TẮT Tốc độ phát triển nhanh chóng cơng nghệ thiết bị cảm biến, mở rộng hệ thống mạng thông tin bùng nổ ứng dụng thương mại điện tử động lực thúc đẩy cho phát triển vượt bậc ứng dụng dòng liệu Tương tự loại hệ thống thông tin khác, vấn đề bảo vệ tính riêng tư cho cá nhân có thơng tin xuất dịng liệu cần thiết Tuy nhiên, yêu cầu thời gian lượng tài nguyên cần có cho việc xử lý truy vấn thời gian thực thách thức giải pháp bảo vệ tính riêng tư cho dịng liệu Trong luận văn này, chúng tơi trình bày giải pháp cải tiến tích hợp kỹ thuật lấy mẫu theo reservoir có kích thước thay đổi với giải thuật làm mờ để bảo vệ tính riêng tư cho dịng liệu Giải pháp đề xuất cung cấp liệu làm mờ để đưa kết truy vấn gần thời gian xử lý hợp lý Loại kết gần thích hợp cho ứng dụng dạng thống kê, tổng hợp Đặc biệt, giải pháp đạt kết tốt mặt thời gian xử lý câu truy vấn so với giải thuật làm mờ gốc đánh giá mặt lý thuyết thực nghiệm ii Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu ABSTRACT The rapid development of sensor technologies, the broadening of information networks and the evolution of e-commerce applications are motivations for the prominent growth of data stream applications In a similar way to other kinds of information systems, it is essential to protect privacy for owners of the information in those streams However, requirements of huge amounts of time and resources for query processing in real-time are challenging issues for privacy preserving solutions in data streams In this thesis, we present a modified method integrating a variable reservoir sampling technique with a k-anonymizing algorithm to protect privacy on data streams Our suggestion provides anonymized data to give approximate query answers which are possible to accept and as good as the exact ones in many contexts such as aggregation and statistics applications Moreover, the new solution has faster query processing time than the one of the original k-anonymizing algorithm in both theory and experiment results iii Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố cơng trình trước 25 – 11 – 2012 Nguyễn Ngọc Thiên An iv Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu MỤC LỤC LỜI CẢM ƠN i TÓM TẮT ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC BẢNG viii DANH MỤC HÌNH ẢNH ix DANH MỤC CHỮ VIẾT TẮT x CHƯƠNG GIỚI THIỆU 1.1 Giới thiệu đề tài 1.2 Mục đích nghiên cứu 1.3 Ý nghĩa khoa học thực tiễn đề tài CHƯƠNG TỔNG QUAN VỀ DÒNG DỮ LIỆU 2.1 Định nghĩa 2.2 Cấu trúc 2.3 Đặc tính 2.4 Phân loại 2.5 Ngơn ngữ truy vấn dịng liệu 2.6 Hệ quản trị dòng liệu 2.7 Lĩnh vực ứng dụng 11 2.8 Các tốn dịng liệu 12 2.9 Một ứng dụng minh họa 13 CHƯƠNG XỬ LÝ CÂU TRUY VẤN TRÊN DÒNG DỮ LIỆU 15 v Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 3.1 Thách thức 15 3.2 Kỹ thuật xử lý 16 3.2.1 Stream Filtering [5] 16 3.2.1.1 Precise Filtering 16 3.2.1.2 Data Merging 17 3.2.1.3 Data Dropping (Load Shedding) 17 3.2.2 Punctuations [5] 19 3.2.3 Windowing [5] 22 3.2.4 Synopses 23 3.2.4.1 Sampling (Phương pháp lấy mẫu) 24 3.2.4.2 Histograms 24 3.2.4.3 Wavelets 25 3.2.4.4 Sketches 25 3.2.4.5 Micro-cluster based summarization 25 3.2.5 3.3 Tổng kết 26 Kiến trúc hệ thống xử lý truy vấn dòng liệu 28 CHƯƠNG VẤN ĐỀ BẢO VỆ TÍNH RIÊNG TƯ 30 4.1 Bảo mật thông tin 30 4.1.1 Định nghĩa 30 4.1.2 CIA triad 31 4.2 Bảo vệ tính riêng tư 33 4.3 Bảo vệ tính riêng tư dòng liệu 36 4.4 Tấn công liên kết 38 4.5 K – Anonymity 40 vi Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 4.6 Mức độ thông tin 42 4.7 Các giải thuật bảo vệ tính riêng tư dòng liệu 43 CHƯƠNG GIẢI PHÁP ĐỀ XUẤT 45 5.1 Tổng quan giải pháp 45 5.2 Phương pháp lấy mẫu 47 5.2.1 Phương pháp lấy mẫu theo reservoir có kích thước cố định 48 5.2.2 Phương pháp lấy mẫu theo reservoir có kích thước thay đổi 50 5.3 Phương pháp làm mờ liệu SKY 51 5.4 Phương pháp bảo vệ tính riêng tư cho dịng liệu 52 CHƯƠNG ĐÁNH GIÁ KẾT LUẬN 62 6.1 Đánh giá theo lý thuyết 62 6.1.1 Hiệu việc xử lý câu truy vấn 62 6.1.1.1 Thời gian xử lý 62 6.1.1.2 Tài nguyên sử dụng 65 6.1.2 Chất lượng kết truy vấn 66 6.2 Đánh giá theo thực nghiệm 66 6.3 Tổng kết 74 6.3.1 Ưu điểm 74 6.3.2 Khuyết điểm 75 6.3.3 Hướng phát triển 75 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC 76 TÀI LIỆU THAM KHẢO 77 PHỤ LỤC 80 LÝ LỊCH TRÍCH NGANG 109 vii Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 95 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu 96 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 97 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 98 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu 99 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 100 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu 101 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu  Bài báo [3] phần Danh mục Các cơng trình Khoa học: 102 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 103 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 104 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu 105 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 106 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu 107 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 108 Bảo vệ tính riêng tư xử lý câu truy vấn dịng liệu LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Ngọc Thiên An Ngày, tháng, năm sinh: 10 – 02 – 1987 Địa liên lạc: 572 Điện Biên Phủ, P.11, Q.10, TP Hồ Chí Minh Nơi sinh: TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO (Bắt đầu từ Đại học đến nay)  09 - 2005 đến 04 - 2010: học Đại học, chuyên ngành Khoa học & Kỹ thuật Máy tính, chương trình Kỹ Sư Tài Năng, trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM  09 - 2010 đến 04 - 2013: học Cao học, chuyên ngành Khoa học Máy tính, chương trình Đào tạo theo Phương pháp Nghiên cứu, trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM Q TRÌNH CƠNG TÁC (Bắt đầu từ làm đến nay)  03 - 2010 đến - 2010: Kỹ sư phần mềm công ty CSC Việt Nam  06 - 2010 đến nay: Giảng viên Khoa Khoa học & Kỹ thuật Máy tính, trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM 109 ... 34 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu Quan điểm vấn đề bảo vệ tính riêng tư cho liệu cá nhân khác nhiều văn hóa Nhìn chung, bảo vệ liệu cá nhân (hay rộng bảo vệ tính riêng tư) ... hướng nghiên cứu giải pháp cho việc xử lý câu truy vấn dòng liệu bảo vệ tính riêng tư cho liệu cá nhân xuất dịng liệu Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu 1.2 Mục đích nghiên cứu Hiện... 14 Bảo vệ tính riêng tư xử lý câu truy vấn dòng liệu CHƯƠNG XỬ LÝ CÂU TRUY VẤN TRÊN DÒNG DỮ LIỆU 3.1 Thách thức Bản chất lưu lượng lớn, trước điểm dừng dòng liệu làm nảy sinh nhiều vấn đề xử lý

Ngày đăng: 03/09/2021, 14:35