Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

117 9 0
Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ THỊ MINH CHÂU BẢO VỆ TÍNH RIÊNG TƯ VÀ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2011 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS Đặng Trần Khánh Cán chấm nhận xét 1: TS Bùi Hoài Thắng Cán chấm nhận xét 2: TS Vũ Thanh Nguyên Luận văn thạc sĩ bảo vệ trường Đại học Bách Khoa, ĐHQG TP HCM ngày 11 tháng 01 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: TS Trần Văn Hoài Thư ký hội đồng: TS Nguyễn Tuấn Đăng Ủy viên phản biện 1: TS Bùi Hoài Thắng Ủy viên phản biện 2: TS Vũ Thanh Nguyên Ủy viên hội đồng: PGS TS Đặng Trần Khánh Chủ tịch hội đồng đánh giá LV Bộ môn quản lý chuyên ngành TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA KH & KT MÁY TÍNH Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày 11 tháng 01 năm 2012 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Thị Minh Châu Phái: Nữ Ngày, tháng, năm sinh: 06/04/1983 Nơi sinh: TP HCM Chuyên ngành: Khoa học Máy tính MSHV: 09070423 I- TÊN ĐỀ TÀI: BẢO VỆ TÍNH RIÊNG TƯ VÀ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU II- NHIỆM VỤ VÀ NỘI DUNG: Đề xuất mơ hình giải thuật phù hợp để bảo vệ tính riêng tư liệu đồng thời trì tối đa luật kết hợp liệu gốc III- NGÀY GIAO NHIỆM VỤ: 14/02/2011 IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2011 V- CÁN BỘ HƯỚNG DẪN: CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS Đặng Trần Khánh CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 02 tháng 12 năm 2011 Lê Thị Minh Châu LỜI CẢM ƠN Tôi xin gởi lời cám ơn chân thành sâu sắc đến PGS.TS Đặng Trần Khánh tận tình hướng dẫn, định hướng cho từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận văn Xin chân thành cảm ơn tất Quý Thầy Cô Khoa Khoa học Kỹ thuật máy tính tận tình truyền đạt kiến thức q báu cho tơi suốt q trình học tập Tơi xin cám ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi hồn thành luận văn Lê Thị Minh Châu TĨM TẮT LUẬN VĂN Bảo vệ tính riêng tư khai phá liệu lĩnh vực nghiên cứu nhiều năm gần Có nhiều mơ hình, phương pháp đề xuất để bảo vệ tính riêng tư liệu trì đến mức tối đa chất lượng khai thác liệu Đặc biệt, kỹ thuật Migrate Member phát triển áp dụng vào mơ hình k-anonymity khơng bảo vệ tính riêng tư liệu mà cịn trì chất lượng liệu cho giải thuật khai phá liệu cụ thể khai phá luật kết hợp Kỹ thuật kết hợp với mơ hình khác để trì chất lượng liệu cách hiệu Đề tài theo hướng tiếp cận bảo vệ tính riêng tư luật kết hợp khai phá liệu Đề tài cụ thể hóa hướng tiếp cận cách đề xuất mơ hình ℓdiversity áp dụng kỹ thuật di trú thành viên vào mơ hình để chống lại khả tái xác định cá thể bảo vệ liệu nhạy cảm cá thể trì tối đa luật kết hợp liệu gốc ABSTRACT Privacy Preserving Data Mining is a field that has been researched a lot in recent years There are various models, methods such as k-anonymity, ℓ-diversity … proposed to protect the privacy of data and maintain as much as possible its utility In particular, the Migrate Member technique has been developed and applied to the k-anonymity model not only protects the privacy of the data but also maintains its utility for a specific data mining algorithm namely association rule mining This technique can also be combined with other models to maintain data quality effectively This thesis also follows the approach of preserving privacy and association rule in data mining This thesis will concretize this approach by proposing new ℓdiversity model and apply the Migrate Member technique in this model to fight against the possibility of reidentifying individuals and protect sensitive data while also maintain as much as possible association rules of the original data Mục lục MỤC LỤC MỤC LỤC 1  DANH MỤC BẢNG 3  DANH MỤC HÌNH 5  CHƯƠNG 1: GIỚI THIỆU 6  1.1 Phát biểu vấn đề 6  1.2 Tên đề tài 9  1.3 Giới hạn đề tài 9  1.4 Mục tiêu đề tài 10  CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 11  2.1 Bảo vệ tính riêng tư cho liệu trước khai phá 11  2.1.1 Phương pháp ngẫu nhiên (Randomization) 11  2.1.2 Phương pháp nặc danh dựa nhóm 13  2.2 Thay đổi kết ứng dụng để bảo vệ tính riêng tư 39  2.2.1 Che giấu luật kết hợp 39  2.2.2 Thu giảm tính hiệu phân loại 42  2.2.3 Điều khiển suy diễn kiểm soát truy vấn 43  CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN 45  3.1 Phương pháp k-anonymity 45  3.1.1 Một số giải thuật cho k-anonymity 45  3.1.2 Độ đo tính tiện ích liệu 55  3.1.3 Phương pháp Migrate Member (MM) 59  3.2 Phương pháp ℓ-diversity 70  3.2.1 Độ đo mức độ nhạy cảm 70  3.2.2 Một số giải thuật cho ℓ-diversity 71  CHƯƠNG 4: HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP 77  4.1 Hướng tiếp cận đề tài 77  4.2 Giải pháp 78  4.2.1 Phân tích phù hợp mơ hình 78  Trang Mục lục 4.2.2 Mơ hình đề xuất 80  4.2.3 Định nghĩa 81  4.2.4 Xử lý 86  CHƯƠNG 5: CHƯƠNG TRÌNH HIỆN THỰC VÀ KẾT QUẢ THỰC NGHIỆM 94  5.1 Chương trình thực 94  5.1.1 Dataset Tab 94  5.1.2 Diversity Tab 95  5.1.3 Dataset mining tab 96  5.1.4 Thực thi chương trình 97  5.2 Thực nghiệm 98  CHƯƠNG 6: Tổng kết 104  6.1 Những công việc làm 104  6.2 Đóng góp đề tài 104  6.3 Hướng phát triển 104  TÀI LIỆU THAM KHẢO 106  PHỤ LỤC: DMX SCRIPT DÙNG TRONG KIỂM THỬ 109  Trang Danh mục bảng DANH MỤC BẢNG Bảng 2.1: Phân loại kỹ thuật k-anonymity 15  Bảng 2.2: Ví dụ đơn giản bảng riêng tư 15  Bảng 2.3: Tổng quát hóa bảng 2.2 dựa thuộc tính Sex 16  Bảng 2.4: Tổng quát hóa bảng 2.3 dựa thuộc tính Marital status 17  Bảng 2.5: Tổng quát hóa bảng 2.4 dựa thuộc tính Marital status 17  Bảng 2.6: Tổng quát hóa bảng 2.5 dựa thuộc tính Hour 17  Bảng 2.7: Tổng quát hóa bảng 2.6 dựa thuộc tính Hour 18  Bảng 2.8: Dữ liệu y khoa [10] 19  Bảng 2.9: Dữ liệu y khoa nặc danh (2-anonymity) [10] 19  Bảng 2.10: Dữ liệu y khoa nặc danh (2-anonymity) [10] 19  Bảng 2.11: Áp dụng (,k)-anonymity vào bảng 2.8 ((0.5,2)-anonymity) [10] 19  Bảng 2.12: Thông tin bệnh nhân [14] 20  Bảng 2.13: Bảng 2.12 nặc danh (4-anonymity) [14] 20  Bảng 2.14: Bảng 2.12 đa dạng (3-diversity) [14] 24  Bảng 2.15: Thông tin bệnh nhân [16] 27  Bảng 2.16: Áp dụng (c, ℓ)-diversity ((3, 2)-diversity) vào bảng 2.15 [16] 27  Bảng 2.17: Bảng 2.15 đa dạng (2-diversity) [16] 28  Bảng 2.18: Bảng 2.15 đa dạng (τ, ℓ)-diversity - (0.5, 3)-diversity [16] 29  Bảng 2.19: Phân phối thuộc tính nhạy cảm tạo lớp tương đương [16] 30  Bảng 2.20: Thông tin bệnh nhân [18] 32  Bảng 2.21: Bảng 2.20 đa dạng (2-diversity) [18] 33  Bảng 2.22: Phân loại thuộc tính nhạy cảm [18] 34  Bảng 2.23: Distinct (3,1)-diversity [18] 34  Bảng 2.24: Entropy (2,2)-diversity [18] 35  Bảng 2.25: Thông tin bệnh nhân [19] 35  Bảng 2.26: Thông tin bệnh nhân đa dạng (3-diversity) [19] 35  Bảng 2.27: Áp dụng Unique distinct ℓ-SR diversity vào bảng 2.25 [19] 37  Bảng 2.28: Thông tin tiền lương – bệnh [20] 38  Bảng 2.29: Thông tin tiền lương – bệnh đa dạng (3-diversity) [20] 38  Bảng 3.1: Tổng quát bảng 2.2 dựa 47  Bảng 3.2: Tổng quát bảng 2.2 dựa 47  Bảng 3.3: Tập liệu gốc [10] 54  Bảng 3.4: Dữ liệu nặc danh [10] 54  Bảng 3.5: Dữ liệu điểm sinh viên tổng hợp 61  Bảng 3.6: Nặc danh hóa bảng 3.5 62  Trang ... học Máy tính MSHV: 09070423 I- TÊN ĐỀ TÀI: BẢO VỆ TÍNH RIÊNG TƯ VÀ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU II- NHIỆM VỤ VÀ NỘI DUNG: Đề xuất mơ hình giải thuật phù hợp để bảo vệ tính riêng tư liệu đồng... biến đổi liệu theo mơ hình k-anonymity để bảo vệ tính riêng tư đồng thời trì giá trị khai thác liệu theo giải thuật khai phá luật kết hợp Cách tiếp cận bảo vệ tính riêng tư khai phá liệu có nhược... thuật bảo vệ tính riêng tư khai phá liệu thành ba nhóm chủ yếu [2, chương 2, trang 6]: a Bảo vệ tính riêng tư cho liệu trước khai phá Dữ liệu gốc biến đổi trước dùng cho mục đích khai phá liệu Nhóm

Ngày đăng: 29/08/2021, 17:42

Hình ảnh liên quan

Bảng 2.1: Phân loại các kỹ thuật k-anonymity [6, chương 5, trang 110]  - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.1.

Phân loại các kỹ thuật k-anonymity [6, chương 5, trang 110] Xem tại trang 22 của tài liệu.
Bảng 2.4: Tổng quát hóa bảng 2.3 dựa trên thuộc tính Marital status - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.4.

Tổng quát hóa bảng 2.3 dựa trên thuộc tính Marital status Xem tại trang 24 của tài liệu.
Bảng 2.1 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.1.

Xem tại trang 27 của tài liệu.
Bảng 2.13 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.13.

Xem tại trang 27 của tài liệu.
Bảng 2.1 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.1.

Xem tại trang 31 của tài liệu.
Bảng - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

ng.

Xem tại trang 34 của tài liệu.
2: Cơ sở lý - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

2.

Cơ sở lý Xem tại trang 36 của tài liệu.
Bảng 2.2 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.2.

Xem tại trang 39 của tài liệu.
Bảng 2.2 vào lớp tư chính xác  t nặng.  - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.2.

vào lớp tư chính xác t nặng. Xem tại trang 40 của tài liệu.
Bảng - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

ng.

Xem tại trang 41 của tài liệu.
Bảng 2.2 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 2.2.

Xem tại trang 42 của tài liệu.
hình t-close mô hình ℓ-d cách tương ập dữ liệu.  ự xuất hiện n ℓ-diversi - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

hình t.

close mô hình ℓ-d cách tương ập dữ liệu. ự xuất hiện n ℓ-diversi Xem tại trang 44 của tài liệu.
h nhĩa t-clo - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

h.

nhĩa t-clo Xem tại trang 45 của tài liệu.
Bảng 3.1: Tổng quát bảng 2.2 dựa trên <M0,S1> Marital status  Sex Hours #tuples (Hyp - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 3.1.

Tổng quát bảng 2.2 dựa trên <M0,S1> Marital status Sex Hours #tuples (Hyp Xem tại trang 53 của tài liệu.
bảng 2.2, đầu tiên, In M0 và S1 n k-anonym - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

bảng 2.2.

đầu tiên, In M0 và S1 n k-anonym Xem tại trang 56 của tài liệu.
Hình 3.5: Cá - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 3.5.

Xem tại trang 59 của tài liệu.
Hình 3.6: Á - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 3.6.

Á Xem tại trang 60 của tài liệu.
Hình 3.7: Á - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 3.7.

Á Xem tại trang 61 của tài liệu.
Bảng 3.6 a ra 2 đại l o và chi phí - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 3.6.

a ra 2 đại l o và chi phí Xem tại trang 68 của tài liệu.
Bảng 3.7 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 3.7.

Xem tại trang 78 của tài liệu.
Bảng 3.8 L - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Bảng 3.8.

L Xem tại trang 79 của tài liệu.
p di trú th - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

p.

di trú th Xem tại trang 90 của tài liệu.
Hình 4.2: Cấu trúc dữ liệu của giải thuật - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 4.2.

Cấu trúc dữ liệu của giải thuật Xem tại trang 94 của tài liệu.
Chương 4: Hướng tiếp cận đề tài và giải pháp - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

h.

ương 4: Hướng tiếp cận đề tài và giải pháp Xem tại trang 97 của tài liệu.
Hình - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

nh.

Xem tại trang 101 của tài liệu.
Hình - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

nh.

Xem tại trang 102 của tài liệu.
Hình 5.3 - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 5.3.

Xem tại trang 103 của tài liệu.
Hình 5.4: P - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 5.4.

P Xem tại trang 104 của tài liệu.
Hình Chạy 5.94%) dòn Do giá trị M - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

nh.

Chạy 5.94%) dòn Do giá trị M Xem tại trang 106 của tài liệu.
Hình 5.7 lại, giả i thu trị này th ườ - Bảo vệ tính riêng tư và luật kết hợp trong khai phá dữ liệu

Hình 5.7.

lại, giả i thu trị này th ườ Xem tại trang 109 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan