1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ẩn danh hóa dữ liệu có quan tâm luật kết hợp

51 31 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA VÕ MINH TRÍ ẨN DANH HĨA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP NGÀNH : KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH - NĂM 2020 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA VÕ MINH TRÍ ẨN DANH HĨA DỮ LIỆU CĨ QUAN TÂM LUẬT KẾT HỢP NGÀNH : KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH - NĂM 2020 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : TS Trương Tuấn Anh Cán chấm nhận xét : PGS.TS Vũ Thanh Nguyên Cán chấm nhận xét : TS Đặng Trần Trí Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 29 tháng 08 năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS.TS Đặng Trần Khánh PGS.TS Vũ Thanh Nguyên TS Lê Hồng Trang TS Đặng Trần Trí TS Phan Trọng Nhân Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Võ Minh Trí, MSHV: 1670699 Ngày, tháng, năm sinh: 1985 , Nơi sinh: Đồng Tháp Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: ẨN DANH HÓA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP II NHIỆM VỤ VÀ NỘI DUNG: -Nhiệm vụ luận văn : +Thu thập liệu khám chữa bệnh y tế tuyến Huyện +Xây dựng thuật tốn biến đổi liệu, với K dịng giống nhau, cho phép người dùng nhập thông tin(luật kết hợp) cần giữ lại ngưỡng +Triển khai Demo thuật toán lên ứng dụng web -Nội dung luận văn : +Tìm hiểu khái niệm, cách bảo vệ thơng tin riêng tư chia liệu +Tìm hiểu kỹ thuật bảo vệ tính riêng tư khai phá liệu +Tìm hiểu luật kết hợp khai phá liệu + Đề xuất kỹ thuật bảo vệ tính riêng tư chia sẻ liệu +Kiểm thử +Đánh giá III NGÀY GIAO NHIỆM VỤ : 11/02/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 15/06/2020 V CÁN BỘ HƯỚNG DẪN : TS Trương Tuấn Anh Tp HCM, ngày tháng năm 2020 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA….……… (Họ tên chữ ký) LỜI CÁM ƠN Để thực hoàn thành đề tài nghiên cứu khoa học này, nhận hỗ trợ, giúp đỡ, quan tâm, động viên từ nhiều quan, tổ chức cá nhân Nghiên cứu khoa học hoàn thành dựa tham khảo, học tập kinh nghiệm từ kết nghiên cứu liên quan, số sách báo, báo chuyên ngành nhiều tác giả trường Đại học, tổ chức nghiên cứu, tổ chức trị…Đặc biệt hợp tác cán giáo viên trường Đại học Bách Khoa TPHCM giúp đỡ, tạo điều kiện vật chất tinh thần từ phía gia đình, bạn bè đồng nghiệp Trước hết, xin gửi lời cảm ơn sâu sắc đến Thầy Trương Tuấn Anh – người trực tiếp hướng dẫn khoa học dành nhiều thời gian, công sức hướng dẫn tơi suốt q trình thực nghiên cứu hoàn thành đề tài nghiên cứu khoa học Tôi xin trân trọng cám ơn Ban giám hiệu, trường Đại học Bách Khoa TPHCM toàn thể giảng viên trường tận tình truyền đạt kiến thức q báu, giúp đỡ tơi q trình học tập nghiên cứu Tôi xin cám ơn bạn bè, đồng nghiệp hỗ trợ mặc liệu thật để kiểm thử Tuy có nhiều cố gắng, đề tài nghiên cứu khoa học không tránh khỏi thiếu sót Tơi kính mong Q thầy cơ, chun gia, người quan tâm đến đề tài, đồng nghiệp, gia đình bạn bè tiếp tục có ý kiến đóng góp, giúp đỡ để đề tài hồn thiện Một lần xin chân thành cám ơn! TP Cao Lãnh , ngày 04 tháng 05 năm 2020 Tác giả Võ Minh Trí TĨM TẮT LUẬN VĂN Chia sẻ liệu điều Các cá nhân, tổ chức phủ chia sẻ thơng tin từ trước máy tính mạng tồn Tuy nhiên, thập kỷ qua, tiến kiến thức kỹ số, công nghệ thích ứng khung pháp lý với không gian kỹ thuật số cho phép liệu chia sẻ nhanh quy mô chưa có Ví dụ, JoinData kích thích đổi bền vững lĩnh vực nông nghiệp Hà Lan cách cho phép nông dân chia sẻ liệu họ cách nhanh chóng, dễ dàng an tồn Ngoài điểm lợi chia sẻ liệu, Chương đề tài giải thích thêm vần đề gặp sẻ liệu Trong năm gần đây, tiến công nghệ phần cứng dẫn đến gia tăng khả lưu trữ ghi lại liệu cá nhân người tiêu dùng cá nhân Điều dẫn đến lo ngại liệu cá nhân bị lạm dụng cho nhiều mục đích khác Để giảm bớt lo ngại này, số kỹ thuật gần đề xuất để thực nhiệm vụ khai thác liệu theo cách bảo vệ quyền riêng tư Những kỹ thuật để thực bảo vệ quyền riêng tư khai thác liệu từ loạt chủ đề liên quan khai thác liệu, mật mã ẩn thông tin đề cập Chương đề tài Khai thác liệu, hay khám phá tri thức, q trình máy tính hỗ trợ để đào sâu phân tích liệu khổng lồ sau trích xuất ý nghĩa liệu Các công cụ khai thác liệu dự đoán hành vi xu hướng tương lai, cho phép doanh nghiệp đưa định chủ động, dựa tri thức Các công cụ khai thác liệu trả lời câu hỏi kinh doanh mà theo truyền thống tốn thời gian để giải Họ lùng sục sở liệu cho mẫu ẩn, tìm thơng tin dự đốn mà chun gia bỏ lỡ nằm ngồi dự đốn họ Chương trình bày khái niệm, phương pháp để khai thác liệu Trong số kỹ thuật bảo vệ tính riêng tư liệu có phương pháp kanonymity đề xuất năm gần để thực khai thác liệu bảo vệ quyền riêng tư Một vấn đề khác có liên quan làm liệu nhiễu sử dụng với phương pháp khai thác liệu truyền thống khai thác luật kết hợp Trong nhiều trường hợp, kết ứng dụng khai thác liệu luật kết hợp làm tổn hại riêng tư liệu Điều tạo lĩnh vực riêng tư kết thuật toán khai thác liệu khai thác luật kết hợp sửa đổi để bảo vệ riêng tư liệu Một ví dụ cổ điển kỹ thuật phương thức ẩn luật kết hợp, số quy tắc kết hợp bị loại bỏ để giữ quyền riêng tư phương pháp Chương đề xuất kỹ thuật khác Kỹ thuật thực biến đổi liệu với K dòng giống nhau, liệu ban đầu file excel(*.xls) import vào chương trình thực ứng dụng web Mục tiêu đề tài từ liệu khám chữa bệnh y tế biến đổi liệu theo phương pháp K-anomity, với k dòng giống nhau, điểm khác biệt so với phương pháp K-anomity cho phép người dùng chọn giữ lại luật kết hợp với ngưỡng cho trước Chương kiểm thử đánh giá kỹ thuật, đo mức độ chiếm dụng CPU, đo thời gian chạy với phép thử hệ số K, số lượng mẩu tin, số lượng trường bảng, số lượng luật kết hợp sau bảng so sánh với kỹ thuật khác để thấy giải thuật tơi có tối ưu hay không LỜI CAM ĐOAN Tôi xin cam đoan : Luận văn với đề tài “ẨN DANH HÓA DỮ LIỆU CĨ QUAN TÂM LUẬT KẾT HỢP” cơng trình nghiên cứu cá nhân tơi, khơng chép Mọi giúp đỡ cho việc thực luận văn cám ơn thơng tin trích dẫn luận văn ghi rõ nguồn gốc Tôi xin chịu trách nhiệm cơng trình nghiên cứu riêng ! Tp Cao lãnh, Ngày 04 Tháng 05 Năm 2020 Tác giả Võ Minh Trí MỤC LỤC LỜI CÁM ƠN TÓM TẮT LUẬN VĂN LỜI CAM ĐOAN MỤC LỤC CHƯƠNG 1: TỔNG QUAN CHÍNH SÁCH CHIA SẺ DỮ LIỆU VÀ QUYỀN RIÊNG TƯ 1.1.Tại ta cần phải chia sẻ liệu ? 1.2 Mối quan tâm chia liệu 1.3 Dữ liệu độc quyền nhạy cảm 1.4 Tính riêng tư ? 1.5.Mục tiêu đề tài 1.6 Giới hạn đề tài 1.7 Định hướng phương pháp nghiên cứu 10 CHƯƠNG 2: CÁC KỸ THUẬT BẢO VỆ THÔNG TIN TRONG KHAI PHÁ DỮ LIỆU 11 2.1.Giới thiệu: 11 2.2 Các mối đe dọa: 11 2.3 Các kỹ thuật bảo vệ thông tin khai phá liệu (privacy presrving data mining techniques(PPDM)) 11 2.3.1 Kỹ thuật ẩn danh (Anonymization) 13 2.3.2 Kỹ thuật ngẫu nhiên (Randomization) 13 2.3.3 Kỹ thuật nhiễu (Perturbation) 14 2.3.4 Kỹ thuật ngưng tụ (Condensation): 14 2.3.5 Kỹ thuật mã hóa(Cryptography): 14 2.3.6 Ưu điểm Nhược điểm phương pháp PPDM: 15 CHƯƠNG 3: KHAI PHÁ DỮ LIỆU VÀ LUẬT KẾT HỢP 16 3.1.Tổng quan khai phá liệu( data mining): 16 3.1.1.Khái niệm: 16 3.1.2 Tại cần khai phá liệu? 16 3.1.3 Lợi ích việc khai thác liệu gì? 16 3.1.4 Các giai đoạn khai phá liệu: 17 3.1.4 Các phương pháp khai phá liệu: 18 3.2 Khai phá liệu đảm bảo tính riêng tư? 19 3.3 Khai phá luật kết hợp sở liệu 19 3.3.1 Luật kết hợp 19 3.3.2 Khai phá luật kết hợp 21 3.4 Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư 21 3.4.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với liệu tập trung 21 3.4.2.Khai phá luật kết hợp có đảm bảo tính riêng tư với liệu phân tán 22 CHƯƠNG 4: ĐỀ XUẤT KỸ THUẬT BẢO VỆ TINH RIÊNG TƯ TRONG CHIA SẺ DỮ LIỆU 25 4.1.Đặt vấn đề 25 4.2.Các nghiên cứu có liên quan 26 4.3 Mục tiêu nghiên cứu 27 4.4 Quy trình nghiên cứu: 31 4.4.1 Lưu đồ thuật toán 31 4.4.2 Mã giả hàm thực 35 CHƯƠNG 5: THỬ NGHIỆM, ĐÁNH GIÁ 37 5.1.Thử nghiệm 37 5.1.1.Định dạng liệu ban đầu (file excel) 37 5.1.2 Upload Import liệu 38 5.1.3 Cung cấp thông số đầu vào 38 5.1.4 Kết sau biến biến đổi 40 5.2.ĐÁNH GIÁ 41 5.2.1 Về số lượng mẩu tin số luật kết hợp 41 5.2.2 Về hệ số K số lượng field quasi 41 5.2.3 Về sử dụng nhớ 42 5.3 Công cụ ARX-Data Anonymization Tool 43 5.3.1 Về sử dụng nhớ 43 5.3.2 Về hệ số K số lượng field quasi 44 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 33 Hình 4.3 Sơ đồ thuật tốn 34 4.4.2 Mã giả hàm thực +Hàm biến đổi_k: Input: bảng,danh sách field ID, danh sách field quasi, hệ số k, bảng chứa luật kết hợp, ngưỡng, tổng số mẩu tin bảng ano Output : bảng với k dòng giống Bước 1: -Upload file excel -Tạo bảng ano theo cấu trúc giống trường file excel -Tạo cấu trúc bảng temp_, k_ano, có cấu trúc giống bảng ano Bước 2: -Nhập: K, field quasi,field id, rules, threshold Bước 3: -Kiểm tra việc chọn field ID, field Quasi, nhập Ngưỡng -Kiểm tra nhập luật kết hợp có tồn CSDL? Bước 4: -Tạo bảng Luat -Thêm liệu luật kết hợp vào bảng Luat -Tạo bảng Rules có cấu trúc với field tương ứng liệu -Thêm liệu luật kết hợp vào bảng Rules Bước 5: Lặp : (Tổng số mẩu tin bảng ano/K) lần { -Di chuyển K dòng từ bảng ano sang bảng temp_ -Sửa field ID thành ‘*’ Lặp 2: ( lấy luật kết hợp bảng Luat) { -Tính tỉ lệ support luật kết hợp bảng k_ano - Nếu luật kết hợp có tồn bảng temp_ && tỉ lệ < ngưỡng + Hàm cập nhật field quasi bảng temp_ +Di chuyển k dòng từ bảng temp_ sang bảng k_ano -Nếu luật kết hợp có tồn bảng ano && tỉ lệ < ngưỡng 35 + Hàm cập nhật field quasi bảng temp_ +Di chuyển k dòng từ bảng temp_ sang bảng k_ano -Nếu luật kết hợp có tồn bảng k_ano && tỉ lệ < ngưỡng + Hàm cập nhật field quasi bảng temp_ +Di chuyển k dòng từ bảng temp_ sang bảng k_ano -Nếu luật kết hợp Khơng có tồn bảng k_ano && ano && temp_ + Hàm cập nhật field quasi bảng temp_ +Di chuyển k dòng từ bảng temp_ sang bảng k_ano -Khác (đã vượt ngưỡng) + Hàm cập nhật field quasi bảng temp_ +Di chuyển k dòng từ bảng temp_ sang bảng k_ano } } +Hàm cập nhập field quasi: Input: bảng, danh sách trường quasi Output: bảng cập nhật dòng -Chọn giá trị cột(field): +Nếu kiểm tra dòng có trùng +Khác : lấy giá trị, đếm số lần xuất giá trị cột, gán vào mảng (giá trị = số lần) +Tìm giá trị Max mảng, giá trị cần lấy -Hàm cập nhật giá trị cột với giá trị lấy cho giá trị lại cột(field) +Hàm cập nhật giá trị cột: Input: Bảng, tên trường, giá trị Output : bảng cập nhật trường với giá trị cho 36 CHƯƠNG 5: THỬ NGHIỆM, ĐÁNH GIÁ 5.1.Thử nghiệm Ngày ứng dụng phần lớn triển khai web với mục đích rộng rãi, truy xuất từ xa nên chương trình thực ứng dụng web, viết ngôn ngữ mã nguồn mở PHP Hệ quản trị sơ sở liệu MySQL, dùng webserver Apache 5.1.1.Định dạng liệu ban đầu (file excel) -Dữ liệu thô thu thập từ sở khám chữa bệnh y tế người dân, kết xuất file excel với dòng liệu, cột trường, ngồi cịn có thơng tin tiêu đề, trang trí định dạng để báo cáo -Dữ liệu định dạng với font unicode (Times New Roman) -Do để sử dụng phải tiến hành định dạng “làm sạch” lại liệu -Dữ liệu file excel trước import CSDL phải định dạng sau: +Dòng tiêu đề(tên field) phải gõ Khơng có dấu khơng có khoảng trắng Ví dụ: “Họ Tên” sửa lại : “Ho_va_Ten” +Dữ liệu ô có ngăn cách với dấu “,” ta phải thay “-“ “_” Ví dụ: “ấp Bình Hịa, xã Bình Thạnh, huyện Cao lãnh” sửa lại : “ấp Bình Hịa- xã Bình Thạnh- huyện Cao lãnh” Hình 5.1 Dữ liệu file excel sau định dạng 37 5.1.2 Upload Import liệu -Tùy vào liệu (số mẩu tin )nhiều hay mà thời gian tạo bảng chèn liệu vào bảng khác -Tơi kiểm thử file có 657 mẩu tin thời gian khoảng 25-30 giây để import từ tập tin *.xls vào CSDL, (với HĐH Windows 7, cấu hình máy CPU: Core i3 2.1GHz, RAM 6GB) Hình 5.2 Màn hình upload import file excel vào sở liệu 5.1.3 Cung cấp thông số đầu vào Hình 5.3 chọn field ID Hình 5.4 chọn field Quasi Hình 5.5 nhập hệ số K, nhập ngưỡng +Chọn field ID: ta chọn trường ID sau biến đổi bị ẩn thành dấu “*” tất dòng bảng kết 38 +Chọn field Quasi: ta chọn field Quasi trường liệu biến đổi +Chọn K: số nguyên >=2, biến đổi liệu với K dòng giống +Nhập ngưỡng: số nguyên >=20%, tỉ lệ dòng giống với K dòng luật kết hợp cho (Hình 5.6) Hình 5.6 nhập luật kết hợp +Nhập luật kết hợp: ta muốn giữ lại liệu luật kết hợp nào,thì ta nhập luật kết hợp Ví dụ Hình 5.6 cần giữ lại dịng có giá trị trường Giới tính “Nữ” trường Tuổi “58” giữ lại với tỉ lệ (ngưỡng) với giá trị hình 5.5 Lưu ý: Luật kết hợp nhập sau: Hình 5.7 Luật kết hợp vời nhiều trường Nếu có nhiều trường gom lại bên luật sinh ta dùng dấy phẩy “,” để cách Do lý ban đầu phải định dạng liệu lại (bỏ dấy “,” thay dấu “-“ “_”) xem hình 5.8 39 Hình 5.8 kết nhập luật kết hợp 5.1.4 Kết sau biến biến đổi Với 657 mẩu tin liệu sau thời gian khoảng phút bảng kết sau: Hình 5.9 kết sau biến đổi 40 5.2.ĐÁNH GIÁ -Tôi kiểm thử chương trình máy tính Laptop HP Probook 4530s chạy HĐH Windows cài webserver Wamp Server 2.2, cấu hình máy có CPU: Core i3 2.1GHz, RAM 6GB, HDD 250GB 5.2.1 Về số lượng mẩu tin số luật kết hợp + Với số lượng mẩu tin 650 +Tổng số field field đó: +Số field quasi field +Số field ID field + Số field sensitive field +K=2, ngưỡng 20% + Với luật kết hợp sau: Nữ,58=>Nơng dân Nam=>cịn nhỏ Nam,61=>Nghề khác Số Thời gian Thời gian thực Thời gian thực Thời gian thực mẩu import file biến đổi biến đổi biến đổi tin *xls (1 luật kết hợp) (2 luật kết hợp) (3 luật kết hợp) 100 ~5 giây ~30 giây ~60 giây ~85 giây 200 ~10 giây ~55 giây ~105 giây ~160 giây 300 ~ 15 giây ~100 giây ~145 giây ~255 giây 650 ~27 giây ~200 giây ~370 giây ~510 giây 1.200 ~45 giây ~435 giây ~790 giây ~886 giây 10.000 ~120 giây ~4.500 giây(1h15) ~8.842 giây(2h28) ~11.160 giây(3h6) Bảng 5.1 đo thời số lượng mẩu tin số luật kết hợp Qua Bảng 5.1 nhận thấy: +Xét cột luật thời gian tăng lên gấp số lượng mẩu tin tăng gấp đơi +Xét dịng số luật kết hợp tăng thời gian tăng lên gấp đôi 5.2.2 Về hệ số K số lượng field quasi 41 + Với số lượng mẩu tin 650 +Tổng số field field đó: +Số field quasi field +Số field ID field + Số field sensitive field +K=2, ngưỡng 20% + Với luật kết hợp sau: “Nữ=>48” Hệ số K Thời gian thực Thời gian thực Thời gian thực Thời gian thực biến đổi biến đổi biến đổi biến đổi (4 field quasi) (5 field quasi) (6 field quasi) (7 field quasi) ~90 giây ~100 Giây ~111 giây ~125 giây ~84 giây ~88 giây ~91 giây ~107 giây ~64 giây ~56 giây ~57 giây ~75 giây ~43 giây ~36 giây ~ 47 giây ~48 giây ~40 giây ~36 giây ~44 giây ~47 giây 10 ~34 giây ~36 giây ~32 giây ~33 giây Bảng 5.2 đo thời gian hệ số k và số lượng field quasi Qua Bảng 5.2 nhận thấy: +Xét cột số lượng field quasi hệ số K tăng thời gian thực giảm +Xét dòng số lượng field quasi tăng thời gian tăng lên không đáng kể 5.2.3 Về sử dụng nhớ -Xét 10.000 mẩu tin +Tổng số field field đó: +Số field quasi field +Số field ID field + Số field sensitive field +K=2, ngưỡng 20% + Với luật kết hợp sau: 42 Nữ,58=>Nơng dân Nam=>cịn nhỏ Nam,61=>Nghề khác Ta kết Bảng 5.3 Số mẩu tin Chiếm dụng nhớ (3 luật kết hợp) 10.000 ~400MB Bảng 5.3 Khả chiếm dụng nhớ 5.3 Công cụ ARX-Data Anonymization Tool ARX phần mềm nguồn mở để ẩn danh liệu cá nhân nhạy cảm Nó thiết kế từ đầu để cung cấp khả mở rộng cao, dễ sử dụng tích hợp chặt chẽ nhiều khía cạnh khác liên quan đến ẩn danh liệu Điểm bật bao gồm: +Tiện ích thống kê so sánh mơ hình ẩn danh +Hỗ trợ mơ hình riêng tư như: k-anonymity, ℓ-diversity, t-closeness and δpresence +Mơ hình bảo mật ngữ nghĩa (ɛ, δ)-differential privacy +Chuyển đổi liệu với khái quát hóa, triệt tiêu, vi phân mã hóa / mã hóa tồn cầu cục + Phương pháp phân tích tiện ích liệu +Phương pháp phân tích rủi ro nhận dạng lại Qua kiểm thử cơng cụ ARX tơi có kết sau: 5.3.1 Về sử dụng nhớ + Với số lượng mẩu tin 10.000 +Tổng số field field đó: +Số field quasi field +Số field ID field + Số field sensitive field 43 +K=2 Ta có kết sau: Số mẩu tin Chiếm dụng nhớ 10.000 ~210MB Bảng 5.4 Khả chiếm dụng nhớ công cụ ARX anonymization tool 5.3.2 Về hệ số K số lượng field quasi + Với số lượng mẩu tin 10.000 +Tổng số field field đó: +Số field quasi field +Số field ID field + Số field sensitive field Ta có kết sau: Thời gian thực biến đổi Hệ số K (7 field quasi) ~2 giây ~3 giây ~3 giây ~4 giây 10 ~5 giây Bảng 5.5 Xét thời gian thực công cụ ARX anonymization tool Qua bảng 5.5 nhận thấy thời gian thực ARX anonymization tool nhanh Nhận xét: Qua kết thực thi công cụ ẩn danh ARX- Data Anonymization Tool nhận thấy công cụ mạnh đa dạng mơ hình ẩn danh thực thi cho kết nhanh so với giải thuật tôi, xét thấy công cụ ẩn danh chưa có chọn lọc(ưu tiên liệu) mà người dùng muốn ưu tiên giữ lại số luật kết hợp liệu điểm đề tài so với công cụ có trước 44 KẾT LUẬN Qua đề tài tơi trình bày: -Chương 1: Tổng quan sách chia sẻ liệu quyền riêng tư -Chương 2: Trình bày kỹ thuật bảo vệ thơng tin khai phá liệu -Chương 3: Trình bày khái niệm, giai đoạn, phương pháp khai phá liệu luật kết hợp -Chương 4: Đề xuất kỹ thuật bảo vệ thông tin chia liệu -Chương 5: Thử nghiệm, đánh giá Dựa kỹ thuật k- anonymity đề xuất kỹ thuật bảo vệ thông tin cá nhân việc chia liệu so với kỹ thuật trước Điểm đề tài là: - Nếu kỹ thuật K- anonymity biến đổi K dịng giống mà khơng có giữ lại thông tin liệu(luật kết hợp) cần thiết, vơ tình làm giá trị liệu, với kỹ thuật tơi đề xuất cho phép người dùng nhập vào luật kết hợp cần giữ lại ngưỡng định, điểm đề tài - Kế chương trình thực thi thiết web nên thuận tiện cho người dùng không cần cài đặt muốn sử dụng 45 TÀI LIỆU THAM KHẢO [1] Charu C Aggarwal, Philip S Yu (2008), Privacy Preserving Data Mining Models and Algorithms, Springer, July 7, 2008.[4] [2] Fabian Prasser, Florian Kohlmayer, Helmut Spengler, Klaus A Kuhn, A Scalable and Pragmatic Method for the Safe Sharing of High-Quality Health Data IEEE Journal of Biomedical and Health Informatics, March 2017 [3] L Sweeney (1997), “Guaranteeing anonymity when sharing medical data, the Datafly system”, Proceedings, Journal of the American Medical Informatics Association Washington [4] L Sweeney (2002), “K-Anonymity: a model for protecting privacy”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10 (7) [5] Nivedita Bairagi; Punit k Johari (May-June 2017) “A Survey on Privacy Preserving Data mining”, Available Online at www.ijarcs.info [6] Shyue-Liang Wang; Dipen Patel; Ayat Jafari; Tzung-Pei Hong( 2007), “Hiding collaborative recommendation association rules”, Applied Intelligence volume 27 [7] Shyue-Liang Wang; Dipen Patel; Ayat Jafari; Tzung-Pei Hong( 2007), “Hiding collaborative recommendation association rules”, Applied Intelligence volume 27 [8] P Samarati and L Sweeney (1998), “Protecting privacy when disclosing information: kanonymity and its enforcement through generalization and suppression”, In Technical Report SRI-CSL-98-04 CS Laboratory, SRI International [9] Tsai, Yu-Chuan; Wang, Shyue-Liang; Song, Cheng-Yu; Ting, I-Hsien (August 1517 2016), “Privacy and Utility Effects of k-anonymity on Association Rule Hiding”, MISNC, SI, DS '16, Union, NJ, USA [10] Tran Khanh Dang; Josef Küng; Van Quoc Phuong Huynh (March 2011), “Protecting Privacy while Discovering and Maintaining Association Rules”, DOI: 10.1109/NTMS.2011.5720635 Source: IEEE https://www.researchgate.net/publication/224222001 [11] H.V.Q Phuong, T.K Dang: “eM2: An Efficient Member Migration Algorithm for Ensuring k-Anonymity and Mitigating Information Loss” Secure Data Management-VLDB, pp 26-40, 2010 [12] Q.C Truong, T.A Truong,, T.K Dang: “The Memorizing Algorithm: 46 Xplore.: Protecting User Privacy in Location-Based Services using Historical Services Information” IJMCMC, 2(4):65-86, 2010 [13] Data Anonymization Tool, ngày truy cập 30/7/2020, tai địa https://arx.deidentifier.org/ [14] Anonimatron tool, ngày truy cập 30/7/2020, tai địa https://amnesia.openaire.eu/ 47 ... khai phá liệu: a Phương pháp luật kết hợp Một chủ đề phổ biến khai phá liệu( KPDL) khai phá luật kết hợp Mục đích khai phá luật kết hợp xác định mối quan hệ, kết hợp mục liệu (item) sở liệu( CSDL)... anonymity ẩn luật kết hợp mang thông tin nhạy cảm cá nhân so sánh với phương pháp ẩn luật kết hợp, ẩn danh cho phương pháp có mức độ riêng tư cao phương pháp ẩn danh trực tiếp quy tắc luật kết hợp. .. lượng luật kết hợp sau bảng so sánh với kỹ thuật khác để thấy giải thuật tơi có tối ưu hay khơng LỜI CAM ĐOAN Tôi xin cam đoan : Luận văn với đề tài ? ?ẨN DANH HÓA DỮ LIỆU CÓ QUAN TÂM LUẬT KẾT HỢP”

Ngày đăng: 03/03/2021, 19:53

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w