1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai thác luật kết hợp bảo đảm tính riêng tư trên dữ liệu phân tán ngang (1)

13 131 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 324,68 KB

Nội dung

1 Chương TỔNG QUAN Với lượng liệu gia tăng nhanh chóng KTDL cơng cụ hữu ích để rút trích thơng tin có ích từ liệu, nhiên lĩnh vực ñặc thù y khoa, bảo hiểm, ngân hàng, … có chứa liệu thông tin nhạy cảm, không cho phép tiết lộ liệu thông tin nhạy cảm gây khó khăn cho q trình khai thác, từ đòi hỏi cần có nghiên cứu để khai thác liệu khơng tiết lộ tính riêng liệu Luận văn tập trung tìm hiểu khai thác luật kết hợp bảo đảm tính riêng liệu phân tán ngang, chương giới thiệu tính riêng khai thác liệu (KTDL) tính riêng khai thác liệu phân tán, phân tích nguyên nhân làm ảnh hưởng đến tính riêng tư, trình bày phương pháp bảo đảm tính riêng với ưu điểm nhược ñiểm phương pháp Phần trình bày giao thức tính tồn đa thành viên an toàn áp dụng giao thức KTDL phân tán bảo đảm tính riêng Phần cuối sâu phân tích tính riêng khai thác luật kết hợp liệu phân tán ngang, xác định thơng tin cần phải bảo đảm tính riêng ñưa phương pháp ñể giải 1.1 Giới thiệu: Khai thác liệu (KTDL) kỹ thuật để rút trích tri thức từ lượng liệu lớn xem giai đoạn q trình khám phá tri thức KTDL ứng dụng nhiều lĩnh vực tiếp thị, kinh doanh, khám phá khoa học, cơng nghệ sinh học, tìm kiếm Internet, giải trí đa phương tiện, … Các ứng dụng gần ñây KTDL cho việc thu thập phân tích liệu ứng dụng liên quan ñến bảo mật, y học, kinh doanh, … ñã ñặt mối quan tâm vấn đề tính riêng tư, áp dụng kỹ thuật KTDL làm tiết lộ liệu thông tin nhạy cảm 2 Tính riêng tư: liệu nhạy cảm định danh, tên, ñịa chỉ, ñiện thoại, thu nhập, … cá nhân, tổ chức, tri thức nhạy cảm ñược khai thác từ sở liệu thông qua thuật tốn khai thác liệu Các thơng tin bí mật kinh doanh, thơng tin gây bất lợi cho cá nhân, tổ chức, hay quy ñịnh pháp luật nên tiết lộ [1][2][4] Một số ví dụ: Ví dụ 1, trung tâm kiểm soát dịch bệnh (CDC, Mỹ) muốn khai thác hồ sơ sức khỏe để tìm hiểu vi khuẩn kháng thuốc kháng sinh từ làm giảm gia tăng vi khuẩn Các cơng ty bảo hiểm có thơng tin dịch bệnh liên quan đơn thuốc, thơng tin bệnh nhân CDC muốn khai thác luật kết hợp có dạng X tìm luật Augmentin & Mùa hè Y, Nhiễm bệnh & Mùa thu, nghĩa là, người dùng Augmentin mùa hè bị nhiễm bệnh tái phát mùa thu Các cơng ty bảo hiểm ngồi việc bảo đảm tính riêng bệnh án, họ khơng muốn chia sẻ thơng tin khai thác Nếu người dùng bảo hiểm biết thơng tin họ cải thiện sách chăm sóc bệnh nhân, điều gây thiệt hại cho cơng ty bảo hiểm Với rủi ro công ty bảo hiểm không muốn cung cấp liệu cho CDC [4][7] Ví dụ 2, nhóm cơng ty kinh doanh muốn xác ñịnh mẫu tốt ñể giúp ñỡ thành viên số mẫu bí mật kinh doanh Vậy làm để cung cấp kết cho thành viên bảo đảm bí mật ? Ví dụ: việc sản xuất sử dụng chất hóa học cung cấp từ nhà cung cấp X có tỷ lệ thất bại cao, quy trình sản xuất Y cho tỷ lệ thành cơng thấp [26] Ví dụ 3, cơng ty đa quốc gia muốn khai thác liệu công ty để có kết tồn cục, luật pháp quốc gia ngăn chặn việc chia sẻ liệu [26] Ví dụ 4, KTDL nghiên cứu dân cư người dân khơng muốn để lộ thơng tin cá nhân [26] Ví dụ 5, người sử dụng KTDL CSDL mà họ không sở hữu, họ khơng muốn để lộ câu truy vấn với người quản trị CSDL [2] 3 Dó cần có giải pháp để khai thác liệu bảo đảm tính riêng Với ứng dụng sử dụng CSDL phân tán có kích thước liệu lớn, hạn chế chi phí, tốc độ truyền thơng tính riêng liệu nên khơng thể tập trung liệu, từ cần đưa giải pháp bảo đảm tính riêng khai thác liệu phân tán Giải pháp cần phải phù hợp loại liệu, nhu cầu tính riêng tư, hạ tầng mạng, u cầu độ xác kết khai thác để ứng dụng ñược thực tế Khai thác luật kết hợp ñược sử dụng phổ biến, ứng dụng ñể phân tích giỏ mua hàng, phân tích chiến lược bán hàng, web log,… Đã có nhiều giao thức đề xuất để khai thác luật kết hợp cho liệu tập trung phân tán, nhiên giao thức hạn chế tính riêng chi phí tính tốn truyền thơng Luận văn đề xuất giao thức khai luật kết hợp bảo đảm tính riêng liệu phân tán ngangtính riêng cao chi phí truyền thơng thấp, giao thức cải tiến giao thức Mahmoud Hussein ñồng nghiệp ñề xuất năm 2008 [14], giao thức ñề xuất cải tiến bước tìm tập ứng viên cách sử dụng hướng tiếp cận sử dụng itemset tối ñại cục (MFI) cải tiến bước tính độ hỗ trợ tồn cục cách sử dụng mã hóa Paillier, từ cho tính riêng cao chi phí truyền thơng thấp Sử dụng liệu thực tế ñể cài ñặt thử nghiệm giao thức cho kết khai thác hồn tồn xác Nội dung luận văn gồm chương: Chương 1: Tổng quan - trình bày tính riêng phương pháp để bảo ñảm tính riêng cho liệu tập trung liệu phân tán, cuối chương trình phân tích vấn ñề khai thác luật kết hợp bảo ñảm tính riêng liệu phân tán ngang Chương 2: Các cơng trình liên quan – trình bày giao thức ñã ñề xuất ñể khai thác luật kết hợp bảo đảm tính riêng liệu phân tán ngang Chương 3: Kiến thức tảng - trình bày nội dung liên quan đến giao thức đề xuất itemset phổ biến tối đại, thuật tốn GenMax, mã hố đồng hình Paillier 4 Chương 4: Giao thức ñề xuất - trình bày cải tiến giao thức đề xuất, đánh giá tính riêng hiệu giao thức, so sánh giao thức ñề xuất với giao thức trước đó, kết cài ñặt với liệu thực tế, kết luận hướng phát triển 1.2 Khai thác liệu bảo đảm tính riêng tư: CSDL sử dụng cho mục đích khai thác liệu CSDL tập trung hay phân tán nhiều nơi nên có hướng tiếp cận khác để bảo đảm tính riêng cho loại CSDL Với CSDL tập trung ta thực biến ñổi liệu ñể ẩn thơng tin nhạy cảm trước đưa vào khai thác không tiết lộ thông tin nhạy cảm Đối với CSDL phân tán có hai cách để thực hiện: Cách 1, CSDL cục thực biến đổi liệu sau tập trung liệu thành CSDL tập trung, ta thực khai thác CSDL tập trung này, liệu ñã ñược biến đổi nên khơng làm tính riêng Tuy nhiên phương pháp yêu cầu chi phí truyền thông lớn phải truyền tất liệu cục bộ, kết khai thác khơng hồn tồn xác dự đốn liệu nhạy cảm phương pháp biến đổi khơng đủ mạnh Cách 2, thực khai thác liệu phân tán, theo cách CSDL phải chia sẻ liệu với nên làm tính riêng liệu, cần có giao thức để bảo đảm tính riêng cho trường hợp Cách áp dụng ứng dụng đòi hỏi kết khai thác xác, cần tính riêng cao mà phương pháp cho CSDL tập trung khơng đáp ứng hay hạ tầng mạng nên tập trung liệu Xiaodan Wu [1] phân loại giao thức bảo đảm tính riêng cho CSDL tập trung CSDL phân tán dựa theo cơng trình cơng bố từ năm 2000 đến cuối năm 2006 Với CSDL tập trung, giao thức ñề xuất cho mục ñích ẩn luật ẩn liệu cho thuật toán KTDL phân lớp, gom nhóm, luật kết hợp, sử dụng kỹ thuật: tổng qt hóa (generalization), biến đổi liệu (data distortion), làm giảm bớt (data sanitation), ngăn chặn (blocking) Với CSDL phân tán, giao thức ñều dựa kỹ thuật mã hóa áp dụng để ẩn liệu Có loại phân tán liệu chính: Phân tán ngang: site khác thu thập ñặc trưng thông tin thực thể khác nhau, ví dụ: ngân hàng, Citibank JPMorgan Chase, hình 1.1, ngân hàng thu thập thơng tin thẻ tín dụng khách hàng, thuộc tính ñều nhau, ta gộp CSDL lại để tăng độ xác dự đốn gian lận Phân tán dọc: site thu thập ñặc trưng khác tập thực thể, ví dụ: bệnh viện (hoặc công ty bảo hiểm) thu thập mẫu tin y khoa, nhà cung cấp dịch vụ khơng dây thu thập thơng tin khác hình 1.2, ta gộp thơng tin lại khác hàng thực khai thác để tìm mối tương quan Để đánh giá các giao thức bảo đảm tính riêng tư, ta sử dụng tiêu chí sau (theo [2]): Hiệu năng: Thời gian u cầu, chi phí tính tốn truyền thơng (với liệu phân tán) Tính hiệu dụng liệu: Độ xác hữu ích thơng tin khai thác ñược từ CSDL sau áp dụng kỹ thuật bảo đảm tính riêng Mức độ khơng chắn: Xác suất để đốn thơng tin ẩn Tính chịu đựng kỹ thuật KTDL khác: Khả tìm thông tin nhạy cảm cách sử dụng kỹ thuật KTDL khác sau q trình bảo đảm tính riêng 6 MƠ HÌNH CSDL TỒN CỤC MÃ THẺ Trạng thái Tín dụng Số giao dịch ZIP Ngân hàng CitiBank (Thẻ tín dụng) RPJ Active

Ngày đăng: 01/06/2018, 12:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w