Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
324,68 KB
Nội dung
1 Chương TỔNG QUAN Với lượng liệu gia tăng nhanh chóng KTDL cơng cụ hữu ích để rút trích thơng tin có ích từ liệu, nhiên lĩnh vực ñặc thù y khoa, bảo hiểm, ngân hàng, … có chứa liệu thông tin nhạy cảm, không cho phép tiết lộ liệu thông tin nhạy cảm gây khó khăn cho q trình khai thác, từ đòi hỏi cần có nghiên cứu để khaithácliệu khơng tiết lộ tínhriêngtưliệu Luận văn tập trung tìm hiểu khaithácluậtkếthợpbảođảmtínhriêngtưliệuphântán ngang, chương giới thiệu tínhriêngtưkhaithácliệu (KTDL) tínhriêngtưkhaithácliệuphân tán, phân tích nguyên nhân làm ảnh hưởng đến tínhriêng tư, trình bày phương pháp bảođảmtínhriêng với ưu điểm nhược ñiểm phương pháp Phần trình bày giao thức tính tồn đa thành viên an toàn áp dụng giao thức KTDL phântánbảođảmtínhriêngtưPhần cuối sâu phân tích tínhriêngtưkhaithácluậtkếthợpliệuphântán ngang, xác định thơng tin cần phải bảođảmtínhriêngtư ñưa phương pháp ñể giải 1.1 Giới thiệu: Khaithácliệu (KTDL) kỹ thuật để rút trích tri thức từ lượng liệu lớn xem giai đoạn q trình khám phá tri thức KTDL ứng dụng nhiều lĩnh vực tiếp thị, kinh doanh, khám phá khoa học, cơng nghệ sinh học, tìm kiếm Internet, giải trí đa phương tiện, … Các ứng dụng gần ñây KTDL cho việc thu thập phân tích liệu ứng dụng liên quan ñến bảo mật, y học, kinh doanh, … ñã ñặt mối quan tâm vấn đề tínhriêng tư, áp dụng kỹ thuật KTDL làm tiết lộ liệu thông tin nhạy cảm 2 Tínhriêng tư: liệu nhạy cảm định danh, tên, ñịa chỉ, ñiện thoại, thu nhập, … cá nhân, tổ chức, tri thức nhạy cảm ñược khaitháctừ sở liệu thông qua thuật tốn khaithácliệu Các thơng tin bí mật kinh doanh, thơng tin gây bất lợi cho cá nhân, tổ chức, hay quy ñịnh pháp luật nên tiết lộ [1][2][4] Một số ví dụ: Ví dụ 1, trung tâm kiểm soát dịch bệnh (CDC, Mỹ) muốn khaithác hồ sơ sức khỏe để tìm hiểu vi khuẩn kháng thuốc kháng sinh từ làm giảm gia tăng vi khuẩn Các cơng ty bảo hiểm có thơng tin dịch bệnh liên quan đơn thuốc, thơng tin bệnh nhân CDC muốn khaithácluậtkếthợp có dạng X tìm luật Augmentin & Mùa hè Y, Nhiễm bệnh & Mùa thu, nghĩa là, người dùng Augmentin mùa hè bị nhiễm bệnh tái phát mùa thu Các cơng ty bảo hiểm ngồi việc bảođảmtínhriêngtư bệnh án, họ khơng muốn chia sẻ thơng tin khaithác Nếu người dùng bảo hiểm biết thơng tin họ cải thiện sách chăm sóc bệnh nhân, điều gây thiệt hại cho cơng ty bảo hiểm Với rủi ro công ty bảo hiểm không muốn cung cấp liệu cho CDC [4][7] Ví dụ 2, nhóm cơng ty kinh doanh muốn xác ñịnh mẫu tốt ñể giúp ñỡ thành viên số mẫu bí mật kinh doanh Vậy làm để cung cấp kết cho thành viên bảođảm bí mật ? Ví dụ: việc sản xuất sử dụng chất hóa học cung cấp từ nhà cung cấp X có tỷ lệ thất bại cao, quy trình sản xuất Y cho tỷ lệ thành cơng thấp [26] Ví dụ 3, cơng ty đa quốc gia muốn khaithácliệu công ty để có kết tồn cục, luật pháp quốc gia ngăn chặn việc chia sẻ liệu [26] Ví dụ 4, KTDL nghiên cứu dân cư người dân khơng muốn để lộ thơng tin cá nhân [26] Ví dụ 5, người sử dụng KTDL CSDL mà họ không sở hữu, họ khơng muốn để lộ câu truy vấn với người quản trị CSDL [2] 3 Dó cần có giải pháp để khaithácliệubảođảmtínhriêngtư Với ứng dụng sử dụng CSDL phântán có kích thước liệu lớn, hạn chế chi phí, tốc độ truyền thơng tínhriêngtưliệu nên khơng thể tập trung liệu, từ cần đưa giải pháp bảođảmtínhriêngtưkhaithácliệuphântán Giải pháp cần phải phù hợp loại liệu, nhu cầu tínhriêng tư, hạ tầng mạng, u cầu độ xác kếtkhaithác để ứng dụng ñược thực tế Khaithácluậtkếthợp ñược sử dụng phổ biến, ứng dụng ñể phân tích giỏ mua hàng, phân tích chiến lược bán hàng, web log,… Đã có nhiều giao thức đề xuất để khaithácluậtkếthợp cho liệu tập trung phân tán, nhiên giao thức hạn chế tínhriêngtư chi phí tính tốn truyền thơng Luận văn đề xuất giao thức khailuậtkếthợpbảođảmtínhriêngtưliệuphântánngang có tínhriêngtư cao chi phí truyền thơng thấp, giao thức cải tiến giao thức Mahmoud Hussein ñồng nghiệp ñề xuất năm 2008 [14], giao thức ñề xuất cải tiến bước tìm tập ứng viên cách sử dụng hướng tiếp cận sử dụng itemset tối ñại cục (MFI) cải tiến bước tính độ hỗ trợ tồn cục cách sử dụng mã hóa Paillier, từ cho tínhriêngtư cao chi phí truyền thơng thấp Sử dụng liệu thực tế ñể cài ñặt thử nghiệm giao thức cho kếtkhaithác hồn tồn xác Nội dung luận văn gồm chương: Chương 1: Tổng quan - trình bày tínhriêngtư phương pháp để bảo ñảm tínhriêngtư cho liệu tập trung liệuphân tán, cuối chương trình phân tích vấn ñề khaithácluậtkếthợpbảo ñảm tínhriêngtưliệuphântánngang Chương 2: Các cơng trình liên quan – trình bày giao thức ñã ñề xuất ñể khaithácluậtkếthợpbảođảmtínhriêngtưliệuphântánngang Chương 3: Kiến thức tảng - trình bày nội dung liên quan đến giao thức đề xuất itemset phổ biến tối đại, thuật tốn GenMax, mã hố đồng hình Paillier 4 Chương 4: Giao thức ñề xuất - trình bày cải tiến giao thức đề xuất, đánh giá tínhriêngtư hiệu giao thức, so sánh giao thức ñề xuất với giao thức trước đó, kết cài ñặt với liệu thực tế, kết luận hướng phát triển 1.2 Khaithácliệubảođảmtínhriêng tư: CSDL sử dụng cho mục đích khaithácliệu CSDL tập trung hay phântán nhiều nơi nên có hướng tiếp cận khác để bảođảmtínhriêngtư cho loại CSDL Với CSDL tập trung ta thực biến ñổi liệu ñể ẩn thơng tin nhạy cảm trước đưa vào khaithác không tiết lộ thông tin nhạy cảm Đối với CSDL phântán có hai cách để thực hiện: Cách 1, CSDL cục thực biến đổi liệu sau tập trung liệu thành CSDL tập trung, ta thực khaithác CSDL tập trung này, liệu ñã ñược biến đổi nên khơng làm tínhriêngtư Tuy nhiên phương pháp yêu cầu chi phí truyền thông lớn phải truyền tất liệu cục bộ, kếtkhaithác khơng hồn tồn xác dự đốn liệu nhạy cảm phương pháp biến đổi khơng đủ mạnh Cách 2, thực khaithácliệuphân tán, theo cách CSDL phải chia sẻ liệu với nên làm tínhriêngtư liệu, cần có giao thức để bảođảmtínhriêngtư cho trường hợp Cách áp dụng ứng dụng đòi hỏi kếtkhaithác xác, cần tínhriêngtư cao mà phương pháp cho CSDL tập trung khơng đáp ứng hay hạ tầng mạng nên tập trung liệu Xiaodan Wu [1] phân loại giao thức bảođảmtínhriêngtư cho CSDL tập trung CSDL phântán dựa theo cơng trình cơng bố từ năm 2000 đến cuối năm 2006 Với CSDL tập trung, giao thức ñề xuất cho mục ñích ẩn luật ẩn liệu cho thuật toán KTDL phân lớp, gom nhóm, luậtkết hợp, sử dụng kỹ thuật: tổng qt hóa (generalization), biến đổi liệu (data distortion), làm giảm bớt (data sanitation), ngăn chặn (blocking) Với CSDL phân tán, giao thức ñều dựa kỹ thuật mã hóa áp dụng để ẩn liệu Có loại phântánliệu chính: Phântán ngang: site khác thu thập ñặc trưng thông tin thực thể khác nhau, ví dụ: ngân hàng, Citibank JPMorgan Chase, hình 1.1, ngân hàng thu thập thơng tin thẻ tín dụng khách hàng, thuộc tính ñều nhau, ta gộp CSDL lại để tăng độ xác dự đốn gian lận Phântán dọc: site thu thập ñặc trưng khác tập thực thể, ví dụ: bệnh viện (hoặc công ty bảo hiểm) thu thập mẫu tin y khoa, nhà cung cấp dịch vụ khơng dây thu thập thơng tin khác hình 1.2, ta gộp thơng tin lại khác hàng thực khaithác để tìm mối tương quan Để đánh giá các giao thức bảođảmtínhriêng tư, ta sử dụng tiêu chí sau (theo [2]): Hiệu năng: Thời gian u cầu, chi phí tính tốn truyền thơng (với liệuphân tán) Tính hiệu dụng liệu: Độ xác hữu ích thơng tin khaithác ñược từ CSDL sau áp dụng kỹ thuật bảođảmtínhriêngtư Mức độ khơng chắn: Xác suất để đốn thơng tin ẩn Tính chịu đựng kỹ thuật KTDL khác: Khả tìm thông tin nhạy cảm cách sử dụng kỹ thuật KTDL khác sau q trình bảođảmtínhriêngtư 6 MƠ HÌNH CSDL TỒN CỤC MÃ THẺ Trạng thái Tín dụng Số giao dịch ZIP Ngân hàng CitiBank (Thẻ tín dụng) RPJ Active