1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo công nghệ thông tin đề tài privacy preserving data mining

66 993 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 0,95 MB

Nội dung

Privacy Preserving Data Mining GVHD: PGS. TS. Đặng Trần Khánh SVTH: Mai Trần Thục Trinh Lê Hà Minh Nội dung  Khai thác dữ liệu là gì?  Các phương pháp khai thác dữ liệu  Một số lĩnh vực khai thác và công cụ  Tại sao phải đảm bảo tính riêng tư trong KTDL  Tiêu chí phân loại  Các phương pháp bảo toàn tính riêng tư trong KTDL  Kết luận Khai thác dữ liệu là gì?  Khai thác dữ liệu (data mining) là việc trích ra các tri thức chưa được nhận ra, tiềm ẩn trong tập dữ liệu lớn một cách tự động Quá trình khai thác  Khai thác dữ liệu là một bước của quá trình khai thác tri thức, bao gồm:  Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.  Chuẩn bị dữ liệu, bao gồm các quá trình làm sạch dữ liệu, tích hợp dữ liệu, chọn dữ liệu, biến đổi dữ liệu.  Khai phá dữ liệu: xác định nhiệm vụ khai thác dữ liệu và lựa chọn kĩ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.  Đánh giá: dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.  Triển khai.  Quá trình khai phá tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua. Quá trình khai thác Các phương pháp khai thác dữ liệu  Phân loại (Classification)  Hồi qui (Regression)  Phân nhóm (Clustering)  Tổng hợp (Summarization)  Mô hình ràng buộc (Dependency modeling)  Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) Các lĩnh vực ứng dụng  Thiên văn học  Tin sinh học  Bào chế thuốc  Thương mại điện tử  Phát hiện lừa đảo  Quảng cáo  Marketing  Quản lý quan hệ khách hàng  Chăm sóc sức khỏe  Viễn thông  Thể thao, giải trí  Đầu tư  Máy tìm kiếm (web) Một số công cụ khai thác dữ liệu Boxplots from Statsoft: Multiple Variable Combinations 2/2/15Data Mining: Concepts and Techniques9 Visualization of Data Mining Results in SAS Enterprise Miner: Scatter Plots  2/2/15Data Mining: Concepts and Techniques10 [...]...  Người dùng không muốn bị lộ những thông tin cá nhân “nhạy cảm” Sự ảnh hưởng đối với xã hội  Khai thác dữ liệu có là mối nguy hiểm cho việc bảo mật thông tin cá nhân?  Thông tin cá nhân được thu thập mọi lúc mọi nơi  Credit card, debit card, supermarket loyalty card, or frequent flyer card  Lướt Web, thuê video, điền vào các thông tin cá nhân trên Web  Thông tin về tình hình sức khỏe, khám và... thấy Visualization of Data Mining Processes by Clementine See your solution discovery process clearly Understand variations with visualized data Tại sao phải đảm bảo tính riêng tư trong khai thác dữ liệu  Dữ liệu thô có tính nhạy cảm như định danh, tên hoặc địa chỉ mà người dùng không muốn tiết lộ nhưng vẫn bị kẻ xấu khai thác với mục đích xấu Person-specific data Data owner Data recipients Tại sao... Random-noise-based perturbation  Sau đó, Evmievski et al đề xuất phương pháp privacy preserving association rule mining  Kargupta et al đề xuất random matrix-based spectral filtering technique để khám phá dữ liệu ban đầu từ dữ liệu nhiễu  Huang et al sau đó đề xuất 2 cách tái cấu trúc khác là: PCA-DR và MLE-DR  Thêm vào đó, một vài thuật toán tái cấu trúc khác cũng được đề xuất tùy thuộc vào toán tử phát sinh ngẫu... thác luật kết hợp với những ràng buộc về bí mật  Du and Zhan đề xuất phương pháp privacy preserving decision tree building  Guo et al đánh địa chỉ cấp phát cung cấp những hạn định chính xác của các cách đo lường tái cấu trúc trong in privacy peserving market basket data analysis MASK  MASK: Mining Associations with Secrecy Konstraints  Database Systems Lab Indian Institute of Science  http://dsl.serc.iisc.ernet.in/projects/MASK/... kỹ thuật đơn giản dễ dàng thực hiện trong dữ liệu thu thập về thời gian  Nó còn cung cấp một kỹ thuật hữu dụng để che dấu dữ liệu cá nhân trong "privacy preserving datamining"  Phương pháp này thật sự hiệu quả Tuy nhiên, nó trả về kết quả mất mát thông tin cao ...  Openess: cá nhân có quyền biết thông tin được thu thập bởi cá nhân đó, ai đã truy cập vào dữ liệu, và dữ liệu đó được sử dụng như thế nào  Phát triển các kỹ thuật đảm bảo tính bảo mật  Blind signatures  Biometric encryption  Anonymous databases Tiêu chí phân loại  Mục đích: dựa vào tiêu chí biến đổi dữ liệu sang dạng khác mà vẫn đảm bảo:  Khai thác được thông tin đúng,  Đảm bảo tính an toàn,... Thông tin về tình hình sức khỏe, khám và điều trị, số lần đến gặp bác sĩ  Thu thập các thông tin cá nhân có thể làm lợi cho tổ chức hoặc công ty nào đó, và đó cũng là tiềm tàng để sử dụng cho mục đích xấu Đảm bảo tính riêng tư và bảo mật dữ liệu  Các phương pháp thường dùng  Hướng dẫn quốc tế cho việc bảo vệ thông tin cá nhân  Giới hạn việc liên quan đến thu thập dữ liệu, mục đích, số lượng, cá nhân... được đề xuất dựa vào thuật toán Bayesian để ước lượng lại dữ liệu nguyên thủy tùy thuộc vào toán tử phát sinh ngẫu nhiên 10 V Age 90 Original Distribution for Age Probabilistic estimate of original value of V Randomized Response Scheme  The Randomized Response (RR) được đề xuất lần đầu tiên bởi Warner  RR là một kỹ thuật phát triển nguyên thủy trong cộng đồng thống kê để tập hợp các dữ liệu thông tin. ..Visualization of Association Rules in SGI/MineSet 3.0 Visualization of a Decision Tree in SGI/MineSet 3.0 Visualization of Cluster Grouping in IBM Intelligent Miner Data Mining Process Visualization  Các công cụ trên trình bày các loại tiến trình khác nhau trong khai thác dữ liệu ở các dạng khác nhau mà con người nhìn thấy được  Tiến trình rút trích dữ liệu  Nơi mà dữ liệu được rút... toàn thông tin cá nhân đối với người khai thác dữ liệu thật sự Phương pháp phát sinh ngẫu nhiên  Nhìn chung, phương pháp phát sinh ngẫu nhiên nhằm mục đích tìm kiếm giá trị cân bằng giữa  Bảo toàn riêng tư  Khám phá tri thức  Đại diện cho phương pháp phát sinh ngẫu nhiên bao gồm:  Random-noise-based perturbation  Randomized Response Scheme Random-noise-based perturbation  Agrawal và Srikant đề . 3.0 2/2/1 5Data Mining: Concepts and Techniques12 Visualization of Cluster Grouping in IBM Intelligent Miner 2/2/1 5Data Mining: Concepts and Techniques13 Data Mining Process Visualization  Các công. thông tin cá nhân?  Thông tin cá nhân được thu thập mọi lúc mọi nơi  Credit card, debit card, supermarket loyalty card, or frequent flyer card  Lướt Web, thuê video, điền vào các thông tin. thác với mục đích xấu Data owner Data recipients Person-specific data Tại sao phải đảm bảo tính riêng tư trong khai thác dữ liệu  Người dùng không muốn bị lộ những thông tin cá nhân “nhạy cảm” Sự

Ngày đăng: 02/02/2015, 12:36

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w