Phân loại các phƣơng pháp PPDM

Một phần của tài liệu Khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 34 - 36)

Có nhiều cách tiếp cận dùng cho PPDM. Từ đó có nhiều cách phân loại khác nhau. Mỗi cách phân loại giúp ta hiểu vấn đề ở một khía cạnh khác nhau.

1.3.2.1. Dựa trên các tiêu chí

Trong [36] các tác giả đã đƣa ra các tiêu chí phân loại PPDM bao gồm:

Sự phân bố dữ liệu (Data distribution): dữ liệu tập trung hoặc dữ liệu phân tán. Trong trƣờng hợp dữ liệu là phân tán thì phân tán ngang hoặc phân tán dọc.

Sửa đổi dữ liệu (Data modification): sửa đổi các giá trị nguyên thủy của cơ sở dữ liệu trƣớc khi gửi cho nhiều ngƣời nhận nhằm bảo vệ tính riêng tƣ. Kỹ thuật sửa đổi này phải phù hợp với chính sách riêng tƣ đang đƣợc sử dụng. Có thể liệt kê các phƣơng pháp nhƣ sau:

a) Thay giá trị thực bằng giá trị mới (đổi 1 thành 0 hoặc làm nhiễu dữ liệu). b) Làm cản trở phân tích dữ liệu bằng cách thay thế giá trị đã có thành “?”. c) Gom hoặc trộn lại, là sự kết hợp nhiều giá trị thành một phân loại thô hơn. d) Đổi chỗ giữa các giá trị trong từng dòng dữ liệu.

e) Tạo mẫu: chỉ cho chia sẻ những dữ liệu mang tính chất chung.

Giấu dữ liệu hoặc giấu luật (Data or rule hiding): gồm việc giấu dữ liệu thô hoặc dữ liệu kết hợp dạng luật. Có nhiều phƣơng pháp (heuristic) dùng cho việc giấu dữ liệu kết hợp dƣới dạng luật có độ phức tạp khác nhau. Việc giảm bớt dữ liệu khi chia sẻ sẽ làm cho việc suy diễn yếu hơn hoặc cho ra giá trị suy diễn có độ tin cậy thấp. Quá trình này gọi là luật nhầm lẫn (rule confusion).

Bảo vệ riêng tƣ (Privacy preservation): là quan trọng nhất, liên quan đến các kỹ thuật bảo vệ tính riêng tƣ dùng để sửa đổi dữ liệu có chọn lọc. Sửa đổi dữ liệu có chọn lọc nhằm cho dữ liệu vẫn có tính thiết thực cao nhƣng không ảnh hƣởng đến tính riêng tƣ. Các kỹ thuật này gồm có:

a) Kỹ thuật dựa trên Heuristic (Heuristic-based techniques) nhƣ là chỉnh sửa thích nghi, tức là chỉ chỉnh sửa một cách có chọn lọc để giảm thiểu việc mất đi tính thiết thực của dữ liệu sau khi đã chỉnh sửa.

b) Kỹ thuật dựa trên phƣơng pháp mã hóa (Cryptographic-based techniques) ví dụ nhƣ kỹ thuật bảo mật tính toán đa thành phần SMC (Secure multiparty computation), trong đó có nhiều ngƣời tham gia vào một hệ thống phân tán, mỗi ngƣời có một dữ liệu đầu vào (input) và tham gia quá trình tính toán dựa trên một hoặc một số dữ liệu đầu vào khác để cho ra kết quả cuối cùng (output). Từng ngƣời tham gia chỉ biết giá trị input của mình và kết quả trả về, ngoài ra không biết dữ liệu và kết quả của ngƣời khác.

c) Kỹ thuật dựa trên sự tái tạo (Reconstruction-based techniques): Sự phân bố của dữ liệu nguyên thủy đƣợc tái tạo lại từ dữ liệu ngẫu nhiên.

1.3.2.2. Dựa trên kỹ thuật

Nhóm 1: Chia sẻ dữ liệu (Data-sharing techniques): gồm các thuật toán làm thay đổi dữ liệu ban đầu để giấu đi dữ liệu nhạy cảm. Có thể chia ra làm 3 loại:

a) Xóa bớt item (item restriction – based): là làm giảm độ hỗ trợ hoặc độ tin cậy (trong bài toán tìm luật kết hợp) của luật bằng cách xóa giao tác hoặc một/ một số item của một giao tác để giấu luật nhạy cảm.

b) Thêm item (item addition-based): thêm item ảo vào các giao tác nhằm giấu đi một số luật nhạy cảm (và phát sinh tri thức không có thật).

c) Thay bằng giá trị unknown (?): để giấu tri thức nhạy cảm.

Nhóm 2: Chia sẻ tri thức khám phá đƣợc từ dữ liệu (Pattern-sharing techniques), gồm các thuật toán giấu luật khai thác đƣợc chứ không phải giấu dữ liệu. Các giải pháp thuộc loại này tìm cách loại bỏ các luật nhạy cảm trƣớc khi chia sẻ luật hoặc chia sẻ theo kiểu bảo mật tính toán đa thành phần SMC.

1.3.2.3. Dựa trên cấp độ

Cấp độ 1: Gồm các kỹ thuật áp dụng trên dữ liệu thô ban đầu với mục đích tránh mất dữ liệu hoặc tri thức nhạy cảm hoặc kỹ thuật bảo vệ tính riêng tƣ của hai hay nhiều ngƣời tham gia muốn khai thác trên dữ liệu chung nhƣng không muốn mất thông tin riêng tƣ trên dữ liệu của từng ngƣời.

Cấp độ 2: Gồm các kỹ thuật đảm bảo tính riêng tƣ đƣợc nhúng trong thuật toán khai thác dữ liệu. Thông thƣờng, những chuyên gia về dữ liệu dùng các ràng buộc trƣớc khi hoặc trong khi thực hiện khai thác.

Cấp độ 3: Gồm các kỹ thuật áp dụng trên kết quả của quá trình khai thác nhằm đạt đƣợc cùng mục đích nhƣ ở cấp độ 1.

Một phần của tài liệu Khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 34 - 36)