1.3.1. Khái niệm
Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu. Các dữ liệu dùng để khai thác có thể liên quan đến một cá nhân hay m ột tổ chức. Bản thân dữ liệu là thơng tin nhạy cảm hoặc q trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm. Ngồi ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu
góp chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình. Khai thác dữ liệu đảm bảo tính riêng tƣ (Privacy Preserving Data Mining - PPDM) là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu.
Trong các thuật toán và giải thuật đề xuất ở chƣơng 3, với mỗi thuật tốn, luận án đã đƣa ra khái niệm về tính riêng tƣ và đánh giá khả năng bảo tồn tính riêng tƣ trong từng trƣờng hợp cụ thể.
1.3.2. Phân loại các phƣơng pháp PPDM
Có nhiều cách tiếp cận dùng cho PPDM. Từ đó có nhiều cách phân loại khác nhau. Mỗi cách phân loại giúp ta hiểu vấn đề ở một khía cạnh khác nhau.
1.3.2.1. Dựa trên các tiêu chí
Trong [36] các tác giả đã đƣa ra các tiêu chí phân loại PPDM bao gồm:
Sự phân bố dữ liệu (Data distribution): dữ liệu tập trung hoặc dữ liệu phân
tán. Trong trƣờng hợp dữ liệu là phân tán thì phân tán ngang hoặc phân tán dọc.
Sửa đổi dữ liệu (Data modification): sửa đổi các giá trị nguyên thủy của cơ sở
dữ liệu trƣớc khi gửi cho nhiều ngƣời nhận nhằm bảo vệ tính riêng tƣ. Kỹ thuật sửa đổi này phải phù hợp với chính sách riêng tƣ đang đƣợc sử dụng. Có thể liệt kê các phƣơng pháp nhƣ sau:
a) Thay giá trị thực bằng giá trị mới (đổi 1 thành 0 hoặc làm nhiễu dữ liệu). b) Làm cản trở phân tích dữ liệu bằng cách thay thế giá trị đã có thành “?”. c) Gom hoặc trộn lại, là sự kết hợp nhiều giá trị thành một phân loại thô hơn. d) Đổi chỗ giữa các giá trị trong từng dòng dữ liệu.
e) Tạo mẫu: chỉ cho chia sẻ những dữ liệu mang tính chất chung.
Giấu dữ liệu hoặc giấu luật (Data or rule hiding): gồm việc giấu dữ liệu thô
hoặc dữ liệu kết hợp dạng luật. Có nhiều phƣơng pháp (heuristic) dùng cho việc giấu dữ liệu kết hợp dƣới dạng luật có độ phức tạp khác nhau. Việc giảm bớt dữ liệu khi chia sẻ sẽ làm cho việc suy diễn yếu hơn hoặc cho ra giá trị suy diễn có độ tin cậy thấp. Quá trình này gọi là luật nhầm lẫn (rule confusion).
Bảo vệ riêng tƣ (Privacy preservation): là quan trọng nhất, liên quan đến các
kỹ thuật bảo vệ tính riêng tƣ dùng để sửa đổi dữ liệu có chọn lọc. Sửa đổi dữ liệu có chọn lọc nhằm cho dữ liệu vẫn có tính thiết thực cao nhƣng khơng ảnh hƣởng đến tính riêng tƣ. Các kỹ thuật này gồm có:
a) Kỹ thuật dựa trên Heuristic (Heuristic-based techniques) nhƣ là chỉnh sửa thích nghi, tức là chỉ chỉnh sửa một cách có chọn lọc để giảm thiểu việc mất đi tính thiết thực của dữ liệu sau khi đã chỉnh sửa.
b) Kỹ thuật dựa trên phƣơng pháp mã hóa (Cryptographic-based techniques) ví dụ nhƣ kỹ thuật bảo mật tính tốn đa thành phần SMC (Secure multiparty computation), trong đó có nhiều ngƣời tham gia vào một hệ thống phân tán, mỗi ngƣời có một dữ liệu đầu vào (input) và tham gia q trình tính tốn dựa trên một hoặc một số dữ liệu đầu vào khác để cho ra kết quả cuối cùng (output). Từng ngƣời tham gia chỉ biết giá trị input của mình và kết quả trả về, ngồi ra khơng biết dữ liệu và kết quả của ngƣời khác.
c) Kỹ thuật dựa trên sự tái tạo (Reconstruction-based techniques): Sự phân bố của dữ liệu nguyên thủy đƣợc tái tạo lại từ dữ liệu ngẫu nhiên.
1.3.2.2. Dựa trên kỹ thuật
Nhóm 1: Chia sẻ dữ liệu (Data-sharing techniques): gồm các thuật toán làm
thay đổi dữ liệu ban đầu để giấu đi dữ liệu nhạy cảm. Có thể chia ra làm 3 loại: a) Xóa bớt item (item restriction – based): là làm giảm độ hỗ trợ hoặc độ tin
cậy (trong bài tốn tìm luật kết hợp) của luật bằng cách xóa giao tác hoặc một/ một số item của một giao tác để giấu luật nhạy cảm.
b) Thêm item (item addition-based): thêm item ảo vào các giao tác nhằm giấu đi một số luật nhạy cảm (và phát sinh tri thức khơng có thật).
c) Thay bằng giá trị unknown (?): để giấu tri thức nhạy cảm.
Nhóm 2: Chia sẻ tri thức khám phá đƣợc từ dữ liệu (Pattern-sharing
techniques), gồm các thuật toán giấu luật khai thác đƣợc chứ không phải giấu dữ liệu. Các giải pháp thuộc loại này tìm cách loại bỏ các luật nhạy cảm trƣớc khi chia sẻ luật hoặc chia sẻ theo kiểu bảo mật tính tốn đa thành phần SMC.
1.3.2.3. Dựa trên cấp độ
Cấp độ 1: Gồm các kỹ thuật áp dụng trên dữ liệu thơ ban đầu với mục đích
tránh mất dữ liệu hoặc tri thức nhạy cảm hoặc kỹ thuật bảo vệ tính riêng tƣ của hai hay nhiều ngƣời tham gia muốn khai thác trên dữ liệu chung nhƣng không muốn mất thông tin riêng tƣ trên dữ liệu của từng ngƣời.
Cấp độ 2: Gồm các kỹ thuật đảm bảo tính riêng tƣ đƣợc nhúng trong thuật
toán khai thác dữ liệu. Thông thƣờng, những chuyên gia về dữ liệu dùng các ràng buộc trƣớc khi hoặc trong khi thực hiện khai thác.
Cấp độ 3: Gồm các kỹ thuật áp dụng trên kết quả của quá trình khai thác
nhằm đạt đƣợc cùng mục đích nhƣ ở cấp độ 1.
1.3.3. Đánh giá một thuật toán PPDM
Việc đề ra những tiêu chuẩn hợp lý để đánh giá một thuật toán phục vụ PPDM là rất quan trọng. Thơng thƣờng, khơng có thuật tốn nào có thể đáp ứng tốt tất cả các tiêu chuẩn đề ra, nên khi so sánh các thuật tốn thì chỉ có thể so sánh dựa trên một hoặc một số tiêu chuẩn mà thôi, và ta đang muốn đạt mức tối ƣu ở tiêu chuẩn nào của một thuật tốn thì chỉ chọn ra và đánh giá dựa trên tiêu chuẩn đó. Cần biết rằng việc chỉnh sửa dữ liệu để phục vụ cho PPDM làm giảm tính hữu dụng của một cơ sở dữ liệu. Thƣờng ngƣời ta dựa trên các độ đo sau để đánh giá một thuật toán PPDM [37]:
1.3.3.1. Dựa vào hiệu năng
Là thời gian cần thiết để thuật toán thực hiện xong việc giấu một tập hợp các thông tin nhạy cảm cho trƣớc. Có thể dựa vào chi phí tính tốn để đánh giá điều này, hoặc dựa vào số tác vụ trung bình cần thiết để giảm tần suất xuất hiện của thơng tin nhạy cảm nào đó đạt mức thấp hơn ngƣỡng cho trƣớc. Ngồi ra, chi phí đƣờng truyền để chuyển tải thơng tin giữa các trạm trong môi trƣờng phân tán cũng cần phải kể đến và giảm thiểu trong các thuật toán PPDM phục vụ cho môi trƣờng phân tán.
1.3.3.2. Dựa vào tính hữu dụng của dữ liệu
Đƣợc đo trên dữ liệu sau khi áp dụng kỹ thuật đảm bảo tính riêng tƣ, đƣợc tính bằng độ mất mát thơng tin hoặc độ mất chức năng của dữ liệu. Để giấu thông tin nhạy cảm, ta thƣờng sửa đổi để làm sai lệch thơng tin hoặc làm mất thơng tin (ví dụ thay dữ liệu thật bởi giá trị unknown). Khi ta thay đổi cơ sở dữ liệu càng nhiều (để giấu thơng tin nhạy cảm) thì cơ sở dữ liệu càng giảm thông tin chứa đựng trên dữ liệu. Độ mất mát thông tin phụ thuộc vào thuật toán khai thác dữ liệu và thuật toán đảm bảo tính riêng tƣ của dữ liệu. Trong bài tốn khai thác tìm luật kết hợp, độ mất thơng tin tính bằng số luật mất đi (lost rules) và số luật mới xuất hiện (ghost rules), hoặc độ tăng/ giảm độ hỗ trợ và độ tin cậy của tất cả các luật.
1.3.3.3. Dựa vào mức độ không tin chắc
Đƣợc đo trên dữ liệu sau khi đã giấu thông tin nhạy cảm, dựa trên thơng tin suy đốn đƣợc từ dữ liệu này. Thông tin nhạy cảm dù đã đƣợc giấu bởi thuật tốn nhƣng vẫn có thể bị đốn ra với mức độ khơng tin chắc nào đó. Thuật tốn giấu dữ liệu cần đạt đƣợc mức độ không tin chắc là cao nhất, nghĩa là ngƣời sử dụng dữ liệu (sau khi đã giấu thông tin nhạy cảm) khơng thể tin chắc vào điều mà họ có đƣợc từ việc suy đoán.
1.3.3.4. Dựa vào độ chịu đựng
Là quan trọng nhất, để đánh giá thuật tốn có thật sự giấu đƣợc thơng tin nhạy cảm hay khơng. Thƣờng thì thuật tốn giấu thơng tin nhạy cảm đƣợc xây dựng chỉ cho một thuật toán khai thác dữ liệu nào đó, nhƣng kẻ tấn cơng dữ liệu lại thƣờng dùng nhiều thuật toán khai thác khác nhau để khai thác thơng tin. Vì vậy, một thuật tốn giấu thơng tin nhạy cảm cần đƣợc đánh giá khả năng chịu đựng dựa trên nhiều thuật toán khai thác.