Đánh giá một thuật toán PPDM

Một phần của tài liệu Khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 36 - 37)

Việc đề ra những tiêu chuẩn hợp lý để đánh giá một thuật toán phục vụ PPDM là rất quan trọng. Thông thƣờng, không có thuật toán nào có thể đáp ứng tốt tất cả các tiêu chuẩn đề ra, nên khi so sánh các thuật toán thì chỉ có thể so sánh dựa trên một hoặc một số tiêu chuẩn mà thôi, và ta đang muốn đạt mức tối ƣu ở tiêu chuẩn nào của một thuật toán thì chỉ chọn ra và đánh giá dựa trên tiêu chuẩn đó. Cần biết rằng việc chỉnh sửa dữ liệu để phục vụ cho PPDM làm giảm tính hữu dụng của một cơ sở dữ liệu. Thƣờng ngƣời ta dựa trên các độ đo sau để đánh giá một thuật toán PPDM [37]:

1.3.3.1. Dựa vào hiệu năng

Là thời gian cần thiết để thuật toán thực hiện xong việc giấu một tập hợp các thông tin nhạy cảm cho trƣớc. Có thể dựa vào chi phí tính toán để đánh giá điều này, hoặc dựa vào số tác vụ trung bình cần thiết để giảm tần suất xuất hiện của thông tin nhạy cảm nào đó đạt mức thấp hơn ngƣỡng cho trƣớc. Ngoài ra, chi phí đƣờng truyền để chuyển tải thông tin giữa các trạm trong môi trƣờng phân tán cũng cần phải kể đến và giảm thiểu trong các thuật toán PPDM phục vụ cho môi trƣờng phân tán.

1.3.3.2. Dựa vào tính hữu dụng của dữ liệu

Đƣợc đo trên dữ liệu sau khi áp dụng kỹ thuật đảm bảo tính riêng tƣ, đƣợc tính bằng độ mất mát thông tin hoặc độ mất chức năng của dữ liệu. Để giấu thông tin nhạy cảm, ta thƣờng sửa đổi để làm sai lệch thông tin hoặc làm mất thông tin (ví dụ thay dữ liệu thật bởi giá trị unknown). Khi ta thay đổi cơ sở dữ liệu càng nhiều (để giấu thông tin nhạy cảm) thì cơ sở dữ liệu càng giảm thông tin chứa đựng trên dữ liệu. Độ mất mát thông tin phụ thuộc vào thuật toán khai thác dữ liệu và thuật toán đảm bảo tính riêng tƣ của dữ liệu. Trong bài toán khai thác tìm luật kết hợp, độ mất thông tin tính bằng số luật mất đi (lost rules) và số luật mới xuất hiện (ghost rules), hoặc độ tăng/ giảm độ hỗ trợ và độ tin cậy của tất cả các luật.

1.3.3.3. Dựa vào mức độ không tin chắc

Đƣợc đo trên dữ liệu sau khi đã giấu thông tin nhạy cảm, dựa trên thông tin suy đoán đƣợc từ dữ liệu này. Thông tin nhạy cảm dù đã đƣợc giấu bởi thuật toán nhƣng vẫn có thể bị đoán ra với mức độ không tin chắc nào đó. Thuật toán giấu dữ liệu cần đạt đƣợc mức độ không tin chắc là cao nhất, nghĩa là ngƣời sử dụng dữ liệu (sau khi đã giấu thông tin nhạy cảm) không thể tin chắc vào điều mà họ có đƣợc từ việc suy đoán.

1.3.3.4. Dựa vào độ chịu đựng

Là quan trọng nhất, để đánh giá thuật toán có thật sự giấu đƣợc thông tin nhạy cảm hay không. Thƣờng thì thuật toán giấu thông tin nhạy cảm đƣợc xây dựng chỉ cho một thuật toán khai thác dữ liệu nào đó, nhƣng kẻ tấn công dữ liệu lại thƣờng dùng nhiều thuật toán khai thác khác nhau để khai thác thông tin. Vì vậy, một thuật toán giấu thông tin nhạy cảm cần đƣợc đánh giá khả năng chịu đựng dựa trên nhiều thuật toán khai thác.

Một phần của tài liệu Khai thác dữ liệu phân tán bảo toàn tính riêng tư (Trang 36 - 37)