Cách cơ bản nhất để nặc danh hóa mạng xã hội là loại bỏ tất cả các thuộc tính của các hồ sơ, chỉ để lại cấu trúc liên kết xã hội. Điều này sẽ tạo ra một đồ thị đã được nặc danh hóa mà đẳng cấu với đồ thị ban đầu. Nếu trong hồ sơ không có thuộc tính định danh thì tiết lộ thuộc tính và tiết lộ định danh không xảy ra. Thực tế phương pháp này loại bỏ được rất nhiều thông tin quan trọng nhưng các nghiên cứu trong [5] đã chỉ ra phương pháp này không đảm bảo sự riêng tư của người sử dụng. Tiết lộ định danh và tiết lộ liên kết xã hội xảy ra khi xác định được đồ thị con trong đồ thị đã nặc danh.
Active Attack: kẻ tấn công tạo ra k tài khoản và liên kết chúng một cách ngẫu nhiên. Sau đó kẻ tấn công tạo ra một mẫu các liên kết cụ thể đến một tập m người sử dụng khác nhau mà kẻ tấn công muốn theo dõi. Mục tiêu là tìm hiểu xem có hai node đang được theo dõi có liên kết với nhau hay không? Khi dữ liệu đã được nặc danh hóa, kẻ tấn công có thể xác định được đồ thị con của các node tương ứng với k tài khoản đã tạo với xác suất cao. Sau đó kẻ tấn công có thể khôi phục lại định danh của m node đang được theo dõi và liên kết của các node này.
Passive Attack: hoạt động tương tự. k người dùng ghi lại thông tin các liên
kết của họ tại thời điểm dữ liệu được nặc danh hóa và thông đồng với nhau để chia sẻ các mẫu thức liên kết này.
26
3.1.2 Nặc danh hóa thuộc tính của ngƣời sử dụng và cấu trúc
mạng
Nếu chỉ cung cấp cấu trúc mạng là chưa đủ để nghiên cứu việc bảo vệ tính riêng tư trong mạng xã hội mà cần phải xem xét thêm các thuộc tính của các node như: giới tính, tuổi tác, quốc tịch.
Trong [6], các tác giả đã nghiên cứu các vấn đề về tiết lộ liên kết xã hội trong các đồ thị với nhiều mối liên hệ phức tạp. Giả định kẻ tấn công có một mô hình thống kê chính xác để dự đoán các mối quan hệ nhạy cảm nếu biết trước các thuộc tính của các node và cạnh trong đồ thị ban đầu. Do đó các thuộc tính phải được nặc danh.
Đầu tiên, mỗi node được xem như là một bảng các dòng dữ liệu và các thuộc tính của bảng này sẽ được nặc danh hóa bằng phương pháp k-nặc danh để tạo ra các lớp tương đương.
Tiếp theo, cấu trúc của mạng được bảo vệ bằng cách lưu giữ thông tin cấu trúc tổng hợp bên trong và giữa các lớp tương đương.
3.2 Bảo vệ tính riêng tƣ trong mạng liên kết (Affiliation Network)
27
Hình 3.1 mô tả mạng liên kết với bên trái là các người dùng, bên phải là các bộ phim mà họ xếp hạng. Mạng liên kết này sẽ được biểu diễn là một đồ thị phân đôi. Các liên kết giữa các node trong đồ thị sẽ được đánh trọng số tương ứng với mức độ xếp hạng của người dùng.
Công ty cho thuê phim trực tuyến Netflix đã tổ chức một cuộc thi nhằm cải tiến hệ thống giới thiệu phim của họ. Họ đã cung cấp một tập dữ liệu với khoảng 100 triệu xếp hạng theo ngày từ 480.000 khách hàng được chọn ngẫu nhiên. Để bảo vệ tính riêng tư của người dùng, các thuộc tính định danh đã được thay thế bằng các giá trị định danh ngẫu nhiên bằng phương pháp nặc danh hóa.
Các tác giả trong [7] đã chứng minh việc nặc danh hóa này không đủ mạnh, dễ bị tấn công dùng phương pháp linking attack. Sử dụng thông tin ngày xếp hạng và so trùng tập dữ liệu với hồ sơ của người sử dụng trên cơ sở dữ liệu phim trực tuyến IMDB , các tác giả đã lấy được các thuộc tính nhạy cảm và thuộc tính định danh của người dùng trong tập dữ liệu của Netflix.
Trong [8], các tác giả đã đề xuất một giải thuật giữ nguyên vẹn cấu trúc nhưng tổn quát hóa các thuộc tính của đồ thị. Giải thuật yêu cầu mỗi node phải khác với ít nhất k-1 node khác về mặt thuộc tính và mỗi nhóm liên kết phải phân biệt với ít nhất l-1 nhóm liên kết khác. Giải thuật này ngăn chặn tiết lộ liên kết của mạng
liên kết nhưng vẫn đảm bảo trả lời chính xác các câu truy vấn tổng hợp về người dùng và các nhóm liên kết.
28
CHƢƠNG 4: TỔNG KẾT
4.1 Những công việc đã làm
Đề tài đã tìm hiểu các kiến thức về:
- Tìm hiểu khái niệm mạng xã hội, mạng liên kết.
- Tìm hiểu cấu trúc mạng xã hội, cấu trúc đồ thị tương tác, cấu trúc mạng liên kết và hành vi người dùng.
- Tìm hiểu các vấn đề về tính riêng tư và các phương pháp bảo vệ tính riêng tư trong mạng xã hội, liên kết.
- Phân tích, đánh giá các kết quả nghiên cứu được.
4.2 Đóng góp của đề tài
Khai phá dữ liệu và bảo vệ tính riêng tư trong khai phá dữ liệu mạng xã hội, liên kết là các lĩnh vực nghiên cứu khá rộng, còn khá mới mẻ và thu hút nhiều sự quan tâm hiện nay. Đề tài đã tìm hiểu và hệ thống hóa lại các vấn đề liên quan đến khái niệm, cấu trúc mạng xã hội, liên kết; tính riêng tư, các phương pháp bảo vệ tính riêng tư trong mạng xã hội và chú trọng một vài giải thuật nổi bật trong lĩnh vực nghiên cứu này. Qua đó phân tích và đưa ra các nhận xét về các kết quả nghiên cứu được để làm tiền đề cho hướng phát triển sau này.
4.3 Hƣớng phát triển
Các nghiên cứu của các tác giả đã chỉ ra các vi phạm về tính riêng tư trong mạng xã hội và liên kết dẫn đến nguy cơ tiết lộ các thông tin nhạy cảm như: định danh, thuộc tính, liên kết xã hội, liên kết của mạng liên kết và đưa ra các phương pháp và giải thuật để bảo vệ tính riêng tư người dùng. Tuy nhiên, nhìn chung hầu hết các giải thuật đều dựa vào phương pháp k-anonymity. Về cơ bản, phương pháp này có thể gặp phải các vấn đề sau:
29
Bảng 4.1: thông tin bệnh nhân
Bảng 4.2: thông tin bệnh nhân đã được nặc danh (4 – anonymity) Tấn công đồng nhất (Homogeneity Attack)
Tất cả các giá trị của một thuộc tính nhạy cảm trong một lớp tương đương (nhóm k dòng) đều giống nhau. Do đó mặc dù dữ liệu đã được k-anonymity, giá trị của thuộc tính nhạy cảm cho nhóm k dòng đó có thể được tiên đoán chính xác.
Ví dụ: Alice muốn biết bệnh nhân Bob đang bị bệnh gì và biết các thông tin của Bob như: 31 tuổi, quốc tịch Mỹ, zipcode = 13053. Từ bảng thông tin
30
bệnh nhân đã được nặc danh, Alice đoán là thông tin về Bob chỉ nằm trong các dòng 9, 10, 11, 12. Hơn nữa tất cả các bệnh nhân này đều bị ung thư nên Alice có thể kết luận rằng Bob cũng bị bệnh ung thư.
Tấn công dựa trên tri thức nền tảng (Background Knowledge Attack) Kẻ tấn công có thể có được những tri thức liên quan đến các cá thể và dựa vào đó để thu hẹp miển trị có thể của thuộc tính nhạy cảm. Tri thức này gồm 2 loại:
Instance Level Background Knowledge: tri thức liên quan đến thuộc tính nhạy cảm của các cá thể cụ thể.
Ví dụ: Alice biết thông tin về bệnh nhân Umeko: 21 tuổi, người Nhật, Zipode = 13086. Do đó thông tin về Umeko chỉ nằm ở các dòng 1, 2, 3, 4. Nếu không có thông tin hỗ trợ thêm, Alice không biết Umeko bị nhiễm virus hay bị bệnh tim. Tuy nhiên, “tỷ lệ người Nhật mắc bệnh tim rất thấp” nên Alice kết luận gần như chác chắn Umeko bị nhiễm virus.
Hơn nữa, việc thực hiện k-nặc danh bằng kỹ thuật tổng quát hóa sẽ tác động nhiều đến dữ liệu do đó sẽ làm ảnh hưởng đến giá trị khai thác của dữ liệu.
Do đó có thể phát triển đề tài theo các hướng sau:
1. Tìm hiểu kỹ hơn về các giải thuật của các tác giả, hiện thực hoặc cải tiến các giải thuật. Phân tích, đánh giá kết quả thực nghiệm trên các tập dữ liệu mẫu hoặc thực tế.
2. Áp dụng các phương pháp khác ngoài k-anonymity để bảo vệ tính riêng tư tốt hơn như ℓ-diversity, t-closeness.
3. Sử dụng các kỹ thuật khác ngoài tồng quát hóa để thực hiện biến đổi dữ liệu nhằm duy trì tối đa giá trị khai thác của dữ liệu.
31
TÀI LIỆU THAM KHẢO
[1] Ashwin Machanavajjhala, Daniel Kifer, Johannes Gehrke and Muthuramakrishnan Venkitasubramaniam. ℓ-Diversity: Privacy Beyond k- Anonymity. ACM Transactions on Knowledge Discovery from Data, Volume 1 Issue 1, March 2007.
[2] Charu C. Aggarwal and Philip S. Yu. Privacy-Preserving Data Mining: Models and Algorithms. Springer, 2008.
[3] Elena Zheleva. “Prediction, Evolution and Privacy in Social and Affiliation Networks”. Doctor of Philosophy Thesis, 2011.
[4] Mai Phuc Tien. Luận văn thạc sĩ “Phân tích mạng xã hội ZingMe”. In Proceedings of the 7th VLDB Workshop on Secure Data Management, Singapore, 2011.
[5] L. Backstrom, C. Dwork, and J. Kleinberg. Anonymized Social Networks, Hidden Patterns, and Structural Steganography. In International World Wide Web Conference (WWW), 2007.
[6] E. Zheleva and L. Getoor. Preserving the privacy of sensitive relationships in graph data. KDD Workshop on Privacy, Security, and Trust in KDD (PinKDD) 2007, 4890:153–171, 2008.
[7] A. Narayanan and V. Shmatikov. Robust de-anonymization of large sparse datasets. IEEE Symposium on Security and Privacy, 2008.
[8] G. Cormode, D. Srivastava, T. Yu, and Q. Zhang. Anonymizing bipartite graph data using safe groupings. In International Conference on Very LargeDatabases (VLDB), 2008.