1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ẩn danh hóa dữ liệu bằng thuật toán di chuyển tuple

58 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,32 MB

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN PHÚC PHI HỔ

ẨN DANH HÓA DỮ LIỆU

BẰNG THUẬT TOÁN DI CHUYỂN TUPLE

Chuyên ngành : Khoa học máy tính

Mã số :8480101

LUẬN VĂN THẠC SĨ

Trang 2

Cán bộ hướng dẫn khoa học : TS Phan Trọng Nhân, TS Trương Tuấn Anh Cán bộ chấm nhận xét 1 : PGS.TS Nguyễn Tuấn Đăng

Cán bộ chấm nhận xét 2 : TS Nguyễn Quang Hùng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG TP HCM ngày 12 tháng 7 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 Chủ tịch: PGS.TS Trần Minh Quang

2 Thư ký: TS Nguyễn Thị Ái Thảo

3 Phản biện 1: PGS.TS Nguyễn Tuấn Đăng 4 Phản biện 2: TS Nguyễn Quang Hùng 5 Ủy viên:TS Đặng Trần Trí

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGUYỄN PHÚC PHI HỔ MSHV: 2070099

Ngày, tháng, năm sinh: 04/11/1998 Nơi sinh: Phú Yên

Chuyên ngành: Khoa học máy tính Mã số: 8480101 I TÊN ĐỀ TÀI: Ẩn danh hóa dữ liệu bằng thuật tốn di chuyển tuple

Tên đề tài tiếng Anh: Data anonymization through tuple migration approach

II NHIỆM VỤ VÀ NỘI DUNG:

• Tìm hiểu về ẩn danh hóa dữ liệu và phân loại các tiêu chí khi thực hiện ẩn danh • Tìm hiểu những giải thuật đã được đề xuất để xử lý ẩn danh dữ liệu

• Phân tích những đặc trưng riêng trong giải thuật di chuyển tuple với các giải thuật

khác Từ đó cải tiến những giải thuật đã tìm hiểu , đưa ra giải thuật mới • Đánh giá giải thuật mới được đề xuất trong luận văn

III NGÀY GIAO NHIỆM VỤ: 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/07/2023

V CÁN BỘ HƯỚNG DẪN : TS Phan Trọng Nhân , TS Trương Tuấn Anh

TP HCM, ngày tháng 7 năm 2023

CÁN BỘ HƯỚNG DẪN HỘI ĐỒNG NGÀNH

TS Phan Trọng Nhân TS Trương Tuấn Anh

Trang 4

LỜI CẢM ƠN

Lời nói đầu, em xin được gửi lời cảm ơn chân thành và sâu sắc đến các thầy giảng viên hướng dẫn TS Trương Tuấn Anh và TS Phan Trọng Nhân đã hỗ trợ và có những đóng góp hết sức quý báu để giúp em hoàn thành luận văn thạc sĩ này một cách tốt nhất Trong suốt quá trình nghiên cứu đề tài, hai thầy luôn là người định hướng và đề xuất những kiến thức mới về mặt khoa học cho đề tài

Bên cạnh đó, em cũng muốn thay mặt cho toàn thể sinh viên gửi lời biết ơn đến với quý thầy cô của trường Đại học Bách Khoa TPHCM nói chung và của Khoa Khoa học và Kỹ thuật máy tính nói riêng vì đã tận tình chỉ bảo và truyền tải kiến thức thức vô giá cho sinh viên trong khoảng thời gian học tập tại trường cũng như trong con đường sự nghiệp sau này

Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, những người đã ln bên cạnh, động viên và khuyến khích trong q trình thực hiện đề tài nghiên cứu của mình

Xin chân thành cảm ơn Trân trọng

TP Hồ Chí Minh, ngày tháng năm 2023

Trang 5

TÓM TẮT LUẬN VĂN

Trang 6

ABSTRACT

With the increasing prevalence of data collection and analysis, there is a growing concern over the privacy risks posed by personal data Data breaches, identity theft, and other forms of cybercrime are just some of the risks associated with the misuse of personal data An important factor to consider is the trade-off between data quality and privacy when deciding on a data anonymization method Therefore, in this thesis, I will focus on developing an anonymization algorithm to protect the privacy of users when personal data is used, while still ensuring that the data is processed effectively for data mining purposes The algorithm will be built using the tuple migration method to transform data, reducing the number of new generated association rules and lost ones during processing In addition, the thesis will delve deeper into other models beyond k-anonymity, such as l-diversity, to overcomesome of the weaknesses of the k-anonymity model against personal re-identification attacks

Trang 7

Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân

Các số liệu, kết quả trình bày trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào trước đây

Trang 8

Mục lục

CHƯƠNG 1: MỞ ĐẦU 1

1.1 Giới thiệu đề tài 1

1.2 Mục đích nghiên cứu 3

1.3 Giới hạn đề tài 3

1.4 Ý nghĩa khoa học và thực tiễn 3

1.4.1 Ý nghĩa khoa học 3

1.4.2 Ý nghĩa thực tiễn 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6

2.1 Quyền riêng tư và chất lượng dữ liệu 6

2.2 Thuật toán Apriori 7

2.3 Khai phá luật kết hợp trong dữ liệu 9

2.4 Các định nghĩa liên quan khi ẩn danh dữ liệu 11

2.5 Tác động đến chất lượng dữ liệu khi thực hiện ẩn danh 12

CHƯƠNG 3: CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 17

3.1 Mơ hình K-anonymity 17

3.2 Mơ hình L-diversity 18

3.3 Một số thuật tốn ẩn danh 22

3.3.1 Thuật toán Datafly 22

3.3.2 Thuật toán Incognito 23

3.3.3 Thuật toán Flash 24

3.3.4 Thuật toán Mondrian 24

3.4 Kỹ thuật di chuyển tuple 25

CHƯƠNG 4: HƯỚNG TIẾP CẬN VÀ THUẬT TOÁN 28

4.1 Yêu cầu của giải thuật 28

4.2 Ý tưởng giải thuật 30

CHƯƠNG 5: ĐÁNH GIÁ GIẢI THUẬT 34

5.1 Hiện thực giải thuật 34

5.2 Đánh giá thuật toán 39

CHƯƠNG 6: TỔNG KẾT 44

Trang 9

6.2 Hướng phát triển 46

TÀI LIỆU THAM KHẢO 47

Mục lục hình Hình 1: Tổng quan về bảo vệ quyền riêng tư khi xuất bản dữ liệu 1

Hình 2: Tập dữ liệu khơng ẩn danh gồm hồ sơ bệnh nhân một bệnh viện giả định 17 Hình 3: Tập dữ liệu từ hình 1 đã được ẩn danh 18

Hình 4: Dữ liệu bệnh nhân nội trú 19

Hình 5: Dữ liệu bệnh nhân nội trú đạt 4-anonymity 19

Hình 6: Dữ liệu bệnh nhân nội trú đạt 3-diversity 21

Hình 7: Cơng thức tính entropy của lớp tương đương G 21

Hình 8: Sơ đồ thuật tốn Datafly 22

Hình 9: Sơ đồ thuật tốn Incognito 23

Hình 10: Sơ đồ thuật tốn Mondrian 25

Hình 11: Kỹ thuật MM để chuyển đổi dữ liệu đạt được mơ hình k-anonymity 27

Hình 12: Mã giả của chương trình 31

Hình 13: Kiến trúc tổng quát của chương trình 34

Hình 14: Phần trăm luật kết hợp mất đi của 2 giải thuật MAST và M3AR 41

Hình 15: Phần trăm luật kết hợp mới sinh ra của 2 giải thuật MAST và M3AR 41

Hình 16: Tỷ lệ của số lượng tuple có khả năng lộ thơng tin nhạy cảm 42

Hình 17: Phần trăm luật kết hợp mất đi của 2 giải thuật MAST và Flash 43

Trang 10

CHƯƠNG 1: MỞ ĐẦU 1.1 Giới thiệu đề tài

Sự tiến bộ của công nghệ thông tin đã làm tăng khối lượng dữ liệu theo cấp số nhân theo từng năm Trong số những dữ liệu này ngày càng chứa nhiều thông tin cá nhân Lượng dữ liệu cá nhân này đã thu hút sự chú ý của nhiều bên nhằm tạo ra các dịch vụ phù hợp và cá nhân hóa hơn, dựa trên thơng tin nhân khẩu học có sẵn Vì lý do này, các doanh nghiệp và tổ chức trong các lĩnh vực khác nhau thu thập dữ liệu cá nhân có thể được chia sẻ trong nhiều hồn cảnh khác nhau (vì lý do kinh doanh, xã hội hoặc pháp lý) Điều này đã mang lại những thách thức mới để bảo vệ quyền riêng tư của những người có dữ liệu trong tập dữ liệu đã xuất bản

Do đó, bảo vệ quyền riêng tư khi xuất bản dữ liệu (PPDP) đã trở thành một lĩnh vực được các nhà nghiên cứu và học viên quan tâm Một kịch bản điển hình của PPDP được mơ tả trong Hình 1, thể hiện các giai đoạn khác nhau của quá trình xử lý dữ liệu Một giả định chính của mơ hình PPDP là những kẻ tấn cơng có thể tồn tại trong số những người nhận dữ liệu, những kẻ có ý định khám phá thơng tin nhạy cảm về các cá nhân Do đó, mục tiêu của các kỹ thuật PPDP là sửa đổi dữ liệu bằng cách làm cho dữ liệu ít cụ thể hơn để có thể bảo vệ quyền riêng tư của cá nhân; trong khi vẫn duy trì tính hữu ích của dữ liệu được ẩn danh

Trang 11

Bản chất của PPDP là tạo ra các tập dữ liệu hữu ích cho nhiều tác vụ khác nhau, vì thông thường, tất cả các kịch bản tiềm năng của việc sử dụng dữ liệu đều chưa được biết tại thời điểm xuất bản Ví dụ khi cơng bố dữ liệu, không thể xác định tất cả những người nhận dữ liệu Do đó, bất kỳ bên kiểm sốt dữ liệu nào liên quan đến việc chia sẻ dữ liệu cá nhân đều cần áp dụng các cơ chế bảo vệ quyền riêng tư

Tuy nhiên, đây không phải là một nhiệm vụ dễ dàng, vì những nhân viên của đơn vị xuất bản dữ liệu thường không phải là chuyên gia trong lĩnh vực bảo mật dữ liệu Hơn nữa, thường khơng có phương pháp nào đảm bảo rằng việc ẩn danh được tiến hành hiệu quả trong một tổ chức Điều này có thể khiến họ sử dụng các phương pháp hủy nhận dạng đơn giản (ví dụ: xóa tất cả các thuộc tính nhận dạng trực tiếp như tên và số căn cước công dân), trước khi công bố dữ liệu Tuy nhiên, người ta đã chứng minh rằng chỉ riêng phương pháp này là không đủ để bảo vệ quyền riêng tư [1] Sự cố vẫn có thể xảy ra do kết hợp các tuple khác nhau hoặc có kiến thức cơ bản về các cá nhân để suy luận về danh tính của họ Việc xác định lại một cá nhân đạt được bằng cách liên kết các thuộc tính, được gọi là thuộc tính khả định danh (quasi-identifiers-QID), chẳng hạn như giới tính, ngày sinh hoặc mã ZIP

Mơ hình ẩn danh nổi tiếng nhất là k-anonymity [2], cung cấp khả năng bảo vệ quyền riêng tư bằng cách hiển thị dữ liệu khơng thể phân biệt được với ít nhất k-1 dữ liệu khác Tuy nhiên, thông tin nhạy cảm được ẩn danh bằng k-anonymity khơng tuyệt đối an tồn và tồn tại nhược điểm với một số kiểu tấn công Nhiều mơ hình được đề xuất để khắc phục các điểm yếu này, trong đó có l-diversity [3] , kèm theo đó là nhiều kỹ thuật liên quan để đạt được mơ hình này [4] [5]

Trang 12

1.2 Mục đích nghiên cứu

Khi thực hiện ẩn danh hóa dữ liệu, một trong những tiêu chí quan trọng cần cân nhắc là sự đánh đổi giữa độ bảo mật và chất lượng của dữ liệu Mặt khác, dữ liệu thường được khai thác bằng nhiều mô hình , trong đó sử dụng luật kết hợp là phương thức phổ biến Mục tiêu của đề tài là phát triển giải thuật ẩn danh để bảo vệ quyền riêng tư khi thực hiện công khai dữ liệu thu thập tuy nhiên vẫn có khả năng đảm bảo chất lượng dữ liệu được giữ lại tốt nhất Giải thuật ẩn danh hóa dữ liệu đạt bằng cách biến đổi dữ liệu đạt được mơ hình l-diversity để cải thiện điểm yếu trước một số kiểu tấn công so với mơ hình k-anonymity đồng thời đảm bảo dữ liệu đầu ra vẫn có chất lượng khi được sử dụng cho các bên khai phá dữ liệu

1.3 Giới hạn đề tài

Đề tài này sẽ tập trung tìm hiểu:

• Các giải thuật phù hợp để ẩn danh tập dữ liệu dạng bảng đạt được mơ hình l-diversity

• Giải thuật cung cấp dữ liệu khi ẩn danh vẫn hữu ích khi thực hiện khai thác bằng các kỹ thuật dựa trên luật kết hợp

• Giải thuật sẽ hoạt động với các thuộc tính khả định danh và thuộc tính nhạy cảm được người dùng định sẵn

1.4 Ý nghĩa khoa học và thực tiễn

1.4.1 Ý nghĩa khoa học

Trang 13

Thuật toán di chuyển tuple là một phương pháp để giải quyết vấn đề này bằng cách di chuyển các giá trị trong các tuple để tạo ra các tuple mới Việc di chuyển các giá trị này có thể giúp giảm thiểu số lượng luật kết hợp bị mất đồng thời hạn chế số lượng luật kết hợp mới được sinh ra mà vẫn đảm bảo tính ẩn danh của dữ liệu

Ngồi tiêu chí k-anonymity , giải thuật cịn đạt được tiêu chí l-diversity, khác phục được những vấn đề mà mơ hình trước cịn gặp phải Vì vậy, trong lĩnh vực ẩn danh hóa dữ liệu để bảo vệ quyền riêng tư của người dùng, đề tài này có những ý nghĩa khoa học sau:

• Nghiên cứu và tổng kết các giải thuật hiện có cũng như các ưu điểm của mỗi thuật giải

• Đề xuất giải thuật mới tập trung chủ yếu vào việc khai thác luật kết hợp có trong dữ liệu, đồng thời dữ liệu cũng đạt được mơ hình l-diversity có tiêu chí ẩn danh tốt hơn so với mơ hình k-anonymity

• Phân tích những hướng phát triển tiếp theo để giải quyết bài toán đảm bảo chất lượng của dữ liệu sau khi thực hiện ẩn danh một cách tổng quát

1.4.2 Ý nghĩa thực tiễn

Trang 14

Đề tài mang những ý nghĩa thực tiễn sau:

• Về phía người dùng: với mục tiêu ẩn danh dữ liệu, người dùng khi cung cấp các thông tin sẽ hạn chế khả năng bị nhận diện và khám phá các thông tin nhạy cảm của cá nhân Các tổ chức áp dụng quy trình ẩn danh dữ liệu đảm bảo các tiêu chí về sự ẩn danh và riêng tư của người dùng đều được cân nhắc và xử lý • Về phía người quản trị: các tổ chức thu thập dữ liệu thông

Trang 15

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Quyền riêng tư và chất lượng dữ liệu

Sự đánh đổi giữa quyền riêng tư và chất lượng của dữ liệu là sự cân bằng mà các nhà nghiên cứu và tổ chức phải cân nhắc khi quyết định cách xử lý dữ liệu nhạy cảm Một mặt, quyền riêng tư dữ liệu rất quan trọng để bảo vệ thông tin cá nhân của các cá nhân và đảm bảo rằng dữ liệu không bị sử dụng sai mục đích hoặc lạm dụng Mặt khác, chất lượng của dữ liệu rất quan trọng để cho phép nghiên cứu và phân tích có thể dẫn đến những hiểu biết và khám phá ý nghĩa

Mức độ bảo mật dữ liệu và chất lượng dữ liệu được yêu cầu sẽ tùy thuộc vào trường hợp sử dụng và bối cảnh cụ thể Ví dụ: trong một số trường hợp, quyền riêng tư dữ liệu nghiêm ngặt có thể cần thiết để tuân thủ các yêu cầu pháp lý hoặc đạo đức, trong khi trong các trường hợp khác, tiện ích dữ liệu có thể được ưu tiên để hỗ trợ các hoạt động kinh doanh hoặc nghiên cứu quan trọng

Tuy nhiên, thường có sự đánh đổi giữa quyền riêng tư của dữ liệu và chất lượng dữ liệu Ví dụ: để bảo vệ quyền riêng tư của thông tin cá nhân, dữ liệu có thể cần được ẩn danh hoặc tổng hợp, điều này có thể dẫn đến mất thơng tin chi tiết và giảm độ chính xác cũng như tính hữu ích của dữ liệu đối với một số loại phân tích Ngồi ra, nếu dữ liệu khơng được ẩn danh hoặc bảo vệ đầy đủ, dữ liệu đó có thể dễ bị nhận dạng lại hoặc sử dụng sai mục đích, điều này có thể ảnh hưởng đến quyền riêng tư và bảo mật của các cá nhân

Thất thốt thơng tin là một yếu tố quan trọng phải được xem xét khi cân bằng quyền riêng tư dữ liệu và tiện ích dữ liệu Khi dữ liệu được chuyển đổi hoặc xử lý để bảo vệ quyền riêng tư, một số thơng tin có thể bị mất trong q trình này Điều này có thể làm giảm độ chính xác và tính hữu ích của dữ liệu đối với một số loại phân tích nhất định, điều này có thể hạn chế những hiểu biết sâu sắc và khám phá có thể được thực hiện từ dữ liệu

Trang 16

cao có thể rất quan trọng và các nhà nghiên cứu có thể sẵn sàng chấp nhận mức độ mất thông tin cao hơn để bảo vệ thông tin cá nhân Trong các trường hợp khác, tiện ích dữ liệu có thể được ưu tiên và các nhà nghiên cứu có thể sẵn sàng chấp nhận mức độ riêng tư dữ liệu thấp hơn để cho phép phân tích chi tiết và chính xác hơn

Để quản lý sự đánh đổi giữa quyền riêng tư và chất lượng dữ liệu, các nhà nghiên cứu và tổ chức phải xem xét cẩn thận các yêu cầu cụ thể và rủi ro tiềm ẩn liên quan đến dữ liệu của họ Điều này có thể liên quan đến việc tiến hành đánh giá tác động đến quyền riêng tư để xác định các rủi ro tiềm ẩn về quyền riêng tư và phát triển các chiến lược để giảm thiểu những rủi ro đó Nó cũng có thể liên quan đến việc đánh giá hiệu quả của các kỹ thuật ẩn danh và nâng cao quyền riêng tư khác nhau để xác định mức độ mất thơng tin có thể chấp nhận được đối với một tập dữ liệu cụ thể

Nhìn chung, sự đánh đổi giữa quyền riêng tư dữ liệu và tiện ích dữ liệu cũng như lượng thơng tin bị mất có thể chấp nhận được sẽ phụ thuộc vào trường hợp và bối cảnh sử dụng cụ thể Bằng cách cân bằng cẩn thận các yếu tố này, các nhà nghiên cứu và tổ chức có thể đảm bảo rằng dữ liệu nhạy cảm được bảo vệ trong khi vẫn cho phép nghiên cứu và phân tích quan trọng

Trong đề tài này, giải thuật ẩn danh sẽ sử dụng một kỹ thuật phi truyền thống như Tổng quát hóa hay Loại bỏ, mà sử dụng kỹ thuật di chuyển các tuples với khả năng cung cấp dữ liệu có chất lượng tốt hơn khi khai thác bằng luật kết hợp so với các kỹ thuật truyền thống Các kỹ thuật sẽ được trình bày cụ thể ở chương tiếp theo

2.2 Thuật toán Apriori

Thuật toán Apriori [6] là một thuật toán phổ biến được sử dụng để khai thác tập phổ biến và học luật kết hợp trong khai thác dữ liệu và học máy Nó được sử dụng để xác định các tập phổ biến trong một tập dữ liệu nhất định và trích xuất các quy tắc kết hợp từ chúng, có thể được sử dụng để phân tích nhu cầu mua sắm, hệ thống đề xuất và các ứng dụng khác

Trang 17

bằng cách nối các tập mục phổ biến từ lần lặp trước Ý tưởng là nếu một tập phổ biến thì tất cả các tập con của nó cũng phải phổ biến Tính chất này được gọi là "nguyên tắc Apriori"

Thuật toán Apriori gồm các bước :

1 Tính độ hỗ trợ: Bước đầu tiên của thuật tốn Apriori là tính số lần xuất hiện của từng mục trong tập dữ liệu, là số lượng giao dịch có chứa mục đó Bước này liên quan đến việc quét toàn bộ tập dữ liệu và đếm số lần xuất hiện của từng mục

2 Tạo tập phổ biến: Sau khi đã đếm được độ hỗ trợ của từng mục, bước tiếp theo là tạo tập mục phổ biến, là tập mục thường xuyên xuất hiện cùng nhau Một tập phổ biến được định nghĩa là một tập hợp các mục có giá trị hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu do người dùng xác định.Thuật toán Apriori tạo ra các tập phổ biến bằng cách sử dụng cách tiếp cận "từ dưới lên trên", bắt đầu với các mục riêng lẻ và dần dần xây dựng thành các tập mục lớn hơn Các thuật tốn hoạt động như sau:

• Đầu tiên, tất cả các mục riêng lẻ có giá trị hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu được xác định là tập phổ biến

• Tiếp theo, thuật toán lặp lại tạo ra các tập phổ biến ngày càng lớn hơn bằng cách nối các tập phổ biến từ lần lặp trước Cụ thể, thuật toán tạo ra các tập phổ biến có độ dài k+1 bằng cách nối các tập phổ biến có độ dài k có chung k-1 mục đầu tiên

Trang 18

và Y là các tập mục, và luật chỉ ra rằng nếu X xảy ra trong một giao dịch thì Y cũng có khả năng xảy ra

Để tạo các luật kết hợp, thuật tốn Apriori tính tốn độ tin cậy của từng luật, đó là xác suất Y xảy ra trong một giao dịch nếu X xảy ra Độ tin cậy của một quy tắc X -> Y được định nghĩa là độ hỗ trợ của tập phổ biến (X U Y) chia cho độ hỗ trợ của X Sau đó, thuật tốn sẽ chọn các quy tắc đáp ứng ngưỡng độ tin cậy tối thiểu do người dùng xác định

Thuật tốn tiếp tục q trình này cho đến khi khơng tìm thấy tập phổ biến nào nữa Khi các tập mục phổ biến đã được xác định, thuật tốn có thể tạo ra các luật kết hợp bằng cách tính tốn độ tin cậy của từng quy tắc (tức là xác suất mà quy tắc đó tồn tại với tiền đề) và chọn các quy tắc đáp ứng ngưỡng tin cậy tối thiểu do người dùng xác định

Nhìn chung, thuật tốn Apriori là một cách hiệu quả để khám phá các tập phổ biến và rút ra các luật kết hợp từ các tập dữ liệu lớn Tuy nhiên, nó có thể tốn kém về mặt tính tốn đối với các bộ dữ liệu rất lớn và ngưỡng hỗ trợ hoặc ngưỡng tin cậy tối thiểu cao Ngồi ra cịn có các thuật tốn thay thế có thể hiệu quả hơn trong các tình huống nhất định

2.3 Khai phá luật kết hợp trong dữ liệu

Luật kết hợp là một phương pháp xác định mối quan hệ giữa hai hoặc nhiều giá trị trong tập dữ liệu Chúng thường được sử dụng trong khai thác dữ liệu và học máy Luật kết hợp có thể giúp xác định các mẫu hoặc mối tương quan trong dữ liệu, có thể được sử dụng để đưa ra dự đốn hoặc cung cấp thơng tin cho việc ra quyết định Độ hỗ trợ và độ tin cậy là hai biện pháp quan trọng được sử dụng trong khai phá luật kết hợp

Trang 19

chứa tất cả các mục trong luật chia cho tổng số giao dịch trong tập dữ liệu Giá trị hỗ trợ cao cho biết rằng luật xảy ra thường xuyên trong tập dữ liệu

• Độ tin cậy (confidence): Độ tin cậy của luật là tỷ lệ giao dịch chứa tất cả các mục trong luật, cũng như một mục bổ sung Nó đo lường sức mạnh của sự liên kết giữa các mục trong luật Độ tin cậy của một luật có thể được tính bằng độ hỗ trợ của luật chia cho độ hỗ trợ của tiền đề (các mục ở phía bên trái của luật) Giá trị độ tin cậy cao cho thấy luật có tính dự đốn cao

Để tính tốn độ hỗ trợ và độ tin cậy cho một luật, trước tiên chúng ta cần xác định các mục và giao dịch trong tập dữ liệu Giả sử chúng ta có một tập dữ liệu về các giao dịch mua của khách hàng tại một cửa hàng tạp hóa và chúng ta muốn xác định các luật cho biết những mặt hàng nào thường được mua cùng nhau Chúng ta có thể bắt đầu bằng cách đếm số giao dịch có chứa từng mục hoặc kết hợp các mục

Khi chúng ta có số lượng mục, ta có thể tính tốn độ hỗ trợ và độ tin cậy cho từng luật Ví dụ: giả sử chúng ta muốn tính tốn độ hỗ trợ và độ tin cậy cho luật kết hợp "Nếu khách hàng mua sữa, họ cũng có khả năng mua bánh mì"

Để tính tốn độ hỗ trợ cho luật này, ta sẽ đếm số lượng giao dịch trong tập dữ liệu chứa cả sữa và bánh mì, rồi chia số này cho tổng số giao dịch trong tập dữ liệu Nếu có 1000 giao dịch trong tập dữ liệu và 100 giao dịch trong số đó chứa cả sữa và bánh mì, thì độ hỗ trợ cho luật này sẽ là 100/1000 = 0,1 hoặc 10%

Để tính tốn độ tin cậy cho luật này, ta sẽ đếm số lượng giao dịch có cả sữa và bánh mì, rồi chia số này cho số lượng giao dịch có chứa sữa Nếu có 200 giao dịch chứa sữa và 100 giao dịch trong số đó cũng chứa bánh mì, thì độ tin cậy cho quy tắc này sẽ là 100/200 = 0,5 hoặc 50%

Trang 20

Cần lưu ý rằng việc lựa chọn ngưỡng của độ hỗ trợ và độ tin cậy có thể có tác động đáng kể đến số lượng và chất lượng của các quy tắc được phát hiện Việc đặt ngưỡng hỗ trợ thấp có thể dẫn đến các luật có ý nghĩa thống kê thấp, trong khi việc đặt ngưỡng độ tin cậy cao có thể dẫn đến các luật quá cụ thể để trở nên hữu ích Việc tìm kiếm sự cân bằng phù hợp giữa các biện pháp này đòi hỏi phải xem xét cẩn thận dữ liệu và mục tiêu của phân tích

2.4 Các định nghĩa liên quan khi ẩn danh dữ liệu

Trong một cơ sở dữ liệu dạng bảng, mỗi hàng của bảng là một bộ (tuple) và mỗi cột là một thuộc tính Có các loại thuộc tính được định nghĩa trong một cơ sở dữ liệu:

• Quasi-Identifier (QIDs): Là một nhóm các thuộc tính trong bảng dữ liệu, sao cho khi kết hơp các thuộc tính này lại có thể xác định từ một mẫu dữ liệu danh tính thật sự một cá nhân trong dữ liệu đó Hay cịn gọi là nhóm thuộc tính khả định danh

• Sensitive attributes (SA): là các thuộc tính chứa các thơng tin đặc biệt nhạy cảm của một cá nhân Một cá nhân chắc chắn sẽ khơng muốn bị lộ thơng tin này

• Non-Sensitive attibutes (non-SA): là những thuộc tính cịn lại khơng có tính chất đặc biệt

• Equivalence class (EQ): lớp tương đương là một nhóm các tuple có giá trị các thuộc tính QID giống nhau

Một mẫu dữ liệu được cho là có các thuộc tính k-anonymity hoặc l-diversity nếu nó thỏa các tính chất như bên dưới

• K-Anonymity: nếu thơng tin cho mỗi người có trong mẫu đó khơng thể phân biệt với ít nhất k − 1 cá nhân khác trong mẫu

Trang 21

nhưng nhóm này lại có chung giá trị của thuộc tính nhạy cảm (SA) Nếu biết được các cá nhân thuộc nhóm này, thơng tin nhạy cảm của cá nhân sẽ bị lộ Vấn đề này sẽ được giải quyết nếu ràng buộc l-diversity được áp dụng

Giải thuật sẽ cố gắng lưu giữ nhiều luật kết hợp nhất có thể khi chuyển đổi , tuy nhiên thực tế việc này sẽ gặp nhiều khó khăn vì số lượng luật trong tập dữ liệu là rất lớn Do đó giải thuật sẽ chỉ tập trung lưu trữ các luật kết hợp thường xuất hiện trong dữ liệu Ta gọi đây là các luật kết hợp mạnh, và giải thuật sẽ sử dụng 2 ngưỡng giới hạn để xác định các luật kết hợp này có mạnh hay không là s_m và c_m Một luật kết hợp được xem là mạnh nếu nó có độ hỗ trợ lớn hơn s_m và độ tin cậy lớn hơn c_m Nếu không thỏa cả 2, luật kết hợp này sẽ được coi là luật kết hợp yếu

Khi thực hiện di chuyển các tuple giữa hai nhóm a → b, trong đó a và b là các nhóm, sẽ thay đổi tất cả các giá trị QI của một số tuple trong a thành các giá trị tương quan trong b Ví dụ: nhóm a có hai tuple với QI là (x1, y1, t1) và nhóm b có ba tuple với QI là (x2, y2, t2), sự thay đổi a → b sẽ tạo thành nhóm b có năm tuple Các tuple bổ sung là từ nhóm a và các thuộc tính QI của chúng được thay đổi thành (x2, y2, t2)

Việc di chuyển a → b là tồn bộ nếu tất cả các tuple trong nhóm a được chuyển sang nhóm b Ngược lại, nếu chỉ một vài tuple được chuyển, việc di chuyển sẽ là một phần

2.5 Tác động đến chất lượng dữ liệu khi thực hiện ẩn danh

Trang 22

vậy, luận văn sẽ trình bày một giải thuật biến đổi dữ liệu phù hợp với kỹ thuật khai phá dữ liệu dựa theo luật kết hợp

Gọi I = {i1, i2, , in} là tập các thuộc tính có trong tập dữ liệu D chứa các

tuples Một luật kết hợp thuộc D được ký hiệu: A→B (trong đó A⸦I, B⸦I, A∩B=∅)

Cho C = A∪B Ta gọi độ hỗ trợ của C, ký hiệu Support(A →B) = P(C), là tỉ lệ xuất

hiện các tuple chứa cả A và B trong tập dữ liệu D Độ tin cậy của C, ký hiệu

Confidence(A→B) = P(B|A) = P(C)/ P(A) là tỉ lệ các tuple cả A và B trên các tuple chỉ chứa A Độ phổ biến tối thiểu s_m và độ tin cậy tối thiểu c_m là 2 giá trị được định nghĩa bởi người dùng, một luật kết hợp A→B được xem là mạnh khi Support(A →B) = s ≥ s_m và Confidence(A→B) = c ≥ c_m

Khi D được xử lý ẩn danh, sẽ tồn tại các tuples bị thay đổi giá trị của thuộc

tính khả định danh trong đó bao gồm các giá trị thuộc A và B, làm ảnh hưởng đến luật kết hợp A→B Để luật kết hợp A→B được duy trì thì số lượng tuple hỗ trợ luật bị thay đổi không được vượt quá s – s_m, vì khi đó độ phổ biến Support(A →B) = s’ < s_m Tuy nhiên ta còn cần xét đến thay đổi ở độ tin cậy Confidence(A→B)

Trường hợp 1: A bị thay đổi

Gọi n là số lượng tuple bị thay đổi có chứa A, độ phổ biến và độ tin cậy mới

của luật sẽ là:

Trong đó t(A →B) là số lượng tuple chứa cả A và B, t(A) là số lượng tuple chỉ

có A, total là số lượng tuple của D Để luật tồn tại, thì s’ ≥ s_m và c’ ≥ c_m Ngồi

Trang 23

Do đó, số lượng tuple tối đa có thể thay đổi sẽ là :

Trường hợp 2: B bị thay đổi

Tương tự, ta có:

Để luật tồn tại, thì s’ ≥ s_m và c’ ≥ c_m Vì vậy số lượng tuple tối đa có thể thay đổi sẽ là :

Trường hợp 3: A và B cùng thay đổi

Trang 24

Như vậy với mỗi luật kết hợp A →B, sẽ có số lượng n tuple có thể thay đổi trong q trình ẩn danh để luật này vẫn tồn tại, với n được tính theo (1) nếu A bị thay

đổi, và (2) nếu chỉ có B bị thay đổi

Đối với luật kết hợp yếu A →B , giải thuật cũng phải đảm bảo luật này sẽ không trở thành luật kết hợp mạnh khi thực hiện bất kỳ thay đổi nào Khi một tuple bị thay đổi, giá trị thuộc tính bị thay đổi có thể là A hoặc B, do đó độ hỗ trợ và độ tin cậy của luật này bị tác động và luật trở thành luật kết hợp mạnh Trong phần này, chúng ta sẽ tính toán số lượng tuple tối đa mà một luật nhận được trước khi nó trở thành luật kết hợp mạnh s và c là độ hỗ trợ và độ ưu tiên của luật trước khi thay đổi, s’ và c’ là kết quả sau khi thay đổi n là số lượng tuple thêm vào Ta sẽ cân nhắc các trường hợp:

Trường hợp 1: Số lượng A được thêm

Ta ln có:

Trong đó t(A →B) là số lượng tuple chứa cả A và B, t(A) là số lượng tuple chỉ

có A, total là số lượng tuple của D Rõ ràng c’ luôn luôn nhỏ hơn c Ngoài ra :

Do đó nếu chỉ có giá trị A bị thay đổi, luật kết hợp này sẽ không trở thành luật mạnh

Trường hợp 2: B được thêm vào Tương tự trường hợp 1, luật này cũng không

trở thành luật mạnh

Trang 25

Ta có:

Ngoài ra:

Điều kiện để luật này không trở thành luật kết hợp mạnh là s_m ≥ s’ và c_m ≥ c’ Do đó ta có giá trị của n sẽ là:

Trang 26

CHƯƠNG 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 3.1 Mơ hình K-anonymity

K-anonymity là một trong những thuật toán ẩn danh đơn giản nhất để thực hiện đối với dữ liệu có cấu trúc dạng bảng

K-anonymity yêu cầu rằng ở mỗi phiên bản dữ liệu được xuất bản, mọi kết hợp giá trị cho các cột thuộc tính khả định danh trong tập dữ liệu phải xuất hiện ít nhất ở k bản ghi khác nhau Nghĩa là, có 1/k khả năng một cá nhân có thể bị xác định duy nhất trong tập dữ liệu

Hình 2: Tập dữ liệu không ẩn danh gồm hồ sơ bệnh nhân một bệnh viện giả định

Ngày nay, chúng ta có một số kỹ thuật đảm bảo k-anonymity trong dữ liệu

Các kỹ thuật này thường sử dụng một trong hai kỹ thuật: Tổng qt hóa hoặc Loại bỏ

• Tổng quát hóa : tổng quát hóa là việc thay thế một giá trị cụ thể cho một giá

trị tổng quát hơn Ví dụ: tập dữ liệu bao gồm mã zip có thể khái quát mã zip cụ thể thành các quận hoặc thành phố (tức là thay đổi 01234 thành 012**) Độ tuổi có thể được tổng quát hóa thành một khung tuổi (nghĩa là nhóm “Tuổi: 24” thành “Nhóm tuổi: 20-29”) Tổng qt hóa loại bỏ thơng tin nhận dạng có thể thu thập được từ dữ liệu bằng cách giảm tính đặc trưng của thuộc tính

• Loại bỏ(hay áp chế) là q trình loại bỏ hồn tồn giá trị của một thuộc tính

Trang 27

dụng tính năng chặn đối với các điểm dữ liệu khơng liên quan đến mục đích thu thập dữ liệu Ví dụ: nếu dữ liệu được thu thập nhằm mục đích xác định độ tuổi mà các cá nhân có nhiều khả năng mắc một bệnh hoặc tình trạng cụ thể nhất, thì việc loại bỏ dữ liệu độ tuổi sẽ khiến bản thân dữ liệu trở nên vô dụng Loại bỏ thường được áp dụng cho các điểm dữ liệu không liên quan hoặc hầu như không liên quan và phải được áp dụng theo từng trường hợp, thay vì sử dụng một bộ quy tắc tổng thể áp dụng chung Ở bảng minh họa bên dưới, mọi giá trị của thuộc tính “Name” và “Religion” đã được loại bỏ thay bằng dấu hoa thị “*”.

Hình 3: Tập dữ liệu từ hình 1 đã được ẩn danh

Hình 3 mơ tả bảng dữ liệu đạt 2-anonymity đối với các thuộc tính “Age”, “Gender” và “State of domicile” vì đối với bất kỳ sự kết hợp nào của các thuộc tính này được tìm thấy trong bất kỳ hàng nào của bảng, ln có ít nhất 2 hàng có các thuộc tính chính xác đó

3.2 Mơ hình L-diversity

Mặc dù k-anonymity là một cách tiếp cận đầy hứa hẹn để thực hiện ẩn danh do tính đơn giản và nhiều thuật tốn đã chọn nó làm mơ hình khi thực hiện ẩn danh, tuy nhiên mơ hình này khơng cung cấp sự ẩn danh tuyệt đối, nó vẫn tồn tại điểm yếu trước một số kiểu tấn công

Trang 28

Hình 4: Dữ liệu bệnh nhân nội trú

Dữ liệu sau khi được ẩn danh sẽ đạt được 4-anonymity, biểu diễn như hình 5

Hình 5: Dữ liệu bệnh nhân nội trú đạt 4-anonymity

Trang 29

• Tấn cơng kiểu đồng nhất: Tấn công này tận dụng trường hợp tất cả các giá trị cho một giá trị nhạy cảm trong một bộ bản ghi k giống hệt nhau Trong những trường hợp như vậy, mặc dù dữ liệu đã được k-anonymity, nhưng giá trị nhạy cảm cho tập bản ghi k có thể được dự đốn chính xác Giả dụ Alice là người tấn công và Bob là bệnh nhân Bằng kiến thức từ bên ngoài, Alice biết được Bob 33 tuổi, là người Mỹ và sống tại thành phố có zip code 13068 Nếu Alice đạt được dữ liệu bệnh nhân đã được ẩn danh từ hình 5 , Alice chắc chắn rằng Bob sẽ là 1 trong 4 bệnh nhân có ID 9,10,11,12 Tất cả 4 bệnh nhân này đều có chung tình trạng sức khỏe ung thư, vì vậy Alice kết luận rằng Bob đang bị

ung thư

• Tấn công loại trừ nhờ kiến thức nền: Cuộc tấn công này thúc đẩy sự liên kết giữa một hoặc nhiều thuộc tính khả định danh với thuộc tính nhạy cảm để giảm tập hợp các giá trị có thể có của thuộc tính nhạy cảm Giả dụ Alice có một người bạn tên Umeko là người Nhật Bản đang nằm ở bệnh viện này, Umeko 21 tuổi và sống tại thành phố có zip code 12053 Nếu khơng có thơng tin cụ thể, Alice sẽ khơng rõ tình trạng sức khỏe cụ thể của Umeko Tuy nhiên Alice biết người Nhật Bản thường không mắc phải bệnh lý liên quan tim mạch, nên

Alice gần như chắc rằng Umeko đang bị nhiễm virus

Do đó một mơ hình bảo vệ quyền riêng tư mới được gọi là mô hình ẩn danh l-diversity trong đó các tập dữ liệu ẩn danh l-diverse yêu cầu ít nhất l giá trị riêng biệt được “biểu diễn tốt” cho các thuộc tính nhạy cảm trong mỗi lớp tương đương Tập

dữ liệu D được xem là đạt l-diversity nếu sau khi được biến đổi sang D’, mỗi lớp tương đương của D’ đều đạt l-diversity

Trang 30

Hình 6: Dữ liệu bệnh nhân nội trú đạt 3-diversity

Có 3 kiểu mơ hình l-diversity được định nghĩa như sau:

• l-diversity riêng biệt : Định nghĩa đơn giản nhất đảm bảo rằng tồn tại ít nhất l giá trị riêng biệt cho thuộc tính nhạy cảm trong mỗi lớp tương đương

• l-diversity entropy : Định nghĩa phức tạp nhất của l-diversity, với entropy của một lớp tương đương G được tính như bên dưới

Hình 7: Cơng thức tính entropy của lớp tương đương G

Trong đó p(G,c) là xác suất của tuple chứa giá trị c trong G, còn C là miền giá trị mà c có thể có Tập dữ liệu đạt được l-diversity entropy khi với mọi lớp tương đương G, Entropy(G) ≥ log(l)

Trang 31

3.3 Một số thuật toán ẩn danh

3.3.1 Thuật toán Datafly

Datafly là thuật toán ẩn danh thường được áp dụng cho bộ dữ liệu y khoa, thuật toán được đề xuấg bởi Latanya Arvette Sweeney vào năm 1997 [10]

Thuật toán Datafly hoạt động bằng cách phân vùng tập dữ liệu thành các nhóm bản ghi chia sẻ cùng một bộ giá trị thuộc tính QID Sau đó, thuật tốn sẽ áp dụng một bộ kỹ thuật cho từng nhóm để đảm bảo rằng nhóm đó đáp ứng yêu cầu ẩn danh k Một kỹ thuật phổ biến là tổng quát hóa, bao gồm việc thay thế các giá trị chính xác của các thuộc tính QID thành các giá trị tổng qt hơn Ví dụ: thay vì lưu trữ độ tuổi chính xác của một cá nhân, thuật tốn Datafly có thể thay thế nó bằng một phạm vi độ tuổi Một kỹ thuật khác là loại bỏ, bao gồm việc loại bỏ hoặc thay thế một số giá trị thuộc tính QID có khả năng dẫn đến việc nhận dạng lại

Hình 8: Sơ đồ thuật tốn Datafly

Trang 32

tìm kiếm của thuật tốn là tồn bộ mạng lưới thuộc tính Tuy nhiên thuật tốn chỉ duyệt qua một số đỉnh để đưa ra đáp án Thuật tốn hoạt động dựa trên tồn bộ cây phân tầng và tiếp cận theo phương pháp tham lam kết hợp heuristic Thuật tốn thực hiện tính tốn tần suất của các QID và tổng qt hóa các thuộc tính có nhiều giá trị khác biệt nhất cho đến khi k-anonymity khơng cịn thỏa Trong khi thuật tốn này rất hiệu quả về mặt về thời gian, tuy nhiên gặp phải hạn chế là có thể mắc kẹt ở cực tiểu địa phương

Thuật tốn Datafly là một quy trình lặp đi lặp lại áp dụng các kỹ thuật này cho từng nhóm cho đến khi tập dữ liệu đáp ứng u cầu ẩn danh k Thuật tốn cũng có thể được tùy chỉnh để tính đến các ràng buộc bổ sung về quyền riêng tư, chẳng hạn như l-diversity

3.3.2 Thuật tốn Incognito

Hình 9: Sơ đồ thuật tốn Incognito

Trang 33

đó, các phân vùng này được kết hợp để tạo thành một phân vùng miền đầy đủ, bao gồm tất cả các kết hợp có thể có của các giá trị cho các thuộc tính QID Phân vùng miền đầy đủ sau đó được phân vùng đệ quy thành các nhóm k ẩn danh bằng cách sử dụng thuật toán tham lam để giảm thiểu lượng mất thơng tin

Thuật tốn Incognito cũng bao gồm một số tối ưu hóa để cải thiện hiệu quả của thuật toán, chẳng hạn như lưu vào bộ nhớ đệm các kết quả trung gian và cắt tỉa các phân vùng khơng thể sử dụng để tạo nhóm k-anonymity Ngồi ra, thuật tốn có thể xử lý các tập dữ liệu có giá trị bị thiếu hoặc của thuộc tính QID khơng đầy đủ bằng cách sử dụng một kỹ thuật gọi là tổng quát hóa một phần miền giá trị Incognito có thể tìm được nhiều bảng dữ liệu thỏa k-anonymity, sau đó áp dụng các hàm đánh giá để tìm ra bảng có điểm tốt nhất

3.3.3 Thuật toán Flash

Flash [12] [13] là một thuật tốn ẩn danh tối ưu tồn cầu, xây dựng một khơng gian tìm kiếm và xác định chuyển đổi với tổn thất thơng tin tối thiểu

Thuật tốn Flash duyệt qua lưới nút tổng quát theo chiều từ dưới lên trên, duyệt theo chiều rộng và liên tục tạo ra các đường dẫn phân nhánh hình zigzag Thuật tốn dựa trên những ý tưởng chính:

• Gắn thẻ tiên đốn có thể được khai thác tốt nhất nếu mạng được duyệt theo chiều dọc và theo kiểu nhị phân

• Khi duyệt qua một mạng theo chiều dọc, thời gian thực hiện sẽ không ổn định về mặt biểu diễn của tập dữ liệu đầu vào (ví dụ: thứ tự của các cột) Điều này phải được ngăn chặn bằng cách thực hiện một chiến lược ổn định

• Để đạt được hiệu suất tối đa, thuật toán nên ưu tiên kiểm tra các phép biến đổi cho phép áp dụng nhiều tối ưu hóa.

3.3.4 Thuật tốn Mondrian

Trang 34

theo kiểu top-down, thuật bắt đầu tổng quát hóa QIDs từ mức tổng quát cao nhất và đệ qui dần vào các vùng nhỏ hơn bằng các phép cắt đa chiều cho đến khi không thể cắt được nữa Thuật phân vùng đệ quy tập dữ liệu dọc theo mỗi thuộc tính QID , tạo cấu trúc cây phân cấp được gọi là cây phân vùng Ở mỗi cấp độ của cây, thuật toán chọn một giá trị QID để phân vùng dữ liệu và sau đó chọn một điểm phân chia để chia dữ liệu thành hai nhóm dựa trên giá trị QID đó Điểm phân tách được chọn để tối đa hóa tính ẩn danh của các phân vùng kết quả, tùy thuộc vào giới hạn về kích thước của các phân vùng

Hình 10: Sơ đồ thuật tốn Mondrian

Q trình này được lặp lại cho đến khi tất cả các phân vùng chứa ít nhất k tuple Nếu một phân vùng chứa ít hơn k tuple, nó sẽ được chia nhỏ hơn nữa cho đến khi thỏa mãn ràng buộc

Mondrian được có thể thực hiện cả phân vùng tồn cục hoặc địa phương

3.4 Kỹ thuật di chuyển tuple

Cả 2 kỹ thuật Loại bỏ và Tổng quát hóa đều gây tác động mạnh đến các luật

Trang 35

lý do có thể kể đến như : tổng qt hóa cấp độ thuộc tính có nhược điểm là tạo ra nhiều biến dạng dữ liệu Việc nhiều lần thay thế giá trị cũ của một thuộc tính bằng giá trị mới sẽ góp phần tác động trực tiếp đến việc làm sai lệch nhiều luật kết hợp Tổng qt hóa ở cấp độ ơ có ít biến dạng dữ liệu hơn nhưng nó có thể làm tăng số lượng giá trị duy nhất của một thuộc tính và tính khơng nhất qn của nó khơng phải

là một lựa chọn tốt nếu cần duy trì luật kết hợp Kỹ thuật loại bỏ đối với ô cũng khơng

phải là một giải pháp mong muốn vì các giá trị null hoặc không xác định phải được xử lý trước trước khi khai phá dữ liệu Kỹ thuật loại bỏ tuple có hai nhược điểm Thứ nhất, nó ảnh hưởng trực tiếp đến độ phổ biến tối thiểu của luật kết hợp dành cho khai phá dữ liệu Thứ hai, nó có thể làm mất nhiều tuple gốc Ngồi ra, nếu các giá trị của thuộc tính A cần loại bỏ xuất hiện trong nhiều luật kết hợp, thì nhiều luật sẽ bị mất Do đó, kỹ thuật loại bỏ thuộc tính cũng khơng phù hợp Hơn nữa, nếu phía nhận dữ liệu khơng đồng ý việc loại bỏ thuộc tính A ra khỏi tập dữ liệu nhận được, thì dĩ nhiên khơng cần chọn kỹ thuật này

Theo một nghiên cứu [15] trước đó so sánh sự thất thốt tính hữu ích của dữ liệu ở các giải thuật ẩn danh khác nhau, tập dữ liệu khi được áp dụng 3-diversity cho kết quả tệ hơn kể cả khi áp dụng 100-anonymity!

Kỹ thuật di chuyển tuple (MM) [16] được để xuất để khắc phục 1 số điểm yếu của các giải thuật đề ra trước đó khi chuyển đổi tập dữ liệu đạt được mơ hình

k-anonymity Giải thuật sẽ nhóm tập dữ liệu D cho trước thành các nhóm riêng biệt với

mỗi nhóm là một lớp tương đương, sau đó thực hiện thao tác di chuyển giữa mỗi cặp nhóm, trong đó có ít nhất một nhóm có số lượng thành viên nhỏ hơn k Nếu một tuple

t trong nhóm A di chuyển sang nhóm B, các giá trị của các thuộc tính khả định danh

của t phải thay đổi thành giá trị tương ứng đối với nhóm B

Trang 36

Hình 11: Kỹ thuật MM để chuyển đổi dữ liệu đạt được mô hình k-anonymity

Bảng (a) là kết quả sau khi nhóm các tuple trong tập dữ liệu mẫu thành sáu nhóm riêng biệt dựa trên danh tính của các giá trị trên tập thuộc tính khả định danh {Att1,Att2,Att3} Bảng (b) thu được mơ hình 5 ẩn danh với bốn nhóm sau khi áp dụng ba thao tác MM giữa các nhóm Một tuple trong nhóm 5 chuyển sang nhóm 4, giá trị thay đổi từ (b,y,β) thành (b,x,β) Một tuple trong nhóm 5 chuyển sang nhóm 2, giá trị thay đổi từ (b,y,β) thành (a,y,β) Hai tuple nhóm 1 chuyển sang nhóm 2, giá trị thay đổi từ (a,x,α) thành (a,y,β)

Kỹ thuật MM chỉ thay thế các giá trị ở ô cần thiết bằng các giá trị khác trong

miền giá trị của thuộc tính hiện tại nên nó kế thừa các ưu điểm của kỹ thuật Tổng quát hóa: ít bị mất thơng tin hơn khi Tổng qt hóa cấp độ ơ, các giá trị thuộc tính

nhất qn như Tổng qt hóa cấp độ thuộc tính

Ngồi ra, nó cịn có những ưu điểm khác như: khơng có sự khác biệt giữa thuộc tính kiểu số và thuộc tính kiểu phân loại; không cần xây dựng hệ thống phân cấp cho các giá trị thuộc tính dựa trên tính tổng quát; và cuối cùng, khi người nhận

Trang 37

CHƯƠNG 4: HƯỚNG TIẾP CẬN VÀ THUẬT TOÁN 4.1 Yêu cầu của giải thuật

Giải thuật khi thực hiện di chuyển các tuple giữa các nhóm sẽ khơng chọn nhóm di chuyển một cách ngẫu nhiên, mà sẽ xét theo nhiều tiêu chí nhằm tính tốn chi phí cho mỗi nhóm thực hiện việc di chuyển, từ đó chọn ra nhóm tốt nhất với chi phí thấp nhất có thể đạt được Khi thực hiện tính tốn chi phí di chuyển đối với mỗi nhóm, ta cần quan tâm các điều kiện như sau:

• Xem xét hai chiều đối với những thay đổi giữa hai nhóm cần sự di chuyển các tuple Điều này có nghĩa là thuật giải sẽ xem xét các thay đổi giữa a→b và b→a, sau đó chọn cái tốt nhất khi xem xét các thay đổi giữa nhóm a và b

• Với mỗi nhóm khơng thỏa mãn, thuật giải sẽ lựa chọn những thay đổi ít ảnh hưởng nhất đến luật kết hợp khi thực hiện nó

• Một nhóm có thể nhận hoặc phân phối các tuple nhiều lần • Một nhóm có thể nhận các tuple từ các nhóm khác nhau

• Một nhóm chỉ có thể nhận hoặc phân phối tuple trong suốt q trình xử lý • Ưu tiên kết hợp hai nhóm khơng thỏa mãn khi ta có các kết hợp có cùng

chi phí

• Đối với các nhóm khơng thỏa mãn, ưu tiên nhận các tuple từ các nhóm đã thỏa mãn tiêu chí, và phân phối các tuple cho các nhóm khơng thỏa mãn khác

Sau khi thực hiện phân chia tập dữ liệu thành các nhóm, thuật giải cũng sẽ sắp xếp thứ tự của các nhóm chưa đạt u cầu thay vì lựa chọn nhóm xử lý một cách ngẫu nhiên Đầu tiên, thuật tốn sẽ cố gắng chuyển đổi các nhóm khơng đạt u cầu có mức độ ưu tiên cao hơn Sau đó, nó sẽ hoạt động với những nhóm cịn lại có độ ưu tiên thấp hơn Từ đó kết quả đạt được sẽ tốt hơn so với việc lựa chọn ngẫu nhiên.

Trang 38

sẵn để phân phối là 3 Nếu nhóm được xử lý trước, nó sẽ nhận tất cả các tuple này và khi các nhóm khác được xử lý, ta khơng có tuple nào cho chúng Vì vậy, ta vẫn cịn 3 nhóm chưa thỏa mãn sau khi xử lý Ngược lại, nếu ta xử lý nhóm thứ ba trước, nó sẽ nhận được một tuple để đảm bảo l-anonymity; cái thứ hai sẽ được xử lý sau đó và nhận được hai tuple Cuối cùng, ta có hai nhóm thỏa mãn và một nhóm chưa thỏa mãn Kết quả thứ hai tốt hơn

• Tương tự, nếu có 3 nhóm có số lượng tuple là như nhau, nhưng khác nhau ở số lượng giá trị nhạy cảm đang có, với lần lượt là 2,3,4 ở mỗi giá trị, và ta có l=5 theo yêu cầu cùng số lượng tuple có sẵn để phân phối là 3, với mỗi tuple đều có giá trị thuộc tính nhạy cảm khác với các giá trị mà mỗi nhóm đang có Dễ thấy nếu ta phân phối nhóm thứ ba trước, nó sẽ thỏa l-diversity, nhóm thứ hai sẽ nhận 3 tuple cịn lại và cũng thỏa l-diversity Như vậy ta đã có 2 nhóm thỏa mãn tiêu chí l-diversity, trong khi nếu thực hiện chuyển cho nhóm đầu tiên, ta chỉ có 1 nhóm thỏa mãn tiêu chí này

Để gán mức độ ưu tiên cho các nhóm chưa thỏa mãn, thuật giải sẽ dựa trên các tiêu chí:

• Ưu tiên các nhóm khơng thỏa mãn có số tuple gần l hơn: vì thuật tốn sẽ cố gắng nhận càng nhiều nhóm thỏa mãn càng tốt nên nó sẽ ưu tiên các nhóm khơng thỏa mãn gần hơn để lấy được các nhóm thỏa mãn Rõ ràng, các nhóm khơng thỏa mãn, mà số lượng các tuple của nó càng gần với l, sẽ được biến đổi thành các nhóm thỏa mãn dễ dàng hơn

• Ưu tiên các nhóm có cùng số tuple có số lượng giá trị nhạy cảm gần l hơn Lí do tương tự như trên

Thuật tốn sẽ cố gắng hồn thành ẩn danh nhóm khơng thỏa mãn hiện tại trước khi làm việc với các nhóm khơng thỏa mãn tiếp theo Một nhóm khơng thỏa mãn có thể chuyển đổi thành nhóm thỏa mãn nếu một trong hai trường hợp sau có thể được thực hiện mà khơng ảnh hưởng đến tiêu chí cho trước:

Trang 39

(ii) nó nhận thêm một số tuple từ các nhóm khác để số lượng tuple của nó lớn hơn l

Trong trường hợp thứ hai, nếu một số lượng lớn các tuple có thể được thêm vào nhóm khơng thỏa mãn hiện tại mà không ảnh hưởng đến các tiêu chí, thì nhóm chỉ nên nhận vừa đủ các tuple Điều đó có nghĩa là số lượng tuple của nhóm sau khi xử lý phải bằng l Các tuple còn lại sẽ được để lại cho các nhóm khơng thỏa mãn khác được xử lý sau

Với mỗi nhóm khơng thỏa mãn, thuật tốn sẽ tính tốn chi phí khi thực hiện di chuyển với các nhóm khác đang có trong tập dữ liệu Chi phí sẽ được tính dựa theo các yêu cầu sẽ được trình bày cụ thể ở phần sau

4.2 Ý tưởng giải thuật

Giải thuật của đề tài sẽ có mã giả như bên dưới: Name : MAST algorithm

Input: dataset, min support & min confidence, l, QID attributes, SA attribute, set of rules

Trang 40

Hình 12: Mã giả của chương trình

Ngày đăng: 25/10/2023, 22:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN