Ví dụ 1.8 (minh họa IT-Tree)
Bảng 1.8 CSDL giao dịch
Xét CSDL ở bảng 1.8 với minSup = 50% (chứa từ 3 TID trở lên). Ta có cây minh họa cho q trình tìm tập phổ biến nhƣ hình 1.2.
Mã giao dịch Nội dung giao dịch
1 A, C, T, W 2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T ECLAT() [] = {i I : (i)minSup} ENUMERATE_FREQUENT([]) ENUMERATE_FREQUENT([P])
for all li [P] do [Pi] =
for all lj [P] with j > i do I = lilj
T = t( li ) t( lj ) if |T| minSup then
[Pi] = [Pi] {IT}
Hình 1.2 Kết quả khai thác với ngƣỡng minsup =50% Nhận xét thuật tốn
Cây tìm kiếm IT-Tree ln lệch trái do:
i) Ứng với mỗi lớp tƣơng đƣơng li, ta cần xét với mọi lj ( j > i), cho nên i càng nhỏ thì số lƣợng j cần xét càng lớn.
ii) Khi | t(li) | > | t(lj) | thì phần giao nhau giữa t(li) với các lớp tƣơng đƣơng khác thƣờng sẽ lớn hơn phần giao của t(lj)với các lớp tƣơng đƣơng còn lại.Với các nhận xét trên, ta thấy: với i) khơng thể cải thiện đƣợc, cịn để tránh ii) ta chỉ cần sắp xếp các li trong lớp tƣơng đƣơng [P] theo chiều tăng dần của độ hỗ trợ. Và với sự cải tiến này, cây IT-Tree sẽ ít lệch trái hơn.
1.3. Bảo đảm tính riêng tƣ 1.3.1. Khái niệm 1.3.1. Khái niệm
Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu. Các dữ liệu dùng để khai thác có thể liên quan đến một cá nhân hay m ột tổ chức. Bản thân dữ liệu là thơng tin nhạy cảm hoặc q trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm. Ngồi ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu
góp chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình. Khai thác dữ liệu đảm bảo tính riêng tƣ (Privacy Preserving Data Mining - PPDM) là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu.
Trong các thuật toán và giải thuật đề xuất ở chƣơng 3, với mỗi thuật toán, luận án đã đƣa ra khái niệm về tính riêng tƣ và đánh giá khả năng bảo tồn tính riêng tƣ trong từng trƣờng hợp cụ thể.
1.3.2. Phân loại các phƣơng pháp PPDM
Có nhiều cách tiếp cận dùng cho PPDM. Từ đó có nhiều cách phân loại khác nhau. Mỗi cách phân loại giúp ta hiểu vấn đề ở một khía cạnh khác nhau.
1.3.2.1. Dựa trên các tiêu chí
Trong [36] các tác giả đã đƣa ra các tiêu chí phân loại PPDM bao gồm:
Sự phân bố dữ liệu (Data distribution): dữ liệu tập trung hoặc dữ liệu phân
tán. Trong trƣờng hợp dữ liệu là phân tán thì phân tán ngang hoặc phân tán dọc.
Sửa đổi dữ liệu (Data modification): sửa đổi các giá trị nguyên thủy của cơ sở
dữ liệu trƣớc khi gửi cho nhiều ngƣời nhận nhằm bảo vệ tính riêng tƣ. Kỹ thuật sửa đổi này phải phù hợp với chính sách riêng tƣ đang đƣợc sử dụng. Có thể liệt kê các phƣơng pháp nhƣ sau:
a) Thay giá trị thực bằng giá trị mới (đổi 1 thành 0 hoặc làm nhiễu dữ liệu). b) Làm cản trở phân tích dữ liệu bằng cách thay thế giá trị đã có thành “?”. c) Gom hoặc trộn lại, là sự kết hợp nhiều giá trị thành một phân loại thô hơn. d) Đổi chỗ giữa các giá trị trong từng dòng dữ liệu.
e) Tạo mẫu: chỉ cho chia sẻ những dữ liệu mang tính chất chung.
Giấu dữ liệu hoặc giấu luật (Data or rule hiding): gồm việc giấu dữ liệu thô
hoặc dữ liệu kết hợp dạng luật. Có nhiều phƣơng pháp (heuristic) dùng cho việc giấu dữ liệu kết hợp dƣới dạng luật có độ phức tạp khác nhau. Việc giảm bớt dữ liệu khi chia sẻ sẽ làm cho việc suy diễn yếu hơn hoặc cho ra giá trị suy diễn có độ tin cậy thấp. Q trình này gọi là luật nhầm lẫn (rule confusion).
Bảo vệ riêng tƣ (Privacy preservation): là quan trọng nhất, liên quan đến các
kỹ thuật bảo vệ tính riêng tƣ dùng để sửa đổi dữ liệu có chọn lọc. Sửa đổi dữ liệu có chọn lọc nhằm cho dữ liệu vẫn có tính thiết thực cao nhƣng khơng ảnh hƣởng đến tính riêng tƣ. Các kỹ thuật này gồm có:
a) Kỹ thuật dựa trên Heuristic (Heuristic-based techniques) nhƣ là chỉnh sửa thích nghi, tức là chỉ chỉnh sửa một cách có chọn lọc để giảm thiểu việc mất đi tính thiết thực của dữ liệu sau khi đã chỉnh sửa.
b) Kỹ thuật dựa trên phƣơng pháp mã hóa (Cryptographic-based techniques) ví dụ nhƣ kỹ thuật bảo mật tính tốn đa thành phần SMC (Secure multiparty computation), trong đó có nhiều ngƣời tham gia vào một hệ thống phân tán, mỗi ngƣời có một dữ liệu đầu vào (input) và tham gia q trình tính tốn dựa trên một hoặc một số dữ liệu đầu vào khác để cho ra kết quả cuối cùng (output). Từng ngƣời tham gia chỉ biết giá trị input của mình và kết quả trả về, ngồi ra khơng biết dữ liệu và kết quả của ngƣời khác.
c) Kỹ thuật dựa trên sự tái tạo (Reconstruction-based techniques): Sự phân bố của dữ liệu nguyên thủy đƣợc tái tạo lại từ dữ liệu ngẫu nhiên.
1.3.2.2. Dựa trên kỹ thuật
Nhóm 1: Chia sẻ dữ liệu (Data-sharing techniques): gồm các thuật toán làm
thay đổi dữ liệu ban đầu để giấu đi dữ liệu nhạy cảm. Có thể chia ra làm 3 loại: a) Xóa bớt item (item restriction – based): là làm giảm độ hỗ trợ hoặc độ tin
cậy (trong bài tốn tìm luật kết hợp) của luật bằng cách xóa giao tác hoặc một/ một số item của một giao tác để giấu luật nhạy cảm.
b) Thêm item (item addition-based): thêm item ảo vào các giao tác nhằm giấu đi một số luật nhạy cảm (và phát sinh tri thức khơng có thật).
c) Thay bằng giá trị unknown (?): để giấu tri thức nhạy cảm.
Nhóm 2: Chia sẻ tri thức khám phá đƣợc từ dữ liệu (Pattern-sharing
techniques), gồm các thuật toán giấu luật khai thác đƣợc chứ không phải giấu dữ liệu. Các giải pháp thuộc loại này tìm cách loại bỏ các luật nhạy cảm trƣớc khi chia sẻ luật hoặc chia sẻ theo kiểu bảo mật tính tốn đa thành phần SMC.
1.3.2.3. Dựa trên cấp độ
Cấp độ 1: Gồm các kỹ thuật áp dụng trên dữ liệu thơ ban đầu với mục đích
tránh mất dữ liệu hoặc tri thức nhạy cảm hoặc kỹ thuật bảo vệ tính riêng tƣ của hai hay nhiều ngƣời tham gia muốn khai thác trên dữ liệu chung nhƣng không muốn mất thông tin riêng tƣ trên dữ liệu của từng ngƣời.
Cấp độ 2: Gồm các kỹ thuật đảm bảo tính riêng tƣ đƣợc nhúng trong thuật
tốn khai thác dữ liệu. Thơng thƣờng, những chun gia về dữ liệu dùng các ràng buộc trƣớc khi hoặc trong khi thực hiện khai thác.
Cấp độ 3: Gồm các kỹ thuật áp dụng trên kết quả của quá trình khai thác
nhằm đạt đƣợc cùng mục đích nhƣ ở cấp độ 1.
1.3.3. Đánh giá một thuật toán PPDM
Việc đề ra những tiêu chuẩn hợp lý để đánh giá một thuật toán phục vụ PPDM là rất quan trọng. Thơng thƣờng, khơng có thuật tốn nào có thể đáp ứng tốt tất cả các tiêu chuẩn đề ra, nên khi so sánh các thuật tốn thì chỉ có thể so sánh dựa trên một hoặc một số tiêu chuẩn mà thôi, và ta đang muốn đạt mức tối ƣu ở tiêu chuẩn nào của một thuật tốn thì chỉ chọn ra và đánh giá dựa trên tiêu chuẩn đó. Cần biết rằng việc chỉnh sửa dữ liệu để phục vụ cho PPDM làm giảm tính hữu dụng của một cơ sở dữ liệu. Thƣờng ngƣời ta dựa trên các độ đo sau để đánh giá một thuật toán PPDM [37]:
1.3.3.1. Dựa vào hiệu năng
Là thời gian cần thiết để thuật toán thực hiện xong việc giấu một tập hợp các thông tin nhạy cảm cho trƣớc. Có thể dựa vào chi phí tính tốn để đánh giá điều này, hoặc dựa vào số tác vụ trung bình cần thiết để giảm tần suất xuất hiện của thơng tin nhạy cảm nào đó đạt mức thấp hơn ngƣỡng cho trƣớc. Ngồi ra, chi phí đƣờng truyền để chuyển tải thông tin giữa các trạm trong môi trƣờng phân tán cũng cần phải kể đến và giảm thiểu trong các thuật tốn PPDM phục vụ cho mơi trƣờng phân tán.
1.3.3.2. Dựa vào tính hữu dụng của dữ liệu
Đƣợc đo trên dữ liệu sau khi áp dụng kỹ thuật đảm bảo tính riêng tƣ, đƣợc tính bằng độ mất mát thông tin hoặc độ mất chức năng của dữ liệu. Để giấu thông tin nhạy cảm, ta thƣờng sửa đổi để làm sai lệch thơng tin hoặc làm mất thơng tin (ví dụ thay dữ liệu thật bởi giá trị unknown). Khi ta thay đổi cơ sở dữ liệu càng nhiều (để giấu thơng tin nhạy cảm) thì cơ sở dữ liệu càng giảm thơng tin chứa đựng trên dữ liệu. Độ mất mát thông tin phụ thuộc vào thuật toán khai thác dữ liệu và thuật tốn đảm bảo tính riêng tƣ của dữ liệu. Trong bài tốn khai thác tìm luật kết hợp, độ mất thơng tin tính bằng số luật mất đi (lost rules) và số luật mới xuất hiện (ghost rules), hoặc độ tăng/ giảm độ hỗ trợ và độ tin cậy của tất cả các luật.
1.3.3.3. Dựa vào mức độ không tin chắc
Đƣợc đo trên dữ liệu sau khi đã giấu thông tin nhạy cảm, dựa trên thơng tin suy đốn đƣợc từ dữ liệu này. Thơng tin nhạy cảm dù đã đƣợc giấu bởi thuật tốn nhƣng vẫn có thể bị đốn ra với mức độ khơng tin chắc nào đó. Thuật tốn giấu dữ liệu cần đạt đƣợc mức độ không tin chắc là cao nhất, nghĩa là ngƣời sử dụng dữ liệu (sau khi đã giấu thông tin nhạy cảm) không thể tin chắc vào điều mà họ có đƣợc từ việc suy đốn.
1.3.3.4. Dựa vào độ chịu đựng
Là quan trọng nhất, để đánh giá thuật tốn có thật sự giấu đƣợc thơng tin nhạy cảm hay khơng. Thƣờng thì thuật tốn giấu thơng tin nhạy cảm đƣợc xây dựng chỉ cho một thuật tốn khai thác dữ liệu nào đó, nhƣng kẻ tấn cơng dữ liệu lại thƣờng dùng nhiều thuật toán khai thác khác nhau để khai thác thơng tin. Vì vậy, một thuật tốn giấu thơng tin nhạy cảm cần đƣợc đánh giá khả năng chịu đựng dựa trên nhiều thuật toán khai thác.
1.4. Một số phƣơng pháp giấu dữ liệu 1.4.1. Xáo trộn 1.4.1. Xáo trộn
Với kỹ thuật này, giá trị nguyên thủy của dữ liệu bị thay đổi thành một giá trị khác hoặc thêm nhiễu. Trong các CSDL nhị phân (còn gọi là CSDL giỏ hàng siêu thị), ngƣời ta làm xáo trộn dữ liệu bằng cách thay đổi giá trị 1 bằng giá trị 0 và/hoặc
0 thành 1. Ngồi ra, có thể thêm nhiễu trên dữ liệu bằng cách thay giá trị x bởi giá trị x + r, với r là một giá trị ngẫu nhiên lấy từ một phân bố xác suất nào đó. Phƣơng pháp làm việc trên dữ liệu sau khi làm xáo trộn tùy thuộc vào thuật toán khai thác.
1.4.2. Ngăn chặn
Là việc thay đổi giá trị nguyên thủy bởi một ký hiệu mang ý nghĩa là “không biết”. Thƣờng ngƣời ta dùng ký hiệu dấu “?” để biểu thị cho giá trị không biết này. Ƣu điểm: Kỹ thuật blocking có thể ngăn cản quá trình khai thác cho ra những tri thức nhạy cảm, mà lại không sinh ra những tri thức sai gây ảnh hƣởng đến ngƣời dùng dữ liệu.
1.4.3. Gom / trộn
Là việc giấu dữ liệu chi tiết bằng cách kết hợp các thuộc tính hoặc các đối tƣợng (object) lại tƣơng ứng thành mơ ̣t thuộc tính hoặc mơ ̣t đối tƣợng. Phƣơng pháp này thƣờng đƣợc dùng trong quá trình tiền xử lý dữ liệu phục vụ cho mục đích khai thác, nhằm bỏ bớt dữ liệu, hoặc giảm sự biến động trên giá trị của dữ liệu.
1.4.4. Đổi chỗ
Là việc đổi chỗ các giá trị giữa các mẫu tin với nhau trong cơ sở dữ liệu. Phƣơng pháp này đƣợc giới thiệu đầu tiên vào năm 1980.
Ví dụ 1.9
(a) Dữ liệu nguyên thủy.
(b) Dữ liệu sau khi đổi chỗ ngẫu nhiên trên trƣờng Thu nhập, xảy ra trên các cặp mẫu tin 1 và 6, 2 và 3, 4 và 5.
(c) Dữ liệu sau khi đổi chỗ ngẫu nhiên trên trƣờng Tuổi, xảy ra trên các cặp STT Tuổi Thu nhập 1 21 20000 2 24 30000 3 35 30000 4 36 25000 5 45 55000 6 50 15000 STT Tuổi Thu nhập 1 21 15000 2 24 30000 3 35 30000 4 36 55000 5 45 25000 6 50 20000 STT Tuổi Thu nhập 1 24 15000 2 21 30000 3 36 30000 4 35 55000 5 50 25000 6 45 20000 (a) (b) (c)
Một số nhận xét:
Xác suất một lần đổi chỗ giấu đƣợc thông tin của một mẫu tin tỉ lệ nghịch với tần suất giá trị đó xuất hiện trên mẫu tin. Điều này có thể chấp nhận đƣợc trên dữ liệu có kích thƣớc lớn. Một giá trị thu nhập xuất hiện thƣờng xuyên trên tập tin sẽ khó xác định là ứng với giá trị của mẫu tin nào so với một giá trị thu nhập xuất hiện trên file với tần suất thấp.
Việc đổi chỗ ngẫu nhiên trên các trƣờng khác nhau có thể xảy ra trên các mẫu tin khác nhau.
Các lần đổi chỗ diễn ra một cách độc lập, trên các trƣờng khác nhau và có thể giấu đƣợc thơng tin chính xác của từng mẫu tin.
Theo khuyến cáo, nên thực hiện đổi chỗ trên các trƣờng nhạy cảm, ví dụ nhƣ: thu nhập, tuổi,
1.4.5. Lấy mẫu
Khi khảo sát một quần thể, nếu căn cứ vào tất cả các cá thể của quần thể thì khơng khả thi và tốn rất nhiều chi phí. Phƣơng pháp lấy mẫu đƣợc dùng để chọn ra các mẫu trong quần thể. Sự ƣớc lƣợng về quần thể dựa trên thông tin của những mẫu đƣợc chọn này. Vì vậy, tập mẫu phải đủ lớn để đại diện tốt cho quần thể, nhƣng phải đủ nhỏ để có thể quản lý đƣợc. Phƣơng pháp lấy mẫu thƣờng đƣợc dùng trong khai thác dữ liệu để giảm chi phí tính tốn và thời gian xử lý dữ liệu thay vì phải xử lý tồn bộ dữ liệu. Có 2 phƣơng pháp lấy mẫu chính là: lấy mẫu ngẫu nhiên và lấy mẫu không ngẫu nhiên bao gồm:
1.4.5.1. Lấy ngẫu nhiên đơn giản
Lấy ngẫu nhiên một cá thể từ quần thể và lấy các cá thể đƣợc chọn làm mẫu đại diện cho cả quần thể. Mỗi cá thể có thể trở thành mẫu khảo sát với xác suất bằng nhau. Có 2 cách lấy:
a. Lấy mẫu không giữ lại giá trị mẫu (Sampling without replacement): cứ mỗi cá thể đƣợc chọn ra làm mẫu thì cá thể đó sẽ bị loại bỏ khỏi quần thể.
b. Lấy mẫu vẫn giữ lại giá trị mẫu (Sampling with replacement): cá thể làm mẫu vẫn đƣợc giữ lại trong quần thể. Cùng một cá thể có thể đƣợc chọn ra làm giá trị mẫu nhiều lần.
Ví dụ :Cần chọn ra 2000 ngƣời từ cuốn danh bạ điện thoại đƣợc đánh số tuần tự theo tên ngƣời đăng ký. Phƣơng pháp lấy mẫu ngẫu nhiên đơn giản sẽ sinh ra 2000 số ngẫu nhiên (trùng nhau hoặc không trùng nhau) và sẽ lấy thông tin ứng với các số ngẫu nhiên vừa tạo để cho ra tập mẫu.
Ƣu điểm: Đơn giản và dễ ứng dụng khi thực hiện lấy mẫu trên quần thể nhỏ. Khuyết điểm: Do từng cá thể trong quần thể phải có mặt trƣớc khi thực hiện
phƣơng pháp này nên phƣơng pháp này khó áp dụng đối với quần thể lớn.
1.4.5.2. Lấy mẫu có hệ thống
Cịn đƣợc gọi là lấy mẫu theo đoạn vì lần chọn mẫu này cách lần chọn mẫu kia một khoảng bằng nhau về số lƣợng cá thể (bị bỏ qua không chọn làm mẫu). Lần chọn đầu tiên là ngẫu nhiên. Cứ sau k lần bỏ qua khơng chọn thì bắt đầu chọn tiếp, k khơng đổi trong suốt q trình chọn mẫu. Phƣơng pháp này thƣờng đƣợc áp dụng trong công nghiệp khi muốn chọn mẫu để kiểm tra dây chuyền sản xuất. Ví dụ: Nhà sản xuất quyết định chọn mỗi cá thể xuất hiện lần thứ hai mƣơi sau cá thể đƣợc chọn trƣớc trên dây chuyền để kiểm tra chất lƣợng.
Ƣu điểm: dễ thực hiện, chỉ chọn ngẫu nhiên cho lần chọn mẫu đầu tiên nhƣng khả năng đƣợc chọn của từng cá thể trong quần thể giống nhau.
Khuyết điểm: Cần biết trƣớc quần thể lấy mẫu nếu biết kích thƣớc tập mẫu và khoảng cách giữa 2 lần lấy mẫu.
1.4.5.3. Lấy mẫu theo phân đoạn
Chia dữ liệu thành nhiều phân đoạn, và sau đó vận dụng phƣơng pháp lấy mẫu ngẫu nhiên đơn giản hoặc lấy mẫu có hệ thống đối với từng phân đoạn. Ví dụ: Ban giám hiệu của một trƣ ờng học có 1000 sinh viên muốn khảo sát về một vấn đề A trên các sinh viên ở các năm khác nhau. Để đảm bảo tập mẫu có tính đại diện cho