Các kӻ thuұt ҭn danh dӳ liӋu
Ҭn danh (Anonymization), mӝWEѭӟc không thӇ thiӃXWUѭӟc khi tiӃn hành công khai dӳ liӋu, là mӝt công nghӋ chìa khóa hӛ trӧ bҧo vӋ WtQKULrQJWѭӣ nhiӅu mӭFÿӝ khác nhau, ÿiSӭQJÿѭӧc nhiӅu yêu cҫu ӭng dөQJFNJQJQKѭFKtQKViFKOXұWNKiFQKDXĈӇ bҧo vӋ WtQKULrQJWѭGӳ liӋu, ҭn danh là mӝt kӻ thuұt phә biӃn và có nhiӅu cách tiӃp cұQÿmÿѭӧc nghiên cӭu và phát triӇn Mӝt vài kӻ thuұt ҭn danh nӅn tҧng có thӇ kӇ ÿӃQQKѭ
- Nén và thu giҧm dӳ liӋu: Nhӳng dӳ liӋu nhҥy cҧm có thӇ ÿѭӧc loҥi bӓ hoһc thӵc hiӋn viӋc mã hóa cá nhân (Pseudonymization) bҵng cách thay thӃ hoһc kӃt hӧp các thuӝc tính ÿӏnh danh (Quasi-LGHQWLILHUQKѭKӑ tên, ngày tKiQJQăPVLQKWKjQKPӝt con sӕ mã hóa, và hash function là mӝt giҧLSKiSÿӇ thӵc hiӋn viӋc này
- 7KD\ÿәi thuӝc tính: thuӝc tính có thӇ ÿѭӧc biӃQÿәi nhҵm hҥn chӃ sӵ rò rӍ cӫa thông tin cá nhân MӝWYjLFiFKÿӇ WKD\ÿәi thuӝFWtQKQKѭOjWәng quát hóa (generalization) trong ÿyGӳ liӋu chi tiӃt có thӇ ÿѭӧc thay thӃ bҵng dӳ liӋu ӣ các mӭc trӯXWѭӧQJFDRKѫQKRһc thӵc hiӋn viӋFPmKyDWKHRELrQWRSERWWRPFRGLQJÿӇ gom nhóm các giá trӏ nhҥy cҧm
- Xáo trӝn dӳ liӋu (Perturbation): mӝt sӕ SKѭѫQJSKiSFyWKӇ kӇ ÿӃQQKѭWәng hӧp dӳ liӋu thành phҫn (micro-DJJUHJDWLRQWURQJÿyGӳ liӋu có thӇ ÿѭӧc phân thành các nhóm và giá trӏ thuӝc tính cӫa mӛL QKyP ÿѭӧc thay thӃ bҵng trӏ ÿҥi diӋQ WKrP ÿLӇm nhiӉu (noise injection) ngүu nhiên vào dӳ liӋX KRiQ ÿәi (data swapping) dӳ liӋu giӳa các hàng vӟi nhau
ViӋc sӱ dөng ҭQGDQKÿӅu gһp phҧi mӝt vҩQÿӅ thӱ thách là viӋc cân bҵng giӳa Oѭӧng thông tin mҩWÿLYjPӭFÿӝ an toàn vӅ WtQKULrQJWѭGӳ liӋXÿҥWÿѭӧc [14] Hay nói FiFKNKiFÿLӇm cӕt yӃu cӫa ҭn danh là mӭFÿӝ ҭn danh MӭFÿӝ ҭn danh càng cao thì FjQJNKyÿӏnh danh chӫ dӳ liӋXQKѭYұy sӁ khó sӱ dөng dӳ liӋu cho các dӏch vө vì dӳ liӋu sau khi ҭn danh theo mӭc này chӭa rҩWtWWK{QJWLQYjQJѭӧc lҥi [18]1KѭYұy, bài WRiQÿһt ra là phҧi lӵa chӑn mӭFÿӝ ҭn danh phù hӧp cho tӯng loҥi dӏch vө+ғunh 1-1 cho thҩ\SKѭѫQJSKiSҭQGDQKÿѫQJLҧn dù che dҩXÿѭӧFÿӏnh danh cӫa chӫ dӳ liӋXQKѭQJ OѭXYӃWÿѭӧFKjQKÿӝng cӫa chӫ dӳ liӋu này
Hình 1.1 Truy vӃt tӯ tұp dӳ liӋXÿѭӧc ҭQGDQKÿѫQJLҧn [18]
Mӝt thách thӭc khác trong viӋc ҭn danh cho dӳ liӋu mӣ OjQJX\FѫOLrQNӃt giӳa các tұp dӳ liӋu tӯ cùng mӝt nguӗQ ÿm ÿѭӧc ҭn danh, có thӇ dүQ ÿӃn rò rӍ thông tin (de-identification sang re-identification) Hình 1-2 cho thҩy mӝt ví dө trong viӋc có thӇ
VX\UDWK{QJWLQÿӏnh danh cӫa chӫ dӳ liӋu khi liên kӃt hai tұp dӳ liӋXÿmÿѭӧFÿӏnh danh GiҧL SKiS ÿѭӧc các tác giҧ cӫa [18] ÿӅ xuҩW ÿӇ giҧi quyӃW WUѭӡng hӧS Qj\ Oj WUѭӟc khi công bӕ dӳ liӋu, phҧi kiӇm tra lҥi toàn bӝ dӳ liӋu tӯ cùng mӝt nguӗQÿmÿѭӧc công bӕ WUѭӟFÿy Tҥi ViӋW1DPÿDSKҫn các bӝ dӳ liӋXÿѭӧFF{QJNKDLGѭӟLÿӏnh dҥng PDF sau khi bӓ ÿL WK{QJWLQÿӏnh danh cӫa chӫ dӳ liӋu, hoһFF{QJNKDLGѭӟi dҥng dӳ liӋu thӕng kê, QKѭQJYүn không áp dөQJSKѭѫQJSKiSҭn danh linh hoҥWQjRÿӇ bҧo vӋ WtQKULrQJWѭFҫn thiӃt cho các chӫ dӳ liӋXQj\'RÿyYLӋFÿӅ xuҩt mӝt kӻ thuұt ҭQGDQKÿӇ bҧo vӋ tính ULrQJWѭFKRGӳ liӋu mӣ tҥi ViӋt Nam nói riêng là vô cùng cҩp thiӃt
7URQJNKLFiFKѭӟng tiӃp cұn nӅn tҧng nói trên gһSNKyNKăQWURQJYLӋFÿӏQKQJKƭD ra các ÿӝ ÿRYӅ mӭFÿӝ bҧo vӋ tính riêng tѭWKuPӝWYjLKѭӟng tiӃp cұn mӟLKѫQQKѭN- anonymity, l-diverse và t-closeness có thӇ ÿѭӧc kӃt hӧSÿӇ giҧi quyӃt vҩQÿӅ Qj\YjÿyOj Kѭӟng tiӃp cұn tôi sӁ nghiên cӭXVkXKѫQÿӇ sӱ dөng nhҵPÿҥWÿѭӧc sӵ bҧo vӋ tính riêng WѭFKR nhӳng nguӗn dӳ liӋu mӣ cӫa tә chӭc trong khi vүQÿҧm bҧo các yêu cҫu vӅ kӻ thuұt cho viӋc phân tích các dӳ liӋu mӣ Qj\NKLFK~QJÿѭӧc công bӕ
Hình 1-27iLÿӏnh danh dӳ liӋu bҵng tҩn công liên kӃt [18].
Mөc tiêu cӫDÿӅ tài
K-anonymity
1ăPWURQJPӝt cuӝc vұQÿӝng cә YNJSKRQJWUjRNKX\ӃQNKtFKÿәi mӟi và khám phá khoa hӑc, thӕQJÿӕc ban MassachusetWVO~FÿyOj:LOOLDP:HOGÿmF{QJEӕ tұp dӳ liӋu vӅ y tӃ và tuyên bӕ tұp dӳ liӋXQj\ÿmÿѭӧc xӱ lý khӱ ÿLQKGDQKGH-identify) nên quyӅQULrQJWѭFӫDQJѭӡi dân không bӏ vi phҥm Latanya Sweeney, lúc ҩ\ÿDQJOj nghiên
Raw data Pre- processing Anonymization Assessment Release
18 cӭu sinh tiӃQVƭFӫDÿҥi hӑc MIT - Hoa KǤÿmGQJFKӍ ÿ{ÿӇ mua tұp dӳ liӋu vӅ bҧn ghi cӱ tri phә thông có chӭDFiFÿӏQKGDQKU}UjQJWrQÿLDFKӍ) và dӳ liӋu nhân khҭu hӑc Pm=,3YjQJj\VLQKÿӇ tҩn công liên kӃt bӝ dӳ liӋXÿDQJQәi tiӃng lúc ÿyFӫa ngài thӕng ÿӕc và bӓ phong bì, gӣi cho ông ҩy bҧn ghi chӭa dӳ liӋu cӫa ông
Tên Ngày sinh Giӟi tính 0mEѭXÿLӋn BӋnh
Carol 2/28/76 Nam 53703 Viêm phӃ quҧn
Bҧng 2-1: ViӋc chӍ khӱ ÿӏnh danh (de-LGHQWLI\QKѭWұp dӳ liӋu trên là cҳt bӓ các PII (hay ID), thì không thӇ chӕng lҥLÿѭӧc tҩn công liên kӃt lҥLÿӏnh danh bҵQJFiFÿӏnh danh gҫQÿ~QJTXDVL-identifiers) ĈLӅXÿychӭng tӓ: chӍ vӟi viӋc khӱ ÿӏnh danh thì không thӇ bҧo vӋ WtQKULrQJWѭ cӫa chӫ sӣ hӳu bҧn ghi mà nó còn phө thuӝF YjR FiF ÿӏnh danh gҫQ ÿ~QJ 4XDVL identifier) Tӯ ÿyWURQJOXұn án tiӃQVƭFӫa mình và các bài nghiên cӭu phát triӇQVDXÿy JLiR Vѭ /DWDQ\D 6ZHHQH\ ÿm ÿѭD UD P{ KuQK ULrQJ Wѭ N-anonymity [20]: Cho RT(A 1 , , A n ) là mӝt bҧng dӳ liӋXYj4,57OjÿLQKGDQKJҫQÿ~QJFӫDQy57ÿѭӧc cho là thӓa mãn tính k-anonymity khi và chӍ khi mӛi chuӛi giá trӏ trong RT[QIRT] xuҩt hiӋn vӟi ít nhҩt k lҫn xuҩt hiӋQWURQJ57>4,57@7KHRÿӏQKQJKƭDWUrQGӳ liӋu có thuӝc tính k-anonymity nӃu bҧn ghi cӫa mӝWQJѭӡi có trong bҧn xuҩt bҧn không thӇ ÿѭӧc phân biӋt vӟi ít nhҩt k - 1 cá nhân khác có dӳ liӋXFNJQJ ÿѭӧc xuҩt bҧn trong cùng bҧn phát hành NӃu mӝt bҧn ghi trong bҧng có mӝt sӕ giá tri QI, thì có ít nhҩt k - 1 bҧn ghi khác FNJQJ Fy JLi WUL 4, 1yL FiFK NKiF NtFK WKѭӟF QKyP WѭѫQJ ÿѭѫQJ Wӕi thiӇu (minimum equivalence class size) có cùng giá trӏ QI ít nhҩt là k Mӝt bҧng dӳ liӋu thӓa mãn yêu cҫu Qj\ÿѭӧc gӑi là k-anonymity Ta có thӇ suy luұn ra rҵng: vӟi giҧi thiӃt rҵng mӛi bҧn ghi
19 trong tұp dӳ liӋXÿҥi diӋn mӝt và chӍ mӝt cá thӇ WѭѫQJӭQJQJRjLÿӡi thӵc thì xác suҩt suy luұn ra mӝt nҥn nhân vӟi mӝt bҧn ghi cө thӇ thông qua QI tӕLÿDOj
Race Birth Gender Zip Problem
Bҧng 2-2: Ví dө cӫa k-anonymization vӟi k=2 và QI={Race,Birth,Gender,Zip} ĈӇ ÿҥW ÿѭӧF P{ KuQK ULrQJ Wѭ Qj\ WKu KDL WiF Yө Fѫbҧn là tәng quát hoá (generalization) và bӓ bӟt (suppression) [21] Cho mӝt thuӝc tính A, tәng quát hoá cho mӝt thuӝc tính là mӝWKjPWUrQ$I$ĺ%OjPӝt tәng quát hoá Hay
A o o oA A là trình tӵ tәng quát hóa hoһc trình tӵ hàm tәng quát hóa cho mӝt thuӝc tính A cӫa mӝt bҧng riêng PT, mӝt hӋ thӕng phân cҩp khái quát hóa miӅn (domain generalization hierarchy -DGH) DGHA cho A là tұp hӧp các hàm f h : h 1,n1, sao cho: A 0 o o o f 0 A 1 f 1 f n 1 A n vӟi A = A 0 và |A n | = 1 DGHA trên miӅn
A cho mӝt hӋ thӕng phân cҩp khái quát hóa miӅn DGH A cho thuӝc tính A, nӃu v i A i và j v j A NKLÿyWDQyLv i v j khi và chӍ NKLLj và:
1( ( ) ) i i i j f f v v ĈLӅu Qj\[iFÿӏnh mӝt thӭ tӵ riêng phҫn trên
Mӝt mӕi quan hӋ QKѭYұy ngө ý sӵ tӗn tҥi cӫa mӝt hӋ thӕng phân cҩp tәng quát hóa giá trӏ (value generalization hierarchy -VGH) VGHA cho thuӝc tính A Tác vө tәng quát hoá là tác vө quan trӑng nhҩt trong mô hình này Nó chia cách hiӋn thӵc mô hình này thành hai loҥi: chiӃQOѭӧFÿӏDSKѭѫQJORFDOVWUDWHJ\KD\FKLӃQOѭӧc toàn cөc (global strategy) Giҧ sӱ ta có tұp dӳ liӋXQKѭVDX
Tәng quát hóa toàn cөc (Full-GRPDLQJHQHUDOL]DWLRQFyQJKƭDOjPӝt giá trӏ nhҩt ÿӏnh cho mӝt cӝt nhҩWÿӏnh sӁ OX{Qÿѭӧc khái quát theo cùng mӝt cách Ví dө, nӃu bҥn quyӃWÿӏnh chuyӇn tuәLWKjQKÿӝ tuәi 30-34 cho mӝt bҧn ghi, tҩt cҧ các bҧQJKLFyÿӝ tuәi tӯ ÿӃn 34 sӁ ÿѭӧc chuyӇn thành phҥm vi cӕ ÿӏnh 30-34 này Sӱ dөng tәng quát hóa toàn cөc, ví dө có thӇ ÿѭӧc chuyӇn thành:
TәQJTXiWKyDÿӏDSKѭѫQJ/RFDOUHFRGLQJNK{QJFyUjQJEXӝFÿyQy cho phép chӑn mӝt khái quát hóa khác nhau cho mӛi bҧn ghi Giá trӏ 34 trong cӝt tuәi có thӇ không bӏ ҧQKKѭӣQJÿӕi vӟi mӝt bҧQJKLYjÿѭӧc tәng quát hóa cho bҧn ghi khác:
Tәng quát hóa toàn cөc tKѭӡng giúp phân tích dӳ liӋu trên dӳ liӋu tәng quát dӉ dàng KѫQ7LrXELӇu cho chiӃQOѭӧc này có các hӋ thӕng và giҧi thuұWWKѭӡQJÿѭӧc làm EDVHOLQH ÿӇ ÿiQK JLi 'DWDIO\ [21], Samarati (2001) [22], P-Argus (1996) [23], MinGen (2002) [20], Incognito (2005) [24]; trong khi tәng quát hóa cөc bӝ cho phép giӳ nhiӅu lӧLtFKKѫQYӟi chi phí biӇu diӉn dӳ liӋu phӭc tҥSKѫQPӝt chút Tiêu biӇu cho chiӃn Oѭӧc này là Mondrian (2006) [25] Trong thӵc tӃFiFFKѭѫQJWUuQKWKѭӡng xây dӵng cây
21 phân cҩp tәng quát hoá (generalization KLHUDUFK\ÿӇ lӵa chӑn và tұn dөQJÿӝ hӳu dөng Tuy nhiên, không phҧi lúc nào tұp dӳ liӋXFNJQJFyWKӇ tәQJTXiWKRiÿѭӧF.KLÿyWD cҫn tác vө bӓ bӟt Ví dө ÿӕi vӟi tұp dӳ liӋu sau:
Bӕn bҧQJKLÿҫu tiên có thӇ ÿѭӧc nhóm thành hai cһSQKѭWUrQQKѭQJEҧn ghi cuӕi cùng là mӝt ngoҥi lӋ Nhóm nó vӟi mӝt trong các cһp ӣ WUrQFyQJKƭDOjFySKҥm vi giá trӏ rҩt lӟn (tuәi tӯ ÿӃn 39 hoһFPm=,3EL[yDKRjQWRjQÿLӅu này sӁ làm giҧPÿiQJ kӇ ÿӝ hӳu dөng cӫa dӳ liӋu kӃt quҧ Vì vұy, mӝt giҧLSKiSÿѫQJLҧQÿӇ ÿӕi phó vӟi các giá trӏ ngoҥi lӋ QKѭYұy chӍ ÿѫQJLҧn là xóa chúng khӓi dӳ liӋu Sӱ dөng cҧ tәng quát hóa và bӓ bӟt trong ví dө này có thӇ dүQÿӃn mӝt bҧng ҭn danh vӟi k = 2:
1000-1999 75-79 1000-1999 75-79 Bҧng 2-3 Tұp dӳ liӋu khi thӓa mô hình k-anonymity khi sӱ dөng cҧ hai phép tәng quát hóa (generalization) và bӓ bӟt(suppression)
Hình 2-4 Cây phân cҩp tәng quát hóa (DGH) và giá trӏ (Value domain hierarchy) Zip bao gӗm các tác vө suppression
Hình 2-5 Cây phân cҩp tәng quát hoá miӅn (DGH) và giá tri (VGH) chӫng tӝc bao gӗm tác vө bӓ bӟt [10]
Sӱ dөQJSKѭѫQJSKiSQj\WKѭӡng có ít bҧn ghi trong bҧQJÿѭӧc chuyӇQÿәLKѫQ so vӟi bҧn gӕF'RÿyWұp dӳ liӋXÿѭӧc xuҩt bҧn sӁ nhӓ KѫQVRYӟi tұp gӕc Trên các tұp dӳ liӋu lӟn, cho phép mӝt tӹ lӋ nhӓ các bҧn ghi bi loҥi bӓ WKѭӡng cho phép kӃt quҧ ÿѭӧc ҭn danh mà không yêu cҫu quá nhiӅu phép tәQJTXiWKRi7X\ QKLrQÿk\ FNJQJOj mӝt thách thӭc trong quá trình hiӋn thӵc giҧi thuұt thoҧ mãn mô hình này vì nӃu làm không tӕt thì sӁ làm tәn hao, mҩWÿLPӝt phҫn lӟn dӳ liӋu, giҧPÿӝ hӳu dөng cӫa tұp dӳ liӋu Mӝt tұp dӳ liӋXNKLÿѭӧc thoҧ ÿѭӧc mô hình k-anonymity sӁ giҧi quyӃt các cuӝc tҩn công liên kӃt bҧn ghi: Released Table
Race Birth Gender Zip Problem
Name Birth Gender Zip Race
Hình 2-6 Bҵng viӋc tҩn công liên kӃt hai bҧng, kҿ ÿӏch vүQNK{QJVX\UDÿѭӧc gì
Tuy vұy, nӃu SA cӫa các bҧQJKLOjÿӗng nhҩWWKuP{KuQKULrQJWѭQj\ELSKiYӥ Cuӝc tҩQF{QJQj\ÿѭӧc gӑi là tҩQF{QJÿӗng nhҩt (homogeneity attack) Ví dө, Alice và Bob là hàng xóm Mӝt ngày nӑ, Bob ngã bӋQKYjÿѭӧc xe cӭXWKѭѫQJÿѭDÿӃn bӋnh viӋn Nhìn thҩy xe cӭXWKѭѫQJ$OLFHEҳWÿҫXÿLWuPKLӇu vӅ FăQEӋQKPj%REÿDQJPҳc phҧi Alice phát hiӋn ra bҧng ҭn danh k-anonymity vӟi k = 4 cӫa hӗ VѫEӋnh nhân nӝi trú hiӋn tҥLÿѭӧc xuҩt bҧn bӣi bӋnh viӋn (Bҧng 2.7), và cô biӃt rҵng mӝt trong các bҧn ghi trong bҧng này chӭa dӳ liӋu Bob Alice là hàng xóm cӫa Bob nên cô biӃt rҵng Bob là mӝt QJѭӡi
31 tuәi, quӕc tich Mӻ sӕQJYjFyPmEѭXÿLӋn là 13053 Dӵa vào tұp dӳ liӋXÿy Alice biӃt rҵng sӕ bҧn ghi cӫa Bob là 9,10,11 hoһc 12 VӟL(&ÿyWҩt cҧ nhӳng bӋnh QKkQÿy ÿӅu có cùng mӝt tình trҥng y tӃ XQJWKѭYjGRÿy$OLFHFyWKӇ dӉ GjQJÿѭD ra kӃt luұn rҵng Bob bӏ XQJWKѭ>]
STT Zipcode Age nationality Diseased
Bҧng 2.7 Các cuӝc tҩn công trên mô hình K-anonymity Bên cҥQK ÿy QӃX QJѭӡi tҩn công có mӝW Oѭӧng kiӃn thӭc nӅQ ÿӫ nhiӅu thì k- anonymity không còn hiӋu quҧ nӳa Cuӝc tҩn công này gӑi là tҩn công kiӃn thӭc nӅn
(background knowledge attack) Ví dө, Alice có mӝWQJѭӡi bҥQWrQOj0DVD\RVKLQJѭӡi ÿѭӧF ÿѭD YjR FQJ EӋnh viӋn vӟi Bob, và hӗ Vѫ EӋQK QKkQ FNJQJ [Xҩt hiӋn trong bҧng trong Bҧng 2.7 Alice biӃt rҵng Masayoshi là mӝWÿjQ{QJ1Kұt Bҧn 21 tuәi, hiӋQÿDQJ sӕng ӣ Pm EѭX ÿLӋn 13068 Dӵa trên thông tin này, Alice biӃt rҵng thông tin cӫa Masayoshi có trong hӗ VѫVӕ 1,2,3 hoһc 4 Không có thêm thông tin, Alice không chҳc liӋu Masayoshi có bi bӋnh truyӅn nhiӉm hay bӏ bӋnh tim hay không Tuy nhiên, theo thӕng kê dân sӕ, chúng ta biӃt rҵng QJѭӡi Nhұt có tӹ lӋ mҳc bӋnh tim rҩt thҩS 'R ÿy Alice kӃt luұn vӟi sӵ chҳc chҳn là Masayoshi bi bӋnh truyӅn nhiӉm [19]
L-diversity
Câu chuyӋn vӅ cuӝc tҩn công thӵc tӃ cӫa Latanya Sweeney và mô hình cӫDEjÿӅ xuҩt FKѭDGӯng ӣ ÿyPjQyFKӍ là mӝt cӝt mӕc quan trӑQJÿiQKGҩu quyӅQULrQJWѭFӫa con QJѭӡi liên quan trӵc tiӃSÿӃn quyӅQULrQJWѭWUrQInternet cӫD QJѭӡi ҩy Trong quá trình nghiên cӭu thì các nhà khoa hӑFÿmSKiWKLӋQUDÿLӇm yӃu cӫa mô hình này ӣ cuӝc tҩn F{QJÿӗng nhҩt l-GLYHUVLW\OjP{KuQKULrQJWѭÿѭӧFÿѭDUDÿӇ giҧi quyӃt nhӳng nguy FѫWӯ cuӝc tҩn công này Mô hình l-diversity [19@ÿzLKӓi các EC phҧi chӭa ít nhҩt l giá tri nhҥy cҧPÿѭӧc "biӇu diӉn tӕt"
Bҧng 2-8 Mӝt tұp dӳ liӋu thӓa mãn mô hình 1-diversity
Có thӇ có nhiӅu cách hiӇu khác nhau vӅ thӃ nào là "biӇu diӉn tӕW&iFKÿѫQJLҧn nhҩt Ojÿҧm bҧo rҵng có ít nhҩt l giá tri riêng biӋt cho thuӝc tính nhҥy cҧm trong mӛi EC
Mô hình này có tên gӑi là distinct l-diversity (hay còn có tên khác là p-sensitive k- anonymity[27]) Mô hình này tӵ ÿӝng thoҧ mãn mô hình k-anonymization, khi k = l vì mӛL(&ÿӅu chӭa ít nhҩt l bҧn ghi Tuy nhiên, distinct l-diversity không thӇ QJăQFKһn các
26 cuӝc tҩn công suy luұn xác suҩt (probabilistic inference attacks) vì mӝt sӕ giá trӏ nhҥy cҧPWKѭӡng xҧ\UDWKѭӡQJ[X\rQKѫQFiFQKyPNKiFWURQJPӝt nhóm, cho phép QJѭӡi tҩn công kӃt luұn rҵng mӝt bҧn ghi trong nhóm rҩt có khҧ năQJFyFiFJLiWUӏ ÿy Ví dө, bӋnh cúm thì phә biӃQ KѫQ +,9 ĈLӅX Qj\ WK~F ÿҭy hai khái niӋm mҥnh mӁ KѫQ vӅ l- diversity sau Mӝt bҧng dӳ liӋXÿѭӧc gӑi là entropy l-diverse nӃu vӟi mӛi EC:
Phía vӃ ErQWUiLÿѭӧc gӑi là entropy cӫa thuӝc tính nhҥy cҧm, có thuӝc tính phân phӕi các giá trӏ nhҥy cҧm phân bӕ ÿӗQJÿӅXKѫQWURQJPӝt EC tҥo ra giá tri lӟQKѫQ'Rÿy giá trӏ QJѭӥng l càng lӟn thì càng khó hay ít chҳc chҳQKѫQWURQJYLӋc suy ra mӝt giá trӏ nhҥy cҧm cө thӇ trong mӝt EC
Công viӋc Giӟi tính Tuәi BӋnh
Giáo viên Nam [35-40) Viêm gan
Giáo viên Nam [35-40) Viêm gan
Bҧng 2-9 Dӳ liӋu minh hӑa entropy l-diverse Vӟi bҧng trên ta có EC1 thì entropy là:
Vӟi EC2 thì emtropy là
Vì vұy bҧng trên thӓa mãn entropy ldeversity l( d1.8) Mӝt hҥn chӃ cӫa entropy l- diversity là nó không cung cҩSSKpSÿRUӫi ro dӵa trên xác suҩWFy[XKѭӟng trӵc quan KѫQÿӕi vӟLQJѭӡi giӳ dӳ liӋu Ví dө ӣ bҧng trên entropy bҵQJNK{QJPDQJêQJKƭD mӭFÿӝ rӫLURQJѭӡi tҩn công có xác suҩt 75% thành F{QJÿӇ VX\UD+,9WURQJÿyFy trong sӕ 4 chӫ sӣ hӳu hӗ VѫWURQJQKyP(&Eӏ nhiӉm HIV) Ngoài ra, rҩWNKyÿӇ chӍ ÿӏnh các mӭc bҧo vӋ khác nhau dӵDWUrQÿӝ nhҥy và tҫn sӕ khác nhau cӫa các giá trӏ nhҥy cҧm Mӝt cách tiӃp cұn khác cӫa l-GLYHUVLW\ Oj ÿӋ TX\ FNJQJ Fӫa cùng tác giҧ A Machanavajjhala, D Kifer, J Gehrke, và 09HQNLWDVXEUDPDQLDPÿѭDUD>]: x Cho c!0 OjPӝWKҵQJVӕYjS là SA Cho S 1 , ,S m OjFiFJLiWUӏFӫDS [XҩWKLӋQ trong PӝW(& Cho f 1 , , f m OjWҫQVӕWѭѫQJӭQJFӫDFK~QJ&KRI(1)ôI(m) là QKӳQJ Vӕ ÿѭӧF VҳS [ӃS WKHR WKӭ Wӵ NK{QJ WăQJ 0ӝW EҧQJ Ojrecursive (c, l)- diverse QӃXPӑLQKyP4,'WKӓDPmQ (1) () m i l c f i f d ¦ YӟLPӝWYjLKҵQJVӕ c
ĈLӇm cӕt yӃu cӫa mô hình recursive (c, l)-GLYHUVLW\ Oj Qy ÿҧm bҧo rҵng giá trӏ
WKѭӡng xuyên nhҩt không xuҩt hiӋQTXiWKѭӡng xuyên và các giá trӏ tWWKѭӡQJ[X\rQKѫQ không xuҩt hiӋn quá hiӃm Mӝt EC là mӝt recursive (c, l)-diverse nӃu tҫn sӕ cӫa giá trӏ nhҥy cҧPWKѭӡng xuyên nhҩt nhӓ KѫQWәng tҫn sӕ cӫa m l 1 giá trӏ nhҥy cҧPtWWKѭӡng xuyên nhҩt nhân vӟi mӝt hҵng sӕ c do nhà xuҩt bҧn chӍ ÿӏnh KKLQJѭӡi tҩn công loҥi trӯ mӝt sӕ giá trӏ nhҥy cҧm có thӇ có cӫa nҥn nhân bҵng cách áp dөng kiӃn thӭc nӅn, bҩWÿҷng thӭc vүQÿѭӧc giӳ cho các giá trӏ còn lҥi; GRÿyQKӳng cái còn lҥi vүn khó suy luұn Mӝt bҧQJÿѭӧc coi là có tính (c, l)-diversity nӃu tҩt cҧ các EC cӫa nó có tính (c, l)-diversity ViӋc khӣi tҥo này ít hҥn chӃ KѫQVRYӟi entropy l-diversity vì vӟi mӝt c lӟQKѫQOjPӝt tham sӕ ÿӝc lұp vӟi tҫn sӕ cӫa các giá tri nhҥy cҧm, có thӇ làm giҧm sӵ hҥn chӃ
MӝW TXDQ ÿLӇm phә biӃn trong các tài liӋu là l-diversity nên thay thӃ k- anonymization Trong thӵc tӃ, nó phө thuӝc vào kich bҧn xuҩt bҧn dӳ liӋX7K{QJWKѭӡng tҩn công liên kӃWOLrQTXDQÿӃn dӳ liӋu tӯ hai nguӗn, mӝt bҧng T1 chӭa tên và danh tính cӫa các cá nhân (ví dө: danh sách cӱ tri) và mӝt bҧng T2 chӭa các thuӝc tính nhҥy cҧm (ví dө: dӳ liӋu y tӃ) và cҧ KDLÿӅu chӭa thuӝc tính QID k-anonymization phù hӧSÿӇ ҭn
28 danh T1 và l-diversity phù hӧSÿӇ ҭQGDQK77KHRQJKƭDQj\KDLNKiLQLӋPULrQJWѭQj\ không phҧLOjÿӕi thӫ cҥnh tranh, mà là các công cө NKiFQKDXÿѭӧc sӱ dөng trong các tình huӕng khác nhau
Tuy nhiên, l-diversity có giӟi hҥn cӫa viӋc mһc nhiên giҧ ÿӏnh rҵng mӛi thuӝc tính nhҥy cҧm nhұn các giá trӏ phân bӕ ÿӅu trên miӅn cӫDQy7URQJWUѭӡng hӧp tҫn sӕ cӫa các giá tri nhҥy cҧm không giӕng nhau, viӋFÿҥWÿѭӧc sӵ ÿDGҥng có thӇ gây ra sӵ mҩt mát tiӋn ích dӳ liӋu lӟn Xét mӝt ví dө QKѭVDXWDFyPӝt bҧng kӃt quҧ xét nghiӋm HIV(âm WtQKYjGѭѫQJWtQKcó 10000 hӗ VѫYӟi 99% trong sӕ ÿyOjkPWtQKYjFKӍ OjGѭѫQJ tính, hai giá trӏ Fyÿӝ nhҥy rҩWNKiFQKDX1Jѭӡi ta sӁ không phiӅQNKLÿѭӧc biӃWOjÿѭӧc kiӇm tra âm tính, bӣL Yu VDX ÿy PӝW QJѭӡi giӕQJ QKѭ GkQ Vӕ QKѭQJ QJѭӡi ta sӁ không muӕn ai biӃt ÿѭӧc khi kӃt quҧ là GѭѫQJWtQK7URQJWUѭӡng hӧSQj\WtQKÿDGҥng 2 là không cҫn thiӃWÿӕi vӟi mӝt lӟSWѭѫQJÿѭѫQJNK{QJWӗn tҥi chӍ có hӗ VѫOà tiêu cӵFĈӇ cú mӝt bҧQJ ÿD Gҥng riờng biӋt, chӍ cú thӇ cú tӕL ÿD ợ OӟS WѭѫQJ ÿѭѫQJ(EC) và mҩt thông tin sӁ lӟQ&NJQJOѭXêUҵng vì entropy cӫa thuӝc tính nhҥy cҧm trong bҧng tәng thӇ là rҩt nhӓ, nӃXQJѭӡi ta sӱ dөQJÿDGҥng entropy l, l phҧLÿѭӧFÿһt thành mӝt giá trӏ nhӓ [16]
Cuӝc tҩn công trên là cuӝc tҩn công suy luұn xác suҩt MӝWWUѭӡng hӧp cө thӇ KѫQ cuӝc tҩn công này là cuӝc tҩn công xiên Tӭc là khi tұp dӳ liӋu bi quá xiên (skewness)
&NJQJQKѭYtGө xét nghiӋm HIV ӣ trên giҧ sӱ ta có mӝt EC vӟi 49 hӗ VѫGѭѫQJWtQKYj hӗ VѫkPWtQK(&WKӓa mãn 2-GLYHUVLW\QKѭQJQKӳQJQJѭӡi trong lӟp này phҧLÿӕi mһt vӟi khҧ QăQJkPWtQKUҩt cao(98%) so vӟi 1 % cӫa toàn bӝ hӗ Vѫÿk\FNJQJOjPӝt vi phҥm rҩt nghiêm trӑng vӅ WtQKULrQJWѭPjl-diversity mҳc phҧi
Bên cҥQKÿyÿ{LNKL6$WUӣ QrQPѫKӗ và l-diversity thì không xem xét ngӳ QJKƭD cӫa SA Xét bҧng sau:
Xét EC1 , ta thҩy tuy rҵng nó thoҧ mãn l-diversity vӟLO PjQJѭӡi tҩn công không thӇ ÿѭDUDNӃt luұn cө thӇ nҥn nhân bӏ mҳc bӋnh gì (AIDS hay bӋnh viêm gan
%QKѭQJQJѭӡi tҩn công hoàn toàn có thӇ ÿѭDUDNӃt luұn rҵng nҥn nhân bӏ mҳc các bӋnh OLrQTXDQÿӃn truyӅn nhiӉPTXDÿѭӡng tình dөc KӃt luұQQj\ÿѭѫQJQKLrQOj ÿ~QJYjYL phҥm quyӅQULrQJWѭFiQKkQ&Xӝc tҩn công này là tҩQF{QJWѭѫQJWӵ
3-diversity patient table Zip code Age Salary Disease
467** 2* 20k Gastric Ulcer 467** 2* 30k Gastritis 467** 2* 40k Stomach cancer 4790* >40 50k Gastritis
Hình 2- 10 ṰQF{QJW˱˯QJW phá vͩ mô hình l-diversity: k͇t lu̵Q%REFyO˱˯QJWK̭p và m̷c b nh tiêu hoá
Ta có thӇ tәng kӃt nhӳng ÿLӇm sau vӅ mô hình này
- Giҧi quyӃWÿѭӧc lӟp lӟn các cuӝc tҩn công lӝ thành viên
- Giҧi quyӃWÿѭӧc lӟp lӟn các cuӝc tҩn công tiӃt lӝ thuӝc tính nhҥy cҧm
- Giҧi quyӃWÿѭӧc lӟp lӟn các cuӝc tҩn công tiӃt lӝ danh tính
- Giҧi quyӃWÿѭӧc tҩn F{QJÿӗng nhҩt - ÿLӇm hҥn chӃ cӫa mô hình k-anonymization
- Tҩn công suy luұn xác suҩt: dӵDYjRÿһWÿLӇm phân bӕ NK{QJÿӗQJÿLӅu cӫa SA, QJѭӡi tҩn công có thӇ NKDLWKiFÿѭӧFWtQKULrQJWѭFӫa chӫ bҧn ghi Tiêu biӇu là tҩn công xiên ĈӇ giҧi quyӃWQJX\FѫQj\FyWKӇ dùng kӃt hӧp vӟi mô hình t-closessness
- Mô hình l-diversity không xem xét ngӳ QJKƭDFӫa các giá tri nhҥy cҧPĈLӅXÿyWKӇ hiӋn qua cuӝc tҩQF{QJWѭѫQJWӵ
- Thӵc tӃ khi áp dөng các giҧi thuұWFKRP{KuQKQj\WKuÿӝ hӳu dөng giҧPÿiQJNӇ QKѭ phân tích ӣ trên, phҧi bӓ bӟWVXSUHVVLRQÿLQKLӅu bҧn ghi
- Tҩn công kiӃn thӭc nӅn vүQOjÿLӇm hҥn chӃ cӕ hӳu cӫa mô hình này
- Khi sӕ chiӅu càng lӟQWKuOѭӧQJÿLQKGDQKJҫn ÿ~QJFjQJQKLӅu dүQÿӃn xác suҩt bi tҩn công liên kӃt càng cao.
T-closeness
Trong hai phҫQWUѭӟFWDÿmOҫQOѭӧWÿLTXDKDLP{KuQKULrQJWѭGӳ liӋu nәi tiӃng k- anonymization cùng l-diversity trong viӋc giҧi quyӃWQJX\FѫYӅ cuӝc tҩQF{QJÿӗng nhҩt 1KѭQJPӝt lҫn nӳDOƭQKYӵFULrQJWѭGӳ liӋu lҥi cho ta thҩy chӍ giҧi quyӃt mӝt cuӝc tҩn F{QJ ÿѫQ WKXҫQ QKѭ Yұ\ Oj FKѭD ÿӫ Các nhà khoa hӑc Ninghui Li, Tiancheng Li và 6XUHVK9HQNDWDVXEUDPDQLDQÿmÿӅ xuҩt ra mô hình t-FORVHQHVVPDQJKѫLKѭӟng nguyên tҳc không thông tin áp dөQJOrQÿӕi vӟLFiF6$ÿӇ giҧi quyӃt các cuӝc tҩn công suy luұn xác suҩt, cө thӇ KѫQOjWҩn công xiên [28]
(Nguyên t̷c t-closeness) Mӝt lӟS WѭѫQJ ÿѭѫQJ ÿѭӧc cho là có t-closeness nӃu khoҧng cách giӳa phân phӕi thuӝc tính nhҥy cҧm trong lӟp này và phân phӕi thuӝc tính trong toàn bӝ bҧng không quá QJѭӥng t Mӝt bҧQJÿѭӧFFKROjFyÿӝ gҫn t nӃu tҩt cҧ các lӟp WѭѫQJ ÿѭѫQJWKRҧ t-closeness t-closenes sӱ dөQJKjP(DUWK0RYHUGLVWDQFH (0'ÿӇ ÿRVӵ
"gҫQJNJLJLӳa hai phân phӕi cӫa các giá tri nhҥy cҧPYj ÿzLKӓi sӵ gҫQJNJL SKҧi nҵm WURQJQJѭӥng t 1JѭӥQJWÿѭDUDJLӟi hҥn trên vӅ sӵ khác biӋt giӳa phân phӕi các giá tri thuӝc tính nhҥy cҧm trong mӝt nhóm ҭn danh so vӟi sӵ phân phӕi toàn cөc cӫa các giá tri (Charu Aggarwal và Philip S Yu [29@Ĉӕi vӟi các thuӝc tính sӕ, sӱ dөng ҭn danh vӟi t- closeness có hiӋu quҧ KѫQ QKLӅX SKѭѫQJ SKiS NKDL WKiF Gӳ liӋu bҧo vӋ quyӅQ ULrQJ Wѭ khác
Zip Code Age Salary Disease
Bҧng 2- 11 Bҧng dӳ liӋXÿѭӧc xӱ lý t-closeness vӟLW WѭѫQJӭng vӟi mӭFOѭѫQJ
YjW WѭѫQJӭng vӟi dӏch bӋnh [17]
G -Presence
MӕL ÿH GRҥ WtQK ULrQJ Wѭ Gӳ liӋu có thӇ ÿӃn tӯ nhiӅu nguӗn Nhӳng công trình nghiên cӭu WURQJ OƭQK YӵF QKѭ WUuQK Ej\ ӣ trên là: k-anonymization, l-diversity và t- closeness ĈLӇm chung cӫa các mô hình này là mӕLÿHGRҥ WtQKULrQJWѭÿӅXÿӃn tӯ viӋc [iFÿӏnh lҥi (re-identify) dӵDYjRFiFÿӏnh danh gҫQÿ~QJ4,'7X\QKLrQFyPӝt mӕi ÿHGRҥ khác, rҩWÿѫQJLҧn và dӉ thҩ\QKѭQJQKӳQJP{KuQKULrQJWѭÿӇ giҧi quyӃt nó lҥi xuҩt hiӋQVDXĈyOjPӕLÿHGRҥ ÿӃn tӯ viӋc trong mӝt sӕ WUѭӡng hӧp, sӵ hiӋn diӋn (hoһc vҳng mһt) cӫa bҧn ghi nҥn nhân trong tұp dӳ liӋXÿmWLӃt lӝ thông tin nhҥy cҧm cӫa nҥn nhân Ví dө, ӣ hình 2.12 ta có mӝt bҧng chung công khai vӅ dӳ liӋu cá nhân ÿmÿѭӧc ҭn danh hóa tӯ bҧng P (P* 3 ), mӝt bác sӻ muӕn chia sҿ mӝt bҧng con T* 3 là tәng quát hóa cӫa bҧng T ViӋc chia sҿ này sӁ tҥo ra mӝt xác suҩt xuҩt hiӋn cӫa các EC giӳa hai bҧng ÿѭѫF ÿӏQKQJKƭDWURQJNKRҧng (G min ,G max ) vӟi ví dө ӣ Gѭӟi ta có: T* 3 : (1/2;2/3) present T Trong ví dө Gѭӟi viӋc công khai bҧng T* 3 dӉ vӏ phҥPÿӃn tính ULrQJWѭGӉ nhұn thҩy các hӗ VѫVӁ bӏ tҩn công liên kӃt và bҵng các QI các hӗ VѫWURQJPӝt EC cӫa T*3 ÿӅu có chung giá trӏ Sen, ÿӇ giҧi quyӃt vҩQÿӅ này mӝt mô hình dӳ liӋu G -3UHVHQFHÿѭӧc M Ercan Nergiz, M Atzori, và C W Clifton [30@ÿӅ xuҩWÿӇ giҧi quyӃt mӕLÿHGRҥ [31]: x (G Presence&KRPӝWEҧQJF{QJNKDLErQQJRjL3YjPӝWEҧQJULrQJT, ÿӏQK QJKƭD UҵQJ G 3UHVHQFH JLӳ FKR PӝW NKiL TXiW T * FӫD T YӟL
+D\ QyL FiFK NKiF ELӇX GLӉQ GѭӟL [iF VXҩW Fy ÿLӅX NLӋQ WD Fy
Hình 2-12 MӝWWUѭӡng hӧp G Presence
G-Presence có thӇ gián tiӃSQJăQFKһn các liên kӃt bҧn ghi và thuӝc tính bӣi vì nӃu ÿӕi thӫ có nhiӅu nhҩt G % niӅm tin rҵng bҧn ghi cӫa nҥn nhân mөc tiêu có trong tұp dӳ liӋu ÿm[Xҩt bҧn, thì xác suҩt liên kӃt thành công vӟi bҧn ghi và thuӝc tính nhҥy cҧm cӫa cô ta là nhiӅu nhҩt G %
Hình 2-14 Bҧng công khai bên ngoài P Minh hoҥ ÿӕi vӟi hình 2-13 và hình 2-14 thì xác suҩt Alice xuҩt hiӋn trong T là 4 0.8 bӣi vì có 4 bҧn ghi trong T và 5 bҧn ghi trong P chӭa 7ѭѫQJWӵ xác suҩWÿӕi vӟi Bob là 4 = 0.75 TӍ lӋ cӫa G -Presence vӟi mӛi QID có thӇ [HPQKѭVDX ÿk\ Ĉӕi k-anonymization, ta chӍ cҫQÿmÿӃm sӕ Oѭӧng bҧn ghi trong bӝ dӳ liӋu Ĉӕi vӟi k-PDSWDÿӃm sӕ Oѭӧng bҧn ghi trong tәng thӇ lӟQKѫQ
Các giҧi thuұt duyӋt cây tәQJTXiWÿӇ ҭn danh dӳ liӋu
Data fly và Igreedy
DataFly[21]: Sӱ dөng thuұW WRiQ WKDP ODP ÿӇ tìm kiӃm giҧL SKiS WUrQ Oѭӟi tәng quát hóa, tҥi mӛLEѭӟFÿӅu chӑn tӕLѭXFөc bӝ ÿӇ di chuyӇn hay nói các khác tҥi mӛLEѭӟc sӁ chӑn tәng quát hóa mӝt thuӝc tính khác biӋt nhҩt trong các thuӝFWtQK4,WKѭӡng là thuӝc tính có nhiӅu bұc nhҩWĈLӇm yӃu cӫa dҥng thuұWWRiQOHRÿӗi này là có thӇ UѫLYjR cөc bӝ ÿӏDSKѭѫQJĈLӇm mҥnh là thӡi gian thӵc hiӋQOjÿDWKӭFQrQOX{Qÿҧm bҧo vӅ thӡi gian thӵc thi Ӣ hình ví dө chiӃQOѭӧc duyӋt cӫD'DWD)O\ÿѭӧc biӇu diӉn bҵng các node PNJLWrQ
Hình 2-18 Mô phӓng duyӋWOѭӟi tәng quát cӫa DataFly và Igreedy
Igreedy[32]: Sӱ dөng thuұt toán DataFly vӟi viӋc cҧi tiӃn greedy heuristic Thuұt toán bҳWÿҫu bҵng viӋc kiӇm tra ҭn danh ӣ level thҩp nhҩt nӃu không thӓa mãn K, thuұt toán sӁ tiӃn hành tәng quát hóa lҫQOѭӧt tӯng thuӝc tính mӝt, nӃXQRGHÿyWKӓa mãn K, thì thuӝFWtQKÿyVӁ ÿѭӧFNKiLTXiWYjÿѭӧc xem là giҧLSKiSFKREѭӟFÿҫXO~FÿyWDFKӍ quan WkPÿӃn node mà tәng quát hóa nhӳng thuӝc tính còn lҥi NӃu không sau khi tәng quát hóa mà không node nào thӓa mãn K thì node có thuӝc tính khác biӋt nhҩWWURQJ4,ÿѭӧc chӑn (giӕQJ'DWD)O\YjVDXÿyWKXұt toán là kiӇm tra bҵng cách tәng quát hóa tӯng thuӝc tính mӝWÿӇ chӑn node tiӃSWKHREѭӟc tӟi Thuұt toán lһp lҥLFKRÿӃn khi node tìm thҩy thӓa mãn K Trong ví dө WUrQFiFQRGHFyYzQJWUzQÿұm bao quanh chính là các node ÿѭӧc thuұt toán Igreedy duyӋt qua
Incognito
Incognito[24]: 'R /H)HYUH ÿӅ xuҩt cách tiӃp cұn dӵa trên quy hoҥFK ÿӝng Dӵa trên ý Wѭӣng là nӃu mӝt tұp con cӫa thuӝFWtQK4,NK{QJÿҥWÿѭӧc k-anonymous thì toàn bӝ tұp dӳ liӋu sӁ không thӓa k-anonymous Thuұt toán bҳWÿҫu xây dӵng GHD cho các tұp con cӫa (n) thuӝc tính QI thӵc hiӋn tìm kiӃm tӯ Gѭӟi lên trên và theo chiӅu rӝng Thuұt toán sӱ dөng các thҿ dӵ ÿRiQWKӓa mãn hay không thӓa mãn ҭQGDQKNÿӇ cҳt tӍa không gian tìm kiӃm Khi mӝt trҥng thái không thӓa ҭn danh k ӣ tұp con m phҫn tӱ (m@ Fy ÿӝ khác biӋt nhӓ nhҩt vӟi GT[1,0] và GT>@FiF{ÿӅu chuyӇQÿӃn mӭFQKѭQJFKLӅu cao cӫa cây phân cҩp thuӝc WtQK=LSFDRKѫQGүQÿӃn Prec(GT[0,1]) > Prec(GT[1,0])
&k\SKkQFҩSWәQJTXiWFyÿӝFDR KѫQWKѭӡQJGX\WUuWtQKFKtQK[iFKѫQVRYӟL QKӳQJFk\FyÿӝFDRWKҩS
+Ӌ WKӕQJ SKkQ FҩS NKiF QKDX VӁ FXQJ FҩS PӝW FKӍ Vӕ 3UHF ÿӝ FKtQK [iF NKiFQKDXWURQJFQJPӝWEҧQJYuYұ\YLӋF[k\GӵQJ'*+OjPӝWÿLӅXNLӋQFӫD3UHF
3UHFOjÿӝÿRKӳXKLӋXQKҩWNKLFiF'*+ÿѭӧF[k\GӵQJWӕWEӣLFiFJLiWUӏFy ý QJKƭDYӅPһWQJӳQJKƭD
K{QJFҫQWKLӃWSKҧLWKrPFiFJLiWUӏW\êNRFyQJӳQJKƭDÿӇOjPWăQJFKLӅXFDRFӫDPӝWFk\FӫDWKXӝFWtQKTXDQWUӑQJKѫQFiFWKXӝFWtQKNKiF7KD\YjRÿyWDFyWKӇJiQWUӑQJVӕYjRFiFWKXӝFWtQKÿӇWKӇKLӋQWҫPTXDQWUӑQJYӅQJӳQJKƭDFҧXWKXӝFWtQK
Loss of information (Intensity)
Loss [36] thuӝc dҥng Cell-oriented , general-purpose models, là mӝWFiFKÿRÿӝ chi tiӃt cӫa dӳ liӋXÿѭӧc tính toán bҵQJFiFK[iFÿӏnh tӍ lӋ cӫa miӅn thuӝFWtQKÿѭӧc bao phӫ bӣi vӟi giá trӏ ÿѭӧc chuyӇQÿәi Vӟi mӛi thuӝFWtQKWDÿӅu có mӝt cây phân cҩp có tәng sӕ nút là là M T , mӝt giá trӏ ÿѭӧc tәng quát tӟi vӏ trí P trong cây sӁ có nӕWFRQWѭѫQJ ӭng là MP ÿӝ mҩt thông tin cӫa ô này sӁ ÿѭӧFÿROj0P - 1)/ (M T - 1) Mӝt ví dө tӯ hình 3-1 ta có cây VGH Z0 giҧ sӱ giá trӏ ÿѭӧc chuyӇn thành 0214* ta sӁ có loss(0214* )=(2-1)/(4-1)= 1/3 Ĉӕi vӟi thuӝc tính có kiӇu dӳ liӋu sӕ hӑc viӋc tәQJTXiWKyDÿѭӧc chia thành các khoҧng
>/L8L@7URQJWѭӡng này ta có thӇ tính thông sӕ loss of information (loss) cho tӯQJ{QKѭ sau: (Ui-Li)/(U-/7URQJÿy/OjJLiWUӏ thҩp nhҩt và u là giá thӏ cao nhҩt cӫa thuӝc tính ÿy0ӝt ví dө nKѭVDXWKXӝFWtQK(GXFDWLRQÿѭӧc ánh xҥ sang dҥng sӕ hình 3-2 ta sӁ có ÿӝ mҩt thông tin cӫa mӝt ô, Loss {[Doctore, Masters } = 2/15
Hình 3-2 Ánh xҥ cӫa thuӝc tính Education sang dҥng sӕ hӑc Mӝt ô nӃu bӏ triӋWWLrXWKuFRLQKѭFyVӕ nút con bҵng tәng sӕ nút con cӫa cây, hoһc có giá trӏ bҵng vӟi giá max cӫa thuӝc tính sӕĈӝ mҩt thông tin cӫa mӝt cӝt sӁ tính toán bҵng trung bình cӫa các ô
Non-Uniform Entropy
Non-Uniform Entropy[36] thuӝc attribute-level, general-purpose model, Entropy trong lý thuyӃWWK{QJWLQÿѭӧc tính toán là trung bình thông tin cӫa các biӃn ngүu nhiên rӡi rҥFGQJÿӇ ÿRÿӝ bҩWÿӏnh cӫa mӝt tұp dӳ liӋXéWѭӣQJFѫEҧn cӫDSKѭѫQJSKiSÿR ÿӝ hӛn loҥQNK{QJÿӗng nhҩt là so sánh tҫn sӕ cӫa các giá trӏ thuӝc tính trong tұp dӳ liӋu ÿѭӧc chuyӇn ÿәi vӟi tҫn sӕ theo tұp dӳ liӋXÿҫu vào Công thӭc tính NUE cӫa mӝt thuӝc tính là
7URQJÿy: Hàmf(D, x) là tҫn sӕ cӫa giá trӏ x trong bҧng D Xét mӝt ví dө sau:
Cho bҧng D(mӝt thuӝc tính) và kӃt quҧ tәng hóa g(D)7DFyÿӝ ÿR
NUE g D Đăâ Đ ãă áâ ạ Đ ãă áâ ạ Đ ãă áâ ạãáạ
Tәng giá trӏ NUE cӫa mӝt bҧng có thӇ trung bình cӝng NUE cӫa các thuӝc tính, hoһc ta có thӇ ÿһt trӑng sӕ vào thuӝc tính tùy theo bài toán Trong ví dө trên ta có thӇ thҩy rҵng nӃu bҷng dӳ liӋX'NK{QJÿәi sau khi tәng quát hóa thì NUE(g(D)) = 0 NӃXQKѭJLá trӏ dӳ liӋu bӏ triӋt tiêu (*) thì NUE vүQÿѭӧc tính toán theo công thӭc (6) khác biӋt vӟLKDLÿӝ ÿR3UHFYj/RVVNKLÿyÿӝ ÿRKӳu dөng cӫD{ÿyVӁ bҵQJ'Rÿyÿӝ ÿRHQWURS\SKkQELӋt ÿѭӧc nhӳng thuӝFWtQKÿѫQJLҧnQKѭJLӟi tính) và nhӳng thuӝc mang nhiӅXWK{QJWLQKѫQ (tuәi hoһFÿӏa chӍ) Xét mӝt ví dө QKѭVDX
F F ê º ô ằ ô ằ ô ằ ô ằ ơ ẳ Ĉӕi vӟLKDLÿӝ ÿRWUѭӟFÿyÿӝ mҩt thông tin cӫa hai bҧng tәQJTXiWKyDÿѭӧc xem là bҵng QKDX&zQÿӕLYѫLÿӝ ÿR18(WDFy18(J1(D)) =2 < NUE(g 2 (D))= 8 Ta có thӇ thҩy bҧng g 1 (D)) có nhiӅu khҧ QăQJSKөc vө tӕWKѫQWURQJOƭQKYӵc khai phá dӳ liӋu bӣi vì nó ҭQGDQKÿLWKXӝFWtQKPDQJtWWK{QJWLQKѫQ
Ngoài ra trong nhӳQJWUѭӡng hӧp trung gian khi mӝt giá trӏ ;ÿѭӧc biӃQÿәi thành mӝt khoҧng giá trӏ cӫa thuӝFWtQKÿy7Kuÿӝ ÿR18(FKtQKOjHQWURSLFyÿLӅu kiӋn cӫa biӃn ÿy NKiF YӟL FiF ÿӝ ÿR NKiF Oj Pӝt giá trӏ phân sӕ ÿѭӧF ÿӏQK QJKƭD Eӣi cây phân cҩp DGH Cho mӝt database có mӝt thuӝc tính nghӅ nghiӋp các giá trӏ và xác suҩWQKѭEҧng Gѭӟi :
Các giá trӏ ÿѭӧc nhóm vào tәng quát hóa là giá viên và xác suҩt cӫa các giá trӏ này gҫQQKѭEҵQJQKDXÿѭӧc nhóm tәng quát hóa vào kӻ Vѭ[iFVXҩt cӫa kӻ VѭÿLӋn là rҩt lӟn so vӟi hai giá trӏ còn lҥi NӃu sӱ dөQJFiFÿӝ ÿRORVVYjSUHFWKuÿLӇm trӯ cӫa các giá trӏ nhóm giáo viên sӁ giӕng vӟLÿLӇm trӯ cӫa nhóm kӻ VѭYuFyFQJÿӝ cao cӫa cây DGH Ĉӕi vӟL 18( ÿLӇm trӯ vào nhóm giáo viên sӁ FDR KѫQ QKyP Nӻ Vѭ %ӣi vì NUE(giáo viên)= log3 trong khi NUE(kӻ Vѭa6ӵ khác biӋt này sӁ phөc vө cho mөc
46 ÿtFKNKDLShá dӳ liӋu khi mà nhӳng luұt kӃt hӧp vӟi giá trӏ kӻ VѭFyWKӇ ÿѭӧc thay thӃ vӟi giá trӏ kӻ VѭÿLӋn Trong khi ta không thӇ OjPÿLӅXÿyÿѭӧc vӟLQKyPJLiRYLrQ'Rÿy biӋn pháp entropy mang lҥi lӧi thӃ cho viӋc khái quát hóa cho phép khai thác dӳ liӋu hiӋu quҧ KѫQ
Average Equivalence Class Size (AECS)
AECS[37], record-level (row-oriented), general-purpose modelOjP{KuQKÿRNtFK cӥ trung bình cӫa mӝt EC Khi dӳ liӋXÿѭӧc ҭn danh sӁ tҥo ra các EC và kích cӥ thҩp nhҩt cӫa các EC này là k Công thӭc tính toán kích cӥ trung bình cӫa các EC là :
C AVG = (total record)/ (total EC)
Ta có trong bҧng trên UHFRUGÿѭӧc chia vào 3 EC nên CAVG =4 Khi dӳ liӋXFKѭDÿѭӧc ҭn danh C AVG (D)~total record Vӟi ҭn danh k- DQRQ\PLW\ WUѭӡng hӧp tӕt nhҩt là
C AVG 'ả N7Uѭӡng hӧp xҩu nhҩt là C AVG 'ả NKLÿyFiF4,ÿLӅu bӏ triӋt tiờu hoһc vào cùng mӝt nhóm ChӍ sӕ CAVG càng gҫn vӟi k thì chҩWOѭӧng dӳ liӋu càng cao vì các record phân biӋt vӟi nhau càng nhiӅu.
Discernibility
Discernibility[38] record-level, general-purpose model, mô hình này sӁ JiQÿLӇm phҥt cho mӛi dòng trong các EC mà nó thuӝc vӅ Ta ký hiӋu EQ (D) là tәng các EC cӫa
D ngoҥi trӯ các dòng bӏ triӋt tiêu thuӝc D Ta có công thӭFQKѭVDX
- |E| sӕ dòng cӫa các Equivalence class (EC) PhҫQÿҫu cӫa công thӭc mô tҧ nhӳng dòng chuyӇQÿәi vào mӝW(&QjRÿyQKѭQJNK{QJSKҧi bӏ triӋt tiêu thì sӁ FyÿLӇm phҥt là kích cӥ cӫa EC 2 Phҧn ҧnh viӋc nhӳng dòng này không thӇ phân biӋt vӟi bҩt kǤ vӟi dòng nào trong cùng EC Phҫn thӭ 2 dành cho nhӳng dòng bӏ triӋWWLrXÿLӇm phҥt cӫDGzQJÿyVӁ là kích cӥ dӳ liӋXÿҫu vào |D| Phҧn ҧnh viӋc nhӳng dòng này không thӇ phân biӋt vӟi bҩt kǤ dòng dӳ liӋu nào trong dataset Xét ví dө sau:
Ta cú C DM 'ả 7Uѭӡng hӧSNKLFKѭDEӏ chuyӇQÿәi dӳ liӋu (D) chӍ sӕ
C DM 'aWRWDOUHFRUG7Uѭӡng hӧp tӕt nhҩt khi bӏ chuyӇQÿәi là không có dòng nào bӏ triӋWWLrXYjVL]H(& N.KLÿy& DM = Num(EC)* k 2 7URQJWUѭӡng hӧp trên vӟi k=2 thì C DM 7Uѭӡng hӧp xҩu nhҩt là các dòng bӏ triӋWWLrXNKLÿy& DM = |D| 2 7URQJWUѭӡng này là CDM= 12x12= 144 ChӍ sӕ CDM càng nhӓ thì dӳ liӋu có chҩWOѭӧng các tӕt.
Kullback-Leibler (K-L) Divergence
K-L divergence [28] ljÿӝ ÿRGҥng record level, general-purpose model, dùng ÿӇ ÿRVӵ khác nhau trong phân phӕi cӫa các EC Cho bҧQJEDQÿҫu T có các thuӝc tính phân loҥi là A 1 ô$ m Ta cúi mӛLGzQJQKѭQKӳn biӃQÿӝc lұp, m chiӅu cú phõn phӕi F Tớnh toỏn F(x ô x m ) là phõn phӕi thӵc nghiӋm (bҵng sӕ Oѭӧng cӫa mӛi dũng chia cho tәng sӕ Oѭӧng dòng trong bҧng) t.A 1 =x 1 , , t.A m =x m Khi bҧQJ7ÿѭӧc tәng quát hóa thành T*
48 thỡ F chuyӇn thành F* vӟi t=( xô x m ÿѭӧc tәng quỏt húa thành t*=( x*ô x* m ) và F*( x ô x m ÿѭӧc tớnh toỏn bҵng cụng thӭc:
1 area( ) area( , ,1 m ) | {x i | is generalized to }| m i i i i t x x A x x
Hay chính là tích cӫa tәng sӕ Q~WOiÿѭӧc tәng quát hóa thành các x* i ÿӇ ÿiQKJLiVӵ khác nhau giӳa hai phân phӕL ) Yj ) Oj GQJ ÿӝ ÿR XOOEDFN-Leibler divergence (KL- GLYHUJHQFHÿѭӧFÿӏQKQJKƭDQKѭVDX
Cho cây tәng quát GHD cӫa thuӝc tính Age QKѭVDX^`->([22;30]) Ta có bҧng 7QKѭVDXFKӍ tính toán trên thuӝc tính Age(QI))
9jVDXNKLÿѭӧc tәng quát hóa vӟi cây ӣ trên:
KӃt quҧ cӫa CKL= log 2 (ẵ)/ (1/3)= 0.58496 NhұQ[pWYrÿӝ ÿR./OX{QOjPӝt sӕ khụng âm, bҵng không khi xác suҩt cӫa F = F* (bҧQJ)NK{QJWKD\ÿәiKD\QKѭOêWKX\Ӄt thông WLQ ÿѭD UD [iF VXҩt thӵc tӃ bҵng xác suҩt kǤ vӑQJ Ĉӝ ÿR / Fӫa mӛi dòng càng lӟn chӭng tӓ mӭFÿӝ tәng quát hóa càng lӟn, dӳ liӋu càng sai biӋt so vӟi giá trӏ EDQÿҫu Các dòng trong cùng mӝt EC có F* bҵQJQKDXQrQÿӝ ÿRQj\ÿRVӵ khác biӋt trong phân phӕi cӫa các EC, chӍ sӕ càng cao thì EC có mӭFÿӝ tәng quát hóa càng cao
Ambiguity
Ambiguity[39] (AM) is a record level, general-purpose model GQJ ÿӇ ÿR ÿӝ bҩt ÿӏnh cӫa dӳ liӋX ÿm ÿѭӧc ҭn danh, tính toán sӕ Oѭӧng có thӇ kӃt hӧS ÿѭӧc (vӅ mһt lý thuyӃt) cӫa các bҧn gi gӕc mà mӝt bҧQJLÿѭӧc tәQJTXiWÿҥi diӋn cho
D g D R n ¦ Ĉӝ do AM cӫa bҧQJ'ÿѭӧc tәng quát hóa thành g(D) ( IIAM(D,g(D))), I là chӍ sӕ hàng, j là chӍ sӕ cӝt, |R i (j)| là sӕ nӕt lá trong cây tәng quát (DHG) cӫa nӕt R i (j) Xét mӝt ví dө sau: Cho cây tәng quát GHD cӫa thuӝFWtQK$JHQKѭVDX^`->([22;30]), và cây tәng quát GHD cӫa thuӝc tính Salary {3,4,5}->([3;6]), bҧng dӳ liӋu(có 2 thuӝc tính QI là Age và Salary) sau khi ҭn danh vӟi k=2 có kӃt quҧ QKѭVDX
Ta có II AM (D,g(D))) = 3x3 +3x3= 18 DӉ dàng nhұn thҩy mӝWÿLӇm yӃu cӫa ÿӝ ÿRQj\Oj nó tính toán cҧ các bҧQ JL ÿ{L NKL NK{QJ Fy WURQJ Eҧng gӕF NKL FKѭD ÿѭӧc ҭn danh, SKѭѫQJSKiS Qj\NKi JLӕng vӟL SKѭѫQJSKiS /RVVRILQIRUPDWLRQ ÿѭӧF QyLÿӃn ӣ trên QKѭQJÿѭӧFWtQKWRiQWKHRGzQJGzQJQjRFyÿӝ ÿRFDRWӭc là các thành phҫQWURQJÿy ÿѭӧc tәng quát ӣ mӭFFDRYjÿӝ mҩt thông tin càng nhiӅXSKѭѫQJSKiSQj\FNJQJNK{QJ xét ngӳ ÿӃn ngӳ QJKƭDFӫa bҧng kӃt quҧ VDXNKLÿѭӧc ҭQGDQKÿӝ chính xác phө thuӝc vào sӕ nút con cӫa cây phân cҩp.
Classification Metric
Classification Metric [36](CM), record-level, special-purpose model Trong bài toán phân loҥi thông kê, mӝt hoһc nhiӅu thuӝc tính sӁ ÿѭӧc lӵa chӑn (V) OjPÿҫXUDÿӇ dӵ ÿRiQ6HQVLWLYH Phép tәng quát hóa và triӋt tiêu sӁ là giҧm khҧ QăQJSKkQORҥi cӫa thuӝc tính dӵ ÿRiQnhӳng thuӝc tính QI có cùng mӝt giá trӏ tәng quát hóa sӁ ÿѭӧc gӝp chung và mӝt nhóm (EC), chúng ta không thӇ phân biӋW ÿѭӧc nhӳng dòng trong nhóm này, các thuӝc tính V sӁ ÿѭӧc phân bә YjRFiF(&ÿӇ bài toán phân loҥLÿѭӧc chính xác tӕt nhҩt là cỏc dũng trong EC cú cựng mӝt giỏ trӏ V, dӵDWUrQờWѭӣQJÿyÿӝ ÿR&0ÿRÿӝ àWLQK khiӃWảFӫa cỏc EC nhӳng dũng là làm cho EC giҧPÿӝ tinh khiӃt sӁ ÿѭӧFFRLQKѭOjPӝt
50 sҳp xӃp sai và ta gán mӝWÿLӇm trӯ cho nó Các dòng bӏ triӋWWLrXFNJQJÿѭӧFÿӕi xӱ QKѭ mӝt nhóm rirQJYjFNJQJEӏ JiQÿLӇm trӯ YuQyNK{QJFyêQJKƭDYӅ mһt phân loҥi Công thӭc cӫDÿӝ ÿRQKѭVDX:
)) i r penalty row r cla ss r z majority G r ° ® ° ¯
7URQJÿyQKӳng dòng nhӳng dòng bӏ triӋt tiêu hóa sӁ FyÿLӇm trӯ bҵng 1, nhӳng dòng bӏ sҳp xӃp sai trong các EC không thuӝc giá trӏ chiӃPÿDVӕPDM(&KD\PDM*UFNJQJVӁ ÿѭӧFJiQÿLӇm trӯ bҵQJ&iFWUѭӡng hӧp còn lҥi thì không bӏ ÿLӇm trӯ Cuӕi cùng ta có
CM = total penalty/ total rows Xét ví dө sau :
Ta có 4 EC Vӟi EC1 không có row nào bӏ trӯ ÿLӇm, vӟi EC2 bӏ trӯ 3 row vì cҧ 3 giá trӏ 6$ÿӅu không giӕng nhau, vӟi EC3 dòng sӕ 8 sӁ bӏ ÿLӇm trӯ bӣi maj(EC3) = bronchitis, vӟi EC4 dòng sӕ 9 và 10 sӁ bӏ ÿLӇm trӯ vì maj(EC4) = pneumonia Cuӕi cùng ta có:
Cҧi tiӃn cӫa CM trong bài toán phân loҥi thӕng kê cho dӳ liӋu sӭc khӓHÿѭӧFÿѭD ra bӣi Fabian Prasser, Johanna Eicher, Raffael Bild, Helmut Spengler and Klaus A Kuhn [40]
)), ( ( )) does not exist se r D , majority E r r cl majority E ass r p r
7KD\ÿәLÿLӇm trӯ cho mӝt dòng bӏ triӋt tiêu, vì mӝt bҧn ghi bӏ [yDFyQJKƭDOjPҩt thông WLQQKѭQJWK{QJWLQFKӭDWURQJÿyFyNKҧ QăQJEӏ nhiӉu vì thuұt toán khӱ nhұn dҥng có xu Kѭӟng trích xuҩt các mүu và loҥi bӓ các ngoҥi lӋ, dòng dӳ liӋu O trong bӝ dӳ liӋXÿҫu vào ÿmFKR'OjPӝt ngoҥi lӋ ÿӕi vӟi thuұt toán ҭn danh ALG và COST chi phí nӃu thӓa mãn:
Outlier : là tұp nhӳng dòng dӳ liӋu mà khi bӏ triӋWWLrXVXSSUHVVLRQÿLVӁ WăQJÿӝ chính xác tәng thӇ O* là suppression cӫa O Ví dө sau [39]
Bҧng 3-4 D2 Outlier suppressed optimal SDA and CBA output
Bҧng 3-5 D 3 optimal SDA with output Outlier
Bҧng 3-6 D 4 optimal CDA with output Outlier
Trong bҧng trên, bӝ dӳ liӋu cuӕi cùng cӫa bӝ dӳ liӋu D1 là mӝt ngoҥi lӋ ÿӕi vӟi các thuұt toán tӕLѭX6'$(Single dimensional algorithm) và CBA(Cell-based algorithm), ҭn danh yêu cҫu k = 2 và sӕ liӋu chi phí LM (loss metric) Khi nào bӏ loҥi bӓ, cҧ hai thuұWWRiQÿӅu xuҩt ra tұp dӳ liӋu D2 vӟi LM có giá 0,33 Khi Outlier không bӏ triӋt tiêu, SDA tӕLѭX xuҩt ra D3 vӟi LM có giá 0,5, tӕLѭX&%$[Xҩt D4 vӟi LM có giá 0,36
NhӳQJSKѭѫQJSKiSÿiQKJLiWK{QJWKѭӡng chӍ TXDQWkPÿӃn các thuӝFWtQK4,ÿiQKJLi mҩt dӳ liӋu theo nhӳng thuӝFWtQKÿyYӟL&0ÿiQKJLiPӭFÿӝ mҩt dӵ liӋu dӵ trên sӵ àWLQKNKLӃWảFӫa thuӝFWtQK6$NKLÿѭӧc phõn vào cỏc EC chӍ sӕ &0FjQJFDRFyQJKƭDÿӝ tinh khiӃt cӫa tұp dӳ liӋu càng thҩp và hiӋu suҩt càng kém cho bài toán phân loҥi
Mô tҧ dӳ liӋu
Thӵc nghiӋm 1
NhҵPWuPUDÿӝ ÿRKӳu dөng cho viӋc tӕLѭXKyDNKLGX\Ӌt cây tәng quát, tҥLÿLӅu kiӋn tiӅn ҭn danh, ngoài viӋc chӑn là mô hình ҭn danh, viӋc chӑQÿӝ ÿRWӕt sӁ giúp thuұt WRiQQKDQKFKyQJWuPUDSKѭѫQJiQҭn danh tӕLѭX
%ѭӟc 1: Ta sӱ dөng mô hình k-anonymity, và l- diversity vӟi k=5( hoһc 10) và l ÿk\OjQKӳng tham sӕ ÿLӇn hình trong dӳ liӋX \VLQKNKLQJѭӥng rӫi ro bӏ tҩn công nhұn dҥng là không quá 20%[43] Sӱ dөng kӻ thuұt chuyӇQÿәi dӳ liӋu là tәng quát hóa (Global transformation) kӃt hӧp vӟi triӋt tiêu, và sӱ dөng giҧi thuұW)ODVKÿӇ duyӋWOѭӟi tәng quát
%ѭӟc 2: Ta thӵc hiӋn hàm tӕL ѭX KyD OҫQ Oѭӧt tӯng SKѭѫQJ SKiS ÿiQK JLi FKҩt OѭӧQJÿӇ tìm SKѭѫQJiQ tӕLѭX ÿӕi vӟLFiFP{KuQKQKѭ
%ѭӟc 3: Tính toán hiӋu suҩt trung bình sӱ dөng interwoven k-fold cross-validation trên cho tӯQJSKѭѫQJSKiSÿiQKJLiYjVӕ Oѭӧng các bҧn gi bӏ triӋt tiêu KӃt quҧ WKXÿѭӧc QKѭVDX
Nhìn tӯ bҧng kӃt quҧ trên ta có thҩ\ ÿӝ ÿR &0&ODVVLILFDWLRQ PHWULF VӁ cho ra nhӳng tұp dӳ liӋu có hiӋu suҩt cao nhҩWFiFÿӝ ÿRNKiFFyKLӋu suҩt thҩSYjOѭӧng hӗ Vѫ bӏ loҥi chiӃm tӍ lӋ cao( tӍ lӋ này càng ít càng tӕWĈLӅXÿyFKRWDWKҩ\ÿӝ ÿR&0QrQÿѭӧc dùng là hàm tӕLѭXFKRҭn danh dӳ liӋu dùng trong các bài toán phân loҥi
Thӵc nghiӋm 2
NhҵPÿiQKJLiVӵ ҧQKKѭӣng cӫa mӝt sӕ ÿӝ ÿRKӳu dөQJOrQFiF SKѭѫQJiQҭn GDQKÿmÿѭӧc tìm ra Lҩ\UDSKѭѫQJiQFy ÿLӇm CM tӕt nhҩt, tính toán chҩWOѭӧng dӳ
57 liӋu cӫDFiFSKѭѫQJiQQj\EҵQJFiFSKѭѫQJSKiSNKiF ĈӇ dӉ dàng so sánh ta chuyӇn ÿӕi các giá trӏ tuyӋWÿӕi cӫDÿӝ ÿRVDQJGҥQJWѭѫQJÿӕi:
Giá trӏ WѭѫQJÿӕi (%) = 1- (giá trӏ tuyӋWÿӕi- min)/ (max- min) Min và max là hai SKѭѫQJiQFyÿLӇm sӕ nhӓ nhҩt và lӟn nhҩt cӫa toàn bӝ không gian giҧi pháp
BҧQJ&iFÿӝ ÿRNKiFNKLVӱ dөng hàm tӕLѭXKyDEҵQJÿӝ ÿR CM
Quan sát cӝt Accu(accuracy) ta thҩ\ÿѭӧc giá trӏ hiӋu suҩWNKiÿӗQJÿӅXYjÿӝ biӃn WKLrQNK{QJFDRÿk\FNJQJOjÿһFÿLӇm cӫa ÿӝ ÿR&0OX{QKѭӟQJÿӃn viӋc phân loҥi tӕt cӝt dӳ liӋu mөc tiêu Hai cӝt Loss và Prec sӁ cho ta thҩy mӭFÿӝ tәng quát hóa cӫa dӳ liӋu, giá trӏ càng nhӓ tӭc là mӭF ÿӝ tәng quát hóa càng cao (ví dө: bӝ dӳ liӋu sӕ 5 loss 54% có mӭc tәng quát hóa cao nhҩt), khi hiӋu suҩt bҵng nhau thì dӳ liӋu nào có mӭc tәQJTXiWKyDFDRKѫQWKѭӡng sӁ có mӭFÿӝ bҧo vӋ WtQKULrQJWѭFDRKѫQ+DLFӝt NUE(age) và NUE(Los) cho thҩ\ÿѭӧc mӭFÿӝ bҧo toàn phân phӕi cӫa hai thuӝc tính này rҩt cao, chӭng minh ÿk\OjKDLWKXӝc tính quan trӑng trong viӋc dӵ ÿRiQ[iFVXҩt cӫa biӃn mөFWLrXÿһc biӋt là thuӝc tính los (Leng of stay) Cӝt AECS cho ta thҩy kích cӥ trung bình cӫa các EC ӣ FiFSKѭѫQJiQҭQGDQKÿҥt gҫn tӕt nhât (có kích cӥ nhӓÿk\FNJQJOj mӝt sӵ bә trӧ WKrPFKRÿӝ ÿR&0Yu&0NK{QJTXDQWkPÿrQNtFKFӥ cӫDFiF(&&NJQJ WѭѫQJWӵ QKѭÿӝ ÿR$(&6QKѭQJVӵ biӃn thiên cӫa cӝt Discernibility là do sӕ Oѭӧng các bҧn gi bӏ triӋt tiêu
Rank solution CM Accu Ori Accu RR Loss Prec NUE(age) NUE(los) Dis AECS
4 KӃt Luұn YjKѭӟng phát triӇn
LuұQ YăQ ÿm WUuQK Ej\ QKӳng kӻ thuұt ҭn danh dòng k-anonymity, các kӻ thuұt chuyӇQÿәi dӳ liӋXÿӇ ÿҥWÿѭӧc các tiêu chí ҭn danh, áp dөng vào dӳ liӋu sӭc khӓe, so ViQKFiFÿһFÿLӇm cӫa tӯQJÿӝ ÿRKӳu dөQJ&iFÿӝ ÿRQj\SKө thuӝFYjWUѭӡng hӧp sӱ dөng dӳ liӋu sau khi ҭn danh, vӟi bài toán phân loҥi thӕng kê ta có thӇ thҩ\ÿӝ ÿR&0Oj mӝt hàm tӕLѭXWӕt nhҩt khi cho ra xác suҩt phân loҥi cao nhҩt so vӟLFiFÿӝ ÿRNKiFYuQy nhҵm vào sӵ phân loҥi cӫa thuӝc tính mөFWLrXFiFÿӝ ÿRNKiFQKѭ$(&6sӁ cho thêm các thông sӕ vӅ kích cӥ trung bình cӫa EC, hay NUE sӁ cho chúng ta biӃt nhӳng thuӝc tính quan trӑng trong viӋc dӵ ÿRiQ ELӃn mөc tiêu, chúng sӁ hӛ trӧ cho ta lӵa chӑn ra nhӳng giҧi pháp ҭn danh tӕt nhҩt vӯDÿҧm bҧRÿӝ hӳu dөng và vӯDÿҧm bҧo tínKULrQJWѭ cҧu dӳ liӋu
+ѭӟng phát triӇn tiӃp theo là nghiên cӭu thêm nhiӅXFiFWUѭӡng hӧp sӱ dөng sӳ liӋu ҭQGDQKÿӇ có thӇ phát triӇn nhӳQJÿӝ ÿRWKtFKKӧp nhҩt nhҵm tӕLѭXKyDFKҩWOѭӧng dӳ liӋu, vӟi nhӳng dӳ liӋXFKѭDELӃt ra mөFÿtFKҭn danh chúng ta FNJQJSKҧLÿѭDUDQKӳng tham sӕ tham khҧRÿӇ tҥo ra bӝ dӳ liӋu có chҩWOѭӧQJWѭѫQJÿӕi
[1] Open data wiki, https://en.wikipedia.org/wiki/Open_data, 10/2017
[2] Open data in telecom, https://manypossibilities.net/2017/06/the-case-for-open-data- intelecoms/,10/2017
[3] AfTerFibre map, https://afterfibre.nsrc.org/, 10/2017
[4] Canadian Cellular Towers Map, http://sms-sgs.ic.gc.ca/eic/site/sms- sgsprod.nsf/eng/h_00010.html, 10/2017
[5] Open Data Handbook, http://opendatahandbook.org/guide/en/, 10/2017
[6] Zhang, K., Ni, J., Yang, K., Liang, X., Ren, J., & Shen, X S (2017) Security and Privacy in Smart City Applications: Challenges and Solutions IEEE Communications Magazine, 55(1), 122-129
[7] Rakesh Agrawal, Ramakrishnan Srikant: Privacy-preserving data mining, SIG-MOD, Vol 29, pp 439-450, 2000
[8] Yehuda Lindell, Benny Pinkas: Privacy Preserving Data Mining, Journal of Cryptology, Vol 15, pp 177-206, 2002
[9] Bee-Chung Chen, Daniel Kifer, Kristen LeFevre, Ashwin Machanavajjhala: Privacy- Preserving Data Publishing, Foundations and Trends in Databases, 2(1-2), pp 1-167,
[10] Benjamin C M Fung, Ke Wang, Rui Chen, Philip S Yu: Privacy-preserving data publishing: A survey of recent developments, ACM Computing Surveys, 42(4), 2010
>@7KHKRPHRIWKH86*RYHUQPHQWảVRSHQGDWDKWWSVZZZGDWDJRY [12] Openning up Government, UK: https://data.gov.uk/ , 10/2017
[13] Open Data Institute: Applying blockchain technology in global data infrastructure, Technical report, 2016
[14] Yuichi Nakamura, Kanae Matsui and Hiroaki Nishi: Anonymization Infrastructure for Secondary Use of Data, The International Conference on Internet Comp and Big Data, 2014
[15] Anh Tuan Truong, Tran Khanh Dang, Josef Kueng On Guaranteeing k-Anonymity in Location Databases, 2011 International Conference on Database and Expert Systems Applications (DEXA), pages 280-287, Springer, 2011
[17] Vietnam Open Educational Resources ± VOER, http://voer.edu.vn/, 05/2018
[18] Green, Ben, Gabe Cunningham, Ariel Ekblaw, Paul Kominers, Andrew Linzer, and Susan Crawford 2017 Open Data Privacy (2017) Berkman Klein Center for Internet & Society Research Publication
[19] Poulis, G., Gkoulalas-Divanis, A., Loukides, G., Skiadopoulos, S., & Tryfonopoulos,
C (2014) SECRETA: A system for evaluating and comparing relational and transaction anonymization algorithms
[20] Sweeney, L (2002) k-anonymity: A model for protecting privacy International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 557-570 [21] Sweeney, L (1998) Datafly: A system for providing anonymity in medical data In Database Security XI (pp 356-381) Springer, Boston, MA.,
[22] Samarati, P (2001) Protecting respondents identities in microdata release IEEE transactions on Knowledge and Data Engineering, 13(6), 1010-1027.,
[23] De Waal, A G., Hundepool, A J., & Willenborg, L C R J (1995) Argus: Software for statistical disclosure control of microdata US Census Bureau., MinGen (2002) [39] [24] LeFevre, K., DeWitt, D J., & Ramakrishnan, R (2005, June) Incognito: Efficient full-domain k-anonymity In Proceedings of the 2005 ACM SIGMOD international conference on Management of data (pp 49-60) ACM
[25] LeFevre, K., DeWitt, D J., & Ramakrishnan, R (2006, April) Mondrian multidimensional k-anonymity In ICDE (Vol 6, p 25)
[26] Aggarwal, C C (2005, August) On k-anonymity and the curse of dimensionality In Proceedings of the 31st international conference on Very large data bases (pp 901-909) [27] Truta, T M., & Vinay, B (2006, April) Privacy protection: p-sensitive k-anonymity property In 22nd International Conference on Data Engineering Workshops (ICDEW'06) (pp 94-94)
[28] A Machanavajjhala, D Kifer, J Gehrke and M Venkitasubramaniam, l-diversity: Privacy beyond k-anonymity, Transactions on Knowledge
[29] Aggarwal, C C., & Philip, S Y (2008) A general survey of privacy-preserving data mining models and algorithms In Privacy-preserving data mining (pp 11-52) Springer, Boston, MA.)
[30] Nergiz, M E., Atzori, M., & Clifton, C (2007, June) Hiding the presence of individuals from shared databases In Proceedings of the 2007 ACM SIGMOD international conference on Management of data (pp 665-676) ACM
>@1HUJL]0( &OLIWRQ&į-presence without complete world knowledge IEEE Transactions on Knowledge and Data Engineering, 22(6), 868-883
[32]16 Babu K, Reddy N, Kumar N, Elliot M, Jena S Achieving k-anonymity using improved greedy heuristics for very large relational databases Trans Data Priv 2013;6(1):1±17
[33]Emam KE, Dankar FK, Issa R, Jonker E, Amyot D, Cogo E, et al A globally optimal k-anonymity method for the de-identification of health data J Am Med Inform Assoc 2009;16(5):670±82
[34] Kohlmayer F, Prasser F, Eckert C, Kemper A, Kuhn KA Flash: Efficient, stable and optimal k-anonymity In: Proc Int Conf Priv Secur Risk Trust Amsterdam, The Netherlands: IEEE; 2012 p 708±17
[35] L Sweeney, Achieving k-anonymity privacy protection using generalization and suppression, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10 (2002), 571±588 ACM
[36]V.S Iyengar, Transforming data to satisfy privacy constraints, International Conference on Knowledge Discovery and Data Mining, ACM, 2002, 279±288
[36] A De Waal and L Willenborg, Information loss through global recoding and local suppression, Netherlands Official Statistics 14 (1999), 17±20
[37]K LeFevre, D.J DeWitt and R Ramakrishnan, Mondrian multidimensional k- anonymity, International Conference on Data Engineering, IEEE, 2006, 25
[38]R.J Bayardo and R Agrawal, Data privacy through optimal kanonymization,
International Conference on Data Engineering, IEEE, 2005, 217±228
[39] M.E Nergiz and C Clifton, Thoughts on k-anonymization, International Conference on Data Engineering, IEEE, 2006, 96
[40] Fabian Prasser, Johanna Eicher, Raffael Bild, Helmut Spengler and Klaus A Kuhn:
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classification,
2017 IEEE 30th International Symposium on Computer-Based Medical Systems
>@7/%DLOH\DQG&(ONDQ³(VWLPDWLQJWKHDFFXUDF\RIOHDUQHG FRQFHSWV´LQProc 13th International Joint Conference on Artifical Intelligence San Francisco, CA, USA:
Morgan Kaufmann Publishers Inc., 1993, pp 895±900
[42]A Inan, M KantarciRJOXDQG(%HUWLQR³8VLQJDQRQ\PL]HG GDWDIRUFODVVLILFDWLRQ´ in 25th International Conference on Data Engineering IEEE, 2009, pp 429±440
>@ (O(PDPDQG %0DOLQ³$SSHQGL[%&RQFHSWVDQG methods for de-identifying FOLQLFDO WULDO GDWD´ LQSharing clinical trial data: Maximizing benefits, minimizing risk