1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Xây dựng mô hình đánh giá chất lượng cho dữ liệu ẩn danh về sức khỏe sử dụng trong bài toán thống kê

63 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĈҤI HӐC QUӔC GIA TP HCM

TOÁN PHÂN LOҤI THӔNG KÊ

Chuyên ngành : Khoa hӑc máy tính Mã sӕ: 60.48.01.01

TP HӖ CHÍ MINH, tháng 8 QăP2020

Trang 2

&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ±Ĉ+4*-HCM

Cán bӝ Kѭӟng dүn khoa hӑc : TS Lê Hӗng Trang

5 Ӫy viên: TS NguyӉQ9ăQ9NJ

Xác nhұn cӫa Chӫ tӏch Hӝi ÿӗQJÿiQKJLi/9Yj7Uѭӣng Khoa quҧn lý chuyên ngành sau khi luұn văn ÿã ÿѭӧc sӱa chӳa (nӃu có)

CHӪ TӎCH HӜ,ĈӖNG 75ѬӢNG KHOA KH&KTMT

Trang 3

ĈҤ,+Ӑ&48Ӕ&*,$73+&0

75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$

&Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F

I 7Ç1Ĉӄ7¬,

II 1+,ӊ09Ө9¬1Ӝ,'81*

1JKLrQFӭXFiFSKѭѫQJSKiSÿiQKJLiFKҩWOѭӧQJFӫDP{KuQKҭQGDQK.-anonymity ÿӕLYӟLFiFGӳOLӋXYӅVӭFNKӓHÿӇVӱGөQJWӓQJEjLWRiQSKkQORҥLWKӕQJNr

- 1JKLrQFӭXFiFNӻWKXұWҭQGDQKKӑN-anonymity

- 1JKLrQFӭXÿiQKJLiFiFP{KuQKÿiQKJLiFKҩWOѭӧQJGӳOLӋX

- /ӵDFKӑQP{KuQKÿiQKJLiFKҩWOѭӧQJFKRWұSGӳOLӋXGQJWURQJEjLWRiQSKkQORҥLWKӕQJNr

Trang 4

LӠI CҦ0Ѫ1

Tôi xin gӱi lӡi cҧPѫQFKkQWKjQKYjVkXsҳFÿӃn TS Lê Hӗng TrangFiPѫQthҫy ÿmWұQWuQKKѭӟng dүQYjÿӏQKKѭӟng cho tôi trong suӕt thӡi gian thӵc hiӋn luұQYăQ1Kӡ sӵ Kѭӟng dүQYjJL~Sÿӥ tӯ thҫ\ÿmJL~SW{LKRjQWKjQKOXұQYăQQj\

Xin chân thành cҧPѫQTXêWKҫ\F{WURQJWUѭӡQJĈҥi HӑF%iFK.KRDÿһc biӋt là các thҫy cô trong Khoa Khoa hӑc và Kӻ thuұW0i\WtQKÿmWUX\ӅQÿҥt cho tôi nhiӅu kiӃn thӭc hӳu ích trong suӕt quá trình theo hӑc tҥLWUѭӡng

7{LFNJQJ[LQJӱi lӡi cҧPѫQÿӃn bҥn EqJLDÿuQKFNJQJQKѭÿӗng nghiӋp, nhӳng QJѭӡLÿmJL~Sÿӥ và tҥRÿLӅu kiӋn tӕt nhҩt cho tôi trong quá trình hӑc tұp và nghiên cӭu

Ĉһng ThӃ Hùng

Trang 5

TÓM TҲ7Ĉӄ TÀI

Khi dӳ liӋu sӭc khӓe ӣ cҩSÿӝ FiQKkQÿѭӧc chia sҿ trong nghiên cӭu y sinh, quyӅn ULrQJWѭFӫa bӋnh nhân phҧLÿѭӧc bҧo vӋĈLӅXQj\WKѭӡQJÿҥWÿѭӧc vӟLFiFSKѭѫQJSKiSkhӱ nhұn dҥng dӳ liӋu (k-anonymity), dӳ liӋu sӁ ÿѭӧc chuyӇQÿәLÿӇ tránh bӏ nhұn dҥng lҥi Mӝt trong nhӳQJWUѭӡng hӧSÿLӇn hình là sӱ dөng dӳ liӋXOjPÿҫu vào cho nhӳng mô hình dӵ ÿRán cho viӋc khai phá dӳ liӋu và hӛ trӧ quyӃWÿӏnh, ví dө QKѭÿӇ suy ra kӃt quҧ chuҭQ ÿRiQ SKѭѫQJ SKiS WUӏ liӋu Trong quá chuyӇQ ÿәi chuyӇQ ÿәi dӳ liӋX ÿLӅu quan trӑng là giҧm thiӇu viӋc mҩW WK{QJ WLQ ÿӇ duy trì chҩW Oѭӧng dӳ liӋu, có nhiӅu mô hình ÿiQKJiá chҩWOѭӧQJÿѭӧFÿӅ xuҩWQKѭQJYүQFKѭDQrXFө thӇ FiFWUѭӡng hӧp sӱ dөng cho nhӳng mô hình này, trong luұQ YăQ Qj\ VӁ VR ViQK ÿiQK JLi FiF SKѭѫQJ SKiS ÿR FKҩt Oѭӧng thông tin cӫa dӳ liӋu thông tin ҭn danh và thӱ nghiӋm trên dӳ liӋu vӅ y tӃ nhҵm tìm ra nhӳng bӝ dӳ liӋu ҭn danh tӕt nhҩt sӱ dөng cho các mô hình dӵ ÿRiQ Yt Gө mô hình Logistic Regression

ABSTRACT

When individual-level health data is shared in biomedical research, a patient's privacy must be protected This is often achieved with methods of k-anonymity, the data will be transformed to avoid being re-identified One of the typically cases is the use of data as input for predictive models for data mining and decision support, for example, to infer the outcome of a diagnostic procedure During data transformation, it is important to minimize the loss of information to maintain data quality, there are many quality assessment models that are proposed but have yet to specify use cases for these models In this thesis, we will compare and assess methods of measuring information quality of de-identified data and test on medical data to find the best result sets to use for the predict model ,e.g the Logistic Regression model

Trang 6

LӠ,&$0Ĉ2$1

7{LFDPÿRDQUҵng, ngoҥi trӯ các kӃt quҧ tham khҧo tӯ FiFF{QJWUuQKNKiFQKѭÿmghi rõ trong luұQYăQFiFF{QJYLӋc trình bày trong luұQYăQQj\OjGRFKtQKW{LWKӵc hiӋn YjFKѭDFySKҫn nӝi dung nào cӫa luұQYăQQj\ÿѭӧc nӝSÿӇ lҩy mӝt bҵng cҩp ӣ WUѭӡng này hoһFWUѭӡng khác

1Jj\WKiQJQăP

Ĉһng ThӃ Hùng

Trang 7

DANH MӨC CHӲ VIӂT TҲT

ID Identifier

QI,QID Quasi-identifiers SA Sensitive attribute

DGH Domain Generalization Hierarchy VGH Value Generalization Hierarchy EC Equivalence classes

GHD Generalization Hierarchies Domain GL Generalization Lattice

OLA Optimal Lattice Anonymization Prec Precision

AECS Average Equivalence Class Size NUE Non-Uniform Entropy

CM Classification Metric

SDA Single dimensional algorithm CBA Cell-based algorithm

Trang 8

DANH MӨC HÌNH ҦNH

Hình 1-1 Truy vӃt tӯ tұp dӳ liӋXÿѭӧc ҭQGDQKÿѫQJLҧn [18] Hình 1-7iLÿӏnh danh dӳ liӋu bҵng tҩn công liên kӃt [18] Hình1-&iFEѭӟFÿӇ ҭn danh dӳ liӋu vӟi hӑ k-$QRQ\PL]DWLRQ Bҧng 2-1 ViӋc chӍ khӱ ÿӏnh danh (de-identify)

Bҧng 2-2 Ví dө cӫa k-anonymization vӟi k 2 và QI={Race,Birth,Gender,Zip}

Bҧng 2-3 Tұp dӳ liӋu khi thӓa mô hình k-anonymity khi sӱ dөng cҧ hai phép tәng quát hóa (generalization) và bӓ bӟt(suppression)

Hình 2-4 Cây phân cҩp tәng quát hóa (DGH) và giá trӏ (Value domain hierarchy) Zip bao gӗm các tác vө suppression

Hình 2-5 Cây phân cҩp tәng quát hoá miӅn (DGH) và giá tri (VGH) chӫng tӝc bao gӗm tác vө bӓ bӟt [10]

Hình 2-6 Bҵng viӋc tҩn công liên kӃt hai bҧng, kҿ ÿӏch vүQNK{QJVX\UDÿѭӧc gì Bҧng 2-7 Các cuӝc tҩn công trên mô hình K-anonymity

Bҧng 2-8 Mӝt tұp dӳ liӋu thӓa mãn mô hình l-diversity Bҧng 2-9 Dӳ liӋu minh hӑa entropy l-diverse

Hình 2-10 TҩQF{QJWѭѫQJWӵ phá vӥ mô hình l-diversity: kӃt luұQ%REFyOѭѫQJWKҩp và mҳc bӋnh tiêu hoá

Bҧng 2-11 Bҧng dӳ liӋXÿѭӧc xӱ lý t-closeness vӟi t 0.167 WѭѫQJӭng vӟi mӭFOѭѫQJYjW WѭѫQJӭng vӟi dӏch bӋnh [17]

Hình 2-12 MӝWWUѭӡng hӧp G  Presence Hình 2-13 Bҧng Riêng T

Hình 2-14 Bҧng công khai bên ngoài P

Bҧng 2-15 Bҧng dӳ liӋu minh hoҥ G-Presence

Hình 2-16 Ví dө vӅ cây tәng quá (GHD) cӫa hai thuӝc tính Age và Gender Hình 2-/ѭӟi tәng quát hóa cӫa hai thuӝc tính age và gender

Hình 2-18 Mô phӓng duyӋWOѭӟi tәng quát cӫa DataFly và Igreedy Hình 2-19 Mô phӓng thuұt toán duyӋt GL cӫa Incognito

Hình 2-20 Mô phӓng thuұt toán OLA

Trang 9

Hình 2-21 Mô phӓng thuұt toán Flash

Hình 3-1 DGH cӫa thuӝc tính Race(E) và Zip(Z)

Hình 3-2 Ánh xҥ cӫa thuӝc tính Education sang dҥng sӕ hӑc Bҧng 3-3 D1 Original dataset

Bҧng 3-4 D2 Outlier suppressed optimal SDA and CBA output Bҧng 3-5 D3 optimal SDA with output Outlier

Bҧng 3-6 D4 optimal CDA with output Outlier Bҧng 4-1 Mô tҧ dӳ liӋu sӭc khӓe

Bҧng 4.2 KӃt quҧ thӵc nghiêm vӟi k 5,l 2 Bҧng 4.3 KӃt quҧ thӵc nghiêm vӟi k 10,l 2

BҧQJ&iFÿӝ ÿRNKiFNKLVӱ dөng hàm tӕLѭXKyDEҵQJÿӝ ÿR&0

Trang 10

&KѭѫQJ,,&iFNӻ thuұt ҭn danh dӳ liӋu 17

1.Các kӻ thuұt ҭn danh hóa dӳ liӋu 17

1.1 K-anonymity 17

1.2 L-diversity 25

1.3 T-closeness 30

1.4 G -Presence 31

2 Các giҧi thuұt duyӋt cây tәQJTXiWÿӇ ҭn danh dӳ liӋu 33

2.1 Data fly và Igreedy 34

2.2 Incognito 35

2.3 OLA(Optimal Lattice Anonymization) và Flash 36

&KѭѫQJĈRÿӝ hӳu dөng cӫa dӳ liӋu ҭn danh 40

Trang 11

TÀI LIӊU THAM KHҦO 59

&KѭѫQJ,*Lӟi thiӋu

1 Dӳ liӋu mӣ

Dӳ liӋu mӣ RSHQGDWD ÿDQJOj[XKѭӟng phát triӇn tҩt yӃu cӫa thӃ giӟLWURQJÿynhӳng dӳ liӋXÿѭӧc tҥo ra (ví dө nhӳng dӳ liӋu trong các hӋ thӕng nӝi bӝ cӫDFiFFѫTXDQtә chӭc hay dӳ liӋXÿѭӧc tҥo ra tӯ các cá nhân, thiӃt bӏ ÿDQJGҫn trӣ thành nhӳng dӳ liӋu chia sҿ công khai và sҹn sàng vӟi mӑLQJѭӡLÿӇ sӱ dөng, tra cӭu và chia sҿ lҥi mà không bӏ giӟi hҥn bӣi các vҩQÿӅ OLrQTXDQÿӃn bҧn quyӅn, bҵng sáng chӃKD\FiFFѫFKӃ ÿLӅu khiӇn truy xuҩt khác HiӋn tҥi, các hӋ thӕng dӳ liӋu mӣ tӯ các cҩp cӝQJÿӗng nhӓ lҿ ÿӃn các tұS ÿRjQ doanh nghiӋp lӟQ FNJQJ QKѭ FKtQK SKӫ ÿDQJ ÿѭӧc hiӋn thӵc và có nhu cҫu ngày càng cao WURQJYjQJRjLQѭӟFÿӇ dӵDYjRÿyWҥo ra các dӏch vө mӟi, tri thӭc mӟi [1, 2, 11, 12, 13] Mһc dù mang lҥi nhiӅu lӧi ích cho xã hӝi, các hӋ thӕng dӳ liӋu mӣ phҧLÿӕi mһt vӟi rҩt nhiӅu vҩQÿӅ QKѭSKҧi có các hӋ thӕng quҧn trӏ dӳ liӋu hiӋu quҧ7URQJÿynәi bұt nhҩt và cҩp thiӃt phҧi có giҧi pháp ÿӇ giҧi quyӃt vҩQÿӅ quan trӑng là bҧo mұt và WtQKULrQJWѭ Rõ ràng, các tұp dӳ liӋu mӣ ÿѭӧc chia sҿ có thӇ ÿmWKXWKұSYjOѭXWUӳ các thông tin riêng WѭQKҥy cҧm cӫDFiFÿӕLWѭӧQJQKѭQJѭӡi sӱ dөng, tә chӭc, doanh nghiӋp YjP{LWUѭӡng cuӝc sӕng xung quaQKÿӇ phөc vө cho các hoҥWÿӝng cӫa tә chӭc (tӯ doanh nghiӋSÿӃn chính phӫ) Khi các tұp dӳ liӋXÿyÿѭӧc công bӕ thành dҥng dӳ liӋu mӣ thì sӁ ҧQKKѭӣng ÿӃQFiFÿҥo luұt vӅ xâm phҥm quyӅQULrQJWѭEҧo mұt dӳ liӋu mà các tә chӭc ÿySKҧi tuân thӫ'RÿyFiF dӳ liӋu nhҥy cҧPPDQJWtQKULrQJWѭSKҧLÿѭӧc loҥi bӓ/che giҩXWUѭӟc khi công khai dӳ liӋu +ѫQQӳDÿһFÿLӇm dӳ liӋu trong các hӋ thӕng dӳ liӋu mӣ hiӋn nay là lӟn, không cҩu trúc, ÿDGҥng, nhiӅu nguӗn và sinh ra liên tөc (ví dө QKѭcác hӋ thӕng dӳ liӋu cӫa các ӭng dөng ÿ{WKӏ WK{QJPLQK GRÿyYҩQÿӅ bҧo vӋ tính riêng WѭGӳ liӋXÿDQJWUӣ thành nhӳng thách thӭc cho các tә chӭc muӕn công khai dӳ liӋu mà FKѭDJLҧi quyӃWÿѭӧc mӝt cách hiӋu quҧ Trong xã hӝLWK{QJWLQÿѭӧc toàn cҫu hóa, thұt NKyÿӇ áp dөng nhӳng kӻ thuұt chӍ ÿӇ thӓa các chính sách bҧo mұt duy nhҩt dành cho mӝt tә chӭc nhҩW ÿӏQK 'R ÿy Fҫn tìm hiӇX ÿӇ xây dӵng mӝt kiӃn trúc nӅn tҧng phù hӧS ÿLkèm vӟi các kӻ thuұt xӱ lý dӳ liӋu nhҵm bҧo vӋ WtQKULrQJWѭWUѭӟc khi công khai dӳ liӋu

Trang 12

mà vүQÿҧm bҧo tӕLÿDÿѭӧc chҩWOѭӧng dӳ liӋu cho viӋc phân tích, tính sҹn sàng và liên tөc cӫa hӋ thӕQJFNJQJQKѭVӵ khҧ WѭѫQJ thích vӟLFiFÿһFÿLӇm dӳ liӋu (ӭng dөng) khác QKDX ÿһc biӋW Oj WURQJ P{L WUѭӡng smart city Dӳ liӋu mӣ tuy không phҧi là mӝt khái niӋm mӟLQKѭQJFQJ Yӟi sӵ phát triӇn cӫa Internet và công nghӋ hiӋn nay, dӳ liӋu mӣ ÿDQJYjVӁ trӣ thành mӝt trong nhӳQJKѭӟng nghiên cӭu nәi bұt và tҩt yӃXÿһc biӋt trong FiFP{LWUѭӡQJ³VPDUWFLWLHVQDWLRQV´>@&iFGӳ liӋu ÿѭӧF³RSHQ´WUrQ,QWHUQHWKLӋn nay ÿD SKҫn là dӳ liӋu chính phӫ trong nhiӅXOƭQKYӵF QKѭ giao thông, y tӃ, giáo dөc, viӉn thông, v.v [11, 12] Lҩy ví dө vӅ OƭQKYӵc viӉn thông, dӳ liӋu mӣ có thӇ ÿѭӧc dùng vào nhiӅu ӭng dөng có thӇ kӇ ÿӃQQKѭVDX>@

- BҧQÿӗ trҥm phát sóng [4]: BҧQÿӗ các trҥm phát sóng (base station) cung cҩp thông tin vӏ trí trҥm phát sóng cӫa các nhà mҥng cùng các khҧ QăQJNӻ thuұt cӫa chúng (3G, 4G, etc.) Tӯ ÿy FiF QKj Pҥng có thӇ tiӃn hành viӋc khai thác, lҳS ÿһt mӟi hoһc thuê trҥm phát sóng tӯ nhà mҥng khác khi muӕn triӇn khai dӏch vө Các nhà cung cҩp dӏch vө mӟi FNJQJFyWKӇ thuê hҥ tҫng có sҹn (tӯ nhiӅu nhà mҥQJNKiFQKDX ÿӇ vӯa hӧp tác YjFNJQJvӯDOjÿӕi thӫ cҥnh tranh vӅ kinh doanh lүn nhau (co-opertition) Ngӳ cҧnh này rҩt tiӅm QăQJYӅ NLQKGRDQKFNJQJQKѭWiӅm ҭn nhiӅu thách thӭc, nhҩWOjÿӕi vӟi các ÿѫQYӏ cung cҩp dӏch vө viӉn thông truyӅn thӕng ӣ ViӋt Nam hiӋn nay

- Dӳ liӋu tӯ khách hàng: NhiӅu ӭng dөng trên smartphones không phө thuӝc vào nhà cung cҩp dӏch vө viӉQWK{QJYjWK{QJTXDFK~QJQJѭӡi ta có thӇ thu thұSÿѭӧc rҩt nhiӅu WK{QJWLQ QKѭYӏ trí, tӕFÿӝ, các hình ҧnh/video, etc.) [15] Nhӳng thông tin này có thӇ ÿѭӧFFiFÿӕi thӫ cӫa mӝt nhà cung cҩp viӉQWK{QJQjRÿyGQJÿӇ phát triӇn các dӏch vө mӟLWăQJOӧi thӃ cҥnh tranh NhӳQJNKiFKKjQJÿDQJ dùng mҥng cӫa nhà cung cҩp này hoàn toàn có thӇ cung cҩSGNJOLӋu cho các nhà cung cҩp khác (qua các smartphone apps) nӃu hӑ có hҥ tҫng dӳ liӋu mӣ phù hӧp cùng các tiӋn tích hӧSOѭÿHP lҥi khi khách hàng ÿӗng ý chia sҿ dӳ liӋu VҩQÿӅ này không còn lҥi viӉn cҧnh mà bҳt ÿҫu diӉn ra hàng ngày - BҧQÿӗ cáp quang [3]: BҧQÿӗ cáp quang sӁ cung cҩp vӏ trí lҳSÿһWFiSTXDQJWѭѫQJWӵ QKѭEҧQÿӗ giao thông hay bҧQÿӗ ÿѭӡng dүQQѭӟc trong thành phӕ Thông qua bҧQÿӗ này, các nhà cung cҩp dӏch vө quӕF JLD Yj Wѭ QKkQ có thӇ [iF ÿӏQK ÿѭӧc vӏ trí các cáp TXDQJÿmÿѭӧc lҳSÿһt, tӯ ÿyFyNӃ hoҥFKÿӇ khai thác hoһc lҳSÿһt dӏch vө mӟi phù hӧp

Trang 13

- BҧQÿӗ quang phә: Khi bҧQÿӗ FiSTXDQJÿѭӧFKRjQWKjQKFNJQJOjO~FFiFQKjFXQJ cҩp dӏch vө sӁ FK~ ê KѫQ ÿӃn các dӏch vө mҥng khônJ Gk\ QKѭ :L)L %OXHWRRWK  %ҧn ÿӗ quang phә cho các dӏch vө không dây này sӁ thӇ hiӋn thông tin quang phә ÿѭӧc cҩp phát ӣ tҫn sӕ nào, tҥi thӡLÿLӇPQjRYjDLÿѭӧc phép sӱ dөng Tuy thông tin này chӍ mӟi ÿѭӧc triӇn khai gҫQÿk\ӣ FiFQѭӟc Châu Phi, NigeriDYj.HQ\DQKѭQJEҧQÿӗ quang phә hӭa hҽn sӁ là mӝW Eѭӟc tiӃQ Yѭӧt bұc trong viӋc khai thác và nâng cao chҩW Oѭӧng dӏch vө mҥng không dây

- Nghiên cӭu y sinh hiӋQÿҥi[1] Chia sҿ thông tin vӅ y tӃ là mӝWÿLӅu bҳt buӝc khi phát triӇn các ӭng dөng nhҵm nâng cao chҩWOѭӧng khám, chӳa, phòng bӋnh Hҫu hêt các bӋnh viӋn trên thӃ giӟLÿӅu cӕ gҳng chia sҿ nhӳng thông tinh vӅ y tӃ cӫa mình nhҵm phөc vө cho mөFÿtFKSKiWWULӇn và nghiên cӭu Khi dӳ liӋu sӭc khӓHFiQKkQÿѭӧc chia sҿ trong y sinh nghiên cӭu, sӵ ULrQJWѭFӫa bӋnh nhân phҧLÿѭӧc bҧo vӋ Dӳ liӋu sau khi ҭn danh sӁ ÿѭӧFF{QJNKDLÿӇ tiӃp tөc sӱ dөng và các mөFÿtFKNKiFFKRYLӋc nghiên cӭu trong y hӑc, viӋc cân bҵng giӳD WtQK ULrQJ Wѭ Yj FKҩW Oѭӧng dӳ liӋu sӁ tҥo ra mӝt bӝ dӳ liӋu tӕt nhҩt

2 Vҩn ÿӅ bҧo vӋ WtQKULrQJWѭ

Mӝt trong nhӳng yêu cҫu cҩp thiӃWKjQJÿҫu khi tiӃQKjQK³RSHQ´Gӳ liӋXOjÿҧm bҧo tính ULrQJ Wѭ FKR QJѭӡL GQJ > @ 7K{QJ WKѭӡQJ ÿҧm bҧR WtQK ULrQJ Wѭ WKѭӡng ÿѭӧc cө thӇ hóa ӣ tӯQJJLDLÿRҥn, mөFÿtFKWKHRQKLӅu cách tiӃp cұn khác nhau, ví dө QKѭkhai phá dӳ liӋu bҧo vӋ WtQKULrQJWѭYjF{QJNKDLGӳ liӋu bҧo vӋ WtQKULrQJWѭ 3ULYDF\Preserving Data Mining [7, 8] và Privacy Preserving Data Publishing [9, 10]) là nhӳng cách tiӃp cұn phә biӃn Nhӳng kӻ thuұt bҧo vӋ WURQJFiFKѭӟng tiӃp cұn này có thӇ dùng ÿӇ khai phá hoһc công khai dӳ liӋXPjNK{QJFyWK{QJWLQÿӏnh danh cá nhân Tuy nhiên, hai giҧL SKiS Qj\ Fy FQJ QKѭӧF ÿLӇP Oj FKѭD WKLӃt lұS SKѭѫQJSKiS ÿӇ tái sӱ dөng dӳ liӋX VHFRQGXVH WURQJP{LWUѭӡng dӳ liӋu mӣÿk\FNJQJOj mӝt trong nhӳng yêu cҫu tҩt yӃu vӟi bҧn chҩt cӫa loҥi dӳ liӋu này Nhìn chung, có rҩt nhiӅu kӻ thuұWÿӇ bҧo vӋ thông WLQULrQJWѭWURQJÿyQәi bұt nhҩt có thӇ ÿӅ cұp là mã hóa dӳ liӋXÿѭӧc chia sҿ, ҭn danh QJѭӡLGQJYjÿLӅu khiӇn truy xuҩW7URQJÿySKѭѫQJSKiSPmKyDVӁ gây ra nhiӅu tӕn kém khi vұQKjQKGROѭӧng dӳ liӋu lӟQYjÿDGҥng Bên cҥQKÿyGӳ liӋu mӣ có thӇ ÿѭӧc thu thұp tӯ nhiӅu nguӗn thông tin, nhiӅu tә chӭc ViӋc này dүQ ÿӃn thách thӭc khi cҫn

Trang 14

ÿӏQK QJKƭD PӝW Fѫ FKӃ ÿLӅu khiӇn truy xuҩt linh hoҥt có thӇ áp dөng cho mӑi tә chӭc 7URQJNKLÿyҭQGDQKQJѭӡLGQJÿѭӧc xem là mӝWEѭӟc không thӇ thiӃXWUѭӟc khi tiӃn hành công khai dӳ liӋu Có nhiӅXSKѭѫQJSKiSҭQGDQKQJѭӡi dùng (và các thông tin cá nhân liên quan nӃu cҫQ ÿmÿѭӧc nghiên cӭXQKѭQg vүQFKѭDFyFiFKWLӃp cұn cө thӇ nào ÿѭӧF [iF ÿӏnh cho dӳ liӋu mӣ ÿһc biӋW Oj WURQJ P{L WUѭӡng vҥn vұt kӃt nӕL FNJQJ QKѭsmart city Các tác giҧ cӫa [18] ÿmÿѭDUDEӕQÿӅ xuҩWÿӇ bҧo vӋ WtQKULrQJWѭFKRGӳ liӋu mӣTXDÿyFNJQJFKRWKҩy sӵ phӭc tҥp cӫa loҥi dӳ liӋu này:

- ;iFÿӏnh rõ lӧi ích và rӫLURWUѭӟc khi thiӃt kӃ và hiӋn thӵFFKѭѫQJWUuQKGӳ liӋu mӣ - Xem xét quyӅQULrQJWѭӣ tӯQJJLDLÿRҥn cӫDYzQJÿӡi dӳ liӋu

- Phát triӇn cҩu trúc vұQKjQKYjTX\WUuQKÿӇ quҧQOêWtQKULrQJWѭ

Nhҩn mҥnh sӵ tham gia và quyӅQѭXWLrQFӫa cӝQJÿӗQJQKѭPӝt khía cҥnh tҩt yӃu cӫa FKѭѫQJWUuQKTXҧn lý dӳ liӋu

3 Các kӻ thuұt ҭn danh dӳ liӋu

Ҭn danh (Anonymization), mӝWEѭӟc không thӇ thiӃXWUѭӟc khi tiӃn hành công khai dӳ liӋu, là mӝt công nghӋ chìa khóa hӛ trӧ bҧo vӋ WtQKULrQJWѭӣ nhiӅu mӭFÿӝ khác nhau, ÿiSӭQJÿѭӧc nhiӅu yêu cҫu ӭng dөQJFNJQJQKѭFKtQKViFKOXұWNKiFQKDXĈӇ bҧo vӋ WtQKULrQJWѭGӳ liӋu, ҭn danh là mӝt kӻ thuұt phә biӃn và có nhiӅu cách tiӃp cұQÿmÿѭӧc nghiên cӭu và phát triӇn Mӝt vài kӻ thuұt ҭn danh nӅn tҧng có thӇ kӇ ÿӃQQKѭ

- Nén và thu giҧm dӳ liӋu: Nhӳng dӳ liӋu nhҥy cҧm có thӇ ÿѭӧc loҥi bӓ hoһc thӵc hiӋn viӋc mã hóa cá nhân (Pseudonymization) bҵng cách thay thӃ hoһc kӃt hӧp các thuӝc tính ÿӏnh danh (Quasi-LGHQWLILHU QKѭKӑ tên, ngày tKiQJQăPVLQKWKjQKPӝt con sӕ mã hóa, và hash function là mӝt giҧLSKiSÿӇ thӵc hiӋn viӋc này

- 7KD\ÿәi thuӝc tính: thuӝc tính có thӇ ÿѭӧc biӃQÿәi nhҵm hҥn chӃ sӵ rò rӍ cӫa thông tin cá nhân MӝWYjLFiFKÿӇ WKD\ÿәi thuӝFWtQKQKѭOjWәng quát hóa (generalization) trong ÿyGӳ liӋu chi tiӃt có thӇ ÿѭӧc thay thӃ bҵng dӳ liӋu ӣ các mӭc trӯXWѭӧQJFDRKѫQKRһc thӵc hiӋn viӋFPmKyDWKHRELrQ WRSERWWRPFRGLQJ ÿӇ gom nhóm các giá trӏ nhҥy cҧm

Trang 15

- Xáo trӝn dӳ liӋu (Perturbation): mӝt sӕ SKѭѫQJSKiSFyWKӇ kӇ ÿӃQQKѭWәng hӧp dӳ liӋu thành phҫn (micro-DJJUHJDWLRQ

Ngày đăng: 03/08/2024, 14:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN