Các thông tin riêng protected health information - 3+, ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành nhұn dҥQ
Trang 2.+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+
Trang 3II 1+,ӊ09Ө9¬1Ӝ,'81*
- Tìm hiӇu lý thuyӃt và các công trình liên quan vӅ bài toán lӑc thông tin riêng trong các bӋQKiQÿLӋn tӱ
- 7uPKLӇXYjKLӋQWKӵFP{KuQKKyDYHFWRUFKRWӯYjFөPWӯWURQJYăQEҧQiSGөQJFKRFiFYăQEҧQOkPVjQJWURQJFiFEӋQKiQÿLӋQWӱ
- 7uPKLӇXFiFP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃX
- 3KiWWULӇQJLҧLSKiSFKREjLWRiQOӑFWK{QJWLQULrQJWURQJFiFYăQEҧQOkPVjQJWURQJÿyFyGQJP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃXÿӇYLӋFWKD\WKӃWK{QJWLQULrQJÿѭӧFQKҩWTXiQ
- 7KӵFKLӋQÿiQKJLiÿӅ[XҩWWUrQGӳOLӋXFKXҭQFӫDFXӝFWKLQKұQGҥQJWK{QJWLQULrQJQăPFӫD,%
III NGÀY GIAO NHIӊM VӨ: 22/02/2021
Trang 4/Ӡ,&È0Ѫ1
ĈӇFyWKӇKRjQWKjQKOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQKErQFҥQKVӵQӛOӵFFӕJҳQJFӫDEҧQWKkQFzQFyVӵKѭӟQJGүQQKLӋWWuQKFӫDTXê7Kҫ\&{FNJQJQKѭVӵÿӝQJYLrQӫQJKӝFӫDJLDÿuQKYjEҥQEqWURQJVXӕWWKӡLJLDQKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥFVƭ
;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQ&{769}7Kӏ1JӑF&KkXQJѭӡLÿmKӃWOzQJJL~SÿӥYjWҥRPӑLÿLӅXNLӋQWӕWQKҩWFKRW{LKRjQWKjQKOXұQYăQQj\;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQWRjQWKӇTXêWKҫ\F{WURQJNKRD.KRDKӑFPi\WtQK- 7UѭӡQJĈ+%ich KRD7S+&0ÿmWұQWuQKWUX\ӅQÿҥWQKӳQJNLӃQWKӭFTXêEiXFNJQJQKѭWҥRPӑLÿLӅXNLӋQWKXұQOӧLQKҩWFKRW{LWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjFKRÿӃQNKLWKӵFKLӋQÿӅtài này
&XӕLFQJW{L[LQFKkQWKjQKFҧPѫQÿӃQJLDÿuQKFiFDQKFKӏYjFiFEҥQÿӗQJQJKLӋSÿmKӛWUӧFKRW{LUҩWQKLӅXWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQK
7S+ӗ&Kt0LQKQJj\WKiQJQăP
+ӑFYLrQ
ÆX0ұX'ѭѫQJ
Trang 57Ï07Ҳ7/8Ұ19Ă1
Tӯ WUѭӟFÿӃn nay, mӛi khi khám chӳa bӋnh, bӋnh viӋQOX{QOѭXJLӳ hӗ VѫEӋnh
án cӫa tҩt cҧ các bӋnh nhân Khi công nghӋ FKѭDSKiWWULӇn, các bӋQKiQQj\ÿѭӧFOѭXtrӳ Gѭӟi dҥng giҩ\1KѭQJWKӡLÿLӇm hiӋn tҥi, công nghӋ ÿmWLrQWLӃn, dҥng giҩ\ÿmNK{QJFzQÿѭӧFѭXFKXӝQJWKD\YjRÿyOjPӝt loҥi bӋQKiQÿѭӧFOѭXWUӳ trên hӋ thӕQJÿLӋn tӱ Pi\YLWtQKÿLӋn thoҥi, máy tính bҧQJ« YjWrQJӑi chính xác cӫa
nó là bӋQKiQÿLӋn tӱ %$Ĉ7
3KѭѫQJWKӭFOѭXWUӳ WKD\ÿәi giúp cho viӋc tìm kiӃm và phân tích dӉ GjQJKѫQ
&NJQJWӯ ÿyPjKѭӟng nghiên cӭu vӅ dӳ liӋu y hӑc phát triӇn, nhu cҫu sӱ dөng dӳ liӋu Qj\WăQJOrQ7KӃ QKѭQJFiFGӳ liӋu này chӭa khá nhiӅu thông tin cá nhân và vҩQÿӅ bҧo mұWÿѭӧFÿһt ra NӃu cung cҩp dӳ liӋu này cho nhà nghiên cӭu dӳ liӋu y hӑc sӁ
vi phҥm quyӅQÿѭӧc bҧo mұt thông tin cá nhân cӫDF{QJGkQ1KѭQJQӃu không cung cҩp, nhà nghiên cӭu dӳ liӋu y hӑFFNJQJYuYұy mà không thӇ tiӃp tөc nghiên cӭu, mà kӃt quҧ cӫa nhӳng nghiên cӭu này lҥi rҩt hӳu ích cho ngành y
Mӝt giҧLSKiSÿѭӧFÿӅ ra là phҧi tiӃn hành tiӅn xӱ lý cho các dӳ liӋu này Nói mӝWFiFKFKtQK[iFKѫQÿyOjFKHJLҩu tҩt cҧ nhӳng thông tin cá nhân hoһc có khҧ QăQJVX\UDWK{QJWLQFiQKkQFӫa các bӋQKiQÿLӋn tӱ này ThӃ QKѭQJVӵ che giҩu này phҧLÿҧm bҧo mӝt yêu cҫu tӕi quan trӑQJÿyOjNK{QJOjPWKD\ÿәLêQJKƭDFӫa bӋQKiQÿLӋn tӱ
&NJQJYuYұy mà trong luұQYăQQj\VӁ ÿӅ xuҩt mӝWSKѭѫQJSKiSWKӵc hiӋn viӋc che giҩu thông tin tӵ ÿӝQJFKRFiF%$Ĉ7Yӟi mô hình dӵDWUrQÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳn KӃt quҧ cӫa quá trình che giҩu này là sӁ tҥo
ra tұp các bӋQKiQÿLӋn tӱ có cҩXWU~FWѭѫQJWӵ QKѭFiF%$Ĉ7JӕFQKѭQJFiFWK{QJWLQULrQJÿmÿѭӧFWKD\ÿәL&iF%$Ĉ7ÿmÿѭӧFWKD\ÿәi thông tin mӝt cách chính xác
và nhҩt quán cho các thӵc thӇ xuҩt hiӋn nhiӅu lҫQWURQJ%$Ĉ7Jӕc Các giá trӏ thӡi gian xuҩt hiӋQWURQJ%$Ĉ7ÿѭӧFWKD\ÿәLQKѭQJYүn giӳ nguyên tính chính xác vӅ khoҧng cách thӡLJLDQJL~SQJѭӡLÿӑc có thӇ JLiPViWÿѭӧc lӏch sӱ khám chӳa bӋnh cӫa bӋQKQKkQÿy
ĈӅ tài này mang tính thӵc tӃ và bao quát ӣ nhӳQJÿLӇm sau Các thông tin riêng (protected health information - 3+, ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành nhұn dҥQJĈӕi vӟi các thông tin PHI dҥng chuӛi, áp dөng viӋc biӃQÿәi các tӯ, cөm
tӯ thành dҥnJYHFWRUVDXÿyiSGөQJÿӗng tham chiӃu kӃt hӧp vӟi mҥng bӝ nhӟ ngҳQÿӇ nhұn dҥQJFiF3+,ÿDQJFQJFKӍ vӅ mӝWÿӕLWѭӧQJÿk\FNJQJOjPӝt thách thӭFWURQJÿӅ WjL 6DXÿy[k\Gӵng mӝt hӋ thӕng thay thӃ các thông tin PHI
Trang 6dài-ABSTRACT
Until now, the hospital always keeps the medical records of all of patients
When technology was not yet developed, these medical records were stored in paper
form But for the present, technology has advanced, paper form is no longer
preferred, instead it is a type of medical record stored on an electronic system
(computer, phone, tablet, etc.), and its correct name is electronic medical record
The changed storage method makes it easier to find and analyze Since then,
the direction of research on medical data has developed, and the demand for using
this data has increased However, this data contains a lot of personal information
and security issues are raised Providing this data to a medical data researcher
would violate a citizen's right to privacy But if not provided, the researcher of
medical data also cannot continue to research, and the results of these researchs are
very useful to the medical profession
One proposed solution is to perform preprocessing of these data To be more
precise, it is to hide all of personal informations and all of informations be able to
infer personal information in these electronic medical records However, this
concealment must ensure an extremely important requirement, which is not to
change the meaning of the electronic medical record
Therefore, in this thesis, a method will be proposed to implement automatic
information hiding for electronic medical records with a co-referencing-based
model combined with a long-short memory network model The result of this
masking process is to create a set of electronic medical records with the same
structure as the original medical records, but the private information has been
changed The electronic medical records have been correctly and consistently
modified for entities that appear more than once in the original electronic medical
records The time values appearing in the electronic medical records are changed,
but the accuracy of the time interval remains the same so that the reader can monitor
the patient's medical history
This topic is practical and covers the following points Protected health
information (PHI) is handled differently based on the characteristics of each data
type For numeric PHI information, applying the rules to performing identification
For string PHI information, applying the transformation of words and phrases into
vector form, then applying co-referencing combined with long-short memory
network to identify PHIs that refer to the same object (this is a challenge in this
thesis) Then, building a system that replaces the PHI information
Trang 7/Ӡ,&$0Ĉ2$1
7{L[LQFDPÿRDQUҵng ngoài các kӃt quҧFiFWK{QJWLQÿѭӧc tham khҧo tӯ các F{QJWUuQKNKiFQKѭÿmJKLU}WURQJOXұQYăQQKӳng công viӋc, kӃt quҧ ÿѭӧc trình bày trong luұQYăQQj\OjGRFKtQKW{LWKӵc hiӋQYjFKѭDÿѭӧc sӱ dөQJÿӇ lҩy bҩt kì chӭng chӍ, bҵng cҩp nào khác
7S+&0QJj\WKiQJQăP
Hӑc viên
Âu MұX'ѭѫQJ
Trang 80өFOөF
1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ iii
Lғ/DґE iv
TÓM TѻT LUѺEsE v
ABSTRACT vi
Lғ/DKE vii
DANH MҗC BѵNG BI҅U x
DANH MҗC HÌNH ѵNH xi
DANH MҗC VI҃T TѻT xii
DANH MҗC THUѺT NGҝ xiii
DANH MҗC TѵI CÔNG Cҗ xiv
ŚӇҿŶŐ/͗'/ҒI THI҇U TҎNG QUAN 1
1.1 Lí do chҸŶĜҲ tài 1
1.2 MӅc tiêu nghiên cӈu 2
1.3 |ŶŐŚša khoa hҸc 2
1.4 |ŶŐŚšĂƚŚӌc tiҴn 2
1.5 ҺŝƚӇӄng nghiên cӈƵĜҲ tài 3
1.6 Kұt quң dӌ kiұn 4
1.7 PhҢm vi thӌc hiҵŶĜҲ tài 4
ŚӇҿŶŐ//͗NE'dZ0EH LIÊN QUAN 5
Ϯ͘ϭyĄĐĜҷnh PHI 5
2.2 LoҢi bҹ các PHI 17
ŚӇҿŶŐ///͗ґ SҔ LÝ THUY҃T 20
3.1 PHI 20
ϯ͘Ϯ͘WŚӇҿŶŐƉŚĄƉĚӌa trên quy tҩc 21
3.3 MҢng bҾ nhӀ dài-ngҩn 21
3.3.1 MҢŶŐŶҿ-ron hһi quy 21
3.3.2 VҤŶĜҲ phӅ thuҾc xa 23
3.3.3 MҢng bҾ nhӀ dài-ngҩn 23
ϯ͘ϯ͘ϰ͘|ƚӇӂng cҺt lõi cӆa mҢng bҾ nhӀ dài-ngҩn 25
3.3.5 Bên trong mҢng bҾ nhӀ dài-ngҩn 26
ϯ͘ϰ͘һng tham chiұu 28
3.4.1 Khái niҵm 28
Trang 93.4.2 Các thành phҥn trong quan hҵ Ĝһng tham chiұƵƚŚӇӁng gҭp 28
3.4.3 Phân loҢi 29
ϯ͘ϰ͘ϰ͘ĄĐƚƌӇӁng hӄp gây nhҥm lҧn vӀŝĜһng tham chiұu 30
3.4.5 Bài ƚŽĄŶĜһng tham chiұƵƚƌŽŶŐǀĉŶďңn 30
3.5 Biҳu diҴn tӉ, cӅm tӉ thành vector 31
ϯ͘ϲ͘WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ 35
ϯ͘ϲ͘ϭ͘Ҿ ĜŽWƌĞĐŝƐŝŽŶ͕ZĞĐĂůů͕F1 35
ŚӇҿŶŐ/s͗DNdѵ /dKEsW,ҙґE'W,Wd,ҞC HI҇E҄ TÀI 37
4.1 Mô tң bài toán 37
ϰ͘Ϯ͘WŚӇҿŶŐƉŚĄƉƚŚӌc hiҵŶĜҲ tài 40
4.2.1 Tokenization 41
4.2.2 Abbreviation Resolution Module 43
4.2.3 Word Representation 44
4.2.4 Coreference Resolution Module 45
4.2.5 Alternative Information Component 47
4.2.6 Replace Component 49
ŚӇҿŶŐs͗E,'/ 51
5.1 Mô tң dӋ liҵƵĜҥu vào 51
ϱ͘ϭ͘ϭ͘dŚƀŶŐƚŝŶW,/ƚƌŽŶŐd 51
ϱ͘ϭ͘Ϯ͘ҭĐĜŝҳm dӋ liҵu 51
5.2 Mô tҧ dӳ liӋXÿҫu ra 51
5.3 WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ 52
5.3.1 Phҥn 1 52
5.3.2 Phҫn 2 54
5.3.3 Phҫn 3 54
ŚӇҿŶŐs/͗<҃T LUѺN 56
6.1 Các nҾŝĚƵŶŐĜĆĜӇӄc thӌc hiҵn 56
6.2 MӈĐĜҾ ĜҢƚĜӇӄc cӆĂĜҲ tài 56
6.3 NhӋng nghiên cӈu tiұp theo 56
TÀI LI҇U THAM KHѵO 57
PHѷN LÝ L҉CH TRÍCH NGANG 59
Trang 10'$1+0Ө&%Ҧ1*%,ӆ8
Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó 6
Bҧng 2: Thӵc thӇ cҩu thành 7
Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó d (decimal) là chӳ sӕ 7
Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014 9
Bҧng 5: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [2] 11
Bҧng 6: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc I2B2 ± 2014 và N-GRID ± 2016 13
Bҧng 7: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [3] 16
Bҧng 8: Xác suҩt và tӍ lӋ xác suҩt cӫa tӯ ngӳ cҧnh và tӯ mөc tiêu 33
BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu 54
BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu 54
Trang 11'$1+0Ө&+Î1+Ҧ1+
Hình 1: Mӝt phҫn dӳ liӋu trong I2B2 3
Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2] 8
Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token 10
Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ 10
Hình 5: Mô hình mô tҧ hӋ thӕng [3] 13
Hình 6: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu [3] 15
Hình 7: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu vӟLFiFÿһFWUѭQJ>@ 16
Hình 8: Mӝt nút trong mҥQJQѫ-ron hӗi quy 22
Hình 9: MҥQJQѫ-ron hӗi quy 22
Hình 10: BiӇu diӉn mҥQJQѫ-ron hӗi quy vӟi tҫng tanh 24
Hình 11: BiӇu diӉn mҥng bӝ nhӟ dài-ngҳn vӟi 4 tҫQJWѭѫQJWiF 24
Hình 12: Trҥng thái tӃ bào 25
Hình 13: Cәng sàng lӑc thông tin 25
+uQK&iFKWtQK¦ t 26
Hình 15: Cách tính i t và ܥݐ 27
Hình 16: Cách tính C t 27
Hình 17: Cách tính o t và h t 28
Hình 18: Mô hình chung giҧi quyӃWEjLWRiQÿӗng tham chiӃu 31
Hình 19: BiӇu diӉn tӯ dҥng One-hot vector [8] 32
Hình 20: BiӇu diӉn phân bӕ cho tӯ [8] 32
Hình 21: Hàm trӑng sӕ 35
Hình 22: BӋnKiQÿLӋn tӱ ÿRҥn Text 37
Hình 23: BӋQKiQÿLӋn tӱ ÿRҥn Tag 38
Hình 24: KӃt quҧ thay thӃ ÿRҥn Text 39
Hình 25: KӃt quҧ thay thӃ ÿRҥn Tag 39
Hình 26: HӋ thӕng thay thӃ các thông tin PHI 41
Hình 27: HӋ thӕng Rule-based xӱ lý các tӯ viӃt tҳt 43
+uQK%ѭӟc 1 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ 45
+uQK%ѭӟc 2 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ 47
Hình 30: Ví dө vӅ vҩQÿӅ xӱ Oêÿӗng tham chiӃu 53
Hình 31: Ví dө vӅ vҩQÿӅ viӃt sai chính tҧ 55
Trang 12'$1+0Ө&9,ӂ77Ҳ7
%$Ĉ7 BӋQKiQÿLӋn tӱ
PHI Protected Health Infomation
I2B2 Informatics for Integrating Biology and the Bedside SSN Social Security Number
HIPAA Health Insurance Portability and Accountability Act GloVe Global Vectors for Word Representation
Trang 13'$1+0Ө&7+8Ұ71*Ӳ
MҥQJQѫ-ron hӗi quy Recurrent Neural Network RNN Mҥng bӝ nhӟ dài-ngҳn Long Short-Term Memory LSTM Mҥng bӝ nhӟ dài-ngҳn hai chiӅu Bidirectional Long Short-Term
Memory
Bi-LSTM
7UѭӡQJÿLӅXNLӋQQJүXQKLrQ Conditional random field CRF
Trang 14'$1+0Ө&7Ҧ,&Ð1*&Ө
CRFsuite http://www.chokkan.org/software/crfsuite/
MedEx https://code.google.com/archive/p/medex-uima/downloadsLibSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/
NLTK https://www.nltk.org/
GloVe https://nlp.stanford.edu/projects/glove/
Trang 15Tuy nhiên, mӝt sӕ ÿһFÿLӇm cӫD%$Ĉ7PDQJOҥi mӝt sӕ NKyNKăQWURQJTXiWUuQK
Chính nhӳQJÿһc ÿLӇm trên gây ra nhӳQJNKyNKăQFKRF{QJWiFWLӃn hành che giҩXWK{QJWLQĈk\FNJQJOjOêGRWҥi sao mà mһFGÿmFyQKLӅu công trình nghiên cӭXYjSKѭѫQJSKiSÿѭӧFÿӅ xuҩWQKѭQJWҩt cҧ ÿӅu bӝc lӝ QKѭӧFÿLӇm riêng và vүn FKѭDJLҧi quyӃWÿѭӧc hoàn toàn vҩn ÿӅ ÿһWUDWURQJÿӅ tài này
&NJQJ Yu Yұ\ W{L ÿӅ xuҩt mӝW Kѭӟng tiӃp cұn mӟL FKR OƭQK Yӵc này: sӱ dөng SKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ thӵc hiӋn viӋc che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ
Trang 161.2 0өFWLrXQJKLrQFӭX
ĈӅWjLWKӵFKLӋQYLӋFFKHJLҩXWK{QJWLQEҵQJSKѭѫQJSKiSWKD\WKӃGӵDWUrQPӝWKӋWKӕQJYӟLVӵNӃWKӧSJLӳDÿӗQJWKDPFKLӃXYjP{KuQKPҥQJEӝQKӟGjL-QJҳQ9LӋFWKD\WKӃFiFWK{QJWLQFyNKҧQăQJÿӏQKGDQKQj\ÿѭӧFWKӵFKLӋQPӝWFiFKQKҩWTXiQYjÿӗQJEӝFKRFQJPӝWEӋQKQKkQ[XҩWKLӋQWURQJQKLӅXEӋQKiQNKiFQKDX 1KѭÿmSKiWELӇXӣSKҫQWUѭӟFWK{QJWLQWURQJEӋQKiQÿLӋQWӱOjWK{QJWLQGҥQJYăQEҧQYjOjGӳOLӋXNK{QJFyFҩXWU~FFiFWK{QJWLQFyWKӇÿѭӧFOѭXWUӳNK{QJWKHRFKXҭQQKҩWÿӏQKNKLFyWKӇFyFiFWӯYLӃWWҳWFӫDWrQEӋQKQKkQEiFVƭKD\ÿӏDÿLӇP«9uWKӃFK~QJWDFҫQWKӵFKLӋQPӝWFѫFKӃWKD\WKӃQKҩWTXiQFiFWK{QJWLQÿӏQKGDQKvӟi các cách biӇu diӉn khác nhau (ký hiӋu, viӃt tҳt, dùng hӑ thay tên, dùng sӕ thay chuӛL« QKѭQJFQg chӍ vӅ ÿӕLWѭӧQJWKuQrQÿѭӧc thay thӃ bӣi mӝt giá trӏ WѭѫQJӭngFөWKӇQKѭVDX
- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa bӋQKQKkQQrQÿѭӧc thay thӃ giӕng nhau
- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQÿѭӧc thay thӃ giӕng nhau
- &iFEӋQKiQNKiFQKDXFӫDFQJPӝWEӋQKYLӋQWrQEiFVƭӣEӋQKYLӋQÿӏDÿLӇPEӋQKYLӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧFWKD\WKӃJLӕQJQKDX
1.3 éQJKƭDNKRDKӑF
&iFSKѭѫQJSKiSQKҵm che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ WKѭӡng dӵa vào mӝt sӕ quy tҳc cӫa biӇu thӭc chính quy hoһc sӵ kӃt hӧp cӫa các luұt, các thuұt toán, tӯ ÿLӇn, và mӟi nhҩt hiӋn nay là các ӭng dөng cӫa hӑFPi\YjROƭQKYӵc này, ví dө QKѭWUѭӡQJÿLӅu kiӋn ngүu nhiên, mҥng bӝ nhӟ dài-ngҳn, mҥng bӝ nhӟ dài-ngҳn hai chiӅXĈLӇn hình là hӋ thӕng Scrub [1], hӋ thӕng De-Id [2, 3] KӃt quҧ cӫa FiFSKѭѫQJSKiSQj\FyWKӇ thay thӃ các thông tin riêng bҵng các thông tin thay thӃ, hoһFÿѭӧc thay thӃ bҵng các nhãn cӫa loҥL3+,WѭѫQJӭng
ĈӅ WjLÿѭӧc thӵc hiӋn dӵDWUrQSKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ tiӃn hành thay thӃ thông tin riêng, nhҵPÿiSӭng yêu cҫu vӅ ngӳ QJKƭDÿӕi vӟi các thông tin cҫQÿѭӧc thay thӃ, và thӇ hiӋn sӵ nhҩt quán cho các thông tin thay thӃ
1.4 éQJKƭDWKӵFWLӉQ
9ӟLVӵELӃQÿӝQJOӟQYӅOѭӧQJGӳOLӋXFӫDYăQEҧQOkPVjQJFK~QJWDÿDQJFyPӝWNKRWjQJWULWKӭFÿDQJFKӡÿѭӧFNKDLSKi7KӃQKѭQJYLӋFNKDLSKiQj\VӁEӏGӯQJOҥLEӣLWK{QJWLQWURQJNKRWjQJQj\OjFiFWK{QJWLQÿѭӧFEҧRYӋWKHROXұWEҧRYӋTX\ӅQULrQJWѭFӫDQKkQORҥLWKѭӡQJOjFiFWK{QJWLQQKѭWrQWXәLQJj\WKiQJQăPVLQKVӕÿLӋQWKRҥLHPDLOKRһFEҵQJFҩS« 'RYұ\FK~QJWDFKӍFyWKӇF{QJEӕF{QJNKDLGӳOLӋXQj\FKRFiFF{QJW\FiFWәFKӭFKD\FiFQKjQJKLrQFӭXVDXNKLÿmFKHJLҩXFiFWK{QJWLQULrng
Trang 17ĈӅWjLWұSWUXQJYjRYLӋFWKD\ÿәLFiFWK{QJWLQFyWKӇÿӏQKGDQKKRһFKӛWUӧÿӏQKGDQKFiFFiQKkQWURQJEӋQKiQÿLӋQWӱ9jVDXNKLWKD\ÿәLêQJKƭDFӫDEӋQKiQÿLӋQWӱNK{QJWKD\ÿәLYүQKӛWUӧWӕWFKRFiFEjLWRiQNKDLSKiGӳOLӋX
1.5 ĈӕLWѭӧQJQJKLrQFӭXÿӅWjL
ĈӅ tài hiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin riêng xuҩt hiӋn trong bӋnh iQÿLӋn tӱ Và dӳ liӋu mүXÿӇ tiӃn hành nghiên cӭu là I2B2, mӝt tұp dӳ liӋXÿmÿѭӧc công bӕ vӟLFiFWK{QJWLQULrQJÿmÿѭӧF[iFÿӏnh cө thӇ
+uQKErQGѭӟi là mӝt phҫn dӳ liӋu trong bӋQKiQÿLӋn tӱ I2B2
Hình 1: Mӝt phҫn dӳ liӋu trong I2B2
Trong hình trên, các thҿ DATE, AGE, DOCTOR, HOSPITAL là các nhãn dùng
ÿӇ [iFÿӏQKFiFÿRҥQYăQEҧQÿyWKXӝc vӅ loҥi thông tin PHI nào
Trang 181.6 ӃWTXҧGӵNLӃQ
Các dӳ liӋu thay thӃ ÿҧm bҧo các yêu cҫu sau:
- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa cùng mӝt bӋQKQKkQQrQÿѭӧc
thay thӃ giӕng nhau
- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ
ÿѭӧc thay thӃ giӕng nhau
- Các bӋnh án khác nhau cӫa cùng mӝt bӋnh viӋQWrQEiFVƭӣ bӋnh viӋQÿӏa
ÿLӇm bӋnh viӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧc thay thӃ giӕng nhau
1.7 3KҥPYLWKӵFKLӋQÿӅWjL
ĈӅ tài thӵc hiӋn viӋc thay thӃ các thông tin PHI trong mӝt tұp dӳ liӋu bӋnh án
ÿLӋn tӱ ,% ÿӇ tҥo ra mӝt tұp dӳ liӋu bӋQKiQÿLӋn tӱ mӟi (New I2B2) vӟi các
WK{QJWLQULrQJÿmÿѭӧc che giҩu
&iFWK{QJWLQ3+,ÿmÿѭӧF[iFÿӏnh rõ ràng tӯ WUѭӟc, và viӋc che giҩu thông tin
ULrQJÿѭӧc thӵc hiӋn vӟi bӝ bӋQKiQÿLӋn tӱ I2B2 vӟi ngôn ngӳ chính là tiӃng anh
Trang 19&KѭѫQJ,,CÁC CÔNG TRÌNH LIÊN QUAN
Vӟi nhu cҫu phân tích dӳ liӋu ngày càng lӟn, viӋc che giҩu thông tin riêng cho các tұp dӳ liӋXQj\FNJQJYuYұy mà ngày càng cҩp thiӃt và quan trӑQJ'RÿyPjKLӋn tҥi có khá nhiӅu nhà nghiên cӭu hay tә chӭFWKDPJLDYjREѭӟc tiӅn xӱ lý dӳ liӋu này ViӋc che giҩu thông tin riêng bao gӗPKDLEѭӟc:
- %ѭӟc 1: Tìm kiӃm thông tin cҫn che giҩX;iFÿӏnh thông tin riêng PHI)
- %ѭӟc 2: HiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin cҫn che giҩu
Chi tiӃt cӫa tӯQJEѭӟc sӁ ÿѭӧc mô tҧ qua các bài báo khoa hӑFGѭӟLÿk\
;iFÿӏQK3+,
Ĉk\OjPӝWJLDLÿRҥn quan trӑng, vӟi tính chính xác càng cao, càng hӛ trӧ tӕt cho FiFJLDLÿRҥn sau khi thӵc hiӋn thay thӃ Có rҩt nhiӅu công trình nghiên cӭu vӟi nhiӅu giҧLSKiSÿӇ xӱ OêEjLWRiQQj\VDXÿk\OjQKӳng tóm tҳt vӅ chúng
9jRQăP/DWDQ\D6ZHHQH\ÿmGӵa trên cách tiӃp cұn cӫDFRQQJѭӡi khi xác ÿӏQKFiFWK{QJWLQÿӏQKGDQKÿӇ xây dӵng hӋ thӕng Scrub [1], mӝt hӋ thӕng sӱ dөng SKѭѫQJSKiSQKұn diӋn vӟi mӝt bӝ các giҧi thuұt nhұn diӋn sӱ dөng các mүu và tri thӭc chuyên biӋt vӅ nhӳng yӃu tӕ cҩu thành nên mӝWFiLWrQÿӏa chӍ, sӕ ÿLӋn thoҥi Mӛi giҧi thuұt trong hӋ thӕQJ[iFÿӏnh mӝt loҥLWK{QJWLQÿӏnh danh khác nhau Các giҧi thuұt này sӱ dөng các nguӗn tri thӭc cөc bӝ Các tri thӭc này là các kiӃn thӭc ÿѭӧFWtFKONJ\Gӵa trên thӵc nghiӋPTXDQViWYjWѭѫQJWiFYӟLP{LWUѭӡng, xã hӝi Ví
dө, Fred và Bill là nhӳng hӑ thông dөng hay Miller và Jones là nhӳng tên thông dөng
và khi chúng ta biӃt nhӳng kiӃn thӭc này sӁ dӉ dàng cho chúng ta nhұQUDÿyOjQKӳng cái tên
HӋ thӕng sӱ dөng các danh sách tri thӭc cөc bӝ ÿLNqPOjFiFPүu cӫa chúng, bao gӗm tên, hӑ, bí danh, tên viӃt tҳt cӫa các tiӇu bang cӫa Mӻ«YjFiFJLҧi thuұt nhúng các mүu nhұn dҥng
Trang 20Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó
2 1KmQÿӏa chӍ mail 14 Bí danh
Trang 21Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó d (decimal) là chӳ sӕ
9jRQăPSKѭѫQJSKiSKӑc máy bҳWÿҫu phát triӇQYjÿѭӧFÿѭDYào ӭng dөng cho nhiӅu bài toán, mӝt nhóm các nhà khoa hӑFQJѭӡi Trung QuӕFÿmÿӅ xuҩt mӝt giҧi pháp mӟLÿӇ WăQJNKҧ QăQJQKұn diӋn PHI [2] Nhóm sӱ dөng dӳ liӋu I2B2-
YjÿӅ xuҩt mӝt hӋ thӕng hӛn hӧp dӵa trên cҧ hӑc máy và cách tiӃp cұn dӵa trên quy tҳc HӋ thӕng nhұn diӋn PHI bҵQJWUѭӡQJÿLӅu kiӋn ngүu nhiên (mӭc token và mӭc ký tӵ) và mӝt thành phҫn phân loҥi dӵa trên quy tҳFVDXÿyVӁ hӧp nhҩt chúng
Trang 22lҥi bҵng mӝt sӕ quy tҳc KӃt quҧ thӵc nghiӋm trên I2B2 khá tӕt, F-scores cӫD³WRNHQ´
³VWULFW´³UHOD[HG´OҫQOѭӧWOj6DXÿyQKyPWiFJLҧ tích hӧp thêm bӝ tӯ ÿLӇn vӅ ÿӏD ÿLӇm và F-VFRUHV ÿm WăQJ OrQ OҫQ Oѭӧt là 94.83%, 91.57%, 91.95%
HӋ thӕQJ>@FyP{KuQKQKѭVDX
Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2]
Trang 230{KuQKQj\ÿѭӧc thӵc nghiӋm trên tұp dӳ liӋu I2B2 ± 2014 vӟi 1304 hӗ VѫEӋnh
án cӫa 297 bӋQKQKkQYjÿѭӧc chia làm 2 phҫn:
- Phҫn 1: bao gӗm 790 hӗ VѫEӋnh án cӫa 188 bӋQKQKkQÿѭӧc sӱ dөQJÿӇ làm tұp huҩn luyӋn
- Phҫn 2: bao gӗm 514 hӗ VѫEӋnh án cӫa 109 bӋQKQKkQÿѭӧc sӱ dөQJÿӇ làm tұp kiӇm thӱ
Vӟi 17,045 thӵc thӇ PHI trong tұp huҩn luyӋn và 11,462 thӵc thӇ PHI trong tұp kiӇm thӱ ÿѭӧFÿiQKGҩu dӵa trên 7 danh mөc chính và 25 danh mөc phө theo HIPAA ÿmÿӏQKQJKƭD6ӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính trong 2 tұp dӳ liӋu ÿѭӧFOѭӧc kê trong bҧng 4
Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014
LOCATION HOSPITAL, COUNTRY
ORGANIZATION*, ZIP* STREET*, CITY*, STATE LOCATION-OTHER
HӋ thӕng [2] biӇu diӉn các thӵc thӇ PHI bҵnJOѭӧFÿӗ nhұn dҥng thӵc thӇ có WrQOj³%,2´Yj³%,2(6´Yӟi:
Trang 24- µ%¶µ,¶µ2¶Yjµ(¶ELӇu thӏ rҵng token hoһc ký tӵ ÿmÿѭӧFÿiQKGҩXOjÿҫu, giӳa, bên ngoài và kӃt thúc cӫa mӝt thӵc thӇ
- µ6¶ELӇu thӏ rҵng token hoһc ký tӵ là mӝt thӵc thӇ
7KHRQKѭÿiQKJLá cӫa nhóm tác giҧ >@µ%,2¶KRҥWÿӝng tӕWKѫQµ%,2(6¶WURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQWURQJNKLÿyWKuµ%,2(6¶KRҥWÿӝng tӕWKѫQµ%,2¶WURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵĈk\FNJQJOjOêGRYuVDRPjKӋ thӕng này sӱ dөQJµ%,2¶FKRWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQYjµ%,2(6¶FKRWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ Chúng ta có thӇ xem ví dө vӅ các cách biӇu diӉn này ӣ hình 3
Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token
7UѭӡQJÿLӅu kiӋn ngүu nhiên mӭc token cҫn mӝt mô-ÿXQÿӇ token hoá các tӯ WURQJYăQEҧn Và nhóm tác giҧ >@ÿmVӱ dөng MedEx, mӝt công cө hӛ trӧ khai thác thông tin y tӃ ÿӇ thӵc hiӋn viӋc token hoá này Sau khi token hoá, hӑ trích xuҩt các ÿһFWUѭQJFKRWUѭӡQJÿLӅu kiӋn ngүu nhiên
7UѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ chia bӋQKiQÿLӋn tӱ thành các câu dӵa trên ký tӵ µ\Q¶VDXÿySKkQWiFKFiFFkXWKjQKFiFNêWӵ Trong quá trình phân tách, khoҧng trҳng và ký tӵ µ\W¶ÿѭӧc thay thӃ bҵQJ³ ´YjFiFNý tӵ Qj\ÿѭӧc cách nhau bҵng mӝt khoҧng trҳng Chúng ta có thӇ xem ví dө ӣ hình 4
Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ
Trang 25Bӝ phân loҥi dӵa trên quy tҳc có nhiӋm vө mô tҧ các loҥi thӵc thӇ 3+,Fyÿӏnh dҥQJU}UjQJQKѭ6ӕ ÿLӋn thoҥi, sӕ Fax, sӕ hӗ Vѫ\WӃÿӏa chӍ HPDLOÿӏa chӍ IP thành các biӇu thӭc chính quy Chúng ta có thӇ xem bҧQJÿӇ biӃt chi tiӃt vӅ các biӇu thӭc chính quy này
\G^`>í@\G^`>í@\d{2}
453-39-84-4 544-84-52
Sau khi tҥo ra các kӃt quҧ tӯ viӋc sӱ dөng 3 thành phҫQWUrQWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ và bӝ phân loҥi dӵa trên quy tҳc), nhóm tác giҧ [2] tҥo thêm mӝt thành phҫn giúp hӧp nhҩt các kӃt quҧ này lҥi vӟi nhau Cө thӇ QKѭVDX
- Các thӵc thӇ PHI không trùng lһp vӟi bҩt kǤ WUѭӡng hӧp nào khác sӁ ÿѭӧc hӧp nhҩt trӵc tiӃp
- &iFWUѭӡng hӧp PHI chӗQJOrQQKDXÿѭӧc chӑn theo thӭ tӵ: bӝ phân loҥi dӵa trên quy tҳFWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ YjWUѭӡQJ ÿLӅu kiӋn ngүu nhiên mӭc token
- &iFWUѭӡng hӧp 2 thӵc thӇ PHI trùng lһSÿѭӧc tҥo ra tӯ bӝ phân loҥi dӵa trên quy tҳF$