1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Ứng dụng phân giải đồng tham chiếu cho bài toán lọc thông tin riêng trong văn bản lâm sàng

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng phân giải đồng tham chiếu cho bài toán lọc thông tin riêng trong văn bản lâm sàng
Tác giả Chuyờn Nguyễn, KRD +ӑF 0i\ 7tQK
Trường học Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 2,38 MB

Nội dung

Các thông tin riêng protected health information - 3+, ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành nhұn dҥQ

Trang 2

.+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+

Trang 3

II 1+,ӊ09Ө9¬1Ӝ,'81*

- Tìm hiӇu lý thuyӃt và các công trình liên quan vӅ bài toán lӑc thông tin riêng trong các bӋQKiQÿLӋn tӱ

- 7uPKLӇXYjKLӋQWKӵFP{KuQKKyDYHFWRUFKRWӯYjFөPWӯWURQJYăQEҧQiSGөQJFKRFiFYăQEҧQOkPVjQJWURQJFiFEӋQKiQÿLӋQWӱ

- 7uPKLӇXFiFP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃX

- 3KiWWULӇQJLҧLSKiSFKREjLWRiQOӑFWK{QJWLQULrQJWURQJFiFYăQEҧQOkPVjQJWURQJÿyFyGQJP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃXÿӇYLӋFWKD\WKӃWK{QJWLQULrQJÿѭӧFQKҩWTXiQ

- 7KӵFKLӋQÿiQKJLiÿӅ[XҩWWUrQGӳOLӋXFKXҭQFӫDFXӝFWKLQKұQGҥQJWK{QJWLQULrQJQăPFӫD,%

III NGÀY GIAO NHIӊM VӨ: 22/02/2021

Trang 4

/Ӡ,&È0Ѫ1

ĈӇFyWKӇKRjQWKjQKOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQKErQFҥQKVӵQӛOӵFFӕJҳQJFӫDEҧQWKkQFzQFyVӵKѭӟQJGүQQKLӋWWuQKFӫDTXê7Kҫ\&{FNJQJQKѭVӵÿӝQJYLrQӫQJKӝFӫDJLDÿuQKYjEҥQEqWURQJVXӕWWKӡLJLDQKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥFVƭ

;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQ&{769}7Kӏ1JӑF&KkXQJѭӡLÿmKӃWOzQJJL~SÿӥYjWҥRPӑLÿLӅXNLӋQWӕWQKҩWFKRW{LKRjQWKjQKOXұQYăQQj\;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQWRjQWKӇTXêWKҫ\F{WURQJNKRD.KRDKӑFPi\WtQK- 7UѭӡQJĈ+%ich KRD7S+&0ÿmWұQWuQKWUX\ӅQÿҥWQKӳQJNLӃQWKӭFTXêEiXFNJQJQKѭWҥRPӑLÿLӅXNLӋQWKXұQOӧLQKҩWFKRW{LWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjFKRÿӃQNKLWKӵFKLӋQÿӅtài này

&XӕLFQJW{L[LQFKkQWKjQKFҧPѫQÿӃQJLDÿuQKFiFDQKFKӏYjFiFEҥQÿӗQJQJKLӋSÿmKӛWUӧFKRW{LUҩWQKLӅXWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQK

7S+ӗ&Kt0LQKQJj\WKiQJQăP

+ӑFYLrQ

ÆX0ұX'ѭѫQJ

Trang 5

7Ï07Ҳ7/8Ұ19Ă1

Tӯ WUѭӟFÿӃn nay, mӛi khi khám chӳa bӋnh, bӋnh viӋQOX{QOѭXJLӳ hӗ VѫEӋnh

án cӫa tҩt cҧ các bӋnh nhân Khi công nghӋ FKѭDSKiWWULӇn, các bӋQKiQQj\ÿѭӧFOѭXtrӳ Gѭӟi dҥng giҩ\1KѭQJWKӡLÿLӇm hiӋn tҥi, công nghӋ ÿmWLrQWLӃn, dҥng giҩ\ÿmNK{QJFzQÿѭӧFѭXFKXӝQJWKD\YjRÿyOjPӝt loҥi bӋQKiQÿѭӧFOѭXWUӳ trên hӋ thӕQJÿLӋn tӱ Pi\YLWtQKÿLӋn thoҥi, máy tính bҧQJ« YjWrQJӑi chính xác cӫa

nó là bӋQKiQÿLӋn tӱ %$Ĉ7 

3KѭѫQJWKӭFOѭXWUӳ WKD\ÿәi giúp cho viӋc tìm kiӃm và phân tích dӉ GjQJKѫQ

&NJQJWӯ ÿyPjKѭӟng nghiên cӭu vӅ dӳ liӋu y hӑc phát triӇn, nhu cҫu sӱ dөng dӳ liӋu Qj\WăQJOrQ7KӃ QKѭQJFiFGӳ liӋu này chӭa khá nhiӅu thông tin cá nhân và vҩQÿӅ bҧo mұWÿѭӧFÿһt ra NӃu cung cҩp dӳ liӋu này cho nhà nghiên cӭu dӳ liӋu y hӑc sӁ

vi phҥm quyӅQÿѭӧc bҧo mұt thông tin cá nhân cӫDF{QJGkQ1KѭQJQӃu không cung cҩp, nhà nghiên cӭu dӳ liӋu y hӑFFNJQJYuYұy mà không thӇ tiӃp tөc nghiên cӭu, mà kӃt quҧ cӫa nhӳng nghiên cӭu này lҥi rҩt hӳu ích cho ngành y

Mӝt giҧLSKiSÿѭӧFÿӅ ra là phҧi tiӃn hành tiӅn xӱ lý cho các dӳ liӋu này Nói mӝWFiFKFKtQK[iFKѫQÿyOjFKHJLҩu tҩt cҧ nhӳng thông tin cá nhân hoһc có khҧ QăQJVX\UDWK{QJWLQFiQKkQFӫa các bӋQKiQÿLӋn tӱ này ThӃ QKѭQJVӵ che giҩu này phҧLÿҧm bҧo mӝt yêu cҫu tӕi quan trӑQJÿyOjNK{QJOjPWKD\ÿәLêQJKƭDFӫa bӋQKiQÿLӋn tӱ

&NJQJYuYұy mà trong luұQYăQQj\VӁ ÿӅ xuҩt mӝWSKѭѫQJSKiSWKӵc hiӋn viӋc che giҩu thông tin tӵ ÿӝQJFKRFiF%$Ĉ7Yӟi mô hình dӵDWUrQÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳn KӃt quҧ cӫa quá trình che giҩu này là sӁ tҥo

ra tұp các bӋQKiQÿLӋn tӱ có cҩXWU~FWѭѫQJWӵ QKѭFiF%$Ĉ7JӕFQKѭQJFiFWK{QJWLQULrQJÿmÿѭӧFWKD\ÿәL&iF%$Ĉ7ÿmÿѭӧFWKD\ÿәi thông tin mӝt cách chính xác

và nhҩt quán cho các thӵc thӇ xuҩt hiӋn nhiӅu lҫQWURQJ%$Ĉ7Jӕc Các giá trӏ thӡi gian xuҩt hiӋQWURQJ%$Ĉ7ÿѭӧFWKD\ÿәLQKѭQJYүn giӳ nguyên tính chính xác vӅ khoҧng cách thӡLJLDQJL~SQJѭӡLÿӑc có thӇ JLiPViWÿѭӧc lӏch sӱ khám chӳa bӋnh cӫa bӋQKQKkQÿy

ĈӅ tài này mang tính thӵc tӃ và bao quát ӣ nhӳQJÿLӇm sau Các thông tin riêng (protected health information - 3+, ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành nhұn dҥQJĈӕi vӟi các thông tin PHI dҥng chuӛi, áp dөng viӋc biӃQÿәi các tӯ, cөm

tӯ thành dҥnJYHFWRUVDXÿyiSGөQJÿӗng tham chiӃu kӃt hӧp vӟi mҥng bӝ nhӟ ngҳQÿӇ nhұn dҥQJFiF3+,ÿDQJFQJFKӍ vӅ mӝWÿӕLWѭӧQJ ÿk\FNJQJOjPӝt thách thӭFWURQJÿӅ WjL 6DXÿy[k\Gӵng mӝt hӋ thӕng thay thӃ các thông tin PHI

Trang 6

dài-ABSTRACT

Until now, the hospital always keeps the medical records of all of patients

When technology was not yet developed, these medical records were stored in paper

form But for the present, technology has advanced, paper form is no longer

preferred, instead it is a type of medical record stored on an electronic system

(computer, phone, tablet, etc.), and its correct name is electronic medical record

The changed storage method makes it easier to find and analyze Since then,

the direction of research on medical data has developed, and the demand for using

this data has increased However, this data contains a lot of personal information

and security issues are raised Providing this data to a medical data researcher

would violate a citizen's right to privacy But if not provided, the researcher of

medical data also cannot continue to research, and the results of these researchs are

very useful to the medical profession

One proposed solution is to perform preprocessing of these data To be more

precise, it is to hide all of personal informations and all of informations be able to

infer personal information in these electronic medical records However, this

concealment must ensure an extremely important requirement, which is not to

change the meaning of the electronic medical record

Therefore, in this thesis, a method will be proposed to implement automatic

information hiding for electronic medical records with a co-referencing-based

model combined with a long-short memory network model The result of this

masking process is to create a set of electronic medical records with the same

structure as the original medical records, but the private information has been

changed The electronic medical records have been correctly and consistently

modified for entities that appear more than once in the original electronic medical

records The time values appearing in the electronic medical records are changed,

but the accuracy of the time interval remains the same so that the reader can monitor

the patient's medical history

This topic is practical and covers the following points Protected health

information (PHI) is handled differently based on the characteristics of each data

type For numeric PHI information, applying the rules to performing identification

For string PHI information, applying the transformation of words and phrases into

vector form, then applying co-referencing combined with long-short memory

network to identify PHIs that refer to the same object (this is a challenge in this

thesis) Then, building a system that replaces the PHI information

Trang 7

/Ӡ,&$0Ĉ2$1

7{L[LQFDPÿRDQUҵng ngoài các kӃt quҧFiFWK{QJWLQÿѭӧc tham khҧo tӯ các F{QJWUuQKNKiFQKѭÿmJKLU}WURQJOXұQYăQQKӳng công viӋc, kӃt quҧ ÿѭӧc trình bày trong luұQYăQQj\OjGRFKtQKW{LWKӵc hiӋQYjFKѭDÿѭӧc sӱ dөQJÿӇ lҩy bҩt kì chӭng chӍ, bҵng cҩp nào khác

7S+&0QJj\WKiQJQăP

Hӑc viên

Âu MұX'ѭѫQJ

Trang 8

0өFOөF

1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ iii

Lғ/DґE iv

TÓM TѻT LUѺEs E v

ABSTRACT vi

Lғ/DKE vii

DANH MҗC BѵNG BI҅U x

DANH MҗC HÌNH ѵNH xi

DANH MҗC VI҃T TѻT xii

DANH MҗC THUѺT NGҝ xiii

DANH MҗC TѵI CÔNG Cҗ xiv

ŚӇҿŶŐ/͗'/ҒI THI҇U TҎNG QUAN 1

1.1 Lí do chҸŶĜҲ tài 1

1.2 MӅc tiêu nghiên cӈu 2

1.3 |ŶŐŚša khoa hҸc 2

1.4 |ŶŐŚšĂƚŚӌc tiҴn 2

1.5 ҺŝƚӇӄng nghiên cӈƵĜҲ tài 3

1.6 Kұt quң dӌ kiұn 4

1.7 PhҢm vi thӌc hiҵŶĜҲ tài 4

ŚӇҿŶŐ//͗NE'dZ0EH LIÊN QUAN 5

Ϯ͘ϭyĄĐĜҷnh PHI 5

2.2 LoҢi bҹ các PHI 17

ŚӇҿŶŐ///͗ґ SҔ LÝ THUY҃T 20

3.1 PHI 20

ϯ͘Ϯ͘WŚӇҿŶŐƉŚĄƉĚӌa trên quy tҩc 21

3.3 MҢng bҾ nhӀ dài-ngҩn 21

3.3.1 MҢŶŐŶҿ-ron hһi quy 21

3.3.2 VҤŶĜҲ phӅ thuҾc xa 23

3.3.3 MҢng bҾ nhӀ dài-ngҩn 23

ϯ͘ϯ͘ϰ͘|ƚӇӂng cҺt lõi cӆa mҢng bҾ nhӀ dài-ngҩn 25

3.3.5 Bên trong mҢng bҾ nhӀ dài-ngҩn 26

ϯ͘ϰ͘һng tham chiұu 28

3.4.1 Khái niҵm 28

Trang 9

3.4.2 Các thành phҥn trong quan hҵ Ĝһng tham chiұƵƚŚӇӁng gҭp 28

3.4.3 Phân loҢi 29

ϯ͘ϰ͘ϰ͘ĄĐƚƌӇӁng hӄp gây nhҥm lҧn vӀŝĜһng tham chiұu 30

3.4.5 Bài ƚŽĄŶĜһng tham chiұƵƚƌŽŶŐǀĉŶďңn 30

3.5 Biҳu diҴn tӉ, cӅm tӉ thành vector 31

ϯ͘ϲ͘WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ 35

ϯ͘ϲ͘ϭ͘Ҿ ĜŽWƌĞĐŝƐŝŽŶ͕ZĞĐĂůů͕F1 35

ŚӇҿŶŐ/s͗DNdѵ /dKEsW,ҙґE'W,Wd,ҞC HI҇E҄ TÀI 37

4.1 Mô tң bài toán 37

ϰ͘Ϯ͘WŚӇҿŶŐƉŚĄƉƚŚӌc hiҵŶĜҲ tài 40

4.2.1 Tokenization 41

4.2.2 Abbreviation Resolution Module 43

4.2.3 Word Representation 44

4.2.4 Coreference Resolution Module 45

4.2.5 Alternative Information Component 47

4.2.6 Replace Component 49

ŚӇҿŶŐs͗E,'/ 51

5.1 Mô tң dӋ liҵƵĜҥu vào 51

ϱ͘ϭ͘ϭ͘dŚƀŶŐƚŝŶW,/ƚƌŽŶŐd 51

ϱ͘ϭ͘Ϯ͘ҭĐĜŝҳm dӋ liҵu 51

5.2 Mô tҧ dӳ liӋXÿҫu ra 51

5.3 WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ 52

5.3.1 Phҥn 1 52

5.3.2 Phҫn 2 54

5.3.3 Phҫn 3 54

ŚӇҿŶŐs/͗<҃T LUѺN 56

6.1 Các nҾŝĚƵŶŐĜĆĜӇӄc thӌc hiҵn 56

6.2 MӈĐĜҾ ĜҢƚĜӇӄc cӆĂĜҲ tài 56

6.3 NhӋng nghiên cӈu tiұp theo 56

TÀI LI҇U THAM KHѵO 57

PHѷN LÝ L҉CH TRÍCH NGANG 59

Trang 10

'$1+0Ө&%Ҧ1*%,ӆ8

Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó 6

Bҧng 2: Thӵc thӇ cҩu thành 7

Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó d (decimal) là chӳ sӕ 7

Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014 9

Bҧng 5: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [2] 11

Bҧng 6: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc I2B2 ± 2014 và N-GRID ± 2016 13

Bҧng 7: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [3] 16

Bҧng 8: Xác suҩt và tӍ lӋ xác suҩt cӫa tӯ ngӳ cҧnh và tӯ mөc tiêu 33

BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu 54

BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu 54

Trang 11

'$1+0Ө&+Î1+Ҧ1+

Hình 1: Mӝt phҫn dӳ liӋu trong I2B2 3

Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2] 8

Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token 10

Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ 10

Hình 5: Mô hình mô tҧ hӋ thӕng [3] 13

Hình 6: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu [3] 15

Hình 7: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu vӟLFiFÿһFWUѭQJ>@ 16

Hình 8: Mӝt nút trong mҥQJQѫ-ron hӗi quy 22

Hình 9: MҥQJQѫ-ron hӗi quy 22

Hình 10: BiӇu diӉn mҥQJQѫ-ron hӗi quy vӟi tҫng tanh 24

Hình 11: BiӇu diӉn mҥng bӝ nhӟ dài-ngҳn vӟi 4 tҫQJWѭѫQJWiF 24

Hình 12: Trҥng thái tӃ bào 25

Hình 13: Cәng sàng lӑc thông tin 25

+uQK&iFKWtQK¦ t 26

Hình 15: Cách tính i t và ܥݐ 27

Hình 16: Cách tính C t 27

Hình 17: Cách tính o t và h t 28

Hình 18: Mô hình chung giҧi quyӃWEjLWRiQÿӗng tham chiӃu 31

Hình 19: BiӇu diӉn tӯ dҥng One-hot vector [8] 32

Hình 20: BiӇu diӉn phân bӕ cho tӯ [8] 32

Hình 21: Hàm trӑng sӕ 35

Hình 22: BӋnKiQÿLӋn tӱ ÿRҥn Text 37

Hình 23: BӋQKiQÿLӋn tӱ ÿRҥn Tag 38

Hình 24: KӃt quҧ thay thӃ ÿRҥn Text 39

Hình 25: KӃt quҧ thay thӃ ÿRҥn Tag 39

Hình 26: HӋ thӕng thay thӃ các thông tin PHI 41

Hình 27: HӋ thӕng Rule-based xӱ lý các tӯ viӃt tҳt 43

+uQK%ѭӟc 1 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ 45

+uQK%ѭӟc 2 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ 47

Hình 30: Ví dө vӅ vҩQÿӅ xӱ Oêÿӗng tham chiӃu 53

Hình 31: Ví dө vӅ vҩQÿӅ viӃt sai chính tҧ 55

Trang 12

'$1+0Ө&9,ӂ77Ҳ7

%$Ĉ7 BӋQKiQÿLӋn tӱ

PHI Protected Health Infomation

I2B2 Informatics for Integrating Biology and the Bedside SSN Social Security Number

HIPAA Health Insurance Portability and Accountability Act GloVe Global Vectors for Word Representation

Trang 13

'$1+0Ө&7+8Ұ71*Ӳ

MҥQJQѫ-ron hӗi quy Recurrent Neural Network RNN Mҥng bӝ nhӟ dài-ngҳn Long Short-Term Memory LSTM Mҥng bӝ nhӟ dài-ngҳn hai chiӅu Bidirectional Long Short-Term

Memory

Bi-LSTM

7UѭӡQJÿLӅXNLӋQQJүXQKLrQ Conditional random field CRF

Trang 14

'$1+0Ө&7Ҧ,&Ð1*&Ө

CRFsuite http://www.chokkan.org/software/crfsuite/

MedEx https://code.google.com/archive/p/medex-uima/downloadsLibSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/

NLTK https://www.nltk.org/

GloVe https://nlp.stanford.edu/projects/glove/

Trang 15

Tuy nhiên, mӝt sӕ ÿһFÿLӇm cӫD%$Ĉ7PDQJOҥi mӝt sӕ NKyNKăQWURQJTXiWUuQK

Chính nhӳQJÿһc ÿLӇm trên gây ra nhӳQJNKyNKăQFKRF{QJWiFWLӃn hành che giҩXWK{QJWLQĈk\FNJQJOjOêGRWҥi sao mà mһFGÿmFyQKLӅu công trình nghiên cӭXYjSKѭѫQJSKiSÿѭӧFÿӅ xuҩWQKѭQJWҩt cҧ ÿӅu bӝc lӝ QKѭӧFÿLӇm riêng và vүn FKѭDJLҧi quyӃWÿѭӧc hoàn toàn vҩn ÿӅ ÿһWUDWURQJÿӅ tài này

&NJQJ Yu Yұ\ W{L ÿӅ xuҩt mӝW Kѭӟng tiӃp cұn mӟL FKR OƭQK Yӵc này: sӱ dөng SKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ thӵc hiӋn viӋc che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ

Trang 16

1.2 0өFWLrXQJKLrQFӭX

ĈӅWjLWKӵFKLӋQYLӋFFKHJLҩXWK{QJWLQEҵQJSKѭѫQJSKiSWKD\WKӃGӵDWUrQPӝWKӋWKӕQJYӟLVӵNӃWKӧSJLӳDÿӗQJWKDPFKLӃXYjP{KuQKPҥQJEӝQKӟGjL-QJҳQ9LӋFWKD\WKӃFiFWK{QJWLQFyNKҧQăQJÿӏQKGDQKQj\ÿѭӧFWKӵFKLӋQPӝWFiFKQKҩWTXiQYjÿӗQJEӝFKRFQJPӝWEӋQKQKkQ[XҩWKLӋQWURQJQKLӅXEӋQKiQNKiFQKDX 1KѭÿmSKiWELӇXӣSKҫQWUѭӟFWK{QJWLQWURQJEӋQKiQÿLӋQWӱOjWK{QJWLQGҥQJYăQEҧQYjOjGӳOLӋXNK{QJFyFҩXWU~FFiFWK{QJWLQFyWKӇÿѭӧFOѭXWUӳNK{QJWKHRFKXҭQQKҩWÿӏQKNKLFyWKӇFyFiFWӯYLӃWWҳWFӫDWrQEӋQKQKkQEiFVƭKD\ÿӏDÿLӇP«9uWKӃFK~QJWDFҫQWKӵFKLӋQPӝWFѫFKӃWKD\WKӃQKҩWTXiQFiFWK{QJWLQÿӏQKGDQKvӟi các cách biӇu diӉn khác nhau (ký hiӋu, viӃt tҳt, dùng hӑ thay tên, dùng sӕ thay chuӛL« QKѭQJFQg chӍ vӅ ÿӕLWѭӧQJWKuQrQÿѭӧc thay thӃ bӣi mӝt giá trӏ WѭѫQJӭngFөWKӇQKѭVDX

- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa bӋQKQKkQQrQÿѭӧc thay thӃ giӕng nhau

- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQÿѭӧc thay thӃ giӕng nhau

- &iFEӋQKiQNKiFQKDXFӫDFQJPӝWEӋQKYLӋQ WrQEiFVƭӣEӋQKYLӋQÿӏDÿLӇPEӋQKYLӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧFWKD\WKӃJLӕQJQKDX

1.3 éQJKƭDNKRDKӑF

&iFSKѭѫQJSKiSQKҵm che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ WKѭӡng dӵa vào mӝt sӕ quy tҳc cӫa biӇu thӭc chính quy hoһc sӵ kӃt hӧp cӫa các luұt, các thuұt toán, tӯ ÿLӇn, và mӟi nhҩt hiӋn nay là các ӭng dөng cӫa hӑFPi\YjROƭQKYӵc này, ví dө QKѭWUѭӡQJÿLӅu kiӋn ngүu nhiên, mҥng bӝ nhӟ dài-ngҳn, mҥng bӝ nhӟ dài-ngҳn hai chiӅXĈLӇn hình là hӋ thӕng Scrub [1], hӋ thӕng De-Id [2, 3] KӃt quҧ cӫa FiFSKѭѫQJSKiSQj\FyWKӇ thay thӃ các thông tin riêng bҵng các thông tin thay thӃ, hoһFÿѭӧc thay thӃ bҵng các nhãn cӫa loҥL3+,WѭѫQJӭng

ĈӅ WjLÿѭӧc thӵc hiӋn dӵDWUrQSKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ tiӃn hành thay thӃ thông tin riêng, nhҵPÿiSӭng yêu cҫu vӅ ngӳ QJKƭDÿӕi vӟi các thông tin cҫQÿѭӧc thay thӃ, và thӇ hiӋn sӵ nhҩt quán cho các thông tin thay thӃ

1.4 éQJKƭDWKӵFWLӉQ

9ӟLVӵELӃQÿӝQJOӟQYӅOѭӧQJGӳOLӋXFӫDYăQEҧQOkPVjQJFK~QJWDÿDQJFyPӝWNKRWjQJWULWKӭFÿDQJFKӡÿѭӧFNKDLSKi7KӃQKѭQJYLӋFNKDLSKiQj\VӁEӏGӯQJOҥLEӣLWK{QJWLQWURQJNKRWjQJQj\OjFiFWK{QJWLQÿѭӧFEҧRYӋWKHROXұWEҧRYӋTX\ӅQULrQJWѭFӫDQKkQORҥL WKѭӡQJOjFiFWK{QJWLQQKѭWrQWXәLQJj\WKiQJQăPVLQKVӕÿLӋQWKRҥLHPDLOKRһFEҵQJFҩS« 'RYұ\FK~QJWDFKӍFyWKӇF{QJEӕF{QJNKDLGӳOLӋXQj\FKRFiFF{QJW\FiFWәFKӭFKD\FiFQKjQJKLrQFӭXVDXNKLÿmFKHJLҩXFiFWK{QJWLQULrng

Trang 17

ĈӅWjLWұSWUXQJYjRYLӋFWKD\ÿәLFiFWK{QJWLQFyWKӇÿӏQKGDQKKRһFKӛWUӧÿӏQKGDQKFiFFiQKkQWURQJEӋQKiQÿLӋQWӱ9jVDXNKLWKD\ÿәLêQJKƭDFӫDEӋQKiQÿLӋQWӱNK{QJWKD\ÿәLYүQKӛWUӧWӕWFKRFiFEjLWRiQNKDLSKiGӳOLӋX

1.5 ĈӕLWѭӧQJQJKLrQFӭXÿӅWjL

ĈӅ tài hiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin riêng xuҩt hiӋn trong bӋnh iQÿLӋn tӱ Và dӳ liӋu mүXÿӇ tiӃn hành nghiên cӭu là I2B2, mӝt tұp dӳ liӋXÿmÿѭӧc công bӕ vӟLFiFWK{QJWLQULrQJÿmÿѭӧF[iFÿӏnh cө thӇ

+uQKErQGѭӟi là mӝt phҫn dӳ liӋu trong bӋQKiQÿLӋn tӱ I2B2

Hình 1: Mӝt phҫn dӳ liӋu trong I2B2

Trong hình trên, các thҿ DATE, AGE, DOCTOR, HOSPITAL là các nhãn dùng

ÿӇ [iFÿӏQKFiFÿRҥQYăQEҧQÿyWKXӝc vӅ loҥi thông tin PHI nào

Trang 18

1.6 ӃWTXҧGӵNLӃQ

Các dӳ liӋu thay thӃ ÿҧm bҧo các yêu cҫu sau:

- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa cùng mӝt bӋQKQKkQQrQÿѭӧc

thay thӃ giӕng nhau

- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ

ÿѭӧc thay thӃ giӕng nhau

- Các bӋnh án khác nhau cӫa cùng mӝt bӋnh viӋQ WrQEiFVƭӣ bӋnh viӋQÿӏa

ÿLӇm bӋnh viӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧc thay thӃ giӕng nhau

1.7 3KҥPYLWKӵFKLӋQÿӅWjL

ĈӅ tài thӵc hiӋn viӋc thay thӃ các thông tin PHI trong mӝt tұp dӳ liӋu bӋnh án

ÿLӋn tӱ ,% ÿӇ tҥo ra mӝt tұp dӳ liӋu bӋQKiQÿLӋn tӱ mӟi (New I2B2) vӟi các

WK{QJWLQULrQJÿmÿѭӧc che giҩu

&iFWK{QJWLQ3+,ÿmÿѭӧF[iFÿӏnh rõ ràng tӯ WUѭӟc, và viӋc che giҩu thông tin

ULrQJÿѭӧc thӵc hiӋn vӟi bӝ bӋQKiQÿLӋn tӱ I2B2 vӟi ngôn ngӳ chính là tiӃng anh

Trang 19

&KѭѫQJ,,CÁC CÔNG TRÌNH LIÊN QUAN

Vӟi nhu cҫu phân tích dӳ liӋu ngày càng lӟn, viӋc che giҩu thông tin riêng cho các tұp dӳ liӋXQj\FNJQJYuYұy mà ngày càng cҩp thiӃt và quan trӑQJ'RÿyPjKLӋn tҥi có khá nhiӅu nhà nghiên cӭu hay tә chӭFWKDPJLDYjREѭӟc tiӅn xӱ lý dӳ liӋu này ViӋc che giҩu thông tin riêng bao gӗPKDLEѭӟc:

- %ѭӟc 1: Tìm kiӃm thông tin cҫn che giҩX ;iFÿӏnh thông tin riêng PHI)

- %ѭӟc 2: HiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin cҫn che giҩu

Chi tiӃt cӫa tӯQJEѭӟc sӁ ÿѭӧc mô tҧ qua các bài báo khoa hӑFGѭӟLÿk\

;iFÿӏQK3+,

Ĉk\OjPӝWJLDLÿRҥn quan trӑng, vӟi tính chính xác càng cao, càng hӛ trӧ tӕt cho FiFJLDLÿRҥn sau khi thӵc hiӋn thay thӃ Có rҩt nhiӅu công trình nghiên cӭu vӟi nhiӅu giҧLSKiSÿӇ xӱ OêEjLWRiQQj\VDXÿk\OjQKӳng tóm tҳt vӅ chúng

9jRQăP/DWDQ\D6ZHHQH\ÿmGӵa trên cách tiӃp cұn cӫDFRQQJѭӡi khi xác ÿӏQKFiFWK{QJWLQÿӏQKGDQKÿӇ xây dӵng hӋ thӕng Scrub [1], mӝt hӋ thӕng sӱ dөng SKѭѫQJSKiSQKұn diӋn vӟi mӝt bӝ các giҧi thuұt nhұn diӋn sӱ dөng các mүu và tri thӭc chuyên biӋt vӅ nhӳng yӃu tӕ cҩu thành nên mӝWFiLWrQÿӏa chӍ, sӕ ÿLӋn thoҥi Mӛi giҧi thuұt trong hӋ thӕQJ[iFÿӏnh mӝt loҥLWK{QJWLQÿӏnh danh khác nhau Các giҧi thuұt này sӱ dөng các nguӗn tri thӭc cөc bӝ Các tri thӭc này là các kiӃn thӭc ÿѭӧFWtFKONJ\Gӵa trên thӵc nghiӋPTXDQViWYjWѭѫQJWiFYӟLP{LWUѭӡng, xã hӝi Ví

dө, Fred và Bill là nhӳng hӑ thông dөng hay Miller và Jones là nhӳng tên thông dөng

và khi chúng ta biӃt nhӳng kiӃn thӭc này sӁ dӉ dàng cho chúng ta nhұQUDÿyOjQKӳng cái tên

HӋ thӕng sӱ dөng các danh sách tri thӭc cөc bӝ ÿLNqPOjFiFPүu cӫa chúng, bao gӗm tên, hӑ, bí danh, tên viӃt tҳt cӫa các tiӇu bang cӫa Mӻ«YjFiFJLҧi thuұt nhúng các mүu nhұn dҥng

Trang 20

Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó

2 1KmQÿӏa chӍ mail 14 Bí danh

Trang 21

Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó d (decimal) là chӳ sӕ

9jRQăPSKѭѫQJSKiSKӑc máy bҳWÿҫu phát triӇQYjÿѭӧFÿѭDYào ӭng dөng cho nhiӅu bài toán, mӝt nhóm các nhà khoa hӑFQJѭӡi Trung QuӕFÿmÿӅ xuҩt mӝt giҧi pháp mӟLÿӇ WăQJNKҧ QăQJQKұn diӋn PHI [2] Nhóm sӱ dөng dӳ liӋu I2B2-

YjÿӅ xuҩt mӝt hӋ thӕng hӛn hӧp dӵa trên cҧ hӑc máy và cách tiӃp cұn dӵa trên quy tҳc HӋ thӕng nhұn diӋn PHI bҵQJWUѭӡQJÿLӅu kiӋn ngүu nhiên (mӭc token và mӭc ký tӵ) và mӝt thành phҫn phân loҥi dӵa trên quy tҳFVDXÿyVӁ hӧp nhҩt chúng

Trang 22

lҥi bҵng mӝt sӕ quy tҳc KӃt quҧ thӵc nghiӋm trên I2B2 khá tӕt, F-scores cӫD³WRNHQ´

³VWULFW´³UHOD[HG´OҫQOѭӧWOj6DXÿyQKyPWiFJLҧ tích hӧp thêm bӝ tӯ ÿLӇn vӅ ÿӏD ÿLӇm và F-VFRUHV ÿm WăQJ OrQ OҫQ Oѭӧt là 94.83%, 91.57%, 91.95%

HӋ thӕQJ>@FyP{KuQKQKѭVDX

Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2]

Trang 23

0{KuQKQj\ÿѭӧc thӵc nghiӋm trên tұp dӳ liӋu I2B2 ± 2014 vӟi 1304 hӗ VѫEӋnh

án cӫa 297 bӋQKQKkQYjÿѭӧc chia làm 2 phҫn:

- Phҫn 1: bao gӗm 790 hӗ VѫEӋnh án cӫa 188 bӋQKQKkQÿѭӧc sӱ dөQJÿӇ làm tұp huҩn luyӋn

- Phҫn 2: bao gӗm 514 hӗ VѫEӋnh án cӫa 109 bӋQKQKkQÿѭӧc sӱ dөQJÿӇ làm tұp kiӇm thӱ

Vӟi 17,045 thӵc thӇ PHI trong tұp huҩn luyӋn và 11,462 thӵc thӇ PHI trong tұp kiӇm thӱ ÿѭӧFÿiQKGҩu dӵa trên 7 danh mөc chính và 25 danh mөc phө theo HIPAA ÿmÿӏQKQJKƭD6ӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính trong 2 tұp dӳ liӋu ÿѭӧFOѭӧc kê trong bҧng 4

Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014

LOCATION HOSPITAL, COUNTRY

ORGANIZATION*, ZIP* STREET*, CITY*, STATE LOCATION-OTHER

HӋ thӕng [2] biӇu diӉn các thӵc thӇ PHI bҵnJOѭӧFÿӗ nhұn dҥng thӵc thӇ có WrQOj³%,2´Yj³%,2(6´Yӟi:

Trang 24

- µ%¶µ,¶µ2¶Yjµ(¶ELӇu thӏ rҵng token hoһc ký tӵ ÿmÿѭӧFÿiQKGҩXOjÿҫu, giӳa, bên ngoài và kӃt thúc cӫa mӝt thӵc thӇ

- µ6¶ELӇu thӏ rҵng token hoһc ký tӵ là mӝt thӵc thӇ

7KHRQKѭÿiQKJLá cӫa nhóm tác giҧ >@µ%,2¶KRҥWÿӝng tӕWKѫQµ%,2(6¶WURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQWURQJNKLÿyWKuµ%,2(6¶KRҥWÿӝng tӕWKѫQµ%,2¶WURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵĈk\FNJQJOjOêGRYuVDRPjKӋ thӕng này sӱ dөQJµ%,2¶FKRWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQYjµ%,2(6¶FKRWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ Chúng ta có thӇ xem ví dө vӅ các cách biӇu diӉn này ӣ hình 3

Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token

7UѭӡQJÿLӅu kiӋn ngүu nhiên mӭc token cҫn mӝt mô-ÿXQÿӇ token hoá các tӯ WURQJYăQEҧn Và nhóm tác giҧ >@ÿmVӱ dөng MedEx, mӝt công cө hӛ trӧ khai thác thông tin y tӃ ÿӇ thӵc hiӋn viӋc token hoá này Sau khi token hoá, hӑ trích xuҩt các ÿһFWUѭQJFKRWUѭӡQJÿLӅu kiӋn ngүu nhiên

7UѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ chia bӋQKiQÿLӋn tӱ thành các câu dӵa trên ký tӵ µ\Q¶VDXÿySKkQWiFKFiFFkXWKjQKFiFNêWӵ Trong quá trình phân tách, khoҧng trҳng và ký tӵ µ\W¶ÿѭӧc thay thӃ bҵQJ³ ´YjFiFNý tӵ Qj\ÿѭӧc cách nhau bҵng mӝt khoҧng trҳng Chúng ta có thӇ xem ví dө ӣ hình 4

Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ

Trang 25

Bӝ phân loҥi dӵa trên quy tҳc có nhiӋm vө mô tҧ các loҥi thӵc thӇ 3+,Fyÿӏnh dҥQJU}UjQJQKѭ6ӕ ÿLӋn thoҥi, sӕ Fax, sӕ hӗ Vѫ\WӃÿӏa chӍ HPDLOÿӏa chӍ IP thành các biӇu thӭc chính quy Chúng ta có thӇ xem bҧQJÿӇ biӃt chi tiӃt vӅ các biӇu thӭc chính quy này

\G^`>í@\G^`>í@\d{2}

453-39-84-4 544-84-52

Sau khi tҥo ra các kӃt quҧ tӯ viӋc sӱ dөng 3 thành phҫQWUrQ WUѭӡQJÿLӅu kiӋn ngүu nhiên mӭFWRNHQWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ và bӝ phân loҥi dӵa trên quy tҳc), nhóm tác giҧ [2] tҥo thêm mӝt thành phҫn giúp hӧp nhҩt các kӃt quҧ này lҥi vӟi nhau Cө thӇ QKѭVDX

- Các thӵc thӇ PHI không trùng lһp vӟi bҩt kǤ WUѭӡng hӧp nào khác sӁ ÿѭӧc hӧp nhҩt trӵc tiӃp

- &iFWUѭӡng hӧp PHI chӗQJOrQQKDXÿѭӧc chӑn theo thӭ tӵ: bӝ phân loҥi dӵa trên quy tҳFWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ YjWUѭӡQJ ÿLӅu kiӋn ngүu nhiên mӭc token

- &iFWUѭӡng hӧp 2 thӵc thӇ PHI trùng lһSÿѭӧc tҥo ra tӯ bӝ phân loҥi dӵa trên quy tҳF $

Ngày đăng: 03/08/2024, 12:41