Kỹ thuật attention

Một phần của tài liệu Luận văn Thạc sĩ Hệ thống thông tin nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơron dựa trên cơ chế tập trung (Trang 25 - 46)

L ỜI CẢM ƠN

2.4.Kỹ thuật attention

Sự ra đời của kỹ thuật attention trong học sâu đã cải thiện sự thành công của nhiều mô hình khác nhau trong những năm gần đây và tiếp tục là một thành phần có mặt khắp nơi trong các mô hình hiện đại. Do đó, điều quan trọng là chúng ta phải chú ý đến “attention” và làm thế nào để nó đạt được hiệu quả. Khi nghĩ về từ tiếng Anh “Attention”, chúng ta biết rằng nó có nghĩa là hướng sự tập trung của mình vào một điều gì đó và chú ý nhiều hơn. Cơ chế tập trung trong Học sâu dựa trên khái niệm hướng sự tập trung của mình và chú ý nhiều hơn đến các yếu

tố nhất định khi xử lý dữ liệu. Nói một cách rộng rãi, “attention” là một thành

phần của kiến trúc mạng và chịu trách nhiệm quản lý và định lượng sự phụ thuộc lẫn nhau.

Trong luận văn này tác giả sử dụng kỹ thuật attention được đề xuất bởi

Thang Luong và các cộng sự [16] áp dụng cho mô hình RNN và các biến thể

LSTM, GRU. Cơ chế tập trung được đề xuất để nhấn mạnh sự đóng góp của các đơn vị nơ-ron trong mô hình. Thay vì trực tiếp nhận các kích hoạt hoặc kết quả đầu ra từcác đơn vị RNN liên tiếp, lớp attention (lớp tập trung) bổ sung sẽ bỏ qua tất cảcác đơn vị RNN của chuỗi đầu vào và gán các trọng số khác nhau cho mỗi đơn vị theo mức độ quan trọng của chúng. Trực giác để áp dụng mô hình ATT trong nhiệm vụ trích xuất quan hệ là cố gắng gán trọng sốcao hơn cho các từ là chỉ số hoặc từ kích hoạt của các quan hệ ngữ nghĩa cụ thể. Tác giả sử dụng các phương trình lấy từ Luong và các cộng sự [16] để tính toán trọng số attention cho mỗi từ trong câu. ATT-RNN để trích xuất quan hệđược minh họa trong Hình 2.7: Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16]. Kích hoạt của

26

các đơn vị RNN được ký hiệu là h=[h1, h2,…hT], trong đó T là độ dài câu. Với biểu diễn từ là w và các kích hoạt của đơn vị RNN trước đó ht, tác giả xác định ma trận trọng số ẩn của lớp attention là ut và vectơ quan trọng mức độ từ uw, là một biến có thể đào tạo. Vectơ biểu diễn quan hệ s là tổng trọng số của đầu ra RNN h và trọng số tập trung α:

ut=tanh(Wwht + bw), αt= exp (𝑢𝑇𝑡𝑢𝑤)

∑ exp (𝑢𝑇𝑡𝑢𝑡 𝑤), s=∑ 𝛼𝑡 𝑡ℎ𝑡,

trong đó Ww và bw là ma trận trọng sốvà độ lệch của lớp attention, tương tựnhư ký hiệu của lớp GRU.

Hình 2.7: Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16]

27

CHƯƠNG 3: THỰC NGHIỆM DỰĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪY VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ

TẬP TRUNG 3.1.Mô tả bài toán

Các khám phá khoa học trong lĩnh vực y sinh phụ thuộc rất nhiều vào nguồn tri thức ở định dạng có thể tính toán được để có thể phân tích, giải thích dữ liệu và áp dụng sự tiến bộ của các công nghệ phân tích dữ liệu lớn. Mục tiêu của việc trích xuất mối quan hệy sinh là để tựđộng nắm bắt các mối quan hệ y sinh có giá trị, chẳng hạn như tương tác protein-protein (PPIs), tương tác thuốc thuốc (DDIs) và tương tác hóa học – protein (CPIs) từ văn bản y sinh không có cấu trúc với độ chính xác và hiệu quả cao thông qua các kỹ thuật xử lý ngôn ngữ tự nhiên (NPL) và các kỹ thuật học máy. Nói chung, trích xuất quan hệ y sinh bao gồm 2 bước chính [31]:

+ Nhận dạng tên thực thể y sinh (biomedical named entity recognition viết tắt NER)

+ Phân lớp quan hệ y sinh.

Một ví dụ cụ thể được minh họa trong Hình 3.1: Minh họa bài toán trích xuất mối quan hệ giữa thuốc và bệnh cho thấy chúng ta cần phải nhận dạng và chú thích được các tên thực thể “myocardial injury” và “cocaine” trong câu. Sau đó, phân lớp quan hệ để phát hiện mối quan hệ ngữ nghĩa giữa hai thực thể ứng viên trên.

Tuy nhiên, trong thập kỷ qua với các tiến bộ khoa học đã tạo ra rất nhiều công cụ để xử lý bài toán nhận dạng tên thực thể y sinh với hiệu suất rất tốt [19][33]. Vì vậy, trong luận văn này, tác giả tập trung vào bài toán phân lớp quan hệ y sinh mà cụ thể là: Phân lớp các cặp quan hệ giữa thuốc và bệnh để kết luận xem chúng có quan hệ (thuốc – tác dụng phụ của thuốc) hay không (có/không)?

28

Electrocardiographic evidence of myocardial injury in psychiatrically hospitalized cocaine abusers. Văn bản y sinh

Tiền xử lý

Electrocardiographic evidence of myocardial injury in psychiatrically hospitalized cocaine abusers.

Nhận diện tên thực thể

Disease Drug

Electrocardiographic evidence of myocardial injury in psychiatrically hospitalized cocaine abusers.

Phân lớp quan hệ

CID

Hình 3.1: Minh họa bài toán trích xuất mối quan hệ giữa thuốc và bệnh

Kiến trúc chương trình tác giả trình bày trong luận văn này được minh họa trong Hình 3.2: Tổng quan kiến trúc chương trình. Với dữ liệu thô là kho văn bản tóm tắt Pubmeds và cùng các thực thể thuốc và bệnh, tác giả mô hình hóa vấn đề khai thác mối quan hệ như một bài toán phân lớp quan hệ trong số tất cả quan hệ giữa các cặp thuốc và bệnh tiềm năng. Đầu tiên văn bản được phân tách thành các câu. Sau đó, các chú thích cho các đối tượng được gán và căn chỉnh theo từng câu. Tiếp theo, câu và tập hợp các thực thể trong câu được sử dụng để tạo ra các thể hiện quan hệ. Cuối cùng, áp dụng các mô hình mạng nơ-ron được đề xuất trong luận văn để dự đoán nhãn của từng thể hiện quan hệ. YES với các cặp được xác định là giữa thuốc và bệnh có quan hệ tác dụng phụ (CID). NO với các cặp giữa thuốc và bệnh không có quan hệ với nhau. (adsbygoogle = window.adsbygoogle || []).push({});

29 Phát hiện câu Tạo thể hiện quan hệ Phân lớp quan hệ Chú thích thực thể Kho văn bản tóm tắt Pubmeds Hình 3.2: Tổng quan kiến trúc chương trình

Trong nghiên cứu này, tác giả chỉ xem xét các quan hệ giữa các thực thể xuất hiện trong cùng một câu. Tác giả sử dụng trình dò câu Punkt trong Bộ công cụ ngôn ngữ tự nhiên [11], [15] để phát hiện và tách câu. Tiêu đề của mỗi bài báo được coi là câu đầu tiên của phần tóm tắt và nó không được xem xét riêng biệt. Ví dụ về cách các tạo các thể hiện quan hệ thuốc – bệnh từcác câu được thể hiện trong Hình 3.3: Cách tạo các thể hiện quan hệ từ các câu. Trong đó, có một đề cập hóa học: ‘Lithium’ và ba đề cập về bệnh ‘proteinuria’, ‘hypertension’ và

[Lithium]also caused [proteinuria]and systolic [hypertension]in absence of [glomerulosclerosis]

D008094_955: Chemical D011507_975: Disease D006973_1000: Disease D005921_1027: Disease

30

‘glomerulosclerosis’. Từ câu đó ta có thể tạo ra 3 cặp quan hệ thuốc-bệnh trong đó có một cặp được gãn nhãn là YES với ý nghĩa là bệnh do thuốc gây ra.

3.2.Mô tả dữ liệu và các bước thực hiện

Hầu hết các phương pháp tiếp cận dựa trên mạng nơron là các phương pháp có giám sát và yêu cầu dữ liệu được gắn nhãn để đào tạo các mô hình học máy. Do đó, kho ngữ liệu được gắn nhãn đóng một vai trò quan trọng trong phương pháp luận dựa trên mạng nơron trong phân lớp quan hệ y sinh. Kho tài liệu có sẵn công khai rất quan trọng đểđánh giá và so sánh hiệu suất.

Dữ liệu được tác giả sử dụng trong luận văn này là kho ngữ liệu CDR chứa

các quan hệ CID gồm 1500 bài báo PubMed, 4409 chú thích hóa chất, 5818 chú

thích bệnh và 3116 quan hệ giữa thuốc và bệnh (CID). PubMed được biết đến là một cơ sở dữ liệu miễn phí về các tài liệu tham khảo và tóm tắt về các chủđề khoa học đời sống và y sinh học. PubMed được NCBI (National Center for

Biotechnology Information – Trung tâm Thông tin Công nghệ Sinh học Quốc gia

(Hoa Kỳ)), thuộc NLM (National Library of Medicine – Thư viện Y khoa Quốc gia (Hoa Kỳ)), đặt tại NIH (National Institutes of Health – Viện Y học Quốc gia Hoa Kỳ) xây dựng và duy trì.

Trong BioCreative V, một thử thách mới đã được các nhà khoa học tổ chức với nhiệm vụ chính là nhận dạng thực thể bệnh (Disease named entity recognition- DNER) và trích xuất mối quan hệ bệnh do hóa chất gây ra (CID). Kết quả của thử thách này đã hình thành nên kho ngữ liệu có tên BC5CDR được sử dụng trong luận văn này.

Kho ngữ liệu bao gồm ba nhóm bài báo riêng biệt với các bệnh, chất hóa học và mối quan hệ của chúng đãđược chú thích trong đó tập huấn luyện (500 bài báo), tập phát triển (500 bài báo) và tập thử nghiệm (500 bài báo) được sử dụng đểđánh giá hiệu suất chương trình. Chi tiết được thể hiện trong Bảng 3.1: Thống kê tập dữ liệu.

31

Bảng 3.1: Thống kê tập dữ liệu STT Tên tập Số

lượng bài báo

Sốlượng bệnh Sốlượng thuốc CID

Được đề cập ID bệnh Được đề cập ID thuốc 1 Training 500 4182 1965 5203 1467 1038 2 Development 500 4244 1865 5347 1597 1012 3 Test 500 4424 1988 5385 1435 1066

Như thể hiện trong Bảng 3.2-1, ba tập dữ liệu có sự phân bổ tương tự về các đề cập thuốc, đề cập đến bệnh tật và quan hệ CID, điều này làm cho kho ngữ liệu hữu ích hơn cho các mô hình đào tạo. Bảng 3.2-1 cũng cho thấy rằng mặc dù có nhiều đề cập thuốc hơn đề cập đến bệnh trong kho ngữ liệu, nhưng có nhiều thực thể bệnh (ID bệnh) hơn thực thể thuốc (ID thuốc),

Thông tin chi tiết về tập dữ liệu lấy tại:

https://academic.oup.com/database/article/doi/10.1093/database/baw068/263041 4

Trong khuôn khổ của luận văn, tác giả sử dụng kho ngữ liệu chuẩn vàng BioCreative V – CDR chứa các bài báo khoa học mô tả có hay không quan hệ tác dụng phụ giữa thuốc và bệnh.

Luận văn sử dụng các file sau trong kho ngữ liệu BC5CDR:

⚫ CDR_development.PubTator.txt == > Tạo thành data development

⚫ CDR_test.PubTator.txt ==> Tạo thành data test

⚫ CDR_training.PubTator.txt ==> Tạo thành data trainning

Cấu trúc mỗi file dữ liệu bao gồm:

⚫ t: title của bài báo (adsbygoogle = window.adsbygoogle || []).push({});

32

⚫ Chemical: Danh sách các thuốc

⚫ Disease: Danh sách các bệnh

⚫ CID: Mối quan hệ giữa thuốc và bệnh Ví dụ:

6794356|t|Tricuspid valve regurgitation and lithium carbonate toxicity in a newborn infant.

6794356|a|A newborn with massive tricuspid regurgitation, atrial flutter, congestive heart failure, and a high serum lithium level is described. This is the first patient to initially manifest tricuspid regurgitation and atrial flutter, and the 11th described patient with cardiac disease among infants exposed to lithium compounds in the first trimester of pregnancy. Sixty-three percent of these infants had tricuspid valve involvement. Lithium carbonate may be a factor in the increasing incidence of congenital heart disease when taken during early pregnancy. It also causes neurologic depression, cyanosis, and cardiac arrhythmia when consumed prior to delivery.

6794356 0 29 Tricuspid valve regurgitation Disease D014262

6794356 34 51 lithium carbonate Chemical D016651

6794356 52 60 toxicity Disease D064420

6794356 105 128 tricuspid regurgitation Disease D014262

6794356 130 144 atrial flutter Disease D001282

6794356 146 170 congestive heart failure Disease D006333

6794356 189 196 lithium Chemical D008094

6794356 265 288 tricuspid regurgitation Disease D014262

6794356 293 307 atrial flutter Disease D001282

6794356 345 360 cardiac disease Disease D006331

6794356 386 393 lithium Chemical D008094

6794356 511 528 Lithium carbonate Chemical D016651

6794356 576 600 congenital heart disease Disease D006331

6794356 651 672 neurologic depression Disease D003866

33

6794356 688 706 cardiac arrhythmia Disease D001145

6794356 CID D016651 D003490

6794356 CID D016651 D001145

6794356 CID D016651 D003866

Các bước thực hiện:

- Từ dữ liệu BC5CDR thực hiện chuyển đổi mỗi tập data (development, test, training) thành 3 file cho mỗi tập như sau:

+ File *_abstract.tsv: Là dữ liệu text của bài báo gồm title và abstract

6794356 Tricuspid valve regurgitation and lithium carbonate toxicity in a

newborn infant. A newborn with massive tricuspid regurgitation, atrial flutter, (adsbygoogle = window.adsbygoogle || []).push({});

congestive heart failure, and a high serum lithium level is described. This is the first patient to initially manifest tricuspid regurgitation and atrial flutter, and the 11th described patient with cardiac disease among infants exposed to lithium compounds in the first trimester of pregnancy. Sixty-three percent of these infants had tricuspid valve involvement. Lithium carbonate may be a factor in the increasing incidence of congenital heart disease when taken during early pregnancy. It also causes neurologic depression, cyanosis, and cardiac arrhythmia when consumed prior to delivery.

+ File *_entities.tsv: Gồm tên các loại thuốc và các thuộc tính (tên đối tượng được cộng thêm start pos để tạo thành mã duy nhất):

6794356 D014262_0 Disease 0 29 Tricuspid valve regurgitation

6794356 D016651_34 Chemical 34 51 lithium carbonate

6794356 D064420_52 Disease 52 60 toxicity

6794356 D014262_105 Disease 105 128 tricuspid regurgitation

6794356 D001282_130 Disease 130 144 atrial flutter

6794356 D006333_146 Disease 146 170 congestive heart

failure

6794356 D008094_189 Chemical 189 196 lithium

6794356 D014262_265 Disease 265 288 tricuspid regurgitation

6794356 D001282_293 Disease 293 307 atrial flutter

34

6794356 D008094_386 Chemical 386 393 lithium

6794356 D016651_511 Chemical 511 528 Lithium carbonate

6794356 D006331_576 Disease 576 600 congenital heart

disease

6794356 D003866_651 Disease 651 672 neurologic depression

6794356 D003490_674 Disease 674 682 cyanosis

6794356 D001145_688 Disease 688 706 cardiac arrhythmia

+ File *_gold_standard.tsv: Gồm các cặp thuốc và bệnh và mối quan hệ (YES/NO): 6794356 NO Arg1:D016651_34 Arg2:D014262_0 6794356 NO Arg1:D016651_34 Arg2:D064420_52 6794356 NO Arg1:D016651_34 Arg2:D014262_105 6794356 NO Arg1:D016651_34 Arg2:D001282_130 6794356 NO Arg1:D016651_34 Arg2:D006333_146 6794356 NO Arg1:D016651_34 Arg2:D014262_265 6794356 NO Arg1:D016651_34 Arg2:D001282_293 6794356 NO Arg1:D016651_34 Arg2:D006331_345 6794356 NO Arg1:D016651_34 Arg2:D006331_576 6794356 YES Arg1:D016651_34 Arg2:D003866_651 6794356 YES Arg1:D016651_34 Arg2:D003490_674 6794356 YES Arg1:D016651_34 Arg2:D001145_688

6794356 NO Arg1:D008094_189 Arg2:D014262_0 6794356 NO Arg1:D008094_189 Arg2:D064420_52 6794356 NO Arg1:D008094_189 Arg2:D014262_105 6794356 NO Arg1:D008094_189 Arg2:D001282_130 6794356 NO Arg1:D008094_189 Arg2:D006333_146 6794356 NO Arg1:D008094_189 Arg2:D014262_265 6794356 NO Arg1:D008094_189 Arg2:D001282_293

35 6794356 NO Arg1:D008094_189 Arg2:D006331_345 6794356 NO Arg1:D008094_189 Arg2:D006331_576 6794356 NO Arg1:D008094_189 Arg2:D003866_651 6794356 NO Arg1:D008094_189 Arg2:D003490_674 6794356 NO Arg1:D008094_189 Arg2:D001145_688 6794356 NO Arg1:D008094_386 Arg2:D014262_0 6794356 NO Arg1:D008094_386 Arg2:D064420_52 6794356 NO Arg1:D008094_386 Arg2:D014262_105 6794356 NO Arg1:D008094_386 Arg2:D001282_130 6794356 NO Arg1:D008094_386 Arg2:D006333_146 6794356 NO Arg1:D008094_386 Arg2:D014262_265 6794356 NO Arg1:D008094_386 Arg2:D001282_293 6794356 NO Arg1:D008094_386 Arg2:D006331_345 6794356 NO Arg1:D008094_386 Arg2:D006331_576 6794356 NO Arg1:D008094_386 Arg2:D003866_651 6794356 NO Arg1:D008094_386 Arg2:D003490_674 6794356 NO Arg1:D008094_386 Arg2:D001145_688 6794356 NO Arg1:D016651_511 Arg2:D014262_0 6794356 NO Arg1:D016651_511 Arg2:D064420_52 6794356 NO Arg1:D016651_511 Arg2:D014262_105 6794356 NO Arg1:D016651_511 Arg2:D001282_130 6794356 NO Arg1:D016651_511 Arg2:D006333_146 6794356 NO Arg1:D016651_511 Arg2:D014262_265 6794356 NO Arg1:D016651_511 Arg2:D001282_293 6794356 NO Arg1:D016651_511 Arg2:D006331_345 6794356 NO Arg1:D016651_511 Arg2:D006331_576

6794356 YES Arg1:D016651_511 Arg2:D003866_651

36

6794356 YES Arg1:D016651_511 Arg2:D001145_688

- Từ các file trên xử lý phân tách các câu trong file abstract.tsv. Với mỗi câu sẽ thực hiện tìm các cặp thuốc-bệnh xuất hiện trong file, sau đó thực hiện 2 phương pháp xử lý: Thay thế tên thuốc - bệnh bằng cụm từ chemical – disease và Giữ nguyên từ gốc của thuốc và bệnh. File kết quả là các file (tương ứng với các tập dữ liệu) trainning.txt, development.txt, test.txt có dữ liệu như sau (trường hợp thay thế tên thuốc – bệnh bằng cụm từ chemical – disease):

NO Chemical Disease 2 0 disease and chemical disease

in a newborn infant . D016651_34 D014262_0 6794356

NO Chemical Disease 2 3 disease and chemical disease (adsbygoogle = window.adsbygoogle || []).push({});

in a newborn infant . D016651_34 D064420_52 6794356

NO Chemical Disease 14 4 A newborn with massive

disease , disease , disease , and a high serum chemical level is described .

D008094_189 D014262_105 6794356

NO Chemical Disease 14 6 A newborn with massive

disease , disease , disease , and a high serum chemical level is described .

D008094_189 D001282_130 6794356

NO Chemical Disease 14 8 A newborn with massive

disease , disease , disease , and a high serum chemical level is described .

D008094_189 D006333_146 6794356

NO Chemical Disease 23 8 This is the first patient to

initially manifest disease and disease , and the 11th described patient with disease among infants exposed to chemical compounds in the first trimester of pregnancy

. D008094_386 D014262_265 6794356

NO Chemical Disease 23 10 This is the first patient to

initially manifest disease and disease , and the 11th described patient with disease among infants exposed to chemical compounds in the first trimester of pregnancy

. D008094_386 D001282_293 6794356

NO Chemical Disease 23 1 This is the first patient to

initially manifest disease and disease , and the 11th described patient with disease among infants exposed to chemical compounds in the first trimester of pregnancy

37

NO Chemical Disease 0 3 chemical may be a factor in

the increasing incidence of disease when taken during early pregnancy .

D016651_511 D006331_576 6794356

- Xử lý tạo các feature: Luận văn sử dụng các feature Word embedding (Sử dụng data từ glove.6B) và Position embedding. Kết quả sau khi xử lý dữ liệu được

Một phần của tài liệu Luận văn Thạc sĩ Hệ thống thông tin nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơron dựa trên cơ chế tập trung (Trang 25 - 46)