Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 40 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
40
Dung lượng
2 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ANH NGỌC DỰ ĐOÁN TƯƠNG TÁC THUỐC TỪ VĂN BẢN Y SINH SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN ANH NGỌC DỰ ĐỐN TƯƠNG TÁC THUỐC TỪ VĂN BẢN Y SINH SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP NGÀNH: CƠNG NGHỆ THƠNG TIN CHUN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội 2021 LỜI CẢM ƠN Trước tiên, xin bày tỏ biết ơn chân thành sâu sắc tới TS Đặng Thanh Hải – Giáo viên hướng dẫn trực tiếp – hết lòng hỗ trợ giúp đỡ tơi q trình nghiên cứu hồn thiện luận văn thạc sĩ Đồng thời gửi lời cám ơn chân thành đến thành viên nhóm nghiên cứu TS Đặng Thanh Hải hỗ trợ nhiều trình thực luận văn Tơi xin gửi lời cảm ơn chân thành tới thầy, cô giảng viên trường Đại học Công nghệ tận tình dạy dỗ hướng dẫn cho tơi suốt trình học tập thạc sĩ trường Mặc dù cố gắng hoàn thành luận văn chắn khơng tránh khỏi sai sót Kính mong nhận cảm thơng, bảo tận tình q thầy bạn Tơi xin chân thành cảm ơn! LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu khoa học riêng hướng dẫn khoa học TS Đặng Thanh Hải Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung luận văn Học viên Cao học Nguyễn Anh Ngọc MỤC LỤC Chương 1: GIỚI THIỆU CHUNG 10 1.1 Giới thiệu 10 1.1.1 Bài toán dự đoán tương tác thuốc từ văn y sinh 11 1.1.2 Bài toán nhận dạng thực thể bệnh lý thực thể thuốc 11 1.1.3 Bài toán trích xuất mối quan hệ bệnh – thuốc 12 1.2 Mục tiêu luận văn 12 1.3 Cấu trúc luận văn .13 Chương 2: CÁC PHƯƠNG PHÁP LIÊN QUAN .14 2.1 Học sâu mạng nơ-ron 14 2.1.1 Trí tuệ nhân tạo 14 2.1.2 Mạng nơ-ron nhân tạo .14 2.2 Mạng nơ-ron hồi quy RNN LSTM .16 2.3 Mạng nơ-ron tích chập CNN 18 2.4 Biểu diễn từ theo ngữ cảnh 22 2.5 Các phương pháp liên quan cho trích xuất quan hệ bệnh-thuốc 24 2.5.1 Các phương pháp dựa học máy 24 2.5.2 Các phương pháp dựa học sâu 24 Chương 3: MÔ HÌNH ĐỀ XUẤT .25 3.1 Mơ hình đề xuất .25 3.2 Biểu diễn đầu vào 26 3.2.1 Word embedding – ELMo 27 3.2.2 POS embedding 27 3.2.3 Position embedding 27 3.3 Mơ hình mạng nơ-ron tích chập CNN kết hợp với LSTM 27 3.3.1 Tầng mạng nơ-ron hồi quy LSTM 27 3.3.2 Tầng mạng nơ-ron tích chập CNN 28 3.4 Dự đoán mức định danh 30 3.5 Huấn luyện mơ hình 31 Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN 32 4.1 Độ đo đánh giá 32 4.2 Cách thức thực 33 4.3 Bộ liệu văn y sinh BioCreative V CDR .35 4.3.1 4.4 Dữ liệu quan hệ thuốc bệnh - BioCreative V CDR 35 Cài đặt thực nghiệm 36 4.4.1 Thư viện sử dụng .36 4.4.2 Các siêu tham số mơ hình 36 4.4.3 Kết thực nghiệm 37 4.5 Kết luận 38 4.6 Hướng nghiên cứu tương lai 38 Tài liệu tham khảo .39 DANH MỤC HÌNH VẼ Hình 2.1 Minh họa mạng nơ-ron nhân tạo 14 Hình 2.2 Minh họa q trình tính toán tế bào .15 Hình 2.3 Mơ tả mạng nơ-ron hồi quy RNN 16 Hình 2.4 Minh họa kiến trúc mạng LSTM .17 Hình 2.5 Kiến trúc chung mạng tích chập CNN truyền thống .19 Hình 2.6 Minh họa phép tích chập 20 Hình 2.7 Minh họa kỹ thuật thêm lề phép tích chập 20 Hình 2.8 Minh họa phép gộp cực đại (max pooling) 21 Hình 2.9 Minh họa phép gộp trung bình (Average Pooling) 22 Hình 2.10 Minh họa tầng kết nối đầy đủ mạng nơ-ron tích chập CNN 22 Hình 2.11 Minh họa kiến trúc mơ hình Embedding from Language Model (ELMo) .23 Hình 3.1 Mơ hình đề xuất mạng nơ-ron tích chập CNN kết hợp với LSTM 25 Hình 3.2 Biểu diễn vector đầu vào 26 Hình 3.3 Minh họa mơ hình LSTM sử dụng để thu thập thơng tin ngữ cảnh 28 Hình 3.4 Kiến trúc mơ hình mạng CNN với hai kênh cho đầu vào cho câu văn [5] .29 Hình 4.1 Cách thức thực dự đốn tương tác thuốc 33 Hình 4.2 Dữ liệu định dạng PubTator BioCreative V CDR 35 DANH MỤC BẢNG BIỂU Bảng 1.1 Một ví dụ trích xuất quan hệ bệnh hóa chất gây (CID) 11 Bảng 1.2 Bảng mô tả đầu vào đầu việc nhận dạng thực thể bệnh lý thực thể thuốc 11 Bảng 1.3 Bảng mô tả đầu vào đầu việc trích xuất mối quan hệ thuốc bệnh .12 Bảng 4.1 Một vài thống kê liệu CDR .35 Bảng 4.2 Số lượng cặp hóa chất - bênh tật lọc MESH 36 Bảng 4.3 So sánh hiệu suất mơ hình đề xuất với số nghiên cứu khác 37 DANH MỤC TỪ VIẾT TẮT CID: Chemical-induced Disease – Quan hệ Tác dụng phụ thuốc gây bệnh từ văn y sinh LSTM: Long Short-Term Memory – Bộ nhớ Ngắn hạn Dài RNN: Recurrent Neural Network – Mạng nơ-ron hồi quy POS: Part of speech – Từ loại CNN: Convolutional Neural Network – Mạng nơ-ron tích chập ME: Maximum Entropy Model – Mơ hình Entropy Cực đại PP: Post processing – Tiền xử lý Chương 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu Tương tác thuốc (bệnh-thuốc) loại quan hệ thực thể y sinh, ví dụ: quan hệ , quan hệ xảy bệnh thuốc Các nhà khoa học cần tự động trích xuất thơng tin liên quan, ví dụ, mối quan hệ ngữ nghĩa thực thể y sinh, từ sở liệu Ví dụ, nhà khoa học cần biết loại thuốc chữa khỏi loại bệnh định loại bệnh tác dụng phụ (ChemicalInduced Diseases CID) loại thuốc định Những mối quan hệ giúp chuyên gia cập nhật kiến thức nâng cao chuyên môn lĩnh vực họ Các mối quan hệ phát từ nhiều văn khác tài liệu y sinh [1] Hiểu mối quan hệ hóa chất bệnh tật quan trọng nhiệm vụ y sinh khác nhau, chẳng hạn khám phá thuốc phát triển liệu pháp Trong phương pháp học máy, mạng nơ-ron tích chập (CNN) phương pháp học máy mạnh mẽ đề xuất gần thể tiềm lớn cho nhiều nhiệm vụ xử lý ngơn ngữ tự nhiên phân tích quan điểm/cảm xúc, trích xuất tương tác thuốc [2] Một nghiên cứu cải tiến mạng tích chập dựa phụ thuộc cho kết tốt việc mơ hình hóa câu văn [3] Việc trích xuất mối quan hệ CID mơ tả tài liệu y sinh xác định cấp độ tài liệu, tức mối quan hệ mơ tả câu khác tài liệu Hơn nữa, nhiệm vụ trích xuất quan hệ CID yêu cầu mối quan hệ bệnh hóa chất cụ thể [4] Do thực thể hóa chất bệnh tật có nhiều đề cập câu khác tài liệu, coi trường hợp “cấp độ nội câu” đề cập đến hóa chất bệnh tật câu “cấp độ liên câu” ngược lại Vì vậy, việc trích xuất quan hệ CID đơn giản hóa từ cấp độ tài liệu đến cấp độ đề cập, xem xét câu sau: S1 S2 S3 S4 S5 R1 R2 Possible intramuscular midazolam[D008874]-associated cardiorespiratory arrest[D006323] and death[D003643] Midazolam hydrochloride[D008874] is commonly used for dental or endoscopic procedures Although generally consisted safe when given intramuscularly, intravenous administration is known to cause respiratory and cardiovascular depression[D012140] This report describes the first published case of cardiorespiratory arrest[D006323] and death[D003643] associated with intramuscular administration of midazolam[D008874] Information regarding midazolam[D008874] use is reviewed to provide recommendation for safe administration D008874-D012140 D008874-D006323 10 Đầu tiên, chuỗi đầu vào, luận văn đề xuất phương pháp tạo biểu diễn đầu vào cho từ văn cách kết hợp Vector từ theo ngữ cảnh (ELMo), Vector từ loại Vector Position Tiếp đó, biểu diễn đầu vào đưa qua mạng hồi quy LSTM hai chiều (Bidirectional LSTM) để đồng thời mã hóa thơng tin ngữ cảnh từ trái qua phải từ phải qua trái Kết tầng LSTM đưa qua mạng tích chập CNN để trích xuất đặc trưng mong muốn quan hệ CID Cuối cùng, luận văn đưa dự đoán mức định danh cách sử dụng hàm gộp cực đại (max pooling) hàm softmax tập dự đoán tất cặp đề cập 3.2 Biểu diễn đầu vào Phần mô tả phương pháp tạo vector đầu vào cho mô hình Hình 3.2 minh họa cách luận văn tạo biểu diễn đầu vào cho từ văn Biểu diễn đầu vào (Token embedding) Nhúng từ theo ngữ cảnh (Contextual Word Embedding) Vector biểu diễn từ loại (POS embedding) Vector biểu diễn vị trí (Position embedding) Hình 3.2 Biểu diễn vector đầu vào Cụ thể, gọi 𝑥𝑖 ∈ ℝ𝑑 biểu diễn token thứ i chuỗi đầu vào 𝑤1 , 𝑤2 , … , 𝑤𝑛 Mỗi biểu diễn xi tạo tổ hợp vector nhúng từ theo ngữ cảnh (contextual word embedding) 𝑒𝑤𝑖 ∈ ℝ𝑑1 , vector biểu diễn cho từ loại (POS embedding) 𝑝𝑤𝑖 ∈ ℝ𝑑2 vector biểu diễn vị trí (position embedding) 𝑑𝑤𝑖 ∈ ℝ𝑑3 , (𝑑 = 𝑑1 + 𝑑2 + 𝑑3 ), ○ ký hiệu cho phép nối vector 𝑥𝑖 = 𝑒𝑤𝑖 ○ 𝑝𝑤𝑖 ○ 𝑑𝑤𝑖 26 (3.1) 3.2.1 Word embedding – ELMo Các phương pháp truyền thống để sinh biểu diễn cho từ [6] bỏ qua ngữ nghĩa từ ngữ cảnh khác nhau, điều giới hạn khả mơ hình nhúng từ tĩnh hiệu suất nhiều nhiệm vụ xử lý ngơn ngữ tự nhiên Vì vậy, để tạo biểu diễn từ ngữ thay đổi tùy thuộc vào ngữ cảnh xung quanh nó, luận văn sử dụng phiên y sinh ELMo [9] tiền huấn luyện 10 triệu tóm tắt trích từ kho liệu Pubmed Mỗi vector từ theo ngữ cảnh 𝑒𝑤𝑖 liên tục, nằm không gian 𝑑1 chiều giữ cố định trình huấn luyện 3.2.2 POS embedding Bên cạnh vector biểu diễn từ theo ngữ cảnh, luận văn sử dụng thêm thông tin từ loại (part of speech) biểu diễn đầu vào Với từ văn đầu vào, luận văn dùng vector để biểu diễn loại từ tương ứng với từ Vector từ loại 𝑝𝑤𝑖 khởi tạo ngẫu nhiên, nằm không gian 𝑑2 chiều cập nhật trình huấn luyện mơ hình 3.2.3 Position embedding Position embedding đặc trưng khoảng cách vị trí từ so với thực thể Thông tin vector khoảng cách 𝑑𝑤𝑖 nằm không gian 𝑑3 xử lý bước tiền xử lý liệu Do việc trích xuất mối quan hệ bệnh lý thuốc bao gồm thực thể, luận văn trích xuất quan hệ liên quan tới vị trí từ đến thực thể bệnh lý đến thực thể thuốc 3.3 Mơ hình mạng nơ-ron tích chập CNN kết hợp với LSTM 3.3.1 Tầng mạng nơ-ron hồi quy LSTM Trong phần trước luận văn trình bày phương pháp tạo vector biểu diễn cho từ đoạn văn tổ hợp vector nhúng từ theo ngữ cảnh, vector từ loại vector vị trí Tuy nhiên, biểu diễn từ loại vị trí vector khởi tạo ngẫu nhiên từ đầu cần phải cập nhật trình huấn luyện Vì vậy, luận văn sử dụng mạng LSTM để mã hóa lại thơng tin ngữ cảnh cung cấp cho mơ hình khả uyển chuyển để thay đổi biểu diễn cho phù hợp với tốn Hình 3.3 minh họa mơ hình LSTM mà luận văn sử dụng 27 Hình 3.3 Minh họa mơ hình LSTM sử dụng để thu thập thơng tin ngữ cảnh Như trình bày mục 2.2, mạng LSTM bao gồm cổng điều khiển để khắc phục vấn đề tiêu biến đạo hàm Ở bước t, mạng LSTM tính tốn trạng thái ẩn ht trạng thái tế bào ct cách sử dụng vector đầu vào xt, trạng thái ẩn trước ht−1 trạng thái tế bào trước ct−1 Q trình tính tốn cụ thể sau: it=σ(Wixt+Uih(t-1)+bi) ft=σ(Wfxt+Ufh(t-1)+bf) ot=σ(Woxt+Uoh(t-1)+bo) gt=tanh(Wgxt+Ugh(t-1)+bg) ct=ft⊙c(t-1)+ it⊙gt ht= ot⊙tanh(ct) (3.2) Thêm nữa, luận văn sử dụng mô hình LSMT hai chiều (Bidirectional LSTM) bao gồm hai mạng LSTM riêng biệt gọi Forward LSTM Backward LSTM để đồng thời mã hóa thơng tin ngữ cảnh từ trái qua phải từ phải qua trái Cuối cùng, với vector biểu diễn xt, mạng Bidirectional LSTM tạo trạng thái ẩn cuối ht kết phép nối hai vector trạng thái ẩn xi hf ngược hb Q trình tình tốn diễn sau 𝑓 𝑓 ℎ𝑡 = 𝐿𝑆𝑇𝑀 𝑓 (𝑥𝑡 , ℎ𝑡−1 ) 𝑏 ℎ𝑡𝑏 = 𝐿𝑆𝑇𝑀𝑏 (𝑥𝑡 , ℎ𝑡−1 ) 𝑓 𝑏 ℎ𝑡 = ℎ𝑡 ○ ℎ 𝑡 (3.3) 3.3.2 Tầng mạng nơ-ron tích chập CNN Trong năm gần đây, mạng nơ-ron hồi quy LSTM mạng nơ-ron tích chập CNN hai mạng học sâu phổ biến nhất, áp dụng thành công trích xuất quan hệ CID từ văn y sinh Giữa mạng hồi quy LSTM mạng tích chập CNN có đặc tính khác rõ rệt Mơ hình mạng nơ-ron hồi quy có kiến trúc mạng nơ-ron tuần tư mạnh việc nắm bắt đặc trưng chuỗi từ dài – đặc trưng phụ thuộc liên kết xa liên câu Trong mạng nơ-ron tích chập CNN có kiến trúc mạng thần kinh phân cấp học tốt đặc trưng từ vựng cú pháp cục Bởi mơ hình mạng nơ ron tích chập phù hợp để nắm bắt đặc trưng câu ngắn, mơ hình mạng nơ ron hồi quy thích hợp để xử lý câu dài 28 phức tạp đặc trưng câu với văn Luận văn sử dụng mơ hình kết hợp ưu điểm mạng nơ-ron tích chập CNN mạng nơ-ron hồi quy LSTM để trích xuất quan hệ CID từ văn y sinh Từ kết xử lý mạng LSTM hai chiều với khả mã hóa lại thơng tin ngữ cảnh cung cấp cho mơ hình khả nắm bắt phụ thuộc xa, mơ hình đề xuất đưa qua mạng nơ-ron tích chập để trích xuất đặc trưng mong muốn quan hệ CID Lấy ý tưởng từ [5], luận văn sử dụng mạng nơ ron tích chập CNN với thành phần: Mạng nơ ron tích chập bao gồm tập hợp lớp tích chập chồng lên sử dụng hàm kích hoạt khơng tuyến tính ReLU hay Phép tích chập sử dụng hạt nhân biến đổi với liệu lớp trước để tạo liệu mới, gọi liệu đặc trưng cung cấp chúng cho lớp Các phép gộp, gộp tối đa (max-pooling) gộp trung bình (averagepooling) thêm vào sau tích chập để giảm kích thước đặc trưng Điều cho phép mơ hình giảm chi phí tính tốn phân tích liệu nhiều mức độ khác Ngồi lớp này, mạng nơ ron tích chập kết hợp với mạng nơ ron khác hoạt động bình thường Hình 3.4 minh họa kiến trúc mơ hình mạng CNN phân lớp câu nxk biểu diễn câu văn n từ k chiều với hai kênh Lớp tích chập với lọc có kích thước thay đổi tạo đặc trưng Gộp cực đại theo thời gian Tầng kết nối đầy đủ Hình 3.4 Kiến trúc mơ hình mạng CNN với hai kênh cho đầu vào cho câu văn [5] Với 𝑥𝑖 ∈ 𝑅𝑘 biểu diễn từ thứ i câu tương ứng với vector biểu diễn từ kchiều Khi câu có độ dài n từ (bổ sung bước đệm cần) biểu diễn dạng (3.4) 𝑥1:𝑛 = 𝑥1 ⊕ 𝑥2 ⊕ … ⊕ 𝑥𝑛 Trong ⊕ phép nối chuỗi, 𝑥𝑖∶𝑖+𝑗 tương ứng với chuỗi từ 𝑥𝑖 , 𝑥𝑖+1 , … , 𝑥𝑖+𝑗 Áp dụng phép tích chập liên quan đến lọc 𝑤 ∈ ℝℎ𝑘 với cửa sổ h từ để tạo đặc trưng (feature) Áp dụng lọc với cửa sổ h trượt từ đầu đến hết câu để tạo đặc trưng (feature map) 29 Sau áp dụng phép gộp cực đại theo thời gian (max-over-time pooling) đặc trưng này để giữ lại đặc tính quan trọng – tương ứng với giá trị lớn – cho đặc trưng Phép gộp xử lý tốt độ dài thay đổi theo câu Mỗi đặc tính trích xuất từ lọc, mơ hình sử dụng nhiều lọc (với kích thước cửa sổ thay đổi) để thu nhiều đặc tính Những đặc tính tạo thành lớp áp chót trước chuyển sang lớp softmax kết nối đầy đủ có đầu phân phối xác suất nhãn 3.4 Dự đoán mức định danh Do quan hệ bệnh hóa chất gây (CID) gán nhãn mức định danh thay mức đề cập, luận văn đề xuất phương pháp tính tốn cho phép tổng hợp lại thông tin từ tất cặp đề cập có cặp thực thể hóa chất bệnh tật tương ứng, tồn văn Tồn thơng tin thu mức đề cập sử dụng để đưa dự đoán cuối mức định danh Xét c = {c1, c2, , cm} d = {d1, d2, , dn} tập vector biểu diễn đề cập thực thể hóa chất bệnh, m n số lần đề cập đến tài liệu loại thực thể Luận văn sử dụng phép biến đổi tuyến tính riêng biệt với hàm kích hoạt để giảm chiều chiếu vector đề cập bệnh hóa chất xuống khơng gian biểu diễn khác Biểu thức tính tốn cụ thể sau 𝑓𝑖𝑛𝑎𝑙 𝑐𝑖 = tanh(𝑊𝑐 𝑐𝑖 + 𝑏𝑐 ), ∀𝑖 = … 𝑚 (3.5) 𝑓𝑖𝑛𝑎𝑙 ), 𝑑𝑗 = tanh(𝑊𝑑 𝑐𝑗 + 𝑏𝑑 ∀𝑗 = … 𝑛 Trong 𝑊𝑐 , 𝑏𝑐 𝑊𝑑 , 𝑏𝑑 trọng số độ lệch mơ hình tương ứng cho 𝑓𝑖𝑛𝑎𝑙 thực thể hóa chất bệnh tật 𝑐𝑖 𝑓𝑖𝑛𝑎𝑙 𝑑𝑗 vector biểu diễn cuối cho đề cập thứ i thực thể hóa chất đề cập thứ j thực thể bệnh Để tính điểm dự đốn cho cặp đề cập hóa chất - bệnh, luận văn sử dụng vector biểu diễn cuối chúng thông tin khoảng cách tương đối cặp đề cập văn (khoảng cách đo số từ nằm hai đề cập) Cụ thể, luận văn tính tốn vector hai chiều, biểu diễn cho việc có hay không mối quan hệ CID hai đề cập thực thể Cơng thức tính tốn sau 𝑓𝑖𝑛𝑎𝑙 𝑎𝑖𝑗 = 𝑊𝑠𝑐𝑜𝑟𝑒 (𝑐𝑖 𝑓𝑖𝑛𝑎𝑙 ∘ 𝑑𝑗 ∘ 𝑅|𝑝 𝑐𝑖 − 𝑝𝑑𝑗 | ) + 𝑏𝑠𝑐𝑜𝑟𝑒 Trong 𝑊𝑠𝑐𝑜𝑟𝑒 , 𝑏𝑠𝑐𝑜𝑟𝑒 tham số mơ hình, 𝑅|𝑝 𝑐𝑖 − 𝑝𝑑𝑗 | (3.6) vector biểu diễn khoảng cách tương đối hai đề cập thực thể cập nhật huấn luyện 30 Ngoài vector biểu diễn đề cập thực thể thơng tin khoảng cách chúng cần thiết để làm tăng tính xác cho dự đốn Một cách trực giác, dự đoán cặp đề cập nằm cách xa thơng thường khó để xác định quan hệ so với dự đốn cặp đề cập có khoảng cách gần Một giải pháp chọn ngưỡng cố định từ trước, mà đó, dự đốn cặp đề cập có khoảng cách lớn không xem xét Tuy nhiên việc lựa chọn giá trị ngưỡng phù hợp thường khó địi hỏi thời gian tìm kiếm thơng qua tập phát triển Vì vậy, luận văn thêm thơng tin khoảng cách dạng vector để mơ hình tự động học cách đưa trọng số cho cặp đề cập dựa khoảng cách chúng Các vector biểu diễn cho khoảng cách tương đối khởi tạo ngẫu nhiên cho phép cập nhật trình huấn luyện mơ hình Cuối cùng, luận văn tính tốn điểm số cho dự đoán mức định danh cách sử dụng hàm max pooling tập dự đoán tất cặp đề cập final_score(c, d) = max(aij ), ∀i = m, j = n (3.7) 3.5 Huấn luyện mơ hình Đối với tốn trích xuất quan hệ, luận văn đưa điểm dự đoán mức định danh qua hàm softmax để tính phân phối xác suất tập nhãn quan hệ P(rc,d) = Softmax(final_score(c, d)) (3.8) Sau thực tối thiểu hóa hàm negative log-likelihood nhãn thực ∗ quan hệ biết tham số mơ hình 𝜃𝑟𝑒 cho tốn trích xuất quan hệ; 𝑟𝑐,𝑑 nhãn thực quan hệ thực thể hóa chất c thực thể bệnh d ∗ 𝑙𝑟𝑒 = − log 𝑝(𝑟𝑐,𝑑 = 𝑟𝑐,𝑑 |𝜃𝑟𝑒 ) 31 (3.9) Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN Từ mô hình, phương pháp thực đề xuất, chương luận văn trình bày cách thực dự đoán tương tác bệnh – thuốc, từ việc lựa chọn liệu, luồng quy trình xử lý, lựa chọn độ đo đánh giá đến đưa kết thu ttheo mục tiêu luận văn Từ kết đó, luận văn đưa thảo luận, đánh giá, so sánh với với phương pháp tương đương gần mở hướng nghiên cứu tương lai 4.1 Độ đo đánh giá Để đo lường hiệu suất mơ hình, luận văn thực tính điểm F1 lớp CID Cụ thể, luận văn tính toán hai độ đo trung gian khác Precision Recall Trong đó, Precision định nghĩa tỉ lệ số lượng quan hệ mơ hình dự đốn xác chia cho số lượng dự đốn mơ hình đưa Cơng thức tính điểm Precision sau: Precision = |Predicted ∩ Golden| |𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 | (4.1) Ở phần lại, Recall định nghĩa tỉ lệ số lượng quan hệ mơ hình dự đốn xác chia số lượng quan hệ thật liệu Recall = |Predicted ∩ Golden | |𝐺𝑜𝑙𝑑𝑒𝑛| (4.2) Precision trả lời cho câu hỏi: số điểm liệu mơ hình phân loại vào lớp Positive, có điểm liệu thực thuộc lớp Positive Mặt khác, Recall giúp biết có điểm liệu thực lớp Positive mơ hình phân lớp điểm liệu thực lớp Positive Một mơ hình tốt Precision Recall cao, thể cho mô hình phân loại nhầm lớp tỉ lệ bỏ sót đối tượng thuộc lớp cần quan tâm thấp Tuy nhiên, hai giá trị Precision Recall thường không cân với (giá trị tăng giá trị thường có xu hướng giảm) Độ đo F1 đại lượng cân tính điểm Precision Recall thơng qua cơng thức sau × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 (4.3) F1 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 32 4.2 Cách thức thực Tập liệu huấn luyện Lọc Hypernym Tập liệu kiểm thử Mơ hình trích xuất quan hệ CID Xây dựng liệu quan hệ CID Quan hệ nội câu Huấn luyện Quan hệ liên câu Huấn luyện Mơ hình nội câu Đánh giá Mơ hình liên câu Đánh giá Quan hệ nội câu Xây dựng liệu quan hệ CID Quan hệ liên câu Hợp quan hệ Kết Hình 4.1 Cách thức thực dự đốn tương tác thuốc Phần trình bày cách tiếp cận học có giám sát việc trích xuất quan hệ CID Hình 4.1 trình bày kiến trúc tổng thể xử lý liệu mơ hình mà luận văn đề xuất Tồn quy trình phương pháp tiếp cận chia thành bước sau: Tạo liệu quan hệ CID (Relation instance construction): Đầu tiên, từ liệu BioCreative V CDR (sẽ đề cập phần sau) làm đầu vào, cặp đề cập thuốc bệnh dạng trích xuất dạng cặp đề cập có cách sử dụng số quy tắc lọc theo phương pháp dựa tập liệu huấn luyện liệu kiểm tra Tất cặp đề cập thuốc – bệnh tạo từ đề cập đến thuốc bệnh văn theo cách ghép đôi, tức tài liệu chứa m đề cập thuốc khác n đề cập bệnh khác nhau, có m x n cặp đề cập đến bệnh thuốc khác Các cặp đề cập gộp thành hai nhóm/tập liệu tương ứng cấp độ nội câu cấp độ liên câu Nhóm nội câu có nghĩa cặp đề cập đến từ câu, nhóm liên câu có nghĩa cặp đề cập nằm câu khác Sau áp dụng quy tắc lọc dựa kinh nghiệm (heuristic) khác để xây dựng tập liệu cặp đề cập coi thể quan hệ CID Xây dựng liệu quan hệ CID cấp độ nội câu Trước đưa vào mơ hình trích xuất quan hệ CID, cần xây dựng liệu cặp đề cập thuốc – bệnh cấp độ nội câu cho trình huấn luyện đánh giá Vì mục đích này, luận văn áp dụng số quy tắc dựa kinh nghiệm (heuristic) đơn giản hiệu sau: 33 1) Khoảng cách thực thể báo hai đề cập cặp phải nhỏ k (ở k đặt k 10 theo kinh nghiệm) 2) Nếu có nhiều đề cập câu đề cập đến thực thể, cặp đề cập thuộc - bệnh gần nên giữ lại 3) Bất kỳ đề cập xảy dấu ngoặc đơn nên bỏ qua Xây dựng liệu quan hệ CID cấp độ liên câu Việc xây dựng cặp đề cập thuốc – bệnh cấp độ liên câu để huấn luyện đánh giá tuân thủ quy tắc sau: 1) Chỉ thực thể không nằm tập liệu quan hệ CID cấp độ nội câu xem xét cấp độ liên câu 2) Khoảng cách câu hai lần đề cập cặp đề cập thuốc – bệnh phải nhỏ n (ở đặt n theo kinh nghiệm) 3) Nếu có nhiều lượt đề cập đề cập đến thực thể, giữ nguyên cặp đề cập thuốc - bệnh có khoảng cách gần Lọc hypernym (bao quát) cho tập liệu huấn luyện Trong số trường hợp, có mối quan hệ bao quát/chi tiết (hypernym/hyponym) khái niệm bệnh thuốc, khái niệm phụ thuộc vào khái niệm khác bao quát Tuy nhiên, quan hệ bệnh hóa chất gây (CID) gán cho cặp thực thể hóa chất - bệnh tật cụ thể Lấy ví dụ, tương tác tobacco causes cancer (“thuốc gây ung thư”) bị gán váo lớp Negative văn tồn thực thể bệnh cụ thể ví dụ lung cancer (“ung thư phổi”) Điều khiến tương tác bị gán nhãn sai, gây ảnh hưởng tới hiệu suất mơ hình Trích xuất quan hệ CID Trích xuất quan hệ CID xây dựng toán phân loại nhị phân Từ tập liệu cặp đề cập thuốc – bệnh xây dựng cấp độ nội câu, liên câu để thực huấn luyện mơ hình từ tất cặp đề cập có cặp thực thể hóa chất bệnh tật tương ứng, toàn văn với tập huấn luyện điều chỉnh siêu tham số tập phát triển Cuối cùng, sử dụng tập huấn luyện lẫn tập phát triển để huấn luyện mơ hình siêu tham số tìm trước Mơ hình sau huấn luyện đánh giá tập Test Hợp quan hệ (Relation merging) Do quan hệ CID gán nhãn mức định danh thay mức đề cập (mention), nên cần thực tổng hợp dự đoán Một giả định cặp thực thể bệnh – thuốc đề cập nhiều lần cấp độ nội câu cấp độ liên câu cặp đề cập có mối quan hệ CID, luân văn tổng hợp coi hai thực thể bệnh – thuốc có mối quan hệ CID thực 34 4.3 Bộ liệu văn y sinh BioCreative V CDR 4.3.1 Dữ liệu quan hệ thuốc bệnh - BioCreative V CDR Luận văn sử dụng liệu BioCreative V CDR [16] để huấn luyện, phát triển đánh giá mơ hình Bộ liệu chuẩn bao gồm 1500 tóm tắt trích từ kho PubMed, với 500 tóm tắt cho tập huấn luyện, tập phát triển tập kiểm tra tương ứng Bảng 4.1 mô tả vài thống kê liệu CDR Bảng 4.1 Một vài thống kê liệu CDR Subset Training Development Test Abstracts 500 500 500 Chemical-induced disease relation 1038 1012 1066 Dữ liệu BioCreative V CDR cung cấp hai định dạng khác PubTator (định dạng text) BioC (định dạng XML) nên cần sử dụng hai loại để tiến hành xử lý liệu Ở tác giả chọn sử dụng định dạng PubTator để tiến hành xử lý Dữ liệu viết BioCreative V CDR bao gồm có tiêu đề tóm tắt văn minh họa Hình 4.2: Hình 4.2 Dữ liệu định dạng PubTator BioCreative V CDR Mỗi thực thể thuốc bệnh bao gồm thông tin: vị trí xuất viết, tên thuốc/bệnh, loại (thuốc/bệnh) mã định danh thực thể Các ghi thực thể thuốc bệnh nhận diện tách thành dịng riêng có dánh dấu vị trí chúng xuất văn y sinh 35 Mối quan hệ thuốc bệnh xuất văn y sinh thể dịng có chữ “CID”, mã định danh thuốc mã định danh bệnh Chúng ta hiểu cặp thuốc bệnh xuất cặp thuốc bệnh lý “Có quan hệ” với Để tạo liệu huấn luyện, tiến hành loại bỏ hết thực thể hóa chất bệnh tật có id -1 Tiếp theo, tất thực thể hóa chất bênh tật xuất văn ghép cặp lại, trình thực mức định danh mức đề cập Sau đó, với cặp định danh hóa chất - bệnh tật tương ứng, cặp liệu CDR gán nhãn CID tiến hành gán vào lớp Positive (1), ngược lại lớp Negative (0) Trong liệu CDR, quan hệ bệnh hóa chất gây (CID) gán cho cặp thực thể hóa chất - bệnh tật cụ thể Lấy ý tưởng [11], luận văn thực lọc tất cặp hóa chất - bệnh tật chứa hypernyms sử dụng tính phân cấp từ điển MESH (Medical Subject Headings) Bảng 4.2 mô tả số lượng cặp hóa chất bệnh tật lọc MESH Bảng 4.2 Số lượng cặp hóa chất - bênh tật lọc MESH Subset Training Development Test Number of filtered negative examples 192 174 201 Thực huấn luyện mơ hình với tập huấn luyện điều chỉnh siêu tham số tập phát triển Cuối cùng, sử dụng tập huấn luyện lẫn tập phát triển để huấn luyện mơ hình siêu tham số tìm trước Mơ hình sau huấn luyện đánh giá tập Test 4.4 Cài đặt thực nghiệm 4.4.1 Thư viện sử dụng Luận văn tiến hành cài đặt mơ hình Pytorch - thư viện mã nguồn mở để phát triển mơ hình Học Sâu Đối với vector nhúng từ theo ngữ cảnh BioELMo, sử dụng mơ hình huấn luyện từ thư viện AllenNLP [17] Ngoài ra, luận văn sử dụng thư viện ScispaCy [18] với tập tính hồn chỉnh cho xử lý văn y sinh học, bao gồm tách từ, phân tích cú pháp phụ thuộc gán nhãn từ loại Một số thư viện phụ trợ khác sử dụng cài đặt mơ hình Pandas, Numpy, Sklearn Mơ hình huấn luyện GPU Tesla T4 với 15GB nhớ 4.4.2 Các siêu tham số mơ hình Luận văn đặt số chiều vector từ loại 10 Trong khi, số chiều vector nhúng position nhúng từ theo ngữ cảnh (BioELMo) luận văn đặt 30 1024 tương ứng Đối với mạng LSTM, luận văn đặt số chiều trạng thái ẩn xuôi ngược 100, 36 biểu diễn đầu mơ hình LSTM có chiều 200 Việc biểu diễn khoảng cách tương đối hai đề cập thực thể vector 50 chiều Với huấn luyện mơ hình, luận văn sử dụng thuật tốn tối ưu AdamW [19] Mơ hình huấn luyện với tốc độ học 7e-4 kích cỡ minibatch Để hạn chế vấn đề khớp, luận văn sử dụng L2-Regularization với hệ số λ 0.001 tốc độ học giảm sau epoch 4.4.3 Kết thực nghiệm Trong phần này, luận văn báo cáo kết thực nghiệm làm Các thí nghiệm tập trung vào việc nghiên cứu ảnh hưởng biểu diễn đầu vào Thực so sánh kết mô hình đề xuất (mạng nơ-ron tích chập CNN kết hợp với mạng hồi quy LSTM) với nhiều phương pháp tiên tiến gần giới cho tốn trích xuất quan hệ CID Với thí nghiệm, luận văn sử dụng kết trung bình 10 lần chạy với random seed khác làm kết cuối So sánh mơ hình kết hợp CNN LSTM với phương pháp tiên tiến gần giới cho tốn trích xuất quan hệ CID liệu BioCreative V CDR Các nghiên cứu liệt kê sau Bảng 4.3 So sánh hiệu suất mơ hình đề xuất với số nghiên cứu khác Model LSTM + SVM [17] LSTM + SVM + PP [17] CNN +ME [2] CNN +ME + PP [2] GCN + Multi-Head Attn [4] CNN + LSTM (Ours) Precision (P) 64.9 55.6 60.9 55.7 56.3 56.0 Recall (R) 49.3 68.4 59.5 68.1 72.7 72.4 F1 score (F1) 56.0 61.3 60.2 61.3 63.5 63.1 • LSTM + SVM (Zhou et al., 2016) [17]: Long short-term memory + Support vector machine • LSTM + SVM + PP (Zhou et al., 2016) [17]: Long short-term memory + Support vector machine + Post processing • CNN + ME (Gu et al., 2017) [2]: Convolutional neural network + Maximum entropy model • CNN + ME + PP (Gu et al., 2017) [2]: Convolutional neural network + Maximum entropy model + Post processing • GCN + Multi-Head Attn (Wang et al., 2020) [4]: Graph convolutional network + Multi-head self- attention mechanism Bảng 4.3 mô tả chi tiết so sánh kết mơ hình đề xuất với số phương pháp gần giới cho tốn trích xuất quan hệ CID Đầu tiên, luận văn thực 37 so sánh mơ hình đề xuất với phương pháp khơng sử dụng đồng thời mơ hình mạng nơ-ron tích chập CNN mơ hình hồi quy LSTM Mơ hình đề xuất đạt kết tốt so với mơ hình LSTM + SVM, LSTM + SVM + PP (Zhou et al., 2016) [17] mô hình CNN + ME, CNN + ME + PP (Gu et al., 2017) [2] Có thể thấy, với vài phương pháp hậu xử lý (PP), hiệu suất nghiên cứu nêu tăng lên đáng kể Điều cho thấy việc tích hợp quy tắc dựa kinh nghiệm (heuristic) làm tăng hiệu suất cho tốn trích xuất quan hệ CID Tuy nhiên, so sánh với mơ hình sử dụng cấu trúc đồ thị, mơ hình GCN + Multi-Head Attn (Wang et al., 2020) [4] có hiệu suất tốt mô đề xuất chút, khoảng 0.4 điểm F1 Trong phương pháp (Wang et al., 2020) [4] sử dụng kết hợp mơ hình GCN với chế Multi-head Self-attention đồ thị phụ thuộc mức tài liệu, mô hình mạng tích chập đồ thị (GCN) nắm bắt tốt thông tin phụ thuộc xa phải xử lý đoạn văn có độ dài lớn – so với mơ hình hồi quy LSTM đơn Các so sánh nêu cho thấy mơ hình đề xuất (mạng nơ-ron tích chập CNN kết hợp với mạng hồi quy LSTM) đạt kết đáng khích lệ đánh giá với nhiều phương pháp đại khác cho tốn trích xuất quan hệ CID 4.5 Kết luận Luận văn giới thiệu mơ hình nơ-ron kết hợp mạng CNN LSTM cho việc giải tốn trích xuất quan hệ bệnh lý thuốc gây (CID) Mơ hình mạng nơ ron tích chập phù hợp để nắm bắt đặc trưng câu ngắn, mơ hình mạng nơ ron hồi quy thích hợp để xử lý câu dài phức tạp đặc trưng câu với văn Luận văn sử dụng mơ hình kết hợp ưu điểm mạng nơ-ron tích chập CNN mạng nơ-ron hồi quy LSTM để trích xuất quan hệ CID từ văn y sinh Thêm nữa, luận văn nâng cấp biểu diễn đầu vào mơ hình với phương pháp nhúng từ dựa ngữ cảnh mạnh mẽ cho miền y sinh học (ELMo) Kết thực nghiệm cho thấy mơ hình kết hợp mạng tích chập CNN mạng hồi quy LSTM đạt 63.1 điểm F1 Phương pháp đề xuất luận văn đạt kết với độ xác tốt, áp dụng vào thực tế cho tốn trích xuất quan hệ CID 4.6 Hướng nghiên cứu tương lai Trong tương lai, tác giả tiếp tục thu thập bổ sung phương pháp khác áp dụng thêm số đặc trưng khác để, để cải tiến hiệu dự đoán thuật tốn tìm cách tối ưu tham số thuật toán tự động để đạt kết cao 38 Tài liệu tham khảo Tiếng Anh [1] Wahiba Ben Abdessalem Karaa, Eman H Alkhammash, A, Drug Disease Relation Extraction from Biomedical Literature Using NLP and Machine Learning, Mobile Information Systems, vol 2021, Article ID 9958410, 10 pages, 2021 [2] Gu, Jinghang and Sun, Fuqing and Qian, Longhua and, Chemical-induced disease relation extraction via convolutional neural network, 2017 [3] Mingbo Ma et all, Dependency-based Convolutional Neural Networks for Sentence Embedding, 2015 [4] Wang J, Chen X, Zhang Y, et al, Document-Level Biomedical Relation Extraction Using Graph Convolutional Network and Multihead Attention: Algorithm Development and Validation, JMIR Med Inform, 2020 [5] Yoon Kim, Convolutional neural networks for sentence classification In Proceedings of EMNLP, 2014 [6] Dean, Tomas Mikolov and Ilya Sutskever and Kai Che, Distributed Representations of Words and Phrases and their Compositionality, 2013 [7] Pennington, Jeffrey and Socher, Richard and Mannin, GloVe: Global Vectors for Word Representation, 2020 [8] Zettlemoyer, Matthew E Peters and Mark Neumann an, Deep contextualized word representations, 2018 [9] Lu, Qiao Jin and Bhuwan Dhingra and William W Coh, Probing Biomedical Embeddings from Language Models, 2019 [10] Jun Xu and Y Wu and Y Zhang and J Wang and Hee-, CD- REST: a system for extracting chemical-induced disease relation in literature, 2016 [11] Jinghang Gu and Longhua Qian and Guodong Zhou, Chemical-induced disease relation extraction with various linguistic features, 2016 [12] Huiwei Zhou and Huijie Deng and Jiao He, Chemical-disease Relations Extraction Based on The Shortest Dependency Path Tree, 2015 [13] Nguyen, Dat Quoc and Verspoor, Karin, Convolutional neural networks for chemical-disease relation extraction are improved with character-based word embeddings, 2018 [14] Ashish Vaswani and Noam Shazeer and Niki Parmar an, Attention Is All You Need, 2017 [15] Sahu, Sunil Kumar and Christopoulou, Fenia and Miw, Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network, 2019 [16] Wei, Chih-Hsuan and Peng, Yifan and Leaman, Robert, Assessing the state of the art in biomedical relation extraction: Overview of the BioCreative V chemical-disease relation (CDR) task, 2016 [17] Zettlemoyer, Matt Gardner and Joel Grus and Mark N, AllenNLP: A Deep Semantic Natural Language Processing Platform, 2017 39 [18] Neumann, Mark and King, Daniel and Beltagy, Iz and, ScispaCy: Fast and Robust Models for Biomedical Natural Language Processing, 2017 [19] Ilya Loshchilov, Frank Hutter, Decoupled Weight Decay Regularization, 2017 [20] Huang, Huiwei Zhou and Huijie Deng and Long Chen a, Exploiting syntactic and semantics information for chemical–disease relation extraction, 2016 [21] Patrick Verga and Emma Strubell and Andrew McCallu, Simultaneously SelfAttending to All Mentions for Full-Abstract Biological Relation Extraction, 2018 [22] Andrej Kastrin et all, Predicting potential drug-drug interactions on topological and semantic similarity features using statistical learning, 2018 [23] Chunyun Zhang et all, Multi-Gram CNN-Based Self-Attention Model for Relation Classification, vol 7, IEEE Access, 2019, p 5343 5357 [24] Franỗois Chollet, Deep Learning with Python, 2018 [25] Yijia Zhang, Hongfei Lin, Zhihao Yang, et all, A hybrid model based on neural networks for biomedical relation extraction, vol 81, Journal of Biomedical Informatics, 2018, pp 83-92 [26] Keiron O'Shea, Ryan Nash, An Introduction to Convolutional Neural Networks, 2015 40 ... Tầng mạng nơ- ron tích chập CNN Trong năm gần đ? ?y, mạng nơ- ron hồi quy LSTM mạng nơ- ron tích chập CNN hai mạng học sâu phổ biến nhất, áp dụng thành cơng trích xuất quan hệ CID từ văn y sinh Giữa mạng. .. luận văn Luận văn đề xuất giải toán dự đoán tương tác bệnh - thuốc từ văn y sinh mơ hình nơ- ron tích chập cho phép tận dụng thơng tin phụ 12 thuộc toàn cục đoạn văn Mơ hình nơ- ron tích chập cho... CID L? ?y ý tưởng từ [5], luận văn sử dụng mạng nơ ron tích chập CNN với thành phần: Mạng nơ ron tích chập bao gồm tập hợp lớp tích chập chồng lên sử dụng hàm kích hoạt khơng tuyến tính ReLU hay Phép