Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	48
Dung lượng	1,17 MB

Nội dung

Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụngPhân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 12/2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019 LỜI CẢM ƠN Đầ u tiên, em xin gửi lời biế t ơn chân thành và sâu sắ c nhấ t đế n thầ y giáo PGS TS Hà Quang Thụy, người đã đô ̣ng viên, nhiê ̣t tình hướng dẫn và ta ̣o mo ̣i điề u kiê ̣n tố t nhấ t cho em hoàn thành đươc̣ luâ ̣n văn Em xin chân thành cảm ơn các thầ y cô, các anh chi ̣ em phòng thí nghiê ̣m Công nghê ̣ và tri thức đã giúp đỡ và đô ̣ng viên tinh thầ n thời gian em ho ̣c tâ ̣p và công tác Em chân thành cảm ơn quý Thầ y, Cô Khoa Công Nghê ̣ Thơng Tin nói riêng trường đa ̣i ho ̣c Công Nghê ̣ - Đa ̣i ho ̣c Quố c Gia Hà Nơ ̣i nói chung đã tâ ̣n tình truyề n đa ̣t kiế n thức quý báu quá trình ho ̣c tâ ̣p ta ̣i Trường Cuố i cùng, em xin cảm ơn người thân yêu của em, đă ̣c biê ̣t là chồ ng em đã đô ̣ng viên, ta ̣o điề u kiê ̣n tố t nhấ t cho em quá trình ho ̣c tâ ̣p và hoàn thành luâ ̣n văn Em xin chân thành cảm ơn! Luâ ̣n văn này đươc̣ thực hiê ̣n khuôn khổ đề tài Nafostef mã số : 102.052016.14 “Nghiên cứu và phát triển các mô hình ho ̣c máy tiên tiế n phát hiê ̣n và trích xuấ t mố i quan ̣ tác dụng phụ của th́ c/hóa chấ t và bê ̣nh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luâ ̣n văn tha ̣c sĩ công nghê ̣ thông tin “Phân tích liê ̣u văn bản dựa ho ̣c máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không chép la ̣i của người khác Trong toàn bô ̣ nô ̣i dung của luâ ̣n văn, điề u đã đươc̣ trình bày hoă ̣c là của chính cá nhân hoă ̣c là đươc̣ tổng hơp̣ từ nhiề u nguồ n tài liê ̣u Tấ t cả các nguồ n tài liê ̣u tham khảo đề u có xuấ t xứ rõ ràng và hơp̣ pháp Tôi xin hoàn toàn chiụ trách nhiê ̣m và chiụ mo ̣i hình thức kỷ luâ ̣t theo quy đinh ̣ cho lời cam đoan này Hà Nô ̣i, ngày 15 tháng 12 năm 2019 Ho ̣c viên Pha ̣m Thi Quỳnh ̣ Trang ii Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầ u Chương Ho ̣c máy thế giới mở và bài toán chuẩn hóa tên thực thể bê ̣nh 1.1 Ho ̣c máy truyề n thố ng 1.2 Ho ̣c máy suố t đời 1.2.1 Đinh ̣ nghĩa ho ̣c máy suố t đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Ho ̣c máy thế giới mở 12 1.4 Mục tiêu của luâ ̣n văn 15 Kế t luâ ̣n Chương 17 Chương Ho ̣c sâu thế giới mở cho văn bản 18 2.1 Ho ̣c thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường câ ̣p nhâ ̣t mơ hình ho ̣c CBS 18 2.1.2 Kiểm tra mơ hình ho ̣c CBS 20 2.1.3 Ho ̣c CBS cho phát hiê ̣n lớp chưa thấ y 20 2.2 Ho ̣c sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN lớp chuyển tiế p của DOC 22 2.2.2 Tầ ng 1- với-phầ n còn la ̣i 23 2.2.2 Giảm rủi ro không gian mở 23 Kế t luâ ̣n Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bê ̣nh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bê ̣nh 25 3.2.1 Mô hình đề xuấ t 27 Bô ̣ phân giải viế t tắ t 28 Ma ̣ng nơ ron ho ̣c sâu thế giới mở 28 Kế t luâ ̣n Chương 30 Chương 4: Thực nghiê ̣m và đánh giá 31 4.1 Dữ liê ̣u thực nghiê ̣m chuẩn hoá tên bê ̣nh 31 4.2 Môi trường và các công cụ thực nghiê ̣m 32 4.3 Kế t quả và đánh giá 32 Kế t luâ ̣n 36 Tài liê ̣u tham khảo 37 TĨM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa ho ̣c: QH-2013- I/CQ Ngành: Hê ̣ thớ ng thơng tin Tóm tắt: Ho ̣c máy suố t đời (Lifelong Machine Learning: LML) là mô ̣t tiế p câ ̣n ho ̣c máy liên tục, trić h cho ̣n và lưu giữ tri thức từ quá khứ để sử dụng giải quyế t các bài toán ho ̣c mới Ho ̣c thế giới mở, mô ̣t da ̣ng của ho ̣c máy suố t đời, có lực phát hiê ̣n các trường hơ ̣p chưa thấ y để hiǹ h thành các bài toán mới Phân lớp thế giới mở thực hiê ̣n ba bài toán thành phầ n là (i) Phát hiê ̣n thực thể mới, thuô ̣c vào các lớp hiê ̣n có, (ii) Xây dựng mô hiǹ h phân lớp cho các lớp mới, và (iii) hiêụ chin̉ h các mô hiǹ h phân lớp vớ n có để nâng cao hiêụ bơ ̣ phân lớp có thêm các lớp mới Dựa mô hiǹ h phân lớp ho ̣c sâu thế giới mở DOC (Deep Open Classification) của L Shu và cô ̣ng sự, luâ ̣n văn đề nghi ̣ mô hiǹ h ứng dụng phân lớp ho ̣c sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan ̣ văn bản y sinh Viê ̣c trić h xuấ t tự đô ̣ng tri thức từ văn bản đóng vai trò quan tro ̣ng ho ̣c ś t đời Nó bao gờ m ba bước chiń h: nhâ ̣n da ̣ng các thực thể tên, chuẩn hoá thực thể tên và phân loa ̣i quan ̣ chúng Hai bước sau thường hay xuấ t hiê ̣n các đố i tươ ̣ng mới, đă ̣c biê ̣t là lĩnh vực y sinh Các kế t quả thực nghiê ̣m bô ̣ liêụ chuẩn đã chỉ tiń h hiê ̣u quả của mô hiǹ h đề xuấ t vấ n đề nhâ ̣n da ̣ng đươ ̣c các đố i tươ ̣ng mới chưa xuấ t hiê ̣n huấ n luyê ̣n mô hiǹ h vấ n đề chuẩn hoá tên Đă ̣c biê ̣t, mơ hiǹ h chuẩn hoá thực thể tên đạt giá tri đô ̣ ̣ đo F1 = 80%, tố t của các phương pháp cùng thể loa ̣i tiń h đế n thời điểm hiê ̣n ta ̣i Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Ma ̣ng nơ ron tích châ ̣p LL Life long learning/Ho ̣c suố t đời ML Machine learning/Ho ̣c máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Đô ̣ tương tự dựa trung tâm NNO Nearest Non-Outlier/Không ngoa ̣i lai gầ n nhấ t v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ toán chuẩn hoá tên bệnh 17 Bảng 3.1 - Một ví dụ tốn chuẩn hố tên thực thể thuốc 27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh .33 Bảng 4.2: Các công cụ thực nghiệm .34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mô hình DOC chuẩn hóa thực thể tên bệnh 38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC .22 Hình 2.2: Mơ hình tổng quan DOC .23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh .28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [9] 28 vii Hình 2.2: Rủi ro khơng gian mở hàm sigmoid [13] Ước tính đô ̣ lê ̣ch chuẩn σi cả điểm hiê ̣n có và các điểm giả đươc̣ ta ̣o Trong thố ng kê, nế u mô ̣t giá tri/điểm ̣ liê ̣u nằm ngoài khoảng xung quanh kỳ vo ̣ng mô ̣t số nhấ t đinh ̣ (α =3) lầ n đô ̣ lê ̣ch chuẩn đươc̣ coi là mơ ̣t điểm ngoa ̣i lai Do đó, ngưỡng xác suấ t đươc̣ thiê ̣t lâ ̣p theo công thức ti = max (0.5, – ασi), α = Kết luận Chương Dựa mục tiêu đươc̣ đề Chương 1, Chương trình bày chi tiế t về hai phương pháp ho ̣c thế giới mở đươc̣ giới thiê ̣u gầ n đây, là: (i) mơ hình phân lớp thế giới mở dựa phương pháp ho ̣c không gian tương tự dựa trung tâm Fei và Liu đề xuấ t năm 2015 (ii) mô hình phân lớp mở dựa kỹ thuâ ̣t ho ̣c sâu (DOC) sử dụng mơ hình ho ̣c sâu Shu cô ̣ng đề xuấ t năm 2017 Cả hai phương pháp này đề u sử dụng khái niê ̣m “Rủi ro khơng gian mở” có khả giải qú t vấ n đề phát hiê ̣n liê ̣u mới chưa xuấ t hiê ̣n lúc huấ n lu ̣n mơ hình Chúng đã đươc̣ tác giả thực nghiê ̣m cho kế t quả tố t cho toán phân loa ̣i văn bản mở Tuy nhiên vẫn chưa có nghiên cứu về hiê ̣u quả ứng dụng của chúng cho toán chuẩn hóa thực thể tên, tốn quan tro ̣ng có xuấ t hiê ̣n của nhiề u tên mới (đă ̣c biê ̣t lĩnh vực y sinh), thiế t yế u viê ̣c trích xuấ t tri thức đươc̣ viế t (ở da ̣ng phi cấ u trúc) văn bản Chương tiế p theo giới thiê ̣u mơ ̣t mơ hình ứng dụng DOC vào toán chuẩn hoá quan tro ̣ng 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mơ ̣t vai trò quan tro ̣ng đớ i với các nhà nghiên cứu y sinh cũng các nhà khoa ho ̣c liê ̣u năm gầ n Nó đã giúp nhà nghiên cứu đẩy nhanh trình nghiên cứu, khám phá các tri thức mới của ho ̣, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiê ̣n rấ t tố n Lấ y ví dụ, theo [15], mô ̣t loa ̣i thuố c mấ t trung bình khoảng 14 năm và hai tỷ đô la Mỹ để đươc̣ phát triển thành công, xuấ t hiê ̣n thi ̣ trường Quá trình tố n này đươc̣ cải thiê ̣n ma ̣nh mẽ nế u các tác dụng phụ gây bê ̣nh của th́ c đươc̣ phát hiê ̣n nhanh mô ̣t cách tự đô ̣ng từ mô ̣t khố i lươṇ g khổng lồ văn bản y sinh Viê ̣c phát hiê ̣n chuẩn hóa thực thể y sinh rấ t quan tro ̣ng để khám phá quan ̣ mới, quan tro ̣ng các thuố c và các bê ̣nh không đươc̣ mô tả cùng mô ̣t bài báo y sinh [2] Chuẩn hóa thực thể tên bê ̣nh (Named Entity Normalization) là mô ̣t các phầ n thiế u ́ u của trích x́ t thơng tin, đă ̣c biê ̣t có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiê ̣n viê ̣c liên kế t mô ̣t tên bê ̣nh đươc̣ nhắ c đế n tài liê ̣u y sinh đế n đinh ̣ dang tương ứng của đươc̣ lưu sẵn bơ ̣ từ vựng y sinh hiê ̣n có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bê ̣nh có rấ t nhiề u thách thức: 1) nhâ ̣p nhằng: cùng mơ ̣t tên bê ̣nh có nhiề u đinh ̣ danh; 2) phong phú: nhiề u cách đă ̣t tên cho mô ̣t [đinh ̣ danh] bê ̣nh [9] Hơn nữa, tên bê ̣nh là đươc̣ đă ̣t tên theo nhiề u cách, tùy thuô ̣c vào vi ̣ trí giải phẫu, triê ̣u chứng, điề u tri,̣ v.v Bên ca ̣nh đó, các tên bê ̣nh thường dài phức ta ̣p, thâ ̣m chí là viế t tắ t Nhiề u nghiên cứu đã sử dụng thuâ ̣t toán dựa luâ ̣t để giải quyế t vấ n đề chuẩn hoá tên bê ̣nh, không hiê ̣u quả viê ̣c xử lý tấ t cả thuâ ̣t ngữ bê ̣nh tài liê ̣u y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đề u đề câ ̣p đế n bê ̣nh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viế t tắ t của hô ̣i chứng Kabuki (Kabuki make up syndrome) hoă ̣c hô ̣i chứng Kallmann (Kallmann syndrome), là hai hô ̣i chứng rố i loa ̣n hoàn toàn không liên quan đế n Với bài toán chuẩn hoá tên bê ̣nh, các nghiên cứu thế giới đề u sử dụng bô ̣ từ vựng MEDIC (MErged DIsease voCabulary) [4], đươc̣ trì Cơ sở liê ̣u đố i sánh 25 Toxicogenomics [4], mô ̣t ̣ CSDL về tác đô ̣ng của viê ̣c tiế p xúc với môi trường đố i với sức khỏe người MEDIC đươc̣ ta ̣o cách tích hơp̣ CSDL OMIM (Mendel trực tuyế n di truyề n người), mô ̣t bô ̣ từ vựng đươc̣ kiểm soát về các bê ̣nh di truyề n người và mô ̣t số phầ n của MeSH, là mô ̣t bô ̣ từ vựng đươc̣ tổ chức theo thứ bâ ̣c thành 16 nhánh Trong số các nhánh này, nhánh bê ̣nh và nhánh phụ của Rối loạn tâm thần nhánh Tâm lý học chứa các khái niê ̣m bê ̣nh đươc̣ sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ tốn chuẩn hoá tên thực thể thuốc MEDIC đươc̣ câ ̣p nhâ ̣t hàng tháng, hiê ̣n ta ̣i có 9.664 khái niê ̣m (đinh ̣ danh) bê ̣nh, với tổng số 67.782 tên bê ̣nh Trung bình, bê ̣nh có 7.01 tên đồ ng nghĩa, bao gồ m tên tên đờ ng nghĩa 91% bê ̣nh có tên đờ ng nghĩa với tên 47% bê ̣nh có đinh ̣ nghĩa hoă ̣c mơ tả về các khái niê ̣m này Mô ̣t ví dụ về bê ̣nh MEDIC đươc̣ đưa Hình 3.2 Bê ̣nh này có đinh ̣ danh MESH:D009369, (ban đầ u xuấ t phát từ MeSH) Bê ̣nh có tên Neoplasms, tên hay đươc̣ sử dụng, và chín thuâ ̣t ngữ khác đờ ng nghĩa Có thể thấ y các th ̣t ngữ từ đờ ng nghĩa là tên thay thế cho tên chính, hoă ̣c là các biế n thể của tên chính hoă ̣c các từ đồ ng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong mơ ̣t sớ trường hơp̣ , cũng là từ viế t tắ t của các tên khác của bê ̣nh, hoă ̣c tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mơ hình đề xuất Tổng quan về mô hình đề xuấ t đươc̣ minh ho ̣a Hình 3.3 Nó là mơ ̣t mơ hình đường ố ng bao gồ m ba thành phầ n: • Mô đun tiề n xử lý và phân giải viế t tắ t • Mơ-đun khớp từ điển để đẩy nhanh viê ̣c chuẩn hoá • Ma ̣ng nơ ron ho ̣c sâu thế giới mở để chuẩn hoá tên bê ̣nh (không đươc̣ tìm thấ y từ điển) thành đinh ̣ danh của bơ ̣ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liê ̣u y sinh, có rấ t nhiề u thực thể tên bê ̣nh dài, và thường đươc̣ go ̣i cách sử dụng các từ viế t tắ t Khơng có mơ ̣t quy tắ c thớ ng nhấ t nào để phân giải đươc̣ từ viế t tắ t thành tên đầ y đủ tài liê ̣u khác mơ ̣t từ viế t tắ t có ý nghĩa khác và/ngươc̣ la ̣i các từ khác có cùng ý nghĩa Đớ i với các thực thể tên bê ̣nh, luâ ̣n văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viế t tắ t Ab3p đươc̣ sử dụng để xác đinh ̣ từ viế t tắ t tài liê ̣u và đưa danh sách các từ đầ y đủ cho cùng với xác suấ t kèm Ví dụ, nế u thực thể PFS xuấ t hiê ̣n tài liê ̣u, Ab3P phát hiê ̣n trả về kế t quả: PFS| progression-free survival (sống sót không có tiến triển) | 0.999408; PFS tên viế t tắ t, progression-free survival là tên đầ y đủ và 0,999408 là xác suấ t của tên viết tắ t cho tên đầ y đủ Ngồi ra, để phục vụ cho mơ đun tìm kiế m từ điển, các tên bê ̣nh (đươc̣ đề câ ̣p văn bản cũng tâ ̣p từ vựng MEDIC) đươc̣ chuyển về chữ thường Các ký tự chấ m câu và các ký tự đă ̣c biê ̣t bi ̣ loa ̣i bỏ Các tên đươc̣ chuyển về da ̣ng gớ c của công cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bê ̣nh m tài liê ̣u đươc̣ gán nhãn đinh ̣ danh IDm, ta ̣o ra:  Mô ̣t tâ ̣p Nm+ gồ m các tên bê ̣nh từ vựng (n+) có nhãn đinh ̣ danh là IDm Că ̣p đươc̣ xem là mô ̣t ví dụ dương  Mô ̣t tâ ̣p Nm-, có kích cỡ của Nm+, gồ m các tên bê ̣nh từ vựng (n-) mà khơng có nhañ đinh ̣ danh là IDm Các tên bê ̣nh n- này là tên giố ng với m nhấ t, đươc̣ tính theo đô ̣ đo tích vơ hướng của vector TF-IDF(m) TFIDF(n-), TF-IDF(.) là vector tầ n số từ-tầ n số tài liê ̣u ngươc̣ Că ̣p đươc̣ xem là mô ̣t ví dụ âm Đă ̣t M = {m1, m2, , mn} tâ ̣p chứa tấ t cả các thực thể tên bê ̣nh xuấ t hiê ̣n văn bản tâ ̣p huấ n luyê ̣n Tâ ̣p liê ̣u huấ n luyê ̣n dương và âm (tương ứng gồ m các că ̣p ví dụ dương và âm) đươc̣ ta ̣o từ tấ t cả các thực thể mi M Điề u tương tự cũng đươc̣ ta ̣o cho tấ t cả văn bản tâ ̣p liê ̣u kiểm đinh ̣ (Validation) để tinh chỉnh mơ hình 28 Luâ ̣n văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa ma ̣ng nơ ron tích châ ̣p (CNN) Cho và cô ̣ng giới thiê ̣u năm 2017 [3] Luâ ̣n văn ứng dụng ho ̣c thế giới mở cách thay tầ ng softmax cuố i cùng tầ ng 1-so-với-còn la ̣i sigmoids, đươc̣ sử dụng mô hình DOC Mô hình Cho và cô ̣ng giới thiê ̣u nhâ ̣n đầ u vào là tâ ̣p Nm+ Nm- đươc̣ mô tả Mỗi mô ̣t că ̣p đươc̣ qua tầ ng nhúng từ (embedding) để ta ̣o ma trâ ̣n các vector biễu diễn cho các từ mention m và tên (name) n Ở tầ ng tích chập (convolution) tiế p theo các bô ̣ lo ̣c (filter) với kích thước khác đươc̣ áp dụng đô ̣c lâ ̣p mention m và tên n để ta ̣o các bản đồ đă ̣c trưng châ ̣p (convolution feature maps) Các bản đồ đă ̣c trưng m và n đươc̣ qua hai tầ ng pooling trước đươc̣ gô ̣p la ̣i với ta ̣i tầ ng gô ̣p (join layer) Ngoài ra, đầ u của hai tầ ng pooling còn đươc̣ qua tầ ng so khớp giố ng (similarity matching) để ta ̣o mô ̣t đă ̣c trưng thể hiê ̣n giố ng của m và n Đă ̣c trưng này cũng đươc̣ gô ̣p vào với đă ̣c trưng pooling tầng gô ̣p Đầ u từ tầ ng gô ̣p đươc̣ cho qua mô ̣t tầ ng ẩn kế t nố i đầ y đủ trước cho qua tầ ng softmax cuố i cùng Kiế n trúc tổng thể của mô hình của Cho và cô ̣ng đươc̣ thể hiê ̣n Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiê ̣u mơ ̣t mơ hình ứng dụng DOC vào toán quan tro ̣ng, thiế t ́ u cho q trình trích x́ t tự đô ̣ng tri thức (đươc̣ viế t dưới da ̣ng phi cấ u trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bênh ̣ Đây là bài toán thường có xuấ t hiê ̣n của các đố i tươṇ g liê ̣u thuô ̣c lớp mới chưa xuấ t hiê ̣n lúc huấ n luyê ̣n mô hình, đă ̣c biê ̣t là lĩnh vực y sinh Chương sau trình bày kế t quả thực nghiê ̣m của mơ hình ứng dụng 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiê ̣m vào bài toán chuẩn hoá tên thực thể thuố c (disease normalization) với bô ̣ liê ̣u chuẩn NCBI disease nhóm nghiên cứu từ bô ̣ khoa ho ̣c công nghê ̣ sinh ho ̣c Mỹ (NCBI) cung cấ p Đây là bô ̣ liê ̣u chuẩn vàng đươc̣ sử dụng các mô hình chuẩn hoá tên thực thể bê ̣nh khác thế giới Bô ̣ liê ̣u gồ m tâ ̣p con: tâ ̣p train, tâ ̣p development, tâ ̣p test có sớ lươṇ g abstract (tóm tắ t bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lươṇ g các disease mentions (các đoa ̣n text tên bê ̣nh), và số lươṇ g tên bê ̣nh khác đươc̣ cho sau: Corpus NCBI Subset Articles Mentions Uniques Training 593 5145 1710 Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mô hình đề xuấ t của luâ ̣n văn sử dụng vector biễu diễn từ có 300 chiề u, đươc̣ cung cấ p miễn phí (gờ m triê ̣u từ khác nhau) Pyysalo cô ̣ng [11] ho ̣ huấ n luyê ̣n mô hình word2vec tâ ̣p tấ t cả các văn bản tóm tắ t CSDL PubMed toàn văn CSDL PMC [11] Có 59/203 (30%) mã đinh ̣ danh (IDs) tâ ̣p test không xuấ t hiê ̣n tâ ̣p train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiê ̣u chi tiế t về công cụ, môi trường và phầ n mề m thực nghiê ̣m STT Phầ n mềm Ý nghĩa Nguồn Pycharm Môi trường phát triển https://www.jetbrains.com/pycharm Python 2.7 Ngôn ngữ phát triển https://www.python.org/ Tensorflow Thư viê ̣n cho ho ̣c sâu Sklearn Thư viê ̣n hỗ trơ ̣ các công cụ ho ̣c máy https://www.tensorflow.org/ http://scikit-learn.org/ Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình đươc̣ đánh giá và so sánh dựa đô ̣ đo F1 mức mã đinh ̣ danh Giả sử tâ ̣p {A, B, C, D} là tâ ̣p tấ t cả các đinh ̣ danh khác đươc̣ gán cho tấ t cả các tên bê ̣nh tâ ̣p kiểm tra và tâ ̣p {A, B, E, F} là tâ ̣p tấ t cả các đinh ̣ danh khác đươc̣ dự đoán mô hình cho tấ t cả các tên bê ̣nh tâ ̣p kiểm tra Khi A và B là TP (True Positive), C D FN (False Negative), E F FP (False Positive) Mô hình đươc̣ cho cha ̣y 20 lầ n và micro F1 đươc̣ tính để đo hiê ̣u quả của mô hình Sử dụng sigmoids (100% nhan ̣ luâ ̣n văn thu ̃ ), và cả ngưỡng T=0.5 mă ̣c đinh đươc̣ đô ̣ đo trung bình F1=78% Dùng công thức điề u chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rấ t nhỏ (=0.09) nên Ti vẫn 0.5 mă ̣c đinh ̣ cho sigmoids), luâ ̣n văn vẫn thu đươc̣ F1 trung bình 78% (xem Bảng 4.5) Kế t quả này xấ p xỉ với kế t của của mô hình chuẩn hoá thực thể tên bê ̣nh của [3] 32 100% Ti=0.5 mă ̣c đinh ̣ Ti = max(0.5; – 3*std) Ti = max(0; - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hơp̣ kế t quả mô hình DOC chuẩn hoá thực thể tên bê ̣nh Luâ ̣n văn đã sử dụng công thức điề u chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu đươc̣ ngưỡng mới T1 = 0,09 T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bê ̣nh của luâ ̣n văn đa ̣t trung bình F1 = 78.6% Thực nghiê ̣m với sigmoid, mô hình chuẩn hoá thực thể tên bê ̣nh của luâ ̣n văn có khả đa ̣t tới giá tri ̣ trung bình F1 = 80.2%, tố t kế t quả của mơ hình Cho và ̣ng sự, mơ hình tớ t nhấ t đế n thời điểm hiê ̣n ta ̣i và cùng thể loa ̣i với mô hình đề xuấ t của luâ ̣n văn Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mơ hình luận văn 80.2% Cho & cô ̣ng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cô ̣ng sự, 2019 [10] 87.7% Bảng 4.6 Kết thực nghiệm so sánh Mô hình đề xuấ t của luâ ̣n văn hiê ̣n có kế t quả chuẩn hoá tên thực thể bê ̣nh hai mô hình chuẩn hoá tên thực thể bê ̣nh đươc̣ giới thiê ̣u gầ n nhấ t (2019) của Wright 33 [16] và Phan & cô ̣ng [10] Tuy vâ ̣y, khác với mô hình đề xuấ t của luâ ̣n văn, cả hai mô hình đề u sử dụng thêm thông tin biểu diễn các tên bê ̣nh từ viê ̣c tích hơp̣ thêm bô ̣ mã hoá dựa ma ̣ng nơ ron hồ i quy hai chiề u bidirectional Long Short Term Memory Với thực nghiê ̣m sử dụng phiên bản rút go ̣n của bô ̣ từ vựng MEDIC tức tâ ̣p từ vựng chỉ chứa các ID bê ̣nh (cùng các tên đồ ng nghĩa) xuấ t hiê ̣n tâ ̣p train+dev Dùng sigmoid mô hình luâ ̣n văn cho kế t quả micro F1 = 76.1 phát hiê ̣n 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiê ̣u về mô ̣t bô ̣ liê ̣u chuẩn vàng mà mơ hình ứng dụng Chương đươc̣ thực nghiê ̣m Các kế t quả thực nghiê ̣m, với so sánh và đánh giá đươc̣ giới thiê ̣u, chứng tỏ hiê ̣u quả của mơ hình ứng dụng ho ̣c thế giới mở dựa kỹ thuâ ̣t ho ̣c sâu tốn chuẩn hóa thực thể tên bê ̣nh 35 Kết luận Luâ ̣n văn đã trình bày chi tiế t về Ho ̣c máy thế giới mở, là mô ̣t nô ̣i dung quan trọng của lĩnh vực ho ̣c máy suố t đời Ho ̣c máy thế giới mở không yêu cầ u giả đinh ̣ thế giới đóng; có khả phát hiê ̣n các trường hơp̣ của các lớp không nhìn thấ y quá trình thử nghiê ̣m hoă ̣c ứng dụng mô hình, và tăng dầ n các lớp mới để câ ̣p nhâ ̣t các lớp mới mô hình mà không đào ta ̣o la ̣i toàn bô ̣ mơ hình từ đầ u L ̣n văn đã trình bày mô ̣t mô hình đề xuấ t ứng dụng ho ̣c thế giới mở dựa kỹ thuâ ̣t ho ̣c sâu (cụ thể là ma ̣ng nơ ron tích châ ̣p CNN) cho bài toán chuẩn hoá thực thể tên (là vấ n đề gă ̣p nhiề u đố i tươṇ g mới) Chuẩn hoá tên thực thể có rấ t nhiề u thách thức, đã và nhâ ̣n đươc̣ nhiề u quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luâ ̣n văn đã cho ̣n miề n văn bản y sinh là miề n ứng dụng có rấ t nhiề u tên mới xuấ t hiê ̣n Bài toán chuẩn hoá thể bê ̣nh tên bê ̣nh là vấ n đề có nhiề u ý nghĩa cho ̣ng đờ ng nghiên cứu y-sinh-dươc̣ Các kế t quả thực nghiê ̣m bô ̣ liê ̣u chuẩn tên bê ̣nh đã chỉ tính hiê ̣u quả của mô hình đề xuấ t vấ n đề nhâ ̣n da ̣ng đươc̣ các tên mới chưa xuấ t hiê ̣n h́ n lụn mơ hình vấ n đề chuẩn hoá thực thể tên bê ̣nh Đă ̣c biê ̣t, mô hình chuẩn hoá thực thể tên đa ̣t giá tri ̣ ̣ đo F1 = 80%, tố t của các phương pháp cùng thể loa ̣i tính đế n thời điểm hiê ̣n ta ̣i Trong năm 2019 có hai cơng trình mới nhấ t đã đươc̣ giới thiê ̣u cho bài toán chuẩn hóa thực thể tên bê ̣nh từ y văn với kế t quả rấ t ấ n tươṇ g (F1=90%) Tuy vâ ̣y, cả hai mô hình mới này đề u khơng có khả phát hiê ̣n các tên mới chưa xuấ t hiê ̣n lúc ho ̣c Chúng sử dụng thêm ma ̣ng BiLSTM để nâng cao hiê ̣u mô hình Mô ̣t hướng nghiên cứu tiế p theo khả quan của luâ ̣n án là tích hơp̣ BiLSTM vào mơ hình thê giới mở dựa kỹ thuâ ̣t ho ̣c sâu chuẩn hóa tên bê ̣nh của l ̣n văn Ć i cùng, tiế p tục cải tiế n mơ hình phân lớp mở quan ̣ sử dụng các kỹ thuâ ̣t ho ̣c sâu (thế giới đóng) mới nhấ t cũng là mô ̣t hướng nghiên cứu khả quan tiế p theo của luâ ̣n văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLT-NAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 10 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) 11 Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 12 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 13 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 14 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 15 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY... giới mở dựa kỹ thuâ ̣t ho ̣c sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cô ̣ng [5] đã giới thiê ̣u mô ̣t mô hình phân lớp thế giới mở dựa. .. t luâ ̣n 36 Tài liê ̣u tham khảo 37 TĨM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa ho ̣c: QH-2013- I/CQ Ngành: Hê ̣ thớ ng thơng

Ngày đăng: 27/03/2023, 08:27