Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019 LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS TS Hà Quang Thụy, người đã động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt nhất cho em hoàn thành được luận văn Em xin chân thành cảm ơn các thầy cô, các anh chị em phòng thí nghiệm Công nghệ và tri thức đã giúp đỡ và động viên tinh thần thời gian em học tập và công tác Em chân thành cảm ơn quý Thầy, Cơ Khoa Cơng Nghệ Thơng Tin nói riêng và trường đại học Công Nghệ - Đại học Quốc Gia Hà Nợi nói chung đã tận tình trùn đạt kiến thức quý báu quá trình học tập tại Trường Cuối cùng, em xin cảm ơn người thân yêu của em, đặc biệt là chồng em đã động viên, tạo điều kiện tốt nhất cho em quá trình học tập và hoàn thành luận văn Em xin chân thành cảm ơn! Luận văn này được thực hiện khuôn khổ đề tài Nafostef mã số: 102.052016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất mối quan hệ tác dụng phụ của th́c/hóa chất và bệnh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Phân tích liệu văn bản dựa học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không chép lại của người khác Trong toàn bộ nội dung của luận văn, điều đã được trình bày hoặc là của chính cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này Hà Nội, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu Chương Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh 1.1 Học máy truyền thống 1.2 Học máy suốt đời 1.2.1 Định nghĩa học máy suốt đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Học máy thế giới mở 12 1.4 Mục tiêu của luận văn 15 Kết luận Chương 17 Chương Học sâu thế giới mở cho văn bản 18 2.1 Học thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mô hình học CBS 18 2.1.2 Kiểm tra mô hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2 Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN và các lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro không gian mở 23 Kết luận Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh 25 3.2.1 Mô hình đề xuất 27 Bộ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 30 Chương 4: Thực nghiệm và đánh giá 31 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh 31 4.2 Môi trường và các công cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tóm tắt: Học máy śt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng giải quyết các bài toán học mới Học thế giới mở, một dạng của học máy suốt đời, có lực phát hiện các trường hợp chưa thấy để hình thành các bài toán mới Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện thực thể mới, tḥc vào các lớp hiện có, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn có để nâng cao hiệu bợ phân lớp có thêm các lớp mới Dựa mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ văn bản y sinh Việc trích xuất tự đợng tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh Các kết quả thực nghiệm bộ liệu chuẩn đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các đối tượng mới chưa xuất hiện huấn luyện mô hình và vấn đề chuẩn hoá tên Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM CNN LL ML DOC CBS NNO v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ tốn chuẩn hố tên bệnh .17 Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh .33 Bảng 4.2: Các công cụ thực nghiệm 34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mơ hình DOC chuẩn hóa thực thể tên bệnh .38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hoá thực thể tên bệnh 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [9] 28 vii Hình 2.2: Rủi ro khơng gian mở hàm sigmoid [13] Ước tính độ lệch chuẩn σi cả điểm hiện có và các điểm giả được tạo Trong thống kê, nếu một giá trị/điểm liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn được coi là một điểm ngoại lai Do đó, ngưỡng xác śt được thiệt lập theo cơng thức t i = max (0.5, – ασi), đóα=3 Kết luận Chương Dựa mục tiêu được đề Chương 1, Chương trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, là: (i) mơ hình phân lớp thế giới mở dựa phương pháp học không gian tương tự dựa trung tâm Fei và Liu đề xuất năm 2015 và (ii) mô hình phân lớp mở dựa ky thuật học sâu (DOC) sử dụng mô hình học sâu Shu và cộng đề xuất năm 2017 Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro khơng gian mở” có khả giải quyết vấn đề phát hiện các liệu mới chưa xuất hiện lúc huấn luyện mô hình Chúng đã được các tác giả thực nghiệm và cho kết quả tốt cho bài toán phân loại văn bản mở Tuy nhiên vẫn chưa có nghiên cứu nào về hiệu quả ứng dụng của chúng cho bài toán chuẩn hóa thực thể tên, là bài toán quan trọng có xuất hiện của nhiều tên mới (đặc biệt lĩnh vực y sinh), thiết yếu việc trích xuất tri thức được viết (ở dạng phi cấu trúc) văn bản Chương tiếp theo giới thiệu một mô hình ứng dụng DOC vào bài toán chuẩn hoá quan trọng này 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mợt vai trò quan trọng đối với các nhà nghiên cứu y sinh cũng các nhà khoa học liệu năm gần Nó đã giúp các nhà nghiên cứu đẩy nhanh quá trình nghiên cứu, khám phá các tri thức mới của họ, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiện rất tốn Lấy ví dụ, theo [15], một loại thuốc mất trung bình khoảng 14 năm và hai tỷ đô la My để được phát triển thành công, xuất hiện thị trường Quá trình tớn này được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của th́c được phát hiện nhanh một cách tự động từ một khối lượng khổng lồ văn bản y sinh Việc phát hiện và chuẩn hóa thực thể y sinh là rất quan trọng để khám phá các quan hệ mới, quan trọng các thuốc và các bệnh không được mô tả cùng mợt bài báo y sinh [2] Chuẩn hóa thực thể tên bệnh (Named Entity Normalization) là một các phần thiếu yếu của trích xuất thông tin, đặc biệt có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiện việc liên kết một tên bệnh được nhắc đến tài liệu y sinh đến định dang tương ứng của được lưu sẵn các bộ từ vựng y sinh hiện có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bệnh có rất nhiều thách thức: 1) nhập nhằng: cùng mợt tên bệnh có nhiều định danh; 2) phong phú: nhiều cách đặt tên cho một [định danh] bệnh [9] Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuộc vào vị trí giải phẫu, triệu chứng, điều trị, v.v Bên cạnh đó, các tên bệnh thường dài và phức tạp, thậm chí là viết tắt Nhiều nghiên cứu đã sử dụng thuật toán dựa luật để giải quyết vấn đề chuẩn hoá tên bệnh, không hiệu quả việc xử lý tất cả thuật ngữ bệnh các tài liệu y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viết tắt của hợi chứng Kabuki (Kabuki make up syndrome) hoặc hội chứng Kallmann (Kallmann syndrome), là hai hội chứng rối loạn hoàn toàn không liên quan đến Với bài toán chuẩn hoá tên bệnh, các nghiên cứu thế giới đều sử dụng bộ từ vựng MEDIC (MErged DIsease voCabulary) [4], được trì Cơ sở liệu đối sánh 25 Toxicogenomics [4], một hệ CSDL về tác động của việc tiếp xúc với môi trường đối với sức khỏe người MEDIC được tạo cách tích hợp CSDL OMIM (Mendel trực tuyến di truyền người), một bộ từ vựng được kiểm soát về các bệnh di truyền người và một số phần của MeSH, là một bộ từ vựng được tổ chức theo thứ bậc thành 16 nhánh Trong số các nhánh này, nhánh bệnh và nhánh phụ của Rối loạn tâm thần và nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input lidocaine depression bradyarrhythmias Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc MEDIC được cập nhật hàng tháng, hiện tại có 9.664 khái niệm (định danh) bệnh, với tổng số 67.782 tên bệnh Trung bình, bệnh có 7.01 tên đờng nghĩa, bao gồm các tên chính và các tên đồng nghĩa 91% bệnh có tên đờng nghĩa với các tên chính và 47% bệnh có định nghĩa hoặc mơ tả về các khái niệm này Một ví dụ về bệnh MEDIC được đưa Hình 3.2 Bệnh này có định danh là MESH:D009369, (ban đầu xuất phát từ MeSH) Bệnh này có tên chính là Neoplasms, là tên hay được sử dụng, và chín thuật ngữ khác đồng nghĩa Có thể thấy các tḥt ngữ từ đờng nghĩa là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đồng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong mợt sớ trường hợp, cũng là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mô hình đề xuất Tổng quan về mơ hình đề x́t được minh họa Hình 3.3 Nó là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt • Mô-đun khớp từ điển để đẩy nhanh việc chuẩn hoá • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy từ điển) thành định danh của bợ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi cách sử dụng các từ viết tắt Khơng có mợt quy tắc thớng nhất nào để phân giải được từ viết tắt thành tên đầy đủ vì các tài liệu khác mợt từ viết tắt có ý nghĩa khác và/ngược lại các từ khác có cùng ý nghĩa Đới với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt Ab3p được sử dụng để xác định từ viết tắt tài liệu và đưa danh sách các từ đầy đủ cho cùng với xác suất kèm Ví dụ, nếu thực thể PFS xuất hiện tài liệu, Ab3P phát hiện và trả về kết quả: PFS| progression-free survival (sống sót không có tiến triển) | 0.999408; PFS là tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt là cho tên đầy đủ Ngoài ra, để phục vụ cho mô đun tìm kiếm từ điển, các tên bệnh (được đề cập văn bản cũng tập từ vựng MEDIC) được chuyển về chữ thường Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ Các tên được chuyển về dạng gớc của cơng cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bệnh m tài liệu được gán nhãn định danh IDm, tạo ra: Một tập Nm+ gồm các tên bệnh từ vựng (n+) có nhãn định danh là IDm Cặp được xem là một ví dụ dương Mợt tập Nm-, có kích cỡ của Nm+, gồm các tên bệnh từ vựng (n-) mà nhãn định danh là IDm Các tên bệnh n- này là tên giống với m nhất, được tính theo độ đo tích vô hướng của vector TF-IDF(m) và TFIDF(n-), TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược Cặp được xem là một ví dụ âm Đặt M = {m1, m2, , mn} là tập chứa tất cả các thực thể tên bệnh xuất hiện văn bản tập huấn luyện Tập liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo từ tất cả các thực thể m i M Điều tương tự cũng được tạo cho tất cả văn bản tập liệu kiểm định (Validation) để tinh chỉnh mô hình 28 Luận văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập (CNN) Cho và cộng giới thiệu năm 2017 [3] Luận văn ứng dụng học thế giới mở cách thay tầng softmax cuối cùng tầng 1-so-với-còn lại sigmoids, được sử dụng mô hình DOC Mô hình Cho và cộng giới thiệu nhận đầu vào là tập Nm+ Nm- được mô tả Mỗi một cặp được qua tầng nhúng từ (embedding) để tạo ma trận các vector biễu diễn cho các từ mention m và tên (name) n Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác được áp dụng độc lập mention m và tên n để tạo các bản đồ đặc trưng chập (convolution feature maps) Các bản đồ đặc trưng m và n được qua hai tầng pooling trước được gộp lại với tại tầng gộp (join layer) Ngoài ra, đầu của hai tầng pooling còn được qua tầng so khớp giống (similarity matching) để tạo một đặc trưng thể hiện giống của m và n Đặc trưng này cũng được gộp vào với đặc trưng pooling tầng gộp Đầu từ tầng gộp được cho qua một tầng ẩn kết nối đầy đủ trước cho qua tầng softmax cuối cùng Kiến trúc tổng thể của mô hình của Cho và cộng được thể hiện Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiệu một mô hình ứng dụng DOC vào bài toán quan trọng, thiết yếu cho quá trình trích xuất tự động tri thức (được viết dưới dạng phi cấu trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bệnh Đây là bài toán thường có xuất hiện của các đối tượng liệu thuộc lớp mới chưa xuất hiện lúc huấn luyện mô hình, đặc biệt là lĩnh vực y sinh Chương sau trình bày kết quả thực nghiệm của mô hình ứng dụng này 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuốc (disease normalization) với bộ liệu chuẩn NCBI disease nhóm nghiên cứu từ bợ khoa học cơng nghệ sinh học My (NCBI) cung cấp Đây là bộ liệu chuẩn vàng được sử dụng các mô hình chuẩn hoá tên thực thể bệnh khác thế giới Bộ liệu gồm tập con: tập train, tập development, tập test có sớ lượng abstract (tóm tắt bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lượng các disease mentions (các đoạn text tên bệnh), và số lượng tên bệnh khác được cho sau: Corpus NCBI Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mô hình đề xuất của luận văn sử dụng các vector biễu diễn từ có 300 chiều, được cung cấp miễn phí (gờm triệu từ khác nhau) Pyysalo và cộng [11] họ huấn luyện mô hình word2vec tập tất cả các văn bản tóm tắt CSDL PubMed và các toàn văn CSDL PMC [11] Có 59/203 (30%) mã định danh (IDs) tập test không xuất hiện tập train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiệu chi tiết về công cụ, môi trường và phần mềm thực nghiệm STT Phần mềm Pycharm Python 2.7 Tensorflow Sklearn Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình được đánh giá và so sánh dựa độ đo F1 mức mã định danh Giả sử tập {A, B, C, D} là tập tất cả các định danh khác được gán cho tất cả các tên bệnh tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác được dự đoán mô hình cho tất cả các tên bệnh tập kiểm tra Khi A và B là TP (True Positive), C và D là FN (False Negative), E và F là FP (False Positive) Mô hình được cho chạy 20 lần và micro F1 được tính để đo hiệu quả của mô hình Sử dụng sigmoids (100% nhãn), và cả ngưỡng T=0.5 mặc định luận văn thu được độ đo trung bình F1=78% Dùng công thức điều chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn 0.5 mặc định cho sigmoids), luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5) Kết quả này xấp xỉ với kết của của mô hình chuẩn hoá thực thể tên bệnh của [3] 32 100% F1 Bảng 4.5: Bảng tổng hợp kết quả mô hình DOC chuẩn hoá thực thể tên bệnh Luận văn đã sử dụng công thức điều chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu được ngưỡng mới là T1 = 0,09 và T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6% Thực nghiệm với sigmoid, mô hình chuẩn hoá thực thể tên bệnh của luận văn có khả đạt tới giá trị trung bình F1 = 80.2%, tốt kết quả của mô hình Cho và cộng sự, là mô hình tốt nhất đến thời điểm hiện tại và cùng thể loại với mô hình đề xuất của luận văn Model Chỉ sử dụng Khớp từ điển Mơ hình luận văn Cho & cộng sự, 2017 [3] Wright, 2019 [16] Phan & cộng sự, 2019 [10] Bảng 4.6 Kết thực nghiệm so sánh Mô hình đề xuất của luận văn hiện có kết quả chuẩn hoá tên thực thể bệnh hai mô hình chuẩn hoá tên thực thể bệnh được giới thiệu gần nhất (2019) của Wright 33 [16] và Phan & cộng [10] Tuy vậy, khác với mô hình đề xuất của luận văn, cả hai mô hình này đều sử dụng thêm thông tin biểu diễn các tên bệnh từ việc tích hợp thêm bộ mã hoá dựa mạng nơ ron hồi quy hai chiều bidirectional Long Short Term Memory Với thực nghiệm sử dụng phiên bản rút gọn của bộ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đồng nghĩa) xuất hiện tập train+dev Dùng sigmoid mô hình luận văn cho kết quả micro F1 = 76.1 và phát hiện 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiệu về một bộ liệu chuẩn vàng mà mô hình ứng dụng Chương được thực nghiệm Các kết quả thực nghiệm, cùng với các so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mô hình ứng dụng học thế giới mở dựa ky thuật học sâu bài toán chuẩn hóa thực thể tên bệnh 35 Kết luận Luận văn đã trình bày chi tiết về Học máy thế giới mở, là một nội dung quan trọng của lĩnh vực học máy suốt đời Học máy thế giới mở khơng u cầu giả định thế giới đóng; có khả phát hiện các trường hợp của các lớp không nhìn thấy quá trình thử nghiệm hoặc ứng dụng mô hình, và tăng dần các lớp mới để cập nhật các lớp mới mô hình mà không đào tạo lại toàn bộ mô hình từ đầu Luận văn đã trình bày một mô hình đề xuất ứng dụng học thế giới mở dựa ky thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đối tượng mới) Chuẩn hoá tên thực thể có rất nhiều thách thức, đã và nhận được nhiều quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luận văn đã chọn miền văn bản y sinh là miền ứng dụng có rất nhiều tên mới xuất hiện Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề có nhiều ý nghĩa cho cộng đồng nghiên cứu y-sinh-dược Các kết quả thực nghiệm bộ liệu chuẩn tên bệnh đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các tên mới chưa xuất hiện huấn luyện mô hình và vấn đề chuẩn hoá thực thể tên bệnh Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị độ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Trong năm 2019 có hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hóa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%) Tuy vậy, cả hai mô hình mới này đều khơng có khả phát hiện các tên mới chưa xuất hiện lúc học Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu mô hình Một hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vào mô hình thê giới mở dựa ky thuật học sâu chuẩn hóa tên bệnh của luận văn Cuối cùng, tiếp tục cải tiến mô hình phân lớp mở quan hệ sử dụng các ky thuật học sâu (thế giới đóng) mới nhất cũng là một hướng nghiên cứu khả quan tiếp theo của luận văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & 10 11 12 13 14 15 Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLTNAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY... giới mở dựa ky thuật học sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cộng [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa phương... hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM CNN LL ML DOC CBS NNO v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví

Định dạng
Số trang	48
Dung lượng	263,83 KB

Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng​

Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng