Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
263,83 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Hà Nội, 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019 LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS TS Hà Quang Thụy, người đã động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt nhất cho em hoàn thành được luận văn Em xin chân thành cảm ơn các thầy cô, các anh chị em phòng thí nghiệm Công nghệ và tri thức đã giúp đỡ và động viên tinh thần thời gian em học tập và công tác Em chân thành cảm ơn quý Thầy, Cơ Khoa Cơng Nghệ Thơng Tin nói riêng và trường đại học Công Nghệ - Đại học Quốc Gia Hà Nợi nói chung đã tận tình trùn đạt kiến thức quý báu quá trình học tập tại Trường Cuối cùng, em xin cảm ơn người thân yêu của em, đặc biệt là chồng em đã động viên, tạo điều kiện tốt nhất cho em quá trình học tập và hoàn thành luận văn Em xin chân thành cảm ơn! Luận văn này được thực hiện khuôn khổ đề tài Nafostef mã số: 102.052016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất mối quan hệ tác dụng phụ của th́c/hóa chất và bệnh từ văn bản y-sinh”, năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Phân tích liệu văn bản dựa học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi, không chép lại của người khác Trong toàn bộ nội dung của luận văn, điều đã được trình bày hoặc là của chính cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này Hà Nội, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu Chương Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh 1.1 Học máy truyền thống 1.2 Học máy suốt đời 1.2.1 Định nghĩa học máy suốt đời 1.2.2 Các hướng nghiên cứu LL 12 1.3 Học máy thế giới mở 12 1.4 Mục tiêu của luận văn 15 Kết luận Chương 17 Chương Học sâu thế giới mở cho văn bản 18 2.1 Học thế giới mở không gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mô hình học CBS 18 2.1.2 Kiểm tra mô hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2 Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN và các lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro không gian mở 23 Kết luận Chương 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 25 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh 25 3.2.1 Mô hình đề xuất 27 Bộ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 30 Chương 4: Thực nghiệm và đánh giá 31 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh 31 4.2 Môi trường và các công cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37 TÓM TẮT Phân tích liệu văn dựa học máy giới mở ứng dụng Phạm Thị Quỳnh Trang Khóa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tóm tắt: Học máy śt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục, trích chọn và lưu giữ tri thức từ quá khứ để sử dụng giải quyết các bài toán học mới Học thế giới mở, một dạng của học máy suốt đời, có lực phát hiện các trường hợp chưa thấy để hình thành các bài toán mới Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện thực thể mới, tḥc vào các lớp hiện có, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn có để nâng cao hiệu bợ phân lớp có thêm các lớp mới Dựa mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ văn bản y sinh Việc trích xuất tự đợng tri thức từ văn bản đóng vai trò quan trọng học śt đời Nó bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ chúng Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt là lĩnh vực y sinh Các kết quả thực nghiệm bộ liệu chuẩn đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các đối tượng mới chưa xuất hiện huấn luyện mô hình và vấn đề chuẩn hoá tên Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị đợ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM CNN LL ML DOC CBS NNO v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ tốn chuẩn hố tên bệnh .17 Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc …………………….27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh .33 Bảng 4.2: Các công cụ thực nghiệm 34 Bảng 4.3: So sánh kết sử dụng dữ liệu câu dữ liệu SDP số lớp biết khác tập dữ liệu SemEval-2010 Task 37 Bảng 4.4: Tổng hợp kết mơ hình DOC chuẩn hóa thực thể tên bệnh .38 Bảng 4.5: Kết thực nghiệm so sánh 38 vi DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển Hình 2.1: Kiến trúc tổng quan hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 27 Hình 3.1: Mơ hình đường ống chuẩn hoá thực thể tên bệnh 28 Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập Cho cợng đề xuất [9] 28 vii Hình 2.2: Rủi ro khơng gian mở hàm sigmoid [13] Ước tính độ lệch chuẩn σi cả điểm hiện có và các điểm giả được tạo Trong thống kê, nếu một giá trị/điểm liệu nằm ngoài khoảng xung quanh kỳ vọng một số nhất định (α =3) lần độ lệch chuẩn được coi là một điểm ngoại lai Do đó, ngưỡng xác śt được thiệt lập theo cơng thức t i = max (0.5, – ασi), đóα=3 Kết luận Chương Dựa mục tiêu được đề Chương 1, Chương trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần đây, là: (i) mơ hình phân lớp thế giới mở dựa phương pháp học không gian tương tự dựa trung tâm Fei và Liu đề xuất năm 2015 và (ii) mô hình phân lớp mở dựa ky thuật học sâu (DOC) sử dụng mô hình học sâu Shu và cộng đề xuất năm 2017 Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro khơng gian mở” có khả giải quyết vấn đề phát hiện các liệu mới chưa xuất hiện lúc huấn luyện mô hình Chúng đã được các tác giả thực nghiệm và cho kết quả tốt cho bài toán phân loại văn bản mở Tuy nhiên vẫn chưa có nghiên cứu nào về hiệu quả ứng dụng của chúng cho bài toán chuẩn hóa thực thể tên, là bài toán quan trọng có xuất hiện của nhiều tên mới (đặc biệt lĩnh vực y sinh), thiết yếu việc trích xuất tri thức được viết (ở dạng phi cấu trúc) văn bản Chương tiếp theo giới thiệu một mô hình ứng dụng DOC vào bài toán chuẩn hoá quan trọng này 24 Chương 3: Ứng dụng mơ hình DOC vào chuẩn hóa tên bệnh 3.1 Ứng dụng chuẩn hóa tên thực thể bệnh Khai phá tri thức từ y văn đóng mợt vai trò quan trọng đối với các nhà nghiên cứu y sinh cũng các nhà khoa học liệu năm gần Nó đã giúp các nhà nghiên cứu đẩy nhanh quá trình nghiên cứu, khám phá các tri thức mới của họ, qua giúp giảm chi phí nghiên cứu lĩnh vực y sinh hiện rất tốn Lấy ví dụ, theo [15], một loại thuốc mất trung bình khoảng 14 năm và hai tỷ đô la My để được phát triển thành công, xuất hiện thị trường Quá trình tớn này được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của th́c được phát hiện nhanh một cách tự động từ một khối lượng khổng lồ văn bản y sinh Việc phát hiện và chuẩn hóa thực thể y sinh là rất quan trọng để khám phá các quan hệ mới, quan trọng các thuốc và các bệnh không được mô tả cùng mợt bài báo y sinh [2] Chuẩn hóa thực thể tên bệnh (Named Entity Normalization) là một các phần thiếu yếu của trích xuất thông tin, đặc biệt có ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng Nó thực hiện việc liên kết một tên bệnh được nhắc đến tài liệu y sinh đến định dang tương ứng của được lưu sẵn các bộ từ vựng y sinh hiện có [8] (Xem Bảng 3.1) Bài toán NEN cho các tên thực thể bệnh có rất nhiều thách thức: 1) nhập nhằng: cùng mợt tên bệnh có nhiều định danh; 2) phong phú: nhiều cách đặt tên cho một [định danh] bệnh [9] Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuộc vào vị trí giải phẫu, triệu chứng, điều trị, v.v Bên cạnh đó, các tên bệnh thường dài và phức tạp, thậm chí là viết tắt Nhiều nghiên cứu đã sử dụng thuật toán dựa luật để giải quyết vấn đề chuẩn hoá tên bệnh, không hiệu quả việc xử lý tất cả thuật ngữ bệnh các tài liệu y sinh Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường tế bào di căn”; Từ KMS là từ viết tắt của hợi chứng Kabuki (Kabuki make up syndrome) hoặc hội chứng Kallmann (Kallmann syndrome), là hai hội chứng rối loạn hoàn toàn không liên quan đến Với bài toán chuẩn hoá tên bệnh, các nghiên cứu thế giới đều sử dụng bộ từ vựng MEDIC (MErged DIsease voCabulary) [4], được trì Cơ sở liệu đối sánh 25 Toxicogenomics [4], một hệ CSDL về tác động của việc tiếp xúc với môi trường đối với sức khỏe người MEDIC được tạo cách tích hợp CSDL OMIM (Mendel trực tuyến di truyền người), một bộ từ vựng được kiểm soát về các bệnh di truyền người và một số phần của MeSH, là một bộ từ vựng được tổ chức theo thứ bậc thành 16 nhánh Trong số các nhánh này, nhánh bệnh và nhánh phụ của Rối loạn tâm thần và nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4] Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine Input lidocaine depression bradyarrhythmias Bảng 3.1 - Một ví dụ toán chuẩn hoá tên thực thể thuốc MEDIC được cập nhật hàng tháng, hiện tại có 9.664 khái niệm (định danh) bệnh, với tổng số 67.782 tên bệnh Trung bình, bệnh có 7.01 tên đờng nghĩa, bao gồm các tên chính và các tên đồng nghĩa 91% bệnh có tên đờng nghĩa với các tên chính và 47% bệnh có định nghĩa hoặc mơ tả về các khái niệm này Một ví dụ về bệnh MEDIC được đưa Hình 3.2 Bệnh này có định danh là MESH:D009369, (ban đầu xuất phát từ MeSH) Bệnh này có tên chính là Neoplasms, là tên hay được sử dụng, và chín thuật ngữ khác đồng nghĩa Có thể thấy các tḥt ngữ từ đờng nghĩa là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đồng nghĩa khác, ví dụ Neoplasm, Benign Benign Neoplasm Trong mợt sớ trường hợp, cũng là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa kèm 26 Hình 3.1 Định danh, tên hay dùng tên đồng nghĩa bệnh MEDIC 3.2.1 Mô hình đề xuất Tổng quan về mơ hình đề x́t được minh họa Hình 3.3 Nó là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt • Mô-đun khớp từ điển để đẩy nhanh việc chuẩn hoá • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (không được tìm thấy từ điển) thành định danh của bợ từ vựng Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh 27 Bộ phân giải viết tắt Trong tài liệu y sinh, có rất nhiều thực thể tên bệnh dài, và thường được gọi cách sử dụng các từ viết tắt Khơng có mợt quy tắc thớng nhất nào để phân giải được từ viết tắt thành tên đầy đủ vì các tài liệu khác mợt từ viết tắt có ý nghĩa khác và/ngược lại các từ khác có cùng ý nghĩa Đới với các thực thể tên bệnh, luận văn sử dụng công cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt Ab3p được sử dụng để xác định từ viết tắt tài liệu và đưa danh sách các từ đầy đủ cho cùng với xác suất kèm Ví dụ, nếu thực thể PFS xuất hiện tài liệu, Ab3P phát hiện và trả về kết quả: PFS| progression-free survival (sống sót không có tiến triển) | 0.999408; PFS là tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắt là cho tên đầy đủ Ngoài ra, để phục vụ cho mô đun tìm kiếm từ điển, các tên bệnh (được đề cập văn bản cũng tập từ vựng MEDIC) được chuyển về chữ thường Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ Các tên được chuyển về dạng gớc của cơng cụ Snowball Mạng nơ ron học sâu giới mở Với thực thể tên bệnh m tài liệu được gán nhãn định danh IDm, tạo ra: Một tập Nm+ gồm các tên bệnh từ vựng (n+) có nhãn định danh là IDm Cặp được xem là một ví dụ dương Mợt tập Nm-, có kích cỡ của Nm+, gồm các tên bệnh từ vựng (n-) mà nhãn định danh là IDm Các tên bệnh n- này là tên giống với m nhất, được tính theo độ đo tích vô hướng của vector TF-IDF(m) và TFIDF(n-), TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược Cặp được xem là một ví dụ âm Đặt M = {m1, m2, , mn} là tập chứa tất cả các thực thể tên bệnh xuất hiện văn bản tập huấn luyện Tập liệu huấn luyện dương và âm (tương ứng gồm các cặp ví dụ dương và âm) được tạo từ tất cả các thực thể m i M Điều tương tự cũng được tạo cho tất cả văn bản tập liệu kiểm định (Validation) để tinh chỉnh mô hình 28 Luận văn sử dụng mô hình chuẩn hoá tên thực thể y sinh dựa mạng nơ ron tích chập (CNN) Cho và cộng giới thiệu năm 2017 [3] Luận văn ứng dụng học thế giới mở cách thay tầng softmax cuối cùng tầng 1-so-với-còn lại sigmoids, được sử dụng mô hình DOC Mô hình Cho và cộng giới thiệu nhận đầu vào là tập Nm+ Nm- được mô tả Mỗi một cặp được qua tầng nhúng từ (embedding) để tạo ma trận các vector biễu diễn cho các từ mention m và tên (name) n Ở tầng tích chập (convolution) tiếp theo các bộ lọc (filter) với kích thước khác được áp dụng độc lập mention m và tên n để tạo các bản đồ đặc trưng chập (convolution feature maps) Các bản đồ đặc trưng m và n được qua hai tầng pooling trước được gộp lại với tại tầng gộp (join layer) Ngoài ra, đầu của hai tầng pooling còn được qua tầng so khớp giống (similarity matching) để tạo một đặc trưng thể hiện giống của m và n Đặc trưng này cũng được gộp vào với đặc trưng pooling tầng gộp Đầu từ tầng gộp được cho qua một tầng ẩn kết nối đầy đủ trước cho qua tầng softmax cuối cùng Kiến trúc tổng thể của mô hình của Cho và cộng được thể hiện Hình 3.3 Hình 3.3 Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa mạng nơ ron tích chập Cho cộng đề xuất [3] 29 Kết luận Chương Chương giới thiệu một mô hình ứng dụng DOC vào bài toán quan trọng, thiết yếu cho quá trình trích xuất tự động tri thức (được viết dưới dạng phi cấu trúc) văn bản y sinh, là (i) chuẩn hóa thực thể tên bệnh Đây là bài toán thường có xuất hiện của các đối tượng liệu thuộc lớp mới chưa xuất hiện lúc huấn luyện mô hình, đặc biệt là lĩnh vực y sinh Chương sau trình bày kết quả thực nghiệm của mô hình ứng dụng này 30 Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm chuẩn hoá tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuốc (disease normalization) với bộ liệu chuẩn NCBI disease nhóm nghiên cứu từ bợ khoa học cơng nghệ sinh học My (NCBI) cung cấp Đây là bộ liệu chuẩn vàng được sử dụng các mô hình chuẩn hoá tên thực thể bệnh khác thế giới Bộ liệu gồm tập con: tập train, tập development, tập test có sớ lượng abstract (tóm tắt bài báo y sinh) tương ứng là 593, 100, 100 Trong sớ lượng các disease mentions (các đoạn text tên bệnh), và số lượng tên bệnh khác được cho sau: Corpus NCBI Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mô hình đề xuất của luận văn sử dụng các vector biễu diễn từ có 300 chiều, được cung cấp miễn phí (gờm triệu từ khác nhau) Pyysalo và cộng [11] họ huấn luyện mô hình word2vec tập tất cả các văn bản tóm tắt CSDL PubMed và các toàn văn CSDL PMC [11] Có 59/203 (30%) mã định danh (IDs) tập test không xuất hiện tập train + dev 31 4.2 Môi trường công cụ thực nghiệm Bảng sau giới thiệu chi tiết về công cụ, môi trường và phần mềm thực nghiệm STT Phần mềm Pycharm Python 2.7 Tensorflow Sklearn Bảng 4.4: Các công cụ thực nghiệm 4.3 Kết đánh giá Mô hình được đánh giá và so sánh dựa độ đo F1 mức mã định danh Giả sử tập {A, B, C, D} là tập tất cả các định danh khác được gán cho tất cả các tên bệnh tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác được dự đoán mô hình cho tất cả các tên bệnh tập kiểm tra Khi A và B là TP (True Positive), C và D là FN (False Negative), E và F là FP (False Positive) Mô hình được cho chạy 20 lần và micro F1 được tính để đo hiệu quả của mô hình Sử dụng sigmoids (100% nhãn), và cả ngưỡng T=0.5 mặc định luận văn thu được độ đo trung bình F1=78% Dùng công thức điều chỉnh ngưỡng của mô hình DOC (Ti = max(0.5; - alpha*stdi; alpha =3), 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn 0.5 mặc định cho sigmoids), luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5) Kết quả này xấp xỉ với kết của của mô hình chuẩn hoá thực thể tên bệnh của [3] 32 100% F1 Bảng 4.5: Bảng tổng hợp kết quả mô hình DOC chuẩn hoá thực thể tên bệnh Luận văn đã sử dụng công thức điều chỉnh ngưỡng của mô hình DOC công thức Ti = max(0.5; - alpha*stdi), từ thu được ngưỡng mới là T1 = 0,09 và T2 = 0.7 Với hai ngưỡng mới này, mô hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6% Thực nghiệm với sigmoid, mô hình chuẩn hoá thực thể tên bệnh của luận văn có khả đạt tới giá trị trung bình F1 = 80.2%, tốt kết quả của mô hình Cho và cộng sự, là mô hình tốt nhất đến thời điểm hiện tại và cùng thể loại với mô hình đề xuất của luận văn Model Chỉ sử dụng Khớp từ điển Mơ hình luận văn Cho & cộng sự, 2017 [3] Wright, 2019 [16] Phan & cộng sự, 2019 [10] Bảng 4.6 Kết thực nghiệm so sánh Mô hình đề xuất của luận văn hiện có kết quả chuẩn hoá tên thực thể bệnh hai mô hình chuẩn hoá tên thực thể bệnh được giới thiệu gần nhất (2019) của Wright 33 [16] và Phan & cộng [10] Tuy vậy, khác với mô hình đề xuất của luận văn, cả hai mô hình này đều sử dụng thêm thông tin biểu diễn các tên bệnh từ việc tích hợp thêm bộ mã hoá dựa mạng nơ ron hồi quy hai chiều bidirectional Long Short Term Memory Với thực nghiệm sử dụng phiên bản rút gọn của bộ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đồng nghĩa) xuất hiện tập train+dev Dùng sigmoid mô hình luận văn cho kết quả micro F1 = 76.1 và phát hiện 22/59 IDs mới (unknown/rejection) 34 Kết luận Chương Chương này trình bày giới thiệu về một bộ liệu chuẩn vàng mà mô hình ứng dụng Chương được thực nghiệm Các kết quả thực nghiệm, cùng với các so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mô hình ứng dụng học thế giới mở dựa ky thuật học sâu bài toán chuẩn hóa thực thể tên bệnh 35 Kết luận Luận văn đã trình bày chi tiết về Học máy thế giới mở, là một nội dung quan trọng của lĩnh vực học máy suốt đời Học máy thế giới mở khơng u cầu giả định thế giới đóng; có khả phát hiện các trường hợp của các lớp không nhìn thấy quá trình thử nghiệm hoặc ứng dụng mô hình, và tăng dần các lớp mới để cập nhật các lớp mới mô hình mà không đào tạo lại toàn bộ mô hình từ đầu Luận văn đã trình bày một mô hình đề xuất ứng dụng học thế giới mở dựa ky thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đối tượng mới) Chuẩn hoá tên thực thể có rất nhiều thách thức, đã và nhận được nhiều quan tâm nghiên cứu của các nhóm nghiên cứu lớn thế giới Luận văn đã chọn miền văn bản y sinh là miền ứng dụng có rất nhiều tên mới xuất hiện Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề có nhiều ý nghĩa cho cộng đồng nghiên cứu y-sinh-dược Các kết quả thực nghiệm bộ liệu chuẩn tên bệnh đã chỉ tính hiệu quả của mô hình đề xuất vấn đề nhận dạng được các tên mới chưa xuất hiện huấn luyện mô hình và vấn đề chuẩn hoá thực thể tên bệnh Đặc biệt, mô hình chuẩn hoá thực thể tên đạt giá trị độ đo F1 = 80%, tốt của các phương pháp cùng thể loại tính đến thời điểm hiện tại Trong năm 2019 có hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hóa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%) Tuy vậy, cả hai mô hình mới này đều khơng có khả phát hiện các tên mới chưa xuất hiện lúc học Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu mô hình Một hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vào mô hình thê giới mở dựa ky thuật học sâu chuẩn hóa tên bệnh của luận văn Cuối cùng, tiếp tục cải tiến mô hình phân lớp mở quan hệ sử dụng các ky thuật học sâu (thế giới đóng) mới nhất cũng là một hướng nghiên cứu khả quan tiếp theo của luận văn 36 Tài liệu tham khảo Bendale A., Boult T.E Towards open world recognition CVPR 2015: 1893-1902 Chen Z., and Liu B Lifelong Machine Learning (2nd edition) Morgan & 10 11 12 13 14 15 Claypool, 2018 Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants In BMC Bioinformatics, 2017 Davis A.P., Wiegers T C., Rosenstein M C., and Mattingly C J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database In Database, 2012 Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable KDD 2016: 1565-1574 Fei G., Liu B., Breaking the Closed World Assumption in Text Classification HLTNAACL 2016: 506-514 Kim Y., (2014) Convolutional neural networks for sentence classification ArXiv Preprint ArXiv:1408.5882 DOI: 10.3115/v1/d14-1181 Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no 22, pp 2909-2917 Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no 11, vol 18, pp 385 Phan, M.C., Sun, A and Tay, Y., 2019, July Robust Representation Learning of Biomedical Names In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp 3275-3285) Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp 39-44 Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013) Toward open set recognition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772 DOI: 10.1109/tpami.2012.256 Shu L., Xu H., and Liu B., (2017) DOC: Deep open classification of text documents In EMNLP DOI: 10.18653/v1/d17-1314 Sohn S, Comeau DC, Kim W, Wilbur WJ BMC Bioinformatics 2008 Sep 25;9:402 PubMed ID: 18817555 Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37 Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp 154-166, Spain: Sevilla 16 Wright, D., 2019 NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego) 38 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Quỳnh Trang Phân tích liệu văn dựa học máy giới mở ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ... giới mở dựa ky thuật học sâu 17 Chương Học sâu giới mở cho văn 2.1 Học giới mở không gian đơn giản trung tâm G Fei và cộng [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa phương... hiện tại Từ khóa: Học máy suốt đời, học giới mở, học sâu, chuẩn hoá tên thực thể bệnh iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM CNN LL ML DOC CBS NNO v DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví