Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

34 21 0
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2018 Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy PGS.TS Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày 07 tháng 02 năm 2018 Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ CĨ LIÊN QUAN ĐẾN LUẬN ÁN [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014) The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014 [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, Dietrich Rebholz- Schuhmann (2013) Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM ReRanking PLoS ONE 8(10): e72965, October 2013 [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013) vTools: Chunker and Part-of-Speech tools, RIVF-VLSP 2013 Workshop [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012) A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662 [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen (2012) A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012 [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011) An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text IALP 2011:115-118 [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015) The UET-CAM System in the BioCreAtIvE V CDR Task In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015 MỞ ĐẦU Lý chọn đề tài Nhận dạng thực thể có tên (Named entity recognition: NER; gọi “nhận dạng thực thể định danh”) tốn thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Đây toán tiền đề cho hệ thống hiểu ngơn ngữ hay khai phá văn trích xuất kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa Chính vậy, với phát triển liệu văn Internet, toán nhận quan tâm cộng đồng nghiên cứu khoảng 20 năm trở lại Mặc dù có nhiều cơng trình nghiên cứu cho số loại thực thể thông thường văn tiếng Anh chuẩn nhiên nghiên cứu liên quan đến thực thể ngôn ngữ khác tiếng Việt hay miền liệu đặc biệt miền liệu y sinh nhiều hạn chế thách thức Có thể kể đến khuyết thiếu tập liệu gán nhãn chuẩn, tài nguyên ngôn ngữ tri thức miền hay định nghĩa hình thức kiểu thực thể cần nhận dạng… Luận án tiếp nối nghiên cứu trước nhằm giải phần hạn chế nêu Mục tiêu cụ thể phạm vi nghiên cứu luận án mô tả kỹ phần Mục tiêu cụ thể phạm vi nghiên cứu luận án Luận án tập trung vào toán nhận dạng thực thể với hai loại liệu thuộc hai ngôn ngữ khác thực thể thuộc liệu văn tiếng Việt thực thể thuộc liệu văn y sinh học Mục tiêu cụ thể luận án phát triển vấn đề, đề xuất giải pháp xây dựng thực nghiệm cho việc nhận dạng loại thực thể thuộc hai miền liệu Cụ thể, luận án giải đáp vấn đề nghiên cứu sau đây: • Khảo sát đưa phương án xử lý đặc điểm riêng biệt với liệu tiếng Việt liệu y sinh học văn tiếng Anh • Đề xuất phương án tiếp cận tận dụng nghiên cứu trước tiếp cận giải đặc điểm riêng biệt miền liệu xem xét • Xây dựng liệu phục vụ cho thực nghiệm • Xây dựng thực nghiệm để đánh giá mơ hình giải tốn đề xuất • Xây dựng hệ thống chạy thực tế mơ hình đạt kết khả quan • Định hướng phát triển nâng cấp nghiên cứu Về nghiên cứu lý thuyết, luận án tập trung đề xuất số giải pháp nhận dạng thực thể cho liệu văn tiếng Việt liệu văn y sinh tiếng Anh Các giải pháp tập trung vào vấn đề kết hợp mơ hình học máy tri thức nguồn liên quan đến miền liệu nhằm nâng cao hiệu đầu toán Kết mơ hình đạt hiệu khả quan áp dụng hệ thống chạy thực tế Các kết nghiên cứu lý thuyết công bố số ấn phẩm khoa học có uy tín minh chứng cho ý nghĩa khoa học luận án Về triển khai ứng dụng, luận án đề xuất thực mơ hình hỏi đáp tự động tiếng Việt dựa nhận dạng thực thể [CTLA6] Xây dựng hệ thống tra cứu tham khảo mối quan hệ thực thể biểu – bệnh PhenoMiner (tại địa http://phenominer.mml.cam.ac.uk/) Kết triển khai ứng dụng thông qua hệ thống thử nghiệm tra cứu nói cho thấy luận án có ý nghĩa thực tiễn Cấu trúc luận án  Chương luận án hệ thống lại lý thuyết nhận dạng thực thể khảo sát lịch sử nghiên cứu điểm lại số nghiên cứu tiêu biểu  Chương trình bày toán nhận dạng thực thể ứng dụng nhận dạng thực thể vào toán hỏi đáp tự động văn tiếng Việt  Chương trình bày mơ hình nhận dạng thực thể biểu thực thể liên quan vấn đề thích nghi miền tập liệu y sinh học  Chương 4, luận án giới thiệu kỹ thuật nâng cấp hiệu mơ hình đề xuất chương kỹ thuật lai ghép mơ hình (ensemble models) dựa tri thức dựa học máy để nhận dạng thực thể văn y sinh tiếng Anh  Phần kết luận tổng hợp kết đạt nêu lên số hạn chế luận án, đồng thời trình bày số định hướng nghiên cứu tương lai CHƯƠNG – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1 Một số khái niệm 1.1.1 Định nghĩa toán nhận dạng thực thể Luận án sử dụng định nghĩa toán nhận dạng thực thể phát biểu Aggarwal Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) toán xác định thực thể định danh từ văn dạng tự phân lớp chúng vào tập kiểu định nghĩa trước người, tổ chức địa điểm.” 1.1.2 Thách thức Tuy toán bản, nhận dạng thực thể gặp phải khơng thách thức cần giải phong phú nhập nhằng ngôn ngữ Ví dụ, "JFK" tới người "John F Kennedy”, địa điểm "sân bay quốc tế JFK", loại khác có dạng viết tắt Tương tự “Sơng Lam Nghệ An” địa điểm tên sông tỉnh Nghệ An hay tên đội bóng “Sơng Lam Nghệ An” Để xác định loại cho thực thể "JFK" hay “Sông Lam Nghệ An” xuất tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa Bên cạnh yếu tố ngữ nghĩa, yếu tố liên quan đến đặc trưng ngơn ngữ góp phần làm tốn nhận dạng thực thể trở nên khó khăn Một số ngơn ngữ tiếng Việt ngồi việc thiếu tài ngun xử lý ngơn ngữ tự nhiên cịn phải thực số toán tách từ trước nhận dạng thực thể, tỷ lệ lỗi toán ảnh hưởng đến kết tốn nhận dạng thực thể Ngồi ra, loại thực thể có thách thức riêng khác ảnh hưởng đến hiệu mô hình nhận dạng 1.1.3 Độ đo đánh giá Các số đo đánh giá điển hình sử dụng cho nhận dạng thực thể độ xác (precision - P), độ hồi tưởng (recall - R) độ đo F1 (F1-measure) Độ xác tính phần trăm kết tổng số kết nhãn dương hệ thống 1.1.4 Ứng dụng nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất số ứng dụng sau: • Trích xuất quan hệ toán nhận diện mối quan hệ ngữ nghĩa hai thực thể hay thực thể khái niệm [GLR06] Thành phần nhận diện thực thể pha trước giải vấn đề xác định quan hệ • Trích xuất kiện tốn phức tạp trích xuất quan hệ kiện tổ hợp nhiều yếu tố thể thông tin biểu diễn ai/cái làm gì, với ai/cái gì, bao giờ, đâu, cách Tương tự trích xuất quan hệ, trích xuất kiện vấn đề nhận dạng thực thể đặt lên hàng đầu yêu cầu phải nhận đủ xác thành phần cấu thành nên kiện • Khá nhiều hệ thống hỏi đáp tự động dựa khai phá văn cần đến nhận dạng thực thể yếu tố làm tăng khả phân tích, hiểu câu hỏi liệu trả lời hệ thống [HWY05] 1.2 Lịch sử nghiên cứu số hướng tiếp cận giải toán Bài toán nhận dạng thực thể xuất từ đầu năm 90 [RA91], thức giới thiệu vào năm 1995 hội nghị MUC-6 với tư cách tốn trích xuất thơng tin [GS96] Kể từ đó, NER thu hút nhiều ý cộng đồng nghiên cứu Đã có nhiều hệ thống chương trình xây dựng thực thi tốn này, kể đến Automatic Content Extraction1, công bố nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 2003 [TD03], chuỗi nhiệm nhận dạng thực thể y sinh hội thảo BioCreative2 (Critical Assessment of Information Extraction Systems in Biology) Các nghiên cứu đạt hiệu cao nhận dạng thực thể thường dựa kỹ thuật học máy thống kê hầu hết số xử lý tốn toán gán nhãn chuỗi (sequence labeling) Một phương pháp học máy áp dụng cho NER mơ hình Markov ẩn (Hidden Markov Models, HMM) Các phương pháp học máy cho NER xây dựng sau có chuyển dịch từ mơ hình sinh HMM sang mơ hình mơ hình rời rạc (discriminative models) nhằm khắc phục nhược Automatic content extraction (ACE) evaluation http://www.itl.nist.gov/iad/mig/tests/ace/ http://www.biocreative.org/ Dạng hai lớp tân ngữ có câu trúc sau: - Chủ thể + Hành động + Tân ngữ trực tiếp - Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có cấu trúc sau: - Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân ngữ gián tiếp - Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp 2.3.3 Mô hình đề xuất Mơ hình hỏi đáp thực thể tên người cho tiếng Việt đề xuất đặt tên VPQA Mơ hình sử dụng phương pháp phân tích câu hỏi kỹ thuật học máy CRF với chiến lược trả lời tự động dựa thông tin truy vấn từ máy tìm kiếm Mơ hình tổng quát hệ thống nêu hình 2.4 Hình 2.4 Mơ hình hệ thống hỏi đáp thực thể tên người tiếng Việt 2.3.4 Phương pháp liệu đánh giá mơ hình hỏi đáp tự động 16 Có nhiều phương pháp để đánh giá kết hệ thống hỏi đáp tự động, nghiên cứu sinh chọn phương pháp đánh giá phổ biến nhóm ba độ đo gồm độ đo xác, độ đo hồi tưởng độ đo F, độ đo sử dụng chuỗi nhiệm vụ TREC [Vo03] Tập liệu đánh giá bao gồm 1000 câu hỏi xây dựng gán nhãn thủ công Các câu hỏi dạng câu hỏi đơn giản hỏi thực thể người gán nhãn thành 2.3.5 Thực nghiệm đánh giá a Thực nghiệm đánh giá hiệu phân tích câu hỏi 17 Bảng 2.10 Kết đánh giá thành phần phân tích câu hỏi Đ ộ Đ c ộ hí hồ Độ n i đo h tư F x ởn g c F o l d 90 89 95 F o l d 95 .0 94 57 F o l d 96 .8 96 61 F o l d 94 64 F 96 95 18 93 o l d 5 33 F o l d 93 4 92 93 F o l d 92 .6 91 98 F o l d 8 89 88 5 89 F o l d 92 .1 80 F 95 94 o .0 15 l d 19 91 T r u n g b ì n h 93 92 99 b Thực nghiệm đánh giá hiệu trả lời tự động mơ hình hỏi đáp Bảng 2.11 Kết đánh giá hệ thống trả lời tự động Top T Top Top P R F P R F P R F 62 54.36 42.13 47.47 60.19 45.59 51.88 62.78 50.12 55.74 58 79.68 55.6 65.50 89.39 60.3 72.02 90.03 60.2 72.15 S 2805 71.44 90 79.65 72.18 91.3 80.62 73.17 91.7 81.39 E 74.63 87.9 80.72 79.62 89.3 84.18 80.02 91.1 85.20 (ms) B a s e li n e K L B B K 1163 L 20 B + S E B Chương – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH 3.1 Giới thiệu Dưới định nghĩa nhận dạng thực thể y sinh [CTLA5] “Nhận dạng thực thể y sinh (Biomedical NER) (nhóm) kỹ thuật tính toán dùng để nhận dạng phân lớp chuỗi văn đến khái niệm quan trọng văn y sinh học.” 3.2 Vấn đề thích nghi miền nhận dạng thực thể y sinh Một thách thức lớn toán NER liệu y sinh vấn đề thích ứng thích nghi miền liệu Các nghiên cứu NER y sinh học thường sử dụng tập nhỏ liệu gán nhãn để nghiên cứu thực nghiệm Vì tính chất phong phú hướng chun ngành liệu y sinh học, liệu thường hướng chủ đề hay có tính chất Hệ thống xây dựng phù hợp cho liệu thuộc chủ đề chưa hoạt động hiệu chuyển sang tập liệu thuộc chủ đề khác hay tập liệu trộn lẫn nhiều chủ đề khác nhau, 21 chúng liệu y sinh học có nhiều điểm tương đồng 3.3 Mơ hình nhận dạng thực thể biểu số thực thể liên quan 3.3.1 Dữ liệu đánh giá tài nguyên hỗ trợ a Tập liệu Phenominer A bệnh tự miễn dịch di truyền (autoimmune diseases) Tập liệu Phenominer A (gọi tắt Phenominer A) thu thập dựa hai tiêu chí sau:  Thứ nhất, tóm tắt PubMed Central (PMC) nói số 19 bệnh tự miễn dịch di truyền xác định trước Bệnh tự miễn dịch (autoimmune disease)  Thứ hai, để đảm bảo tóm tắt có liên kết định với kiểu hình, tóm tắt phải đảm bảo có chứa cụm từ kiểu hình b Tập liệu Phenominer B bệnh tim mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt Phenominer B) xây dựng tương tự với phần A, nhóm bệnh khác lựa chọn từ sở liệu kinh điển bệnh di truyền OMIM dùng để định hướng xây dựng Phenominer B Các bệnh lựa chọn bệnh tim mạch (cardiovascular diseases), 60 bệnh cụ thể sử dụng để thu thập liệu bệnh tim (cardiomyopathy), tăng huyết áp (hypertension), xơ vữa động mạch (atherosclerosis) 3.2.2 Mơ hình đề xuất 22 PHENOMIN ER A PHƯ ƠNG PHÁP CRF ME + BS PHENOMIN ER B Thực thể PH 71.16 75.24 73.14 72.19 78.03 75.00 GG 80.68 83.07 81.86 79.68 79.54 79.61 OR 72.54 79.13 75.69 81.13 77.08 79.05 CD 77.58 80.65 79.09 78.42 82.34 80.33 AN 74.22 81.94 77.89 72.65 78.69 75.55 DS 76.85 72.41 74.56 72.31 70.13 71.20 ALL (micro avg-F1) ALL (macro avg-F1) PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 ALL (micro avg-F1) ALL (macro avg-F1) 78.16 77.96 77.04 76.79 78.41 77.35 77.34 76.94 Hình 3.5 Mơ hình nhận dạng thực thể biểu thực thể liên quan 3.4 Thực nghiệm Bảng 3.4 Thực nghiệm so sánh phương pháp học máy khác Phenominer A Phenominer B 23 Tập KMR P h n g p h p Thực thể K h or da d et al PH G en ia Ta g ge r GG 71.36 75.58 73.41 71.13 72.57 71.84 Li ne au s OR 56.81 57.28 57.04 54.81 55.39 55.10 T ển PH 51.24 50.91 51.07 57.31 52.71 54.91 T ển GG 87.29 60.44 71.42 79.24 62.17 69.67 T ển CD 91.49 56.07 69.53 87.24 55.43 67.79 T ển AN 83.46 50.13 62.64 84.57 48.77 61.86 T ển DS 57.82 34.27 43.03 51.25 31.04 38.66 M PH 73.72 76.06 74.87 74.68 78.13 76.37 65.89 57.44 64.28 60.34 62.25 61.38 24 90.74 88.44 87.26 82.35 86.37 84.19 E M + B S GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 Mmicro avg-F1 78.41 78.35 Macro avg-F1 77.34 76.94 3.5 Thích ứng miền liệu nhận dạng thực thể y sinh 3.5.1 Thực nghiệm  M1: IN DOMAIN - Kiểm thử miền  M2: OUT DOMAIN - Kiểm thử miền  M3: MIX-IN - Trộn lẫn liệu để huấn luyện  M4: STACK - Xếp chồng liệu huấn luyện  M5: BINARY CLASS - Lớp nhị phân  M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặc trưng H Daume III đề xuất năm 2007 [DA07] 3.4.2 Kết đánh giá Bảng 3.7 Kết F1 hệ thống NER sử dụng phương pháp thực nghiệm 1-6 AN CD DS 57.1 29.5 80.4 GG PH OR 68.4 25 A L L 34.3 26.9 50.8 57.7 55.6 26.9 77.9 71.7 39.7 72.2 74.1 44.1 70.8 72.7 41.5 72.8 73.4 44.9 69.9 57.2 46.5 73.2 52.3 24.4 68.5 56.3 17.4 56.7 29.6 57.1 27.7 37.2 31.3 21.2 20.2 36.8 38.7 72.3 61.1 34.8 34.4 72.5 57.5 45.9 74.7 34.1 41.6 73.6 58.9 43.2 78.5 73.3 56.4 46.6 39.9 77.3 72.9 77.4 8 5 5 MH: Mơ hình (M1-M6 tương ứng với mơ hình 1-6) DL: Dữ liệu (A: Phenominer A bệnh tự miễn dịch B: Phenominer B bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR kết tương ứng với loại thực thể Cột ALL đưa kết toàn hệ thống, F1 micro average F1 26 Chương – MỘT MƠ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1 Mơ hình nâng cấp nhận dạng thực thể biểu thực thể liên quan Hình 4.1 Kiến trúc tổng quan hệ thống NER y sinh học 4.2 Các phương pháp lai ghép đề xuất 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp lai ghép nêu kỹ thuật sử dụng luật heuristic, đó, việc định kết thực cách sử dụng danh sách ưu tiên theo thứ tự sau DS>PH>GG>CD>AN>OR>O 27 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi Trong phương án cải tiến này, kết gán nhãn sử dụng đặc trưng để huấn luyện giải mã mơ hình Tuy nhiên, phương pháp lại có nhược điểm MEM + BS xử lý liệu dạng gán nhãn chuỗi lần nên khơng xem xét có xảy trường hợp nhập nhằng hay khơng, tức dù có hay khơng xảy xung đột nhãn, mô-đun định kết MEM + BS tiến hành gán lại toàn chuỗi 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng Bước phương pháp học xếp hạng tương tự phương pháp danh sách ưu tiên, kết đầu từ gán nhãn duyệt qua mô-đun xác định trường hợp nhập nhằng, không xảy xung đột, kết đưa thành kết 28 cuối Để xử lý trường hợp nhập nhằng, mơ hình giải nhập nhằng học xếp hạng sử dụng để lựa chọn nhãn có trọng số lớn làm nhãn cuối kết đầu 4.3 Thực nghiệm đánh giá kết Bảng 4.2 Kết mơ hình tập liệu Phenominer A sử dụng phương pháp khác để lai ghép kết Đơn mơ hình MEM + BS Ghép nối MEM + BS Danh sách ưu tiên Học xếp hạng SVM F PH 73.7 76.1 74.9 74.1 76.0 75.0 73.3 68.2 70.7 74.3 OR 72.8 78.1 75.4 79.1 80.5 79.8 82.4 80.6 81.5 80.2 AN 72.4 82.5 77.1 72.8 78.1 75.4 62.1 65.9 63.9 70.2 77.2 73.5 GG 82.5 81.5 82.0 82.6 81.7 82.1 79.3 75.4 77.3 82.5 81.9 82.2 CD 79.6 81.3 80.4 72.4 82.5 77.1 69.4 71.6 70.5 79.6 80.8 80.2 DS 75.8 72.9 74.3 75.9 73.0 74.4 71.9 70.4 71.1 75.7 73.2 74.4 ALL 78.4 79.2 76.4 81.1 74.9 KẾT LUẬN Các kết luận án Đề xuất mơ hình kết hợp nhận dạng đồng thời thực thể thuộc tính liên quan đến thực thể Xây dựng hệ thống hỏi đáp tự động ứng dụng mơ hình nhận dạng thực thể thuộc tính đề xuất Góp phần mở rộng khung cấu trúc thực thể y sinh, thống tổng quát lại định nghĩa thực thể y sinh học có liên quan đến bệnh, hóa chất, gene, sinh vật, kiểu 29 75.3 79.9 hình phân thể Đề xuất mơ hình giải tốn nhận dạng thực thể biểu thực thể liên quan Đưa so sánh, nhận định vấn đề thích nghi miền liệu việc nhận dạng thực thể y sinh, kết cho phép nghiên cứu sau nhận dạng thực thể biểu có khung nhìn tổng qt q trình chọn lựa liệu huấn luyện đánh giá Nâng cao chất lượng nhận dạng thực thể biểu thực thể y sinh liên quan kỹ thuật lai ghép, kết hợp nhiều mơ hình nhận dạng khác 30 ... biểu  Chương trình bày tốn nhận dạng thực thể ứng dụng nhận dạng thực thể vào toán hỏi đáp tự động văn tiếng Việt  Chương trình bày mơ hình nhận dạng thực thể biểu thực thể liên quan vấn đề thích... pháp hay mơ hình nhận dạng thực thể hiệu Chương – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT 2.1 Giới thiệu Tên người thông tin liên... tiêu cụ thể phạm vi nghiên cứu luận án mô tả kỹ phần Mục tiêu cụ thể phạm vi nghiên cứu luận án Luận án tập trung vào toán nhận dạng thực thể với hai loại liệu thuộc hai ngôn ngữ khác thực thể thuộc

Ngày đăng: 26/04/2021, 03:50

Mục lục

  • DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN

  • MỞ ĐẦU

    • Lý do chọn đề tài

    • Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông thường trong văn bản tiếng Anh chuẩn tuy nhiên những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng… Luận án này sẽ tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo.

    • Mục tiêu cụ thể và phạm vi nghiên cứu của luận án

    • Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế.

    • Các kết quả nghiên cứu lý thuyết trên đây được công bố trong một số ấn phẩm khoa học có uy tín là minh chứng cho ý nghĩa khoa học của luận án.

    • Về triển khai ứng dụng, luận án đã đề xuất thực mô hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA6]. Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ http://phenominer.mml.cam.ac.uk/).

    • Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn.

    • Cấu trúc của luận án

    • CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ

      • 1.1. Một số khái niệm cơ bản

        • 1.1.1. Định nghĩa bài toán nhận dạng thực thể

        • 1.1.2. Thách thức

        • 1.1.3. Độ đo đánh giá

        • 1.1.4. Ứng dụng của nhận dạng thực thể

        • 1.2. Lịch sử nghiên cứu và một số hướng tiếp cận giải quyết bài toán

        • 1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan

        • 1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan

        • Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT

          • 2.1. Giới thiệu

          • 2.2. Cơ sở lý thuyết và mô hình đề xuất

            • 2.2.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS)

            • 2.2.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)

            • 2.2.3. Tập đặc trưng

Tài liệu cùng người dùng

Tài liệu liên quan