Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	34
Dung lượng	326,02 KB

Nội dung

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2018 Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy PGS.TS Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày 07 tháng 02 năm 2018 Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ CĨ LIÊN QUAN ĐẾN LUẬN ÁN [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014) The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014 [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, Dietrich Rebholz- Schuhmann (2013) Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM ReRanking PLoS ONE 8(10): e72965, October 2013 [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013) vTools: Chunker and Part-of-Speech tools, RIVF-VLSP 2013 Workshop [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012) A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662 [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen (2012) A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012 [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011) An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text IALP 2011:115-118 [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015) The UET-CAM System in the BioCreAtIvE V CDR Task In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015 MỞ ĐẦU Lý chọn đề tài Nhận dạng thực thể có tên (Named entity recognition: NER; gọi “nhận dạng thực thể định danh”) tốn thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Đây toán tiền đề cho hệ thống hiểu ngơn ngữ hay khai phá văn trích xuất kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa Chính vậy, với phát triển liệu văn Internet, toán nhận quan tâm cộng đồng nghiên cứu khoảng 20 năm trở lại Mặc dù có nhiều cơng trình nghiên cứu cho số loại thực thể thông thường văn tiếng Anh chuẩn nhiên nghiên cứu liên quan đến thực thể ngôn ngữ khác tiếng Việt hay miền liệu đặc biệt miền liệu y sinh nhiều hạn chế thách thức Có thể kể đến khuyết thiếu tập liệu gán nhãn chuẩn, tài nguyên ngôn ngữ tri thức miền hay định nghĩa hình thức kiểu thực thể cần nhận dạng… Luận án tiếp nối nghiên cứu trước nhằm giải phần hạn chế nêu Mục tiêu cụ thể phạm vi nghiên cứu luận án mô tả kỹ phần Mục tiêu cụ thể phạm vi nghiên cứu luận án Luận án tập trung vào toán nhận dạng thực thể với hai loại liệu thuộc hai ngôn ngữ khác thực thể thuộc liệu văn tiếng Việt thực thể thuộc liệu văn y sinh học Mục tiêu cụ thể luận án phát triển vấn đề, đề xuất giải pháp xây dựng thực nghiệm cho việc nhận dạng loại thực thể thuộc hai miền liệu Cụ thể, luận án giải đáp vấn đề nghiên cứu sau đây: • Khảo sát đưa phương án xử lý đặc điểm riêng biệt với liệu tiếng Việt liệu y sinh học văn tiếng Anh • Đề xuất phương án tiếp cận tận dụng nghiên cứu trước tiếp cận giải đặc điểm riêng biệt miền liệu xem xét • Xây dựng liệu phục vụ cho thực nghiệm • Xây dựng thực nghiệm để đánh giá mơ hình giải tốn đề xuất • Xây dựng hệ thống chạy thực tế mơ hình đạt kết khả quan • Định hướng phát triển nâng cấp nghiên cứu Về nghiên cứu lý thuyết, luận án tập trung đề xuất số giải pháp nhận dạng thực thể cho liệu văn tiếng Việt liệu văn y sinh tiếng Anh Các giải pháp tập trung vào vấn đề kết hợp mơ hình học máy tri thức nguồn liên quan đến miền liệu nhằm nâng cao hiệu đầu toán Kết mơ hình đạt hiệu khả quan áp dụng hệ thống chạy thực tế Các kết nghiên cứu lý thuyết công bố số ấn phẩm khoa học có uy tín minh chứng cho ý nghĩa khoa học luận án Về triển khai ứng dụng, luận án đề xuất thực mơ hình hỏi đáp tự động tiếng Việt dựa nhận dạng thực thể [CTLA6] Xây dựng hệ thống tra cứu tham khảo mối quan hệ thực thể biểu – bệnh PhenoMiner (tại địa http://phenominer.mml.cam.ac.uk/) Kết triển khai ứng dụng thông qua hệ thống thử nghiệm tra cứu nói cho thấy luận án có ý nghĩa thực tiễn Cấu trúc luận án  Chương luận án hệ thống lại lý thuyết nhận dạng thực thể khảo sát lịch sử nghiên cứu điểm lại số nghiên cứu tiêu biểu  Chương trình bày toán nhận dạng thực thể ứng dụng nhận dạng thực thể vào toán hỏi đáp tự động văn tiếng Việt  Chương trình bày mơ hình nhận dạng thực thể biểu thực thể liên quan vấn đề thích nghi miền tập liệu y sinh học  Chương 4, luận án giới thiệu kỹ thuật nâng cấp hiệu mơ hình đề xuất chương kỹ thuật lai ghép mơ hình (ensemble models) dựa tri thức dựa học máy để nhận dạng thực thể văn y sinh tiếng Anh  Phần kết luận tổng hợp kết đạt nêu lên số hạn chế luận án, đồng thời trình bày số định hướng nghiên cứu tương lai CHƯƠNG – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1 Một số khái niệm 1.1.1 Định nghĩa toán nhận dạng thực thể Luận án sử dụng định nghĩa toán nhận dạng thực thể phát biểu Aggarwal Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) toán xác định thực thể định danh từ văn dạng tự phân lớp chúng vào tập kiểu định nghĩa trước người, tổ chức địa điểm.” 1.1.2 Thách thức Tuy toán bản, nhận dạng thực thể gặp phải khơng thách thức cần giải phong phú nhập nhằng ngôn ngữ Ví dụ, "JFK" tới người "John F Kennedy”, địa điểm "sân bay quốc tế JFK", loại khác có dạng viết tắt Tương tự “Sơng Lam Nghệ An” địa điểm tên sông tỉnh Nghệ An hay tên đội bóng “Sơng Lam Nghệ An” Để xác định loại cho thực thể "JFK" hay “Sông Lam Nghệ An” xuất tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa Bên cạnh yếu tố ngữ nghĩa, yếu tố liên quan đến đặc trưng ngơn ngữ góp phần làm tốn nhận dạng thực thể trở nên khó khăn Một số ngơn ngữ tiếng Việt ngồi việc thiếu tài ngun xử lý ngơn ngữ tự nhiên cịn phải thực số toán tách từ trước nhận dạng thực thể, tỷ lệ lỗi toán ảnh hưởng đến kết tốn nhận dạng thực thể Ngồi ra, loại thực thể có thách thức riêng khác ảnh hưởng đến hiệu mô hình nhận dạng 1.1.3 Độ đo đánh giá Các số đo đánh giá điển hình sử dụng cho nhận dạng thực thể độ xác (precision - P), độ hồi tưởng (recall - R) độ đo F1 (F1-measure) Độ xác tính phần trăm kết tổng số kết nhãn dương hệ thống 1.1.4 Ứng dụng nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất số ứng dụng sau: • Trích xuất quan hệ toán nhận diện mối quan hệ ngữ nghĩa hai thực thể hay thực thể khái niệm [GLR06] Thành phần nhận diện thực thể pha trước giải vấn đề xác định quan hệ • Trích xuất kiện tốn phức tạp trích xuất quan hệ kiện tổ hợp nhiều yếu tố thể thông tin biểu diễn ai/cái làm gì, với ai/cái gì, bao giờ, đâu, cách Tương tự trích xuất quan hệ, trích xuất kiện vấn đề nhận dạng thực thể đặt lên hàng đầu yêu cầu phải nhận đủ xác thành phần cấu thành nên kiện • Khá nhiều hệ thống hỏi đáp tự động dựa khai phá văn cần đến nhận dạng thực thể yếu tố làm tăng khả phân tích, hiểu câu hỏi liệu trả lời hệ thống [HWY05] 1.2 Lịch sử nghiên cứu số hướng tiếp cận giải toán Bài toán nhận dạng thực thể xuất từ đầu năm 90 [RA91], thức giới thiệu vào năm 1995 hội nghị MUC-6 với tư cách tốn trích xuất thơng tin [GS96] Kể từ đó, NER thu hút nhiều ý cộng đồng nghiên cứu Đã có nhiều hệ thống chương trình xây dựng thực thi tốn này, kể đến Automatic Content Extraction1, công bố nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 2003 [TD03], chuỗi nhiệm nhận dạng thực thể y sinh hội thảo BioCreative2 (Critical Assessment of Information Extraction Systems in Biology) Các nghiên cứu đạt hiệu cao nhận dạng thực thể thường dựa kỹ thuật học máy thống kê hầu hết số xử lý tốn toán gán nhãn chuỗi (sequence labeling) Một phương pháp học máy áp dụng cho NER mơ hình Markov ẩn (Hidden Markov Models, HMM) Các phương pháp học máy cho NER xây dựng sau có chuyển dịch từ mơ hình sinh HMM sang mơ hình mơ hình rời rạc (discriminative models) nhằm khắc phục nhược Automatic content extraction (ACE) evaluation http://www.itl.nist.gov/iad/mig/tests/ace/ http://www.biocreative.org/ Dạng hai lớp tân ngữ có câu trúc sau: - Chủ thể + Hành động + Tân ngữ trực tiếp - Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có cấu trúc sau: - Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân ngữ gián tiếp - Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp 2.3.3 Mô hình đề xuất Mơ hình hỏi đáp thực thể tên người cho tiếng Việt đề xuất đặt tên VPQA Mơ hình sử dụng phương pháp phân tích câu hỏi kỹ thuật học máy CRF với chiến lược trả lời tự động dựa thông tin truy vấn từ máy tìm kiếm Mơ hình tổng quát hệ thống nêu hình 2.4 Hình 2.4 Mơ hình hệ thống hỏi đáp thực thể tên người tiếng Việt 2.3.4 Phương pháp liệu đánh giá mơ hình hỏi đáp tự động 16 Có nhiều phương pháp để đánh giá kết hệ thống hỏi đáp tự động, nghiên cứu sinh chọn phương pháp đánh giá phổ biến nhóm ba độ đo gồm độ đo xác, độ đo hồi tưởng độ đo F, độ đo sử dụng chuỗi nhiệm vụ TREC [Vo03] Tập liệu đánh giá bao gồm 1000 câu hỏi xây dựng gán nhãn thủ công Các câu hỏi dạng câu hỏi đơn giản hỏi thực thể người gán nhãn thành 2.3.5 Thực nghiệm đánh giá a Thực nghiệm đánh giá hiệu phân tích câu hỏi 17 Bảng 2.10 Kết đánh giá thành phần phân tích câu hỏi Đ ộ Đ c ộ hí hồ Độ n i đo h tư F x ởn g c F o l d 90 89 95 F o l d 95 .0 94 57 F o l d 96 .8 96 61 F o l d 94 64 F 96 95 18 93 o l d 5 33 F o l d 93 4 92 93 F o l d 92 .6 91 98 F o l d 8 89 88 5 89 F o l d 92 .1 80 F 95 94 o .0 15 l d 19 91 T r u n g b ì n h 93 92 99 b Thực nghiệm đánh giá hiệu trả lời tự động mơ hình hỏi đáp Bảng 2.11 Kết đánh giá hệ thống trả lời tự động Top T Top Top P R F P R F P R F 62 54.36 42.13 47.47 60.19 45.59 51.88 62.78 50.12 55.74 58 79.68 55.6 65.50 89.39 60.3 72.02 90.03 60.2 72.15 S 2805 71.44 90 79.65 72.18 91.3 80.62 73.17 91.7 81.39 E 74.63 87.9 80.72 79.62 89.3 84.18 80.02 91.1 85.20 (ms) B a s e li n e K L B B K 1163 L 20 B + S E B Chương – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH 3.1 Giới thiệu Dưới định nghĩa nhận dạng thực thể y sinh [CTLA5] “Nhận dạng thực thể y sinh (Biomedical NER) (nhóm) kỹ thuật tính toán dùng để nhận dạng phân lớp chuỗi văn đến khái niệm quan trọng văn y sinh học.” 3.2 Vấn đề thích nghi miền nhận dạng thực thể y sinh Một thách thức lớn toán NER liệu y sinh vấn đề thích ứng thích nghi miền liệu Các nghiên cứu NER y sinh học thường sử dụng tập nhỏ liệu gán nhãn để nghiên cứu thực nghiệm Vì tính chất phong phú hướng chun ngành liệu y sinh học, liệu thường hướng chủ đề hay có tính chất Hệ thống xây dựng phù hợp cho liệu thuộc chủ đề chưa hoạt động hiệu chuyển sang tập liệu thuộc chủ đề khác hay tập liệu trộn lẫn nhiều chủ đề khác nhau, 21 chúng liệu y sinh học có nhiều điểm tương đồng 3.3 Mơ hình nhận dạng thực thể biểu số thực thể liên quan 3.3.1 Dữ liệu đánh giá tài nguyên hỗ trợ a Tập liệu Phenominer A bệnh tự miễn dịch di truyền (autoimmune diseases) Tập liệu Phenominer A (gọi tắt Phenominer A) thu thập dựa hai tiêu chí sau:  Thứ nhất, tóm tắt PubMed Central (PMC) nói số 19 bệnh tự miễn dịch di truyền xác định trước Bệnh tự miễn dịch (autoimmune disease)  Thứ hai, để đảm bảo tóm tắt có liên kết định với kiểu hình, tóm tắt phải đảm bảo có chứa cụm từ kiểu hình b Tập liệu Phenominer B bệnh tim mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt Phenominer B) xây dựng tương tự với phần A, nhóm bệnh khác lựa chọn từ sở liệu kinh điển bệnh di truyền OMIM dùng để định hướng xây dựng Phenominer B Các bệnh lựa chọn bệnh tim mạch (cardiovascular diseases), 60 bệnh cụ thể sử dụng để thu thập liệu bệnh tim (cardiomyopathy), tăng huyết áp (hypertension), xơ vữa động mạch (atherosclerosis) 3.2.2 Mơ hình đề xuất 22 PHENOMIN ER A PHƯ ƠNG PHÁP CRF ME + BS PHENOMIN ER B Thực thể PH 71.16 75.24 73.14 72.19 78.03 75.00 GG 80.68 83.07 81.86 79.68 79.54 79.61 OR 72.54 79.13 75.69 81.13 77.08 79.05 CD 77.58 80.65 79.09 78.42 82.34 80.33 AN 74.22 81.94 77.89 72.65 78.69 75.55 DS 76.85 72.41 74.56 72.31 70.13 71.20 ALL (micro avg-F1) ALL (macro avg-F1) PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 ALL (micro avg-F1) ALL (macro avg-F1) 78.16 77.96 77.04 76.79 78.41 77.35 77.34 76.94 Hình 3.5 Mơ hình nhận dạng thực thể biểu thực thể liên quan 3.4 Thực nghiệm Bảng 3.4 Thực nghiệm so sánh phương pháp học máy khác Phenominer A Phenominer B 23 Tập KMR P h n g p h p Thực thể K h or da d et al PH G en ia Ta g ge r GG 71.36 75.58 73.41 71.13 72.57 71.84 Li ne au s OR 56.81 57.28 57.04 54.81 55.39 55.10 T ển PH 51.24 50.91 51.07 57.31 52.71 54.91 T ển GG 87.29 60.44 71.42 79.24 62.17 69.67 T ển CD 91.49 56.07 69.53 87.24 55.43 67.79 T ển AN 83.46 50.13 62.64 84.57 48.77 61.86 T ển DS 57.82 34.27 43.03 51.25 31.04 38.66 M PH 73.72 76.06 74.87 74.68 78.13 76.37 65.89 57.44 64.28 60.34 62.25 61.38 24 90.74 88.44 87.26 82.35 86.37 84.19 E M + B S GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 Mmicro avg-F1 78.41 78.35 Macro avg-F1 77.34 76.94 3.5 Thích ứng miền liệu nhận dạng thực thể y sinh 3.5.1 Thực nghiệm  M1: IN DOMAIN - Kiểm thử miền  M2: OUT DOMAIN - Kiểm thử miền  M3: MIX-IN - Trộn lẫn liệu để huấn luyện  M4: STACK - Xếp chồng liệu huấn luyện  M5: BINARY CLASS - Lớp nhị phân  M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặc trưng H Daume III đề xuất năm 2007 [DA07] 3.4.2 Kết đánh giá Bảng 3.7 Kết F1 hệ thống NER sử dụng phương pháp thực nghiệm 1-6 AN CD DS 57.1 29.5 80.4 GG PH OR 68.4 25 A L L 34.3 26.9 50.8 57.7 55.6 26.9 77.9 71.7 39.7 72.2 74.1 44.1 70.8 72.7 41.5 72.8 73.4 44.9 69.9 57.2 46.5 73.2 52.3 24.4 68.5 56.3 17.4 56.7 29.6 57.1 27.7 37.2 31.3 21.2 20.2 36.8 38.7 72.3 61.1 34.8 34.4 72.5 57.5 45.9 74.7 34.1 41.6 73.6 58.9 43.2 78.5 73.3 56.4 46.6 39.9 77.3 72.9 77.4 8 5 5 MH: Mơ hình (M1-M6 tương ứng với mơ hình 1-6) DL: Dữ liệu (A: Phenominer A bệnh tự miễn dịch B: Phenominer B bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR kết tương ứng với loại thực thể Cột ALL đưa kết toàn hệ thống, F1 micro average F1 26 Chương – MỘT MƠ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1 Mơ hình nâng cấp nhận dạng thực thể biểu thực thể liên quan Hình 4.1 Kiến trúc tổng quan hệ thống NER y sinh học 4.2 Các phương pháp lai ghép đề xuất 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp lai ghép nêu kỹ thuật sử dụng luật heuristic, đó, việc định kết thực cách sử dụng danh sách ưu tiên theo thứ tự sau DS>PH>GG>CD>AN>OR>O 27 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi Trong phương án cải tiến này, kết gán nhãn sử dụng đặc trưng để huấn luyện giải mã mơ hình Tuy nhiên, phương pháp lại có nhược điểm MEM + BS xử lý liệu dạng gán nhãn chuỗi lần nên khơng xem xét có xảy trường hợp nhập nhằng hay khơng, tức dù có hay khơng xảy xung đột nhãn, mô-đun định kết MEM + BS tiến hành gán lại toàn chuỗi 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng Bước phương pháp học xếp hạng tương tự phương pháp danh sách ưu tiên, kết đầu từ gán nhãn duyệt qua mô-đun xác định trường hợp nhập nhằng, không xảy xung đột, kết đưa thành kết 28 cuối Để xử lý trường hợp nhập nhằng, mơ hình giải nhập nhằng học xếp hạng sử dụng để lựa chọn nhãn có trọng số lớn làm nhãn cuối kết đầu 4.3 Thực nghiệm đánh giá kết Bảng 4.2 Kết mơ hình tập liệu Phenominer A sử dụng phương pháp khác để lai ghép kết Đơn mơ hình MEM + BS Ghép nối MEM + BS Danh sách ưu tiên Học xếp hạng SVM F PH 73.7 76.1 74.9 74.1 76.0 75.0 73.3 68.2 70.7 74.3 OR 72.8 78.1 75.4 79.1 80.5 79.8 82.4 80.6 81.5 80.2 AN 72.4 82.5 77.1 72.8 78.1 75.4 62.1 65.9 63.9 70.2 77.2 73.5 GG 82.5 81.5 82.0 82.6 81.7 82.1 79.3 75.4 77.3 82.5 81.9 82.2 CD 79.6 81.3 80.4 72.4 82.5 77.1 69.4 71.6 70.5 79.6 80.8 80.2 DS 75.8 72.9 74.3 75.9 73.0 74.4 71.9 70.4 71.1 75.7 73.2 74.4 ALL 78.4 79.2 76.4 81.1 74.9 KẾT LUẬN Các kết luận án Đề xuất mơ hình kết hợp nhận dạng đồng thời thực thể thuộc tính liên quan đến thực thể Xây dựng hệ thống hỏi đáp tự động ứng dụng mơ hình nhận dạng thực thể thuộc tính đề xuất Góp phần mở rộng khung cấu trúc thực thể y sinh, thống tổng quát lại định nghĩa thực thể y sinh học có liên quan đến bệnh, hóa chất, gene, sinh vật, kiểu 29 75.3 79.9 hình phân thể Đề xuất mơ hình giải tốn nhận dạng thực thể biểu thực thể liên quan Đưa so sánh, nhận định vấn đề thích nghi miền liệu việc nhận dạng thực thể y sinh, kết cho phép nghiên cứu sau nhận dạng thực thể biểu có khung nhìn tổng qt q trình chọn lựa liệu huấn luyện đánh giá Nâng cao chất lượng nhận dạng thực thể biểu thực thể y sinh liên quan kỹ thuật lai ghép, kết hợp nhiều mơ hình nhận dạng khác 30 ... biểu  Chương trình bày tốn nhận dạng thực thể ứng dụng nhận dạng thực thể vào toán hỏi đáp tự động văn tiếng Việt  Chương trình bày mơ hình nhận dạng thực thể biểu thực thể liên quan vấn đề thích... pháp hay mơ hình nhận dạng thực thể hiệu Chương – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT 2.1 Giới thiệu Tên người thông tin liên... tiêu cụ thể phạm vi nghiên cứu luận án mô tả kỹ phần Mục tiêu cụ thể phạm vi nghiên cứu luận án Luận án tập trung vào toán nhận dạng thực thể với hai loại liệu thuộc hai ngôn ngữ khác thực thể thuộc

Ngày đăng: 26/04/2021, 03:50