Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩaHọc máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ HỌC MÁY DỰA TRÊN ĐỒ THỊ TRÍCH CHỌN QUAN HỆ NGỮ NGHĨA Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 Công trình hoàn thành tại: Trường Đại họ Công nghệ Đại họ Quố gi H Nội Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy PGS.TS Nguyễn Lê Minh Phản biện:……………………………………………… Phản biện:……………………………………………… Phản biện:……………………………………………… Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi ng y tháng năm Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN [TMV1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014) The impact of near domain transfer on biomedical named entity recognition LOUHI 2014, EACL 2014, Sweden, 2014 [TMV2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz-Schuhmann (2013) Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking PLoS ONE 8(10): e72965, October 2013 [TMV3] Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, VanThuy Phi and Thanh-Binh Pham (2013) Exploing a Probabilistic Earley Parser for Event Composition in Biomedical Texts, BIONLP-ST:130-134 [TMV4] Mai-Vu Tran, Duc-Trong Le (2013) vTools: Chunker and Part-of-Speech tools, RIVF- VLSP 2013 Workshop [TMV5] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich RebholzSchuhmann (2012) A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662 [TMV6] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and TienTung Nguyen (2012) A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012 i [TMV7] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, Xuan-Hieu Phan (2012) VnLoc (2012) A Real–time News Event Extraction Framework for Vietnamese, KSE'2012:161-166, Da Nang, August 17-19, 2012 [TMV8] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha (2011) A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews APSCC 2011: 503-508 [TMV9] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011) An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text IALP 2011:115-118 [TMV10] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le (2010) Automatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations IALP 2010: 170-173 [TMV11] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010) User Interest Analysis with Hidden Topic in News Recommendation System IALP 2010: 211-214 [TMV12] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015) The UET-CAM System in the BioCreAtIvE V CDR Task In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain ii MỞ ĐẦU Lý chọn đề tài Nhận dạng thực thể (Named entity recognition; NER) toán thuộ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Đây l toán tiền đề cho hệ thống hiểu ngôn ngữ hay khai phá văn hệ thống trích xuất kiện, hệ thống hỏi đáp tự động, hệ thống tìm kiếm ngữ nghĩ Chính vậy, với phát triển liệu văn Internet b i toán n y ũng nhận quan tâm cộng đồng nghiên cứu khoảng 20 năm trở lại Mặ dù ó nhiều công trình nghiên cứu nhiên hầu hết nghiên cứu tập trung cho số loại thực thể thông thường văn tiếng Anh chuẩn Những nghiên cứu liên quan đến thực thể ngôn ngữ tiếng Việt hay miền liệu đặc biệt miền liệu y sinh nhiều hạn chế thách thức Có thể kể đến khuyết thiếu tập liệu gán nhãn chuẩn, tài nguyên ngôn ngữ tri thức miền h y định nghĩ hình thức kiểu thực thể cần nhận dạng… Luận án tiếp nối nghiên cứu trướ nhằm giải phần hạn chế nêu Mục tiêu cụ thể phạm vi nghiên cứu luận án Luận án tập trung vào toán nhận dạng thực thể với hai loại liệu thuộc hai ngôn ngữ khác thực thể thuộc liệu văn tiếng Việt thực thể thuộc liệu văn y sinh học Mục tiêu cụ thể luận án phát triển vấn đề đề xuất giải pháp xây dựng thực nghiệm cho việc nhận dạng loại thực thể thuộc hai miền liệu Cụ thể, luận án giải đáp vấn đề nghiên cứu s u đây: • Làm rõ khái niệm trích xuất thông tin, nhận dạng thực thể • Tìm hiểu lịch sử nghiên cứu ũng khảo sát nghiên cứu tiêu biểu b i toán đ ng quan tâm • Khảo sát v đư r phương án xử lý đặ điểm riêng biệt với liệu tiếng Việt liệu y sinh họ văn tiếng Anh • Đề xuất phương án tiếp cận tận dụng nghiên cứu trướ v tiếp cận giải đặ điểm riêng biệt miền liệu đ ng xem xét • Xây dựng liệu phục vụ cho thực nghiệm • Xây dựng thực nghiệm để đánh giá mô hình giải b i toán đề xuất • Xây dựng hệ thống chạy thực tế mô hình đạt kết khả quan • Định hướng phát triển nâng cấp nghiên cứu Đóng góp luận án Về nghiên cứu lý thuyết, luận án tập trung đề xuất số giải pháp liên qu n đến hai toán nhận dạng thực thể cho liệu văn tiếng Việt liệu văn y sinh tiếng Anh Các giải pháp tập trung vào vấn đề kết hợp mô hình họ máy ũng tri thức nguồn liên qu n đến miền liệu nhằm nâng cao hiệu đầu r toán Kết củ mô hình đạt hiệu khả quan áp dụng hệ thống chạy thực tế Về triển khai ứng dụng, luận án đề xuất thi hành mô hình hỏi đáp tự động tiếng Việt dựa nhận dạng thực thể [TMV6] Xây dựng hệ thống tra cứu tham khảo mối quan hệ thực thể kiểu hình – bệnh PhenoMiner (tại địa http://phenominer.mml.cam.ac.uk/) Cấu trúc luận án Chương luận án hệ thống lại lý thuyết nhận dạng thực thể ũng khảo sát lịch sử nghiên cứu v điểm lại số nghiên cứu tiêu biểu Chương trình bày toán nhận dạng thực thể ứng dụng nhận dạng thực thể vào toán hỏi đáp tự động văn tiếng Việt Chương trình bày mô hình nhận dạng thực thể kiểu hình thực thể liên qu n ũng vấn đề chuyển đổi miền tập liệu y sinh học Chương 4, luận án giới thiệu kỹ thuật nâng cấp hiệu củ mô hình đề xuất hương kỹ thuật lai ghép mô hình (ensemble models) dựa tri thức dựa họ máy để nhận dạng thực thể văn y sinh tiếng Anh Phần kết luận tổng hợp kết đạt nêu lên số hạn chế luận án v đồng thời trình bày số định hướng nghiên cứu tương l i CHƢƠNG – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1 Một số khái niệm 1.1.1 Định nghĩa toán nhận dạng thực thể Luận án sử dụng định nghĩ toán nhận dạng thực thể phát biểu Aggarwal Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) toán xác định thực thể định danh từ văn dạng tự phân lớp chúng vào tập kiểu định nghĩa trước người, tổ chức địa điểm.” 1.1.2 Thách thức Tuy b i toán nhận dạng thực thể ũng gặp phải không thách thức cần giải phong phú nhập nhằng ngôn ngữ Ví dụ, "JFK" tới người "John F Kennedy” đị điểm "sân bay quốc tế JFK", loại khác có dạng viết tắt Tương tự “Sông L m Nghệ An” ó thể đị điểm tên sông tỉnh Nghệ An hay tên đội bóng “Sông L m Nghệ An” Để xá định loại cho thực thể "JFK" h y“Sông L m Nghệ An” xuất tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa Bên cạnh yếu tố ngữ nghĩ yếu tố liên qu n đến đặc trưng ngôn ngữ ũng góp phần làm toán nhận dạng thực thể trở nên khó khăn Một số ngôn ngữ tiếng Việt việc thiếu tài nguyên xử lý ngôn ngữ tự nhiên phải thực số toán on tá h từ trước nhận dạng thực thể, tỷ lệ lỗi toán ảnh hưởng đến kết toán nhận dạng thực thể Ngoài ra, loại thực thể ũng ó thách thức riêng khác ảnh hưởng đến hiệu mô hình nhận dạng 1.1.3 Độ đo đánh giá Các số đo đánh giá điển hình sử dụng cho nhận dạng thực thể l độ xác (precision - P) độ hồi tưởng (recall - R) độ đo F1 (F1-me sure) Độ hính xá tính phần trăm kết tổng số kết nhãn dương hệ thống 1.1.4 Ứng dụng nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất số ứng dụng sau: • Trích xuất quan hệ toán nhận diện mối quan hệ ngữ nghĩ hai thực thể hay thực thể khái niệm [GLR06] Thành phần nhận diện thực thể l ph trước giải vấn đề xá định quan hệ • Trích xuất kiện toán phức tạp trích xuất quan hệ kiện tổ hợp nhiều yếu tố thể thông tin biểu diễn i/ l m với ai/cái gì, bao giờ, đâu cách s o Tương tự trí h xuất quan hệ, trích xuất kiện vấn đề nhận dạng thực thể ũng đặt lên h ng đầu yêu cầu phải nhận r đủ xác thành phần cấu thành nên kiện • Khá nhiều hệ thống hỏi đáp tự động dựa khai phá văn cần đến nhận dạng thực thể l yếu tố làm tăng khả phân tí h hiểu câu hỏi liệu trả lời hệ thống [HWY05] 1.2 Lịch sử nghiên cứu số hƣớng tiếp cận giải toán 1.2.1 Lịch sử nghiên cứu nhận dạng thực thể Bài toán nhận dạng thực thể xuất từ đầu năm 90 [RA91] hỉ thức giới thiệu v o năm 1995 hội nghị MUC-6 với tư h l toán trích xuất thông tin [GS96] Kể từ NER thu hút nhiều ý cộng đồng nghiên cứu Đã ó nhiều hệ thống v hương trình xây dựng thực thi toán này, kể đến Automatic Content Extraction1, công bố nhiệm vụ cộng đồng thuộc hội nghị Conferen e on N tur l L ngu ge Le rning (CoNLL) năm 2002 v 2003 [TD03], chuỗi nhiệm nhận dạng thực thể y sinh hội thảo BioCreative2 (Critical Assessment of Information Extraction Systems in Biology) 1.2.2 Một số nghiên cứu tiêu biểu nhận dạng thực thể sử dụng học máy thống kê Các nghiên cứu đạt hiệu o nhận dạng thực thể thường dựa kỹ thuật học máy thống kê hầu hết số Automatic content extraction (ACE) evaluation http://www.itl.nist.gov/iad/mig/tests/ace/ http://www.biocreative.org/ entropy l độ đo tính đồng hay tính không chắn phân phối xác suất, phân phối xác suất có Entropy cao phân phối củ ng 2.2.2 Phương pháp trường ngẫu nhiên có điều kiện (CRF) Trường ngẫu nhiên ó điều kiện (Conditional Random Fields, CRF) một mô hình rời rạc dự ý tưởng gốc từ mô hình Markov ẩn (Hidden M rkov Model HMM) [RA89] v cải thiện để khắc phụ nhượ điểm củ HMM ũng mô hình markov entropy cự đại (Maximum Entropy Markov Model, MEMM) [MFP00] CRF giới thiệu Lafferty cộng cho toán trích xuất thông tin [LMP01] Tính ưu việt CRF so với HMM thể việ ướ lượng phân phối xác suất có điều kiện theo trình tự gán nhãn tính ưu việt n y chứng minh qua nhiều nghiên cứu [ML03 SE04]) v ho đến CRF đ ng l phương pháp họ máy ứng dụng nhiều lĩnh vực NLP 2.3.3 Mô hình đề xuất Mô hình đượ đề xuất gồm ó b ph hính mô hình hó hình 2.3 Đầu vào mô hình âu văn v đầu r l âu gán nhãn dựa mô hình nhận dạng Hình 2.3 Mô hình tích hợp NER trích chọn thuộc tính thực thể tên người 10 Pha 1: Huấn luyện mô hình Pha 2: Gán nhãn liệu dựa mô hình nhân dạng thực thể thuộc tính Pha - Lọc câu lọc liệu đượ gán nhãn thu pha giữ lại câu nhãn phù hợp 2.2.3 Tập đặc trưng Bảng 2.3 Tập đặc trưng sử dụng STT Đặc trƣng Ký hiệu Từ đ ng xét W0 Nhãn từ loại ủ từ đ ng xét (POS) POS (W0) Từ đ ng xét l hữ thường viết ho đầu từ h y viết ho to n bộ? Is_Lower(0,0) Is_Initial_Cap (0,0) 11 Is_All_Cap (0,0) Ngữ ảnh Wi (i = -2,-1,1,2)) Liên kết từ vựng Syllable_Conj (-2,2)) Biểu thứ hính quy Nhận dạng tiếng Việt Regex(0,0) Is_Valid_Vietnamese_Syllable(0,0) dict:name, dict:first_name Từ điển dict:vname dict:vfirst_name prefix:per Tiền tố prefix:loc prefix:org 2.4 Thực nghiệm, kết đánh giá Thực nghiệm tiến hành 10.000 âu thu thập từ Wikipedia3 tiếng Việt Cá âu n y gán nhãn thủ công để phục vụ cho huấn luyện kiểm thử Đánh giá dựa độ đo hính xá (P) độ đo hồi tưởng (R) v độ đo F với phương pháp kiểm thử chéo 10 lần Kết xem xét mức tổng thể cho thuộc tính Kết thực nghiệm đánh giá toàn hệ thống: Bảng 2.4 Kết đánh giá toàn hệ thống hai phương pháp MEM+BS CRF MEM + BS (beam=3) Độ hính xá Độ hồi tưởng Đô đo F 83.72 82.54 83.13 http://vi.wikipedia.org/ 12 CRF 84 82.56 83.39 Kết thực nghiệm đánh giá nhãn Bảng 2.5 Kết thực nghiệm nhãn STT Nhãn P (%) R (%) F (%) STT Nhãn P (%) R (%) F (%) OPer 91.35 90.33 90.84 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 2.3 Một mô hình hỏi đáp tên ngƣời áp dụng nhận dạng thực thể tiếng Việt 2.3.1 Khái quát toán Trong tiếng Việt, câu hỏi người thường chứa từ để hỏi như: ai, là, ai, ai, ai, người nào… Hệ thống QA xây dựng luận án yêu cầu đầu vào câu hỏi đơn giản (factoid question) tiếng Việt với kết trả lời l tên người Có thể xem câu hỏi đầu vào hệ thống dạng câu hỏi 13 WHO/WHOM/WHOSE tiếng Anh Các khái niệm liên quan đến câu hỏi đơn giản v đặ trưng câu hỏi tiếng Việt giới thiệu phần 3.3.1 2.3.2 Đặc trưng câu hỏi liên quan đến thực thể người tiếng Việt Dạng hai lớp tân ngữ có câu trúc sau: - Chủ thể + H nh động + Tân ngữ trực tiếp - Tân ngữ trực tiếp + Chủ thể + H nh động Tân ngữ trực tiếp + H nh động + Chủ thể Dạng ba lớp tân ngữ có cấu trúc sau: - Cấu trúc 1: Chủ thể + H nh động + Tân ngữ trực tiếp + Tân ngữ gián tiếp - Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp 2.3.3 Mô hình đề xuất Mô hình hỏi đáp thực thể tên người cho tiếng Việt đượ đề xuất v đặt tên VPQA Mô hình sử dụng phương pháp phân tích câu hỏi kỹ thuật học máy CRF với chiến lược trả lời tự động dự thông tin truy vấn từ máy tìm kiếm Mô hình tổng quát hệ thống nêu hình 2.4 Hình 2.4 Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt 14 2.3.4 Phương pháp liệu đánh giá mô hình hỏi đáp tự động Có nhiều phương pháp để đánh giá kết hệ thống hỏi đáp tự động, nghiên ứu sinh chọn phương pháp đánh giá phổ biến l nhóm b độ đo gồm độ đo hính xá độ đo hồi tưởng độ đo F ũng l độ đo sử dụng chuỗi nhiệm vụ TREC [Vo03] Tập liệu đánh giá b o gồm 1000 câu hỏi xây dựng gán nhãn thủ công Các câu hỏi dạng câu hỏi đơn giản hỏi thực thể người v gán nhãn thành 2.3.5 Thực nghiệm đánh giá 15 a Thực nghiệm đánh giá hiệu phân tích câu hỏi Bảng 2.10 Kết đánh giá thành phần phân tích câu hỏi Độ xác Độ hồi tƣởng Độ đo F Fold 89.7 90.2 89.95 Fold 94.1 95.05 94.57 Fold 96.4 96.83 96.61 Fold 93.07 94.23 93.64 Fold 94.58 96.11 95.33 Fold 92.43 93.45 92.93 Fold 91.3 92.67 91.98 Fold 88.35 89.45 88.89 Fold 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình 92.475 93.51 92.99 b Thực nghiệm đánh giá hiệu trả lời tự động mô hình hỏi đáp Bảng 2.11 Kết đánh giá hệ thống trả lời tự động Top Top Top T (ms) P R F P R F P R F Baseline 62 54.36 42.13 47.47 60.19 45.59 51.88 62.78 50.12 55.74 KLB 58 79.68 55.6 65.50 89.39 60.3 72.02 90.03 60.2 72.15 SEB 28059 71.44 90 79.65 72.18 91.3 80.62 73.17 91.7 81.39 KLB+SEB 11630 74.63 87.9 80.72 79.62 89.3 84.18 80.02 91.1 85.20 16 Chƣơng – NHẬN DẠNG THỰC THỂ KIỂU HÌNH TRONG VĂN BẢN Y SINH TIẾNG ANH 3.1 Giới thiệu Dưới l định nghĩ nhận dạng thực thể y sinh [TMV5] “Nhận dạng thực thể y sinh (Biomedical NER) (nhóm) kỹ thuật tính toán dùng để nhận dạng phân lớp chuỗi văn đến khái niệm quan trọng văn y sinh học.” 3.2 Vấn đề chuyển đổi miền nhận dạng thực thể y sinh Một thách thức lớn nữ toán NER liệu y sinh vấn đề thích ứng chuyển đổi miền liệu Các nghiên cứu NER y sinh họ thường sử dụng tập nhỏ liệu đượ gán nhãn để nghiên cứu thực nghiệm Vì tính chất phong phú v hướng chuyên ngành liệu y sinh học, liệu thường hướng chủ đề hay có tính chất n o Hệ thống xây dựng phù hợp cho liệu thuộc chủ đề n y hư hắc hoạt động hiệu chuyển sang tập liệu thuộc chủ đề khác hay tập liệu trộn lẫn nhiều chủ đề khác nhau, húng liệu y sinh học có nhiều điểm tương đồng 17 3.3 Mô hình nhận dạng thực thể kiểu hình số thực thể liên quan 3.3.1 Dữ liệu đánh giá tài nguyên hỗ trợ a Tập liệu Phenominer A bệnh tự miễn dịch di truyền (autoimmune diseases) Tập liệu Phenominer A (gọi tắt l Phenominer A) thu thập dựa hai tiêu chí sau: Thứ nhất, tóm tắt PubMed Central (PMC) nói số 19 bệnh tự miễn dịch di truyền đượ xá định trước Bệnh tự miễn dịch (autoimmune disease) Thứ h i để đảm bảo tóm tắt có liên kết định với kiểu hình, tóm tắt phải đảm bảo có chứa cụm từ kiểu hình b Tập liệu Phenominer B bệnh tim mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt l Phenominer B) xây dựng tương tự với phần A, nhóm bệnh khác lựa chọn từ sở liệu kinh điển bệnh di truyền OMIM dùng để định hướng xây dựng Phenominer B Các bệnh lựa chọn bệnh tim mạch (cardiovascular diseases), 60 bệnh cụ thể sử dụng để thu thập liệu bệnh tim ( rdiomyop thy) tăng huyết áp (hypertension) xơ vữ động mạch (atherosclerosis) 3.2.2 Mô hình đề xuất PHENOMINER A PHƢƠNG PHÁP CRF PHENOMINER B Thự thể P R F P R F PH 71.16 75.24 73.14 72.19 78.03 75.00 18 GG 80.68 83.07 81.86 79.68 79.54 79.61 OR 72.54 79.13 75.69 81.13 77.08 79.05 CD 77.58 80.65 79.09 78.42 82.34 80.33 AN 74.22 81.94 77.89 72.65 78.69 75.55 DS 76.85 72.41 74.56 72.31 70.13 71.20 ALL (micro avg-F1) 78.16 77.96 ALL (macro avg-F1) 77.04 76.79 ME + BS PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 ALL (micro avg-F1) 78.41 77.35 ALL (macro avg-F1) 77.34 76.94 Hình 3.5 Mô hình nhận dạng thực thể kiểu hình thực thể liên quan 3.4 Thực nghiệm Bảng 3.4 Thực nghiệm so sánh phương pháp học máy khác Phenominer A Phenominer B Tập KMR Phƣơng pháp Thực thể P R F P R F P R F Khordad et al PH 65.89 57.44 61.38 64.28 60.34 62.25 90.74 88.44 89.58 Genia Tagger GG 71.36 75.58 73.41 71.13 72.57 71.84 Lineaus OR 56.81 57.28 57.04 54.81 55.39 55.10 Từ điển PH 51.24 50.91 51.07 57.31 52.71 54.91 87.26 82.35 84.73 Từ điển GG 87.29 60.44 71.42 79.24 62.17 69.67 19 Từ điển CD 91.49 56.07 69.53 87.24 55.43 67.79 Từ điển AN 83.46 50.13 62.64 84.57 48.77 61.86 Từ điển DS 57.82 34.27 43.03 51.25 31.04 38.66 PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 86.37 84.19 MEM + BS Mmicro avg-F1 78.41 78.35 Macro avg-F1 77.34 76.94 3.5 Thích ứng miền liệu nhận dạng thực thể y sinh 3.5.1 Thực nghiệm M1: IN DOMAIN - Kiểm thử miền M2: OUT DOMAIN - Kiểm thử miền M3: MIX-IN - Trộn lẫn liệu để huấn luyện M4: STACK - Xếp chồng liệu huấn luyện M5: BINARY CLASS - Lớp nhị phân M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặ trưng H Daume III đề xuất năm 2007 [DA07] 3.4.2 Kết đánh giá Bảng 3.7 Kết F1 hệ thống NER sử dụng phương pháp thực nghiệm 1-6 MH DL AN CD DS GG PH OR ALL M1 A 57.1 29.5 80.4 74 46 68.4 69.9 20 85.27 M2 A 34.3 26.9 57.7 55.6 26.9 64 50.8 M3 A 50.8 20 77.9 71.7 39.7 72.2 67.3 M4 A 56.3 17.4 79 74.1 44.1 70.8 69.8 M5 A 56.7 29.6 77.3 72.7 41.5 72.8 68.3 M6 A 57.1 27.7 79 73.4 44.9 69.9 69.5 M1 B 37.2 31.3 72.9 57.2 46.5 73.2 58.5 M2 B 21.2 20.2 57 52.3 24.4 68.5 46.6 M3 B 36.8 38.7 72.3 61.1 44 77.4 59.7 M4 B 34.8 34.4 72.5 57.5 45.9 74.7 58.5 M5 B 34.1 41.6 73.6 58.9 43.2 78.5 59.6 M6 B 39.9 35 73.3 56.4 46.6 75 59.1 MH: Mô hình (M1-M6 tương ứng với mô hình 1-6) DL: Dữ liệu (A: Phenominer A bệnh tự miễn dịch B: Phenominer B bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR kết tương ứng với loại thực thể Trong số hàng F1 hai số đưa dấu ngoặc đơn P R Cột ALL đưa kết toàn hệ thống, F1 micro average F1 21 Chƣơng – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1 Mô hình nâng cấp nhận dạng thực thể kiểu hình thực thể liên quan Hình 4.1 Kiến trúc tổng quan hệ thống NER y sinh học 4.2 Các phƣơng pháp lai ghép đƣợc đề xuất 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp l i ghép đượ nêu r kỹ thuật sử dụng luật heuristic, việc định kết thực cách sử dụng d nh sá h ưu tiên theo thứ tự s u DS>PH>GG>CD>AN>OR>O 22 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi Trong phương án ải tiến này, kết gán nhãn sử dụng đặ trưng để huấn luyện giải mã mô hình Tuy nhiên phương pháp n y lại ó nhượ điểm MEM + BS xử lý liệu dạng gán nhãn chuỗi lần nên không xem xét có xảy r trường hợp nhập nhằng hay không, tức dù có hay không xảy r xung đột nhãn, mô-đun định kết MEM + BS tiến hành gán lại toàn chuỗi 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng Bướ phương pháp học xếp hạng tương tự phương pháp d nh sá h ưu tiên kết đầu từ gán nhãn ũng duyệt qua mô-đun xá định trường hợp nhập nhằng, không xảy r xung đột, kết đượ đư ng y th nh kết cuối ùng Để xử lý trường hợp nhập nhằng, mô hình giải nhập nhằng học xếp hạng sử dụng để lựa chọn nhãn có trọng số lớn làm nhãn cuối kết đầu 4.3 Thực nghiệm đánh giá kết Bảng 4.2 Kết mô hình tập liệu Phenominer A sử dụng phương pháp khác để lai ghép kết Đơn mô hình MEM + BS Danh sách ƣu tiên Ghép nối MEM + BS Học xếp hạng SVM P R F P R F P R F P R F PH 73.7 76.1 74.9 74.1 76.0 75.0 73.3 68.2 70.7 74.3 76.4 75.3 OR 72.8 78.1 75.4 79.1 80.5 79.8 82.4 80.6 81.5 80.2 82 81.1 23 AN 72.4 82.5 77.1 72.8 78.1 75.4 62.1 65.9 63.9 70.2 77.2 73.5 GG 82.5 81.5 82.0 82.6 81.7 82.1 79.3 75.4 77.3 82.5 81.9 82.2 CD 79.6 81.3 80.4 72.4 82.5 77.1 69.4 71.6 70.5 79.6 80.8 80.2 DS 75.8 72.9 74.3 75.9 73.0 74.4 71.9 70.4 71.1 75.7 73.2 74.4 ALL − − 78.4 − − 79.2 − − 74.9 − − 79.9 KẾT LUẬN Các kết luận án Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể thuộ tính liên qu n đến thực thể Xây dựng hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực thể thuộ tính đượ đề xuất Góp phần mở rộng khung cấu trúc thực thể y sinh, thống tổng quát lại định nghĩ thực thể y sinh học có liên qu n đến nh u bệnh, hóa chất, gene, sinh vật, kiểu hình phân thể Đề xuất mô hình giải toán nhận dạng thực thể kiểu hình thực thể liên quan Đư r so sánh nhận định vấn đề chuyển đổi miền liệu việc nhận dạng thực thể y sinh, kết cho phép nghiên cứu sau nhận dạng thực thể kiểu hình có khung nhìn tổng quát trình chọn lựa liệu huấn luyện v đánh giá Nâng cao chất lượng nhận dạng thực thể kiểu hình thực thể y sinh liên quan kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác 24 [...]... thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: - Chủ thể + H nh động + Tân ngữ trực tiếp - Tân ngữ trực tiếp + Chủ thể + H nh động Tân ngữ trực tiếp + H nh động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: - Cấu trúc 1: Chủ thể + H nh động + Tân ngữ trực tiếp + Tân ngữ gián tiếp - Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp 2.3.3 Mô hình đề xuất Mô hình hỏi... đó số ở hàng trên là F1 và hai số đưa ra trong dấu ngoặc đơn lần lượt là P và R Cột ALL đưa ra kết quả của toàn hệ thống, F1 là micro average F1 21 Chƣơng 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1 Mô hình nâng cấp nhận dạng thực thể kiểu hình và các thực thể liên quan Hình 4.1 Kiến trúc tổng quan của hệ thống NER y sinh học 4.2 Các phƣơng... bằng kỹ thuật học máy CRF cùng với chiến lược trả lời tự động dự trên thông tin được truy vấn từ máy tìm kiếm Mô hình tổng quát của hệ thống được nêu ra trong hình 2.4 Hình 2.4 Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt 14 2.3.4 Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi đáp tự động, ở đây nghiên ứu sinh chọn phương pháp... người [SJ09] Ngoài ra, việc trích chọn thực thể tên người cùng với các thuộc tính của chúng ũng góp một phần quan trọng để mở rộng á ơ sở dữ liệu và ontology 2.2 Cơ sở lý thuyết và mô hình đề xuất 2.2.1 Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) Mô hình Entropy cự đại (Maximum Entropy Model, Maxent Model) [BPP96] là một thuật toán học máy thông dụng dựa trên xác suất ó điều kiện được... âu n y được gán nhãn thủ công để phục vụ cho huấn luyện và kiểm thử Đánh giá dựa trên á độ đo hính xá (P) độ đo hồi tưởng (R) v độ đo F với phương pháp kiểm thử chéo 10 lần Kết quả được xem xét ở cả mức tổng thể và cho từng thuộc tính Kết quả thực nghiệm đánh giá trên toàn hệ thống: Bảng 2.4 Kết quả đánh giá toàn hệ thống trên hai phương pháp MEM+BS và CRF MEM + BS (beam=3) 3 Độ hính xá Độ hồi tưởng... kiếm thường xuyên nhất trên các công cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về đôi khi òn rất mơ hồ Vì vậy, nhu cầu về một hệ thống đầy đủ thông tin, chính xác và tập trung vào thực thể người là rất lớn Thực thể tên người luôn gắn liền với một số các thuộ tính [SJ09 JAJ10] đó l á đặ trưng hoặc tính chất của một thực thể và trích chọn thuộc tính là trích chọn á đặ trưng hoặc... được nhiều nhà khoa học trong nước quan tâm Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩ với việ đặt một nền tảng quan trọng trong việc xây dựng 7 được các hệ thống ứng dụng cho nhiều lĩnh vự khá như t i hính kinh tế, xã hội, y sinh học, v.v phù hợp với tình hình trong nước 1.4 Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan Hiện nay, số lượng á văn bản... ó b ph hính được mô hình hó trong hình 2.3 Đầu vào của mô hình là từng âu trong văn bản v đầu r l á âu đã được gán nhãn dựa trên mô hình nhận dạng Hình 2.3 Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người 10 Pha 1: Huấn luyện mô hình Pha 2: Gán nhãn dữ liệu dựa trên mô hình nhân dạng thực thể và thuộc tính Pha 3 - Lọc câu lọc dữ liệu đã đượ gán nhãn thu được ở pha 2 và chỉ giữ lại... ho văn bản y sinh học (Biomedical Natural Language Pro essing; BioNLP) đã m ng đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh học, có thể kể đến những ơ sở dữ liệu hay ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên cứu sinh v h y bá sĩ h y những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đ ng phát triển trên thế giới Trong những hệ thống đấy, nhận... dạng điện tử trên Internet ũng như đượ lưu trữ trong các hệ thống y tế đ ng tăng với tố độ chóng mặt Việc khai thác hiệu quả nguồn tài nguyên này có thể đư tới nguồn tri thức hữu í h ho người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu á ơ hế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng, v.v Những nghiên cứu liên qu n đến xử lý ngôn ngữ tự nhiên