Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CĨ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chun ngành: Hệ thống thơng tin Mã số: 62.48.05.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2018 Cơng trình được hồn thành tại: Trương Đai hoc Cơng ̀ ̣ ̣ nghê, Đai hoc Qc gia Ha Nơi ̣ ̣ ̣ ́ ̀ ̣ Thụy Người hướng dẫn khoa học: PGS.TS Hà Quang PGS.TS. Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS. Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại vào hồi 9 giờ ngày 07 tháng 02 năm 2018 Nội Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thơng tin Thư viện, Đại học Quốc gia Hà a DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ CĨ LIÊN QUAN ĐẾN LUẬN ÁN [CTLA1] Nigel Collier, Ferdinand Paster, MaiVu Tran (2014) The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014 [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz Schuhmann (2013). Learning to Recognize Phenotype Candidates in the AutoImmune Literature Using SVM ReRanking. PLoS ONE 8(10): e72965, October 2013 [CTLA3] MaiVu Tran, DucTrong Le (2013). vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012) A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662 [CTLA5] MaiVu Tran, DucTrong Le, XuanTu Tran and TienTung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012 [CTLA6] HoangQuynh Le, MaiVu Tran, NhatNam Bui, NguyenCuong Phan, QuangThuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115118 [CTLA7] HoangQuynh Le, MaiVu Tran, Thanh Hai Dang, Nigel Collier (2015). The UETCAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015 MỞ ĐẦU b Lý do chọn đề tài Nhận dạng thực thể có tên (Named entity recognition: NER; cịn được gọi là “nhận dạng thực thể định danh”) là một bài tốn chính thuộc lĩnh vực xử lý ngơn ngữ tự nhiên (NLP). Đây là một bài tốn tiền đề cho các hệ thống về hiểu ngơn ngữ hay khai phá văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với phát triển của dữ liệu văn bản trên Internet, bài tốn này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây. c Mặc dù đã có khá nhiều cơng trình nghiên cứu cho một số loại thực thể thơng thường trong văn tiếng Anh chuẩn nhiên nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế thách thức Có thể kể đến sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức kiểu thực thể cần nhận dạng… Luận án này sẽ tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo d Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Luận án sẽ tập trung vào bài tốn nhận dạng thực thể với hai loại dữ liệu thuộc hai ngơn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây: • Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh học trong văn bản tiếng Anh • Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu trước tiếp cận giải được những đặc điểm riêng biệt của miền dữ liệu đang xem xét • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm • Xây dựng các thực nghiệm để đánh giá các mơ hình giải quyết bài tốn đã đề xuất • Xây dựng hệ thống chạy thực tế đối với các mơ hình đạt kết quả khả quan • Định hướng phát triển nâng cấp nghiên cứu e Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mơ hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài tốn. Kết quả của các mơ hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế. f Các kết quả nghiên cứu lý thuyết trên đây được cơng bố trong một số ấn phẩm khoa học có uy tín là minh chứng cho ý nghĩa khoa học của luận án g Về triển khai ứng dụng, luận án đã đề xuất thực mơ hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA6] Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ http://phenominer.mml.cam.ac.uk/). h Kết quả triển khai ứng dụng thơng qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn i Cấu trúc của luận án Chương 1 của luận án hệ thống lại các lý thuyết cơ bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một số nghiên cứu tiêu biểu. Chương 2 trình bày về bài tốn nhận dạng thực thể và ứng dụng nhận dạng thực thể vào bài tốn hỏi đáp tự động trong văn bản tiếng Việt Chương 3 trình bày một mơ hình nhận dạng thực thể biểu hiện và các thực thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu y sinh học Chương 4 , luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mơ hình đề xuất trong chương 3 kỹ thuật lai ghép mơ hình (ensemble models) dựa trên tri thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh. Phần kết luận tổng hợp kết đạt được cũng như nêu lên một số hạn chế của luận án, và đồng thời trình bày một số định hướng nghiên cứu trong tương lai CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ j 1.1. Một số khái niệm cơ bản k 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử dụng định nghĩa của bài toán nhận dạng thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm.” l 1.1.2. Thách thức Tuy là một bài tốn cơ bản, nhưng nhận dạng thực thể cũng gặp phải khơng ít thách thức cần giải quyết do sự phong phú và các nhập nhằng của ngơn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó. Tương tự “Sơng Lam Nghệ An” có thể là địa điểm chỉ tên một con sơng tại tỉnh Nghệ An hay tên một đội bóng “Sơng Lam Nghệ An”. Để xác định loại cho thực thể "JFK" hay “Sơng Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa nó Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngơn ngữ cũng góp phần làm bài tốn nhận dạng thực thể trở nên khó khăn. Một số ngơn ngữ như tiếng Việt ngồi việc thiếu các tài ngun xử lý ngơn ngữ tự nhiên cịn phải thực hiện một số bài tốn con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các bài tốn con sẽ ảnh hưởng đến kết quả của bài tốn nhận dạng thực thể. Ngồi ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu quả của mơ hình nhận dạng m 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính xác (precision P), độ hồi tưởng (recall R) và độ đo F1 (F1measure). Độ chính xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương của hệ thống. n 1.1.4. Ứng dụng của nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng sau: • Trích xuất quan hệ là bài tốn nhận diện các mối quan hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể và một khái niệm [GLR06]. Thành phần nhận diện thực thể là pha đầu tiên trước khi giải quyết vấn đề xác định quan hệ • Trích xuất sự kiện là bài tốn phức tạp hơn trích xuất quan hệ khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thơng tin biểu diễn về ai/cái gì đã làm gì, với ai/cái gì, bao giờ, đâu, bằng cách và tại sao. Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các thành phần cấu thành nên sự kiện • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong hệ thống [HWY05] o 1.2. Lịch sử nghiên cứu và một số hướng tiếp cận giải quyết bài toán Bài toán nhận dạng thực thể xuất từ đầu những năm 90 [RA91], nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC6 với tư cách là một bài tốn con của trích xuất thơng tin [GS96]. Kể từ đó, NER đã thu hút nhiều sự chú ý của cộng đồng nghiên cứu. Đã có khá nhiều hệ thống và chương trình được xây dựng thực thi bài tốn này, có thể kể đến Automatic Content Extraction 1, các cơng bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo BioCreative2 (Critical Assessment of Information Extraction Systems in Biology). Các nghiên cứu đạt hiệu quả cao đối với nhận dạng thực thể thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số đó xử lý bài tốn này như một bài tốn gán nhãn chuỗi (sequence labeling). Một phương pháp học máy đầu tiên được áp dụng cho NER là mơ hình Markov ẩn (Hidden Markov Models, HMM) Các phương pháp học máy cho NER được xây dựng sau đó đã có một sự chuyển dịch từ mơ hình sinh như HMM sang mơ hình mơ hình rời rạc (discriminative models) nhằm khắc phục các nhược điểm của HMM. Một mơ hình rời rạc thơng dụng được sử dụng trong nhận dạng thực thể là mơ hình entropy cực đại (Maximum Entropy Model, MaxEnt) [BPP96]. Kết hợp mơ hình MEM với giả định Markov, gọi mơ hình Markov entropy cực đại (Maximum Entropy Markov Models, MEMM) Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mơ hình rời rạc tiêu biểu khác để xử lý bài tốn gán nhãn chuỗi. Phương pháp này được giới thiệu 1 Automatic content extraction (ACE) evaluation. http://www.itl.nist.gov/iad/mig/tests/ace/ 2 http://www.biocreative.org/ 10 thuộc tính đóng một vai trị chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngồi ra, việc trích chọn thực thể tên người cùng với các thuộc tính của chúng cũng góp một phần quan trọng để mở rộng các cơ sở dữ liệu và ontology s 2.2. Cơ sở lý thuyết và mơ hình đề xuất t 2.2.1. Mơ hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) Mơ hình Entropy cực đại (Maximum Entropy Model, Maxent Model) [BPP96] thuật toán học máy thơng dụng dựa trên xác suất có điều kiện được sử dụng trong nhiều nghiên cứu về nhận dạng thực thể y sinh học [CN02, BON03, CC03, LTC04]. Trong đó, entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của một phân phối xác suất, một phân phối xác suất có Entropy càng cao thì phân phối của nó càng đều u 2.2.2 Phương pháp trường ngẫu nhiên có điều kiện (CRF) Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một là một mơ hình rời rạc dựa trên ý tưởng gốc từ mơ hình Markov ẩn (Hidden Markov Model, HMM) [RA89] và được cải thiện để khắc phục các nhược điểm của HMM cũng như mơ hình markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [MFP00]. CRF được giới thiệu bởi Lafferty và các cộng sự cho bài tốn trích xuất thơng tin [LMP01]. Tính ưu việt của CRF so với HMM thể hiện ở việc nó ước lượng các phân phối xác suất có điều kiện theo trình tự gán nhãn, tính ưu việt này đã được chứng minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn đang là một trong những phương pháp học máy được ứng dụng nhiều trong lĩnh vực NLP 2.3.3. Mơ hình đề xuất 13 Mơ hình được đề xuất gồm có ba pha chính, được mơ hình hóa trong hình 2.3. Đầu vào của mơ hình là từng câu trong văn bản và đầu ra là các câu đã được gán nhãn dựa trên mơ hình nhận dạng. Hình 2.3. Mơ hình tích hợp NER và trích chọn thuộc tính của thực thể tên người Pha 1: Huấn luyện mơ hình Pha 2: Gán nhãn dữ liệu dựa trên mơ hình nhân dạng thực thể và thuộc tính Pha 3 Lọc câu lọc dữ liệu đã được gán nhãn thu được ở pha 2 và chỉ giữ lại các câu nhãn phù hợp. v 2.2.3. Tập đặc trưng Bảng 2.3. Tập đặc trưng được sử dụng ST Đặc trưng 14 Ký hiệu T Từ đang xét Nhãn từ loại của từ đang xét (POS) W0 POS (W0) Is_Lower(0,0) Từ đang xét là chữ thường, viết hoa đầu từ hay viết hoa toàn bộ? Is_Initial_Cap (0,0) Is_All_Cap (0,0) Ngữ cảnh Wi (i = 2,1,1,2)) Liên kết từ vựng Syllable_Conj (2,2)) Biểu thức chính quy Regex(0,0) Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0) dict:name, dict:first_name Từ điển dict:vname dict:vfirst_name prefix:per Tiền tố prefix:loc prefix:org 2.4. Thực nghiệm, kết quả và đánh giá Thực nghiệm được tiến hành trên 10.000 câu được thu thập từ Wikipedia3 tiếng Việt. Các câu này được gán nhãn thủ cơng để phục vụ cho huấn luyện và kiểm thử. Đánh giá dựa trên các độ đo chính xác (P), độ đo hồi tưởng (R) và độ đo F với phương pháp kiểm thử chéo 10 lần. Kết quả được xem xét cả mức tổng thể và cho từng thuộc tính Kết quả thực nghiệm đánh giá trên tồn hệ thống: Bảng 2.4 Kết đánh giá toàn hệ thống hai phương pháp MEM+BS và CRF 3 http://vi.wikipedia.org/ 15 Độ chính Độ hồi Đơ đo xác tưởng F MEM + BS (beam=3) 83.72 82.54 83.13 CRF 82.56 83.39 84 Kết quả thực nghiệm đánh giá trên từng nhãn Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn STT Nhãn OPer P (%) 91.35 R (%) 90.33 F (%) STT Nhãn P (%) R (%) F (%) 90.84 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 w 2.3. Một mơ hình hỏi đáp tên người áp dụng nhận dạng thực thể tiếng Việt x 2.3.1. Khái qt bài tốn Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi như: là ai, ai là, của ai, do ai, vì ai, người nào… Hệ thống QA được xây dựng trong luận án u cầu đầu vào là các câu hỏi đơn giản (factoid question) tiếng Việt với kết quả trả lời là tên người. Có thể xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn giản và 16 đặc trưng của câu hỏi trong tiếng Việt sẽ được giới thiệu trong phần 3.3.1 y 2.3.2. Đặc trưng câu hỏi liên quan đến thực thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: Chủ thể + Hành động + Tân ngữ trực tiếp Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân ngữ gián tiếp Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp z 2.3.3. Mơ hình đề xuất Mơ hình hỏi đáp thực thể tên người cho tiếng Việt được đề xuất và đặt tên là VPQA. Mơ hình sử dụng phương pháp phân tích câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lược trả lời tự động dựa trên thơng tin được truy vấn từ máy tìm kiếm. Mơ hình tổng qt của hệ thống được nêu ra trong hình 2.4 Hình 2.4. Mơ hình hệ thống hỏi đáp thực thể tên người tiếng Việt 17 aa 2.3.4. Phương pháp và dữ liệu đánh giá mơ hình hỏi đáp tự động Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi đáp tự động, đây nghiên cứu sinh chọn phương pháp đánh giá phổ biến nhất là nhóm ba độ đo gồm độ đo chính xác, độ đo hồi tưởng và độ đo F, đây cũng là độ đo được sử dụng tại chuỗi nhiệm vụ TREC [Vo03] Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được xây dựng và gán nhãn thủ cơng. Các câu hỏi là dạng câu hỏi đơn giản hỏi về thực thể người và được gán các nhãn thành ab 2.3.5. Thực nghiệm và đánh giá a Thực nghiệm đánh giá hiệu quả phân tích câu hỏi 18 Bảng 2.10. Kết quả đánh giá thành phần phân tích câu hỏi Độ chính xác Độ hồi tưởng Độ đo F Fold 1 89.7 90.2 89.95 Fold 2 94.1 95.05 94.57 Fold 3 96.4 96.83 96.61 Fold 4 93.07 94.23 93.64 Fold 5 94.58 96.11 95.33 Fold 6 92.43 93.45 92.93 Fold 7 91.3 92.67 91.98 Fold 8 88.35 89.45 88.89 Fold 9 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình 92.475 93.51 92.99 a Thực nghiệm đánh giá hiệu quả trả lời tự động của mơ hình hỏi đáp Bảng 2.11. Kết đánh giá của hệ thống trả lời tự động Top Top T (ms) P R F P R F P R F Baselin e 62 54.3 42.1 47.4 60.1 45.5 51.8 62.7 50.1 55.7 KLB 58 79.6 55.6 65.5 89.3 60.3 72.0 90.0 60.2 72.1 SEB 2805 71.4 90 79.6 72.1 91.3 80.6 73.1 91.7 81.3 KLB+S EB 1163 74.6 87.9 80.7 79.6 89.3 84.1 80.0 91.1 85.2 19 Top 5 Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH ac 3.1. Giới thiệu Dưới đây là định nghĩa về nhận dạng thực thể y sinh [CTLA5] “Nhận dạng thực thể y sinh (Biomedical NER) (nhóm) kỹ thuật tính tốn được dùng để nhận dạng và phân lớp các chuỗi văn bản chỉ đến các khái niệm quan trọng trong văn bản y sinh học.” ad 3.2. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh Một thách thức lớn nữa đối với bài tốn NER trong dữ liệu y sinh và vấn đề thích ứng khi thích nghi miền dữ liệu. Các nghiên cứu NER y sinh học thường sử dụng một tập nhỏ các dữ liệu được gán nhãn để nghiên cứu thực nghiệm Vì tính chất phong phú hướng chun ngành của dữ liệu y sinh học, một bộ dữ liệu thường sẽ chỉ hướng về một chủ đề hay có cùng tính chất nào đó. Hệ thống được xây dựng phù hợp cho dữ liệu thuộc về chủ đề này chưa chắc có thể hoạt động hiệu quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù chúng đều là dữ liệu y sinh học và có nhiều điểm tương đồng. ae 3.3. Mơ hình nhận dạng thực thể biểu hiện và một số thực thể liên quan af 3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ a Tập dữ liệu Phenominer A về các bệnh tự miễn dịch di truyền (autoimmune diseases) Tập liệu Phenominer A (gọi tắt Phenominer A) được thu thập dựa trên hai tiêu chí sau: 20 Thứ nhất, là tóm tắt PubMed Central (PMC) nói về một số 19 bệnh tự miễn dịch di truyền đã được xác định trước. Bệnh tự miễn dịch (autoimmune disease) Thứ hai, để đảm bảo các tóm tắt này có một liên kết nhất định với kiểu hình, các tóm tắt phải đảm bảo có chứa ít nhất một cụm từ chỉ kiểu hình b Tập liệu Phenominer B bệnh tim mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt là Phenominer B) được xây dựng tương tự với phần A, một nhóm bệnh khác lựa chọn từ cơ sở dữ liệu kinh điển về các bệnh di truyền OMIM được dùng để định hướng xây dựng Phenominer B. Các bệnh được lựa chọn là bệnh tim mạch (cardiovascular diseases), 60 bệnh cụ thể được sử dụng để thu thập dữ liệu bệnh tim (cardiomyopathy), tăng huyết áp (hypertension), xơ vữa động mạch (atherosclerosis). ag 3.2.2. Mơ hình đề xuất PHƯƠNG PHÁP CRF Pheno miner A Thực thể PH GG OR CD AN DS ALL (micro avgF1) 21 Phenominer B P R F P R F 71.1 80.6 72.5 77.5 74.2 76.8 75.2 83.0 79.1 80.6 81.9 72.4 73.1 81.8 75.6 79.0 77.8 74.5 78.1 72.1 79.6 81.1 78.4 72.6 72.3 78.0 79.5 77.0 82.3 78.6 70.1 75.0 79.6 79.0 80.3 75.5 71.2 77.9 ALL (macro avgF1) PH 73.7 82.4 72.8 79.5 72.4 75.7 GG OR CD ME + BS AN DS 77.0 74.8 81.9 75.3 80.4 77.1 74.3 78.4 77.3 76.0 81.4 78.1 81.2 82.4 72.9 ALL (micro avgF1) ALL (macro avgF1) 74.6 80.6 80.1 78.5 73.4 72.1 76.7 76.3 79.5 77.5 80.7 76.4 70.9 77.3 76.9 78.1 78.5 75.1 82.9 79.6 69.8 Hình 3.5. Mơ hình nhận dạng thực thể biểu hiện và các thực thể liên quan ah 3.4. Thực nghiệm Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau Pheno miner A Pheno miner B Tập KMR Phương pháp Thực thể P Khordad et al PH 65.89 R F 57.44 P R F 64.28 60.34 62.25 61.38 Genia Tagger GG 71.36 75.58 73.41 71.13 72.57 71.84 Lineaus OR 56.81 57.28 57.04 54.81 55.39 55.10 Từ điển PH 51.24 50.91 51.07 57.31 52.71 54.91 Từ điển GG 87.29 60.44 71.42 79.24 62.17 69.67 Từ điển CD 91.49 56.07 69.53 87.24 55.43 67.79 22 P R 90.74 88.44 87.26 82.35 Từ điển AN 83.46 50.13 62.64 84.57 48.77 61.86 Từ điển DS 57.82 34.27 43.03 51.25 31.04 38.66 PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 MEM + BS 78.41 Mmicro avgF1 Macro avgF1 77.34 23 D L AN CD DS GG PH OR ALL A 57 29 80 74 46 68 69.9 A 34 26 57 55 26 64 50.8 86.37 84.19 76.94 3.5. Thích ứng miền dữ liệu trong nhận dạng thực thể y sinh aj 3.5.1. Thực nghiệm M1: IN DOMAIN Kiểm thử trong miền M2: OUT DOMAIN Kiểm thử ngoài miền M3: MIXIN Trộn lẫn dữ liệu để huấn luyện M4: STACK Xếp chồng dữ liệu huấn luyện M5: BINARY CLASS Lớp nhị phân M6: FRUSTRATINGLY SIMPLE Sử dụng cách tiếp cận điều chỉnh đặc trưng của H. Daume III đề xuất năm 2007 [DA07] 3.4.2. Kết quả và đánh giá Bảng 3.7 Kết F1 hệ thống NER sử dụng phương pháp thực nghiệm 16 M H M M 78.35 M M M M M M M M M M A 50 20 77 71 39 72 67.3 A 56 17 79 74 44 70 69.8 A 56 29 77 72 41 72 68.3 A 57 27 79 73 44 69 69.5 B 37 31 72 57 46 73 58.5 B 21 20 57 52 24 68 46.6 B 36 38 72 61 44 77 59.7 B 34 34 72 57 45 74 58.5 B 34 41 73 58 43 78 59.6 B 39 35 73 56 46 75 59.1 MH: Mơ hình (M1M6 tương ứng với các mơ hình 16) DL: Dữ liệu (A: Phenominer A về bệnh tự miễn dịch và B: Phenominer B về bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR và kết quả tương ứng với từng loại thực thể Cột ALL đưa ra kết quả của tồn hệ thống, F1 là micro average F1 24 Chương 4 – MỘT MƠ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1. Mơ hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh học ak 4.2. Các phương pháp lai ghép được đề xuất al 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp lai ghép được nêu ra đầu tiên là kỹ thuật sử dụng luật heuristic, đó, việc định kết quả 25 được thực hiện bằng cách sử dụng danh sách ưu tiên theo thứ tự sau đây DS>PH>GG>CD>AN>OR>O. am 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi Trong phương án cải tiến này, kết quả của 7 bộ gán nhãn sẽ được sử dụng như các đặc trưng mới để huấn luyện giải mã mơ hình Tuy nhiên, phương pháp lại có nhược điểm do MEM + BS xử lý dữ liệu dưới dạng gán nhãn chuỗi một lần nữa nên nó khơng xem xét có xảy ra trường hợp nhập nhằng hay khơng, tức là dù có hay khơng xảy ra xung đột nhãn, mơđun quyết định kết quả bằng MEM + BS vẫn tiến hành gán lại tồn bộ chuỗi an 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng Bước đầu tiên của phương pháp học xếp hạng tương tự như phương pháp danh sách ưu tiên, các kết quả đầu ra từ gán nhãn duyệt qua môđun xác định trường hợp nhập nhằng, nếu khơng xảy ra xung đột, kết quả được đưa ngay thành kết quả cuối cùng. Để xử lý các trường hợp nhập nhằng, một mơ hình giải quyết nhập nhằng bằng học xếp hạng được sử dụng để lựa chọn ra nhãn có trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra 4.3. Thực nghiệm và đánh giá kết quả Bảng 4.2 Kết mơ hình tập liệu Phenominer A khi sử dụng các phương pháp khác nhau để lai ghép kết quả PH Đơn mơ hình ME M + BS Danh sách u tiên P R F P R F P R F P R F 73.7 76.1 74.9 74.1 76.0 75.0 73.3 68.2 70.7 74.3 76.4 75.3 26 Ghép nối ME M + BS Học xếp hạng SVM OR 72.8 78.1 75.4 79.1 80.5 79.8 82.4 80.6 81.5 80.2 82 81.1 AN 72.4 82.5 77.1 72.8 78.1 75.4 62.1 65.9 63.9 70.2 77.2 73.5 GG 82.5 81.5 82.0 82.6 81.7 82.1 79.3 75.4 77.3 82.5 81.9 82.2 CD 79.6 81.3 80.4 72.4 82.5 77.1 69.4 71.6 70.5 79.6 80.8 80.2 DS 75.8 72.9 74.3 75.9 73.0 74.4 71.9 70.4 71.1 75.7 73.2 74.4 ALL − − 78.4 − − 79.2 − − 74.9 − − 79.9 KẾT LUẬN Các kết quả chính của luận án 1. Đề xuất mơ hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính liên quan đến thực thể 2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mơ hình nhận dạng thực thể và thuộc tính đã được đề xuất 3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng qt lại các định nghĩa về các thực thể y sinh học có liên quan đến nhau như bệnh, hóa chất, gene, sinh vật, kiểu hình và bộ phân cơ thể. Đề xuất mơ hình giải quyết bài tốn nhận dạng thực thể biểu hiện và các thực thể liên quan 4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa dữ liệu huấn luyện và đánh giá 5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên quan bằng kỹ thuật lai ghép, kết hợp nhiều mơ hình nhận dạng khác nhau. 27 ... ngơn ngữ tự nhiên? ?và? ?kiến thức y sinh học mới? ?có? ?thể? ?đưa ra một phương pháp hay mơ hình? ?nhận? ?dạng? ?thực? ?thể? ?hiệu quả. Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CĨ TÊN? ?TRONG? ?VĂN BẢN TIẾNG VIỆT... ở trên. Mục tiêu cụ? ?thể ? ?và? ? phạm vi? ?nghiên? ?cứu? ?của? ?luận? ?án? ?sẽ được mơ tả kỹ hơn ở phần tiếp theo d Mục tiêu cụ ? ?thể ? ?và? ?phạm vi? ?nghiên? ?cứu? ?của luận? ?án Luận? ?án? ?sẽ tập trung vào bài tốn? ?nhận? ?dạng? ?thực? ?thể? ?... CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ j 1.1. Một số khái niệm cơ? ?bản k 1.1.1. Định nghĩa bài toán? ?nhận? ?dạng? ?thực? ?thể Luận? ?án? ?sử ? ?dụng? ?định nghĩa của bài toán? ?nhận? ?dạng? ? thực? ?thể? ?được phát? ?biểu? ?bởi Aggarwal? ?và? ?Zhai [AZ12]: