1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

27 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 759,24 KB

Nội dung

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CĨ TÊN VÀ  THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG  DỤNG Chun ngành: Hệ thống thơng tin Mã số: 62.48.05.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ  THƠNG TIN Hà Nội – 2018 Cơng trình được hồn thành tại: Trương Đai hoc Cơng ̀ ̣ ̣   nghê, Đai hoc Qc gia Ha Nơi ̣ ̣ ̣ ́ ̀ ̣ Thụy Người   hướng   dẫn   khoa   học:  PGS.TS   Hà   Quang             PGS.TS. Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS. Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa Luận án sẽ  được bảo vệ  trước Hội  đồng cấp Đại   học Quốc gia chấm luận án tiến sĩ họp tại  vào hồi 9 giờ ngày 07 tháng 02 năm 2018 Nội Có thể tìm hiểu luận án tại:  Thư viện Quốc gia Việt Nam Trung tâm Thơng tin ­ Thư viện, Đại học Quốc gia Hà  a DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ  CĨ LIÊN QUAN ĐẾN LUẬN ÁN [CTLA1] Nigel Collier, Ferdinand Paster, Mai­Vu Tran  (2014)   The   impact   of   near   domain   transfer   on  biomedical   named   entity   recognitions   LOUHI   2014,  EACL 2014, Sweden, 2014 [CTLA2]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh  Le, Quang­Thuy Ha, Anika Oellrich, Dietrich Rebholz­ Schuhmann (2013). Learning to Recognize Phenotype  Candidates in the Auto­Immune Literature Using SVM  Re­Ranking. PLoS ONE 8(10): e72965, October 2013 [CTLA3] Mai­Vu Tran, Duc­Trong Le (2013). vTools:  Chunker   and   Part­of­Speech   tools,   RIVF­VLSP   2013  Workshop [CTLA4]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh  Le,   Anika   Oellrich,   Ai   Kawazoe,   Martin   Hall­May,  Dietrich   Rebholz­Schuhmann   (2012)   A   Hybrid  Approach to Finding Phenotype Candidates in Genetic  Texts, COLING 2012: 647­662 [CTLA5] Mai­Vu Tran, Duc­Trong Le, Xuan­Tu Tran  and Tien­Tung Nguyen (2012). A Model of Vietnamese  Person   Named   Entity   Question   Answering   System,  PACLIC 2012, Bali, Indonesia, October 2012 [CTLA6]  Hoang­Quynh  Le,  Mai­Vu Tran,  Nhat­Nam  Bui, Nguyen­Cuong Phan, Quang­Thuy Ha (2011). An  Integrated Approach Using Conditional Random Fields  for   Named   Entity   Recognition   and   Person   Property  Extraction in Vietnamese Text. IALP 2011:115­118 [CTLA7] Hoang­Quynh Le, Mai­Vu Tran, Thanh Hai  Dang, Nigel Collier (2015). The UET­CAM System in  the BioCreAtIvE V CDR Task. In Proceedings of the  fifth   BioCreative   challenge   evaluation   workshop,  Sevilla, Spain, 2015 MỞ ĐẦU b Lý do chọn đề tài Nhận dạng thực thể có tên (Named entity recognition:   NER; cịn được gọi là “nhận dạng thực thể  định danh”) là  một bài tốn chính thuộc lĩnh vực xử  lý ngơn ngữ  tự  nhiên  (NLP). Đây là một bài tốn tiền đề cho các hệ thống về hiểu   ngơn ngữ  hay khai phá văn bản như  trích xuất sự  kiện, hỏi   đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với   phát triển của dữ  liệu văn bản trên Internet, bài tốn này   cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong  khoảng 20 năm trở lại đây.  c Mặc dù đã có khá nhiều cơng trình nghiên cứu  cho một số loại thực thể thơng thường trong văn    tiếng   Anh   chuẩn     nhiên     nghiên  cứu liên quan đến các thực thể  trong ngôn ngữ  khác như  tiếng Việt hay các miền dữ  liệu đặc  biệt như  miền dữ liệu y sinh vẫn còn rất nhiều  hạn   chế     thách   thức   Có   thể   kể   đến     sự  khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài  nguyên ngôn ngữ  về  tri thức miền hay các định  nghĩa   hình   thức     kiểu   thực   thể   cần   nhận  dạng… Luận án này sẽ  tiếp nối những nghiên  cứu trước đó nhằm giải quyết một phần những  hạn chế được nêu ra  ở trên. Mục tiêu cụ thể  và  phạm vi nghiên cứu của luận án sẽ được mô tả  kỹ hơn ở phần tiếp theo d Mục tiêu cụ  thể  và phạm vi nghiên cứu của  luận án Luận án sẽ tập trung vào bài tốn nhận dạng thực thể  với hai loại dữ liệu thuộc hai ngơn ngữ khác nhau là các thực  thể  thuộc dữ  liệu văn bản tiếng Việt và các thực thể  thuộc  dữ liệu văn bản y sinh học Mục tiêu cụ  thể của luận án là phát triển vấn đề, đề  xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng   các loại thực thể thuộc hai miền dữ liệu trên Cụ  thể, luận án giải đáp các vấn đề  nghiên cứu sau   đây: • Khảo sát và đưa ra các phương án xử lý các đặc điểm   riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh   học trong văn bản tiếng Anh • Đề  xuất phương án tiếp cận mới tận dụng được các  nghiên   cứu   trước       tiếp   cận   giải     được  những  đặc   điểm riêng  biệt của  miền dữ  liệu  đang  xem xét • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm • Xây dựng các thực nghiệm để  đánh giá các mơ hình   giải quyết bài tốn đã đề xuất • Xây dựng hệ thống chạy thực tế đối với các mơ hình  đạt kết quả khả quan • Định hướng phát triển nâng cấp nghiên cứu e Về  nghiên cứu lý thuyết, luận án tập trung đề  xuất một số  giải pháp nhận dạng thực thể  cho  dữ liệu văn bản tiếng Việt và dữ liệu văn bản y   sinh tiếng Anh. Các giải pháp tập trung vào vấn  đề  kết hợp các mơ hình học máy cũng như  các  tri thức nguồn liên quan đến miền dữ liệu nhằm   nâng cao hiệu quả  đầu ra đối với các bài tốn.  Kết quả của các mơ hình đạt hiệu quả khả quan   có thể  áp dụng được trong các hệ  thống chạy  thực tế.  f Các kết quả nghiên cứu lý thuyết trên đây được  cơng bố  trong một số   ấn phẩm khoa học có uy  tín là minh chứng cho ý nghĩa khoa học của luận  án g Về triển khai ứng dụng, luận án đã đề xuất thực   mơ   hình  hỏi   đáp  tự   động   tiếng  Việt  dựa   trên  nhận   dạng   thực   thể   [CTLA6]   Xây   dựng   hệ  thống  tra  cứu và  tham  khảo  các  mối  quan  hệ  giữa thực thể biểu hiện – bệnh PhenoMiner (tại   địa chỉ http://phenominer.mml.cam.ac.uk/).  h Kết quả  triển khai  ứng dụng thơng qua các hệ  thống thử  nghiệm và tra cứu nói trên cho thấy  luận án có ý nghĩa thực tiễn i Cấu trúc của luận án  Chương 1  của luận án hệ  thống lại các lý thuyết  cơ bản về nhận dạng thực thể cũng như khảo sát  lịch sử nghiên cứu và điểm lại một số nghiên cứu   tiêu biểu.   Chương 2   trình bày về  bài tốn nhận dạng thực  thể và  ứng dụng nhận dạng thực thể vào bài tốn  hỏi đáp tự động trong văn bản tiếng Việt  Chương 3  trình bày một mơ hình nhận dạng thực  thể  biểu hiện và các thực thể  liên quan cũng như  vấn đề thích nghi miền giữa các tập dữ liệu y sinh   học  Chương 4 , luận án giới thiệu một kỹ  thuật nâng  cấp hiệu quả của mơ hình đề xuất trong chương 3     kỹ   thuật   lai   ghép     mơ   hình   (ensemble  models) dựa trên tri thức và dựa trên học máy để  nhận  dạng  thực  thể   trong  văn  bản  y  sinh  tiếng  Anh.   Phần   kết   luận   tổng   hợp     kết     đạt   được  cũng như nêu lên một số hạn chế của luận án, và   đồng thời trình bày một số định hướng nghiên cứu  trong tương lai CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG  THỰC THỂ j 1.1. Một số khái niệm cơ bản k 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử  dụng định nghĩa của bài toán nhận dạng  thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài   toán   nhận   dạng   thực   thể   (Named   entity   recognition, NER) là bài toán xác định thực thể  định danh từ   các văn bản dưới dạng tự do và phân lớp chúng vào một tập   các kiểu được định nghĩa trước như  người, tổ  chức và địa   điểm.” l 1.1.2. Thách thức Tuy là một bài tốn cơ  bản, nhưng nhận dạng thực   thể  cũng gặp phải khơng ít thách thức cần giải quyết do sự  phong phú và các nhập nhằng của ngơn ngữ. Ví dụ, "JFK" có   thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc  tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.  Tương tự  “Sơng Lam Nghệ  An” có thể  là địa điểm chỉ  tên  một con sơng tại tỉnh Nghệ  An hay tên một đội bóng “Sơng  Lam Nghệ  An”. Để  xác định loại cho thực thể  "JFK" hay  “Sơng Lam Nghệ  An” xuất hiện trong một tài liệu cụ  thể,  cần phải xem xét đến ngữ cảnh chứa nó Bên cạnh yếu tố  về  ngữ  nghĩa, các yếu tố  liên quan   đến đặc trưng ngơn ngữ  cũng góp phần làm bài tốn nhận  dạng thực thể trở nên khó khăn. Một số ngơn ngữ như  tiếng  Việt ngồi việc thiếu các tài ngun xử lý ngơn ngữ tự nhiên   cịn phải thực hiện một số bài tốn con như tách từ trước khi   nhận dạng thực thể, tỷ  lệ  lỗi của các bài tốn con sẽ   ảnh  hưởng đến kết quả  của bài tốn nhận dạng thực thể. Ngồi   ra, từng loại thực thể  cũng có những thách thức riêng khác  nhau ảnh hưởng đến hiệu quả của mơ hình nhận dạng m 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận  dạng thực thể  là độ  chính xác (precision ­ P), độ  hồi tưởng  (recall ­ R) và độ đo F1 (F1­measure). Độ chính xác được tính   bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn  dương của hệ thống.  n 1.1.4. Ứng dụng của nhận dạng thực thể Có thể  kể  đến nhận dạng thực thể  xuất hiện trong   một số các ứng dụng sau: • Trích xuất quan hệ là bài tốn nhận diện các mối quan   hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể  và một khái niệm [GLR06]. Thành phần nhận diện  thực thể  là pha đầu tiên trước khi giải quyết vấn đề  xác định quan hệ • Trích xuất sự kiện là bài tốn phức tạp hơn trích xuất  quan hệ  khi sự  kiện là một tổ  hợp của nhiều yếu tố  thể hiện các thơng tin biểu diễn về ai/cái gì đã làm gì,   với  ai/cái  gì,  bao  giờ,     đâu,  bằng  cách  và  tại sao.  Tương tự  như  trích xuất quan hệ, trong trích xuất sự  kiện vấn đề  nhận dạng thực thể  cũng đặt lên hàng  đầu khi yêu cầu phải nhận ra  đủ  và chính xác các  thành phần cấu thành nên sự kiện  • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai  phá văn bản cần đến nhận dạng thực thể như là một  yếu tố  làm tăng khả  năng phân tích, hiểu câu hỏi và  dữ liệu trả lời trong hệ thống [HWY05] o 1.2. Lịch sử nghiên cứu và một số hướng tiếp  cận giải quyết bài toán Bài   toán   nhận   dạng   thực   thể     xuất     từ   đầu  những năm 90 [RA91], nhưng chỉ được chính thức giới thiệu  vào năm 1995 tại hội nghị MUC­6 với tư cách là một bài tốn  con của trích xuất thơng tin [GS96]. Kể từ đó, NER đã thu hút   nhiều sự  chú ý của cộng đồng nghiên cứu. Đã có khá nhiều  hệ  thống và chương trình được xây dựng thực thi bài tốn  này, có thể  kể  đến Automatic Content Extraction 1, các cơng  bố  trong nhiệm vụ cộng đồng thuộc hội nghị  Conference on  Natural   Language   Learning   (CoNLL)   năm   2002     2003  [TD03], và chuỗi nhiệm nhận dạng thực thể  y sinh tại hội   thảo   BioCreative2  (Critical   Assessment   of   Information  Extraction Systems in Biology).  Các nghiên cứu đạt hiệu quả  cao đối với nhận dạng  thực thể  thường dựa trên các kỹ  thuật học máy thống kê và  hầu hết trong số đó xử  lý bài tốn này như  một bài tốn gán  nhãn   chuỗi   (sequence   labeling).  Một       phương  pháp học máy đầu tiên được áp dụng cho NER   là mơ hình  Markov   ẩn  (Hidden   Markov   Models,   HMM)   Các   phương  pháp học máy cho NER được xây dựng sau đó đã có một sự  chuyển dịch từ mơ hình sinh như HMM sang mơ hình mơ hình  rời rạc (discriminative models) nhằm khắc phục các nhược  điểm của HMM. Một mơ hình rời rạc thơng dụng được sử  dụng trong nhận dạng thực thể  là  mơ hình entropy  cực đại  (Maximum Entropy Model, MaxEnt) [BPP96].  Kết   hợp   mơ   hình   MEM   với     giả   định   Markov,    gọi    mơ   hình  Markov   entropy  cực   đại  (Maximum  Entropy Markov Models, MEMM) Trường ngẫu nhiên có điều kiện (Conditional Random  Fields, CRF) là một mơ hình rời rạc tiêu biểu khác để  xử  lý   bài tốn gán nhãn chuỗi. Phương pháp này được giới thiệu   1 Automatic content extraction (ACE) evaluation.  http://www.itl.nist.gov/iad/mig/tests/ace/ 2 http://www.biocreative.org/ 10 thuộc tính đóng một vai trị chủ  chốt trong việc xử  lý nhập   nhằng tên người [SJ09]. Ngồi ra, việc trích chọn thực thể  tên người cùng với các thuộc tính của chúng cũng góp một  phần quan trọng để mở rộng các cơ sở dữ liệu và ontology s 2.2. Cơ sở lý thuyết và mơ hình đề xuất t 2.2.1. Mơ hình Entropy cực đại giải mã bằng   tìm kiếm chùm (MEM+BS) Mơ hình Entropy  cực đại  (Maximum Entropy Model,  Maxent  Model)  [BPP96]       thuật   toán   học   máy   thơng  dụng dựa trên  xác suất  có điều kiện  được sử  dụng trong   nhiều nghiên cứu về  nhận dạng thực thể  y sinh học [CN02,   BON03, CC03, LTC04]. Trong đó, entropy là độ  đo về  tính  đồng đều hay tính khơng chắc chắn của một phân phối xác  suất, một phân phối xác suất có Entropy càng cao thì phân  phối của nó càng đều u 2.2.2   Phương   pháp   trường   ngẫu   nhiên   có   điều kiện (CRF)  Trường ngẫu nhiên có điều kiện (Conditional Random  Fields, CRF) là một là một mơ hình rời rạc dựa trên ý tưởng  gốc từ  mơ hình Markov  ẩn (Hidden Markov Model, HMM)   [RA89] và được cải thiện để khắc phục các nhược điểm của  HMM cũng như  mơ hình markov entropy cực đại (Maximum  Entropy Markov Model, MEMM) [MFP00]. CRF  được giới  thiệu bởi Lafferty và các cộng sự cho bài tốn trích xuất thơng  tin [LMP01]. Tính  ưu việt của CRF so với HMM thể hiện  ở  việc nó  ước lượng các phân phối xác suất có điều kiện theo   trình tự  gán nhãn, tính  ưu việt này đã được chứng minh qua  nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn   đang là một trong những phương pháp học máy được  ứng   dụng nhiều trong lĩnh vực NLP 2.3.3. Mơ hình đề xuất 13 Mơ hình được đề xuất gồm có ba pha chính, được mơ  hình hóa trong hình 2.3. Đầu vào của mơ hình là từng câu  trong văn bản và đầu ra là các câu đã được gán nhãn dựa trên   mơ hình nhận dạng.  Hình 2.3. Mơ hình tích hợp NER và trích chọn thuộc tính   của thực thể tên người Pha 1: Huấn luyện mơ hình Pha 2: Gán nhãn dữ  liệu dựa trên mơ hình nhân dạng  thực thể và thuộc tính Pha 3 ­ Lọc câu lọc dữ  liệu  đã được gán nhãn thu   được ở pha 2 và chỉ giữ lại các câu nhãn phù hợp.  v 2.2.3. Tập đặc trưng Bảng 2.3. Tập đặc trưng được sử dụng ST Đặc trưng 14 Ký hiệu T Từ đang xét Nhãn từ loại của từ đang xét (POS) W0 POS (W0) Is_Lower(0,0) Từ đang xét là chữ thường, viết hoa đầu từ hay viết hoa  toàn bộ? Is_Initial_Cap (0,0) Is_All_Cap (0,0) Ngữ cảnh Wi (i = ­2,­1,1,2)) Liên kết từ vựng Syllable_Conj (­2,2)) Biểu thức chính quy Regex(0,0) Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0) dict:name, dict:first_name Từ điển dict:vname dict:vfirst_name prefix:per Tiền tố prefix:loc prefix:org 2.4. Thực nghiệm, kết quả và đánh giá Thực nghiệm được tiến hành trên  10.000 câu được thu  thập từ  Wikipedia3 tiếng Việt. Các câu này được gán  nhãn thủ  cơng để  phục vụ  cho huấn luyện và kiểm  thử. Đánh giá dựa trên các độ  đo chính xác (P), độ  đo  hồi tưởng (R) và độ  đo F với phương pháp kiểm thử  chéo 10 lần. Kết quả  được xem xét   cả  mức tổng  thể và cho từng thuộc tính Kết quả thực nghiệm đánh giá trên tồn hệ thống:  Bảng   2.4   Kết     đánh   giá   toàn   hệ   thống     hai   phương pháp MEM+BS và CRF 3 http://vi.wikipedia.org/ 15 Độ   chính  Độ   hồi  Đơ đo  xác tưởng F MEM   +   BS  (beam=3) 83.72 82.54 83.13 CRF 82.56 83.39 84 Kết quả thực nghiệm đánh giá trên từng nhãn  Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn STT Nhãn OPer P (%) 91.35 R (%) 90.33 F (%) STT Nhãn P (%) R (%) F (%) 90.84 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 w 2.3. Một mơ hình hỏi đáp tên người áp dụng  nhận dạng thực thể tiếng Việt x 2.3.1. Khái qt bài tốn Trong tiếng Việt, câu hỏi về  người thường chứa các  từ  để  hỏi như: là ai, ai là, của ai, do ai, vì ai, người nào…  Hệ thống QA được xây dựng trong luận án u cầu đầu vào  là các câu hỏi đơn giản (factoid question) tiếng Việt với kết   quả trả lời là tên người. Có thể xem các câu hỏi đầu vào của  hệ  thống là dạng các câu hỏi WHO/WHOM/WHOSE trong  tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn giản và   16 đặc trưng của câu hỏi trong tiếng Việt sẽ  được giới thiệu   trong phần 3.3.1 y 2.3.2. Đặc trưng câu hỏi liên quan đến thực   thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: ­ Chủ thể + Hành động + Tân ngữ trực tiếp ­ Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: ­ Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp  + Tân ngữ gián tiếp ­ Cấu trúc 2: Chủ  thể  + Tân ngữ  trực tiếp + Tân ngữ  gián tiếp z 2.3.3. Mơ hình đề xuất Mơ hình hỏi đáp thực thể  tên người cho tiếng Việt được  đề xuất và đặt tên là VPQA. Mơ hình sử dụng phương   pháp phân tích câu hỏi bằng kỹ  thuật học máy CRF   cùng với chiến lược trả lời tự động dựa trên thơng tin  được truy vấn từ  máy tìm kiếm. Mơ hình tổng qt   của hệ thống được nêu ra trong hình 2.4 Hình 2.4. Mơ hình hệ  thống hỏi đáp thực thể  tên người   tiếng Việt 17 aa 2.3.4. Phương pháp và dữ  liệu   đánh  giá mơ   hình hỏi đáp tự động Có nhiều phương pháp để  đánh giá kết quả  của hệ  thống hỏi đáp tự  động,   đây nghiên cứu sinh chọn phương   pháp đánh giá phổ  biến nhất là nhóm ba độ  đo gồm độ  đo  chính xác, độ  đo hồi tưởng và độ  đo F, đây cũng là độ  đo   được sử dụng tại chuỗi nhiệm vụ TREC [Vo03] Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được xây  dựng và gán nhãn thủ cơng. Các câu hỏi là dạng câu hỏi đơn  giản hỏi về thực thể người và được gán các nhãn thành ab 2.3.5. Thực nghiệm và đánh giá a Thực nghiệm đánh giá hiệu quả  phân tích câu   hỏi 18 Bảng 2.10. Kết quả  đánh giá thành phần phân tích câu   hỏi   Độ chính xác Độ hồi tưởng  Độ đo F Fold 1 89.7 90.2 89.95 Fold 2 94.1 95.05 94.57 Fold 3 96.4 96.83 96.61 Fold 4 93.07 94.23 93.64 Fold 5 94.58 96.11 95.33 Fold 6 92.43 93.45 92.93 Fold 7 91.3 92.67 91.98 Fold 8 88.35 89.45 88.89 Fold 9 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình  92.475 93.51 92.99 a Thực nghiệm đánh giá hiệu quả  trả lời tự động   của mơ hình hỏi đáp Bảng  2.11. Kết    đánh giá  của  hệ  thống  trả   lời  tự   động     Top  Top  T  (ms) P R F P R F P R F Baselin e 62 54.3 42.1 47.4 60.1 45.5 51.8 62.7 50.1 55.7 KLB 58 79.6 55.6 65.5 89.3 60.3 72.0 90.0 60.2 72.1 SEB 2805 71.4 90 79.6 72.1 91.3 80.6 73.1 91.7 81.3 KLB+S EB 1163 74.6 87.9 80.7 79.6 89.3 84.1 80.0 91.1 85.2 19 Top 5 Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN  BẢN Y SINH TIẾNG ANH ac 3.1. Giới thiệu Dưới đây là định nghĩa về  nhận dạng thực thể y sinh  [CTLA5] “Nhận   dạng   thực   thể   y   sinh   (Biomedical   NER)       (nhóm) kỹ thuật tính tốn được dùng để nhận dạng và   phân lớp các chuỗi văn bản chỉ  đến các khái niệm   quan trọng trong văn bản y sinh học.” ad 3.2. Vấn đề  về  thích nghi miền trong nhận  dạng thực thể y sinh Một thách thức lớn nữa đối với bài tốn NER trong dữ  liệu y sinh và vấn đề thích ứng khi thích nghi miền dữ   liệu. Các nghiên cứu NER y sinh học thường sử dụng   một tập nhỏ các dữ liệu được gán nhãn để nghiên cứu    thực   nghiệm   Vì   tính   chất   phong   phú     hướng   chun ngành của dữ liệu y sinh học, một bộ dữ liệu  thường sẽ chỉ hướng về một chủ đề  hay có cùng tính   chất nào đó. Hệ thống được xây dựng phù hợp cho dữ  liệu thuộc về chủ đề này chưa chắc có thể hoạt động  hiệu quả  khi chuyển sang tập dữ  liệu thuộc chủ  đề  khác hay các tập dữ  liệu trộn lẫn của nhiều chủ  đề  khác nhau, mặc dù chúng đều là dữ liệu y sinh học và   có nhiều điểm tương đồng.  ae 3.3. Mơ hình nhận dạng thực thể  biểu hiện   và một số thực thể liên quan af 3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ a Tập dữ liệu Phenominer A về các bệnh tự miễn   dịch di truyền (autoimmune diseases) Tập     liệu  Phenominer   A  (gọi   tắt     Phenominer   A)  được thu thập dựa trên hai tiêu chí sau: 20 Thứ  nhất, là tóm tắt PubMed Central (PMC) nói về  một số  19 bệnh tự  miễn dịch di truyền đã được xác  định trước. Bệnh tự miễn dịch (autoimmune disease)  Thứ  hai, để đảm bảo các tóm tắt này có một liên kết  nhất định với kiểu hình, các tóm tắt phải đảm bảo có  chứa ít nhất một cụm từ chỉ kiểu hình b Tập    liệu   Phenominer   B       bệnh   tim   mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt là Phenominer B)  được xây dựng tương tự  với phần A, một   nhóm  bệnh khác  lựa chọn từ  cơ  sở  dữ  liệu kinh điển về  các bệnh di truyền   OMIM  được dùng  để  định hướng xây dựng Phenominer B.  Các bệnh được lựa chọn là bệnh tim mạch (cardiovascular   diseases), 60 bệnh cụ thể được sử dụng để  thu thập dữ liệu     bệnh     tim   (cardiomyopathy),   tăng   huyết   áp  (hypertension), xơ vữa động mạch (atherosclerosis).  ag 3.2.2. Mơ hình đề xuất PHƯƠNG  PHÁP CRF Pheno miner  A Thực thể PH GG OR CD AN DS ALL (micro  avg­F1) 21 Phenominer B P R F P R F 71.1 80.6 72.5 77.5 74.2 76.8 75.2 83.0 79.1 80.6 81.9 72.4 73.1 81.8 75.6 79.0 77.8 74.5 78.1 72.1 79.6 81.1 78.4 72.6 72.3 78.0 79.5 77.0 82.3 78.6 70.1 75.0 79.6 79.0 80.3 75.5 71.2 77.9 ALL (macro  avg­F1) PH 73.7 82.4 72.8 79.5 72.4 75.7 GG OR CD ME + BS AN DS 77.0 74.8 81.9 75.3 80.4 77.1 74.3 78.4 77.3 76.0 81.4 78.1 81.2 82.4 72.9 ALL (micro  avg­F1) ALL (macro  avg­F1) 74.6 80.6 80.1 78.5 73.4 72.1 76.7 76.3 79.5 77.5 80.7 76.4 70.9 77.3 76.9 78.1 78.5 75.1 82.9 79.6 69.8 Hình 3.5. Mơ hình nhận dạng thực thể  biểu hiện và các   thực thể liên quan ah 3.4. Thực nghiệm Bảng 3.4. Thực nghiệm so sánh các phương pháp học   máy khác nhau     Pheno miner  A Pheno miner B Tập KMR Phương pháp Thực thể P Khordad et al PH 65.89 R F 57.44 P R F 64.28 60.34 62.25 61.38 Genia Tagger GG 71.36 75.58 73.41 71.13 72.57 71.84 Lineaus OR 56.81 57.28 57.04 54.81 55.39 55.10 Từ điển PH 51.24 50.91 51.07 57.31 52.71 54.91 Từ điển GG 87.29 60.44 71.42 79.24 62.17 69.67 Từ điển CD 91.49 56.07 69.53 87.24 55.43 67.79 22 P R 90.74 88.44     87.26 82.35     Từ điển AN 83.46 50.13 62.64 84.57 48.77 61.86 Từ điển DS 57.82 34.27 43.03 51.25 31.04 38.66 PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 MEM + BS 78.41 Mmicro avg­F1   Macro avg­F1   77.34   23 D L AN CD DS GG PH OR ALL A 57 29 80 74 46 68 69.9 A 34 26 57 55 26 64 50.8 86.37 84.19               76.94 3.5. Thích ứng miền dữ liệu trong nhận dạng   thực thể y sinh aj 3.5.1. Thực nghiệm M1: IN DOMAIN ­ Kiểm thử trong miền M2: OUT DOMAIN ­ Kiểm thử ngoài miền M3: MIX­IN ­ Trộn lẫn dữ liệu để huấn luyện M4: STACK ­ Xếp chồng dữ liệu huấn luyện M5: BINARY CLASS ­ Lớp nhị phân M6:   FRUSTRATINGLY   SIMPLE  ­   Sử   dụng   cách  tiếp cận điều chỉnh đặc trưng của H. Daume III  đề  xuất năm 2007 [DA07] 3.4.2. Kết quả và đánh giá Bảng  3.7   Kết     F1     hệ   thống   NER   sử   dụng   phương pháp thực nghiệm 1­6 M H M M     78.35     M M M M M M M M M M A 50 20 77 71 39 72 67.3 A 56 17 79 74 44 70 69.8 A 56 29 77 72 41 72 68.3 A 57 27 79 73 44 69 69.5 B 37 31 72 57 46 73 58.5 B 21 20 57 52 24 68 46.6 B 36 38 72 61 44 77 59.7 B 34 34 72 57 45 74 58.5 B 34 41 73 58 43 78 59.6 B 39 35 73 56 46 75 59.1 MH: Mơ hình (M1­M6 tương ứng với các mơ hình 1­6) DL: Dữ  liệu (A: Phenominer A về bệnh tự miễn dịch và   B: Phenominer B về bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR và kết quả  tương  ứng   với từng loại thực thể Cột ALL đưa ra kết quả  của tồn hệ  thống, F1 là micro   average F1 24 Chương 4 – MỘT MƠ HÌNH NÂNG CẤP  HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA  TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1. Mơ hình nâng cấp nhận dạng thực thể biểu hiện   và các thực thể liên quan Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh học ak 4.2. Các phương pháp lai ghép được đề xuất al 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp lai ghép được nêu ra đầu tiên là kỹ thuật  sử   dụng   luật   heuristic,     đó,   việc     định   kết   quả  25 được thực hiện bằng cách sử dụng danh sách ưu tiên theo thứ  tự sau đây DS>PH>GG>CD>AN>OR>O.  am 4.2.2   Phương   pháp   lai   ghép   sử   dụng   học   máy gán nhãn chuỗi Trong phương án cải tiến này, kết quả  của 7 bộ  gán  nhãn sẽ được sử dụng như các đặc trưng mới để huấn luyện    giải   mã   mơ   hình   Tuy   nhiên,   phương   pháp     lại   có  nhược điểm do MEM + BS xử lý dữ liệu dưới dạng gán nhãn  chuỗi một lần nữa nên nó khơng xem xét có xảy ra trường  hợp nhập nhằng hay khơng, tức là dù có hay khơng xảy ra  xung đột nhãn, mơ­đun quyết định kết quả bằng MEM + BS  vẫn tiến hành gán lại tồn bộ chuỗi an 4.2.3 Phương pháp lai ghép sử  dụng học xếp   hạng Bước đầu tiên của phương pháp học xếp hạng tương  tự như phương pháp danh sách ưu tiên, các kết quả đầu ra từ      gán   nhãn       duyệt   qua   mô­đun   xác   định   trường hợp nhập nhằng, nếu khơng xảy ra xung đột, kết quả   được đưa ngay thành kết quả  cuối cùng. Để  xử  lý các  trường hợp nhập nhằng, một mơ hình giải quyết nhập nhằng   bằng học xếp hạng được sử  dụng để  lựa chọn ra nhãn có  trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra 4.3. Thực nghiệm và đánh giá kết quả Bảng  4.2   Kết      mơ   hình    tập     liệu   Phenominer A  khi sử  dụng các phương pháp khác nhau   để lai ghép kết quả    PH Đơn  mơ  hình  ME M +  BS Danh  sách  u  tiên P R F P R F P R F P R F 73.7 76.1 74.9 74.1 76.0 75.0 73.3 68.2 70.7 74.3 76.4 75.3 26 Ghép  nối  ME M +  BS Học xếp hạng SVM OR 72.8 78.1 75.4 79.1 80.5 79.8 82.4 80.6 81.5 80.2 82 81.1 AN 72.4 82.5 77.1 72.8 78.1 75.4 62.1 65.9 63.9 70.2 77.2 73.5 GG 82.5 81.5 82.0 82.6 81.7 82.1 79.3 75.4 77.3 82.5 81.9 82.2 CD 79.6 81.3 80.4 72.4 82.5 77.1 69.4 71.6 70.5 79.6 80.8 80.2 DS 75.8 72.9 74.3 75.9 73.0 74.4 71.9 70.4 71.1 75.7 73.2 74.4 ALL − − 78.4 − − 79.2 − − 74.9 − − 79.9 KẾT LUẬN Các kết quả chính của luận án 1. Đề  xuất mơ hình kết hợp nhận dạng đồng thời thực  thể và các thuộc tính liên quan đến thực thể 2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mơ   hình nhận dạng thực thể  và thuộc tính đã được đề  xuất 3. Góp phần mở  rộng khung cấu trúc thực thể  y sinh,  thống nhất và tổng qt lại các định nghĩa về các thực   thể  y sinh học có liên quan đến nhau như  bệnh, hóa  chất, gene, sinh vật, kiểu hình và bộ  phân cơ  thể. Đề  xuất mơ hình giải quyết bài tốn nhận dạng thực thể  biểu hiện và các thực thể liên quan 4. Đưa ra các so sánh, nhận định về  vấn đề  thích nghi  miền dữ liệu đối với việc nhận dạng thực thể y sinh,  các kết quả  cho phép những nghiên cứu sau này về  nhận dạng thực thể biểu hiện có một khung nhìn tổng   quát trong quá trình chọn lựa dữ  liệu huấn luyện và   đánh giá 5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và   thực thể  y sinh liên quan bằng kỹ  thuật lai ghép, kết   hợp nhiều mơ hình nhận dạng khác nhau.  27 ... ngơn ngữ tự nhiên? ?và? ?kiến thức y sinh học mới? ?có? ?thể? ?đưa ra   một phương pháp hay mơ hình? ?nhận? ?dạng? ?thực? ?thể? ?hiệu quả.  Chương 2 – NHẬN DẠNG THỰC THỂ TÊN  NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC  TÍNH THỰC THỂ CĨ TÊN? ?TRONG? ?VĂN BẢN  TIẾNG VIỆT... ở trên. Mục tiêu cụ? ?thể ? ?và? ? phạm vi? ?nghiên? ?cứu? ?của? ?luận? ?án? ?sẽ được mơ tả  kỹ hơn ở phần tiếp theo d Mục tiêu cụ ? ?thể ? ?và? ?phạm vi? ?nghiên? ?cứu? ?của  luận? ?án Luận? ?án? ?sẽ tập trung vào bài tốn? ?nhận? ?dạng? ?thực? ?thể? ?... CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG  THỰC THỂ j 1.1. Một số khái niệm cơ? ?bản k 1.1.1. Định nghĩa bài toán? ?nhận? ?dạng? ?thực? ?thể Luận? ?án? ?sử ? ?dụng? ?định nghĩa của bài toán? ?nhận? ?dạng? ? thực? ?thể? ?được phát? ?biểu? ?bởi Aggarwal? ?và? ?Zhai [AZ12]:

Ngày đăng: 02/11/2020, 10:43

HÌNH ẢNH LIÊN QUAN

Mô hình đ ượ c đ  xu t g m có ba pha chính, đ ấồ ượ c mô   hình hóa trong hình 2.3. Đ u vào c a mô hình là t ng câuầủừ   trong văn b n và đ u ra là các câu đã đảầược gán nhãn d a trênự  mô hình nh n d ng. ậạ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ình đ ượ c đ  xu t g m có ba pha chính, đ ấồ ượ c mô   hình hóa trong hình 2.3. Đ u vào c a mô hình là t ng câuầủừ   trong văn b n và đ u ra là các câu đã đảầược gán nhãn d a trênự  mô hình nh n d ng. ậạ (Trang 14)
w. 2.3. M t mô hình h i đáp tên ng ộỏ ườ i áp d ng ụ  nh n d ng th c th  ti ng Vi tậạựể ếệ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
w. 2.3. M t mô hình h i đáp tên ng ộỏ ườ i áp d ng ụ  nh n d ng th c th  ti ng Vi tậạựể ếệ (Trang 16)
ag. 3.2.2. Mô hình đ  xu ấ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
ag. 3.2.2. Mô hình đ  xu ấ (Trang 21)
Hình 3.5. Mô hình nh n d ng th c th  bi u hi n và các ệ  th c th  liên quanựể - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
Hình 3.5. Mô hình nh n d ng th c th  bi u hi n và các ệ  th c th  liên quanựể (Trang 22)
MH: Mô hình (M1­M6 t ươ ng  ng v i các mô hình 1­6) ớ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ình (M1­M6 t ươ ng  ng v i các mô hình 1­6) ớ (Trang 24)
Chươ ng 4 – M T MÔ HÌNH NÂNG C Ộ ẤP   HI U QU  NH N D NG TH C TH  Y SINH D AỆẢẬẠỰỂỰ   TRÊN K  THU T LAI GHÉP VÀ H C X P H NGỸẬỌẾẠ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ươ ng 4 – M T MÔ HÌNH NÂNG C Ộ ẤP   HI U QU  NH N D NG TH C TH  Y SINH D AỆẢẬẠỰỂỰ   TRÊN K  THU T LAI GHÉP VÀ H C X P H NGỸẬỌẾẠ (Trang 25)
1. Đ  xu t mô hình k t h p nh n d ng đ ng th i th ự  th  và các thu c tính liên quan đ n th c th .ểộếựể - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
1. Đ  xu t mô hình k t h p nh n d ng đ ng th i th ự  th  và các thu c tính liên quan đ n th c th .ểộếựể (Trang 27)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN