Tóm tắt: Bài toán rút trích thuật ngữ y khoa trong văn bản lâm sàng, với dữ liệu y khoa có tính riêng tư nên việc tiếp cận nguồn dữ liệu bị hạn chế. Chúng tôi đã dựa trên phương pháp khai thác thuật ngữ y khoa đối với tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt , ngay cả ở những tập dữ liệu đầu vào không lớn, nếu biết cách nhận diện thì những thuật ngữ quan trọng bị lồng ghép bên trong những cấu trúc ngữ pháp, ngữ cảnh phức tạp cũng được tìm ra. Phương pháp của chúng tôi được đánh giá và so sánh hiệu quả với công trình “Trích xuất thuật ngữ y học trong bệnh án điện tử tiếng Việt”_công trình đầu tiên dành cho tiếng Việt. Kết quả đánh giá cho thấy phương pháp của chúng tôi có hiệu quả cao hơn dựa trên chỉ số Recall, Precision và F-measure. Các thuật ngữ tìm thấy có thể giúp ích cho việc xây dựng hoặc bổ sung thuật ngữ cho bộ từ điển y khoa, hỗ trợ tiền xử lý cho bài toán hệ hỗ trợ chẩn đoán bệnh, quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐAI HOC BÁCH KHOA « TRƯƠNG THỊ MỸ NGỌC RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT Chuyên ngành: Khoa Học Máy Tính Mã sỗ: 60.48.01 LUẬN VĂN THẠC sĩ TP Hồ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hướng dẫn khoa học 1: GS.TS Cao Hoàng Trụ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán hướng dẫn khoa học 2: TS Võ Thị Ngọc Châu (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ tại: Trường Đại Học Bách Khoa, ĐHQG TP HCM ngày 17 tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -Tự -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC sĩ Họ tên học viên: TRƯƠNG THỊ MỸ NGỌC MSHV: 7140830 Ngày, tháng, năm sinh: 17/10/1988 Nơi sinh: Tỉnh Long An Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801 I TÊN ĐỀ TÀI: RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT (Terminology extraction from Vietnamese clinical texts) NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ vãn lâm sàng - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ vãn lâm sàng tiếng Việt - Xây dựng phương pháp rút trích thuật ngữ vãn bảng lâm sàng tiếng Việt dựa quy tắc ngữ pháp độ đo thống kê thuật ngữ - Thực đánh giá phương pháp đề xuất đề tài, so sánh với cơng trình liên quan tốn rút trích thuật ngữ vãn lâm sàng tiếng Việt - Báo cáo kết thực đề tài chuẩn bị luận vãn II NGÀY GIAO NHIỆM VỤ: 04/09/2017 III NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 IV CÁN Bộ HƯỚNG DẪN: GS.TS CAO HOÀNG TRỤ TS VÕ THỊ NGỌC CHÂU 11 TP HCM, ngày tháng năm 20 CÁN Bộ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM Bộ MÔN ĐÀO TẠO (Họ tên chữ ký) GS.TS CAO HOÀNG TRỤ CÁN Bộ HƯỚNG DẪN (Họ tên chữ ký) TS VÕ THỊ NGỌC CHÂU TRƯỞNG KHOA (Họ tên chữ ký) LỜI CẢM ƠN Xin gởi lời cảm ơn chân thành tới Thầy hướng dẫn GS.TS Cao Hoàng Trụ Thầy hướng dẫn chúng tơi cách tiếp cận tốn cách giải tốn khoa học Chúng tơi khơng học hỏi Thầy kiến thức, mà học phong cách làm việc nhà khoa học, nhà giáo ưu tú Xin gởi lời cảm ơn chân thành tới Cô hướng dẫn TS Võ Thị Ngọc Châu Cơ tận tâm, nhiệt tình, trách nhiệm, đồng hành giai đoạn thực lời giải tốn Nếu khơng có hướng dẫn Cơ tơi khơng có hội hồn thành luận văn Xin gởi lời cảm ơn anh Phan Trường Khoa (Postdoctoral researcher University College London) giúp tơi có báo có quyền Cảm ơn người bạn phòng AC Lab, HPC Lab Cảm ơn hai bạn sinh viên Ngô Tấn Trung, Bùi Tuấn Đại, anh chị, bạn khóa K14, K15 Cảm ơn quý Thầy, Cô khoa Khoa Học & Kỹ Thuật Máy Tính ĐH Bách Khoa TpHCM Cảm ơn Giai Đĩnh chỗ dựa, nguồn động viên tinh thần giúp tơi hồn thành luận văn IV TĨM TẮT Một phương pháp việc rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt Bài tốn rút trích thuật ngữ y khoa văn lâm sàng, với liệu y khoa có tính riêng tư nên việc tiếp cận nguồn liệu bị hạn chế Chúng dựa phương pháp khai thác thuật ngữ y khoa tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt, tập liệu đầu vào không lớn, biết cách nhận diện thuật ngữ quan trọng bị lồng ghép bên cấu trúc ngữ pháp, ngữ cảnh phức tạp tìm Chúng dựa bảy luật cấu trúc ngữ pháp cụm danh từ, cụm động từ, rút trích cụm từ dài Bước tiếp theo, dựa vào độ liên kết hai từ liên tiếp (bi-gram) chúng tơi tách cụm vị trí có độ liên kết thấp thỏa điều kiện ngữ pháp Qua nhiều cơng đoạn, chúng tơi rút trích thuật ngữ y khoa Phương pháp đánh giá so sánh hiệu với cơng trình “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt”_công trĩnh dành cho tiếng Việt Kết đánh giá cho thấy phương pháp có hiệu cao dựa số Recall, Precision F-measure Các thuật ngữ tìm thấy giúp ích cho việc xây dựng bổ sung thuật ngữ cho từ điển y khoa, hỗ trợ tiền xử lý cho toán hệ hỗ trợ chẩn đoán bệnh, quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v V ABSTRACT Terminology extraction from Vietnamese clinical texts Clinical textss contain free text describing the most important facts relating to patient's illnesses These texts are written in specific language containing medical terminology related to hospital treatment It would be helpful if term were possible to automatically extraction An set of terms which could be used for the purpose of information extraction We propose a new method for identifying nested terms based on a combination of two aspects: grammatical correctness and normalised pointwise mutual information (NPMI) counted for all bigrams in a given corpus In our solution we use NPMI to recognise the weakest points to suggest the best place for division of a phrase into two parts By creating, at most, two nested phrases in each step and important terms can extract within complex constructions Appropriate recognition of nested terms can thus influence the content of the extracted candidate term list and its order VI LỜI CAM KÉT Tôi Trương Thị Mỹ Ngọc học viên cao học khoa Khoa Học Kỹ Thuật Máy Tính, Đại học Bách Khoa TP.HCM, MSHV 7140830 Tôi xin cam đoan luận văn "Rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt" kết trình tìm hiểu nghiên cứu tơi ghi chép lại với cam kết sau: - Luận văn thực cho mục đích tim hiểu nghiên cứu bậc cao học - Các cơng trình, báo tham khảo để xây dựng nên luận văn trích dẫn, tham khảo - Tất tài liệu trích dẫn có tính kế thừa từ tạp chí cơng trình nghiên cứu công bố - Những công cụ, phần mềm cho trình thực luận văn phần mềm mã nguồn mở - Hình ảnh số liệu trích dẫn nguồn tham khảo rõ ràng - Kết nghiên cứu trình bày trung thực dựa số liệu thực tế chạy chương trĩnh TP.HCM, ngày 17 tháng năm 2018 Trương Thị Mỹ Ngọc MỤC LỤC MỤC LỤC viii DANH MỤC HÌNH X DANH MỤC BẢNG xi CHƯƠNG TÔNG QUAN 1.1 Bối cảnh đề tài 1.2 Mục tiêu đề tài 1.3 Phạm vi đề tài 1.4 Cấu trúc luận văn CHƯƠNG CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các hướng tiếp cận toán 2.2 Phương pháp ngôn ngữ học 2.3 Phương pháp thống kê 2.4 Phương pháp học máy 2.5 Phương pháp sử dụng tri thức 11 2.6 Phương pháp lai 11 CHƯƠNG KIẾN THỨC NỀN TẢNG 13 3.1 Bệnh án điện tử (BAĐT) 13 3.2 Các định nghĩa 14 3.3 Ngữ pháp Tiếng Việt 16 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 21 4.1 Tổng quan toán 21 4.2 Ý tưởng thực 21 4.3 Thành phần ngôn ngữ học 23 viii 4.4 Thành phần thống kê 24 CHƯƠNG HIỆN THỰC QUY TRÌNH 26 5.1 Tiền xử lý 26 5.2 Tách từ gán nhãn từ loại 28 5.3 Rút trích cụm từ tìm thuật ngự y khoa dựa theo luật văn phạm 30 5.4 Loại bỏ cụm từ có chứa từ danh sách dừng (stoplist) 344 5.5 Sắp xếp lấy k tỷ lệ danh sách thuật ngữ tiềm 347 5.6 Rút trích thuật ngữ lồng phuơng pháp NPMI 37 5.7 Tính tốn C-Value .41 CHƯƠNG ĐÁNH GIÁ HIỆU QUẢ 47 6.1 Thuớc đo hiệu suất trích xuất thuật ngữ 47 6.2 Xây dựng danh sách thuật ngữ tham khảo để đánh giá kết 47 6.3 Thí nghiệm đánh giá 49 CHƯƠNG KẾT LUẬN 56 7.1 Kết đạt đuợc 56 7.2 Huớng phát triển 56 TÀI LIỆU THAM KHẢO 58 IX Ổ 48 Bảng 6.2.2: Một số cụm từ danh sách thuật ngữ tham khảo 6.3 Thí nghiệm đánh gỉá Đánh giá tính hiệu tập luật văn phạm đề xuất “1,2,3,4,5,6,7” so với tể họp luật khác nhau: 1234,12345,12346,12347 Giải thuyết: Những luật văn phạm có ảnh hưởng trực tiếp đến việc tìm cụm từ thuật ngữ y khoa đạt 94%; 6% cịn lại chưa rút trích luật văn phạm chưa đủ hao quát nên vin cịn bỏ sót thuật ngữ Cơng trình ban đầu dựa bốn luật (luật 1,2,3,4) để rút trích cụm danh từ Trong q trình thực nghiệm chung cải tiến, bổ sung thêm luật cụm danh từ (luật 5) hai luật cụm động từ (luật 6,7) Những luật làm giảm độ xác, tăng độ đày đủ độ F thể Bảng 6.3.1 tương ứng Hình 6.3.2 Kết cho thấy độ xác giảm đỉ 0.028, độ đầy đủ tăng 0.112 tức tăng lên nhiều so với giảm xuống Độ đày đủ 0.935 tức 100 thuật ngữ, đẫ rút trích khoảng 94 thuật ngữ Độ xác 0.17 tức 100 từ rút trích, chứng nhận diện 17 từ, nhận diện sai 83 từ Dựa theo quan điểm bên y học, nhận diện sai bỏ sót người cố bệnh Nên việc rút trích thuật ngữ y khoa, chúng tơi ưu tiên cải tiến làm tăng độ đầy đủ hệ thống Đánh giá cơng đoạn rứt trích cụm từ dựa theo luật văn phạm so với 22 lọc ngữ nghĩa cơng trình lỉên quan [18] Giả thuyết: độ đầy đủ ( R) tăng lên luật văn phạm tổng quát hơn, linh động so vối 22 lọc Xem Bang 6.3.3 49 Luật Độđo 1,2,3,4 1,2,3,4,5 1,2,3,4,6 1,2,3,4,7 1,2,3,4,5,6,7 0.199 0.185 0.193 0.193 0.171 p Bảng0.823 6.3.1: Hiệu quả0.856 hệ thống bị 0.84 ảnh hưởng bcd 0.889 luật cụm từ 0.935 (cấu trúc ngữ pháp) R F 0.321 0.304 0.313 0.307 0.289 Bộ lọc Độ đo ' 22 lọc luật văn phạm p 0.143 0.138 R 0.784 F 0.241 0.8 0.235 0.935 1,2,3,4 1,2,3,4,5 1,2,3,4,6 1,2,3,4,7 1,2,3,4,5,6,7 ■p■R■F Hình 6.3.2: Biểu đồ biểu diễn hiệu hệ thống bị ảnh hưởng luật cụm từ Bảng 6.3.3: Hiệu cơng đoạn rút trích cụm từ dựa theo luật văn phạm so vởi 22 lọc Stoplỉst 47 từ ký tự 47 từ ký tự + 40 từ ký tự Độ đo p 0.143 0.171 R 0.941 0.935 F 0.249 0.289 Đánh giá việc bồ sung rút trích thuật ngữ lồng nhau, so sánh kết tương ứng với giá trị k khác [0->l] Giải thuyết: độ đo tăng Chứng tỏ công đoạn quan bổ sung thêm lượng thuật ngữ mới, bị lồng ghép bên thuật ngữ dài Công đoạn 5.5 rút trích thuật ngữ lồng từ danh sách thuật ngữ tiềm xếp theo chiều dài giảm dần Trường hợp k = bỏ qua công đoạn rút trích thuật ngữ lồng Trường hợp k =1 khai thác toàn danh sách thuật ngữ tiềm nằng Trong q trình thục nghiệm, chung tơi nhận thấy chọn từ 30% —> 70% phần đầu danh sách tức giá trị k đoạn [0.3,0.7], tin độ đầy đủ (Recall) hệ thống đạt giá trị cao, thể Bảng 6.3.5 biểu đồ Hình 6.3.6 51 \k 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Độ đoX p 0.138 0.167 0.17 0.171 0.171 0.171 0.171 0.171 0.169 0.165 0.165 R 0.8 0.859 0.905 0.923 0.925 0.926 0.935 0.935 0.909 0.85 0.82 F 0.235 0.28 0.287 0.289 0.289 0.288 0.289 0.289 0.284 0.276 0.275 Hình 6.3.6: Biểu đồ biểu diễn hiệu hệ thống bị ảnh hưởng hệ số k Đánh giá hiệu hệ thống Hiệu công đoạn thành phần tăng làm cho hiệu hệ thống tăng Chúng đánh giả hiệu cơng trình chung tơi dựa cơng trình “Trích Xuất Thuật Ngữ Y Học Trong Bệnh Án Điện Tử Tiếng Việt” tác giả Bùi Tuấn Đại Ngô Tấn Trung [18] Cùng tập liệu đàu vào khác phương pháp rút trích (Hình 6.3.9), cơng đoạn giống nhau, kế thừa lại từ công trình [18] Cơng trình chứng tơi có độ đày đủ cao độ xác cao hơn, dẫn tởi độ F cao thể Bảng 6.3.7 Hình 6.3.8 Lý giải việc độ đầy đủ (Recall) cao hơn: Chúng tơi chủ yếu rút trích cụm danh từ, dựa theo nhiều cơng trình cơng trình quốc tế [10] [15] [19] Chọn cụm từ 52 • Cơng trình Độ đo ' - - Cơng trình [18] Cơng trình (*) p 0.143 0.171 R 0.784 0.935 F 0.241 0.289 p R □ Cơng trình [18] F ■ Cơng trình (*) Hình 6.3.8: Biểu đồ so sánh độ đo hiệu hai cơng trình rút trích thuật ngữ y khoa tiếng Việt 53 STT Bộ lọc N N-N N-N-N V-N N-A 10 11 12 V N-N-N-N N-N-A N-V-N N-V V-N-N N-N-V 13 A 14 V-N-V 15 V-N-N-N 16 17 18 19 20 21 22 N-R-A N-N-N-N-N N-N-R-A N-N-R-V-V N-N-N-R-V-V A-V N-N-V-N-N 55 CHƯƠNG KẾT LN 7.1 Kết luận Cơng trình rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt, chúng tơi áp dụng phương pháp rút trích cụm từ theo cấu trúc ngữ pháp (7 luật văn phạm) số NPMI để tách cụm, nhận dạng thuật ngữ tiềm lồng ghép bên Hiệu phương pháp phụ thuộc vào việc mơ tả xác cấu trúc ngữ pháp cụm danh từ, cụm động từ; tính tập liệu; tần số cụm từ Phương pháp đánh giá so sánh hiệu với cơng trình liên quan [18] “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt”_cơng trình văn tiếng Việt Cùng tập liệu đầu vào khác phương pháp rút trích, kết đánh giá cho thấy phương pháp chúng tơi có hiệu cao hon dựa số Recall, Precision Fmeasure độ đầy đủ cao 0,94/1 Ỷ nghĩa khoa học: Phưcmg pháp đề xuất phương pháp cho tốn rút trích thuật ngữ từ văn lâm sàng cho tiếng Việt Phương pháp dựa luật văn phạm rút trích thuật ngữ lồng Ỷ nghĩa thực tiễn: Các thuật ngữ tìm thấy giúp ích cho việc xây dựng bổ sung thuật ngữ cho từ điển y khoa, hỗ trợ tiền xử lý cho toán hệ hỗ trợ chẩn đốn bệnh, quan hệ bệnh-thuốc, khai thác thơng tin từ bệnh án v.v 7.2 Hướng phát triển Ngoài kết đạt được, quy trình chúng tơi cịn hạn chế - Cơng đoạn tiền xử lý: chưa giải sửa loi tả, từ viết tắt, ảnh hưởng tới việc gán nhãn từ loại bị sai 56 - Cơng đoạn rút trích: chưa rút trích thuật ngữ dài cụm từ có liên từ “và” “dấu có tính phân phối nghĩa (coordinated phrases) Ví dụ “chích ngừa dại uốn_ván” “chích ngừa dại, uốn ván” chúng tơi rút trích cụm từ “chích ngừa”, “chích ngừa dại”, “uốn ván” chưa rút trích cụm từ “chích ngừa uốn_ván”, quy trình bỏ sót thuật ngữ tiềm - Khảo sát độ đo khác cho việc xếp hạng thuật ngữ Những trường hợp ảnh hưởng tới hiệu công đoạn, dẫn tới ảnh hưởng tới hiệu hệ thống Đó hướng cải tiến, phát triển cho đề tài rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt chúng tơi 57 TÀI LIỆU THAM KHẢO [1] Barrón-Cedeno A, Sierra G, Drouin p, Ananiadou s (2009), “An improved automatic term recognition method for Spanish”, Computational Linguistics and Intelligent Text Processing, Springer Berlin Heidelberg, pp125-136 [2] Bunescu R, Ge R, Kate RJ, Mooney RJ, Wong YW (2003), “Learning to extract proteins and theừ interactions from medline abstracts”, Proceedings of ICML-2003 Workshop on Machine Learning in Bioinformatics, Washington DC: The International Machine Learning Society, pp 46-53 [3] Cooper GF, Miller RA (1998), “An experiment comparing lexical and statistical methods for extracting MeSH terms from clinical free text”, LAMIA, pp 62-75 [4] Daumke p, Schulz s, Hahn Markó K (2003), “Cross-language MeSH indexing using morpho-semantic normalization”, AMIA Annu Symp, pp 425- 429 [5] Frantzi K, Ananiadou s, Mima H (2000), “Automatic recognition of multiword terms: the C-value/NC-value Method”, International Journal on Digital Libraries, Springer, pp 115-130 [6] Gerbier s, Yarovaya o, Gicquel Q, Millet AL, Smaldore V, Pagliaroli V, Metzger MH Darmoni SJ (2011), “Evaluation of natural language processing from emergency department computerized medical records for intra-hospital syndromic surveillance”, BMC Med Inform Decis Mah 58 [7] Hoste V, Vanopstal K, Lefever E, Delaere I (2010), "Classification-based scientific term detection in patient information ”, Terminology, pp 1-29 [8] Kokkinakis D, Thurin A ( 2008), “Applying MeSH ® to the (Swedish) clinical domain - evaluation and lessons learned”, Proceedings of the 6th Scandinavian Health Informatics and the 12th Swedish National Term Conference Kalmar: Hogskolan i Kalmar eHalsoinstitutet, pp 37-41 [9] Didier Bourigault (1992), “Sufface grammatical analysis for the extraction of terminological noun phrases”, Proceedings of the 14th conference on Computational linguistics, Volume3, pp 977-981 [10] M Marciniak, A Mykowiecka - J Biomedical Semantics (2014), “Terminology extraction from medical texts in Polish” Springer [11] Mykowiecka A, Marciniak M Kupsc A (2009), “Rule-based information extraction from patients’ clinical data”, J Biomed Inform, pp 923-936 [12] Nenadic G, Ananiadou s, McNaught J (2004), “Enhancing automatic term recognition through recognition of variation”, Geneva: COLỈNG, pp 604-610 [13] Nguyễn Bảo An, Don-Lin Yang (2012), “A Semi-Automatic Approach to Construct Vietnamese Ontology form Online Text”, Technology-Enhanced Information Retrieval for Online Learning [14] Pereừa s, Neveol A, Serrot E, Joubert M, Darmoni SJ Kerdelhué G (2008), “Using multi-terminology indexing for the assignment of MeSH descriptors to health resources in a French online catalogue”, AMIA Armu Symp Proc, pp 586-590 [15] M Marciniak, A Mykowiecka (2015), “Nested term recognition driven by word connection strength” International Journal of Theoretical and Applied Issues in specialized Communication Volume 21, Issue 2, pp: 180 -204 59 [16] Diệp Quang Ban (2004), “Sách ngữ pháp tiếng Việt” Nhà xuất giáo dục [17] GS.TSKH HỒ Tú Bảo (2015), “Xây dựng khai thác bệnh án điện tử” Khoa học Công nghệ đoi [18] Bùi Tuấn Đại, Ngơ Tấn Trung, Cao Hồng Trụ (2016), “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt” [19] Nenadic, Goran, Irena Spasic, Sophia Ananiadou (2005), “What’s in a Term?” Lecture Notes in Artificial Intelligence, Volume 3248 Berlin Heidelberg: Springer [20] Katerina, Sophia, Hideki (2000), “Automatic Recognition of Multi-Word Term: The CValue/NC-Value Method”, International Journal on Digital Libraries, Vol3, pp 115130 [21] z Zhang, J Iria, c Brester, F Ciravegna (2008), “ A Comparative Evaluation of Term Recognition Algorithms”, Proceedings of the Sixth International Conference on Language Resources and Evaluation [22] D Sarny, A Moreno-Sandoval, c Bueno-Diaz, M Garrote-Salazar, J Guirao (2012), “Medical Term Extraction in an Arabic Medical Corpus”, Proceedings of the Eight International Conference on Language Resources and Evaluation [23] Dagan I, Church K (1997), “Termight: Coordinating Humans and Machines in Bilingual Terminology Acquisition”, Machine Translation, Vol 12:1/2 pp 89- 107 [24] Krauthammer M, Nenadic G (2004), “Term indentification in the biomedical literature” Journal of Biomedical Informatics, pp 512-525 [25] M Pazienza, M Pennacchiotti, F Zanzotto (2004), “Terminology extraction: an analysic of linguistic and statistical approaches”, Knowledge Mining, pp 255- 279 60 [26] Jody Foo (2009), “Term extraction using machine learning”, Linkoping University [27] Maynard D, Ananiadou s (2000), “Indentifying Terms by their Family and Friends”, In Proceedings of The 18th International Conference on Computational Linguistics, pp 530 -536 [28] Teresa M Chung (2003), “A corpus comparison approach for terminology extraction”, Terminology, pp 221-246 [29] Fukushige Y, Noguchi N (2001), “Statistical and linguistic approaches to automatic term recognition: NTCIR experiments at Matsushita ”, International Journal of Theoretical and Applied Issues in Specialized Communication [30] Antoni o, Merce V (2015), “TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction”, International Conference Recent Advances in Natural Language Processing, pp 473-479 [31] Nguyễn Quang Châu, Phan Thị Tuơi, Cao Hoàng Trụ (2006), “Gán nhãn từ loại cho tiếng Việt dựa văn phong tính tốn xác suất”, Tạp chí Phát triển khoa học Công nghệ - Đại học Quốc gia thành Ho Chí Minh, pp 11-21 [32] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn cẩm Tú (2008), “ Gán nhãn từ loại dựa phuơng pháp học máy thống kê”, VLPS SP82, Viện khoa học công nghệ tiên tiến Nhật Bản 61 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: TRƯƠNG THỊ MỸ NGỌC Ngày, tháng, năm sinh: 17/10/1988 Nơi sinh: Long An Địa chỉ: số 239 khu 4, ấp 2, xã Phước Vân, huyện cần Đước, tỉnh Long An QUÁ TRÌNH ĐÀO TẠO Từ năm 2006 đến năm 2010: Sinh viên Trường Đại Học Cơng Nghệ Sài Gịn Tp.Hồ Chí Minh, chun ngành Cơng Nghệ Thơng Tin Từ năm 2014 đến nay: Học viên cao học Trường Đại Học Bách Khoa, Tp.Hồ Chí Minh, chuyên ngành Khoa Học Máy Tính 62 ... thuật ngữ vãn lâm sàng - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ vãn lâm sàng tiếng Việt - X? ?y dựng phương pháp rút trích thuật ngữ vãn bảng lâm sàng tiếng Việt dựa quy tắc ngữ pháp... thuật ngữ từ văn lâm sàng tiếng Việt Đầu vào q trình trích xuất văn lâm sàng tiếng Việt Đầu danh sách thuật ngữ y khoa rút trích từ cảc văn lâm sàng đỗ Những thuật ngữ liên quan tới y khoa xếp đầu... ngôn ngữ, từ điển thuật ngữ y khoa chưa phát triển, có Việt Nam Thuật ngữ y khoa tiếng Việt kết hợp thuật ngữ LaTinh, tiếng Anh thuật ngữ vùng miền Vì khó việc thu thập hệ thống lại thuật ngữ tiếng