Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
1,18 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TRƢƠNG THỊ MỸ NGỌC RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hƣớng dẫn khoa học 1: GS.TS Cao Hoàng Trụ (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán hƣớng dẫn khoa học 2: TS Võ Thị Ngọc Châu (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại Học Bách Khoa, ĐHQG TP HCM ngày 17 tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… i ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập -Tự -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRƢƠNG THỊ MỸ NGỌC MSHV: 7140830 Ngày, tháng, năm sinh: 17/10/1988 Nơi sinh: Tỉnh Long An Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801 I TÊN ĐỀ TÀI: RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT (Terminology extraction from Vietnamese clinical texts) NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ văn lâm sàng - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ văn lâm sàng tiếng Việt - Xây dựng phƣơng pháp rút trích thuật ngữ văn bảng lâm sàng tiếng Việt dựa quy tắc ngữ pháp độ đo thống kê thuật ngữ - Thực đánh giá phƣơng pháp đề xuất đề tài, so sánh với cơng trình liên quan tốn rút trích thuật ngữ văn lâm sàng tiếng Việt - Báo cáo kết thực đề tài chuẩn bị luận văn II NGÀY GIAO NHIỆM VỤ: …………….04/09/2017 III NGÀY HOÀN THÀNH NHIỆM VỤ:…17/06/2018.… IV CÁN BỘ HƢỚNG DẪN: GS.TS CAO HOÀNG TRỤ TS VÕ THỊ NGỌC CHÂU ii TP HCM, ngày tháng năm 20… CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) GS.TS CAO HOÀNG TRỤ CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) TRƢỞNG KHOA….…………… (Họ tên chữ ký) TS VÕ THỊ NGỌC CHÂU iii LỜI CẢM ƠN Xin đƣợc gởi lời cảm ơn chân thành tới Thầy hƣớng dẫn tơi GS.TS Cao Hồng Trụ Thầy hƣớng dẫn chúng tơi cách tiếp cận tốn cách giải tốn khoa học Chúng tơi không đƣợc học hỏi Thầy kiến thức, mà học đƣợc phong cách làm việc nhà khoa học, nhà giáo ƣu tú Xin đƣợc gởi lời cảm ơn chân thành tới Cô hƣớng dẫn TS Võ Thị Ngọc Châu Cô tận tâm, nhiệt tình, trách nhiệm, đồng hành tơi giai đoạn thực lời giải toán Nếu khơng có hƣớng dẫn Cơ tơi khơng có hội hồn thành luận văn Xin đƣợc gởi lời cảm ơn anh Phan Trƣờng Khoa (Postdoctoral researcher University College London) giúp tơi có đƣợc báo có quyền Cảm ơn ngƣời bạn phịng AC Lab, HPC Lab Cảm ơn hai bạn sinh viên Ngô Tấn Trung, Bùi Tuấn Đại, anh chị, bạn khóa K14, K15 Cảm ơn q Thầy, Cơ khoa Khoa Học & Kỹ Thuật Máy Tính ĐH Bách Khoa TpHCM Cảm ơn Giai Đình ln chỗ dựa, nguồn động viên tinh thần giúp tơi hồn thành luận văn iv TÓM TẮT Một phƣơng pháp việc rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt Bài tốn rút trích thuật ngữ y khoa văn lâm sàng, với liệu y khoa có tính riêng tƣ nên việc tiếp cận nguồn liệu bị hạn chế Chúng dựa phƣơng pháp khai thác thuật ngữ y khoa tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt , tập liệu đầu vào không lớn, biết cách nhận diện thuật ngữ quan trọng bị lồng ghép bên cấu trúc ngữ pháp, ngữ cảnh phức tạp đƣợc tìm Chúng tơi dựa bảy luật cấu trúc ngữ pháp cụm danh từ, cụm động từ, rút trích cụm từ dài Bƣớc tiếp theo, dựa vào độ liên kết hai từ liên tiếp (bi-gram) tách cụm vị trí có độ liên kết thấp thỏa điều kiện ngữ pháp Qua nhiều công đoạn, rút trích đƣợc thuật ngữ y khoa Phƣơng pháp đƣợc đánh giá so sánh hiệu với cơng trình “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt”_cơng trình dành cho tiếng Việt Kết đánh giá cho thấy phƣơng pháp chúng tơi có hiệu cao dựa số Recall, Precision F-measure Các thuật ngữ tìm thấy giúp ích cho việc xây dựng bổ sung thuật ngữ cho từ điển y khoa, hỗ trợ tiền xử lý cho toán hệ hỗ trợ chẩn đoán bệnh, quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v v ABSTRACT Terminology extraction from Vietnamese clinical texts Clinical textss contain free text describing the most important facts relating to patient's illnesses These texts are written in specific language containing medical terminology related to hospital treatment It would be helpful if term were possible to automatically extraction An set of terms which could be used for the purpose of information extraction We propose a new method for identifying nested terms based on a combination of two aspects: grammatical correctness and normalised pointwise mutual information (NPMI) counted for all bigrams in a given corpus In our solution we use NPMI to recognise the weakest points to suggest the best place for division of a phrase into two parts By creating, at most, two nested phrases in each step and important terms can extract within complex constructions Appropriate recognition of nested terms can thus influence the content of the extracted candidate term list and its order vi LỜI CAM KẾT Tôi Trƣơng Thị Mỹ Ngọc học viên cao học khoa Khoa Học Kỹ Thuật Máy Tính, Đại học Bách Khoa TP.HCM, MSHV 7140830 Tơi xin cam đoan luận văn "Rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt" kết trình tìm hiểu nghiên cứu đƣợc ghi chép lại với cam kết sau: - Luận văn đƣợc thực cho mục đích tìm hiểu nghiên cứu bậc cao học - Các cơng trình, báo tham khảo để xây dựng nên luận văn đƣợc trích dẫn, tham khảo Tất tài liệu đƣợc trích dẫn có tính kế thừa từ tạp chí cơng trình nghiên cứu đƣợc công bố Những công cụ, phần mềm cho trình thực luận văn phần mềm mã nguồn mở Hình ảnh số liệu đƣợc trích dẫn nguồn tham khảo rõ ràng Kết nghiên cứu đƣợc trình bày trung thực dựa số liệu thực tế chạy chƣơng trình TP.HCM, ngày 17 tháng năm 2018 Trƣơng Thị Mỹ Ngọc vii MỤC LỤC MỤC LỤC viii DANH MỤC HÌNH x DANH MỤC BẢNG xi CHƢƠNG TỔNG QUAN 1.1 Bối cảnh đề tài 1.2 Mục tiêu đề tài 1.3 Phạm vi đề tài 1.4 Cấu trúc luận văn CHƢƠNG CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các hƣớng tiếp cận toán 2.2 Phƣơng pháp ngôn ngữ học 2.3 Phƣơng pháp thống kê 2.4 Phƣơng pháp học máy 2.5 Phƣơng pháp sử dụng tri thức 11 2.6 Phƣơng pháp lai 11 CHƢƠNG KIẾN THỨC NỀN TẢNG 13 3.1 Bệnh án điện tử (BAĐT) 13 3.2 Các định nghĩa 14 3.3 Ngữ pháp Tiếng Việt 16 CHƢƠNG PHƢƠNG PHÁP ĐỀ XUẤT 21 4.1 Tổng quan toán 21 4.2 Ý tƣởng thực 21 4.3 Thành phần ngôn ngữ học 23 viii 4.4 Thành phần thống kê 24 CHƢƠNG HIỆN THỰC QUY TRÌNH 26 5.1 Tiền xử lý 26 5.2 Tách từ gán nhãn từ loại 28 5.3 Rút trích cụm từ tìm thuật ngự y khoa dựa theo luật văn phạm 30 5.4 Loại bỏ cụm từ có chứa từ danh sách dừng (stoplist) 344 5.5 Sắp xếp lấy k tỷ lệ danh sách thuật ngữ tiềm 347 5.6 Rút trích thuật ngữ lồng phƣơng pháp NPMI 37 5.7 Tính tốn C-Value 41 CHƢƠNG ĐÁNH GIÁ HIỆU QUẢ 47 6.1 Thƣớc đo hiệu suất trích xuất thuật ngữ 47 6.2 Xây dựng danh sách thuật ngữ tham khảo để đánh giá kết 47 6.3 Thí nghiệm đánh giá 49 CHƢƠNG KẾT LUẬN 56 7.1 Kết đạt đƣợc 56 7.2 Hƣớng phát triển 56 TÀI LIỆU THAM KHẢO 58 ix thể nhấp chuột vào thuật ngữ danh sách để xóa thuật ngữ Cuối cùng, nhấn lƣu để lƣu lại kết quả, đồng thời tải văn điều trị ngẫu nhiên Để đảm bảo độ xác tập thuật ngữ tham khảo, tránh chuyên gia y khoa chọn lầm tiếng mà tồn từ, trang web cho trích xuất tập liệu qua tách từ Đồng thời để đảm bảo thống cách đánh giá thuật ngữ, họ đề ràng buộc: Định nghĩa chung thuật ngữ từ ngữ biểu thị khái niệm khoa học công nghệ, thƣờng đƣợc dùng văn khoa học cơng nghệ Thuật ngữ có đặc điểm: thuật ngữ biểu thị khái niệm khái niệm đƣợc biểu thị thuật ngữ Các từ tiêu đề nhƣ “khám bệnh”, “tiền sử”, “lý vào viện” dấu câu không đƣợc chọn vào thuật ngữ Những từ có dấu nối “_” bắt buộc chọn cụm Ví dụ: “vỡ mụn_nhọt” Chọn “vỡ mụn không Nên chọn “vỡ mụn_nhọt” “mụn_nhọt” Điều tránh việc đánh dấu sai từ Đối với cụm thuật ngữ dài nhƣ: “ung_thƣ tuyến_tiền_liệt” “ung_thƣ” “tuyến_tiền_liệt” thuật ngữ cụm “ung_thƣ tuyến_tiền_liệt” thuật ngữ Vì thuật ngữ lồng vào Tập thuật ngữ tham khảo đƣợc xây dựng hai chuyên gia độc lập Kết trả đƣợc thể Bảng 6.2.1 Từ bảng cho thấy 80% số thuật ngữ đƣợc chọn giống nhau, độ đáng tin cậy danh sách thuật ngữ Để đảm bảo độ xác danh sách cuối dùng cho hệ thống Hai danh sách đƣợc hợp lại đƣa cho chuyên gia đánh giá lại Tập danh sách thuật ngữ trả cuối 500 liệu bệnh án khoảng 1000 từ Trích số cụm từ danh sách tham khảo thể Bảng 6.2.2 Bảng 6.2.1: Kết trích xuất thuật ngữ thủ cơng [18] Danh sách Số thuật ngữ chung Danh sách 880 Số thuật ngữ riêng 204 259 Tổng 1084 1139 48 Bảng 6.2.2: Một số cụm từ danh sách thuật ngữ tham khảo bƣớu_cổ chống viêm phổi không rale bƣớu tuyến_giáp chóng_mặt phổi khơng ran cao huyết_áp chƣớng phổi ran ứ_đọng hai đáy cầu bàng_quang chƣớng đại_tràng phổi thơ chạm thận chuyển_dạ sanh phƣơng_pháp longo chẩn_đốn phát_ban phẫu_thuật cắt túi_mật chấn_thƣơng đầu phẫu_thuật nội_soi 6.3 Thí nghiệm đánh giá Đánh giá tính hiệu tập luật văn phạm đƣợc đề xuất “1,2,3,4,5,6,7” so với tổ hợp luật khác nhau: 1234, 12345, 12346, 12347 Giải thuyết: Những luật văn phạm có ảnh hƣởng trực tiếp đến việc tìm cụm từ thuật ngữ y khoa đạt 94%; 6% cịn lại chƣa rút trích đƣợc luật văn phạm chƣa đủ bao quát nên cịn bỏ sót thuật ngữ Cơng trình ban đầu dựa bốn luật (luật 1,2,3,4) để rút trích cụm danh từ Trong q trình thực nghiệm cải tiến, bổ sung thêm luật cụm danh từ (luật 5) hai luật cụm động từ (luật 6,7) Những luật làm giảm độ xác, nhƣng tăng độ đầy đủ độ F đƣợc thể Bảng 6.3.1 tƣơng ứng Hình 6.3.2 Kết cho thấy độ xác giảm 0.028, độ đầy đủ tăng 0.112 tức tăng lên nhiều so với giảm xuống Độ đầy đủ 0.935 tức 100 thuật ngữ, rút trích đƣợc khoảng 94 thuật ngữ Độ xác 0.17 tức 100 từ rút trích, nhận diện 17 từ, nhận diện sai 83 từ Dựa theo quan điểm bên y học, nhận diện sai bỏ sót ngƣời có bệnh Nên việc rút trích thuật ngữ y khoa, chúng tơi ƣu tiên cải tiến làm tăng độ đầy đủ hệ thống Đánh giá cơng đoạn rút trích cụm từ dựa theo luật văn phạm so với 22 lọc ngữ nghĩa cơng trình liên quan [18] Giả thuyết: độ đầy đủ ( R) tăng lên luật văn phạm tổng quát hơn, linh động so với 22 lọc Xem Bảng 6.3.3 49 Bảng 6.3.1: Hiệu hệ thống bị ảnh hƣởng luật cụm từ (cấu trúc ngữ pháp) Luật 1,2,3,4 1,2,3,4,5 1,2,3,4,6 1,2,3,4,7 1,2,3,4,5,6,7 P 0.199 0.185 0.193 0.193 0.171 R 0.823 0.856 0.84 0.889 0.935 F 0.321 0.304 0.313 0.307 0.289 Độ đo 0.9 0.823 0.856 0.889 0.84 0.935 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.321 0.199 0.313 0.304 0.193 0.185 0.307 0.193 0.289 0.171 0.1 1,2,3,4 1,2,3,4,5 1,2,3,4,6 P R 1,2,3,4,7 1,2,3,4,5,6,7 F Hình 6.3.2: Biểu đồ biểu diễn hiệu hệ thống bị ảnh hƣởng luật cụm từ Bảng 6.3.3: Hiệu công đoạn rút trích cụm từ dựa theo luật văn phạm so với 22 lọc Bộ lọc 22 lọc luật văn phạm P 0.143 0.138 R 0.784 0.8 F 0.241 0.235 Độ đo 50 Công đoạn 5.3 rút trích cụm từ dựa theo luật văn phạm Nhƣ trƣờng hợp luật Noun+ Noun (luật 1) có tính bao quát lọc N-N, N-N-N, N-N-N-N (thứ 2, 3, Bảng 6.3.10) Kết hợp với công đoạn 5.6 rút trích thuật ngữ lồng phƣơng pháp NPMI, lúc cụm từ dài đƣợc tách nhỏ linh động phù hợp với ngữ cảnh đặc trƣng văn y khoa Đánh giá việc bổ sung danh sách stoplist, so với stoplist cơng trình liên quan [18] Giải thuyết: tăng độ P, tăng độ F, loại bỏ đƣợc nhiều cụm từ thuật ngữ Công đoạn 5.4 loại bỏ cụm từ có chứa từ danh sách stoplist Chúng tơi kế thừa danh sách stoplist từ cơng trình [18] có 47 từ, ký tự; bổ sung thêm 40 từ, ký tự (Bảng 5.4) dựa thực nghiệm thống kê Cải tiến góp phần làm tăng độ xác (Precision) từ 0.143 lên 0.171 thể Bảng 6.3.4 Bảng 6.3.4: Hiệu hệ thống bị ảnh hƣởng danh sách stoplist Stoplist 47 từ ký tự 47 từ ký tự + 40 từ ký tự P 0.143 0.171 R 0.941 0.935 F 0.249 0.289 Độ đo Đánh giá việc bổ sung rút trích thuật ngữ lồng nhau, so sánh kết tƣơng ứng với giá trị k khác [0->1] Giải thuyết: độ đo tăng Chứng tỏ công đoạn quan bổ sung thêm lƣợng thuật ngữ mới, bị lồng ghép bên thuật ngữ dài Cơng đoạn 5.5 rút trích thuật ngữ lồng từ danh sách thuật ngữ tiềm đƣợc xếp theo chiều dài giảm dần Trƣờng hợp k = bỏ qua cơng đoạn rút trích thuật ngữ lồng Trƣờng hợp k =1 khai thác toàn danh sách thuật ngữ tiềm Trong trình thực nghiệm, nhận thấy chọn từ 30% → 70% phần đầu danh sách tức giá trị k đoạn [0.3,0.7], độ đầy đủ (Recall) hệ thống đạt giá trị cao, thể Bảng 6.3.5 biểu đồ Hình 6.3.6 51 Bảng 6.3.5: Hiệu hệ thống bị ảnh hƣởng hệ số k k 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% P 0.138 0.167 0.17 0.171 0.171 0.171 0.171 0.171 0.169 0.165 0.165 R 0.8 0.859 0.905 0.923 0.925 0.926 0.935 0.935 0.909 0.85 0.82 F 0.235 0.28 0.287 0.289 0.289 0.288 0.289 0.289 0.284 0.276 0.275 Độ đo 0.9 0.8 0.7 0.6 P 0.5 R 0.4 F 0.3 0.2 0.1 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Hình 6.3.6: Biểu đồ biểu diễn hiệu hệ thống bị ảnh hƣởng hệ số k Đánh giá hiệu hệ thống Hiệu công đoạn thành phần tăng làm cho hiệu hệ thống tăng Chúng đánh giá hiệu cơng trình chúng tơi dựa cơng trình “Trích Xuất Thuật Ngữ Y Học Trong Bệnh Án Điện Tử Tiếng Việt” tác giả Bùi Tuấn Đại Ngô Tấn Trung [18] Cùng tập liệu đầu vào nhƣng khác phƣơng pháp rút trích (Hình 6.3.9), công đoạn giống nhau, kế thừa lại từ cơng trình [18] Cơng trình chúng tơi có độ đầy đủ cao độ xác cao hơn, dẫn tới độ F cao đƣợc thể Bảng 6.3.7 Hình 6.3.8 Lý giải việc độ đầy đủ (Recall) cao hơn: Chúng tơi chủ yếu rút trích cụm danh từ, dựa theo nhiều cơng trình cơng trình quốc tế [10][15][19] Chọn cụm từ 52 thỏa quy tắc ngữ pháp nhƣng dài có thể, sau dựa vào độ liên kết bigrams (NPMI) chúng tơi tách cụm, rút trích đƣợc thuật ngữ lồng Trong trình cải tiến hiệu hệ thống, chúng tơi rút trích thêm cụm động từ tiếng Việt, thuật ngữ y khoa có cụm động từ (chích ngừa dại, chụp CT bụng, nhiểm khuẩn ngun_phát, v.v) Cơng trình [18] dùng 22 lọc rút trích thuật ngữ tiềm bị cố định trƣớc chiều dài cụm từ, vị trí danh từ, động từ, tính từ; thể Bảng 6.3.10 So sánh việc dùng lọc [18] cơng trình chúng tơi linh hoạt cơng đoạn rút trích cụm từ, nên hiệu cao (*) Rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt Bảng 6.3.7 : So sánh hiệu hệ thống Cơng trình Cơng trình [18] Cơng trình (*) P 0.143 0.171 R 0.784 0.935 F 0.241 0.289 Độ đo 0.935 0.9 0.784 0.8 0.7 0.6 0.5 0.4 0.2 0.289 0.241 0.3 0.143 0.171 0.1 P R Cơng trình [18] F Cơng trình (*) Hình 6.3.8: Biểu đồ so sánh độ đo hiệu hai cơng trình rút trích thuật ngữ y khoa tiếng Việt 53 Hình 6.3.9: Quy trình cơng trình [18] cơng trình chúng tơi 54 Bảng 6.3.10: Bộ lọc cơng trình [18] STT Bộ lọc N N-N N-N-N V-N N-A V N-N-N-N N-N-A N-V-N 10 N-V 11 V-N-N 12 N-N-V 13 A 14 V-N-V 15 V-N-N-N 16 N-R-A 17 N-N-N-N-N 18 N-N-R-A 19 N-N-R-V-V 20 N-N-N-R-V-V 21 A-V 22 N-N-V-N-N 55 CHƢƠNG KẾT LUẬN 7.1 Kết luận Cơng trình rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt, áp dụng phƣơng pháp rút trích cụm từ theo cấu trúc ngữ pháp (7 luật văn phạm) số NPMI để tách cụm, nhận dạng đƣợc thuật ngữ tiềm lồng ghép bên Hiệu phƣơng pháp phụ thuộc vào việc mơ tả xác cấu trúc ngữ pháp cụm danh từ, cụm động từ; tính tập liệu; tần số cụm từ Phƣơng pháp đƣợc đánh giá so sánh hiệu với cơng trình liên quan [18] “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt”_cơng trình văn tiếng Việt Cùng tập liệu đầu vào nhƣng khác phƣơng pháp rút trích, kết đánh giá cho thấy phƣơng pháp chúng tơi có hiệu cao dựa số Recall, Precision F-measure độ đầy đủ cao 0,94/1 Ý nghĩa khoa học: Phƣơng pháp đề xuất phƣơng pháp cho toán rút trích thuật ngữ từ văn lâm sàng cho tiếng Việt Phƣơng pháp dựa luật văn phạm rút trích thuật ngữ lồng Ý nghĩa thực tiễn: Các thuật ngữ tìm thấy giúp ích cho việc xây dựng bổ sung thuật ngữ cho từ điển y khoa, hỗ trợ tiền xử lý cho toán hệ hỗ trợ chẩn đoán bệnh, quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v 7.2 Hƣớng phát triển Ngoài kết đạt đƣợc, quy trình chúng tơi cịn hạn chế - Công đoạn tiền xử lý: chƣa giải sửa lổi tả, từ viết tắt, ảnh hƣởng tới việc gán nhãn từ loại bị sai 56 - Công đoạn rút trích: chƣa rút trích đƣợc thuật ngữ dài cụm từ có liên từ “và” “dấu ,” có tính phân phối nghĩa (coordinated phrases) Ví dụ “chích ngừa dại uốn_ván” “chích ngừa dại, uốn_ván” chúng tơi rút trích đƣợc cụm từ “chích ngừa”, “chích ngừa dại”, “uốn ván” nhƣng chƣa rút trích đƣợc cụm từ “chích ngừa uốn_ván”, quy trình bỏ sót thuật ngữ tiềm - Khảo sát độ đo khác cho việc xếp hạng thuật ngữ Những trƣờng hợp ảnh hƣởng tới hiệu công đoạn, dẫn tới ảnh hƣởng tới hiệu hệ thống Đó hƣớng cải tiến, phát triển cho đề tài rút trích thuật ngữ y khoa văn lâm sàng tiếng Việt 57 TÀI LIỆU THAM KHẢO [1] Barrón-Cedeno A, Sierra G, Drouin P, Ananiadou S (2009), “An improved automatic term recognition method for Spanish”, Computational Linguistics and Intelligent Text Processing, Springer Berlin Heidelberg, pp125-136 [2] Bunescu R, Ge R, Kate RJ, Mooney RJ, Wong YW (2003), “Learning to extract proteins and their interactions from medline abstracts”, Proceedings of ICML-2003 Workshop on Machine Learning in Bioinformatics, Washington DC: The International Machine Learning Society, pp 46-53 [3] Cooper GF, Miller RA (1998), “An experiment comparing lexical and statistical methods for extracting MeSH terms from clinical free text”, JAMIA, pp 62-75 [4] Daumke P, Schulz S, Hahn U Markó K (2003), “Cross-language MeSH indexing using morpho-semantic normalization”, AMIA Annu Symp, pp 425– 429 [5] Frantzi K, Ananiadou S, Mima H (2000), “Automatic recognition of multiword terms: the C-value/NC-value Method”, International Journal on Digital Libraries, Springer, pp115-130 [6] Gerbier S, Yarovaya O, Gicquel Q, Millet AL, Smaldore V, Pagliaroli V, Metzger MH Darmoni SJ (2011), “Evaluation of natural language processing from emergency department computerized medical records for intra-hospital syndromic surveillance”, BMC Med Inform Decis Mak 58 [7] Hoste V, Vanopstal K, Lefever E, Delaere I (2010), “Classification-based scientific term detection in patient information”, Terminology, pp 1–29 [8] Kokkinakis D, Thurin A ( 2008), “Applying MeSH ® to the (Swedish) clinical domain - evaluation and lessons learned”, Proceedings of the 6th Scandinavian Health Informatics and the 12th Swedish National Term Conference Kalmar: Högskolan i Kalmar eHälsoinstitutet , pp 37-41 [9] Didier Bourigault (1992), “Sufface grammatical analysis for the extraction of terminological noun phrases”, Proceedings of the 14th conference on Computational linguistics, Volume3, pp 977-981 [10] M Marciniak, A Mykowiecka - J Biomedical Semantics (2014), “Terminology extraction from medical texts in Polish” Springer [11] Mykowiecka A, Marciniak M Kupść A (2009), “Rule-based information extraction from patients‟ clinical data”, J Biomed Inform, pp 923-936 [12] Nenadić G, Ananiadou S, McNaught J (2004), “Enhancing automatic term recognition through recognition of variation”, Geneva: COLING, pp 604-610 [13] Nguyễn Bảo An, Don-Lin Yang (2012), “A Semi-Automatic Approach to Construct Vietnamese Ontology form Online Text”, Technology-Enhanced Information Retrieval for Online Learning [14] Pereira S, Neveol A, Serrot E, Joubert M, Darmoni SJ Kerdelhué G (2008), “Using multi-terminology indexing for the assignment of MeSH descriptors to health resources in a French online catalogue”, AMIA Annu Symp Proc, pp 586-590 [15] M Marciniak, A Mykowiecka (2015), “Nested term recognition driven by word connection strength” International Journal of Theoretical and Applied Issues in Specialized Communication Volume 21, Issue 2, pp: 180 –204 59 [16] Diệp Quang Ban (2004), “Sách ngữ pháp tiếng Việt” Nhà xuất giáo dục [17] GS.TSKH Hồ Tú Bảo (2015), “Xây dựng khai thác bệnh án điện tử” Khoa học - Công nghệ đổi [18] Bùi Tuấn Đại, Ngô Tấn Trung, Cao Hồng Trụ (2016), “Trích xuất thuật ngữ y học bệnh án điện tử tiếng Việt” [19] Nenadic, Goran, Irena Spasic, Sophia Ananiadou (2005), “What‟s in a Term?” Lecture Notes in Artificial Intelligence, Volume 3248 Berlin Heidelberg: Springer [20] Katerina, Sophia, Hideki (2000), “Automatic Recognition of Multi-Word Term: The C-Value/NC-Value Method”, International Journal on Digital Libraries, Vol3, pp 115-130 [21] Z Zhang, J Iria, C Brester, F Ciravegna (2008), “ A Comparative Evaluation of Term Recognition Algorithms”, Proceedings of the Sixth International Conference on Language Resources and Evaluation [22] D Samy, A Moreno-Sandoval, C Bueno-Diaz, M Garrote-Salazar, J Guirao (2012), “Medical Term Extraction in an Arabic Medical Corpus”, Proceedings of the Eight International Conference on Language Resources and Evaluation [23] Dagan I, Church K (1997), “Termight: Coordinating Humans and Machines in Bilingual Terminology Acquisition”, Machine Translation, Vol 12:1/2 pp 89107 [24] Krauthammer M, Nenadic G (2004), “Term indentification in the biomedical literature” Journal of Biomedical Informatics, pp 512-525 [25] M Pazienza, M Pennacchiotti, F Zanzotto (2004), “Terminology extraction: an analysic of linguistic and statistical approaches”, Knowledge Mining, pp 255279 60 [26] Jody Foo (2009), “Term extraction using machine learning”, Linkoping University [27] Maynard D, Ananiadou S (2000), “Indentifying Terms by their Family and Friends”, In Proceedings of The 18th International Conference on Computational Linguistics, pp 530 -536 [28] Teresa M Chung (2003), “A corpus comparison approach for terminology extraction”, Terminology, pp 221-246 [29] Fukushige Y, Noguchi N (2001), “Statistical and linguistic approaches to automatic term recognition: NTCIR experiments at Matsushita”, International Journal of Theoretical and Applied Issues in Specialized Communication [30] Antoni O, Merce V (2015), “TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction”, International Conference Recent Advances in Natural Language Processing, pp 473-479 [31] Nguyễn Quang Châu, Phan Thị Tƣơi, Cao Hoàng Trụ (2006), “Gán nhãn từ loại cho tiếng Việt dựa văn phong tính tốn xác suất”, Tạp chí Phát triển khoa học Công nghệ - Đại học Quốc gia thành phố Hồ Chí Minh, pp 11-21 [32] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (2008), “ Gán nhãn từ loại dựa phƣơng pháp học máy thống kê”, VLPS SP82, Viện khoa học công nghệ tiên tiến Nhật Bản 61 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: TRƢƠNG THỊ MỸ NGỌC Ngày, tháng, năm sinh: 17/10/1988 Nơi sinh: Long An Địa chỉ: Số 239 khu 4, ấp 2, xã Phƣớc Vân, huyện Cần Đƣớc, tỉnh Long An QUÁ TRÌNH ĐÀO TẠO Từ năm 2006 đến năm 2010: Sinh viên Trƣờng Đại Học Công Nghệ Sài Gịn Tp.Hồ Chí Minh, chun ngành Cơng Nghệ Thông Tin Từ năm 2014 đến nay: Học viên cao học Trƣờng Đại Học Bách Khoa, Tp.Hồ Chí Minh, chuyên ngành Khoa Học Máy Tính 62 ... thuật ngữ văn lâm sàng - Tìm hiểu cơng trình liên quan tốn rút trích thuật ngữ văn lâm sàng tiếng Việt - X? ?y dựng phƣơng pháp rút trích thuật ngữ văn bảng lâm sàng tiếng Việt dựa quy tắc ngữ pháp... thuật ngữ từ văn lâm sàng tiếng Việt Đầu vào q trình trích xuất văn lâm sàng tiếng Việt Đầu danh sách thuật ngữ y khoa đƣợc rút trích từ văn lâm sàng Những thuật ngữ liên quan tới y khoa đƣợc xếp... ngữ y khoa văn lâm sàng tiếng Việt Bài tốn rút trích thuật ngữ y khoa văn lâm sàng, với liệu y khoa có tính riêng tƣ nên việc tiếp cận nguồn liệu bị hạn chế Chúng dựa phƣơng pháp khai thác thuật