1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề Tài: Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong y khoa pptx

97 1.1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN THANH TUẤN XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG CHO CÂU HỎI ĐỊNH NGHĨA TRONG Y KHOA Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.05 LUẬN VĂN THẠC SĨ CNTT NGUỜI HƯỚNG DẪN KHOA HỌC: TS HỒ BẢO QUỐC THÀNH PHỐ HỒ CHÍ MINH - 2011 TÓM LƯỢC ĐỀ TÀI Khi sử dụng hệ thống search engine để tìm kiếm thơng tin trả lời cho câu hỏi, người dùng phải tự tìm lấy thơng tin cần thiết nhiều tài liệu có liên quan đến câu hỏi Điều làm cho họ nhiều thời gian cơng sức Do đó, mong muốn họ có hệ thống tự động trả lời câu hỏi nhanh chóng, rõ ràng, đọng hiệu Hệ thống hỏi đáp tự động đáp ứng yêu cầu Hệ thống hỏi đáp tự động hệ thống tự động trả lời câu hỏi người dùng dựa trình tự động nhận diện, phân tích câu hỏi; tìm kiếm tài liệu có liên quan đến câu hỏi cuối cùng, hệ thống xử lý tài liệu để trích chọn câu trả lời Hiện nay, hệ thống hỏi đáp tự động lĩnh vực nhiều nghiên cứu quan tâm nhu cầu thơng tin ngày cao người dùng Việc xây dựng hệ thống hỏi đáp tự động trả lời tất câu hỏi tất lĩnh vực (open-domain) khó thực hệ thống cần tri thức rộng [8] Do vậy, nhiều nghiên cứu tập trung xây dựng hệ thống hỏi đáp tự động cho lĩnh vực cụ thể [28]: y khoa, địa lý… Trong thực tế, có nhiều loại câu hỏi người dùng đặt ra: câu hỏi yes/no, câu hỏi nơi chốn (where), câu hỏi định nghĩa (what)… Hệ thống hỏi đáp cần phải xử lý cho câu trả lời tương ứng Trong bối cảnh trên, xác định công việc đề tài nghiên cứu xây dựng hệ thống hỏi đáp tự động cho loại câu hỏi định nghĩa y khoa; góp phần hồn thiện hệ thống hỏi đáp tự động lĩnh vực Một hệ thống hỏi đáp tự động cho câu hỏi định nghĩa có 03 thành phần xử lý [8]: thành phần phân tích câu hỏi, thành phần tìm kiếm tài liệu thành phần trích chọn câu trả lời     - Thành phần phân tích câu hỏi q trình xử lý, phân tích để hệ thống “hiểu” câu hỏi Đề tài dựa vào cú pháp ngữ pháp câu hỏi định nghĩa ngôn ngữ tiếng Anh [1], [12] để phân tích trích thuật ngữ câu hỏi cần định nghĩa - Thành phần tìm kiếm tài liệu trình tìm kiếm tài liệu có liên quan đến thuật ngữ cần định nghĩa trả tập tài liệu có độ liên quan xếp giảm dần Đề tài sử dụng kho liệu MEDLINE (xem mục 1.3) để tìm kiếm tri thức trả lời câu hỏi MEDLINE chứa tóm tắt (abstract) báo khoa học y khoa Hong Yu [28] nhận định: thuật ngữ thường định nghĩa phần Introduction background abstract Do đó, đề tài trích chọn câu định nghĩa hai thành phần để xây dựng sở liệu (CSDL) phục vụ cho cơng tác tìm kiếm câu trả lời (xem chương 4) - Thành phần trích chọn câu trả lời trình xử lý dựa kết tìm kiếm để trích câu trả lời phù hợp Đề tài trích lọc thuật ngữ có độ liên quan cao với câu hỏi tập kết tìm kiếm để trả lời câu hỏi người dùng Câu trả lời hệ thống trích từ báo khoa học nên độ tin cậy chúng nhà khoa học khẳng định Trên thực tế, thuật ngữ có nhiều câu định nghĩa góc độ khác Do đó, đề tài hiển thị tất câu này, cho phép người sử dụng chọn cho câu trả lời tốt Các hệ thống hỏi đáp tự động cho lĩnh vực cụ thể thường sử dụng ontology trình xử lý để cải thiện hiệu câu trả lời [13], [28] Trong lĩnh vực y khoa, ontology UMLS (Unified Medical Language System) MeSH (Medical Subject Headings) cung cấp từ vựng khái niệm quan hệ chúng (xem mục 1.2) Đề tài khai thác quan hệ đồng nghĩa thuật ngữ UMLS MeSH nhằm đáp ứng tốt yêu cầu truy nhập thông tin người dùng                                                              Ontology hình thức biễu diễn khái niệm lĩnh vực quan hệ chúng     MỤC LỤC TÓM LƯỢC ĐỀ TÀI 1  MỤC LỤC 3  DANH SÁCH CÁC HÌNH ẢNH 8  DANH MỤC CÁC BẢNG BIỂU .10  U DANH MỤC CÁC TỪ VIẾT TẮT 11  GIỚI THIỆU ĐỀ TÀI .12  1.  Mở đầu 12  2.  Tình hình nghiên cứu nước 15  3.  Một số vấn đề tồn 16  4.  Mục tiêu đề tài 17  5.  Phương pháp quy trình thực mục tiêu 18  6.  Nội dung luận văn 20  CHƯƠNG CÁC KIẾN THỨC CƠ SỞ 21  1.1 Sơ lược hệ thống hỏi đáp tự động .21  1.1.1 Định nghĩa 21  1.1.2 Phân tích câu hỏi .22  1.1.3 Tìm kiếm tài liệu liên quan .22  1.1.4 Lựa chọn câu trả lời 23  1.2 UMLS 24  1.2.1 Khái niệm 24  1.2.2 Metathesaurus 25  1.2.3 Semantic Network .26      1.2.4 SPECIALIST Lexicon & Lexical Tools 26  1.3 Kho liệu MEDLINE 26  1.4 Kiến thức thuật giải xử lý máy tính mà nghiên cứu sử dụng .27  1.4.1 Huấn luyện phân lớp tài liệu sử dụng SVM 27  1.4.1.1 Thuật giải SVM 27  1.4.1.2 Sơ lược phần mềm SVM 29  1.4.1.3.1 LIBSVM .29  1.4.1.3.2 LIBLINEAR 29  1.4.2 Trọng số đặc trưng 29  1.4.2.1 Khái niệm biểu diễn tài liệu .29  1.4.2.2 Một số mơ hình trọng số 30  1.4.2.3 Nhận xét 33  1.4.3 AutoSlog 33  1.4.3.1 Mơ hình .33  1.4.3.2 Kho liệu 34  1.4.3.3 Bộ phân tích câu 34  1.4.3.4 Tập mẫu cú pháp 36  1.4.3.5 Danh sách cụm danh từ 37  1.4.3.6 Nhận xét 37  1.4.4 AutoSlog-TS 38  1.4.4.1 Mơ hình 38  1.4.4.2 Nguyên tắc hoạt động 38  1.4.4.3 Nhận xét 39  1.5 Các phần mềm hỗ trợ .40      1.5.1 Sơ lược hệ thống Sundance 40  1.5.1.1 Giới thiệu 40  1.5.1.2 Cấu trúc case frame .40  1.5.1.3 Giải thích thành phần 40  1.5.1.4 Ví dụ case frame .42  1.5.1.5 Nhận xét 45  1.5.2 Sơ lược Lucene 45  1.5.3 Sơ lược SharpNLP 46  1.6 Kết luận 46  CHƯƠNG HỆ THỐNG HỎI ĐÁP CHO LOẠI CÂU HỎI ĐỊNH NGHĨA 47  2.1 Định nghĩa 47  2.2 Phân tích câu hỏi định nghĩa 48  2.2.1 Cú pháp câu hỏi có từ “What” 49  2.2.2 Cú pháp câu hỏi khơng có từ “What” 50  2.2.3 Xác định thuật ngữ cần định nghĩa .51  2.2.4 Các bước thực 52  2.2.5 Ví dụ phân tích câu hỏi .52  2.3 Tìm kiếm tài liệu liên quan 53  2.3.1 Quy trình xử lý 53  2.3.2 Các bước thực 54  2.3.3 Ví dụ tìm kiếm tài liệu liên quan 55  2.4 Lựa chọn câu trả lời 56  2.4.1 Trích lọc câu trả lời 56  2.4.2 Tìm kiếm thuật ngữ liên quan .57      2.4.3 Tìm kiếm hiển thị thuật ngữ đồng nghĩa 58  2.4.3.1 Thuật ngữ đồng nghĩa UMLS 58  2.4.3.2 Thuật ngữ đồng nghĩa WordNet 59  2.4.4 Xây dựng phân cấp MeSH thuật ngữ 60  2.5 Kết luận 61  CHƯƠNG XÂY DỰNG CASE FRAME TỰ ĐỘNG 62  3.1 Mục tiêu 62  3.2 Mơ hình xử lý 62  3.3 Dữ liệu huấn luyện 63  3.3.1 Relevant text 63  3.3.2 Irrelevant text 64  3.4 Xây dựng cấu trúc case frame định nghĩa .64  3.5 Trích lọc case frame định nghĩa .65  3.5.1 Đặc tả Slot 65  3.5.2 Các thông số chọn lọc .66  3.6 Thực nghiệm xây dựng case frame định nghĩa 66  3.7 Kết luận 68  CHƯƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU TRẢ LỜI .69  4.1 Mục tiêu 69  4.2 Quy trình xử lý tổng quan 69  4.3 Dữ liệu thô .70  4.3.1 Định nghĩa liệu thô .70  4.3.2 Nhận xét 72  4.4 Tiền xử lý tài liệu phân tách 72      4.4.1 Mơ hình xử lý .72  4.4.2 Xử lý phân đoạn 73  4.4.3 Xử lý tách câu .75  4.4.4 Tạo huấn luyện liệu sử dụng LIBLINEAR .76  4.5 Tiền xử lý tài liệu chưa phân tách 76  4.6 Xây dựng mục kho liệu .77  4.6.1 Tiến trình xây dựng .77  4.6.2 Cấu trúc mục CSDL tìm kiếm câu trả lời .78  4.7 Kết thực nghiệm 78  4.7.1 Huấn luyện liệu phân lớp câu .78  4.7.2 Xây dựng tập câu định nghĩa 81  4.7.3 Xây dựng mục CSDL 82  4.8 Kết luận 82  CHƯƠNG XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 83  5.1 Mô hình xử lý tổng quan 83  5.2 Thiết kế giao diện 83  5.3 Nhận câu hỏi tìm kiếm thông tin .85  5.4 Hiển thị câu trả lời 85  5.5 Danh mục từ đồng nghĩa 86  5.6 Danh mục thuật ngữ khác có liên quan .87  5.7 Cây phân cấp thuật ngữ .87  KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88  TÀI LIỆU THAM KHẢO .89  PHỤ LỤC 93      DANH SÁCH CÁC HÌNH ẢNH Hình 1.1 Mơ hình tổng quan hệ thống hỏi đáp 21  Hình 1.2 Các nguồn liệu tích hợp UMLS 25  Hình 1.3 Kiến trúc tổng quan kho tri thức UMLS .25  Hình 1.4 Các lớp khái niệm Semantic Network .26  Hình 1.5 Có vơ số đường định phân tách tập liệu 28  Hình 1.6 Khoảng cách tuyến tính lớn .28  Hình 1.7 Mơ hình tạo mẫu tự động AutoSlog 34  Hình 1.8 Kết phân tích câu "Bacteriastrum is a genus of diatoms in family Chaetocerotaceae" 35  Hình 1.9 Mơ hình tạo mẫu tự động AutoSlog-TS 38  Hình 1.10 Cấu trúc case frame 40  Hình 1.11 Thể caseframe 43  Hình 1.12 Phân tích câu :"The plane crashed in Utah in January in a blaze of fire" 44  Hình 1.13 Case frame matching với câu phân tích 45  Hình 2.1 Mơ hình tổng quan hệ thống hỏi đáp cho câu hỏi định nghĩa 47  Hình 2.2 Cú pháp câu hỏi định nghĩa (1) 49  Hình 2.3 Cú pháp câu hỏi định nghĩa (2) 49  Hình 2.4 Cú pháp câu hỏi định nghĩa (3) 49  Hình 2.5 Cú pháp câu hỏi định nghĩa (4) 50  Hình 2.6 Cú pháp câu hỏi định nghĩa (5) 50  Hình 2.7 Cú pháp câu hỏi định nghĩa (6) 50  Hình 2.8 Mơ hình phân tích câu hỏi định nghĩa 51  Hình 2.9 Cấu trúc lưu trữ kết tìm kiếm 53  Hình 2.10 Mơ hình tìm kiếm tài liệu liên quan .54  Hình 2.11 Mơ hình xử lý lựa chọn câu trả lời 57      Hình 2.12 Cây phân cấp "lung cancer" MeSH 61  Hình 3.1 Mơ hình tạo case frame tự động .63  Hình 3.2 Mơ hình tạo relevant text 64  Hình 3.3 Cấu trúc case frame định nghĩa 65  Hình 3.4 Biểu đồ số lượng case frame thỏa tiêu chí chọn lọc 67  Hình 4.1 Quy trình xây dựng CSDL trả lời 70  Hình 4.2 Bài báo phân tách thành thành phần riêng biệt 71  Hình 4.3 Bài báo không phân tách thành thành phần riêng biệt 71  Hình 4.4 Mơ hình xử lý tài liệu phân tách 73  Hình 4.5 Mơ hình xử lý phân đoạn 74  Hình 4.6 Mơ hình xử lý tách câu .75  Hình 4.7 Mơ hình xử lý tài liệu chưa phân tách 77  Hình 4.8 Mơ hình tiến trình xây dựng mục .77  Hình 4.9 Cách thức đánh mục cho đối tượng định nghĩa 78  Hình 4.10 Lược đồ thể độ xác huấn luyện liệu 80  Hình 4.11 Biểu đồ biểu thị tỷ lệ câu gán nhãn gán nhãn qua phân lớp .81  Hình 4.12 Biểu đồ tỉ lệ câu thỏa khơng thỏa case frame .81  Hình 4.13 Hình thức lưu trữ tập câu định nghĩa .82  Hình 5.1 Mơ hình hoạt động hệ thống hỏi đáp 84  Hình 5.2 Giao diện thiết kế hệ thống hỏi đáp 85  Hình 5.3 Thành phần nhận câu hỏi tìm kiếm thơng tin 85  Hình 5.4 Thành phần hiển thị câu trả lời 86  Hình 5.5 Thành phần hiển thị thuật ngữ đồng nghĩa 86  Hình 5.6 Thành phần hiển thị thuật ngữ khác có liên quan 87  Hình 5.7 Thành phần hiển thị cấu trúc MeSH thuật ngữ 87      82 ==> Câu định nghĩa … ==> Câu định nghĩa n Hình 4.13 Hình thức lưu trữ tập câu định nghĩa 4.7.3 Xây dựng mục CSDL Với cấu trúc đánh mục đề xuất (mục 4.6.2) tập thuật ngữ câu định nghĩa tương ứng xây dựng (mục 4.7.2), tiến hành đánh mục tạo CSDL trả lời cho hệ thống hỏi đáp với kết bảng 4.6 Bảng 4.6 Kết đánh mục CSDL trả lời Số lượng thuật ngữ đánh mục 484,252 Số lượng câu lưu trữ tương ứng 1,233,904 Kích thước (MB) CSDL trả lời 365 4.8 Kết luận Trong chương này, giải vấn đề sau: - Các mơ hình xử lý liệu thô - Đề xuất cách thức đánh mục CSDL trả lời - Thực nghiệm phân lớp câu với độ xác trung bình 80.96% Độ xác huấn luyện phân lớp liệu có ảnh hưởng lớn đến hiệu trả lời hệ thống hỏi đáp Do vậy, nâng cao độ xác huấn luyện phân lớp hướng phát triển cơng trình nghiên cứu nhằm mục đích nâng cao hiệu hệ thống trả lời - Thực nghiệm xây dựng tập đối tượng với câu định nghĩa tương ứng mơ hình case frame Theo đó, áp dụng mơ hình case frame, loại bỏ nhiều câu khơng phù hợp (hình 4.12) với hệ thống hỏi đáp cho câu hỏi định nghĩa     83 CHƯƠNG XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 5.1 Mơ hình xử lý tổng quan Chúng tơi xây dựng cài đặt module ứng với thành phần xử lý chính: Phân tích câu hỏi, Tìm kiếm tài liệu Lựa chọn câu trả lời Ngoài ra, hệ thống hỗ trợ đưa gợi ý đáp ứng tốt nhu cầu thông tin người dùng (chi tiết xem mục 2.5.2, 2.5.3, 2.5.4) Mô hình xử lý tồn hệ thống hỏi đáp mơ hình hóa hình 5.1 Chúng tơi xây dựng cài đặt hệ thống hỏi đáp tự động cho câu hỏi định nghĩa ứng dụng web để thuận tiện phổ biến rộng rãi đáp ứng nhu cầu tra cứu thông tin người 5.2 Thiết kế giao diện Giao diện bao gồm thành phần (hình 5.2): - Cho phép người dùng nhập câu hỏi - Danh sách hiển thị thuật ngữ đồng nghĩa - Danh sách thuật ngữ khác có liên quan - Phần hiển thị câu trả lời - Hiển thị cấu trúc MeSH thuật ngữ     84 Hình 5.1 Mơ hình hoạt động hệ thống hỏi đáp     85 Hình 5.2 Giao diện thiết kế hệ thống hỏi đáp 5.3 Nhận câu hỏi tìm kiếm thơng tin Người sử dụng nhập câu hỏi vào phần nhận câu hỏi hệ thống (hình 5.3) Các câu hỏi có cú pháp mà hệ thống hỗ trợ (xem mục 2.2) Chương trình phân tích trích thuật ngữ cần định nghĩa Sau tìm kiếm tài liệu có liên quan đến thuật ngữ làm sở cho việc trích chọn câu trả lời Hình 5.3 Thành phần nhận câu hỏi tìm kiếm thơng tin 5.4 Hiển thị câu trả lời Quá trình tìm kiếm tìm thuật ngữ có độ liên quan lớn so với câu hỏi Chúng lựa chọn câu định nghĩa thuật ngữ làm câu trả lời hiển thị tách biệt thành câu Trong câu trả lời, chúng tơi có tơ đậm (highlight) thuật ngữ ứng liên quan với câu hỏi Ngồi ra, chúng tơi hiển thị thêm liên     86 kết (link) cho biết câu trả lời trích từ abstract MEDLINE (hình 5.4) Hình 5.4 Thành phần hiển thị câu trả lời 5.5 Danh mục từ đồng nghĩa Các từ đồng nghĩa tìm kiếm UMLS Chúng hiển thị danh mục từ đồng nghĩa (hình 5.5) Khi người dùng chọn thuật ngữ danh sách chương trình tự động tìm kiếm định nghĩa cho thuật ngữ vừa chọn thuật ngữ đồng nghĩa có liên quan Hình 5.5 Thành phần hiển thị thuật ngữ đồng nghĩa     87 5.6 Danh mục thuật ngữ khác có liên quan Thuật ngữ có độ liên quan cao với câu hỏi chọn làm câu trả lời Các thuật ngữ có độ liên quan thấp hơn, hiển thị chúng danh sách thuật ngữ khác có liên quan (hình 5.6) Chọn thuật ngữ danh sách này, chương trình hiển thị định nghĩa tương ứng Hình 5.6 Thành phần hiển thị thuật ngữ khác có liên quan 5.7 Cây phân cấp thuật ngữ Cây phân cấp thuật ngữ thể mức độ quan hệ thuật ngữ MeSH Chúng hiển thị phân cấp từ cấp cha liền kề với thuật ngữ hành (hình 5.7) Khi người dùng chọn nội dung phân cấp, chương trình hiển thị thơng tin tương ứng Hình 5.7 Thành phần hiển thị cấu trúc MeSH thuật ngữ     88 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN   - Những công việc thực được: o Xác định mơ hình xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa lĩnh vực y khoa o Xây dựng mơ hình case frame để rút trích thuật ngữ ứng với câu thuộc loại câu định nghĩa o Xây dựng tự động case frame định nghĩa áp dụng cho nhiều liệu thuộc nhiều lĩnh vực khác o Sử dụng quan hệ đồng nghĩa UMLS cấu trúc MeSH để gợi ý người sử dụng o Xác định cách thức xây dựng CSDL để giảm khối lượng lưu trữ tăng khả tìm kiếm nhanh câu trả lời o Xây dựng CSDL tương đối tốt sử dụng làm thơng tin trả lời câu hỏi thực tế - Hướng phát triển: o Về mặt lý thuyết: Sử dụng nguồn tài nguyên khác Internet…[8], [26], [28] để có thêm tư liệu trả lời Sử dụng ngữ nghĩa UMLS, kết hợp thuật ngữ để xác định tốt từ khóa cần định nghĩa Sử dụng ngữ nghĩa UMLS mơ hình đánh giá trọng số thuật ngữ [29] để nâng cao độ xác trình phân lớp câu o Về ứng dụng: Phát triển ứng dụng web trả lời câu hỏi định nghĩa lĩnh vực y khoa cung cấp cho cộng đồng sử dụng     89 TÀI LIỆU THAM KHẢO   [1] Bas Aarts (2001), English Syntax and Argumentation, palgrave, New York [2] Andrea Andrenucci (2008), Automated Question-Answering Techniques and The Medical Domain, International Conference on Health Informatics [3] B E Boser, I M Guyon, and V N Vapnik (1992), “A training algorithm for optimal margin classifiers”, In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, pp 144-152 [4] Erica Chishlom and Tamara G Kolda (1999), New term weighting formulas for the vector space method in information retrieval, Computer Science and Mathematics Division, Oak Ridge National Laboratory [5] James J Cimino et al (1992), “The Medline Button”, Proc Annu Symp Comput Appl Med Care, pp 81-85 [6] R E Fan, K W Chang, et al (2008), “LIBLINEAR: A library for large linear classification”, Journal of Machine Learning Research, pp.1871-1874 [7] Robert Gaizauskas, Mark A Greenwood, et al (2003), The University of Sheffield’s TREC 2003 Q&A Experiments, In Proceedings of the 12th Text REtrieval Conference [8] Mark A Greenwood (2005), Open-Domain Question Answering, Department of Computer Science University of Sheffield [9] Mark A Greenwood and Horacio Saggion (2004), “A Pattern Based Approach to Answering Factoid, List and Definition Questions”, In Proceedings of the 7th RIAO Conference (RIAO 2004), pp 232-243 [10] C W Hsu, C C Chang, C J Lin (2009), A Practical Guide to Support Vector Classification, Technical Report, Department of Comptuer Science & Information Engineering, National Taiwan University, Taiwan     90 [11] Jon Espen Ingvaldsen and Csaba Veres (2004), “Using the WordNet ontology for interpreting Medical Records”, CAiSE Workshops, pp 355-358 [12] Roderick A Jacobs (1995), English Syntax: A Grammar for English Language Professionals, Oxford University Press, US [13] Kathleen R McKeown, et al (2001), “PERSIVAL, A System for Personalized Search and Summarization over Multimedia Healthcare Information”, JCDL '01 Proceedings of the 1st ACM/IEEE-CS joint conference on Digital libraries, pp.331-340 [14] Christof Monz (2004), “Minimal Span Weighting Retrieval for Question Answering”, In Proceedings of the SIGIR Workshop on Information Retrieval for Question Answering (IR4QA), pages 23-30 [15] Yun Niu and Graeme Hirst (2004), “Analysis of Semantic Classes in Medical Text for Question Answering”, In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Workshop on Question Answering in Restricted Domains, pp 54-61 [16] Deepak Ravichandran and Eduard Hovy (2002), “Learning Surface Text Patterns for a Question Answering System”, In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp 41-47 [17] Ellen Riloff and Jay Shoen (1995), “Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, Proceedings Third Workshop on Very Large Corpora, pp 148-161 [18] Ellen Riloff (1996), “Automatically Generating Extraction Patterns from Untagged Text”, In Proceesding of the Thirteenth National Conference on Artificial Intelligence, pp 1044-1049 [19] Ellen Riloff (1993), “Automatically Constructing a Dictionary for Information Extraction Tasks”, Proceedings of the Eleventh National Conference on Artificial Intelligence, pp 811–816     91 [20] Ellen Riloff and William Phillips (2004), An introduction to the Sundance and AutoSlog Systems, Technical Report UUCS-04-015, School of Computing, University of Utah [21] Ian Roberts and Robert Gaizauskas (2004), “Evaluating Passage Retrieval Approaches for Question Answering”, In Proceedings of 26th European Conference on Information Retrieval (ECIR’04), pp 72-84 [22] Sam Scott and Robert Gaizauskas (2001), “QA-LaSIE: A Natural Language Question Answering System”, Canadian Conference on AI, pp 172-182 [23] Barry Smith, Christiane Fellbaum (2004), “Medical WordNet: A New Methodology for the Construction and Validation of Information Resources for Consumer Health”, Proceedings of Coling: The 20th International Conference on Computational Linguistics, pp 371-382 [24] Martin M Soubbotin and Sergei M Soubbotin (2001), “Patterns of Potential Answer Expressions as Clues to the Right Answers”, In Proceedings of the 10th Text Retrieval Conference, pp 175-182 [25] Stefanie Tellex, et al (2003), “Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering”, In Proceedings of the Twenty-Sixth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 41-47 [26] Hong Yu, Kaufman D (2007), “A Cognitive Evaluation of Four Online Search Engines for Answering Definitional Questions Posed by Physicians” Pacific Symposium on Biocomputing 12, pp 328-339 [27] Hong Yu, Sable C, Zhu H (2005), “Classifying Medical Questions based on an Evidence Taxonomy”, Proceedings of the AAAI 2005 workshop on question answering in restricted domains [28] Hong Yu, et al (2007), “Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians” Journal of Biomedical Informatics 40, pp 236–251     93 PHỤ LỤC A Các dấu hiệu nhận biết hết đoạn abstract phân tách "INTRODUCTION:", "INTRODUCTION AND OBJECTIVES:", "BACKGROUND:", "Background.", "Background:", "METHODOLOGY:", "METHODOLOGY/PRINCIPAL FINDINGS:", "Methods:", "PRINCIPAL FINDINGS:", "METHODS:", "MATERIAL AND METHODS:", "RESULTS:", "Results.", "RESULTS AND CONCLUSIONS:", "RESULTS AND DISCUSSION:", "DISCUSSION:", "CONCLUSION:", "CONCLUSIONS:", "CONCLUSIONS/SIGNIFICANCE:", "Conclusion:", "Conclusions.", "Conclusions:", "OBJECTIVE–", "Objective:", "Objectives:", "OBJECTIVES:", "RESEARCH DESIGN AND METHODS–", "CONCLUSIONS–", "RESULTS–", "FINDINGS:", "STUDY DESIGN:", "CASE PRESENTATION:" B Một số tham số liệu sử dụng thêm cho Sundance Tên file Mô tả bio_append_dict.txt Từ điển liệu y khoa Ví dụ “desulfobulbus_propionicus” danh từ (NOUN) bio_non_eos.txt Dấu hiệu chưa kết thúc câu bio_phrasal.txt Danh mục cú pháp “desulfobulbus cụm danh từ “_A.” phân propionicus” tích “desulfobulbus_propionicus” C Một số caseframe tạo tự động CF: Name: _ActVp REFERS_577     94 Anchor: VP1(REFERS) Act_Fcns: active_verb_broad_p(VP1(REFERS) ) Slot: subj #Stats: #frequency = 161 #relativeFreq = 159 #cond_prob = 0.988 #rlog_score = 7.222 CF: Name: _PassVp CALLED_202 Anchor: VP1(CALLED) Act_Fcns: passive_verb_broad_p(VP1(CALLED) ) Slot: subj #Stats: #frequency = 40 #relativeFreq = 38 #cond_prob = 0.95 #rlog_score = 4.986 CF: Name: _PassVp REFERRED_285 Anchor: VP1(REFERRED) Act_Fcns: passive_verb_broad_p(VP1(REFERRED) ) Slot: subj #Stats: #frequency = 23 #relativeFreq = 21     95 #cond_prob = 0.913 #rlog_score = 4.01 CF: Name: _PassVp KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj #Stats: #frequency = 159 #relativeFreq = 116 #cond_prob = 0.73 #rlog_score = 5.003 D Mộ số ví dụ rút trích thơng tin định nghĩa sử dụng case frame CF: Name: _PassVp KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj Niacin is known to increase insulin resistance, and have adverse effects on blood glucose levels, but to have beneficial effects on plasma lipids and lipoproteins1.  CF: _PassVp KNOWN_9 Trigger(s): (KNOWN) EXTRACTION: “Niacin” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18591993     96 CF: Name: _AuxVp_Dobj BE_DISEASE_12 Anchor: VP1(ROOT:BE) Act_Fcns: active_aux_root_p(VP1(BE) ) has_dobj_following_r(VP1(BE) NP1(DISEASE) ) Slot: subj  Lung cancer is a disease of high symptom burden, major psychosocial impact and poor prognosis2 CF: _AuxVp_Dobj BE_DISEASE_12 Trigger(s): (BE) EXTRACTION: “Lung cancer” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/19350285 CF: Name: _ActVp CAUSED_116 Anchor: VP1(CAUSED) Act_Fcns: active_verb_broad_p(VP1(CAUSED) ) Slot: subj  Bronchiolitis caused by the respiratory syncytial virus (rsv) in infants less than two years old is a growing public health concern worldwide, and there is currently no safe and effective vaccine3 CF: _ActVp CAUSED_116 Trigger(s): (CAUSED) EXTRACTION: “Bronchiolitis” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18335041     97 E Một số thuật ngữ UMLS 2009 có định nghĩa tìm kiếm từ Google Thuật ngữ Aldolase Câu định nghĩa Nguồn Aldolase is a protein (called an http://www.nlm.nih.gov/medli enzyme) that helps break down neplus/ency/article/003566.ht m certain sugars into energy Aldolase is a crystalline enzyme http://www.merriamthat occurs widely in living webster.com/dictionary/aldola systems and catalyzes reversibly se the cleavage of a phosphorylated fructose into triose sugars endoneuriu the endoneurium is a layer of http://medical- m delicate connective tissue that dictionary.thefreedictionary.c encloses the myelin sheath of a om/endoneurium nerve fiber within a fasciculus genotype the genotype is the genetic http://en.wikipedia.org/wiki/G constitution of a cell, an organism, enotype or an individual (i.e the specific allele makeup of the individual) usually with reference to a specific character under consideration     ... có hệ thống tự động trả lời câu hỏi nhanh chóng, rõ ràng, đọng hiệu Hệ thống hỏi đáp tự động đáp ứng y? ?u cầu Hệ thống hỏi đáp tự động hệ thống tự động trả lời câu hỏi người dùng dựa trình tự động. .. Hệ thống hỏi đáp cho loại câu hỏi định nghĩa hệ thống hỏi đáp tự động, có nhiều quy trình, cơng đoạn xử lý như: phân tích câu hỏi, tìm kiếm xử lý câu trả lời thích hợp cho loại câu hỏi định nghĩa. .. (what)… Hệ thống hỏi đáp cần phải xử lý cho câu trả lời tương ứng Trong bối cảnh trên, xác định công việc đề tài nghiên cứu x? ?y dựng hệ thống hỏi đáp tự động cho loại câu hỏi định nghĩa y khoa; góp

Ngày đăng: 28/06/2014, 04:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w