Cây phân cấp các thuật ngữ 87

Một phần của tài liệu Đề Tài: Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong y khoa pptx (Trang 88 - 97)

6. Nội dung luận vă n 20

5.7 Cây phân cấp các thuật ngữ 87

Cây phân cấp các thuật ngữ thể hiện được mức độ quan hệ giữa các thuật ngữ

trong MeSH. Chúng tôi hiển thị cây phân cấp từ cấp cha và con liền kề với thuật ngữ hiện hành (hình 5.7). Khi người dùng chọn một trong các nội dung trên cây phân cấp, chương trình sẽ hiển thị thông tin tương ứng.

88

KT LUN VÀ HƯỚNG PHÁT TRIN

 

- Những công việc đã thực hiện được:

oXác định được mô hình xây dựng hệ thống hỏi đáp tựđộng cho câu hỏi định nghĩa trong lĩnh vực y khoa.

oXây dựng mô hình case frame để rút trích được thuật ngữ ứng với các câu thuộc loại câu định nghĩa.

oXây dựng tựđộng bộ case frame định nghĩa có thể áp dụng cho nhiều dữ liệu thuộc nhiều lĩnh vực khác nhau.

oSử dụng quan hệ đồng nghĩa trong UMLS và cấu trúc cây của MeSH để gợi ý người sử dụng.

oXác định được cách thức xây dựng CSDL để giảm khối lượng lưu trữ và tăng khả năng tìm kiếm nhanh câu trả lời.

oXây dựng được CSDL tương đối tốt có thể sử dụng làm thông tin trả lời các câu hỏi thực tế.

- Hướng phát triển:

oVề mặt lý thuyết:

ƒ Sử dụng các nguồn tài nguyên khác như Internet…[8], [26], [28] để có thêm tư liệu trả lời.

ƒ Sử dụng ngữ nghĩa trong UMLS, kết hợp giữa các thuật ngữ để xác

định tốt hơn từ khóa cần được định nghĩa.

ƒ Sử dụng ngữ nghĩa trong UMLS và mô hình đánh giá trọng số thuật ngữ [29] để nâng cao độ chính xác trong quá trình phân lớp các câu.

oVề ứng dụng: Phát triển ứng dụng web trả lời câu hỏi định nghĩa trong lĩnh vực y khoa và cung cấp cho cộng đồng sử dụng.

89

TÀI LIU THAM KHO

 

[1] Bas Aarts (2001), English Syntax and Argumentation, palgrave, New York. [2] Andrea Andrenucci (2008), Automated Question-Answering Techniques and

The Medical Domain, International Conference on Health Informatics.

[3] B. E. Boser, I. M. Guyon, and V. N. Vapnik (1992), “A training algorithm for optimal margin classifiers”, In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, pp. 144-152.

[4] Erica Chishlom and Tamara G. Kolda (1999), New term weighting formulas for the vector space method in information retrieval, Computer Science and Mathematics Division, Oak Ridge National Laboratory.

[5] James J. Cimino et al (1992), “The Medline Button”, Proc Annu Symp Comput Appl Med Care, pp. 81-85.

[6] R. E. Fan, K. W. Chang, et al (2008), “LIBLINEAR: A library for large linear classification”,Journal of Machine Learning Research, pp.1871-1874.

[7] Robert Gaizauskas, Mark A. Greenwood, et al (2003), The University of Sheffield’s TREC 2003 Q&A Experiments, In Proceedings of the 12th Text REtrieval Conference.

[8] Mark A. Greenwood (2005), Open-Domain Question Answering, Department of Computer Science University of Sheffield.

[9] Mark A. Greenwood and Horacio Saggion (2004), “A Pattern Based Approach to Answering Factoid, List and Definition Questions”, In Proceedings of the 7th RIAO Conference (RIAO 2004), pp. 232-243.

[10] C. W. Hsu, C. C. Chang, C. J. Lin (2009), A Practical Guide to Support Vector Classification, Technical Report, Department of Comptuer Science & Information Engineering, National Taiwan University, Taiwan.

90

[11] Jon Espen Ingvaldsen and Csaba Veres (2004), “Using the WordNet ontology for interpreting Medical Records”, CAiSE Workshops, pp. 355-358.

[12] Roderick A. Jacobs (1995), English Syntax: A Grammar for English Language Professionals, Oxford University Press, US.

[13] Kathleen R. McKeown, et al (2001), “PERSIVAL, A System for Personalized Search and Summarization over Multimedia Healthcare Information”, JCDL '01 Proceedings of the 1st ACM/IEEE-CS joint conference on Digital libraries, pp.331-340.

[14] Christof Monz (2004), “Minimal Span Weighting Retrieval for Question Answering”, In Proceedings of the SIGIR Workshop on Information Retrieval for Question Answering (IR4QA), pages 23-30.

[15] Yun Niu and Graeme Hirst (2004), “Analysis of Semantic Classes in Medical Text for Question Answering”, In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Workshop on Question Answering in Restricted Domains, pp. 54-61.

[16] Deepak Ravichandran and Eduard Hovy (2002), “Learning Surface Text Patterns for a Question Answering System”, In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 41-47. [17] Ellen Riloff and Jay Shoen (1995), “Automatically Acquiring Conceptual

Patterns Without an Annotated Corpus”, Proceedings Third Workshop on Very Large Corpora, pp. 148-161.

[18] Ellen Riloff (1996), “Automatically Generating Extraction Patterns from Untagged Text”, In Proceesding of the Thirteenth National Conference on Artificial Intelligence, pp. 1044-1049.

[19] Ellen Riloff (1993), “Automatically Constructing a Dictionary for Information Extraction Tasks”, Proceedings of the Eleventh National Conference on Artificial Intelligence, pp. 811–816.

91

[20] Ellen Riloff and William Phillips (2004), An introduction to the Sundance and AutoSlog Systems, Technical Report UUCS-04-015, School of Computing, University of Utah.

[21] Ian Roberts and Robert Gaizauskas (2004), “Evaluating Passage Retrieval Approaches for Question Answering”, In Proceedings of 26th European Conference on Information Retrieval (ECIR’04), pp. 72-84.

[22] Sam Scott and Robert Gaizauskas (2001), “QA-LaSIE: A Natural Language Question Answering System”, Canadian Conference on AI, pp. 172-182.

[23] Barry Smith, Christiane Fellbaum (2004), “Medical WordNet: A New Methodology for the Construction and Validation of Information Resources for Consumer Health”, Proceedings of Coling: The 20th International Conference on Computational Linguistics, pp. 371-382.

[24] Martin M. Soubbotin and Sergei M. Soubbotin (2001), “Patterns of Potential Answer Expressions as Clues to the Right Answers”, In Proceedings of the 10th Text Retrieval Conference, pp. 175-182.

[25] Stefanie Tellex, et al (2003), “Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering”, In Proceedings of the Twenty-Sixth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 41-47.

[26] Hong Yu, Kaufman D (2007), “A Cognitive Evaluation of Four Online Search Engines for Answering Definitional Questions Posed by Physicians. Pacific Symposium on Biocomputing 12, pp. 328-339.

[27] Hong Yu, Sable C, Zhu H (2005), “Classifying Medical Questions based on an Evidence Taxonomy”, Proceedings of the AAAI 2005 workshop on question answering in restricted domains.

[28] Hong Yu, et al (2007), “Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians”.

93

PH LC

A.Các dấu hiệu nhận biết hết đoạn của abstract được phân tách

"INTRODUCTION:", "INTRODUCTION AND OBJECTIVES:", "BACKGROUND:", "Background.", "Background:", "METHODOLOGY:", "METHODOLOGY/PRINCIPAL FINDINGS:", "Methods:", "PRINCIPAL FINDINGS:", "METHODS:", "MATERIAL AND METHODS:", "RESULTS:", "Results.", "RESULTS AND CONCLUSIONS:", "RESULTS AND DISCUSSION:", "DISCUSSION:", "CONCLUSION:",

"CONCLUSIONS:", "CONCLUSIONS/SIGNIFICANCE:", "Conclusion:", "Conclusions.", "Conclusions:", "OBJECTIVE–", "Objective:", "Objectives:", "OBJECTIVES:", "RESEARCH DESIGN AND METHODS–", "CONCLUSIONS–", "RESULTS–", "FINDINGS:", "STUDY DESIGN:", "CASE PRESENTATION:"

B.Một số tham số dữ liệu sử dụng thêm cho Sundance.

Tên file Mô tả Ví dụ

bio_append_dict.txt Từđiển dữ liệu y khoa “desulfobulbus_propionicus” là một danh từ (NOUN) bio_non_eos.txt Dấu hiệu chưa kết thúc câu “_A.”

bio_phrasal.txt Danh mục cú pháp của các cụm danh từ “desulfobulbus propionicus” được phân tích là “desulfobulbus_propionicus” C.Một số caseframe được tạo tựđộng. CF: Name: <subj>_ActVp__REFERS_577

94 Anchor: VP1(REFERS) Act_Fcns: active_verb_broad_p(VP1(REFERS) ) Slot: subj #Stats: #frequency = 161 #relativeFreq = 159 #cond_prob = 0.988 #rlog_score = 7.222 CF: Name: <subj>_PassVp__CALLED_202 Anchor: VP1(CALLED) Act_Fcns: passive_verb_broad_p(VP1(CALLED) ) Slot: subj #Stats: #frequency = 40 #relativeFreq = 38 #cond_prob = 0.95 #rlog_score = 4.986 CF: Name: <subj>_PassVp__REFERRED_285 Anchor: VP1(REFERRED) Act_Fcns: passive_verb_broad_p(VP1(REFERRED) ) Slot: subj #Stats: #frequency = 23 #relativeFreq = 21

95 #cond_prob = 0.913 #rlog_score = 4.01 CF: Name: <subj>_PassVp__KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj #Stats: #frequency = 159 #relativeFreq = 116 #cond_prob = 0.73 #rlog_score = 5.003

D.Mộ số ví dụ rút trích thông tin định nghĩa sử dụng case frame

CF: Name: <subj>_PassVp__KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj CF: <subj>_PassVp__KNOWN_9 Trigger(s): (KNOWN) EXTRACTION: “Niacin”

Niacin is known to increase insulin resistance, and have adverse effects on blood glucose levels, but to have beneficial effects on plasma lipids and li

1Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18591993 poproteins1. 

96 2Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/19350285 3Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18335041 CF: Name: <subj>_ActVp__CAUSED_116 Anchor: VP1(CAUSED) Act_Fcns: active_verb_broad_p(VP1(CAUSED) ) Slot: subj  CF: <subj>_ActVp__CAUSED_116 Trigger(s): (CAUSED) EXTRACTION: “Bronchiolitis”

Bronchiolitis caused by the respiratory syncytial virus (rsv) in infants less than two years old is a growing public health concern worldwide, and there is

currently no safe and effective vaccine3.

CF: Name: <subj>_AuxVp_Dobj__BE_DISEASE_12 Anchor: VP1(ROOT:BE) Act_Fcns: active_aux_root_p(VP1(BE) ) has_dobj_following_r(VP1(BE) NP1(DISEASE) ) Slot: subj  CF: <subj>_AuxVp_Dobj__BE_DISEASE_12 Trigger(s): (BE) EXTRACTION: “Lung cancer” Lung cancer is a disease of

high symptom burden, major psychosocial impact and poor prognosis2.

97

E.Một số thuật ngữ trong UMLS 2009 có định nghĩa tìm kiếm từ Google. Thuật ngữ Câu định nghĩa Nguồn

Aldolase is a protein (called an enzyme) that helps break down certain sugars into energy

http://www.nlm.nih.gov/medli neplus/ency/article/003566.ht m

Aldolase

Aldolase is a crystalline enzyme that occurs widely in living systems and catalyzes reversibly the cleavage of a phosphorylated fructose into triose sugars.

http://www.merriam-

webster.com/dictionary/aldola se

endoneuriu m

the endoneurium is a layer of delicate connective tissue that encloses the myelin sheath of a nerve fiber within a fasciculus.

http://medical-

dictionary.thefreedictionary.c om/endoneurium

genotype the genotype is the genetic constitution of a cell, an organism, or an individual (i.e. the specific allele makeup of the individual) usually with reference to a specific character under consideration.

http://en.wikipedia.org/wiki/G enotype

Một phần của tài liệu Đề Tài: Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong y khoa pptx (Trang 88 - 97)

Tải bản đầy đủ (PDF)

(97 trang)