1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu

49 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 3,67 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG SỬ DỤNG MẪU ÐỂ TRÍCH LỌC THƠNG TIN S K C 0 9 MÃ SỐ: T2013-40 S KC 0 Tp Hồ Chí Minh, 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG SỬ DỤNG MẪU ĐỂ TRÍCH LỌC THƠNG TIN Mã số: T2013-40 Chủ nhiệm đề tài: GV ThS Nguyễn Thanh Tuấn TP HCM, 02/2014 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG SỬ DỤNG MẪU ĐỂ TRÍCH LỌC THÔNG TIN Mã số: T2013-40 Chủ nhiệm đề tài: Nguyễn Thanh Tuấn TP HCM, 02/2014 TÓM LƢỢC ĐỀ TÀI Khi trích lọc thơng tin, hệ thống thường cố gắn sử dụng cơng cụ phân tích câu, để tìm đặt trưng (features) từ câu truy vấn thông tin Sau tìm kiếm kho liệu để tìm tài liệu có độ tương đồng gần với đặt trưng Công việc thường tốn nhiều thời gian phải làm hai cơng việc phân tích câu vấn phân tích tài liệu cần rút trích kho liệu Trích lọc thơng tin sử dụng mẫu trích lọc cơng việc cố gắng tìm tài liệu có phù hợp với tập mẫu rút trích hay khơng Các tập mẫu phải tạo trước cách huấn luyện tập mẫu với tập liệu cho trước Vì tập mẫu tạo trước sử dụng chúng để trích lọc thơng tin nên liệu mới, chưa huấn luyện không xử lý tốt Có thể khơng trích khơng thỏa mẫu trích lọc kho liệu Việc tạo tập mẫu rút trích sử dụng cho tất liệu nói chung, liên quan đến tất lĩnh vực không khả thi (trích dẫn) Và cơng việc lãng phí thời gian (trích dẫn) Do đó, mẫu trích lọc huấn luyện thông thường liên quan đến lĩnh vực Ví dụ: y tế, địa lý… Để sử dụng cho mục đích trích thuật ngữ định nghĩa câu định nghĩa lĩnh vực y khoa Đề tài sử dụng kho liệu MEDLINE liên quan đến lĩnh vực y khoa câu có cấu trúc định nghĩa từ Google thuật ngữ y khoa để tạo tự động tập mẫu trích lọc thơng tin Số lượng tập mẫu tạo tự động nhiều Trong đó, có số mẫu khơng phù hợp cho hệ thống trích lọc thuật ngữ định nghĩa y khoa Tôi xác định tiêu chí để trích lọc tập mẫu định nghĩa Và trích lọc 348 mẫu trích lọc Đề tài chưa sử dụng ngữ nghĩa q trình tạo tự động mẫu trích lọc Do vậy, mẫu trích lọc thơng tin chưa tốt Theo nhận định [10], [14]: tạo tập mẫu có quan tâm đến ngữ nghĩa cho tập mẫu tốt Đây hướng nghiên cứu phát triển sau đề tài MỤC LỤC TÓM LƢỢC ĐỀ TÀI DANH MỤC CÁC BẢNG BIỂU .6 DANH MỤC CÁC HÌNH ẢNH .7 DANH MỤC CÁC TỪ VIẾT TẮT MỞ ĐẦU Tình hình nghiên cứu ngồi nước Tính cấp thiết đề tài .9 Mục tiêu đề tài 10 Phương pháp nghiên cứu 10 Đối tượng phạm vi nghiên cứu .10 Nội dung nghiên cứu 11 Phương pháp quy trình thực mục tiêu 11 Nội dung đề tài 12 CHƢƠNG CÁC KIẾN THỨC CƠ SỞ 13 1.1 Sơ lược hệ thống trích lọc thơng tin sử dụng mẫu 13 1.1.1 Định nghĩa 13 1.1.2 Thành phần phân tích tài liệu 13 1.1.2.1 Tiền xử lý tách câu 13 1.1.2.2 Phân tích cú pháp câu 13 1.1.3 Thành phần so khớp mẫu 14 1.2 UMLS 15 1.2.1 Khái niệm 15 1.2.2 Metathesaurus 16 1.2.3 Semantic Network .16 1.2.4 SPECIALIST Lexicon & Lexical Tools 17 1.3 Kho liệu MEDLINE 17 1.4 Kiến thức thuật giải xử lý máy tính mà nghiên cứu sử dụng 18 1.4.1 AutoSlog 18 1.4.1.1 Mơ hình .18 1.4.1.2 Kho liệu 18 1.4.1.3 Bộ phân tích câu 18 1.4.1.4 Tập mẫu cú pháp 20 1.4.1.5 Danh sách cụm danh từ 21 1.4.1.6 Nhận xét 21 1.4.2 AutoSlog-TS 22 1.4.2.1 Mơ hình 22 1.4.2.2 Nguyên tắc hoạt động 23 1.4.2.3 Nhận xét 23 1.5 Sơ lược hệ thống Sundance .23 1.5.1 Giới thiệu 23 1.5.2 Cấu trúc case frame .24 1.5.3 Giải thích thành phần 24 1.5.4 Ví dụ case frame 26 1.5.5 Nhận xét 28 CHƢƠNG XÂY DỰNG CASE FRAME TỰ ĐỘNG .29 2.1 Mục tiêu 29 2.2 Mơ hình xử lý 29 2.3 Dữ liệu huấn luyện 30 2.3.1 Relevant text 30 2.3.2 Irrelevant text 31 2.4 Xây dựng cấu trúc case frame định nghĩa .31 2.5 Trích lọc case frame định nghĩa .32 2.5.1 Đặc tả Slot 32 2.5.2 Các thông số chọn lọc .33 2.6 Thực nghiệm xây dựng case frame định nghĩa 33 2.7 Sử dụng case frame để xác định câu định nghĩa trích thuật ngữ 35 2.8 Kết luận 36 KẾT LUẬN & KIẾN NGHỊ 38 Kết đạt đề tài 38 Hướng phát triển đề tài 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC 41 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Tập mẫu cú pháp .20 Bảng 2.1 Case frame không phù hợp với ngưỡng RelFreqi >=3 .33 Bảng 2.2 Case frame định nghĩa bị bỏ qua với ngưỡng RelFreqi >=5 34 Bảng 2.3 Các thông số chọn lọc case frame 34 Bảng 2.4 Một số case frame trích lọc theo điều kiện 35 Bảng 2.5 Bảng kết thực nghiệm sử dụng case frame 36 DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Mơ hình tổng quan hệ thống trích lọc thơng tin sử dụng mẫu 13 Hình 1.2 Kết phân tích câu 14 Hình 1.3 nguồn liệu tích hợp UMLS 15 Hình 1.4 Kiến trúc tổng quan kho tri thức UMLS .16 Hình 1.5 Các lớp khái niệm Semantic Network 17 Hình 1.6 Mơ hình tạo mẫu tự động AutoSlog 18 Hình 1.7 Kết phân tích câu "Bacteriastrum is a genus of diatoms in family Chaetocerotaceae" 19 Hình 1.8 Mơ hình tạo mẫu tự động AutoSlog-TS 22 Hình 1.9 Cấu trúc case frame 24 Hình 1.10 Thể caseframe .26 Hình 1.11 Phân tích câu :"The plane crashed in Utah in January in a blaze of fire" 27 Hình 1.12 Case frame matching với câu phân tích 28 Hình 2.1 Mơ hình tạo case frame tự động 30 Hình 2.2 Mơ hình tạo relevant text 31 Hình 2.3 Cấu trúc case frame định nghĩa 32 Hình 2.4 Biểu đồ số lượng case frame thỏa tiêu chí chọn lọc 34 Hình 2.5 Biểu đồ tỉ lệ câu thỏa không thỏa case frame 36 Hình 2.6 Hình thức lưu trữ tập câu định nghĩa 36  Anchor  Tập hàm kích hoạt (activation function)  Gán nhãn phân loại case frame (tùy chọn)  Slot để rút trích thơng tin CF: Name: [tên case frame] Anchor: [biến số từ loại (constituent_variable)] ([từ (word)]) Act_Fcns: [tập hàm kích hoạt tham số chúng] Type: Nhãn phân loại case frame (optional) Slot: [vai trị cú pháp] Hình 2.3 Cấu trúc case frame định nghĩa Các thành phần case frame diễn giải mục 1.5.2 1.5.3 chương Trong đó, thành phần thứ case frame, cần sử dụng 01 slot thơng tin cần rút trích thơng thường danh từ, cụm danh từ chủ ngữ câu Điều phù hợp với cấu trúc câu định nghĩa thông thường ngôn ngữ tiếng Anh [1], [4] Các tiêu chí trích lọc thực nghiệm tạo tự động case frame trình bày mục 2.5 2.6 2.5 Trích lọc case frame định nghĩa Như trình bày trên, số lượng case frame tạo tự động nhiều Trong đó, có số case frame khơng phù hợp cho hệ thống hỏi đáp Tơi xác định tiêu chí để trích lọc case frame định nghĩa 2.5.1 Đặc tả Slot Đối tượng rút trích đặc tả phần Slot case frame Các đối tượng rút trích là: - subj (subject) - dobj (direct object) - iobj (indirect object) 32 - pp (prepositional phrase) Trong hệ thống hỏi đáp, thuật ngữ rút trích thơng thường subj câu, cịn đối tượng thông tin khác không phù hợp với hệ thống Vì vậy, tơi giữ lại case frame có phần đặc tả Slot subj 2.5.2 Các thông số chọn lọc Trong cơng thức (1.2), nhận thấy rằng, RlogF(patterni) có giá trị lớn trường hợp [10]: - RelFreqi có giá trị lớn P(relevant | pattern) có giá trị vừa phải - P(relevant | pattern) có giá trị lớn RelFreqi có giá trị vừa phải 2.6 Thực nghiệm xây dựng case frame định nghĩa Dữ liệu huấn luyện: - Relevant text: lấy 1,641 câu định nghĩa - Irrelevant text: 4,150 câu trích ngẫu nhiên từ phần “background” Trong trường hợp case frame xuất lần liệu huấn luyện P(relevant | pattern) = Nhưng điều không đủ sở để xác định case frame tốt cho việc rút trích thơng tin [10] Do đó, tơi chọn case frame có tần xuất xuất lần trở lên Với liệu trên, tạo tự động 4,228 case frame xuất từ lần trở lên liệu huấn luyện Với ngưỡng RelFreqi >=3, tập case frame tạo bao gồm nhiều case frame case frame định nghĩa (bảng 2.1) Bảng 2.1 Case frame không phù hợp với ngƣỡng RelFreqi >=3 Tên case frame _ActVp RELEASE_807 _AuxVp_Dobj HAVE_EFFECTS_197 _ActVp RECEIVE_420 … 33 Với ngưỡng RelFreqi >=5, số case frame rút trích thơng tin định nghĩa đối tượng bị bỏ sót (bảng 2.2) Bảng 2.2 Case frame định nghĩa bị bỏ qua với ngƣỡng RelFreqi >=5 Tên case frame _ActVp ASSOCIATED_65 _ActVp INVOLVES_76 _ActVp PLAYS_177 … Do vậy, tơi chọn case frame có thông số thỏa mãn giá trị thể bảng 2.3 Sử dụng hai tiêu chí chọn lọc case frame này, tơi trích lọc 348 tổng số 4,228 case frame Một số case frame định nghĩa trích lọc thể bảng 2.4 Bảng 2.3 Các thông số chọn lọc case frame Thông số Giá trị thỏa RelFreqi >=4 P(relevant | pattern) >= 0.8 8% Case frame định nghĩa Case frame khác 92% Hình 2.4 Biểu đồ số lƣợng case frame thỏa tiêu chí chọn lọc 34 Bảng 2.4 Một số case frame đƣợc trích lọc theo điều kiện P(relev totalfreq relfreq ant | pattern) Rlog F Tên case frame 161 159 0.988 7.222 _ActVp REFERS_577 63 63 1.000 5.977 _AuxVp_Adjp BE_ANY_157 51 51 1.000 5.672 _AuxVp_Dobj BE_GENUS_53 159 116 0.730 5.003 _PassVp KNOWN_9 32 32 1.000 5.000 _ActVp MEANS_1196 40 38 0.950 4.986 _PassVp CALLED_202 54 48 0.889 4.964 _ActVp PRODUCED_25 82 63 0.768 4.592 _ActVp FOUND_39 31 29 0.935 4.545 _AuxVp_Dobj BE_ENZYME_ 21 72 56 0.778 4.517 _ActVp KNOWN_84 … … … … … 2.7 Sử dụng case frame để xác định câu định nghĩa trích thuật ngữ Tơi sử dụng 348 case frame định nghĩa để so khớp (matching) với tập câu phân vào lớp Class_Intro Class _Back Kết thể bảng 2.5 hình 2.5 Các câu thỏa mãn điều kiện rút trích case frame tơi trích lọc lưu trữ dạng thể hình 2.6 nhằm phục vụ cho việc đánh mục liệu Một số ví dụ rút trích thơng tin định nghĩa sử dụng case frame đính kèm phụ lục D 35 Bảng 2.5 Bảng kết thực nghiệm sử dụng case frame Số câu ban đầu Thỏa case frame Không thỏa case frame Class_Intro 115,615 25,442 90,173 Class _Back 4,541,718 1,208,462 3,333,256 Tổng cộng 4,657,333 1,233,904 3,423,419 26% Thỏa case frame 74% Khơng thỏa case frame Hình 2.5 Biểu đồ tỉ lệ câu thỏa không thỏa case frame ==> Câu định nghĩa … ==> Câu định nghĩa n Hình 2.6 Hình thức lƣu trữ tập câu định nghĩa 2.8 Kết luận Tơi thực được: - Mơ hình xử lý tạo tự động case frame - Xây dựng case frame phù hợp với hệ thống hỏi đáp - Sử dụng tập case frame để xác định câu định nghĩa trích thuật ngữ định nghĩa tương ứng Để q trình rút trích thơng tin tốt hơn, thử nghiệm lựa chọn thông số trích lọc case frame thích hợp Tập case frame tạo tự động để sử dụng cho mục đích trích lọc thơng tin định nghĩa đối tượng 36 lĩnh vực y khoa (phụ lục C) Ngồi ra, tập case frame cịn sử dụng cho hệ thống rút trích thơng tin định nghĩa đối tượng lĩnh vực khác 37 KẾT LUẬN & KIẾN NGHỊ Kết đạt đƣợc đề tài - Xây dựng hệ thống tạo tự động mẫu trích lọc thơng tin - Tạo tập mẫu trích lọc thơng tin Sử dụng mẫu để trích lọc thuật ngữ lĩnh vực y khoa - Sử dụng tập case frame để xác định câu định nghĩa trích thuật ngữ định nghĩa tương ứng Hƣớng phát triển đề tài - Sử dụng tập case frame xây dựng để trích lọc thuật ngữ tài liệu Phục vụ cho việc xây dựng hệ thống hỏi đáp tự động - Sử dụng ngữ nghĩa UMLS trình tạo tự động mẫu trích lọc nhằm nâng cao độ xác, phù hợp tập mẫu trích lọc cho lĩnh vực y khoa 38 TÀI LIỆU THAM KHẢO [1] Bas Aarts (2001), English Syntax and Argumentation, palgrave, New York [2] Dayne Freitag (1998), Toward General-Purpose Learning for Information Extraction In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics [3] S Huffman (1996), Learning information extraction patterns from examples In Stefan Wermter, Ellen Riloff, and Gabriele Scheler, editors, Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing, pages 246–260 Springer-V erlag, Berlin [4] Roderick A Jacobs (1995), English Syntax: A Grammar for English Language Professionals, Oxford University Press, US [5] J Kim and D Moldovan (1993), Acquisition of Semantic Patterns for Information Extraction from Corpora In Proceedings of the Ninth IEEE Conference on Artificial Intelligence for Applications, pages 171–176, Los Alamitos, CA IEEE Computer Society Press [6] Nicholas Kushmerick (1997), Wrapper Induction for Information Extraction, Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, IJCAI 97, Nagoya, Japan [7] Ellen Riloff and Jay Shoen (1995), “Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, Proceedings Third Workshop on Very Large Corpora, pp 148-161 [8] Ellen Riloff (1996), “Automatically Generating Extraction Patterns from Untagged Text”, In Proceesding of the Thirteenth National Conference on Artificial Intelligence, pp 1044-1049 [9] Ellen Riloff (1993), “Automatically Constructing a Dictionary for Information Extraction Tasks”, Proceedings of the Eleventh National Conference on Artificial Intelligence, pp 811–816 39 [10] Ellen Riloff and William Phillips (2004), An introduction to the Sundance and AutoSlog Systems, Technical Report UUCS-04-015, School of Computing, University of Utah [11] Riloff, E and Jones, R (1999) "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping", Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), pp 474-479 [12] Riloff, E and Wiebe, J (2003) "Learning Extraction Patterns for Subjective Expressions", Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP-03) [13] S Soderland, D Fisher, J Aseltine, and W Lehnert (1995), CRYST AL: Inducing a conceptual dictionary In Proc of the F ourteenth International Joint Conference on Artificial Intelligence, pages 1314–1319 [14] Hong Yu, et al (2007), “Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians” Journal of Biomedical Informatics 40, pp 236–251 40 PHỤ LỤC A Các dấu hiệu nhận biết hết đoạn abstract đƣợc phân tách "INTRODUCTION:", "Background.", FINDINGS:", AND "Background:", "Methods:", METHODS:", "RESULTS "INTRODUCTION AND "Objectives:", "CONCLUSIONS–", OBJECTIVES:", "METHODOLOGY:", "PRINCIPAL "RESULTS:", "METHODS:", "RESULTS AND "DISCUSSION:", "CONCLUSIONS/SIGNIFICANCE:", "Conclusions:", "OBJECTIVES:", "RESULTS–", "BACKGROUND:", "METHODOLOGY/PRINCIPAL FINDINGS:", "Results.", DISCUSSION:", "CONCLUSIONS:", "Conclusions.", AND CONCLUSIONS:", "CONCLUSION:", "Conclusion:", "OBJECTIVE–", "RESEARCH DESIGN "FINDINGS:", "STUDY "MATERIAL "Objective:", AND METHODS–", DESIGN:", "CASE PRESENTATION:" B Một số tham số liệu sử dụng thêm cho Sundance Tên file Mô tả bio_append_dict.txt Từ điển liệu y khoa Ví dụ “desulfobulbus_propionicus” danh từ (NOUN) bio_non_eos.txt Dấu hiệu chưa kết thúc câu bio_phrasal.txt Danh mục cú pháp “desulfobulbus cụm danh từ “_A.” phân propionicus” tích “desulfobulbus_propionicus” C Một số caseframe đƣợc tạo tự động CF: Name: _ActVp REFERS_577 Anchor: VP1(REFERS) Act_Fcns: active_verb_broad_p(VP1(REFERS) ) 41 Slot: subj #Stats: #frequency = 161 #relativeFreq = 159 #cond_prob = 0.988 #rlog_score = 7.222 CF: Name: _PassVp CALLED_202 Anchor: VP1(CALLED) Act_Fcns: passive_verb_broad_p(VP1(CALLED) ) Slot: subj #Stats: #frequency = 40 #relativeFreq = 38 #cond_prob = 0.95 #rlog_score = 4.986 CF: Name: _PassVp REFERRED_285 Anchor: VP1(REFERRED) Act_Fcns: passive_verb_broad_p(VP1(REFERRED) ) Slot: subj #Stats: #frequency = 23 #relativeFreq = 21 #cond_prob = 0.913 #rlog_score = 4.01 42 CF: Name: _PassVp KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj #Stats: #frequency = 159 #relativeFreq = 116 #cond_prob = 0.73 #rlog_score = 5.003 D Mộ số ví dụ rút trích thơng tin định nghĩa sử dụng case frame CF: Name: _PassVp KNOWN_9 Anchor: VP1(KNOWN) Act_Fcns: passive_verb_broad_p(VP1(KNOWN) ) Slot: subj Niacin is known to increase insulin resistance, and have adverse effects on blood glucose levels, but to have beneficial effects on plasma lipids and lipoproteins1 CF: _PassVp KNOWN_9 Trigger(s): (KNOWN) EXTRACTION: “Niacin” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18591993 43 CF: Name: _AuxVp_Dobj BE_DISEASE_12 Anchor: VP1(ROOT:BE) Act_Fcns: active_aux_root_p(VP1(BE) ) has_dobj_following_r(VP1(BE) NP1(DISEASE) ) Slot: subj Lung cancer is a disease of high symptom burden, major psychosocial impact and poor prognosis2 CF: _AuxVp_Dobj BE_DISEASE_12 Trigger(s): (BE) EXTRACTION: “Lung cancer” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/19350285 CF: Name: _ActVp CAUSED_116 Anchor: VP1(CAUSED) Act_Fcns: active_verb_broad_p(VP1(CAUSED) ) Slot: subj Bronchiolitis caused by the respiratory syncytial virus (rsv) in infants less than two years old is a growing public health concern worldwide, and there is currently no safe and effective vaccine3 CF: _ActVp CAUSED_116 Trigger(s): (CAUSED) EXTRACTION: “Bronchiolitis” Nguồn: http://www.ncbi.nlm.nih.gov/pubmed/18335041 44 E Một số thuật ngữ UMLS 2009 có định nghĩa tìm kiếm từ Google Thuật ngữ Câu định nghĩa Aldolase Aldolase is a protein (called an http://www.nlm.nih.gov/med Nguồn enzyme) that helps break down lineplus/ency/article/003566 certain sugars into energy htm Aldolase is a crystalline enzyme http://www.merriamthat occurs widely in living webster.com/dictionary/aldol systems and catalyzes reversibly ase the cleavage of a phosphorylated fructose into triose sugars endoneuriu the endoneurium is a layer of http://medical- m delicate connective tissue that dictionary.thefreedictionary.c encloses the myelin sheath of a om/endoneurium nerve fiber within a fasciculus genotype the genotype is the genetic http://en.wikipedia.org/wiki/ constitution of a cell, an organism, Genotype or an individual (i.e the specific allele makeup of the individual) usually with reference to a specific character under consideration 45 S K L 0 ... hình nghiên cứu ngồi nước Tính cấp thiết đề tài .9 Mục tiêu đề tài 10 Phương pháp nghiên cứu 10 Đối tượng phạm vi nghiên cứu .10 Nội dung nghiên cứu. .. ĐẦU Tình hình nghiên cứu ngồi nƣớc Trước tiến hành nghiên cứu mình, tơi tìm hiểu tổng quan tình hình nghiên cứu chung trình xây dựng tự động mẫu trích lọc thơng tin ngồi nước Q trình xây dựng... nghiên cứu lựa chọn phát triển [10], [12] Hiện nay, tình hình nghiên cứu nước, nghiên cứu phân tích cú pháp câu Tiếng Việt chưa hồn thiện Do đó, chưa có nhiều nghiên cứu trích thơng tin sử dụng

Ngày đăng: 12/12/2021, 00:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Dayne Freitag (1998), Toward General-Purpose Learning for Information Extraction. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Toward General-Purpose Learning for Information Extraction
Tác giả: Dayne Freitag
Năm: 1998
[3] S. Huffman (1996), Learning information extraction patterns from examples. In Stefan Wermter, Ellen Riloff, and Gabriele Scheler, editors, Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing, pages 246–260. Springer-V erlag, Berlin Sách, tạp chí
Tiêu đề: Learning information extraction patterns from exampl
Tác giả: S. Huffman
Năm: 1996
[4] Roderick A. Jacobs (1995), English Syntax: A Grammar for English Language Professionals, Oxford University Press, US Sách, tạp chí
Tiêu đề: English Syntax: A Grammar for English Language Professionals
Tác giả: Roderick A. Jacobs
Năm: 1995
[5] J. Kim and D. Moldovan (1993), Acquisition of Semantic Patterns for Information Extraction from Corpora. In Proceedings of the Ninth IEEE Conference on Artificial Intelligence for Applications, pages 171–176, Los Alamitos, CA. IEEE Computer Society Press Sách, tạp chí
Tiêu đề: Acquisition of Semantic Patterns for Information Extraction from Corpora
Tác giả: J. Kim and D. Moldovan
Năm: 1993
[6] Nicholas Kushmerick (1997), Wrapper Induction for Information Extraction, Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, IJCAI 97, Nagoya, Japan Sách, tạp chí
Tiêu đề: Wrapper Induction for Information Extraction
Tác giả: Nicholas Kushmerick
Năm: 1997
[7] Ellen Riloff and Jay Shoen (1995), “Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, Proceedings Third Workshop on Very Large Corpora, pp. 148-161 Sách, tạp chí
Tiêu đề: Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, "Proceedings Third Workshop on Very Large Corpora
Tác giả: Ellen Riloff and Jay Shoen
Năm: 1995
[8] Ellen Riloff (1996), “Automatically Generating Extraction Patterns from Untagged Text”, In Proceesding of the Thirteenth National Conference on Artificial Intelligence, pp. 1044-1049 Sách, tạp chí
Tiêu đề: Automatically Generating Extraction Patterns from Untagged Text”, "In Proceesding of the Thirteenth National Conference on Artificial Intelligence
Tác giả: Ellen Riloff
Năm: 1996
[9] Ellen Riloff (1993), “Automatically Constructing a Dictionary for Information Extraction Tasks”, Proceedings of the Eleventh National Conference on Artificial Intelligence, pp. 811–816 Sách, tạp chí
Tiêu đề: Automatically Constructing a Dictionary for Information Extraction Tasks”, "Proceedings of the Eleventh National Conference on Artificial Intelligence
Tác giả: Ellen Riloff
Năm: 1993
[10] Ellen Riloff and William Phillips (2004), An introduction to the Sundance and AutoSlog Systems, Technical Report UUCS-04-015, School of Computing, University of Utah Sách, tạp chí
Tiêu đề: Technical Report UUCS-04-015
Tác giả: Ellen Riloff and William Phillips
Năm: 2004
[11] Riloff, E. and Jones, R. (1999) "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping", Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), pp. 474-479 Sách, tạp chí
Tiêu đề: Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping
[12] Riloff, E. and Wiebe, J. (2003) "Learning Extraction Patterns for Subjective Expressions", Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP-03) Sách, tạp chí
Tiêu đề: Learning Extraction Patterns for Subjective Expressions
[13] S. Soderland, D. Fisher, J. Aseltine, and W . Lehnert (1995), CRYST AL: Inducing a conceptual dictionary. In Proc. of the F ourteenth International Joint Conference on Artificial Intelligence, pages 1314–1319 Sách, tạp chí
Tiêu đề: CRYST AL: "Inducing a conceptual dictionary
Tác giả: S. Soderland, D. Fisher, J. Aseltine, and W . Lehnert
Năm: 1995
[14] Hong Yu, et al (2007), “Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians”.Journal of Biomedical Informatics 40, pp. 236–251 Sách, tạp chí
Tiêu đề: Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians”. "Journal of Biomedical Informatics 40
Tác giả: Hong Yu, et al
Năm: 2007

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w