1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút sự kiện từ văn bản tiếng việt

63 227 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,46 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN VĂN CƢỜNG TRÍCH RÚT SỰ KIỆN TỪ VĂN BẢN TIẾNG VIỆT Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS LÊ THANH HƢƠNG Hà Nội – Năm 2015 MỤC LỤC MỤC LỤC LỜI CAM ĐOAN .5 LỜI CẢM ƠN .6 DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU .9 Chƣơng TỔNG QUAN 10 1.1 Tên đề tài .10 1.2 Lý chọn đề tài 10 1.3 Mục tiêu nghiên cứu .10 1.4 Phạm vi nghiên cứu .11 1.5 Đóng góp luận văn 11 1.6 Bố cục luận văn .11 Chƣơng TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN .13 2.1 Trích rút thông tin .13 2.2 Trích rút kiện .14 2.2.1 Định nghĩa kiện 15 2.2.2 Bài toán trích rút kiện 15 2.3 Trích rút kiện từ văn hội thảo khoa học tiếng Việt 16 2.4 Sự khác trích rút thông tin trích rút kiện .17 2.5 Ý nghĩa toán trích rút kiện hội thảo khoa học .18 2.6 Kết luận chƣơng .18 Chƣơng PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH RÚT SỰ KIỆN 19 3.1 Phƣơng pháp dựa tập luật 19 3.1.1 Luật cú pháp 19 3.1.2 Luật ngữ nghĩa 20 3.1.3 Định dạng biểu diễn tập luật 20 3.1.3.1 Đặc điểm thẻ .20 3.1.3.2 Các luật để xác định thực thể đơn 21 3.1.3.3 Các luật cho đa thực thể 21 3.1.3.4 Lựa chọn định dạng tập luật 22 3.2 Ƣu nhƣợc điểm phƣơng pháp tiếp cận dựa luật 22 3.3 Tổng quan Gate 23 3.3.1 Giới thiệu Gate 23 3.3.2 Kiến trúc Gate 24 3.3.3 ANNIE (A Nearly New Information Extraction System) 26 3.3.4 Bộ luật JAPE (Java Annotation Patterns Engine) 27 3.4 Mô hình trích rút kiện từ văn hội thảo khoa học tiếng Việt 29 3.4.1Thu thập liệu 31 3.4.2 Tiền xử lý 31 3.4.2.1 Tách từ 31 3.4.2.2 Tách câu 31 3.4.2.3 Gán nhãn liệu 32 3.4.3 So khớp luật 32 3.5 Phân tích thiết kế hệ thống 33 3.6 Thiết kế sở liệu 34 3.7 Kết luận chƣơng .35 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 4.1 Một số công cụ sử dụng thực nghiệm 36 4.1.1 Về thiết bị cấu hình phần cứng 36 4.1.2 Về công cụ phần mềm 36 4.2 Xây dựng luật Gate 36 4.2.1 Luật đƣợc xây dựng địa nhƣ sau: 36 4.2.2 Luật xây dựng thời gian nhƣ sau: 40 4.2.3 Luật xây dựng tên kiện nhƣ sau: 43 4.2.4 Luật xây dựng link gốc 45 4.3 Xây dựng hệ thống giao diện thực nghiệm 45 4.4 Đƣa liệu lên Web, khai thác tìm kiếm thông tin .52 4.5 Đánh giá trình rút kiện 55 4.6 Kết luận chƣơng 56 Chƣơng KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN 57 5.1 Các kết đạt đƣợc 57 5.2 Hƣớng phát triển 57 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 59 LỜI CAM ĐOAN Tôi xin cam đoan giải pháp trích rút kiện từ văn tiếng Việt đƣợc trình bày luận văn thực dƣới hƣớng dẫn PGS.TS Lê Thanh Hƣơng Các kết luận văn tốt nghiệp trung thực, chƣa công bố công trình khoa học khác không chép toàn văn công trình khác Tôi xin chịu trách nhiệm nội dung luận văn Tác giả Nguyễn Văn Cƣờng LỜI CẢM ƠN Luận văn Trích rút kiện từ văn tiếng Việt kết trình học tập nghiên cứu suốt thời gian học tập Thạc Sỹ Trƣờng Đại học Bách khoa Hà Nội Trong suốt trình làm luận văn tác giả nhận đƣợc bảo tận tình yêu cầu nghiêm khắc PGS.TS Lê Thanh Hƣơng Trƣớc hết xin bày tỏ lòng kính trọng biết ơn sâu sắc tới PGS.TS Lê Thanh Hƣơng, ngƣời truyền đạt kiến thức qúi báu nhƣ kinh nghiệm nghiên cứu khoa học suốt thời gian tác giả làm luận văn Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Viện Đào tạo sau đại học, Bộ môn Hệ thống Thông tin thuộc trƣờng Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi trình học tập nghiên cứu để hoàn thành luận văn Tác giả xin chân thành cảm ơn đến Ban Giám hiệu trƣờng Đại học Kỹ thuật Hậu cần CAND anh em đơn vị tạo điều kiện cho tác giả học tập nghiên cứu Với lực hạn chế luận văn không tránh đƣợc thiếu sót Tác giả mong đƣợc góp ý quý thầy cô, anh em bạn bè đồng nghiệp để luận văn đƣợc hoàn thiện Tác giả Nguyễn Văn Cƣờng DANH MỤC CÁC TỪ VIẾT TẮT MUC Message Understanding Conference ACE Automatic Content Extraction NER Named Entity Recognition RE Relation Extraction IE Information Extraction CSDL Cơ sở liệu NLP Natural Language Processing EE Event Extraction DM Data Mining GATE General Architecture for Text Engineering ANNIE A Nearly New Information Extraction System JAPE Java Annotation Patterns Engine LHS Left-Hand-Side RHS Right-Hand-Side DANH MỤC CÁC HÌNH VẼ Hình 3.1 Mô hình kiến trúc GATE .24 Hình 3.2 Mô hình trình trích rút kiện hội thảo khoa học .30 Hình 3.3 Biểu đồ phân tích chức 33 Hình 4.1 Giao diện hệ thống GATE 46 Hình 4.2 Giao diện vế trái hệ thống GATE 47 Hình 4.3 Giao diện vế phải hệ thống GATE .48 Hình 4.4 Kết trích rút từ văn định dạng tự .49 Hình 4.5 Kết trích rút từ văn có định dạng 49 Hình 4.6 Thông tin tên hội thảo đƣợc lƣu bảng tenhoithao 51 Hình 4.7 Dữ liệu đƣợc lƣu vào bảng sở liệu 51 Hình 4.8 Sau trích rút thông tin thị website 52 Hình 4.9 Kết tìm kiếm theo tên hội thảo 53 Hình 4.10 Kết tìm kiếm theo chủ đề thời gian 53 Hình 4.11 Kết tìm kiếm kết hợp theo tên hội thảo theo thời gian 54 Hình 4.12 Giao diện sau kích vào đƣờng link 55 MỞ ĐẦU Trên giới có nhiều công trình nghiên trích rút thông tin (Information Extraction - IE), trích rút kiện (Event Extraction - EE) lĩnh vực trích rút thông tin (Information Extraction - IE) Trong năm gần đây, trích rút kiện thu hút đƣợc nhiều quan tâm nhà khoa học khắp giới, thu đƣợc nhiều kết đƣợc cộng đồng khắp giới quan tâm Chính mà trích rút kiện đƣợc ứng dụng vào nhiều lĩnh vực khác nhƣ kinh tế, trị, văn hóa, xã hội, y tế… Ngày với phát triển nhanh chóng Internet với việc kết nối máy tính băng thông rộng, việc tiếp cận khối lƣợng lớn từ kho liệu văn khắp nơi giới Chính đặt câu hỏi làm lấy đƣợc thông tin cần thiết nhanh từ lƣợng liệu khổng lồ mà thời gian Trích rút thông tin cho phép thu thập lọc thông tin cần thiết cách dễ dàng nhanh chóng thuận tiện… Trên giới có nhiều công trình nghiên cứu trích rút kiện, Việt Nam công trình nghiên cứu vấn đề Trong luận văn tác giả trình bày trích rút thông tin, trích rút kiện, định nghĩa kiện, trích rút kiện từ văn hội thảo khoa học tiếng Việt, ý nghĩa toán trích rút kiện, phƣơng pháp sử dụng luận văn, công cụ sử dụng luận văn Chƣơng TỔNG QUAN 1.1 Tên đề tài Tên đề tài Tiếng Việt: Trích rút kiện từ văn tiếng Việt Tên đề tài Tiếng Anh: Event extraction from text Vietnamese 1.2 Lý chọn đề tài Ngày nay, với phát triển nhanh đất nƣớc hội nhập với khu vực công nghệ thông tin đóng vai trò quan trọng, phát triển mạnh mẽ đƣợc ứng dụng nhiều lĩnh vực sống xã hội Với phát triển mạnh mẽ Internet kết nối băng thông rộng cho phép tìm kiếm thông tin cách dễ dàng với nguồn liệu đa dạng phong phú từ Internet Tuy nhiên với kho liệu phong phú đa dạng Internet liệu thống Ngƣời sử dụng mong muốn có thông tin xác đƣợc tổng hợp từ nhiều nguồn khác để dễ dàng theo dõi, tìm kiếm, lƣu trữ,… cần có hệ thống trích rút kiện để ngƣời dùng dễ dàng khai thác Trên giới, trích rút kiện đƣợc quan tâm Để ứng dụng đƣợc vào thực tế hệ thống trích rút kiện thƣờng đƣợc cài cho ứng dụng cụ thể Có nhiều khía cạnh mà EE chƣa khai thác hết Ở lĩnh vực khác áp dụng phƣơng thức tiếp cận khác để giải Ở Việt Nam, nghiên cứu trích rút kiện lĩnh vực trích rút kiện từ văn Tiếng Việt nhiều hạn chế Chính lựa chọn đề tài: “Trích rút kiện từ văn tiếng Việt” mong muốn tìm phƣơng pháp giải tốt hiệu đạt kết tốt hơn, nghiên cứu sâu 1.3 Mục tiêu nghiên cứu Từ lý chọn đề tài nêu mục 1.2 luận văn tác giả nghiên cứu phƣơng pháp tiếp cận giải toán trích rút kiện để trích rút thực thể Từ xây dựng cài đặt chƣơng trình demo ứng dụng trích rút kiện từ văn hội thảo khoa học tiếng Việt để hỗ trợ ngƣời dùng 10 Hình 4.4 Kết trích rút từ văn định dạng tự Hình 4.5 Kết trích rút từ văn có định dạng 49 Sau hệ thống trích rút đƣợc kết kết đƣợc lƣu trữ vào hệ quản trị sở liệu PHP MyAdmin Để lƣu trữ thực thể tên hội thảo, địa chỉ, thời gian, đƣờng link ta sử dụng bảng tƣơng ứng nhƣ: tenhoithao, diachi, gio, ngaythang, url Trong bảng tenhoithao gồm có trƣờng: - Source: lƣu đƣờng dẫn tới file liệu trích rút - Tenhoithao: Tên hội thảo trích rút đƣợc - Timestamp: Ghi lại thời gian trích rút Trong bảng ngaythang gồm có trƣờng: - Source: lƣu đƣờng dẫn tới file liệu trích rút - Ngaythang: Lƣu lại ngày tháng năm trích rút đƣợc - Timestamp: Ghi lại thời gian trích rút Trong bảng diachi gồm trƣờng: - Source: lƣu đƣờng dẫn tới file liệu trích rút - ngaythang: Lƣu lại địa trích rút đƣợc từ văn - Timestamp: Ghi lại thời gian trích rút Trong bảng sourceurl gồm trƣờng: - url: Lƣu lại địa trang web - Timestamp: Ghi lại thời gian trích rút 50 Hình 4.6 Thông tin tên hội thảo đƣợc lƣu bảng tenhoithao Hình 4.7 Dữ liệu đƣợc lƣu vào bảng sở liệu 51 4.4 Đƣa liệu lên Web, khai thác tìm kiếm thông tin Từ kết thu đƣợc đƣợc lƣu trữ hệ quản trị sở liệu PHP MyAdmin Ta đƣa thông tin thực thể lên mạng để theo dõi kiện diễn cách ta truy cập vào địa http://localhost:8888/hoithao.php Hình 4.8 Sau trích rút thông tin thị website Tại ngƣời dùng tìm kiếm thông tin theo tên hội thảo tìm kiếm theo thời gian diễn hội thảo Để tìm kiếm thông tin hội thảo ngƣời sử dụng cần đánh từ khóa vào ô tìm kiếm theo tên hội thảo đánh vào ô tìm kiếm theo thời gian(thời gian tháng năm) diễn hội thảo Ví dụ: Đánh vào ô tìm kiếm theo tên hội thảo: “ngôn ngữ học” hệ thống cho ta kết nhƣ sau: 52 Hình 4.9 Kết tìm kiếm theo tên hội thảo Nếu nhƣ ngƣời dùng đƣợc từ khóa hội thảo ngƣời dùng tìm kiếm theo chủ đề, lĩnh vực: ví dụ ngƣời dùng đánh vào ô tìm kiếm theo hội thảo “hội thảo văn học” hội thảo văn học có nhiều hội thảo ta kết hợp với tìm kiếm theo thời gian Hình 4.10 Kết tìm kiếm theo chủ đề thời gian 53 Hay từ khóa tìm kiếm nhƣng lại có nhiều hội thảo ta kết hợp với tìm kiếm theo thời gian Ví dụ từ khóa “văn hóa” tháng tháng tên hội thảo có để tìm kiếm xác ta kết hợp với thời gian Hình 4.11 Kết tìm kiếm kết hợp theo tên hội thảo theo thời gian Tại ngƣời sử dụng muốn quan tâm tới kiện ngƣời dùng cần kích chuột vào đƣờng link tới trang web tƣơng ứng Chẳng hạn ta kích vào đƣờng link https://vass.gov.vn/noidung/hoinghihoithao/Pages/tin-tuc-hoi-nghi-hoithao.aspx?ItemID=941 giao diện http://localhost:8888/hoithao.php ta đƣợc kết nhƣ sau: 54 Hình 4.12 Giao diện sau kích vào đƣờng link 4.5 Đánh giá trình rút kiện Để đánh giá khả trích rút kiện tác giả đƣa độ đo độ xác (P – Precision), độ hồi tƣởng (R - Recall) Độ xác (P) = Số kiện Số kiện + Số kiện sai Trong đó: - Số kiện đúng: Số kiện đƣợc mô hình trích rút - Số kiện sai: Số kiện mà mô hình trích rút sai Độ hồi tƣởng (R) = Số kiện Số kiện + Số kiện không đƣợc trích rút Trong đó: 55 - Số kiện không đƣợc trích rút: Là số kiện mà mô hình không trích rút đƣợc - Số kiện đúng: Số kiện đƣợc mô hình trích rút xác Qua ta có đánh giá nhƣ sau: - Số kiện đƣợc trích từ tập thực nghiệm là: 103 Số kiện sai là: Số kiện không tìm thấy: 11 Dựa vào công thức đánh giá độ xác độ hồi tƣởng ta có kết sau: - Độ xác (P) là: (103)/(103+3)=97% Độ hồi tƣởng (R) là: (103)/(103+11)= 90% 4.6 Kết luận chƣơng Trong chƣơng tác giả xây dựng hệ thống trích rút kiện từ văn hội thảo khoa học tiếng Việt dựa luật văn phạm JAPE kết tƣơng đối khả quan, việc tìm kiếm thông tin theo tên hội thảo, tìm kiếm theo thời gian, tìm kiếm kết hợp tên hội thảo với thời gian khả quan 56 Chƣơng KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN 5.1 Các kết đạt đƣợc Với đề tài trích rút kiện từ văn tiếng Việt, sau thời gian nghiên cứu luận văn trình bày đƣợc khái niệm trích rút thông tin, trích rút kiện, phƣơng pháp tiếp cận toán trích rút kiện, công cụ hỗ trợ trình trích rút kiện Từ kết đạt đƣợc trình nghiên cứu tác giả đề xuất mô hình trích rút kiện hội thảo từ văn tiếng Việt, xây dựng cài đặt demo chƣơng trình trích rút kiện hội thảo từ văn tiếng Việt, lƣu trữ thông tin vào sở liệu PHP MyAdmin, đƣa liệu lên Web để khai thác, việc tìm kiếm thông tin theo tên hội thảo bƣớc đầu cho kết tƣơng đối khả quan Kết thực nghiệm trình trích rút kiện từ văn hội thảo khoa học với độ xác (P) đạt 97% , độ hồi tƣởng (R) đạt 90 % điều chứng tỏ thích hợp với toán với độ xác Tuy nhiên thời gian tìm hiểu ít, kiến thức hạn chế lên hệ thống chƣa đƣợc nhƣ ý muốn tồn số nhƣợc điểm nhƣ luật xây dựng chƣa tổng quát cho trƣờng hợp 5.2 Hƣớng phát triển Do hạn chế thời gian kiến thức lên tác giả thử nghiệm mô hình miền liệu hội thảo khoa học Trong thời gian tới tác giả tiếp tục nghiên cứu sâu để nâng cao độ xác nhận biết đƣợc thực thể luật, thêm số luật để bắt đƣợc thực thể Tác giả mong muốn đƣợc quan tâm đóng góp ý kiến chân thành từ phía thầy cô, bạn sinh viên, học viên để tiếp tục hoàn thiện phát triển 57 TÀI LIỆU THAM KHẢO [1] Hearst M.A (1992), Automatic acquisition of hyponyms from large text corpora In: 14th Conference on Computational Linguistics , pp.539-545 [2] Ralph Grishman and Beth Sundheim (1996), Message Understanding conference-6: A Brief History, pp 466-471 [3] Ralph Grishman Silja Huttunen and Roman Yangaber (2002), Information extraction for enhenced access to disease outbreak reports, Journal of Biomedical Informastic, pp 236-246 [4] Doddington George R (2004), The automatic content extraction (ace) program - tasks, data, and evaluation [5] Frederik Hogenboom , Flavius Frasincar , Uzay Kaymak and Franciska de Jong (2011), An overview of event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web at Tenth International Semantic Web Conference (ISWC 2011), pp 48-57 [6] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, pp 261-377 [7] Stephen Soderland (1999), “Learning information extraction rules for semistructured and free text,” Machine Learning [8] H Cunningham, D Maynard, K Bontcheva, and V Tablan (2002), “Gate: A framework and graphical development environment for robust nlp tools and applications,” in Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics [9] Website https://vass.gov.vn/ [10] Website http://www.ciem.org.vn/ [11] Website https://gate.ac.uk/download/ [12] Website https://www.mamp.info/en/downloads/ 58 PHỤ LỤC Phụ lục 1: Xây dựng số Macro cho luật thời gian Macro: DAY_NAME ({Lookup.minorType == day }) Macro: ONE_DIGIT ({Token.kind == number, Token.length == "1"}) Macro: TWO_DIGIT ({Token.kind == number, Token.length == "2"}) Macro: FOUR_DIGIT ({Token.kind == number, Token.length == "4"}) Macro: DAY_MONTH_NUM (ONE_DIGIT | TWO_DIGIT) Macro: NGAY_TEXT ( {Token.string == "ngày"}| {Token.string == "Ngày"} ) Macro: THANG_TEXT ( {Token.string == "Tháng"}| {Token.string == "tháng"} ) Macro: NAM_TEXT ( {Token.string == "Năm"}| {Token.string == "năm"} ) Macro: NGAY_PREFIX Sáng chủ nhật 59 ({Token.string == "sáng"}| {Token.string == "chiều"} ) Macro: THU_TRONG_TUAN ( ({Token.string == "thứ"}|{Token.string == "Thứ"}) ONE_DIGIT ) Macro: DAY (((NGAY_PREFIX)? DAY_NAME) | THU_TRONG_TUAN ) Macro: MONTH_NAME ( (THANG_PREFIX)? {Lookup.minorType == month}) Macro: MONTH (MONTH_NAME | ({Token.string "Tháng"})?(ONE_DIGIT | TWO_DIGIT)) Macro: YEAR ( {Lookup.majorType == year}| TWO_DIGIT | FOUR_DIGIT | {Token.string == "'"} (TWO_DIGIT) ) Macro: SLASH ({Token.string == "/"}) Macro: DASH {Token.string == "-"} 60 == "tháng"}|{Token.string == Macro: COMMA ({Token.string == ","}) Phụ lục 2: Xây dựng số Macro cho luật tên kiện Macro: ADRESS_NUMBER ( ({Token.kind == number}) ({Token.kind == word, Token.length == "1"})? ) Macro: COMMA ({Token.string == ","}) Macro: DASH ({Token.string == "-"}) Macro: SLASH ({Token.string == "/"}) Macro: SLASHREV ({Token.string == "\\"}) Macro: POINT ({Token.string == "."}) Macro: TWOPOINT ({Token.string == ":"}) Macro: OPENPAR ({Token.string == "("}) Macro: CLOSEPAR ({Token.string == ")"}) Macro: EQUAL ({Token.string == "="}) Macro: QUES ({Token.string == "?"}) Macro: DAU_NHAY 61 ({Token.string == "\""}|{Token.string == "“"}|{Token.string == "”"}) Macro: ANYWORD (({Token.kind == word}|{Token.kind == number})|TWOPOINT|COMMA|DASH|POINT|SLASH|SLASHREV|OPENPAR| CLOSEPAR|EQUAL|QUES) Phụ lục 3: Xây dựng số Macro cho luật link gốc Macro: ADRESS_NUMBER ( ({Token.kind == number}) ({Token.kind == word, Token.length == "1"})? ({Token.string == "bis"})? ) Macro: COMMA ({Token.string == ","}) Macro: DASH ({Token.string == "-"}) Macro: SLASH ({Token.string == "/"}) Macro: SLASHREV ({Token.string == "\\"}) Macro: POINT ({Token.string == "."}) Macro: TWOPOINT ({Token.string == ":"}) Macro: OPENPAR ({Token.string == "("}) Macro: CLOSEPAR ({Token.string == ")"}) Macro: EQUAL 62 ({Token.string == "="}) Macro: QUES ({Token.string == "?"}) Macro: ANYWORD (({Token.kind == word}|{Token.kind == number})|TWOPOINT|COMMA|DASH|POINT|SLASH|SLASHREV|OPENPAR| CLOSEPAR|EQUAL|QUES) 63 ... luận văn trình bày trích rút thông tin, trích rút kiện, định nghĩa kiện, toán trích rút kiện, trích rút kiện từ văn hội thảo khoa học tiếng Việt; đồng thời nêu ý nghĩa toán trích rút kiện từ văn. .. thông tin, trích rút kiện, định nghĩa kiện, toán trích rút kiện, trích rút kiện từ văn hội thảo khoa học tiếng Việt, ý nghĩa toán trích rút kiện 2.1 Trích rút thông tin Ngày nay, trích rút thông... tập trung giới thiệu trích rút thông tin, trích rút kiện, định nghĩa kiện, toán trích rút kiện, trích rút kiện từ văn hội thảo khoa học tiếng Việt, ý nghĩa toán trích rút kiện Chƣơng ba cung cấp

Ngày đăng: 26/07/2017, 21:06

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] Stephen Soderland (1999), “Learning information extraction rules for semi- structured and free text,” Machine Learning Sách, tạp chí
Tiêu đề: Learning information extraction rules for semi-structured and free text
Tác giả: Stephen Soderland
Năm: 1999
[1] Hearst M.A (1992), Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics , pp.539-545 Khác
[2] Ralph Grishman and Beth Sundheim (1996), Message Understanding conference-6: A Brief History, pp. 466-471 Khác
[3] Ralph Grishman Silja Huttunen and Roman Yangaber (2002), Information extraction for enhenced access to disease outbreak reports, Journal of Biomedical Informastic, pp. 236-246 Khác
[4] Doddington George R (2004), The automatic content extraction (ace) program - tasks, data, and evaluation Khác
[6] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, pp. 261-377 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN