1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng hệ thống trích hút thông tin

235 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội

B ộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀ NỘI BÁO CÁO TỎNG KÉT ĐÈ TÀI K H O A H Ọ C V À CÔNG NG H Ệ CẤP c SỞ XÂY DựNG HỆ THỐNG TRÍCH RÚT THÔNG TIN Chủ nhiệm đề tài: PGS.TS Lê Thanh Hương H a n o i U n iv e r s it y lllillillifllllllijiillllilll! 000074200 H Nôi, 11/2012 B ộ G IÁ O D Ụ C V À Đ À O T Ạ O T R Ư Ờ N G Đ Ạ• I H Ọ• C H À N Ộ• I BÁO CÁO TƠNG KÉT ĐÈ TÀI KHO A HỌC VÀ CÔ NG NGHỆ C ẤP c o SỞ XÂY DỤNG HỆ THĨNG TRÍCH RÚT THƠNG TIN C h ủ n h iệ m đề tài: P G S T S L ê T h a n h H o n g THƯ V IỆ N Đ Ạ I H Ọ C H À NỘI HANOI UNIVERSITY L IBRARY 7-ỶCỈỌỮ Hà Nội, 11/2012 N H Ữ N G N G Ư Ờ I T H A M G IA T H Ụ C H IỆ N Đ È T À I V À Đ Ơ N VỊ PH Ĩ I H Ợ P C H ÍN H STT Họ tên Lê Thanh H ơns Đon vị công tác Nội dung nghiên cứu cụ lĩnh vực chuyên môn thê đuọc giao Đại học Bách khoa Hà Chủ nhiệm đê tài, nghiên cứu kỹ thuật trích rút thơng tin đề xuất cách tiếp cận phù hợp cho Nội toán Nguyễn Xn Hồi Đại Học Hà Nội Khoa học máy tính Học Viện Kỳ Thuật Nguyễn Thị Hiền Quân Sự, Khoa học máy tính Trợ lý nghiên cứu, thiết kế hệ thống lập chương trình máy tính Trợ lý nghiên cứu lập trình viên MỤC LỤC D A N H M Ụ C B Ả N G D A N H M Ụ C C H Ủ V IẾ T T Ắ T I II M Ớ Đ Ầ U T one, q u an tình hình n g h iên c u Thời gian thự c h iện đê t i .7 Tính cấp th iết củ a đề t i M ụ c tiêu đ ề t i Cách tiếp c ậ n P h n g p h p n g h iên c ứ u Đoi tư ợ n g p h ạm vi n g h iên c ứ u TÒM T ẮT NỘI DUNG VÀ KẾT Q UA NGHIÊN c u 10 C h n g N g h iê n u tốn trích rút th n g tin đề x u ấ t cách tiêp cận 10 1.1 Đ ặt v ấn đ ề 10 1.2 G iải q u y ế t toán trích r ú t thực t h e 11 1.2.1 Đ ặt vấn đ ề 11 1.2.2 M ộ t số đặc điểm tiế n g V iệt có ảnh h n g đến việc nh ận d n g th ự c t h ể 12 1.2.3 T ríc h rú t thực the tro n g văn b ản tiến g V i ệ t 14 1.3 G iải q u y ế t tốn trích rú t mối q u a n hệ g iữ a thự c t h ê 19 1.3.1 Đ ặt v ấn đ ề 19 1.3.2 C c m ối qu an hệ g iữ a th ự c thê tro n g tiến g V i ệ t 20 l 3.3 T ríc h rút m ố i q u an hệ g iữ a thự c t h ể 22 C h n g X â y d ự n g ứ n g d ụ n g v th n g h i ệ m 24 2.1 T rú t thự c t h ể 24 2.1.1 Q u trìn h hu ấn l u y ệ n .24 2.1.2 Quá trình nhận dạng 27 2.1.3 Đ n h g iá hệ th ố n g tríc h rút th ự c t h ể 27 2.2 Trích rút quan hệ thực thể .29 2.2.1 G n n h ã n d liệu hu ấn l u y ệ n 30 2.2.2 Q u trìn h h uấn l u y ệ n 32 2.2.3 Quá trình nhận dạng 35 2.2 Đ n h g iá hệ th ô n g tríc h rút q u a n hệ g iữ a thự c t h ê .36 III S Ả N P H Ẩ M 38 C h u y ê n đề 1: Báo cáo tố n g quan - “N g h iê n u, tổ n g hợ p kỹ th u ật trích rút th ô n g tin g iớ i” 38 C h u y ê n đề 2: “N g h iê n u đề x u ấ t cách tiếp cận trích rút th ự c thể tro n g văn b ản tiế n g V iệ t” 38 3 C h u y ê n đề 3: “N g h iê n cứu đề x u ấ t cách tiếp cận trích rút m ối quan h ệ giữ a thự c th ê văn tiế n g V iệt” 39 C h u y ê n đê 4: “T h iế t kế, cài đặt hệ th ô n g trích rút th ự c thê tro n g v ăn tiế n g V iệ t” 39 C h u y ê n đề 5: “ T h iế t kê, cài đặt hệ th o n g trích rút m q uan hệ g iữ a th ự c thê tro n g văn tiến g V iệ t” 40 Tài liệu kỹ t h u ậ t v 40 k ế t q u ả đào tạo củ a đề t i 40 IV KÉT LUẬN VẢ KIÉN N G H Ị .41 T À I L IỆ U T H A M K H Ả O 43 DANH M Ụ• C BẢNG Bảne Các luật đồng tham chiếu 13 B ans Luật nhóm 17 Bảng Các đặc trưng sử dụne nhận dạne quan hệ thực thê .22 B ans Các mẫu ngừ cảnh từ vựng .25 Bảna Các mầu ngừ cảnh thể đặc điểm từ 25 Bảng Các mẫu ngữ cảnh dạne biểu thức quy 26 Bảng C ác mẫu ngừ cảnh d n s từ đ i ể n 26 Bảng Các tham số trình huấn luyện 27 Bảng - Két thực nghiệm hệ thống học bán giám sát 28 Bảng 10 - Kết trích rút đối phươne pháp học có siám sát sứ dụng CRFs 29 Bảng 11 - Kết trích rút phương pháp học có giám sát sử dụng kNN 29 Bảng 12 - Ket mối quan hệ Live in (P e r- L o c ) 36 Bảng 13 - Ket m ối quan hệ W ork for (Per- Org) .36 Bảng 14 - Ket mối quan hệ Position (Per- Pos) 37 Bảng 15 - So sánh hộ thốna Giuliano cộng (2007) với hệ thống cài đặt 37 DANH MỤC CHU VIÉT TẮT S TT C h ữ viết tắt Y nghĩa IE Information Extraction CSDL Cơ sở dừ liệu CRF Conditional Random Field SVM Support Vector Machines kNN K Nearest Neighbours I M Ỏ ĐẦU Tòng quan tình hình nghiên cứu Miện nay, với phát triển Internet việc kết nối băne thông rộng, khả tiếp cận với khối lượng lớn thông tin khắp nơi giới lớn, cần có máy tính kết nối Internet Tuy nhiên đơi khối lượng thỏne tin lớn làm người d ù ns bị "chìm neập” trona thơng tin, q nhiều thời gian để có dược thơna tin mà mong muốn, v ầ n đề dược giải hệ thống trích rút thơng tin (Information Extraction IE) theo miền ứng dụna dua vào sở liệu (CSDL) cho phép người dùng dề dàng khai thác thơng tin Vấn đề trích rút thơng tin đans quan tâm nehiên cứu nhiều giới Mặc dù vậy, việc giải vấn đề nhiêu hạn chê Các tốn dược dặt trích rút thơne tin : trích rút tên thực thể ; trích rút thuộc tính thực thể ; trích rút thơng tin thời eian ; trích rút thơng tin mối quan hệ thực thể Các hệ thống trích rút thơns tin thường dược cài đặt cho ứng dụng cụ thể Các ứna dụng khác dược giải khía cạnh mức dộ khác Phần lớn hệ thống trích rút thơng tin trích rút thơng tin (heo khuôn dạng định thời aian (dd/mm/yyyy), mã vùng, mã nước, v.v Có nhiều d ạn s thực thể thuộc tính mà hệ thống IE chưa khai thác Ngoài hệ thống chưa quan tâm nhiều đến việc thu thập thông tin cách tự động thông qua phương pháp học máy Ở Việt Nam, nghiên cứu xoay quanh lĩnh vực chưa có nhiều kết thực tiễn Vì vậy, chúng tơi mn nghiên cửu sâu vê lĩnh vực này, nhằm tìm kết phương pháp giải tốt Việc thực dề tài tạo tiền đề cho triển khai ứng dụng thực tế sau này, nhằm đem lại lợi ích khoa học kinh tế cho xã hội T h ò i gian thực đề tài Từ tháng 10 năm 2011 đến tháng 10 năm 2012 T í n h cấ p thiết c ủ a đề tài Ngày nay, việc sử dụng Internet đế tìm kiếm, khai thác thơng tin ngày phổ biến Internet nguồn tài nguyên sẵn có, dồi thơng tin tri thức tồn xã hội Một nhừne nhu cầu khai thác Internet thu thập thông tin lĩnh vực định, ví dụ thu thập thơng tin nhà khoa học người Việt giới, hay thu thập thông tin trường đại học Việt Nam Các thơna tin hữu ích cho nhà tuyển d ụn s việc tuyến nhân viên ; cho trường đại học nhà khoa học việc hợp tác nghiên cứu ; cho cơrm ty việc tìm kiếm dối tác hay để phục vụ công việc kinh doanh, v.v Một aiải pháp thường nghĩ đến sử dụna côrm cụ tìm kiếm Google, Altavista, v.v Tuy nhiên, người sử dụng phải chọn lọc cách thủ công từ nhừna kết tìm kiếm để lấy trang web phù hựp với mục đích Hơn nữa, nhiều trane web liên quan đến vấn đề người dùng quan tâm không đưa từ khóa tìm kiếm người sử dụng nhập vào chưa dủ để bao phủ hết tất khả Vì vậy, việc xây dựng cơng cụ hỗ trợ việc thu thập trích rút thône tin từ Internet nhu cầu thiết Các thơng tin dược tự độ n s phân tích đưa vào CSDL, cho phép người dùng dễ dàna khai thác thơng tin Việc xây dựng CSDL nàv ưu việt chỗ không tập trung dừ liệu neuồn m linh hoạt trona việc tra cứu thơna tin Với sở dừ liệu, người dùns khơng tìm kiểm theo cách đơn giản so khớp từ khóa chế làm việc máy tìm kiếm mà tra cứu thơne tin theo nhiều kiểu khác nhau, chẳng hạn tìm thông tin khoảng thời gian định M ụ c tiêu đề tài Mục tiêu đề tài nghiên cứu kỹ thuật trích rút thơng tin xây dựng thử nghiệm hệ thống trích rút thông tin tiếng Việt nhà khoa học người Việt giới C c h tiếp cận • Khảo sát cách tiếp cận trích rút thơng tin để hiểu phương pháp dùng giới • Nghiên cứu đặc điếm ngơn ngữ tiếng Việt • Phân tích chọn phươne pháp trích rút thơng tin hiệu phù hợp với tiếng Việt Đề xuất giải pháp để tăng tính hiệu hệ thống trích rút thơng tin tiếng Việt • Trên sở giải pháp đề xuất, cài đặt hệ thống thử nghiệm • Đánh RÌá hệ thốns; cài đặt dựa tập ngừ liệu mẫu Phương pháp nghiên cứu - Với việc khảo sát cách tiếp cận trích rút thông tin, nehiên cứu cách cách tiếp cận liên quan giới, tập trung vào kỳ thuật đại, nn ngữ thơng dụns giới (như tiếna Anh), tiếng Việt - Với việc nghiên cứu đặc điểm ngôn ngừ tiếng Việt, nghiên cứu tài liệu rmôn ngừ tiếne Việt tài liệu từ Vựn2 naừ pháp, naữ nghĩa; khảo sát cấu trúc văn phone tài liệu tiếng Việt đại báo chí báo khoa học v.v nhằm sử dụng tri thức vào việc xây dựng hệ thống trích rút thơng tin - Đẻ chọn phươne, pháp trích rút thông tin hiệu phù họp với tiếng Việt, trước tiên chúng tơi tiến hành phân tích ưu nhược điểm phương pháp có giới Trên sở đặc diểm ngôn ngữ tiếng Việt, đề xuất số phương pháp trích rút thơng tin phù họp với tiếng Việt Chúng tiến hành cài đặt thử nghiệm phương pháp đề xuất, so sánh đánh giá với kết có giới Đối tuọng phạm vi nghiên cứu I lệ thống trích rút thơng tin từ văn thông tin nhà khoa học người Việt VnExpress dantri Wikipedia tiếng Việt Các sở dừ liệu quan hệ thuận tiện cho việc khai tiếng Việt cần có khả nâng trích rút từ trane w eb tiếng Việt thông tin đưa vào thác Phần báo cáo trình bày kết đạt dề tài cuối cùng, phần III đưa kết luận hướng phát triển đề tài tương lai TAI LIỆU THAM KHAO [1] Appelt, D., 1999 An Introduction to Information Extraction Artificial Intelligence Communications 12 (3), 161-172 [2] ACE Annotation guidelines for entity detection and tracking [3] Biocreative — critical assessment for information extraction in biology [4] Oren Etzioni, Michael Cafarella, Doug Downey, Ana- Maria Popescu, Tal Shaked, Stephen Soderland, Daniel s Weld, and Alexander Yates 2005 Unsupervised named-entity extraction from the web: an experimental study Artif Intel/., 165(1): 91-134 [5] Giuliano, c., Lavelli, A., and Romano, L 2007 Relation extraction and the influence of automatic named-entity recognition ACM Transactions on Speech and Language Processing (TSLP), Volume , Issue [6] Culotta, A., McCallum, A and Betz, J 2006 Integrating probabilistic extraction models and data mining to discover relations and patterns in text In Proceedings of HLTNAACL 2006, pages 296-303 [7] Banko, M and Etziom, 2008 The tradeoffs between open and traditional relation extraction In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, pages 28-36 29 ĐÊ TÀI NGHIÊN cứu KHOA HỌC (2011) "Xây dựng hệ thống trích rút thông tin" TÀI LIỆU KỸ THUẬT "Hướng dẫn sử dụng chương trình trích rút thơng tin văn tiếng Việt" N h óm th ư• c hiên đề tài: • PGS TS L ê Thanh H u on g, C N Đ T P G S T S N guyễn X u â n H o i T h S N guyễn T h ị H iề n Hà nội - 20 12 ĐẠ I HỌC HẨNỘI ĐÊ TÀI NGHIÊN cứu KHOA HỌC (2011) "Xây dựng hệ thống trích rút thơng tin" TÀI LIỆU KỸ THUẬT ■ ■ "Hướng dẫn sử dụng chướng trình trích rút thơng tin văn tiếng Việt" Nhóm th ự c đê tài: PGS TS Lê Thanh H n g , C N Đ T PGS TS Nguyễn X u â n Hoài ThS N guyễn Thị Hiên Hà nội - 2012 MỤC LỤC ■ ■ Hướng dẫn sử dụng chương trình tríchrút thực t h ể 1.1 Khởi động chương trình .3 1.2 Thử nghiệm chức : Code documentation 2.1 Mã nguồn chương trin h 2.2 Các từ điển sử dụng chương trình 2.3 Các đặc trư n g thể Hướng dẫn sử dụng chương trìnhtríchrút quan hệ thực 3.1 Khởi động chương trìn h 3.2 Thử nghiệm chức năn g 3.3 Code docum entation 10 Hướng dẫn sử dụng chương trình trích rút thực thê 1.1 Khởi động chương trình Khởi động chương trình NetBeans version 6.9.1 lớn Chọn file -> Open project -> Chọn chương trình RE ấn OK Khi giao diện chương trình NetBeans hình sau: WEEN_Phuong-NetBeỏns IDE6.B File Edit View o mă P ro je c ts LU interface.)ava 16 ■úỉ$ Label.Java 17 (dSj LexCPGen.java 18 M aps.java o ! JD idSỊ HieuNang javỏ j run.xml “ i f '! ExampleFíeFilter.)3va & Run « W « * c o r fig > im p o r t ja v a io * ; p u b lic c la s s Ẹ) 19 Ịd5j Mathlb |âva 20 |d5j Model Java 21 Ẹ) LU i n t e r f a c e e x te n d s ja v a x s w in g JF ram e { 22 LU_interface.java - Navigator 23 Members View ĩf l LU_nterface :: JFrame o LU_lnterface() *ẵịj mitComponentsO 25 26 27 p u b lic LU i n t e r f a c e { try { t h i s s e t T i t l e ( "T loadActìonPerform ed(A í.tiO -r£vint evt) ^ ^ luAct onPer formed( At t-or£ - £f? evt) Search Results Output luM ouseClicked(M " js rC v e r* evt) Chọn run, emoticon công cụ chọn chuột phải vào tên project chọn run Khi giao diện chương trình sau: J Trích rút th°cth°tavănb°ntiangVi°t g o Đ u iiẹ dân (lên file ft-iii vao chon văn bàn: Tái (Hi liệu Van băn đáu vao T ríc h rú t Hiệu su it Thơng tin trích rút Cac time tliẻ ván băn ĩ l a i i l i §in h iệ u sunt d m ƠH2 t iu ili Trong giao diện trên, nút bên phải ô "Chọn văn bản" cho phép chọn văn vào từ thư mục máy tính (*.txt) File đầu vào tách từ Sau chọn file văn cần trích rút thực thể nội dung file hiển thị phần "Văn đâu vào" Nút Trích rút đế trích nút thực thể văn Các thực thê văn hiển thị phần "Các thực thể văn bản", ô bên phải hiển thị hiệu suất chương trình 1.2 Thử nghiệm chức Trước hết cần chọn file liệu để thử nghiệm cách kích chuột vào nút Sau ấn nút Trích rút , giao diện chương trình hình vẽ: J Trích rút thac tho to vãn bon ticng Vict c h ọ n v ăn bân: E :\D oA n\data\test\raw - 1.txt VÓI c c Tai lễ cóng khai Trước d ó, trin h maC/ g iáo b iếc Kẻ c n g y k h oa hoc c ủ a m in h , g i o tháng sư dã đươc c in tă n g thưởng nhán g i ả i nãm , s N qó B o C h â u đ c m ò i óng huy chương F ield s, g iáo ông dã sư t a i I hop t F ield s tranh th ủ nháp quốc t í c h khoa to an , Trích rut dọc báo cáo t r o n g p h iên trư ờng đ a i hoc th ứ hailv ó i hy v o n g Chicagc I Thơng tm trích rút A VỚI O ther Ot h e r cóng t r i n h O ther khoa O ther hoc Ocher m inh O ther Ot h e r Ngô Bảo C h â u đươc O ther mòi O ther đoc báo Per Ot h e r cáo tro n g Ot h e r O ther rtr v>or- N h ă n ORG: So n h ă n d ũ n g : Sổ n h ã n m áy h ọ c : 3 Số nhãn đ p ả n : 1 H iêu s u t p = 75.90361 * R= % Và F= 64 ‘t SU" P e r giảo s o n n a n CTu ngrJ O.u S o n h ã n m áy h o c : 4*? ũ So n h ã n đ p n : H iéu s u t p - 86.36364 % R- 6 6 i Và F - 5 * V Code documentation 2.1 Mã ngn chương trình Khi mở Netbean, mã nguồn chương trình thư mục een_phuong LU_interface.java File giao diện chương trình Hieunang.java File tính tốn hiệu hệ thống Test ja va File xử lý việc tính tốn xây dựng ma trận lan truyền nhãn buildMatrixT.java File xử lý việc tính tốn xây dựng ma trận T phương pháp lan truyền nhãn 2.2 Các từ điên s dụng chương trình Các từ điển sử dụng chương trình thư mục een_phuong.LexicalStorage, bao gồm: ADDITION-DICT.txt Danh sách trợ động từ/ngữ CONJUNCTION-DICT.txt Danh sách từ nối DEFINE-DICT.txt Danh sách từ định nghĩa LOC-DICT.txt Danh sách từ nơi chốn LOC-INDICATE-ADVERB-DICT.txt Danh sách phó từ nơi chốn LOC-INDICATE-NOUN-DICT.txt Danh sách danh từ nơi chốn LOC-INDICATE-VERB-DICT.txt Danh sách động từ nơi chốn NU MERICAL-PRONOUN-DICT.txt Danh sách cụm từ số lượng ORG-INDICATE-NOUN-DICT.txt Danh sách từ quan PER- INDICATE-NOUN-DICT.txt Danh sách danh từ người PER-LOC-AMBIGUITY.txt Danh sách từ nhập nhằng người chức vụ 2.3 Các đặc trưng Package xác định đặc trưng cho từ Dictionary.java Đặc trưng từ điển T điển chứa từ đánh giá hay xuất câu thể mối quan hệ xét Entities.java Quản lý thực thể văn Hướng dẫn sử dụng chương trình trích rút quan hệ thực thê 3.1 Khởi động chương trình Khởi động chương trình NetBeans version 6.9.1 lớn Chọn file -> Open project -> Chọn chương trình RE ấn OK Khi giao diện chương trình NetBeans hình sau: o IDE 6.S C £ilí Lđrt Viív tj»vigjTf ío u i : t '’.eíạctor t IDịiii * Protects - ĩ, Rí DePug profile Tcsrc Jc c" vv'mdo* Lie's 'defcJtconfig> „ Ỵ Ỹi ỉ> ■5-arl Page a :^ TSunVew.jav* B Fit«» 3' Cxton* De-J3*ae.)ava CằWttrằrằ.Jằvô_ * ' > arch.prtoer6ô W lasiDE L Ssjrc* ?a N ic o la s lyẰ) [It tcr.ij A r e lk a ] < / p e r> ịr ẩ i ( lê r [trc r.g ] < p er> 'A r.e llc a ] < / p e r> [c h u y ể r.] < p er> [A r.e iic a ] < / p e r> [c ó ] Ex tra ct [ s ir h ] < d a te > [It.su c ] [ t i] [màn] [cù a ] < org> [ r a ir.ac] ["g ay] < c:g > [ C h e ls e a ] < o rc> [14; [z'r.kr.rz] [3] Ịc u lạ c [ A r s e r a i] < /c rg > [ C h e ls e a ] t í; [cú ] < /c rg > [r.air.j < org> ĩt r c r ] " < [CLB] [trệ Insert into Database < Fe r3 0r.s> Person < F e :so r r.a B L e = " c ầ u _ iạ c _ fc ộ _ R e a l_ M d d r id n > Ar.e Sca < /F e rs c n > < F e r3 n r.arr-e=" c ầ u _ iạ c _ f c ộ _ Ằ : e r a l" > Search Ar.e k:a < / F e rs c r.> < F e rs o r r.aite= "A r.eltca"> < w c rlc _ fo r> C h e l3 e a < / w c r ) c _ fo r> c ể u _ c h ù < / jo b > < /Ferscn > < F e r s o r ; r ã ir e = " N ic o ia s _ A r ie lk : a " > < w o rk f o r > C â u l c c ẩ u t h ủ C h e ls e a < / w o r J c _ fo bór.g đ < / jc b > < liv e _ b ir c h > V e r a ille s _ , _ F h p < / lìv e _ b < fc ir th > n g y _ _ th n g _ _ n ă n v _ ĩ9 < / b ir c < / F e rs o r.> Thử nghiệm tính náng search với tên người cân tìm kiếm thơng tin là: "Anelka", giao diện chương trình hình vẽ sau: Extract Insert into Database < P e r s c r s > Person C h e s e a < / ’W c r k : _ F c r > AnelKs ? < / Jc fc > < /F e r scr.3> 3.3 Code documentation 3.3.1 Context AbstractContext.java Định nghĩa ngữ cảnh trừu tượng DefaultContext.java Xác định cửa sổ (số từ lấy trước sau từ khóa) LocalContextMapping.java Xác định vector đặc trưng cho từ văn 3.3.2 Feature Package xác định đặc trừng cho từ Dictionary java Đặc trưng từ điển T điển chứa từ đánh giá hay xuất câu thể mối quan hệ xét Entity.java Loại thực thể văn để xác định quan hệ 10 Featurelndex.java Xác định số cho đặc trưng xét Orthographic.java Các đặc trưng tả như: chữ hoa, chữ thường, số, ký tự la mã Pos.java Đặc trưng thể từ loại 3.3.3 Lib Package xử lý tiền văn ConvertText.java Chuyển định dạng văn đầu vào thành chuỗi ReadWriteFile.java Đọc ghi liệu Sentence.java Xử lý câu văn đầu vào TextFilter.java Kiểm tra định dạng file đầu vào Word.java Tách thông tin từ chuỗi đầu vào, xử lý từ AutoConvert.java Pakage thực chuyển đổi file liệu đầu vào sang định dạng tokenid&&token&&lemma&&POS&&entity_type&&entity_label Trong đó, o Tokenid: thứ tự từ câu o Token: từ khóa Các khoảng trắng thay ký tự Ví dụ: Nguyễn_Văn_Nam, Bách_Khoa_Hà_Nội o Lemma: từ sau chuyển dạng chữ thường o POS: thể từ loại từ o Entity_type: nhãn thực thể, tương ứng với loại nhãn kể o Entityjabel: ■ A: đánh dấu vị trí xuất thực thể thứ ■ T: đánh dấu vị trí xuất thực thể thứ hai Predict.java Thực đưa quan hệ thực thể văn 3.3.4 Org.itc.irst.tcc.sre Ánh xạ, xử lý trích rút quan hệ thực thể CompareExampleSet.java So sánh file liệu, đánh giá đưa đặc trưng cần nhớ vào model CreatT estSet.ja va Tạo liệu test CreatTrainingSet.java Tạo liệu huấn luyện Map.java Ánh xạ cách thức đánh giá từ, ngữ cảnh RelationExtractor.java Đưa mối quan thực thể 3.3.5 Org.itc.irst.tcc.sre.data.context Xây dựng khung cho việc xét từ, ngữ cảnh văn AgentContext.java Tách câu, tách từ BetweenAfterContext.java Xây dựng vector ngữ cảnh sau thực thể Số từ xét phụ thuộc vào cửa sổ sử dụng 12 BetweenContext.java Xây dựng vector ngữ cảnh thực thể, thân thực thể ForeBetweenContext.java Xây dựng vector ngữ cảnh trước thực thể Số từ xét phụ thuộc vào cửa sổ sử dụng GlobalContext.java Xây dựng vector ngữ cảnh toàn cục dựa vector: vector ngữ cảnh trước-giữa, vector ngữ cảnh vector ngữ cảnh giữa-sau LocalContext.java Xây dựng vector ngữ cảnh cục dựa vector: vector ngữ cảnh bên trái, vector ngữ cảnh bên phải thực thể MiddleContext.java Xây dựng vector ngữ cảnh thực thể 3.3.6 re Database Cách thức kết nối, nhập truy xuất với database Review Giao diện chương trình 13 ... tin theo nhiều kiểu khác nhau, chẳng hạn tìm thông tin khoảng thời gian định M ụ c tiêu đề tài Mục tiêu đề tài nghiên cứu kỹ thuật trích rút thơng tin xây dựng thử nghiệm hệ thống trích rút thông. .. cơng ty xây dựng hệ thống trích rút thông tin theo cách tiếp cận Dữ liệu sau trích rút dược lưu CSDL giao diện người dùne giao diện truy vấn CSD L thông thườna Cách tiếp cận thứ hai xây dựng tập... Etzioni (2008) tạo hệ thống O-CRF (Open CRF) cho trích rút quan hệ mà không dùng tới thông tin quan hệ từ phía nsười dùng Hệ thống tự học bàng cách áp dụng tri thức độc lập quan hệ vào Penn 19 Trcebank

Ngày đăng: 20/06/2019, 23:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w