1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút thông tin tự động dựa trên học máy cho tiếng việt

81 193 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,51 MB

Nội dung

- 2010B - ! Trang Trang 2 Ư 11 1.1 11 1.2 Ki n trúc c a h th ng trích rút thông tin 15 1.2.1 Trích rút th c th - Named Entity Recognition (NER) 16 1.2.2 Gi i quy 1.2.3 Xây d ng m u ph n t - Template Element Construction (TE) 18 1.2.4 Xây d ng m u quan h 19 1.2.5 u k ch b n 19 ng tham chi u 17 1.3 Bài toán trích rút th c th 20 1.4 23 1.4.1 Trích rút thông tin t n 23 1.4.2 23 1.4.3 H tr h th ng tr l i câu hỏi t 1.4.4 C i thi n k t qu c a h th ng tìm ki m 24 Ư Ư TRÍCH RÚT THÔNG TIN ng 24 25 2.1 (hand-written regular expressions) 25 2.2 idden Markov Model - HMM) 26 2.3 Mô hình Markov c 2.4 T ng k Ư 3.1 MÔ i hóa Entropy (MEMM) 28 32 Ư 33 ng ng u ki n - CRFs 33 Trang 3.2 35 3.2.1 35 3.2.2 35 3.2.3 36 3.3 38 3.4 39 3.5 41 3.6 ch nhãn 43 3.7 44 Ư 45 4.1 4.2 45 Ứng d t 50 4.2.1 d ng CRF 50 4.2.2 50 4.2.3 54 4.3 d n: 55 4.3.1 ng: 56 4.3.2 ng câu 56 4.3.3 ng câu 57 4.3.4 ng câu 57 4.4 60 Ư Ư 61 5.1 5.2 t 61 Thi t k 61 5.2.1 Bi lu ng d li u m c 61 5.2.2 Bi phân c p ch 5.2.3 Các bi 63 lu ng th hi n ch Trang th ng 64 5.2.4 5.3 Thi t k Xây d d li u 67 68 5.3.1 L a ch n ngôn ng công c l p trình 68 5.3.2 Các l 5.4 69 Thi t k giao di n s d 5.5 72 75 5.5.1 75 5.5.2 76 5.5.3 76 78 78 79 80 Trang 1-1: Ki n trúc c a h th ng trích rút thông tin .16 1-2: Ki n trúc c a h th ng trích rút th c th 20 1-3: H th ng tìm ki m 24 27 29 2-3: V 5-1: Bi 5-2: Bi - sai l ch nhãn 30 34 36 n .42 ch nhãn 43 47 48 49 .50 51 52 53 55 lu ng d li u m c khung c nh 62 lu ng d li u m nh .62 63 .64 66 .67 69 70 71 .71 - .72 72 73 74 - 74 Trang - .15 - 17 - 18 - .19 - 19 - 22 - 31 4-1 53 - affection, jealous and gossip) .58 - affection, jealous and gossip) 59 - .68 - 75 - 76 - 77 Trang (2-1) .27 (2-2) .27 (2-3) .29 (2-4) .29 (2-5) .30 (2-6) .30 (2-7) .31 (3-1) .34 (3-2) .34 (3-3) .35 (3-4) .35 (3-5) .35 (3-6) .36 (3-7) .36 (3-8) .36 (3-9) .37 (3-10) 37 (3-11) 38 (3-12) 38 (3-13) 38 (3-14) 38 (3-15) 39 (3-16) 39 (3-17) 39 (3-18) 40 (3-19) 40 (3-20) 41 (3-21) 41 (3-22) 41 (3-23) 41 (3-24) 42 (4-1) .58 (4-2) .58 (5-1) .76 (5-2) .76 (5-3) .76 Trang I I “ ” I f –I ) ễ ỹ toán trích rút ò ẽ ò ỹ mô – CRF), mô hình – ) (Maximum Entropy Markov Model- MEMM)… ẽ Trang ẽ Trang 10 Cơ chế duyệt kiểm tra độ tương đồng tin Duyệt CSDL Kiểm tra độ tương đồng TIn đầu vào thông tin CSDL Mở CSDL, gán s = 0; Còn ghi ? Lưu ghi thành tin tạm để so sánh Tính độ tương đồng trường độ tương đồng (s2) tổng tin sai sai Kết thúc duyệt s2 > s? ể 5-6 - a s = s2; Lưu lại tin tạm có độ tương đồng cao CSDL o ) o N 5.2.4 Thiết kế d li u Do h data Trang 67 I ò ẽ -1 STT ID Int 11 varchar 50 varchar 200 double 10 double 40 varchar 20 varchar 200 text s 5-1 5.3 Xây dự c ươ r 5.3.1 Lựa chọn ngôn ng công c l p trình c xây d ng d a ngôn ng l p trình Java tính ch gi ng c a Java xây d t s module h th c xây d ng ch y v xác cao nên tác gi s d ng sẵn ẵ ph - n hóa trình vi t mã H th ng tách t lo i [16][23](danh t ) dành cho ti ng Vi m c tác gi Lê H ) c xây d ng b nhãn t lo ” ng t , tính t , ng qua ph n “ c hi n o VnTagger h th ng mã ngu n m th c hi n gán nhãn t lo i t ng cho ti ng Vi t Vntagger th c hi n tách câu, tách t n 96% th c hi n th nghi v d li u ti ng Vi t: Vietnamese treebank Trang 68 i o H th ng VnTagger có s d n h th ng Stanford Maxent Tagger v2.0 c f i h th c hi n tách gán nhãn t lo i cho ti ng Vi t - CRF++ [20] t b ng ngôn ng d ng nh ng toán x lý ngôn ng t tên, trích ch v i yêu c ng n d ng th c th n p t v i toán có kh nên ph c qua t p m u gán nhãn ” “ f quan tâm (ch ”) “ n cho CRF++ th c hi n (thông qua vi c tri u g i t hàm c a Java) 5.3.2 Các l c r c ươ ò th c hi n ch thu r i, c n ph i xây d ng l p (class) có c ph c v l g trình xây d ng : a ase 5-7 ò L p Dataset l tr I ng m (di n tích c ng khai báo m t l p d li a ch ), type (lo i nhà), area t), Ngoài l p Dataset cung c p hàm nh m tính toán ng c í t (stringSimilarity) Trang 69 ng s (doubleSimilarity) L ng chu n gi a bi n Dataset (similarity) c xây d c nh m t ki m tra xem m n calMaxSimilarity) hay ghi m t b n Dataset lên CSDL (writeDatabase - n hành ki ng) e 5-8 L p StringToNumber b t c thu c tính (bi n) không ph li u mà ch ch nx c vi trình - convertNoSign: cho phép chuy n m n có d u (ti ng Vi t) thành không d u - delCharacter xóa kí t không ph i s khỏ tính giá tr s - calMoneyType - convertAreaToMeter c n tích, giá bán) phát hi n lo i ti chuy n ch “ ” “ ” i d ng s - calPrice calTotalPrice tính giá ti n cu i c a n dùng hàm có th giá/m2 ho c giá t tích) Trang 70 n e 5-9 L p DocumentVector ng thu c l c vi t nh a xâu kí t c s d ng l p StringToNumbe thu c tính wordMap nh l p e i p có m t t c : - clearMap - incCount xóa toàn b t ng m1t (thêm t m i ho c c ng n u getConsineSimilarityWithin ng ) - DocumentVector (1 hi n t - getNorm - getCount u vào) a vector t ms ng c a m t t t 5-10 MainCRF l a x lí t l p khác, có bi n t m gb, lh, dc, dt, ln, vbg Trang 71 ng g cc a m c a ò c x lí cl ng stn g i ng thres ng 5-11 L p RunCRFPP n m t l c t o nh m ch t o model file (trainCRFPP) ho f gán nhãn cho m ) (testCRFPP) 5.4 Thiết kế giao di n sử d c ươ r “ “ ứ ” “ ” 5-12 “Exit Program” 5-12 a Trang 72 ỏ ” “Create Model” I – f f –f ) f f - f ) “Process” ẽ ẽ a 5-13 ) f model “Load and Extract Info” “Process” Trang 73 ) a 5-14 5-15 a ă Trang 74 s -15 thông tin) 5.5 ịc bả v ế ả m w rongbay.net, raovat.net, muaban.net, raovat.com Trong 200 nh n 190 5.5.1 c am ố Tham s -a CRF-L2 ho c CRF-L1 Giá tr m c nh a Tham s c i thu t toán m nh ng L2 th c hi n t so v i L1, s c tính L1 nhỏ m so v i L2 CRF-L2 -c float -f NUM Cùng v i tùy ch n này, có th s cho CRFs i nhi u tham Ch có thu c tính có t n su t xu t hi n l giá tr m c tích h p vào mô hình CRF N u máy tính có nhi u CPU, giúp cho vi c hu n luy ng cách s d ng NUM s ng lu ng -p NUM 5-2 a s Trang 75 5.5.2 ố rc r đ ) ) -messure)[6] rec  correct correct  incorrect  mis sin g (5-1) pre  correct correct  incorrect  spurious (5-2) F * pre * rec pre  rec (5-3) a Correct Incorrect ) Missing Spurious a 5-3 5.5.3 ế ả ực m - CSDL Trang 76 - 100 - (%) : 90 91 93 92 94 92% 1.2% 5.8% 1% 5-4 - % - “ ễ ” ò - õ “ Trang 77 ” ế ả đạ đư c: ỹ ỹ hông tin, ẽ ỹ ) ò ẽ - , c Kudo Trang 78 thông ò v ỏ rể ẽ ẽ - ỏ L ẽ ẽ - - Ứ Trang 79 ẽ [1] A.Berger, A.D.Pietra, and J.D.Pietra.A maximum entropy approach to natural langauge processing Computational Linguistics, 22(1):39-71, 1996 [2] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [3] Andrew Borthwick (New York University-1999) A maximum entropy approach to Named Entity Recognition [4] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton, Department of Computer Science, University of Massachusetts Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences [5] Appelt, D., 1999 An Introduction to Information Extraction Artificial Intelligence Communications 12 (3), 161–172 [6] Bikel, D., Schwartz, R., & Weischedel, R (1999) An algorithm that learns w ‟ -3):211.231 [7] Cunningham, H (2005) Information Extraction, Automatic In: Encyclopedia of Language and Linguistics [8] David Nadeau, Satoshi Sekine, A survey of named entity recognition and classification, National Research Council Canada/NewYork University [9] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [10] Eran Segal, Hidden Margov Model and Conditional Random Fields, Weizmann Institute [11] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646 Trang 80 [12] Hanna Wallach (University Of Edinburgh-2002) Efficient Training of Conditional Random Fields [13] Hammersley, J., & Clifford, P (1971) Markov fields on finite graphs andlattices Unpublished manuscript [14] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [15] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [16] Phuong Le-Hong, Azim Roussanaly, Thi Minh Huyen Nguyen, Mathias Rossignol (2010), An empirical study of maximum entropy approach for part-ofspeech tagging of Vietnamese texts [17] Pierre P.Senelart, Vincent D Blondel, Automatic discovery of similar words, p25-43 [18] Rabiner.A tutorial on hidden markov models and selected applications inspeech recognition In Proc the IEEE, 77(2):257-286, 1989 [19] Sunita Sarawagi (2007), Information Extraction, Vol.01, No 261-377 [20] Website: http://crfpp.googlecode.com/svn/trunk/doc/index.html [21] Website: http://en.wikipedia.org/wiki/Vector_space_model [22] Website: http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html [23] Website: http://www.loria.fr/~lehong/tools/vnTagger.php Trang 81 ... ) ẽ CSDL l 1.2 Kiến trúc h thống trích rút thông tin Quá trình trích rút thông tin g b nh ng thông tin riêng lẻ t nh ng t p ng li Trang 15 u tiên h th ng trích rút th ng k t h l p lu n v t o nh... th ng trích rút thông tin u vào c ti n x lý Trích rút th c th Gi i quy ng tham chi u Xây d ng m u ph n t Xây d ng m u quan h u k ch b n M u trích rút 1-1: Ki n trúc h th ng trích rút thông tin. .. ) k ch b n ph c t u ch nh k t qu TE TR cho phù h p v i k ch b n) r t khó 1.3 Bài toán trích rút thực thể Trích rút th c th toán c a toán trích rút thông tin th c hi n tìm ki m v trí phân lo i

Ngày đăng: 25/07/2017, 21:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w