Trích rút thông tin tự động dựa trên học máy cho tiếng việt

- 2010B - ! Trang Trang 2 Ư 11 1.1 11 1.2 Ki n trúc c a h th ng trích rút thông tin 15 1.2.1 Trích rút th c th - Named Entity Recognition (NER) 16 1.2.2 Gi i quy 1.2.3 Xây d ng m u ph n t - Template Element Construction (TE) 18 1.2.4 Xây d ng m u quan h 19 1.2.5 u k ch b n 19 ng tham chi u 17 1.3 Bài toán trích rút th c th 20 1.4 23 1.4.1 Trích rút thông tin t n 23 1.4.2 23 1.4.3 H tr h th ng tr l i câu hỏi t 1.4.4 C i thi n k t qu c a h th ng tìm ki m 24 Ư Ư TRÍCH RÚT THÔNG TIN ng 24 25 2.1 (hand-written regular expressions) 25 2.2 idden Markov Model - HMM) 26 2.3 Mô hình Markov c 2.4 T ng k Ư 3.1 MÔ i hóa Entropy (MEMM) 28 32 Ư 33 ng ng u ki n - CRFs 33 Trang 3.2 35 3.2.1 35 3.2.2 35 3.2.3 36 3.3 38 3.4 39 3.5 41 3.6 ch nhãn 43 3.7 44 Ư 45 4.1 4.2 45 Ứng d t 50 4.2.1 d ng CRF 50 4.2.2 50 4.2.3 54 4.3 d n: 55 4.3.1 ng: 56 4.3.2 ng câu 56 4.3.3 ng câu 57 4.3.4 ng câu 57 4.4 60 Ư Ư 61 5.1 5.2 t 61 Thi t k 61 5.2.1 Bi lu ng d li u m c 61 5.2.2 Bi phân c p ch 5.2.3 Các bi 63 lu ng th hi n ch Trang th ng 64 5.2.4 5.3 Thi t k Xây d d li u 67 68 5.3.1 L a ch n ngôn ng công c l p trình 68 5.3.2 Các l 5.4 69 Thi t k giao di n s d 5.5 72 75 5.5.1 75 5.5.2 76 5.5.3 76 78 78 79 80 Trang 1-1: Ki n trúc c a h th ng trích rút thông tin .16 1-2: Ki n trúc c a h th ng trích rút th c th 20 1-3: H th ng tìm ki m 24 27 29 2-3: V 5-1: Bi 5-2: Bi - sai l ch nhãn 30 34 36 n .42 ch nhãn 43 47 48 49 .50 51 52 53 55 lu ng d li u m c khung c nh 62 lu ng d li u m nh .62 63 .64 66 .67 69 70 71 .71 - .72 72 73 74 - 74 Trang - .15 - 17 - 18 - .19 - 19 - 22 - 31 4-1 53 - affection, jealous and gossip) .58 - affection, jealous and gossip) 59 - .68 - 75 - 76 - 77 Trang (2-1) .27 (2-2) .27 (2-3) .29 (2-4) .29 (2-5) .30 (2-6) .30 (2-7) .31 (3-1) .34 (3-2) .34 (3-3) .35 (3-4) .35 (3-5) .35 (3-6) .36 (3-7) .36 (3-8) .36 (3-9) .37 (3-10) 37 (3-11) 38 (3-12) 38 (3-13) 38 (3-14) 38 (3-15) 39 (3-16) 39 (3-17) 39 (3-18) 40 (3-19) 40 (3-20) 41 (3-21) 41 (3-22) 41 (3-23) 41 (3-24) 42 (4-1) .58 (4-2) .58 (5-1) .76 (5-2) .76 (5-3) .76 Trang I I “ ” I f –I ) ễ ỹ toán trích rút ò ẽ ò ỹ mô – CRF), mô hình – ) (Maximum Entropy Markov Model- MEMM)… ẽ Trang ẽ Trang 10 Cơ chế duyệt kiểm tra độ tương đồng tin Duyệt CSDL Kiểm tra độ tương đồng TIn đầu vào thông tin CSDL Mở CSDL, gán s = 0; Còn ghi ? Lưu ghi thành tin tạm để so sánh Tính độ tương đồng trường độ tương đồng (s2) tổng tin sai sai Kết thúc duyệt s2 > s? ể 5-6 - a s = s2; Lưu lại tin tạm có độ tương đồng cao CSDL o ) o N 5.2.4 Thiết kế d li u Do h data Trang 67 I ò ẽ -1 STT ID Int 11 varchar 50 varchar 200 double 10 double 40 varchar 20 varchar 200 text s 5-1 5.3 Xây dự c ươ r 5.3.1 Lựa chọn ngôn ng công c l p trình c xây d ng d a ngôn ng l p trình Java tính ch gi ng c a Java xây d t s module h th c xây d ng ch y v xác cao nên tác gi s d ng sẵn ẵ ph - n hóa trình vi t mã H th ng tách t lo i [16][23](danh t ) dành cho ti ng Vi m c tác gi Lê H ) c xây d ng b nhãn t lo ” ng t , tính t , ng qua ph n “ c hi n o VnTagger h th ng mã ngu n m th c hi n gán nhãn t lo i t ng cho ti ng Vi t Vntagger th c hi n tách câu, tách t n 96% th c hi n th nghi v d li u ti ng Vi t: Vietnamese treebank Trang 68 i o H th ng VnTagger có s d n h th ng Stanford Maxent Tagger v2.0 c f i h th c hi n tách gán nhãn t lo i cho ti ng Vi t - CRF++ [20] t b ng ngôn ng d ng nh ng toán x lý ngôn ng t tên, trích ch v i yêu c ng n d ng th c th n p t v i toán có kh nên ph c qua t p m u gán nhãn ” “ f quan tâm (ch ”) “ n cho CRF++ th c hi n (thông qua vi c tri u g i t hàm c a Java) 5.3.2 Các l c r c ươ ò th c hi n ch thu r i, c n ph i xây d ng l p (class) có c ph c v l g trình xây d ng : a ase 5-7 ò L p Dataset l tr I ng m (di n tích c ng khai báo m t l p d li a ch ), type (lo i nhà), area t), Ngoài l p Dataset cung c p hàm nh m tính toán ng c í t (stringSimilarity) Trang 69 ng s (doubleSimilarity) L ng chu n gi a bi n Dataset (similarity) c xây d c nh m t ki m tra xem m n calMaxSimilarity) hay ghi m t b n Dataset lên CSDL (writeDatabase - n hành ki ng) e 5-8 L p StringToNumber b t c thu c tính (bi n) không ph li u mà ch ch nx c vi trình - convertNoSign: cho phép chuy n m n có d u (ti ng Vi t) thành không d u - delCharacter xóa kí t không ph i s khỏ tính giá tr s - calMoneyType - convertAreaToMeter c n tích, giá bán) phát hi n lo i ti chuy n ch “ ” “ ” i d ng s - calPrice calTotalPrice tính giá ti n cu i c a n dùng hàm có th giá/m2 ho c giá t tích) Trang 70 n e 5-9 L p DocumentVector ng thu c l c vi t nh a xâu kí t c s d ng l p StringToNumbe thu c tính wordMap nh l p e i p có m t t c : - clearMap - incCount xóa toàn b t ng m1t (thêm t m i ho c c ng n u getConsineSimilarityWithin ng ) - DocumentVector (1 hi n t - getNorm - getCount u vào) a vector t ms ng c a m t t t 5-10 MainCRF l a x lí t l p khác, có bi n t m gb, lh, dc, dt, ln, vbg Trang 71 ng g cc a m c a ò c x lí cl ng stn g i ng thres ng 5-11 L p RunCRFPP n m t l c t o nh m ch t o model file (trainCRFPP) ho f gán nhãn cho m ) (testCRFPP) 5.4 Thiết kế giao di n sử d c ươ r “ “ ứ ” “ ” 5-12 “Exit Program” 5-12 a Trang 72 ỏ ” “Create Model” I – f f –f ) f f - f ) “Process” ẽ ẽ a 5-13 ) f model “Load and Extract Info” “Process” Trang 73 ) a 5-14 5-15 a ă Trang 74 s -15 thông tin) 5.5 ịc bả v ế ả m w rongbay.net, raovat.net, muaban.net, raovat.com Trong 200 nh n 190 5.5.1 c am ố Tham s -a CRF-L2 ho c CRF-L1 Giá tr m c nh a Tham s c i thu t toán m nh ng L2 th c hi n t so v i L1, s c tính L1 nhỏ m so v i L2 CRF-L2 -c float -f NUM Cùng v i tùy ch n này, có th s cho CRFs i nhi u tham Ch có thu c tính có t n su t xu t hi n l giá tr m c tích h p vào mô hình CRF N u máy tính có nhi u CPU, giúp cho vi c hu n luy ng cách s d ng NUM s ng lu ng -p NUM 5-2 a s Trang 75 5.5.2 ố rc r đ ) ) -messure)[6] rec  correct correct  incorrect  mis sin g (5-1) pre  correct correct  incorrect  spurious (5-2) F * pre * rec pre  rec (5-3) a Correct Incorrect ) Missing Spurious a 5-3 5.5.3 ế ả ực m - CSDL Trang 76 - 100 - (%) : 90 91 93 92 94 92% 1.2% 5.8% 1% 5-4 - % - “ ễ ” ò - õ “ Trang 77 ” ế ả đạ đư c: ỹ ỹ hông tin, ẽ ỹ ) ò ẽ - , c Kudo Trang 78 thông ò v ỏ rể ẽ ẽ - ỏ L ẽ ẽ - - Ứ Trang 79 ẽ [1] A.Berger, A.D.Pietra, and J.D.Pietra.A maximum entropy approach to natural langauge processing Computational Linguistics, 22(1):39-71, 1996 [2] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [3] Andrew Borthwick (New York University-1999) A maximum entropy approach to Named Entity Recognition [4] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton, Department of Computer Science, University of Massachusetts Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences [5] Appelt, D., 1999 An Introduction to Information Extraction Artificial Intelligence Communications 12 (3), 161–172 [6] Bikel, D., Schwartz, R., & Weischedel, R (1999) An algorithm that learns w ‟ -3):211.231 [7] Cunningham, H (2005) Information Extraction, Automatic In: Encyclopedia of Language and Linguistics [8] David Nadeau, Satoshi Sekine, A survey of named entity recognition and classification, National Research Council Canada/NewYork University [9] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [10] Eran Segal, Hidden Margov Model and Conditional Random Fields, Weizmann Institute [11] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646 Trang 80 [12] Hanna Wallach (University Of Edinburgh-2002) Efficient Training of Conditional Random Fields [13] Hammersley, J., & Clifford, P (1971) Markov fields on finite graphs andlattices Unpublished manuscript [14] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [15] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [16] Phuong Le-Hong, Azim Roussanaly, Thi Minh Huyen Nguyen, Mathias Rossignol (2010), An empirical study of maximum entropy approach for part-ofspeech tagging of Vietnamese texts [17] Pierre P.Senelart, Vincent D Blondel, Automatic discovery of similar words, p25-43 [18] Rabiner.A tutorial on hidden markov models and selected applications inspeech recognition In Proc the IEEE, 77(2):257-286, 1989 [19] Sunita Sarawagi (2007), Information Extraction, Vol.01, No 261-377 [20] Website: http://crfpp.googlecode.com/svn/trunk/doc/index.html [21] Website: http://en.wikipedia.org/wiki/Vector_space_model [22] Website: http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html [23] Website: http://www.loria.fr/~lehong/tools/vnTagger.php Trang 81 ... ) ẽ CSDL l 1.2 Kiến trúc h thống trích rút thông tin Quá trình trích rút thông tin g b nh ng thông tin riêng lẻ t nh ng t p ng li Trang 15 u tiên h th ng trích rút th ng k t h l p lu n v t o nh... th ng trích rút thông tin u vào c ti n x lý Trích rút th c th Gi i quy ng tham chi u Xây d ng m u ph n t Xây d ng m u quan h u k ch b n M u trích rút 1-1: Ki n trúc h th ng trích rút thông tin. .. ) k ch b n ph c t u ch nh k t qu TE TR cho phù h p v i k ch b n) r t khó 1.3 Bài toán trích rút thực thể Trích rút th c th toán c a toán trích rút thông tin th c hi n tìm ki m v trí phân lo i

Định dạng
Số trang	81
Dung lượng	2,51 MB