III.5 Kết quả thực nghiệm
Kết quả của 10 lần thử nghiê ̣m với thuật toán perceptron
70 75 80 85 90 95 1 2 3 4 5 6 7 8 9 10
Precision Recall F-measure
Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thực nghiê ̣m với thuật toán perceptron
Lần thực nghiê ̣m cho kết quả tốt nhất:
Manual Model Match Precision Recall F-measual
loc 149 150 129 86.0 86.5 86.25 org 258 263 237 90.1 91.8 90.94 per 147 141 127 90.0 86.3 88.11 time 213 218 210 96.3 98.5 97.39 avg1: 90.60 90.77 90.68 avg2: 767 772 703 91.06 91.65 91.35
Bảng 5: Đánh giá mức cụm từ - Lần thực nghiê ̣m cho kết quả tốt nhất với thuật toán perceptron
Manual Model Match Precision Recall F-measual B-loc 161 158 136 86.00 84.40 85.19 I-loc 81 88 69 78.40 85.10 81.61 B-org 266 269 239 88.80 89.80 89.30 I-org 222 224 203 90.60 91.40 91.00 B-per 150 146 129 88.30 86.00 87.13 I-per 20 15 13 86.60 65.00 74.26 B-time 214 220 210 95.40 98.10 96.73 I-time 320 322 317 98.40 99.00 98.70 avg1: 89.00 87.30 88.10 avg2: 1434 1442 1316 91.20 91.70 91.45
Bảng 6: Đánh giá mức nhãn - Lần thực nghiê ̣m cho kết quả tốt nhất với thuật toán perceptron
Trung bình 10 lần thực nghiê ̣m
Độ đo Mức nhãn (%) Mức cụm từ (%)
Precision 90.32 89.26
Recall 90.67 90.14
F-measure 90.49 89.69
Kết quả của 10 lần thử nghiê ̣m với thuật toán crf 70 75 80 85 90 95 1 2 3 4 5 6 7 8 9 10
Precision Recall F-measure
Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thực nghiê ̣m với thuật toán crf
Lần thực nghiê ̣m cho kết quả tốt nhất:
Manual Model Match Pre Rec F-measual
loc 149 150 129 86 86.5 86.25 org 258 263 237 90.1 91.8 90.94 per 147 141 127 90 86.3 88.11 time 213 218 210 96.3 98.5 97.39 avg1: 90.6 90.77 90.68 avg2: 767 772 703 91.06 91.65 91.35
Manual Model Match Pre Rec F-measual B-loc 157 158 137 86.70 87.20 86.95 I-loc 77 88 67 76.10 87.00 81.19 B-org 264 269 243 90.30 92.00 91.14 I-org 232 224 209 93.30 90.00 91.62 B-per 152 146 132 90.40 86.80 88.56 I-per 16 15 13 86.60 81.20 83.81 B-time 215 220 212 96.30 98.60 97.44 I-time 321 322 318 98.70 99.00 98.85 avg1: 89.80 90.20 89.90 avg2: 1434 1442 1331 92.30 92.80 92.55
Bảng 9: Đánh giá mức nhãn - Lần thực nghiê ̣m cho kết quả tốt nhất với thuật toán crf
Trung bình 10 lần thực nghiê ̣m
Độ đo Mức nhãn (%) Mức cụm từ (%)
Precision 90.40 88.80
Recall 91.00 89.60
F-measure 90.40 88.80
80 81 82 83 84 85 86 87 88 89 90 91
Precision Recall F-measure
perceptron crf
Hình 16: So sánh độ chính xác của hai thuật toán perceptron và crf
Nhâ ̣n xét
Bước đầu thực nghiê ̣m hê ̣ thống trích chọn tên riêng cho văn bản Tiếng Việt đã có kết quả tương đối khả quan . Tuy nhiên hệ thống hiện thời mới chỉ đáp ứng cho việc nhận diện các văn bản dạng chuẩn tắc mà chưa có khả năng thứ lỗi đối với các văn bản tự do. Các dữ liệu thu thập được vẫn chỉ trong trang vnexpress.net mà chưa chú trọng đến các văn bản ngoài. Nhưng tôi tin rằng khi xây dựng được bộ dữ liệu dồi dào và phong phú hơn, với nhiều các đặc trưng tổng quát hơn sẽ cho kết quả cao hơn trong tương lai.
KẾT LUẬN
Những vấn đề đã được giải quyết trong luận văn
Luận văn đã hê ̣ thống hóa m ột số vấn đề lý thuyết về trích chọn thông tin , bài toán trích chọn tên riêng đồng thời trình bày, phân tích, đánh giá mô ̣t số hướng tiếp câ ̣n bài toán trích chọn tên riêng. Mô ̣t số vấn đề và giải pháp đối với bài toán trích chọn tên riêng cho văn bản tiếng Viê ̣t dựa trên mô hình CRF và thuật toán perceptron đã đươ ̣c đề xuất , thực nghiê ̣m và thu được mô ̣t số kết quả rất khả quan . Sau đây là mô ̣t số nét chính mà luâ ̣n văn đã tâ ̣p trung giải quyết .
Chương mô ̣t đưa ra mô ̣t cái nhìn khái quát về trích cho ̣n thông tin , bài toán trích chọn tên riêng , mô hình hóa bài toán dưới da ̣ng mô ̣t bài toán gán nhãn dữ liệu dạng chuỗi và những ứng dụng của bài toán trích chọn tên riêng, từ đó thấy được sự cần thiết phải có mô ̣t hê ̣ thống trích chọn tên riêng cho tiếng Viê ̣t.
Chương hai xem xét một số phương pháp học thống kê như HMMs, CRFs và thuật toán perceptron. Việc đi sâu vào việc phân tích, đánh giá từng phương pháp trong chương này cho thấy sự nghèo nàn của các thuộc tính được chọn trong mô hình HMMs và vấn đề “label bias” mà các mô hình HMMs và MEMM gă ̣p phải . Những đánh giá này lý giải vì sao tôi lại lựa chọn phương pháp học máy CRF s và perceptron là cơ sở để xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Viê ̣t.
Chương ba trình bày hệ thống trích chọn tên riêng cho văn bản tiếng Viê ̣t và đề xuất các phương pháp lựa chọn thuộc tính cho việc nhận diện các loại thực thể trong các văn bản tiếng Viê ̣t . Chương này cũng đưa ra các kết quả của hê ̣ thống trích chọn tên riêng tiếng Viê ̣t qua mô ̣t số lần thực nghiê ̣m.
Hướng phát triển
Mă ̣c dù kết quả phân loa ̣i thực thể của hê ̣ thống có thể tốt hơn nữa nhưng do thời gian có ha ̣n nên tôi mới chỉ dừng la ̣i ở con số trung bình là 88%, trong thời gian
tới, tôi sẽ tiếp tục nghiên cứu nhằm cải thiện hệ thống , tôi tin rằng kết quả này có thể tăng lên trên 90% ở mức cụm từ.
Trên cơ sở hê ̣ thống trích chọn tên riêng tiếng Viê ̣t hiê ̣n nay , tôi dự đi ̣nh sẽ mở rô ̣ng loại thực thể và cụ thể hóa các loại thực thể như phân nhỏ loại thực thể chỉ đi ̣a danh thành các loa ̣i thực thể chỉ đất nước, sông ngòi, ....
Tìm hiểu và xây dựng mô ̣t hê ̣ thống nhâ ̣n diê ̣n mối quan hê ̣ giữa các thực thể như tìm ra mối quan hê ̣ như nơi sinh của mô ̣t người, về chức vu ̣ mô ̣t người trong mô ̣t công ty tổ chức ...
Tìm hiểu và xây dựng hệ thống trích chọn tên riêng đa ngôn ngữ.
Xây dựng một bộ dữ liệu lớn và đa dạng hơn để có thể đạt được mô hình gần với bài toán thực tế hiện nay hơn.
Tài liệu tham khảo
[1]. Duglas E.Appelt, D.J.Israel. Introduction to Information Extraction Technology. 1999.
[2]. A.Berger. The Improved Iterative Scaling Algorithm: A gentle Introdution. School of Computer Science, Carnegie Mellon University. 1999.
[3]. M.Collins. Discriminative Training Methods for Hidden Markov Models: Theory and Experiment with Perceptron Algorithms.2002.
[4]. J.Cowie, W.Lehnert. Information Extraction. Paper. 1996
[5]. R.Dugad, U.B.Desai - "A Tutorial on Hidden Markov Model" - Technical Report No: SPANN-96.1, Indian Institute of Technology.1996.
[6]. D.Freitag, S.Khadivi. .A Sequence Alignment Model Based on the Averaged Perceptron. 2006.
[7]. Freund & Schapire. Large Margin Classification Using the perceptron Algorithm. Machine Learning 37(3) 277-296, 1999.
[8]. J.Lafferty, A.McCallum, and F.Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc. ICML, 2001.
[9]. Dong C.Liu and Jorge Nocedal. On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503- 528.
[10]. Walter F.Mascarenhas. The BFGS method with exact line searches fails for non-convex objective functions. Published May 7, 2003.
[11]. A. McCallum, K. Rohanimanesh, and C. Sutton. Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences. 2004
[12]. A.McCallum, C.Shutton. An introduction for Conditional Random Fields for Relational Learning. 2005
[13]. A.McCallum, D.Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation. In Proc. Iternational Conference on Mechine Learning, 2000, pages 591-598.
[14]. A.McCallum, W.li. Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons. 2003.
[15]. A.McCallum. Efficiently Inducing Features of Conditional Random Fields. 2003.
[16]. A.B.Poritz - "Hidden Markov Models - A Guide Tour" - IEEE, 1988.
[17]. L.R.Rabiner - "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" - Proceedings of IEEE, VOL.77, NO.2, FEB 1989.
[18]. A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc. Emparical Methods for Natural Language Processing, 1996.
[19]. B.Roask, M.Saraclar, M.Collins, M.Johnson. Discriminative Language Modeling with Conditional Random Fields and the Perceptron Algorithm. 2004.
[20]. Sunita Sarawagi, William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction. 2004.
[21]. H.Wallach. Efficient Training of Conditional Random Fields. University Of Edinburgh, 2002.
[22]. Y.Zhang, S.Clark. Chinese Segmentation with a Word-Based Perceptron Algorithm. 2006.
[24]. Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản Tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. 2005.
[25]. Nguyễn Cẩm Tú, Trần Thi ̣ Oanh, Phan Xuân Hiếu, Hà Quang Thụy. Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields. 2005
[26]. Tri Tran Q., Thao Pham T.X., Hung Ngo Q., Dien Dinh and Niegl Collier. Named Entitiy Recognition in Vietnamese Document. 2007.
PDF Merger
Merger! To remove this page, please register your program!
Go to Purchase Now>>
Merge multiple PDF files into one
Select page range of PDF to merge
Select specific page(s) to merge