Đánh giá hệ thống nhận dạng thực thể

Một phần của tài liệu trích chọn thực thể tên người trong tiếng việt (Trang 37 - 43)

Các hệ thống nhận biết loại thực thể được đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ hồi tưởng (recall) và độ đo F (F-messure). Ba độ đo này được tính toán theo các công thức sau:

missing incorrect correct correct Rec + + = incorrect correct correct Pre + = Rec Pre Rec Pre F + * * 2 =

Ý nghĩa của các giá trị correct, incorrect, missing và được định nghĩa ở bảng 2.

Giá trị Ý nghĩa

Correct Số trường hợp gán đúng

Incorrect Số trường hợp gán sai

Missing Số trường hợp gán thiếu

Bảng 2: Các giá trị đánh giá một hệ thống nhận dạng thực thể 3.4.1. Kết quả

Kết quả kiểm tra, thực hiện trên 150 trang web, kết quả trích chọn thực thể tên

người đưa ra khá khả quan

Kết quả thu được cụ thể như sau:

Độ đo (%) Số văn bản 50 100 150 P 67.74 78.59 83.56 R 65.68 76.23 80.35 F 66.69 77.39 81.9

3.4.2. Đánh giá

Qua kết quả, em nhận thấy khi tăng dần các văn bản để xử lý trích chọn thì các

độ đo (P,R,F) tăng lên. Tuy nhiên mức độ tăng lên của các độ đo thì chưa được caonhư

mong muốn. Khi tăng số văn bản lên 150 thì các độ đo đạt giá trị cao nhất (Độ chính

xác P: 83.56%, Độ đo F-measure: 81.9%). Độ chính xác hệ thống nhận dạng thực thể tên người của em chưa đạt được kết quả cao như mong muốn, một phần vì chương

trình vẫn còn nhiều thiếu sót, một phần khác do cấu trúc văn bản phức tạp và thay đổi liên tục nên việc áp dụng luật cũng như quá trình sinh mẫu còn gây ra nhiều trường

Kết luận

Nhng vn đề đã được giải quyết trong luận văn

Khóa luận đã hệ thống hóa một số vấn đề lý thuyết về trích chọn thông tin, bài toán trích chọn thực thể nói chung và trích chọn tên người trong tiếng Việt nói riêng.

Đồng thời khóa luận cũng đã trình bày, phân tích, đánh giá một số hướng tiếp cận bài toán nhận biết loại thực thể. Khóa luận đã nêu ra một số vấn đề và giải pháp đối với bài toán nhận biết thực thể tên người trong văn bản tiếng Việt trên môi trường Web

dựa trên giải thuật DIPRE của Brin , tuy rằng thực nghiệm và thu được một số kết quả chưa được như mong muốn. Sau đây là một số nét chính mà luận văn đã tập trung giải quyết.

Chương 1 đưa ra một cái nhìn khái quát về trích chọn thông tin, bài toán nhận biết loại thực thể nói chung và bài toán trích chọn thực thể tên người nói riêng cho văn

bản tiếng Việt trên môi trường Web cùng những ứng dụng thực tế của nó.

Chương 2 xem xét các hướng tiếp cận khác nhau để nhằm giải quyết bài toán nhận diện loại thực thể, đó là các phương pháp thủ công, phương pháp HMM, phương

pháp MEMM. Chương này đi sâu vào phân tích đánh giá từng phương pháp, cho thấy sự thiếu linh hoạt của các phương pháp thủ công, sự nghèo nàn của các thuộc tính

được chọn trong mô hình HMM và vấn đề “label bias” mà các mô hình MEMM gặp

phải. Đồng thời đi sâu vào tìm hiểu giải thuật DIPRE, ưu và nhược điểm của nó để áp

dụng vào giải quyết các vấn đề liên quan tới khóa luận.

Chương 3 trình bày hệ thống trích chọn tên người trong văn bản tiếng Việt.

Chương này cũng đưa ra các kết quả của hệ thống nhận diện loại thực thể tiếng Việt qua một số lần thực nghiệm.

Công vic nghiên cứu trong tương lai

Mặc dù kết quả phân loại thực thể của hệ thống có thể tốt hơn nữa nhưng do thời gian có hạn nên em mới chỉ dừng lại ở con số của F1 là 81%, trong thời gian tới, em sẽ

tiếp tục nghiên cứu nhằm cải thiện hệ thống, em tin rằng kết quả này có thể tăng lên

mức cao hơn.

Trên cơ sở hệ thống nhận diện loại thực thể tiếng Việt hiện nay, em dự định sẽ

mở rộng và nghiên cứu thêm nhiều hướng nghiên cứu khác trong văn bản tiếng Việt, chẳng hạn ngoài việc trích chọn tên người, ta có thể trích chọn thêm chức danh của

người đó trong văn bản. Ví dụ: từ câu “Giáo sư Ngô Thúc Lanh vừa mới …” thì cặp

thông tin hữu ích có thể trích chọn ra là < “Ngô Thúc Lanh”, “Giáo sư”>. Hoặc hướng

tới trích chọn tên người nước ngoài trong văn bản Việt Nam vì định dạng tên người nước ngoài khác với tên người Việt Nam. Ví dụ: Richard C. Wang, Xiao-Long Wang, … Vì tên người Việt không có kèm theo dấu ngắt câu như trong cách mà người nước

Tài liệu tham khảo Tài liệu tham khảo tiếng Việt

[1] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học

và tiếng Việt. Nxb Giáo dục, H., 1997, trang 142–152.

[2] Nguyễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005

[3] Trần Thị Oanh. Thuật toán Self-Training và Co-Training ứng dụng trong

phân lớp văn bản. Luận văn tốt nghiệp ĐHCN năm 2006

[4] Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm

hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Luận văn tốt nghiệp ĐHCN 2005

[5] Website tiếng Việt nói về xử lý ngôn ngữ tự nhiên: http://xulyngonngu.com/

Tài liệu tham khảo tiếng Anh

[6] A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000

[7] Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University [8] Andrew McCallum. Efficiently Inducing Features of Conditional Random

Fields. Computer Science Department. University of Massachusetts

[9] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton. Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences. Department of Computer Science, University of Massachusetts [10] H. M. Wallach. Efficient training of conditional random fields. Master’s

thesis, University of Edinburgh, 2002

[11] Hana Wallach. Efficient Training of Conditional Random Fields. M.Sc. thesis, Division of Informatics, University of Edinburgh, 2002.

[12] J. Lafferty, A. McCallum, and F. Pereia. Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001

[13] Ralph Grishman. Information extraction: Techniques and challenges. In Information Extraction (International Summer School SCIE-97). Springer- verlag, 1997.

[14] Ronald Schoenberg. Optimization with the Quasi-Newton Method, September 5, 2001.

[15] Cvetana Krstev, Du_sko Vitasand Sandra Gucul. Recognition of Personal Names in Serbian Texts. Faculty of Philology, University of Belgrade, Studentski trg 3, Faculty of Mathematics, University of Belgrade, Studentski trg 16, Belgrade, Serbia & Montenegro.

[16] Feng Zhang, Liu Wenyin, Zheng Chen. A New Statistical Approach to Personal Name Extraction.

[17] Serey Brin Extracting Patterns and Relation from World – Wide –Web. In Proceedings of the 1998 International Work-shop in the Web and Databased, March.

[18] Sunita Sarawagi, William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction.

[19] Trausti Kristjansson, Aron Cullota, Paul viola, Adrew McCallum. Interactive Information Extraction with Constrained Conditionial Random Fields.

[20] William Cohen. Integration of heterogeneous databases without common domains using queries based on textual similarity. In Proceedings of the 1998 ACM International Conference on Management of Data (SIGMOD’98), 1998.

[21] Yi-Feng Lin, Tzong-Han Tsai, Wen-Chi Chou, Kuen-Pin Wu, Ting-Yi Sung and Wen-Lian Hs. A Maximum Entropy Approach to Biomedical Named Entity Recognition. Institute of Information Science, Academia Sinica, 2004. [22] Ying Yu, Xiao-Long Wang, Yi Guan. Information Extraction for Chinese Free Based Pattern Match Combine with Heuristic Information. School of Computer Science and Technology, Harbin Institude of Technology, Harbin150006, China.

Một phần của tài liệu trích chọn thực thể tên người trong tiếng việt (Trang 37 - 43)

Tải bản đầy đủ (PDF)

(43 trang)