Kết quả thực nghiệm kiểm thử chéo với chính tập dữ liệu đánh giá

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 49)

Với việc số lƣợng dữ liệu tập DG là tƣơng đối tốt (bảng 4-3) nên trong thực nghiệm này, tơi đề xuất việc sử dụng chính tập dữ liệu đánh giá DG làm tập học cho

mơ hình học máy. Để đánh giá mơ hình, tơi sử dụng phƣơng pháp kiểm thử chéo 10 folds (10 folds cross validation).

Phƣơng pháp kiểm thử chéo đƣợc mơ tả nhƣ sau:

- Dữ liệu sẽ đƣợc chia thành ngẫu nhiên thành 10 phần cĩ số lƣợng câu bằng hoặc gần bằng nhau.

- Cĩ 10 lần thực nghiệm, mỗi lần thực nghiệm sẽ lấy 9 phần dữ liệu làm dữ liệu huấn luyện và phần cịn lại làm dữ liệu đánh giá.

- Kết quả cuối cùng sẽ tổng hợp lại từ 10 lần thực nghiệm trên.

Trong thực nghiệm này tơi cũng sử dụng mơ hình kết hợp học máy và luật cùng từ điển nhƣ thực nghiệm TN 2 ở mục trên. Kết quả thực nghiệm đƣợc mơ tả ở bảng dƣới:

ảng 5.6: Kết quả kiểm thử chéo đối với tập dữ liệu DG.

P R F

Ngƣời 86,94% 87,54% 87,24% Địa danh 74,69% 78,05% 76,33% Thời gian 81,04% 85,29% 83,11% Vụ việc tham gia 84,17% 87,72% 85,91%

Tồn bộ thực thể 86,94% 87,54% 87,24%

Kết quả thực nghiệm cho thấy mơ hình đƣợc xây dựng trên chính tập DG cho kết quả cao hơn với các thực nghiệm trƣớc, đánh giá trên tồn bộ thực thể tăng hơn 8%. Mặc dù việc so sánh này hơi khập khiễng khi các thực nghiệm trƣớc đánh giá trên tồn bộ tập DG cịn thực nghiệm này đánh giá trên 10 folds của tập DG, tuy nhiên kết quả cũng cho thấy tính khả quan của mơ hình thực nghiệm đƣợc đề xuất.

Kết quả vẫn cịn xuất hiện một số nhƣ nhận diện sai và nhận diện thiếu thực thể. Dƣới đây là một số ví dụ tơi đã phân tích đƣợc từ kết quả nhận diện:

- Nhận diện nhầm thực thể. Ví dụ:

o Nhầm thực thể địa danh: “phĩ cơng_an phƣờng <loc>Bắc_Sơn</loc>”, trong trƣờng hợp này từ Bắc_Sơn nằm trong cả 1 cụm chỉ về tên một chức danh là “phĩ cơng an phƣờng Bắc Sơn” khơng phải là địa danh.

o Nhầm thực thể vụ việc tham gia: “triệt_phá băng_nhĩm <crime>trộm_cắp</crime>” do sử dụng từ điển nên các cụm từ liên quan

đến các tội danh sẽ đƣợc gán nhãn, tuy nhiên nhiều trƣờng hợp lại nằm trong 1 cụm chỉ về thơng tin khác.

- Nhận diện thiếu thực thể:

o Một số cụm thực thể dài cĩ thể nhận diện thiếu nhƣ: tại <loc> nhà_nghỉ và karaoke Bắc Hà </loc> chỉ nhận dạng đƣợc “karaoke ắc Hà” là địa danh. Trƣờng hợp này xảy ra khi các cụm cĩ cấu trúc ngữ pháp phức tạp.

o Một số khơng nhận diện đƣợc do thiếu từ điển nhƣ: <crime> giết chết nhiều ngƣời </crime> hay < crime> trộm chim cảnh </crime>.

5.3.4. Giao diện chƣơng trình nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân

Chƣơng trình cho phép ngƣời dùng cĩ thể nhập các văn bản, tài liệu từ hồ sơ nghiệp vụ Cơng an nhân dân vào khung nhập liệu. Sau khi nhập sau, ngƣời sử dụng nhấn nút “Nhận diện thực thể” để tiến hành nhận dạng các thực thể liên quan đến hồ sơ nghiệp Cơng an nhân dân. Kết quả nhận dạng sẽ xuất hiện ở hộp thoại dƣới.

Đầu ra của chƣơng trình sẽ đƣợc dƣới dạng file văn bản (text file), ngƣời sử dụng cĩ thể dựa trên các thơng tin đã đƣợc nhận dạng ra nhƣ: ngƣời, địa danh, thời gian và vụ việc tham gia để tiến hành xây dựng các cơ sở dữ liệu hỗ trợ cho việc tìm kiếm mở rộng trong hồ sơ nghiệp vụ Cơng an nhân dân. Một vấn đề đặt ra đĩ chính là cĩ nhiều thực thể chỉ về cùng một đối tƣợng nhƣng thể hiện khác nhau, ví dụ “Nguyễn Văn Đạo” nhƣng ở vị trí khác trong văn bản cĩ thể ghi là “anh Đạo”, vì vậy việc giải quyết bài tốn đồng tham chiếu để ghép các thực thể về cùng một đối tƣợng cần đƣợc giải quyết trong việc xây dựng cơ sở dữ liệu hỗ trợ. Đây cũng chính là hƣớng phát triển tiếp theo của đề tài nhằm xây dựng một cơ sở dữ liệu hồn chỉnh phục vụ tìm kiếm, trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân.

KẾT LUẬN

Luận văn tập trung nghiên cứu giải quyết bài tốn nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân. Đây là một vấn đề cần thiết giúp cho việc lƣu trữ và tìm kiếm thơng tin đƣợc nhanh chĩng tiện lợi hơn. Với những kết quả đã đạt đƣợc, luận văn đã thể hiện:

- Luận văn đã trình bày đƣợc ý nghĩa và mục đích của bài tốn trích rút thơng tin nĩi chung và bài nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân nĩi riêng.

- Bên cạnh đấy, luận văn cũng đã trình bày một số phƣơng pháp nhằm giải quyết vấn đề đƣợc đặt ra và đi sâu vào nhĩm các phƣơng pháp giải quyết bài tốn nhận dạng thực thể.

- Sau khi phân tích, đúc kết các phƣơng pháp đã cĩ, luận văn trình bày một mơ hình đề xuất giải quyết bài tốn nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân. Mơ hình đề xuất là sự kết hợp của ba loại phƣơng pháp nhận dạng thực thể là: nhận dạng dựa vào luật, nhận dạng dựa vào từ điển và nhận dạng dựa vào học máy.

- Mơ hình đề xuất đã đƣợc chứng minh tính đúng đắn bằng các thực nghiệm đánh giá trên tập dữ liệu đƣợc gán nhãn do chính tác giả xây dựng.

Kết quả thể hiện tính khả quan của mơ hình khi đạt kết quả 87,24% đối với độ đo F cho tồn bộ các thực thể đƣợc đánh giá. Với mơ hình này, theo chúng tơi cĩ sự khác biệt so với hệ thống nhận dạng thực thể tiếng Việt là cĩ thêm phần nhận dạng vụ việc tham gia nên việc so sánh, đánh giá với các mơ hình nhận dạng thực thể là ngƣời, địa danh, thời gian thì kết quả của các mơ hình khác cĩ độ đo F khoảng từ 80 – 85% (Theo Luận văn thạc sỹ của tác giả Nguyễn Cẩm Tú là 80,1%). Từ đặc điểm, kết quả trên và xuất phát từ thực tế cơng tác nghiên cứu, khai thác và trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân phục vụ cơng tác điều tra, khám phá các vụ án thì mơ hình nhận dạng thực thể trên cĩ tính khả quan.

Hƣớng phát triển của luận văn là tiếp tục nghiên cứu, xây dựng cơ sở dữ liệu hỗ trợ cho việc tìm kiếm mở rộng từ hồ sơ nghiệp vụ Cơng an nhân dân, nhƣ: cĩ nhiều thực thể chỉ về cùng một đối tƣợng nhƣng thể hiện khác nhau, vì vậy việc giải quyết bài tốn đồng tham chiếu để ghép các thực thể về cùng một đối tƣợng cần đƣợc giải quyết trong việc xây dựng cơ sở dữ liệu hỗ trợ. Đây cũng chính là hƣớng phát triển tiếp theo

của đề tài luận văn nhằm xây dựng một cơ sở dữ liệu hồn chỉnh phục vụ tìm kiếm, trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân phục vụ tốt hơn cho cơng tác nghiên cứu khoa học, phát hiện quy luật hoạt động của bọn tội phạm, cĩ biện pháp đấu tranh phịng chống tội phạm và các thế lực thù địch, bảo đảm an ninh chính trị và giữ gìn trật tự an tồn xã hội theo yêu cầu nhiệm vụ chính trị của ngành Cơng an mà Đảng và Nhà nƣớc giao cho./.

TÀI LIỆU THAM KHẢO A. Các cơng trình khoa học

Tiếng việt:

1. Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Khĩa luận tốt nghiệp ĐHCN 5/2005.

2. Trần Thị Ngân. Trích chọn thơng tin y tế tiếng Việt cho bài tốn tìm kiếm ngữ nghĩa. Khĩa luận tốt nghiệp ĐHCN 2009.

Tiếng Anh:

3. A.McCallum, D.Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation. In Proc. Iternational Conference on Mechine Learning, 2000, pages 591-598.

4. Andrew Moore. Hidden Markov Models Tutorial Slides.

5. Baohua Gu. Recognizing Named Entities in Biomedical Texts. PhD Thesis, School of Computing Science, Simon Fraser Univerisity, 2008 Summer. 6. Bickel, Peter J., Ya’acov Ritov, and Tobias Ryden. “Asymptotic normality

of the maximum-likelihood estimator for general hidden Markov models.” The Annals of Statistics 26.4 (1998): 1614-1635.

7. Borthwick, A., Sterling, J., Agichtein, E., & Grishman, R. (1998, August). Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. of the Sixth Workshop on Very Large Corpora (Vol. 182).

8. rill, Eric. “Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.” Computational linguistics21.4 (1995): 543-565.

9. Cao, T. H., Do, H. T., Pham, B. T., Huynh, T. N., & Vu, D. Q. (2005, July). Conceptual Graphs for Knowledge Querying in VN-KIM. In Contributions to the 13th International Conference on Conceptual Structures (pp. 27-40). 10. Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., Ursu, C.,

Dimitrov, M., ... & Funk, A. (2009). Developing Language Processing Components with GATE Version 5:(a User Guide). University of Sheffield.

11. D. Maynard, V. Tablan, C. Ursu, H. Cunningham, and Y. Wilks, “Named entity recognition from diverse text types,” in In Recent Advances in Natural Language Processing 2001 Conference, Tzigov Chark, 2001

12. Dien Dinh and Kiem Hoang, POS-tagger for English-Vietnamese bilingual corpus. HLTNAACL Workshop on Building and using parallel texts: data driven machine translation and beyond, 2003.

13. Eikvil, Line. “Information extraction from world wide web-a survey.” (1999).

14. J. Cowie and Y. Wilks, “Information extraction,” 2000. 15. Konkol, Michal. “Named Entity Recognition.” (2012).

16. Mansouri, Alireza, Lilly Suriani Affendy, and Ali Mamat. “A new fuzzy support vector machine method for named entity recognition.” Computer Science and Information Technology, 2008. ICCSIT'08. International Conference on. IEEE, 2008.

17. Nancy Chinchor. MUC-6 Named Entity Task Definition (Version 2.1). MUC-6. Columbia, Maryland. 1995.

18. Nguyen, Truc-Vien T., and Tru H. Cao. “Vn-kim ie: automatic extraction of vietnamese named-entities on the web.” New Generation Computing 25.3 (2007): 277-292.

19. Rabiner.A tutorial on hidden markov models and selected applications in speech recognition. In Proc. the IEEE, 77(2):257-286, 1989.

20. T. Nguyen, O. Tran, H. Phan, and T. Ha, “Named entity recognition in vietnamese free-text and web documents using conditional random fields,” Proceedings of the Eighth Conference on Some Selection Prob-lems of Information Technology and Telecommunication, Hai Phong, Viet Nam, 2005.

21. Thao Pham T. X., Tri T. Q., Ai Kawazoe, Dien Dinh, Nigel Collier.

Construction of Vietnamese corpora for Named Entity Recognition. VNU of HCMC Vietnam, National Institute of Informatics, Tokyo, Japan, tr. 1-3. 22. Thao, P. T. X., Tri, T. Q., Dien, D., & Collier, N. (2007). Named entity

recognition in Vietnamese using classifier voting. ACM Transactions on Asian Language Information Processing (TALIP), 6(4), 3.

23. Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu, A lexicon for Vietnamese language processing. Language Resources and Evaluation, 2007.

24. Tran, M. V., Le, D. T., Tran, X. T., & Nguyen, T. T. (2012). A Model of Vietnamese Person Named Entity Question Answering System.

25. Tran, O. T., Le, C. A., Ha, T. Q., & Le, Q. H. (2009, December). An experimental study on vietnamese pos tagging. In Asian Language Processing, 2009. IALP'09. International Conference on (pp. 23-27). IEEE. 26. Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., & Collier, N. (2007).

Named entity recognition in Vietnamese documents. Progress in Informatics Journal,5, 14-17.

27. Tú, N. C., Oanh, T. T., Hiếu, P. X., & Thụy, H. Q. Named EntityRecognitionin Vietnamese Free-Text and Web Documents UsingConditionalRandom Fields.

28. Tuoi T.Phan, Thanh C.Nguyen, Thuy N.T.Huynh. Question Semantic Analysis in Vietnamese QA System. The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29-40, (2010)

29. Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi Pham, Thuy Quang Ha. An Experimental Study of Vietnamese Question Answering System. In Proceedings of IALP '2009. pp.152~155

30. Wilks, Y., Guthrie, L., Guthrie, J., & Cowie, J. (1992). Combining weak methods in large-scale text processing. Hillsdale NJ: Lawrence Erlbaum Associates.

31. Zhou, GuoDong, and Jian Su. “Named entity recognition using an HMM- based chunk tagger.” proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002.

B. Website tham khảo: 1. http://protege.stanford.edu/ 2. http://www.cse.hcmut.edu.vn/~tru/VN-KIM/products/vnkim-ie.htm 3. http://en.wikipedia.org/wiki/DARPA 4. http://gate.ac.uk/sale/tao/splitch10.html 5. http://gate.ac.uk/ 6. http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnSentDetector 7. http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer 8. http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi _algorithm/s1_pg1.html 9. http://www.fuzzytech.com/ 10. http://www.coli.uni-saarland.de/~thorsten/tnt/

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 49)

Tải bản đầy đủ (PDF)

(58 trang)