Biểu đồ so sánh kết quả thực nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 56 - 60)

Độ chính xác trong liên kết thực thể giữa 9432 thực thể (mention) trong 383

bài báo (article) tới Wikipedia là 48, 5 %. Kết quả này thể hiện độ khó của

bài toán liên kết thực thể. Lưu ý rằng, chất lượng các công cụ thực tế được sử dụng trong công nghiệp (ví dụ Google) đối với tiếng Anh cũng còn khá khiêm tốn: F1 đạt xấp xỉ 80% [25].

KẾT LUẬN

Những đóng góp chính của luận văn

Trong bài luận văn này, chúng tôi đã bước đầu tiếp cận nghiên cứu bài toán liên kết thực thể trong tiếng Việt. Bài toán này được đánh giá là bài toán rất khó vì những vấn đề nhập nhằng trong dữ liệu. Ví dụ, với bài toán nhận dạng thực thể (named entity recognition), hệ thống cần nhận diện một tên riêng như “Tuấn Hưng” và phân nó vào một loại như người, địa điểm, tổ chức, v.v. Tuy nhiên với bài toán liên kết thực thể “Tuấn Hưng” cần được liên kết đến một thực thể duy nhất trong hàng trăm hay hàng ngàn ứng cử viên từ hệ tri thức. Đóng góp lớn nhất của chúng tôi trong đề tài này đó là xây dựng được tập dữ liệu tiếng Việt và tùy chỉnh công cụ liên kết thực thể AIDA-light để chạy trên văn bản tiếng Việt. Mặc dù kết quả thực nghiệm chưa cao (F1 đạt 48.5%) nhưng đó cũng là một trong những thành công bước đầu trong quá trình thử nghiệm bài toán liên kết thực thể cho cho tiếng Việt. Lưu ý rằng, chất lượng các công cụ thực tế được sử dụng trong công nghiệp (ví dụ Google) đối với tiếng Anh cũng còn khá khiêm tốn: F1 đạt xấp xỉ 80% [25].

Đặc biệt, trong quá trình tùy chỉnh công cụ AIDA-light chạy trên văn bản tiếng Việt, chúng tôi xây dựng bộ công cụ xử lý dữ liệu trên Wikipedia. Công cụ này có khả năng hoạt động tương đối độc lập về ngôn ngữ. Như vậy, chúng tôi có khả năng tùy chỉnh công cụ AIDA-light cho hoàng loạt các ngôn ngữ khác như tiếng Lào, Campuchia, Indonesia, v.v. Điều này rất có ý nghĩa cho các ngôn ngữ ít phổ biến và còn nhiều hạn chế về mặt tài nguyên (các ngôn ngữ ở vùng Đông Nam Á, Châu Phi, v.v.)

Định hƣớng nghiên cứu trong tƣơng lai

Để độ chính xác của dữ liệu chạy trên mô hình thực nghiệm được cao hơn, điều kiện quan trọng là xây dựng được tập dữ liệu gán nhãn đầu vào chính xác hơn, đa dạng hơn. Do đó, việc xây dựng tập dữ liệu tiếng Việt đủ lớn và được gán nhãn chính xác là rất cần thiết cho bài toán liên kết thực thể cho tiếng Việt. Ngoài ra việc tích hợp các nguồn ngữ liệu khác như wordnet, v.v. vào hệ thống cũng là một hướng nghiên cứu rất có tiềm năng.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Bá Đạt (2009), “Nhận dạng thực thể trong văn bản tiếng Việt”, khóa luận tốt nghiệp đại học hệ chính quy, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, tr.29.

[2] Nguyễn Cẩm Tú (2005), “Nhận biết các loại thực thể trong văn bản tiếng

Việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm hướng thực thể, khóa luận tốt

nghiệp đại học hệ chính quy, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, tr.15-16.

[3] Nguyễn Trung Kiên (2006), “Phân đoạn từ tiếng Việt sử dụng mô hình

CRFs, khóa luận tốt nghiệp đại học hệ chính quy, Trường Đại học Công

nghệ, Đại học Quốc Gia Hà Nội, tr.21-22.

[4] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (2005), Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê.

http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP83.pdf

Tiếng Anh

[5]. Andrew Borthwick. “A maximum entropy approach to Named Entity Recognition”. New York University, 1999.

[6]. D.B. Nguyen, J. Hoffart, M. Theobald, G. Weikum, (April, 2014).

“AIDA-light: High-throughput named-entity disambiguation”. In Linked

Data on the Web at WWW 2014, At Seoul, South Korea.

[7]. Dat, N. B., Son, H. H., Son, B. P. & Thai, P. N. (2010, March). “Named

Entity Recognition for Vietnamese”. Intelligent Information and Database

Systems. In Proceedings of Second International Conference, ACIIDS,

pp.205-214.

[8]. Jenny Rose Finkel, Christoper D. Manning, Trond Grenager (January, 2005). “Incorporating Non-local Information into Information Extraction

Systems by Gibbs Sampling”. In Proceedings of the 43rd Annual Meeting of

the Association for Computational Linguistics (pp. 363-370).

[9]. J. Hoffart, M. A. Yosef, I. Bordino, H. Furstenau, M. Pinkal, M. Spaniol, B. Taneva, S. Thater, and G. Weikum (July, 2011). “Robust Disambiguation

of Named Entities in Text”. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, EMNLP 2011, At Edinburgh, UK.

[10]. Hammersley, J., & Clifford. P. “Markov fields on finite graphs and lattices”. Unpublished manuscript ,1971.

[11]. Henry, R., Barbara, P. & Aidan, H (2018, May). “What should Entity

Linking link?”. In Conference Alberto Mendelzon International Workshop,

pp.1-2.

[12]. M. A. Yosef, J. Hoffart, I. Bordino, M. Spaniol, & G. Weikum (August, 2011). “AIDA: An Online Tool for Accurate Disambiguation of Named

Entities in Text and Tables”. in Proceedings of the VLDB Endowment.

[13]. McCallum, A., Freitag, D., & Pereira, F. C. (2000, June). “Maximum

Entropy Markov Models for Information Extraction and Segmentation”. In

ICML (Vol. 17, pp.591-598).

[14]. McCallum, A., & Li, W. (2003, May). “Early results for named entity recognition with conditional random fields, feature induction and web-

enhanced lexicons”. In Proceedings of the seventh conference on Natural

language learning at HLT-NAACL 2003-Volume 4 (pp. 188- 191). Association for Computational Linguistics.

[15]. Lafferty, J., McCallum, A., & Pereira, F. C. (2001). “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”.

[16]. Robert Malouf. (August, 2002). “A Comparison of Algorithms for

Maximum Entropy Parameter Estimation”. In Proceedings of the Sixth

Conference on Natural Language Learning (CoNLL-2002).

http://www.hoffart.ai/wp-content/papercite-data/pdf/hoffart-2013wk.pdf

[17]. Tu, N. C., Oanh, T. T., Hieu, P. X., & Thuy, H. Q. (2005). “Named entity recognition in vietnamese free-text and web documents using

conditional random fields”. In The 8th Conference on Some selection

problems of Information Technology and Telecommunication.

[18]. Zhou, G., & Su, J. (2002, July). “Named entity recognition using an

HMM-based chunk tagger”. In proceedings of the 40th Annual Meeting on

Association for Computational Linguistics (pp. 473-480). Association for Computational Linguistics.

Trang web [19]. https://catalog.ldc.upenn.edu/LDC2001T02 [20]. https://catalog.ldc.upenn.edu/LDC2003T13 [21]. https://en.wikipedia.org/wiki/Conditional_random_field [22]. https://nlp.stanford.edu/software/CRF-NER.html [23]. https://nlp.stanford.edu/software/tagger.shtml [24]. https://www.aflat.org/conll2003/ner/ [25]. http://lemurproject.org/clueweb12/FACC1/

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 56 - 60)

Tải bản đầy đủ (PDF)

(60 trang)