Thực nghiệm và đánh giá - Trích chọn thông tin trê- 123docz.net

4.2.1. Mơi trƣờng thực nghiệm

Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB

Phần mềm: Sử dụng tool Mallet đƣợc viết bởi Andrew McCallum và đồng nghiệp. Ngồi ra cịn sử dụng các cơng cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ.

4.2.2. Mơ tả quy trình thực nghiệm

Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hƣởng của tập dữ liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện lớn (hơn 50.000 dịng) thành các tập huấn luyện nhƣ sau:

- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn luyện gớc.

- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn luyện gớc.

- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn luyện gớc.

- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn luyện gớc.

- Tập dữ liệu huấn luyện 100%: Lấy tồn bộ tập dữ liệu huấn luyện gớc. Nhƣ vậy, tác giả sẽ tiến hành 5 nhĩm thực nghiệm, mỗi nhĩm thực nghiệm sử dụng một tập dữ liệu huấn luyện phân chia nhƣ trên và tiến hành gán nhãn dữ liệu theo 3 mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization và Mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.

4.2.3. Kết quả thực nghiệm

Nhĩm thực nghiệm 1: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 10% và tập dữ liệu kiểm tra.

Bảng 3. Kết quả nhĩm thực nghiệm 1

Hình 6. Kết quả nhĩm thực nghiệm 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure CRF CRF.ER CRF.GE Precision Recall F-

measure Precision Recall F-

measure Precision Recall

F- measure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596

PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000

Nhĩm thực nghiệm 2: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 20% và tập dữ liệu kiểm tra.

CRFs CRFs.ER CRFs.GE

Precision Recall F-

measure Precision Recall F-

measure Precision Recall

F- measure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536

Bảng 4. Kết quả nhĩm thực nghiệm 2

Hình 7. Kết quả nhĩm thực nghiệm 2

Nhĩm thực nghiệm 3: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 40% và tập dữ liệu kiểm tra.

Trong nhĩm thực nghiệm này, tác giả mới chỉ đƣa ra đƣợc kết quả của việc gán nhãn theo mơ hình CRFs đơn thuần và mơ hình bán giám sát CRFs sử dụng Entropy Regularization. Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực hiện đƣợc do việc sử dụng mơ hình này cần bộ nhớ rất lớn, vƣợt quá khả năng đáp ứng của máy tính

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure

32bit của tác giả. Nên trong nhĩm thực nghiệm này và 2 nhĩm thực nghiệm sau tác giả chỉ báo cáo kết quả của 2 mơ hình CRFs đơn thuần và CRFs sử dụng Entropy Regularization.

CRF CRF.ER

Precision Recall F-measure Precision Recall F-measure

ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577

PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272

LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959

MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760

OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500

Bảng 5. Kết quả nhĩm thực nghiệm 3

Hình 8. Kết quả nhĩm thực nghiệm 3

Nhĩm thực nghiệm 4: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 80% và tập dữ liệu kiểm tra.

CRF CRF.ER

Precision Recall F-measure Precision Recall F-measure

ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873

PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912

LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993

MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120

OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911

Bảng 6. Kết quả nhĩm thực nghiệm 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER Precision Recall F-measure

Hình 9. Kết quả nhĩm thực nghiệm 4

Nhĩm thực nghiệm 5: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 100% và tập dữ liệu kiểm tra.

CRF CRF.ER

Precision Recall F-measure Precision Recall F-measure

ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777

PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941

LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986

MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612

OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925

Bảng 7. Kết quả nhĩm thực nghiệm 5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER Precision Recall F-measure

Hình 10. Kết quả nhĩm thực nghiệm 5

4.2.4. Đánh giá

Qua 5 nhĩm thực nghiệm trên ta thấy cĩ một sớ nhận xét nhƣ sau:

- Đới với mơ hình CRFs đơn thuần, khi càng tăng kích thƣớc tập dữ liệu huấn luyện thì độ chính xác càng cao hay hàm F-measure càng cao. Điều này phù hợp với mơ hình học máy cĩ giám sát. Thậm chí ở nhĩm thực nghiệm thứ 3 kết quả của mơ hình CRFs đơn thuần cịn nhỉnh hơn so với kết quả của mơ hình CRFs sử dụng Entropy Regularization.

- Kết quả của 2 mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization và Mơ hình CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát) tớt hơn so với kết quả của mơ hình học máy cĩ giám sát (Mơ hình CRFs đơn thuần), đặc biệt là với tập dữ liệu huẫn luyện nhỏ.

- Mặc dù Mơ hình học máy bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực hiện đƣợc ở 2 tập dữ liệu huấn luyện nhỏ (tập dữ liệu huấn luyện 10% và 20%), nhƣng cũng cho thấy mơ hình này cho kết quả tớt hơn mơ hình học máy bán giám sát CRFs sử dụng Entropy Regularization.

Các kết quả thực nghiệm trên cĩ thể chƣa hồn thiện, kết quả cĩ thể bị ảnh hƣởng bởi bản thân dữ liệu thu thập và một sớ trƣờng hợp nhập nhằng trong tiếng Việt, nhƣng nĩ cũng gĩp phần phản ánh ƣu điểm của phƣơng pháp học máy bán giám sát so với phƣơng pháp học máy cĩ giám sát nĩi chung, đồng thời cũng cho thấy hiệu quả của mơ hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát.

4.3. Kết luận chƣơng 4

Tiến hành các thực nghiệm để phân tích đánh giá kết quả đạt đƣợc. Ở đây, tác giả tiến hành năm nhĩm thực nghiệm, mỗi nhĩm thực nghiệm sử dụng một tập dữ

0.0000 0.1000 0.2000 0.3000 0.4000 0.5000 0.6000 0.7000 0.8000 0.9000 1.0000 CRFs CRFs.ER Precision Recall F-measure

liệu huấn luyện đƣợc phân chia khác nhau và tiến hành gán nhãn dữ liệu theo 3 mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization và Mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Qua đĩ đánh giá hiệu quả của các mơ hình nĩi riêng và hiệu quả của các phƣơng pháp học máy cĩ giám sát và bán giám sát nĩi chung.

KẾT LUẬN

Sau một thời gian tìm hiểu và nghiên cứu về bài tốn trích lọc thơng tin và phƣơng pháp học máy bán giám sát dựa trên mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, luận văn đã đạt đƣợc một sớ kết quả sau.

- Giới thiệu về mơ hình trƣờng điều kiện ngẫu nhiên CRFs và phƣơng pháp học máy bán giám sát. CRFs là mơ hình dƣ̣a trên xác suất điều kiện , nĩ cĩ thể tích hợp đƣợc các thuộc tính đa dạng của chuỗi dƣ̃ liê ̣u quan sát nhằm hỗ trợ cho quá trình phân lớp. CRFs cĩ nhiều ƣu điểm của các mơ hình xác suất khác đồng thời khắc phục đƣợc nhƣợc điểm mà các mơ hình xác suất khác gặp phải tiêu biểu là vấn đề “label bias”. Phƣơng pháp học máy bán giám sát là sự kết hợp của 2 phƣơng pháp truyền thớng – học máy cĩ giám sát và học máy khơng cĩ giám sát, là cách học sử dụng thơng tin chứa trong cả dữ liệu chƣa gán nhãn và tập dữ liệ gán nhãn nhằm mở rộng tập các dữ liệu gán nhãn ban đầu. Trong quá trình học nhƣ thế phƣơng pháp sẽ tận dụng đƣợc những thơng tin phong phú của dữ liệu chƣa gán nhãn, mà chỉ yêu cầu một sớ lƣợng rất nhỏ các dữ liệu đã gán nhãn.

- Giới thiệu về tiêu chuẩn kỳ vọng tổng quát và áp dụng vào mơ hình CRFs. Tiêu chuẩn kỳ vọng tổng quát là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình. Luận văn cùng đề cập đến cách xây dựng cơng thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng quát, từ đĩ áp dụng vào mơ hình CRFs thiết lập các thơng sớ cho mơ hình theo tiêu chuẩn kỳ vọng tổng quát.

- Đề xuất một mơ hình cho bài tốn trích chọn thơng tin thực thể trên tập văn bản pháp luật dựa trên phƣơng pháp học máy bán giám sát dựa trên mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát. Đồng thời sử dụng bộ cơng cụ Mallet đƣợc viết bởi Andrew McCallum và đồng nghiệp cho tập dữ liệu tiếng Việt theo mơ hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC, PER, ORG VÀ MISC.

Tuy nhiên, để cĩ đƣợc một tập huấn luyện tớt địi hỏi nhiều thời gian và cơng sức. Trong thời gian cĩ hạn, tác giả mới chỉ xây dựng đƣợc tập dữ liệu huấn luyện và tập ràng buộc dữ liệu vừa phải. Với tập dữ liệu này, khi đƣa vào tập dữ liệu kiểm tra bất kỳ kết quả thu đƣợc cịn hạn chế.

Mặc dù, mơ hình này thu đƣợc kết quả khả quan ở tập ngơn ngữ tiếng Anh, nhƣng đây là lần đầu tiên mơ hình này đƣợc áp dụng cho ngơn ngữ tiếng Việt và do những đặc điểm riêng biệt của tiếng Việt nên luận văn khơng thể tránh khỏi những

thiếu sĩt và hạn chế nhất định. Tơi rất mong nhận đƣợc những ý kiến và nhận xét gĩp ý để luận văn đƣợc hồn thiện hơn.

Xử lý ngơn ngữ tự nhiên là một vấn đề phức tạp. Hiện này đã cĩ nhiều cơng cụ xử lý ngơn ngữ tự nhiên, tuy nhiên hầu hết chúng đƣợc áp dụng cho tiếng Anh và tiếng Pháp. Các đặc thù của các ngơn ngữ là khác nhau nên việc chuyển đổi giữa các ngơn ngữ cũng gặp rất nhiều khĩ khăn đặc biệt là đới với một ngơn ngữ phong phú và đa dạng nhƣ tiếng Việt. Trong thời gian tới, tác giả sẽ tập trung xây dựng và hồn thiện bộ dữ liệu huấn luyện và tập các ràng buộc đặc trƣng của dữ liệu nhằm cải thiện độ chính xác của mơ hình.

TÀI LIỆU THAM KHẢO

[AG05] M. R. Amini and P. Gallinari. Semi-supervised learning with an imperfect supervisor. Knowledge and Information Systems, 8(4):385–413, 2005. [BC01] A. Blum and S. Chawla. Learning from labeled and unlabeled data using

graph mincuts. In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001.

[BC09] Kedar Bellare, Andrew McCallum (2009). Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009 Conference on Empirical Methods in Natural Language Processing: 131– 140, 2009.

[BLR04] A. Blum, J. Lafferty, M. Rwebangira, and R. Reddy. Semi-supervised learning using ran-domized mincuts. In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004.

[BM98] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co- training. In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998.

[BN04] M. Belkin and P. Niyogi. Semi-supervised learning on Riemannian manifolds. Machine Learning, 56(1-3):209–239, 2004.

[BNJ03] David M. Blei, Andrew Y.Ng và Michael I.Jordan. Latent Dirichlet Allocation. University of California, Berkeley, Berkeley, CA 94720. 2003 [BNS05] M. Belkin, P. Niyogi, and V. Sindhwani. On manifold regularization. In

Proceedings of the 10th International Workshop on Artiﬁcial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005.

[BNS06] M. Belkin, P. Niyogi, and V. Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Journal of Machine Learning Research, 7:2399–2434, 2006.

[BS06] U. Brefeld and T. Scheﬀer. Semi-supervised learning for structured output variables. In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006.

[Car10] Andrew Carlson (2010). Coupled Semi-Supervised Learning, PhD Thesis (CMU-ML-10-104), Carnegie Mellon University, 2010.

[CMD07] Andrew McCallum, Gideon Mann, Gregory Druck (2007). Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007

[CZ05] O. Chapelle and A. Zien. Semi-supervised learning by low density separation. In proceedings of the 10th International Workshop on Artiﬁcial Intelligence and Statistics, pages 57–64. Savannah Hotel, Barbados, 2005.

[DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977.

[DMC07] Gregory Druck, Gideon Mann, Andrew McCallum (2007). Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007. [DMC08] Gregory Druck, Gideon Mann and Andrew McCallum (2008). Learning

from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008.

[DMC09] Gregory Druck, Gideon Mann, Andrew McCallum (2009). Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria,

The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368.

[Erk10] Ayse Naz Erkan (2010). Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010.

[FUS05] A. Fujino, N. Ueda, and K. Saito. A hybrid generative/discriminative approach to semi-supervised classiﬁer design. In Proceedings of the 20th National Conference on Artiﬁcial Intelligence, pages 764–769, Pittsburgh, PA, 2005.

[GB04] Y.Grandvaletand, Y.Bengio. Semi-supervised learning by entropy minimization. In Advances in Neural Information Processing Systems, 2004. [GY05] Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy minimization. In L. K. Saul, Y.Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536. MIT Press, Cambridge, MA, 2005.

[GZ00] S. Goldman and Y. Zhou. Enhancing supervised learning with unlabeled data. In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000.

[HC71] J.Hammersley and P. Clifford (1971). Markov fields on finite graphs and lattices. Unpublished manuscript.

[HM07] M. Hein and M. Maier. Manifold denoising. In B. Sch¨olkopf, J. C. Platt, and T. Hoﬀman, editors, Advances in Neural Information Processing Systems 19, pages 561–568. MIT Press, Cambridge, MA, 2007.

[Joa99] T. Joachims. Transductive inference for text classiﬁcation using support vector machines. In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999

[JWL06] Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006). Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006.

[KL51] S. Kullback and R. A. Leibler. On Information and Sufficiency. Annuals of Mathematical Statistics 22 (1): pages 79–86, 1951.

[KQ10] Pavel P. Kuksa, Yanjun Qi (2010). Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010.

[Kul59] S. Kullback. Information theory and statistics. John Wiley and Sons, NY, 1959.

[LCP01] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001.

[LJ05] N. D. Lawrence and M. I. Jordan. Semi-supervised learning via Gaussian processes. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760. MIT Press, Cambridge, MA, 2005.

[Mal02] Robert Malouf. “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). Pages 49–55.

[MC08] Gideon S. Mann, Andrew McCallum (2008). Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL- 08 (HLT): 870–878, 2008.

[MC10] Gideon S. Mann, Andrew McCallum (2010). Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal of Machine Learning Research, 11 (2010): 955-984

[MGZ04] Scott Miller, Jethran Guinness, Alex Zamanian (2004). Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004.

[MMI02] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158.

[MU97] D. J. Miller and H. S. Uyar. A mixture of experts classiﬁer with learning based on both labelled and unlabelled data. In M. Mozer, M. I. Jordan, and T. Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577. MIT Press, Cambridge, MA, 1997.

[NCT00] K.Nigam, A. K. McCallum, S. Thrun, and T. Mitchell. Text classiﬁcation from labeled and unlabeled documents using EM. Machine Learning, 39(2- 3):103–134, 2000.

[NG00] K. Nigam and R. Ghani. Analyzing the eﬀectiveness and applicability of co-