4.2.1. Môi trường thực nghiệm
Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB
Phần mềm: Sử dụng tool Mallet được viết bởi Andrew McCallum và đồng nghiệp. Ngoài ra còn sử dụng các công cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ.
4.2.2. Mô tả quy trình thực nghiệm
Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hưởng của tập dữ liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện lớn (hơn 50.000 dòng) thành các tập huấn luyện như sau:
- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn luyện gốc.
- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn luyện gốc.
- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn luyện gốc.
- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn luyện gốc.
- Tập dữ liệu huấn luyện 100%: Lấy toàn bộ tập dữ liệu huấn luyện gốc. Như vậy, tác giả sẽ tiến hành 5 nhóm thực nghiệm, mỗi nhóm thực nghiệm sử dụng một tập dữ liệu huấn luyện phân chia như trên và tiến hành gán nhãn dữ liệu theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
4.2.3. Kết quả thực nghiệm
Nhóm thực nghiệm 1: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 10% và tập dữ liệu kiểm tra.
Bảng 3. Kết quả nhóm thực nghiệm 1
CRF CRF.ER CRF.GE
Precision Recall F-
measure Precision Recall F-
measure Precision Recall
F- measure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596
PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376
LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521
MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000
Hình 6. Kết quả nhóm thực nghiệm 1
Nhóm thực nghiệm 2: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 20% và tập dữ liệu kiểm tra.
CRFs CRFs.ER CRFs.GE
Precision Recall F-
measure Precision Recall F-
measure Precision Recall
F- measure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536 Bảng 4. Kết quả nhóm thực nghiệm 2 Hình 7. Kết quả nhóm thực nghiệm 2
Nhóm thực nghiệm 3: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 40% và tập dữ liệu kiểm tra.
Trong nhóm thực nghiệm này, tác giả mới chỉ đưa ra được kết quả của việc gán nhãn theo mô hình CRFs đơn thuần và mô hình bán giám sát CRFs sử dụng Entropy Regularization. Việc gán nhãn theo mô hình học bán giám sát CRFs theo
phương pháp tiêu chuẩn kỳ vọng tổng quát tác giả chưa thực hiện được do việc sử dụng mô hình này cần bộ nhớ rất lớn, vượt quá khả năng đáp ứng của máy tính 32bit của tác giả. Nên trong nhóm thực nghiệm này và 2 nhóm thực nghiệm sau tác giả chỉ báo cáo kết quả của 2 mô hình CRFs đơn thuần và CRFs sử dụng Entropy Regularization.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577 PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272 LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959 MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760 OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500 Bảng 5. Kết quả nhóm thực nghiệm 3 Hình 8. Kết quả nhóm thực nghiệm 3
Nhóm thực nghiệm 4: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 80% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873
PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912 LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993 MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120
Bảng 6. Kết quả nhóm thực nghiệm 4
Hình 9. Kết quả nhóm thực nghiệm 4
Nhóm thực nghiệm 5: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 100% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777 PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941 LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986 MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612 OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925 Bảng 7. Kết quả nhóm thực nghiệm 5
Hình 10. Kết quả nhóm thực nghiệm 5
4.2.4. Đánh giá
Qua 5 nhóm thực nghiệm trên ta thấy có một số nhận xét như sau:
- Đối với mô hình CRFs đơn thuần, khi càng tăng kích thước tập dữ liệu huấn luyện thì độ chính xác càng cao hay hàm F-measure càng cao. Điều này phù hợp với mô hình học máy có giám sát. Thậm chí ở nhóm thực nghiệm thứ 3 kết quả của mô hình CRFs đơn thuần còn nhỉnh hơn so với kết quả của mô hình CRFs sử dụng Entropy Regularization.
- Kết quả của 2 mô hình học máy bán giám sát (Mô hình CRFs sử dụng Entropy Regularization và Mô hình CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát) tốt hơn so với kết quả của mô hình học máy có giám sát (Mô hình CRFs đơn thuần), đặc biệt là với tập dữ liệu huẫn luyện nhỏ.
- Mặc dù Mô hình học máy bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực hiện được ở 2 tập dữ liệu huấn luyện nhỏ (tập dữ liệu huấn luyện 10% và 20%), nhưng cũng cho thấy mô hình này cho kết quả tốt hơn mô hình học máy bán giám sát CRFs sử dụng Entropy Regularization.
Các kết quả thực nghiệm trên có thể chưa hoàn thiện, kết quả có thể bị ảnh hưởng bởi bản thân dữ liệu thu thập và một số trường hợp nhập nhằng trong tiếng Việt, nhưng nó cũng góp phần phản ánh ưu điểm của phương pháp học máy bán giám sát so với phương pháp học máy có giám sát nói chung, đồng thời cũng cho thấy hiệu quả của mô hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát.
4.3. Kết luận chương 4
liệu huấn luyện được phân chia khác nhau và tiến hành gán nhãn dữ liệu theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Qua đó đánh giá hiệu quả của các mô hình nói riêng và hiệu quả của các phương pháp học máy có giám sát và bán giám sát nói chung.
KẾT LUẬN
Sau một thời gian tìm hiểu và nghiên cứu về bài toán trích lọc thông tin và phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, luận văn đã đạt được một số kết quả sau.
- Giới thiệu về mô hình trường điều kiện ngẫu nhiên CRFs và phương pháp học máy bán giám sát. CRFs là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. CRFs có nhiều ưu điểm của các mô hình xác suất khác đồng thời khắc phục được nhược điểm mà các mô hình xác suất khác gặp phải tiêu biểu là vấn đề “label bias”. Phương pháp học máy bán giám sát là sự kết hợp của 2 phương pháp truyền thống – học máy có giám sát và học máy không có giám sát, là cách học sử dụng thông tin chứa trong cả dữ liệu chưa gán nhãn và tập dữ liệ gán nhãn nhằm mở rộng tập các dữ liệu gán nhãn ban đầu. Trong quá trình học như thế phương pháp sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gán nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn.
- Giới thiệu về tiêu chuẩn kỳ vọng tổng quát và áp dụng vào mô hình CRFs. Tiêu chuẩn kỳ vọng tổng quát là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình. Luận văn cùng đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng quát, từ đó áp dụng vào mô hình CRFs thiết lập các thông số cho mô hình theo tiêu chuẩn kỳ vọng tổng quát.
- Đề xuất một mô hình cho bài toán trích chọn thông tin thực thể trên tập văn bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát. Đồng thời sử dụng bộ công cụ Mallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữ liệu tiếng Việt theo mô hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC, PER, ORG VÀ MISC.
Tuy nhiên, để có được một tập huấn luyện tốt đòi hỏi nhiều thời gian và công sức. Trong thời gian có hạn, tác giả mới chỉ xây dựng được tập dữ liệu huấn luyện và tập ràng buộc dữ liệu vừa phải. Với tập dữ liệu này, khi đưa vào tập dữ liệu kiểm tra bất kỳ kết quả thu được còn hạn chế.
Mặc dù, mô hình này thu được kết quả khả quan ở tập ngôn ngữ tiếng Anh, nhưng đây là lần đầu tiên mô hình này được áp dụng cho ngôn ngữ tiếng Việt và do
những đặc điểm riêng biệt của tiếng Việt nên luận văn không thể tránh khỏi những thiếu sót và hạn chế nhất định. Tôi rất mong nhận được những ý kiến và nhận xét góp ý để luận văn được hoàn thiện hơn.
Xử lý ngôn ngữ tự nhiên là một vấn đề phức tạp. Hiện này đã có nhiều công cụ xử lý ngôn ngữ tự nhiên, tuy nhiên hầu hết chúng được áp dụng cho tiếng Anh và tiếng Pháp. Các đặc thù của các ngôn ngữ là khác nhau nên việc chuyển đổi giữa các ngôn ngữ cũng gặp rất nhiều khó khăn đặc biệt là đối với một ngôn ngữ phong phú và đa dạng như tiếng Việt. Trong thời gian tới, tác giả sẽ tập trung xây dựng và hoàn thiện bộ dữ liệu huấn luyện và tập các ràng buộc đặc trưng của dữ liệu nhằm cải thiện độ chính xác của mô hình.
TÀI LIỆU THAM KHẢO
[AG05] M. R. Amini and P. Gallinari. Semi-supervised learning with an imperfect supervisor. Knowledge and Information Systems, 8(4):385–413, 2005. [BC01] A. Blum and S. Chawla. Learning from labeled and unlabeled data using
graph mincuts. In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001.
[BC09] Kedar Bellare, Andrew McCallum (2009). Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009
Conference on Empirical Methods in Natural Language Processing: 131–
140, 2009.
[BLR04] A. Blum, J. Lafferty, M. Rwebangira, and R. Reddy. Semi-supervised learning using ran-domized mincuts. In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004.
[BM98] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co- training. In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998.
[BN04] M. Belkin and P. Niyogi. Semi-supervised learning on Riemannian manifolds. Machine Learning, 56(1-3):209–239, 2004.
[BNJ03] David M. Blei, Andrew Y.Ng và Michael I.Jordan. Latent Dirichlet Allocation. University of California, Berkeley, Berkeley, CA 94720. 2003 [BNS05] M. Belkin, P. Niyogi, and V. Sindhwani. On manifold regularization. In
Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005.
[BNS06] M. Belkin, P. Niyogi, and V. Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Journal of Machine Learning Research, 7:2399–2434, 2006.
[BS06] U. Brefeld and T. Scheffer. Semi-supervised learning for structured output
variables. In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006.
[Car10] Andrew Carlson (2010). Coupled Semi-Supervised Learning, PhD Thesis
[CMD07] Andrew McCallum, Gideon Mann, Gregory Druck (2007). Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007
[CZ05] O. Chapelle and A. Zien. Semi-supervised learning by low density separation. In proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 57–64. Savannah Hotel, Barbados, 2005. [DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977.
[DMC07] Gregory Druck, Gideon Mann, Andrew McCallum (2007). Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007. [DMC08] Gregory Druck, Gideon Mann and Andrew McCallum (2008). Learning
from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008.
[DMC09] Gregory Druck, Gideon Mann, Andrew McCallum (2009). Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria,
The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368.
[Erk10] Ayse Naz Erkan (2010). Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010.
[FUS05] A. Fujino, N. Ueda, and K. Saito. A hybrid generative/discriminative approach to semi-supervised classifier design. In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005.
[GB04] Y.Grandvaletand, Y.Bengio. Semi-supervised learning by entropy minimization. In Advances in Neural Information Processing Systems, 2004. [GY05] Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy minimization. In L. K. Saul, Y.Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536. MIT Press, Cambridge, MA, 2005.
[GZ00] S. Goldman and Y. Zhou. Enhancing supervised learning with unlabeled data. In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000.
[HC71] J.Hammersley and P. Clifford (1971). Markov fields on finite graphs and lattices. Unpublished manuscript.
[HM07] M. Hein and M. Maier. Manifold denoising. In B. Sch¨olkopf, J. C. Platt, and T. Ho man, editors, Advances in Neural Information Processing Systems 19, pages 561–568. MIT Press, Cambridge, MA, 2007.
[Joa99] T. Joachims. Transductive inference for text classification using support vector machines. In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999
[JWL06] Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006). Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International
Conference on Computational Linguistics and the 44th annual meeting of
the Association for Computational Linguistics: 209-216, 2006.
[KL51] S. Kullback and R. A. Leibler. On Information and Sufficiency. Annuals of
Mathematical Statistics22 (1): pages 79–86, 1951.
[KQ10] Pavel P. Kuksa, Yanjun Qi (2010). Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010.
[Kul59] S. Kullback. Information theory and statistics. John Wiley and Sons, NY, 1959.
[LCP01] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001.
[LJ05] N. D. Lawrence and M. I. Jordan. Semi-supervised learning via Gaussian processes. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760. MIT Press, Cambridge, MA, 2005.
[Mal02] Robert Malouf. “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). Pages 49–55.
[MC08] Gideon S. Mann, Andrew McCallum (2008). Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL-
08 (HLT): 870–878, 2008.
[MC10] Gideon S. Mann, Andrew McCallum (2010). Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal
of Machine Learning Research, 11 (2010): 955-984
[MGZ04] Scott Miller, Jethran Guinness, Alex Zamanian (2004). Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004.
[MMI02] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158.
[MU97] D. J. Miller and H. S. Uyar. A mixture of experts classifier with learning based on both labelled and unlabelled data. In M. Mozer, M. I. Jordan, and
T. Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577. MIT Press, Cambridge, MA, 1997.
[NCT00] K.Nigam, A. K. McCallum, S. Thrun, and T. Mitchell. Text classification from labeled and unlabeled documents using EM. Machine Learning, 39(2- 3):103–134, 2000.
[NG00] K. Nigam and R. Ghani. Analyzing the effectiveness and applicability of co-
training. In Proceedings of the 9th ACM International Conference on Information and Knowledge Management, pages 86–93, Washington, DC, 2000.
[QKC09] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009). Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International
Conference on Data Mining: 428-437, 2009.
[SL94] B. Shahshahani and D. Landgrebe. The effect of unlabeled samples in
reducing the small sample size problem and mitigating the hughes phenomenon. IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994.
[Spr07] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of