Kết quả thực nghiệm từ các bộ dữ liệu để đánh giá hiệu năng hệ thống học máy nhằm chứng minh một hệ thống là đúng đắn và hoàn chỉnh dựa trên các tập huấn luyện và tập kiểm thử đã đƣợc phân chia theo một quy định nhất định.
Việc đánh giá kết quả của hệ thống gán nhãn vai nghĩa đƣợc thực hiện bằng phƣơng pháp đánh giá chéo 10 phần. Tính giá trị trung bình các chỉ số ta có:
Recall 0,841 Precision 0,828 F1 0,834
Trƣớc khi giải thích các chỉ số trong bảng kết quả chạy thử nghiệm bên trên ta có bảng gọi là bảng MA TRẬN ĐÁNH GIÁ (Confusion matrix).
MA TRẬN ĐÁNH GIÁ
Lớp Ci Đƣợc phân lớp bởi hệ thống Thuộc Không thuộc Phân lớp thực sự
(đúng)
Thuộc TPi FNi
Không thuộc FPi TNi
Các chỉ số trong bảng:
- TPi: Số lƣợng các từ thuộc lớp Ci đƣợc phân loại chính xác vào lớp Ci - FPi: Số lƣợng các từ không thuộc lớp Ci bị phân loại nhầm vào lớp Ci - TNi: Số lƣợng các từ không thuộc lớp Ci đƣợc phân loại chính xác - FNi: Số lƣợng các từ thuộc lớp Ci bị phân loại nhầm (vào lớp khác Ci)
53
Độ chính xác (Precision) là tỉ lệ thông tin chính xác nhận đƣợc về vấn đề mình xem xét trong tổng số thông tin chính xác cần đƣợc xác định.
Độ triệu hồi (Recall) là tỉ lệ thông tin chính xác về vấn đề xem xét trong tổng số thông tin có liên quan.
F1 là trung bình điều hòa của Precision và Recall.
Các chỉ số đƣợc tính nhƣ sau: 1.
2. 3.
Với kết quả đạt đƣợc nhƣ trên với mô hình ứng dụng cho tiếng việt chƣa đạt hiệu suất phân loại cao. Để có kết quả tốt hơn hƣớng khắc phục có thể tăng thêm luật cho dữ liệu huấn luyện và dữ liệu kiểm tra.
54
KẾT LUẬN
Luận văn này đã tìm hiểu về mạng logic Markov, ứng dụng của việc học mạng logic Markov trong một bài toán cụ thể là bài toán gán nhãn vai nghĩa cho tiếng Việt.
Cụ thể:
- Tìm hiểu về các bài toán cơ bản trong mạng logic Markov: bài toán suy luận, bài toán học tham số và bài toán học cấu trúc
- Tìm hiểu các thuật toán học cấu trúc mạng MLN - Tìm hiểu công cụ Thebeast
- Xây dựng dữ liệu từ kho dữ liệu vnTreebank cho công cụ Thebeast - Hƣớng nghiên cứu:
Tìm hiểu sâu hơn và xây dựng dữ liệu đầy đủ hơn cho bài toán gán nhãn vai nghĩa.
55
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Đào Hữu Hồ (2006), Xác suất thống kê, Nhà xuất bản Đại học Quốc gia Hà Nội.
[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003). “Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”, Báo cáo hội thảo ICT.rda.
[3] Nguyễn Hữu Ngự (2001), Lý thuyết đồ thị, Nhà xuất bản Đại học Quốc gia Hà Nội.
[4] Lê Hồng Phƣơng, Nguyễn Thị Minh Huyền, Nguyễn Phƣơng Thái, Phan Thị Hà, “Trích rút tự động văn phạm LTAG cho tiếng Việt”, Tạp chí Tin học và Điều khiển học, số 26, tập 2 (2010) tr. 153-171.
[5] Từ Minh Phƣơng, Trí tuệ nhân tạo, Học viện Công nghệ Bƣu chính Viễn thông, (2010).
[6] Nguyễn Nhật Quang, Khai phá dữ liệu, Viện Công nghệ Thông tin và Truyền thông trƣờng Đại học Bách Khoa Hà Nội (2010).
[7] Đặng Hùng Thắng (2007), Quá trình ngẫu nhiên và tính toán ngẫu nhiên,
Nhà xuất bản Đại học Quốc gia Hà Nội, Hà Nội.
[8] Nguyễn Duy Tiến và Vũ Viết Yên (2001), Lý thuyết xác suất, Nhà xuất bản Giáo dục, Hà Nội (2001).
[9] Đinh Mạnh Tƣờng, Trí tuệ nhân tạo, Nhà xuất bản Khoa học Kỹ thuật, Hà Nội (2002).
[10] Lê Đức Vĩnh, Giáo trình xác suất thống kê, Trƣờng Đại học Nông nghiệp I, Hà Nội (2006).
Tiếng Anh
[11] Hassan Khosravi and Oliver Schulte and Tong Man and Xiaoyuan Xu and Bahareh Bina (2010), “Structure Learning for Markov Logic Networks
56
with Many Descriptive Attributes”, in Proceedings of the Twenty-Fourth
AAAI Conference on Artificial Intelligence (AAAI-10), pages. 487-493.
[12] Stanley Kok and Pedro Domingos (2005), “Learning the Structure of Markov Logic Networks”, in Proceedings of the 22nd internatrional
conference on Machine learning, pages 441 – 448.
[13] Pedro Domingos and Daniel Lowd, “Markov logic: An interface layer for artificial intelligence”. Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2009, vol 3, No.1, pages 1-155.
[14] Stanley Kok and Pedro Domingos (2009), “Hypergraph Lifting for Structure Learning in Markov Logic Networks”, Proceedings of the 26th
Annual International Conference on Machine Learning, pages 505 - 512.
[15] Stanley Kok and Pedro Domingos (2010), Learning Markov Logic
Networks Using Structural Motifs, in Proceedings of the 27th
International Conference on Machine Learning, Haifa, Israel.
[16] Matthew Richardson and Pedro Domingos (2006), Markov Logic
Networds, Machine Learning, vol 62, no 1-2, pages 107-136.
[17] Đinh Quang Thắng (2011), Apprentissage Statistique Relationnel:
Apprentissage de Structures de Réseaux de Markov Logiques, The
University of Orléans.
[18] Marenglen Biba, Integrating Logic and Probability: Algorithmic
Improvements in Markov Logic Networks, Department of Computer