- Viết hoa chữ cái đầu tiên của tên riêng, tên người, địa danh.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Sau một thời gian tìm hiểu về bài toán trích rút thông tin, phương pháp học máy bán giám sát dựa trên mô hình CRFs, học máy có giám sát dựa trên SVM đồ án đã đạt được một số kết quả sau:
- Giới thiệu các hiểu biết cơ bản về trích rút thông tin, các phương pháp trích rút, các vấn đề thường gặp trong tích rút và giới thiệu một vài công cụ, thư viện hỗ trợ trích rút. Trích rút thông tin là bài toán tiềm năng và có nhiều ứng dụng trong thực tế, trong các bài toán tìm kiếm hay khai thác dữ liệu hay phân tích quan điểm.
- Giới thiệu về mô hình trường điều kiện ngẫu nhiên CRFs và phương pháp học máy bán giám sát. CRFs là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. CRFs có nhiều ưu điểm của các mô hình xác suất khác, đồng thời khắc phục được nhược điểm mà các mô hình xác suất khác gặp phải tiêu biểu là vấn đề “label bias”. Phương pháp học máy bán giám sát là sự kết hợp của 2 phương pháp truyền thống - học máy có giám sát và học máy không có giám sát, là cách học sử dụng thông tin chứa trong cả dữ liệu chưa gán nhãn và tập dữ liệu gán nhãn nhằm mở rộng tập các dữ liệu gán nhãn ban đầu. Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gán nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn.
- Tìm hiểu và thử nghiệm của phương pháp học máy SVM và sử dụng công cụ LibSVM để gán nhãn dữ liệu với bài toán phân loại đơn giản.
Để có được hiệu quả cao cần có một tập huấn luyện lớn và tốt, đòi hỏi nhiều thời gian và công sức. Trong thời gian có hạn, em mới chỉ xây dựng được tập dữ liệu huấn luyện vừa phải. Với tập dữ liệu này, đôi khi kết quả thu được còn hạn chế.
Mặt khác, do những đặc điểm riêng biệt của ngôn ngữ tiếng Việt nên đồ án không thể tránh khỏi những thiếu sót và hạn chế nhất định. Em rất mong nhận được những ý kiến và nhận xét để đồ án được hoàn thiện hơn.
Trích rút thông tin là một bài toán phức tạp. Hiện nay đã có nhiều công cụ, thư viện hỗ trợ xử lý ngôn ngữ tự nhiên, trích rút thông tin, song hầu hết chúng được áp dụng cho tiếng Anh. Các đặc thù của các ngôn ngữ là khác nhau, nên việc chuyển đổi giữa các ngôn ngữ cũng gặp rất nhiều khó khăn, đặc biệt là đối với một ngôn ngữ phong phú và đa dạng như tiếng Việt. Trong thời gian tới, em sẽ tập trung xây dựng và hoàn thiện bộ dữ liệu huấn luyện nhằm cài thiện độ chính xác của mô hình.