Về thực nghiệm

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 61 - 62)

Xây dựng thệ thống trích rút thông tin cá nhân từ văn bản tiếng Việt lấy từ trang web wikipedia dựa trên sự kết hợp của phương pháp CRF và biểu thức chính qui.

5.1.3 Nhận xét

Trích rút thực thể sử dụng mô hình CRF giám sát đạt hiệu quả cao khi tập dữ liệu huấn luyện đủ lớn. Đối với bài toán này, tập dữ liệu chứa nhiều thành phần đồng tham chiếu nên việc sử dụng phương pháp CRF kết hợp các tập luật nhận dạng đồng tham chiếu cho kết quả tốt.

Nguyễn Cao Cường 62 Luận văn Thạc sỹ

Với giả định là các thông tin về tài liệu tập trung nói về thông tin của một cá nhân nên việc d ng biểu thức chính qui để trích rút quan hệ của thực thể khi văn bản đã gán nhãn thực thể là tương đối khả thi. Việc nhận dạng đúng thực thể và các từ xung quanh thực thể đóng vai trò quyết định đến độ chính xác của bài toán trích rút quan hệ giữa các thực thể. Quá trình hậu xử lý sau khi nhận dạng thực thể cũng góp phần nâng cao đáng kể tính chính xác của bài toán. Trong các trường thông tin cá nhân được trích rút thì các thông tin về ngày sinh, ngày mất là dễ nhất và có độ chính xác cao nhất. Các thông tin khác như công việc, quan hệ gia đình khó trích rút hơn, phụ thuộc nhiều vào độ phức tạp của từng câu.

Không giống như các hệ thống trích rút lược sử tập trung vào phân loại câu, hệ thông trích rút thông tin cá nhân tập trung vào các thông tin cụ thể về tiểu sử cá nhân. Hệ thống trích này cung cấp những kết quả khả quan và có thể được sử dụng cho các ứng dụng khác c ng loại.

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 61 - 62)