Bài toán trích chọn tên riêng

Một trong những bài toán quan trọng của thành phần phân tích từ vựng/cú pháp câu trong hệ trích chọn thông tin chính là việc đưa ra các đặc trưng từ vựng tương ứng với các mục loại danh từ riêng như tên địa danh, tên công ty, cụm từ chỉ thời gian,… Đây là nội dung chính của bài toán trích chọn tên riêng (NER tagging).

Tên riêng đóng một vai trò quan trọng trong hệ trích chọn. Vì thông thường, ta thường muốn trích chọn các sự kiện, các thuộc tính, các mối liên hệ giữa các thực thể xác định, mà các thực thể này thường là các loại danh từ riêng như trên. Tuy nhiên, hệ trích chọn tên riêng gặp phải một số vấn đề khó khăn. Một số trong các tên riêng đó có thể được phân loại thành nhiều nhóm, và ta khó thực hiện việc thu thập được hết các thành phần của từng nhóm. Ví dụ, có hàng trăm nghìn địa danh trên khắp thế giới, nhưng chỉ một ít trong số đó được thu thập trong quá trình thiết kế hệ thống trích chọn. Và do đó những từ trong thực tiễn mà không được thu thập trong phần thiết kế sẽ rất có thể bị nhầm lẫn với các mục khác trong từ điển của hệ thống. Đấy là một ví dụ về tên riêng không bị thay đổi theo thời gian. Còn đối với trường hợp những tên riêng thay đổi theo thời gian, chẳng hạn như tên công ty, có hàng ngàn công ty mới ra đời mỗi ngày, việc liệt kê và cập nhật các tên này là phức tạp. Đối với tên người, thứ tự họ, tên, tên đệm của từng nước được sắp xếp khác nhau. Không có một qui định, một qui tắc nào áp chế lên cách đặt tên cho các sản phẩm, chủng loại,… mới. Cùng một tên có thể được xếp vào loại khác nhau, người ta có thể dùng tên địa danh để đặt tên cho người, hoặc cho sản phẩm hoặc cho bất cứ thứ gì người ta muốn đặt tên. Vì thế việc nhầm lẫn trong việc phân loại các tên riêng là khó tránh khỏi.

Cũng giống như các hệ trích chọn thông tin khác, để xây dựng hệ trích chọn tên riêng, ta có hai phương pháp tiếp cận. Phương pháp thứ nhất là phương pháp máy tri thức dựa trên việc xây dựng hệ các luật thông qua một kĩ sư tri thức; phương pháp thứ hai là phương pháp học tự động. Có nhiều phương pháp đã được đề xuất, trong đó hệ trích chọn tên riêng dựa trên mô hình học thống kê được biết

đến nhiều nhất. Đây cũng là phương pháp chính được đề cập đến trong chương 2 của luận văn. Các phương pháp khác cũng cho kết quả khá tốt trong các hệ cụ thể.

.2 Thuật toán gán nhãn triagram HMMs

.2 Vectơ đặc trưng cục bộ và toàn cục