Bài toán trích chọn tên riêng

Một phần của tài liệu Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê (Trang 26)

Một trong những bài toán quan trọng của thành phần phân tích từ vựng/cú pháp câu trong hệ trích chọn thông tin chính là việc đưa ra các đặc trưng từ vựng tương ứng với các mục loại danh từ riêng như tên địa danh, tên công ty, cụm từ chỉ thời gian,… Đây là nội dung chính của bài toán trích chọn tên riêng (NER tagging).

Tên riêng đóng một vai trò quan trọng trong hệ trích chọn. Vì thông thường, ta thường muốn trích chọn các sự kiện, các thuộc tính, các mối liên hệ giữa các thực thể xác định, mà các thực thể này thường là các loại danh từ riêng như trên. Tuy nhiên, hệ trích chọn tên riêng gặp phải một số vấn đề khó khăn. Một số trong các tên riêng đó có thể được phân loại thành nhiều nhóm, và ta khó thực hiện việc thu thập được hết các thành phần của từng nhóm. Ví dụ, có hàng trăm nghìn địa danh trên khắp thế giới, nhưng chỉ một ít trong số đó được thu thập trong quá trình thiết kế hệ thống trích chọn. Và do đó những từ trong thực tiễn mà không được thu thập trong phần thiết kế sẽ rất có thể bị nhầm lẫn với các mục khác trong từ điển của hệ thống. Đấy là một ví dụ về tên riêng không bị thay đổi theo thời gian. Còn đối với trường hợp những tên riêng thay đổi theo thời gian, chẳng hạn như tên công ty, có hàng ngàn công ty mới ra đời mỗi ngày, việc liệt kê và cập nhật các tên này là phức tạp. Đối với tên người, thứ tự họ, tên, tên đệm của từng nước được sắp xếp khác nhau. Không có một qui định, một qui tắc nào áp chế lên cách đặt tên cho các sản phẩm, chủng loại,… mới. Cùng một tên có thể được xếp vào loại khác nhau, người ta có thể dùng tên địa danh để đặt tên cho người, hoặc cho sản phẩm hoặc cho bất cứ thứ gì người ta muốn đặt tên. Vì thế việc nhầm lẫn trong việc phân loại các tên riêng là khó tránh khỏi.

Cũng giống như các hệ trích chọn thông tin khác, để xây dựng hệ trích chọn tên riêng, ta có hai phương pháp tiếp cận. Phương pháp thứ nhất là phương pháp máy tri thức dựa trên việc xây dựng hệ các luật thông qua một kĩ sư tri thức; phương pháp thứ hai là phương pháp học tự động. Có nhiều phương pháp đã được đề xuất, trong đó hệ trích chọn tên riêng dựa trên mô hình học thống kê được biết

đến nhiều nhất. Đây cũng là phương pháp chính được đề cập đến trong chương 2 của luận văn. Các phương pháp khác cũng cho kết quả khá tốt trong các hệ cụ thể.

Một phần của tài liệu Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê (Trang 26)