Trích rút thông tin (Information Extraction – IE) đề cập đến việc tự động trích rút ra những thông tin có cấu trúc như các thực thể (Entities), các quan hệ giữa các thực thể, và các thuộc tính mô tả những thực thể này từ một nguồn dữ liệu không có cấu trúc (văn bản, trang web…). Điều này cho phép những dạng truy vấn phong phú và phức tạp hơn từ những nguồn dữ liệu khổng lồ hiện nay, thay cho các thủ tục tìm kiếm từ khóa đơn thuần hiện có.
Việc trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu có nhiễu và không cấu trúc là một công việc nhiều khó khăn và đã thu hút được sự quan tâm của nhiều cộng đồng các nhà nghiên cứu trong vòng hai thập kỉ vừa qua. B t nguồn từ cộng đồng các nhà xử lý ngôn ngữ tự nhiên, IE đã nhanh chóng được quan tâm chú ý bởi những cộng động khác nhau bao gồm học máy, truy vấn thông tin (information retrieval), cơ sở dữ liệu, web, và phân tích văn bản. Vấn đề trích rút thông tin bị ảnh hưởng lớn bởi hai hội nghị là Message Understanding Conference (MUC) và Automatic Content Extraction (ACE).
Có nhiều mức độ trích rút thông tin từ văn bản như phát hiện các thực thể (Named Entity Recognition), xác định quan hệ giữa các thực thể (Relation Extraction), xác định và theo dõi các sự kiện và các kịch bản (Event and Scenario Extraction and Tracking), phân giải đồng tham chiếu (Co-reference Resolution)… Các kĩ thuật được sử dụng trong trích rút thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm.
IE có nhiều ứng dụng rộng rãi và hữu ích. Trên thế giới IE được ứng dụng khá nhiều vào việc trích rút thông tin trên Internet. Các ứng dụng thực tế bao gồm lấy thông tin về tên của các công ty và tên người điều hành công ty, theo dõi thông tin về các dịch bệnh, theo dõi các sự kiện khủng bố… IE còn được ứng dụng vào việc chăm sóc khách hàng, đó là việc tìm kiếm và trích rút ra các thông tin của khách hàng như họ tên, địa chỉ, email, số điện thoại rồi lưu vào cơ sở dữ liệu
Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 31
(CSDL) hay phục vụ các hệ thống quản lý thông tin cá nhân. Gần đây IE đặc biệt được chú trọng trong lĩnh vực y học. Đã có khá nhiều nghiên cứu được tiến hành nhằm ứng dụng IE vào việc trích rút các thực thể trong ngành y, như tên các protein và gene…
Theo MUC thì IE có các thao tác theo mô hình như sau:
Hình 3.1: Kiến trúc của hệ thống trích rút thông tin
Nội dung chi tiết của từng module trong kiến trúc trên nằm ngoài phạm vi của luận văn. Phần dưới đây tôi tập trung trình bày chi tiết hơn về module nhận dạng thực thể, sẽ được sử dụng trong bài toán hệ gợi ý công việc.