6. Bố cục của luận văn
2.1.1. Giới thiệu sơ lƣợc về bài toán trích rút thông tin
Trích rút thông tin (IE – Information Extraction) là một lĩnh vực của khai phá dữ liệu (Data Mining), có nhiệm vụ lấy ra những mẩu thông tin có ích với ngƣời dùng từ các nguồn ở những định dạng không đồng nhất và
chuyển thành một dạng đồng nhất. Dữ liệu sau khi trích chọn đƣợc sử dụng, trình bày trực tiếp cho ngƣời dùng, lƣu vào cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin nhƣ một dữ liệu đã qua bƣớc tiền xử lý.
Ví dụ với một báo cáo thời tiết có thể trích rút đƣợc thông tin về các vùng, thời gian, nhiệt độ cao hay thấp. Với một trang web về kinh doanh sản phẩm trực tuyến có thể trích rút đƣợc thông tin về tên sản phẩm, thuộc tính của sản phẩm và giá của sản phẩm đó.
Nói một cách đơn giản, trích rút thông tin là quá trình xử lý thông tin, đầu vào là một văn bản và đầu ra là các thông tin “có giá trị” với ngƣời dùng. Thông tin “có giá trị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa các thực thể. Dữ liệu đƣợc trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu ngƣời dùng.
Hình 2.1 minh họa quá trình trích rút thông tin từ văn bản không có cấu trúc và tổ chức lại thành dữ liệu có cấu trúc.
Bài toán nhận đầu vào là một văn bản không có cấu trúc, nhiệm vụ của trích rút thông tin là trích ra các dữ liệu liên quan tới Bill Gate gồm: Chức vụ (CEO), công ty làm việc (Microsoft Corporation, Microsoft), ngƣời thành lập (founder) và tên quỹ (Free Software Foundation)… Sau đó dữ liệu sẽ đƣợc tổ chức lại có cấu trúc và lƣu vào trong cơ sở dữ liệu. Đây là một nhiệm vụ trong hội nghị KDD năm 2003, ở đó những ngƣời (đội) tham gia phải trích chọn các thông tin từ các văn bản cho trƣớc và điền vào các trƣờng trong cơ sở dữ liệu (Filling slots in a database from sub-segments of text) [8].
Có thể phát biểu bài toán trích rút thông tin nhƣ sau:
Đầu vào của bài toán: Văn bản có cấu trúc bất kỳ.
Đầu ra của bài toán: Thông tin “có ích” đƣợc tổ chức dƣới dạng cấu trúc.
Mục tiêu chính của trích rút thông tin là tìm ra những thông tin cấu trúc từ văn bản không cấu trúc hoăc bán cấu trúc. Trích rút thông tin sẽ tìm cách chuyển thông tin trong văn bản không hay bán cấu trúc về dạng có cấu trúc và có thể biểu diễn hay thể hiện chúng một cách hình thức dƣới dạng một tập tin có cấu trúc XML hay một bảng cấu trúc nhƣ là bảng trong cơ sở dữ liệu.
Một khi dữ liệu, thông tin từ các nguồn khác nhau, từ Internet có thể biểu diễn một cách hình thức, có cấu trúc. Từ đó chúng ta có thể sử dụng các kỹ thuật phân tích, khai phá dữ liệu để khám phá ra các mẫu thông tin hữu ích. Chẳng hạn việc cấu trúc lại các mẫu tin quảng cáo, mẫu tin bán hàng trên Internet có thể giúp hỗ trợ tƣ vấn, định hƣớng ngƣời dùng khi mua sắm. Việc trích rút và cấu trúc lại các mẫu tin tìm ngƣời, tìm việc sẽ giúp cho quá trình phân tích thông tin nghề nghiệp, xu hƣớng công việc,… hỗ trợ cho các ngƣời tìm việc, cũng nhƣ nhà tuyển dụng.
Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhƣng hệ thống phải có khả năng phân tích tài liệu và tìm
kiếm các thông tin liên quan mà hệ thống mong muốn đƣợc tìm thấy. Các kỹ thuật trích rút thông tin có thể áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần rút ra những thông tin chính yếu, cần thiết cũng nhƣ các sự kiện liên quan. Các kho dữ liệu văn bản về một lĩnh vực trên Internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dƣới nhiều định dạng khác nhau. Sẽ rất hữu ích cho các khảo sát, ứng dụng liên quan đến một lĩnh vực nếu nhƣ những thông tin lĩnh vực liên quan đƣợc rút trích và tích hợp lại thành một hình thức thống nhất và biểu diễn một cách có cấu trúc. Khi đó thông tin trên Internet sẽ đƣợc chuyển vào một cơ sở dữ liệu có cấu trúc phục vụ cho các mục đích phân tích và khai thác khác nhau.