6. Bố cục của luận văn
2.1.2. Dữ liệu của bài toán trích rút thông tin
Dữ liệu thông thƣờng của bài toán trích rút thông tin đƣợc chia thành ba dạng cơ bản bao gồm dữ liệu có cấu trúc dữ liệu không có cấu trúc và dữ liệu bán cấu trúc.
a. Dữ liệu có cấu trúc (Structured Data)
Dùng để chỉ dữ liệu lƣu trữ trong các hệ quản trị CSDL quan hệ nhƣ MS SQL server hay MySQL, trong đó các thực thể và thuộc tính đƣợc định nghĩa sẵn.
b. Dữ liệu không có cấu trúc (Unstructured Data)
Dữ liệu không cấu trúc thƣờng dùng để chỉ dữ liệu ở dạng tự do và không cần có cấu trúc định nghĩa sẵn ví dụ nhƣ ngôn ngữ tự nhiên.
c. Dữ liệu bán cấu trúc (Semistructrured Data)
Là dữ liệu có cấu trúc nhƣng không hoàn toàn tƣờng minh, nó không tuân theo những cấu trúc, cách thức cấu trúc của bảng và các mô hình dữ liệu trong CSDL, nhƣng nó chứa những thẻ, những đánh dấu tới những phần tử ngữ nghĩa riêng biệt của các bản ghi và các trƣờng riêng biệt bên trong dữ liệu. Các trang web thông thƣờng là một dạng tiêu biểu của dữ liệu bán cấu
trúc. Những thành phần có cấu trúc trong trang web đó là dữ liệu đƣợc lấy từ tầng cơ sở dữ liệu có cấu trúc bên dƣới và hiện thị trên web thông qua các thẻ HTML.
Hình 2.2 mô tả dữ liệu bán cấu trúc của một trang web đọc tin tức. Dữ liệu này chứa tên danh mục tin tức, tiêu đề của các mẩu tin tức, hình ảnh hoặc video minh họa. Các thông tin ứng với từng mẩu tin đƣợc mô tả dƣới dạng mã HTML đã định trƣớc. Dữ liệu này đƣợc lấy từ tầng cơ sở dữ liệu (có cấu trúc) bên dƣới và hiển thị trên trang web thông qua các thẻ HTML, đây chính là thành phần có cấu trúc của trang web.
Hình 2.2. Ví dụ về tính cấu trúc của trang web bán cấu trúc