6. Bố cục của luận văn
2.1.4. Phân loại các hệ thống trích rút thông tin
Theo những chuyên gia về trích rút thông tin của GATE [14] thì những hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng đƣợc định nghĩa trƣớc, chẳng hạn nhƣ những sự kiện, các thực thể và các mối quan hệ. Ngày nay, có rất nhiều hệ thống trích rút thông tin từ web đƣợc các nhà phát triển nghiên cứu và xây dựng. Có nhiều tiêu chí để phân loại một hệ thống trích chọn thông tin từ web nhƣ dựa vào mức độ can thiệp của con ngƣời, dựa vào tầng dữ liệu đƣợc rút trích, dựa vào các phƣơng pháp trích rút thông tin.
a. Dựa vào mức độ can thiệp của con người
Dựa vào mức độ can thiệp của con ngƣời trong quá trình trích rút thông tin, các hệ thống rút trích thông tin có thể đƣợc chia ra làm bốn loại bao gồm thủ công, có giám sát, bán giám sát, không giám sát. Trong đó, các hệ thống hoàn toàn tự động, không có sự can thiệp của con ngƣời đang đƣợc quan tâm nhiều nhất.
b. Dựa vào tầng dữ liệu được rút trích
Một trang web sẽ có nhiều trang HTML, một trang HTML sẽ có nhiều bản ghi (record) và một bản ghi sẽ có nhiều thuộc tính. Do đó, dựa vào kết quả thông tin rút trích đƣợc ở tầng nào, các hệ thống rút trích đƣợc chia ra làm bốn loại bao gồm tầng thuộc tính (attribute), tầng bản ghi (record), tầng trang HTML (page), tầng trang web (site).
Hiện tại các hệ thống xử lý ở tầng thuộc tính và record chiếm đa số. Đến nay, vẫn chƣa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site.
c. Dựa vào các phương pháp rút trích thông tin
Các hệ thống rút trích thông tin cũng đƣợc chia thành ba dạng:
Các hệ thống dựa trên các phương pháp thủ công: Sử dụng các phƣơng pháp gán nhãn, các cách lấy thông tin trực tiếp từ cơ sở dữ liệu hoặc từ các dịch vụ web (Web Service).
Các hệ thống dựa trên các phương pháp Heuristic: Các phƣơng pháp thống kê, tập luật, sử dụng các mẫu thông tin, dựa vào cấu trúc cây,… đƣợc sử dụng để rút trích thông tin.
Các hệ thống dựa trên các phương pháp học: Sử dụng các phƣơng pháp mô hình Markov, CRFs, ngữ nghĩa, học trên cấu trúc cây,… để giúp cho các hệ thống hiểu và rút trích thông tin chính xác hơn.