5.1 Tổng kết nội dung
Trọng tâm của bài viết này tập trung vào việc trình bày hai mô hình xây dựng wrapper là Adversarial và xác xuất (Probabilistic). Thông qua việc thử nghiệm và đánh giá trên những website thực tế thì 1 cho thấy là hai mô hình trên hoạt động rất hiệu quả đối với những website có sự thay đổi. Kết quả ngăn chặn việc bất khả dụng của wrapper trên những phiên bản mới của trang web lên đến 500% so với những kỹ thuật hiện nay. Đồng thời cung cấp những ước tính về độ tin cậy gần với mức hoàn thiện. Cả hai mô hình trên có khả năng khả dụng rất sát với nhau. Tuy nhiên wrapper xác xuất Probabilistic hiệu quả hơn trong việc cung cấp thông tin dự đoán về tính bất khả dụng của nó.
5.2 Hướng mở rộng
Hướng rút trích thông tin bằng wrapper đã được nghiên cứu hơn thập niên qua, tuy nhiên hầu hết wrapper thiên về tống quát hóa hoặc đáp ứng và sửa cho đúng. Kỹ thuật mà các wrapper này sử dụng để tự sửa là học mô hình nội dung của trang web, và sử dụng nó để phát hiện vị trí mới của nút đích. Nhiều trường hợp nó không có thể làm thế do thiếu dữ liệu huấn luyện. Tuy nhiên hai mô hình chính trong bài viết là Adversarial và Probabilistic chủ yếu dựa vào cấu trúc, và có thể cải tiến bằng cách kết hợp với chức năng tự sửa bằng mô hình nội dung.
Do trong thời gian có hạn để thực hiện tìm hiểu nghiên cứu chủ đề này nên chắc chắn bài viết sẽ có thiếu sót mong nhận được sự góp ý của thầy để giúp tôi có thể phát triển khả năng nghiên cứu trong tương lai.
Seminar Công nghệ tri thức