KẾT LUẬN 5.1 Tổng kết nội dung

Một phần của tài liệu LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE (Trang 28)

5.1 Tổng kết nội dung

Trọng tâm của bài viết này tập trung vào việc trình bày hai mô hình xây dựng wrapperAdversarial và xác xuất (Probabilistic). Thông qua việc thử nghiệm và đánh giá trên những website thực tế thì 1 cho thấy là hai mô hình trên hoạt động rất hiệu quả đối với những website có sự thay đổi. Kết quả ngăn chặn việc bất khả dụng của wrapper trên những phiên bản mới của trang web lên đến 500% so với những kỹ thuật hiện nay. Đồng thời cung cấp những ước tính về độ tin cậy gần với mức hoàn thiện. Cả hai mô hình trên có khả năng khả dụng rất sát với nhau. Tuy nhiên wrapper xác xuất Probabilistic hiệu quả hơn trong việc cung cấp thông tin dự đoán về tính bất khả dụng của nó.

5.2 Hướng mở rộng

Hướng rút trích thông tin bằng wrapper đã được nghiên cứu hơn thập niên qua, tuy nhiên hầu hết wrapper thiên về tống quát hóa hoặc đáp ứng và sửa cho đúng. Kỹ thuật mà các wrapper này sử dụng để tự sửa là học mô hình nội dung của trang web, và sử dụng nó để phát hiện vị trí mới của nút đích. Nhiều trường hợp nó không có thể làm thế do thiếu dữ liệu huấn luyện. Tuy nhiên hai mô hình chính trong bài viết là AdversarialProbabilistic chủ yếu dựa vào cấu trúc, và có thể cải tiến bằng cách kết hợp với chức năng tự sửa bằng mô hình nội dung.

Do trong thời gian có hạn để thực hiện tìm hiểu nghiên cứu chủ đề này nên chắc chắn bài viết sẽ có thiếu sót mong nhận được sự góp ý của thầy để giúp tôi có thể phát triển khả năng nghiên cứu trong tương lai.

Seminar Công nghệ tri thức

Một phần của tài liệu LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE (Trang 28)

Tải bản đầy đủ (DOCX)

(31 trang)
w