Các nghiên cứu liên quan đến bài toán đặt ra

Một phần của tài liệu nghiên cứu mẫu thiết kế hướng đối tượng áp dụng xây dựng ứng dụng hỗ trợ rút trích thông tin từ web (Trang 27 - 29)

Khi tiến hành rút trích thông tin từ các trang web Nn, các nhà phát triển đã nghiên cứu và áp dụng rất nhiều công cụ như Minerva , TSIMMIS, and Web-OQL (phương pháp thủ công) ,WIEN ,Soft Mealy và Stalker (Phương pháp bán tự động) Depta (tự động)…Trong phần này chúng tôi trình bày 2 công cụ HiWE dùng để thu thập các trang web Nn với nội dung động và ViDE dùng để rút trích kết quả trả về với giao diện trực quan.

ViDE (Vision-based Data Extractor) [24]

Đây là công cụ rút trích dữ liệu có cấu trúc từ kết quả trả về của những trang web sâu một cách trực quan. ViDE bao gồm 2 thành phần Vision-based Data Record extractor (ViDE) and Vision-based Data Item extractor (ViDIE). (Hiện tại Vide chưa tích hợp công cụ WISE). Bằng cách sử dụng giao diện trực quan , ViDE hạn chế được sự phức tạp khi phân tích mã nguồn trang web

Cách thực hiện của ViDe gồm các bước cơ bản sau: Đầu tiên công cụ nhận 1 trang web từ cơ sở dữ liệu web, phân tích và chuyển sang dạng khối Visual Block tree. Sau đó ViDE rút trích dòng dữ liệu từ khối Visual Block tree (hình 3-2 bên trái), vì thứ tự của các mục dữ liệu là cố định nên có thể xem mỗi dòng dữ liệu gồm nhiều mục dữ liệu. Do đó, có thể tận dụng đặc điểm này để canh lề các mục dữ liệu (hình 3-2a, 3-2b, 3-2c, 3-2d bên phải). Cuối cùng rút trích thông tin đó về cơ sở dữ liệu.

HiWE (Hidden Web Exposer) [20]: là một công cụ dùng để thu thập web kể cả các trang web Nn. Công cụ này bao gồm các thành phần của một công cụ thu thập web và có bổ sung chức năng tự động xử lý, phân tích và gửi truy vấn đến form (Hình 3-3 mô tả việc xây dựng bộ tập nhãn và giá trị từ hộp chọn lựa, textbox và radio). Tuy nhiên công cụ này cũng cần có sự tham gia của chuyên gia, bằng cách cung cấp danh sách các thuộc tính như Company name để công cụ tự động điền các thông tin và tiến hành thu thập kết quả trả về.

Chương 4 Mẫu thiết kế xây dựng ứng dụng hỗ trợ rút trích thông tin từ web

Chương 4 trình bày về ứng dụng hỗ trợ rút trích thông tin từ các trang web Nn theo các chủ đề riêng biệt và kiến trúc hệ thống. Chương này cũng trình bày các khái niệm và lý do lựa chọn các mẫu thiết kế được áp dụng vào hệ thống.

Một phần của tài liệu nghiên cứu mẫu thiết kế hướng đối tượng áp dụng xây dựng ứng dụng hỗ trợ rút trích thông tin từ web (Trang 27 - 29)