Hình 2-6. Sơ đồ các trạng thái của Bot

Một phần của tài liệu Ứng dụng Xây dựng hỗ trợ nhập liệu Tìm hiểu khai thác dữ liệu từ web (Trang 42 - 44)

Ready: đây là trạng thái sẵn sàng của Bot. Từ trạng thái này người sử dụng chỉ

cĩ thể cĩ một lựa chọn ra lệnh đĩ là Start (khởi động chạy). Trạng thái Ready cĩ thể đạt được bằng một trong những cách sau:

- Sau khi người sử dụng submit input XML, bot manager parse, xử lý input này thành các setting và lưu vào database, lúc này bot sẵn sàng cho lần chạy đầu tiên.

- Bot đang chạy và người sử dụng ra lệnh dừng (Stop), lúc này bot trở về trạng thái sẵn sàng cho lần chạy lại tiếp theo.

- Bot đang được tạm dừng (Paused) và người sử dụng quyết định hủy sự thực thi của bot (Cancel).

- Quá trình chạy của Bot gặp lỗi và người sử dụng quyết định ngừng khơng chạy tiếp bằng lệnh Cancel.

Started: đây là trạng thái đang thực thi của Bot. Từ trạng thái này, người sử

dụng cĩ thể quay trở lại trạng thái Ready nếu sử dụng lệnh Stop, hoặc chuyển đến trạng thái Paused nếu sử dụng lệnh tạm dừng Pause. Nếu cĩ lỗi xảy ra trong quá trình thực thi, Bot sẽ tự động chuyển đến trạng thái Error. Trạng thái Started cĩ thể đạt được thơng qua các cách sau:

- Người sử dụng ra lệnh start khi Bot đang ở Ready

- Bot đang bị tạm dừng (Paused) và người sử dụng quyết định chọn Resume

để Bot tiếp tục quá trình thực thi.

- Bot đang ở trạng thái bị lỗi (Error) và người sử dụng quyết định chon

Resume để Bot tiếp tục quá trình thực thi.

Paused: đây là trạng thái tạm dừng của Bot. Từ trạng thái này nếu người sử

dụng hủy quá trình thực thi bằng Cancel thì Bot trở về trạng thái Ready, sẵn sàng cho một lần chạy lại khác; nếu người sử dụng cho Bot quay lại thực thi tiếp bằng Resume thì trạng thái của Bot sẽ trở lại Started. Để đến được trạng thái Paused này chỉ cĩ một trường hợp đĩ là người sử dụng ra lệnh tạm dừng Bot bằng lệnh Pause.

Error: trạng thái lỗi của Bot. Trong quá trình chạy nếu Bot gặp một lỗi (nặng)

thì Bot sẽ tự động chuyển đến trạng thái Error. Trạng thái này cho người sử dụng hai lựa chọn đĩ là Resume – quay trở lại và tiếp tục quá trình thực thi và

Cancel – ngừng luơn quá trình thực thi, trở về trạng thái Ready.

1.6.2.2 Thành phần back-end

Back-end là thành phần cốt lõi của DESS, thực hiện các chức năng chính của ứng dụng đĩ là crawl các trang web và trích xuất dữ liệu từ chúng. Đối tượng giúp back- end thực hiện các tác vụ này và cũng là đối tượng quan trọng nhất trong back-end, đĩ

là Robot. Cĩ thể hiểu Robot như một đối tượng điều khiển, phối hợp hai đối tượng khác là Crawler và Extractor, đây là hai thực thể cĩ chức năng tách bạch và cùng được Robot sử dụng để hồn thành cơng việc trích xuất dữ liệu tự động. Để cĩ thể vận hành được, Robot cũng cần đến các đối tượng trợ giúp, được gọi là các Helper. Các helper cĩ thể hiểu là những đối tượng Wrapper của các thư viện quan trọng, hoặc là những đối tượng cĩ các hàm trợ giúp như giúp đọc dữ liệu đầu vào XML. Ngồi ra Crawler và Extractor cũng cần đến một số thư viện ngồi để đem lại một số khả năng hữu ích cho ứng dụng. Chi tiết về các thành phần này sẽ được đề cập sâu hơn ở các phần sau.

Một phần của tài liệu Ứng dụng Xây dựng hỗ trợ nhập liệu Tìm hiểu khai thác dữ liệu từ web (Trang 42 - 44)