Mô hình Search engine

Một phần của tài liệu Tìm hiểu về khai phá dữ liệu (data mining) và ứng dụng khai phá dữ liệu từ website tuyển dụng (Trang 48 - 49)

II. Ứng dụng luật kết hợp vào khai phá dữ liệu

2. Mô hình Search engine

Một Search engine bao gồm các thành phần

- Modul chính Search engine: điều khiển tất cả hoạt động của hệ thống

- Modul cập nhật thông tin Robots: chịu trách nhiệm tìm kiếm và tái hiện thông tin về các tài liệu trên internet phù hợp với yêu cầu do modul chính đƣa ra. - Phần cơ sở dữ liệu: lƣu trữ các thông tin về các tài liệu nhƣ: nội dung tài liệu,

các siêu liên kết giữa chúng, …

2.1 Search engine

Một search engine phát hiện các tài liệu mới bằng cách bắt đầu với một tập hợp các tài liệu đã biết, kiểm tra các siêu liên kết xuất hiện trong đó, duyệt theo một trong các liên kết đến tài liệu mới, sau đó lặp lại toàn bộ quá trình này. Tƣởng tƣợng web nhƣ là một đồ thị có hƣớng và việc tìm kiếm đơn giản chỉ là duyệt qua đồ thị sử dụng với một thuật toán duyệt đồ thị nào đó. Search engine

Search Engine Internet

Robots

Query Server

49 không chỉ chịu trách nhiệm quyết định xem tài liệu nào sẽ duyệt mà còn quyết định xem kiểu tài liệu nào mới đƣợc duyệt.

2.2 Agents

Để thực hiện việc thu thập tài liệu từ web, search engine gọi đến các “Agent” hay còn gọi là các Robot. Đầu vào của nó là một địa chỉ Url và nhiệm vụ là tái hiện thông tin về tài liệu tại địa chỉ đó. Kết quả trả về cho modul chính là một đối tƣợng chứ nội dung tài liệu ở địa chỉ đó hoặc một giải thích lý do tại sao tài liệu không đƣợc tái hiện. Các Agent này phải có khả năng truy cập đƣợc các kiểu nội dung khác nhau với các giao thức phổ biến nhƣ HTTP, FTP, …

Việc chờ đợi sự trả lời từ một server ở xa có thể gây tốn tài nguyên của hệ thống, các Agent thƣờng đƣợc tổ chức thành các tiến trình khác nhau và chạy song song với nhau. Modul chính làm chức năng quản lý tiến trình này, khi phát hiện ra một địa chỉ mới, nó sẽ tìm một Agent đang rỗi và giao nhiệm vụ cho Agent này. Khi thực hiện xong nó trả lại kết quả cho modul chính và thiết đặt trạng thái rỗi. Quá trình cứ tiếp tục nhƣ thế cho đến hết thời gian quy định hay khi không còn có một địa chỉ mới nào nữa.

Một phần của tài liệu Tìm hiểu về khai phá dữ liệu (data mining) và ứng dụng khai phá dữ liệu từ website tuyển dụng (Trang 48 - 49)

Tải bản đầy đủ (PDF)

(71 trang)