2.3.1. Ý tưởng gợi mở
Xây dựng một hệ điều hành web để quản lý và khai thác tốt hơn tài nguyên thông tin trên mạng internet. Hệ điều hành này lấy các portal làm đối tượng trung tâm mà trong đó mỗi portal hướng đến một lĩnh vực, một đối tượng sử dụng thông tin khác nhau, các portal cấp cao lại được phân thành các portal cấp thấp hơn. Đặc biệt, trên hệ điều hành có một loại portal tiện ích gọi là SaaS (Software as a Service – phần mềm cho thuê dưới dạng dịch vụ). SaaS là các phần mềm quản lý được triển khai trực tiếp trên mạng internet.
Để giảm bớt việc nhập dữ liệu cho các portal, chúng tôi đã xây dựng thành công một con robot Crawler. Con robot này tự động tổng hợp tài nguyên trên mạng internet và chuyển vào các portal tương ứng trong hệ thống. Đối với các dữ liệu có bản quyền robot Crawler chỉ lấy một phần dữ liệu và ghi lại nguồn của dữ liệu lấy từ đâu.
2.3.2. Mô hình
Nhân hệ thống
Hệ thống thông tin doanh nghiệp
SaaS Framework Hệ thu thập dữ liệu Người dùng Các website khác Thư viện lập trình ứng dụng SaaS Hệ thống file Portals Database Máy chủ CSDL NTFS Hệ điều hành web Portals Hình 11: Sơ đồ tổng quan hệ thống
Web Operating System là một thuật ngữ mới mô tả các dịch vụ mạng cho các tính toán phân tán trên mạng internet như dự án WebOS tại đại học Berkeley và dự án WOS. Để mô hình hóa hệ thống dưới dạng một ―hệ điều hành‖ chúng tôi đưa ra một số thành phần cần thiết của một hệ điều hành mặc dù thể hiện của nó trong hệ thống rất đơn giản nhưng mở đường cho các cải tiến trong tương lai. Đó là hệ quản trị cơ sở dữ liệu, hệ thống file, thư viện lập trình cho các phần mềm nhúng vào hệ thống, máy ảo, … Hệ thu thập dữ liệu (crawler) là một phần mềm cung cấp dữ liệu thu thập được tử các website khác nhau cho hệ thống (bên cạnh dữ liệu do người nhập). Các portals có thể đăng ký nguồn dữ liệu.
Mỗi portal có thể đăng ký các dịch vụ phần mềm SaaS. Người dùng sử dụng các dịch vụ này thông qua cổng thông tin.
jebsenCo.bis.vn
BIS
Izquevo.bis.vn
Bacninh.bis.vn Hcm.bis.vn Hanoi.bis.vn
izaBacninh.bis.vn Langnghebacninh.bis.vn Thuanthanh.bis.vn
Iztiendu.bis.vn
FuningprecisionCo.bis.vn
Caugiay.bis.vn Hoankiem.bis.vn
TcvCo.bis.vn
Dongky.bis.vn Dongho.bis.vn fastestCo.bis.vn
Một portal có thể có nhiều cha
Job.bis.vn Travel.bis.vn raovat.bis.vn
Hình 12: Mô hình portal đa cổng phân cấp BIS
o Mỗi cổng thông tin có thể có một subdomain riêng có dạng name.bis.vn o Mỗi cổng thông tin có thể hoạt động như một website độc lập, do có giao
diện và bố cục khác nhau. Thu thập dữ liệu tự động. Dantri.com.vn Tuyendung.com Crawler Vietnamworks.com Vnexpress.net 3 3 4 4 Fastest.com.vn Chanthienmy.com.vn 2 1
Job.bis.vn chanthienmy.bis.vn fastest.bis.vn Bacninh.bis.vn Bacninhiza.bis.vn 3
2 1
4 4
Hình 13: Mô hình thu thập dữ liệu tự động o Hiện tại đã có nhiều website sử dụng kỹ thuật crawler như:
Jseeker.co.au: Tìm kiếm việc làm.
Baamboo.com và mp3.zing.com: Tìm kiếm nhạc, phim.
Froogle.com: Tìm kiếm sản phẩm.
…
o BIS có một hệ thống crawler tổng hợp, có nhiều kênh khác nhau về:
Tin tức: Thu thập từ các báo điện tử.
Website doanh nghiệp: Để đồng bộ hóa tự động giữa website chính thức của doanh nghiệp với website doanh nghiệp trên bis.vn.
Các thông tin tuyển dụng, rao vặt, … Ví dụ thu thập dữ liệu từ chodientu.vn, muavaban.com, … tổng hợp trong raovat.bis.vn.