2.3. Các thuật toán [7]
Nội dung các thuật toán:
Gom tất cả các địa chỉ Website có chứa cùng “cụm từ” vào trong cùng một Collection.
Truy cập vào Website có địa chỉ đã được gom nhóm trong Collection.
Đánh dấu các thông tin cần thiết trong bài viết có chứa "cụm từ" của Website. Thu gom các thông tin đã đánh dấu.
2.3.1. Thuật toán 1(Gom địa chỉ các Website có chứa cùng “cụm từ” vào trong cùng một Collection) một Collection)
Vào:Mạng
Ra:Các Collection đã lưu các địa chỉ Website có chứa chung "cụm từ" và Collection
DEM chứa các số hiệu bản ghi có "cụm từ" tìm thấy trên Website. Bước 1: Khai báo các tham số.
Declare n As Integer = Count(CumTu.dbf){Khai báo biến nguyên n để chứa số bản ghi của tệp CumTu.dbf}
DeclareM_CumTu(n,2) As String {Khai báo mảng hai chiều kiểu String} Copy CumTu.dbfToM_CumTu{Sao bảngCumTu.dbfsang mảng}
{Ma_CumTu}
Bước 2: Tìm và gom nhóm các địa chỉ Website.
Declare Collection DEMAsInteger {Tạo tập các phần tử nguyên}
For i = 1 To n {Duyệt theo thứ tự "cụm từ" trong bảng CumTu.dbf} FindM_CumTu(i,2) / Net{Tìm "cụm từ" chứa trong M_CumTu(i,2) trên mạng}
{Ví dụ: i = 1 thi M_CumTu(1,2) là “Các hợp chất của Mn“, i = 7, M_CumTu(7,2) là “Phương pháp khai triển Taylor”}
If1Found {Nếu tìm thấy cụm từ như trong M_CumTu(i,2)}
If2 !Collection DIACHI+ Str(i)
{Tạo Collection DIACHI +Str(i) nếu chưa có, để chứa các địa chỉ Website có chứa nội dung của cụm từ trong M_CumTu(i,2)} Declare Collection DIACHI+ Str(i)
End If2
{Đưa tất cả địa chỉ Website có chứa "cụm từ" trong M_CumTu(i,2) vàoCollection DIACHI+ Str(i)}
AddAllAddresses To DIACHI+ Str(i)
{Bổ sung i vào Collection DEM để ghi nhớ} Add I To DEM
End If1
Next i {EndFor}
Bước 3: Ghi lại các Collection:DIACHI+ Str(i) và DEM
Giả sử chúng ta tìm kiếm các trung tâm dạy tiếng anh với 2 cụm từ sau: “Trung tâm dạy tiếng anh” và “tiếng anh cho người đi làm” trên website google.
Đầu tiên khởi tạo sẽ có 2 cụm từ lần lượt tìm kết quả của cụm từ “Trung tâm dạy tiếng anh” trước và kết quả HTML trả về được phân tích và tổng hợp ra các liên kết như: Trung tâm tiếng anh – MsHoa TOEIC, Khóa học tiếng anh cho người đi làm…v.v các url này sẽ được tổng hợp và đưa vào hàng đợi chờ xử lý.