Qui trỡnh thu thập nội dung web

Xuất phỏt từ một URL gốc, trỡnh thu thập web sẽ tải về nội dung trang web và phõn tớch để tỡm ra cỏc siờu liờn kết trong tài liệu. Cỏc siờu liờn kết mới được tỡm thấy được đưa vào một hàng đợi. Quỏ trỡnh thu thập sẽ liờn tục duyệt qua cỏc URL trong hàng đợi và thực hiện lại quỏ trỡnh trờn cho tới khi đó duyệt qua toàn bộ cỏc siờu liờn kết trong hàng đợi.

Để trỏnh việc lặp vụ hạn do cỏc trang web cú liờn kết chộo, chỳng tụi sẽ lưu lại địa chỉ cỏc trang web đó được duyệt qua. Trong quỏ trỡnh thu thập, cỏc trang web đú sẽ khụng được duyệt lại một lần nữa.

Cỏc siờu liờn kết trong một tài liệu nhiều khi khụng dẫn đến một trang web mà chỉ liờn kết đến một địa chỉ Email, một cõu lệnh JavaScript, một vị trớ trờn trang

web hiện hành, … do vậy trỡnh thu thập web cũng phải xỏc định và loại bỏ cỏc siờu liờn kết như vậy để trỏnh việc thu thập cỏc nội dung khụng hữu ớch làm giảm hiệu năng của hệ thống.

Vỡ cỏc siờu liờn kết cú hai kiểu là đường dẫn tuyệt đối và đường dẫn tương đối, do vậy trong thành phần thu thập nội dung cần phải xõy dựng một thư viện để chuẩn húa lại cỏc siờu liờn kết, thư viện này cú nhiệm vụ biến đổi toàn bộ cỏc siờu liờn kết về dạng địa chỉ tuyệt đối để đảm bảo việc thu thập nội dung là chớnh xỏc.

Điểm đặc biệt của trỡnh thu thập nội dung mà chỳng tụi xõy dựng là khả năng búc tỏch nội dung tài liệu thành cỏc trường thụng tin. Điều này thực hiện được là do tớnh cú cấu trỳc của cỏc tài liệu html và cỏc trang web hiện nay đa phần là web động và cú cấu trỳc trỡnh bày tài liệu thống nhất. Vớ dụ cỏc phần tiờu đề, túm tắt hay nội dung của một bài viết thỡ luụn phõn biệt được với nhau bởi cỏc thẻ HTML chứa chỳng (hỡnh 6-2).

Việc búc tỏch thụng tin sẽ được thực hiện chớnh xỏc nếu người dựng cung cấp cho trỡnh thu thập nội dung đặc điểm nhận dạng cỏc trường thụng tin của tài liệu (hỡnh 6-3). Chỳng tụi sẽ sử dụng cỏc biểu thức chớnh qui và cỏc phộp toỏn xử lý chuỗi để búc tỏch cỏc nội dung này.

.Thuật toỏn phõn cụm bỏn giỏm sỏt Seeded-KMeans

.Gỏn cứng và gỏn mềm