6.3.1. Trỡnh thu thập nội dung web
Trỡnh thu thập nội dung web thực hiện việc thu thập nội dung theo qui trỡnh sau:
Hỡnh 6-1. Qui trỡnh thu thập nội dung web
Xuất phỏt từ một URL gốc, trỡnh thu thập web sẽ tải về nội dung trang web và phõn tớch để tỡm ra cỏc siờu liờn kết trong tài liệu. Cỏc siờu liờn kết mới được tỡm thấy được đưa vào một hàng đợi. Quỏ trỡnh thu thập sẽ liờn tục duyệt qua cỏc URL trong hàng đợi và thực hiện lại quỏ trỡnh trờn cho tới khi đó duyệt qua toàn bộ cỏc siờu liờn kết trong hàng đợi.
Để trỏnh việc lặp vụ hạn do cỏc trang web cú liờn kết chộo, chỳng tụi sẽ lưu lại địa chỉ cỏc trang web đó được duyệt qua. Trong quỏ trỡnh thu thập, cỏc trang web đú sẽ khụng được duyệt lại một lần nữa.
Cỏc siờu liờn kết trong một tài liệu nhiều khi khụng dẫn đến một trang web mà chỉ liờn kết đến một địa chỉ Email, một cõu lệnh JavaScript, một vị trớ trờn trang
web hiện hành, … do vậy trỡnh thu thập web cũng phải xỏc định và loại bỏ cỏc siờu liờn kết như vậy để trỏnh việc thu thập cỏc nội dung khụng hữu ớch làm giảm hiệu năng của hệ thống.
Vỡ cỏc siờu liờn kết cú hai kiểu là đường dẫn tuyệt đối và đường dẫn tương đối, do vậy trong thành phần thu thập nội dung cần phải xõy dựng một thư viện để chuẩn húa lại cỏc siờu liờn kết, thư viện này cú nhiệm vụ biến đổi toàn bộ cỏc siờu liờn kết về dạng địa chỉ tuyệt đối để đảm bảo việc thu thập nội dung là chớnh xỏc.
Điểm đặc biệt của trỡnh thu thập nội dung mà chỳng tụi xõy dựng là khả năng búc tỏch nội dung tài liệu thành cỏc trường thụng tin. Điều này thực hiện được là do tớnh cú cấu trỳc của cỏc tài liệu html và cỏc trang web hiện nay đa phần là web động và cú cấu trỳc trỡnh bày tài liệu thống nhất. Vớ dụ cỏc phần tiờu đề, túm tắt hay nội dung của một bài viết thỡ luụn phõn biệt được với nhau bởi cỏc thẻ HTML chứa chỳng (hỡnh 6-2).
Việc búc tỏch thụng tin sẽ được thực hiện chớnh xỏc nếu người dựng cung cấp cho trỡnh thu thập nội dung đặc điểm nhận dạng cỏc trường thụng tin của tài liệu (hỡnh 6-3). Chỳng tụi sẽ sử dụng cỏc biểu thức chớnh qui và cỏc phộp toỏn xử lý chuỗi để búc tỏch cỏc nội dung này.
Hỡnh 6-3. Giao diện quản trị cỏc mẫu nhận dạng
6.3.2. Bộ tỏch từ tiếng Việt
Để cú thể phõn cụm được cỏc tài liệu, chỳng ta phải biểu diễn được cỏc tài liệu dưới dạng vector tài liệu trong khụng gian vector. Ứng dụng mà chỳng tụi xõy dựng cho phộp người dựng tỡm kiếm được thụng tin theo cỏc chủ đề nhờ ứng dụng lý thuyết tập thụ vào vấn đề phõn cụm kết quả tỡm kiếm web, vỡ vậy cần xõy dựng một bộ tỏch cỏc từ tiếng Việt để cú thể biểu diễn nội dung cỏc trang web dưới dạng vector tài liệu.
Thành phần tỏch từ xõy dựng phải cú một số chức năng cơ bản như loại bỏ cỏc thẻ HTML, loại bỏ cỏc ký tự đặc biệt, phõn tớch nội dung tài liệu thành cỏc cõu sau đú tỏch cỏc cõu thành cỏc từ để việc tỏch từ cú độ chớnh xỏc cao hơn.
Để xõy dựng thành phần này, chỳng tụi đó sử dụng cỏc thuật toỏn tỏch từ tiếng Việt đó được giới thiệu trong mục 3.7. Vỡ ứng dụng tỡm kiếm là thực hiện trực tuyến, nờn việc tỡm kiếm phải thực hiện gần như là tức thời. Do vậy việc tỏch từ ngoài yờu cầu chớnh xỏc thỡ cần cú tốc độ xử lý nhanh. Để thỏa món cỏc yờu cầu đú, chỳng tụi lựa chọn phương phỏp tỏch từ tiếng Việt dựa trờn từ điển. Việc phõn tỏch cỏc từ sẽ được thực hiện trong khoảng thời gian ngắn do chỳng tụi thực hiện việc chia nhỏ từ điển thành nhiều file dựa trờn độ dài từ cần tỏch. Cỏc từ điển cũng được load vào bộ nhớ khi thực hiện tỡm kiếm để trỏnh việc truy cập file nhiều lần làm giảm tốc độ tỡm kiếm. Ngoài ra kỹ thuật tỡm kiếm nhị phõn cũng giỳp tăng hiệu quả của quỏ trỡnh tỡm kiếm.
6.3.3. Bộ xử lý truy vấn
Như đó trỡnh bày ở phần xỏc định yờu cầu, chỳng tụi xõy dựng thành phần này để xử lý cỏc yờu cầu tỡm kiếm của người dựng.
Bộ xử lý phải xử lý được một số phộp toỏn tỡm kiếm cơ bản tương tự như cỏc bộ mỏy tỡm kiếm khỏc như tỡm kiếm theo từng từ, tỡm kiếm chớnh xỏc một cụm từ,…
6.3.4. Biểu diễn kết quả tỡm kiếm web
Tiờu chớ đầu tiờn để đỏnh giỏ chất lượng của một mỏy tỡm kiếm web chớnh là giao diện biểu diễn kết quả tỡm kiếm web và tương tỏc với người dựng.
Giao diện thực hiện việc tỡm kiếm của chỳng tụi đơn giản và dễ sử dụng, cỏc kết quả trả về cũng được tổ chức khoa học. Vỡ số lượng kết quả tỡm kiếm trả về là rất lớn cú thể nờn đến hàng trăm hoặc hàng nghỡn tài liệu, do vậy chỳng tụi sử dụng kỹ thuật phõn trang để người dựng cú thể duyệt qua lần lượt từng trang kết quả tỡm kiếm, điều này khụng những giỳp tốc độ thực hiện việc tỡm kiếm được tăng tốc đỏng kể mà cũn khiến người dựng dễ dàng hơn trong việc tiếp cận với cỏc kết quả trả về. Trong mỗi trang kết quả, chỳng tụi cũn phõn cỏc kết quả ra thành cỏc cụm
kết quả để người dựng dễ dàng xỏc định được nội dung mỡnh cần tỡm.
Chi tiết cỏc kỹ thuật ỏp dụng cho việc phõn cụm kết quả tỡm kiếm chỳng tụi đó trỡnh bày trong chương 5. Cỏc giao diện thực tế được chỳng tụi xõy dựng cú thể tham khảo thực tế tại website http://doctinnhanh.net.