Giới thiệu về cấu trúc của máytìm kiếm

Một phần của tài liệu Connect to Internet potx (Trang 46 - 48)

Bất kì một máy tìm kiếm nào cũng có 3 thành phần chính:

Đầu tiên, đó là chơng trình thu thập các thông tin trên web và ghi vào cơ sở dữ liệu của mình. Chơng trình này thờng đợc gọi là spider (con nhện). Đầu tiên, "con nhện" này sẽ ghé thăm một trang web nào đó, sau đó lần theo những địa chỉ đợc kết nối trong trang này và đi tới các trang khác. Quá trình này diễn đi diễn lại rất nhiều lần. Thông thờng, "con nhện" sẽ ghé thăm lại các trang có trong cơ sở dữ liệu của nó sau 1 hoặc 2 tháng để cập nhật các thông tin mới.

Cơ sở dữ liệu: Tất cả các thông tin mà con nhện thu nhận đợc ở trên sẽ đợc ghi thành một cơ sở dữ liệu nào đó. Cơ sở dữ liệu này, (đôi khi còn đợc gọi là catalog) rất giống một quyển sách lớn, một quyển từ điển thực sự chứa bản sao của tất cả các trang web đợc tìm thấy. Khi các trang web có thay đổi, cơ sở dữ liệu sẽ đợc cập nhật lại. Không phải tất cả các thông tin mà con nhện tìm thấy đều sẽ đợc đa vào cơ sở dữ liệu tìm kiếm ngay lập tức, nó cần có thời gian để làm việc này. Vì thế, một trang web có thể đã đợc tìm thấy nhng cha chắc đã đợc đánh chỉ mục ngay lập tức.

Thành phần cuối cùng của máy tìm kiếm, đóng vai trò rất quan trọng trong việc vận hành các máy này đó là một phần mềm tìm kiếm. Các phần mềm tìm kiếm trên web (thờng đợc gọi là các máy tìm kiếm hay các công cụ tìm kiếm) thực chất là các trình quản lý cơ sở dữ liệu đợc phát triển qua nhiều năm và cho tới nay đợc mở rộng khả năng, cho phép ngời sử dụng truy nhập thông qua Internet hoặc là những chơng trình quản lý cơ sở dữ liệu đợc phát triển theo một hớng đặc biệt để có thể sử dụng trong môi tr- ờng Internet. Đã có một số công ty hoặc cá nhân đã tạo giao diện Web, cho phép trình duyệt Web giao tiếp với các máy tìm kiếm. Bên cạnh đó một vài tính năng mới cũng đã đợc trang bị cho các máy tìm kiếm bao gồm:

* Quản lý các cơ sở dữ liệu có cấu trúc trờng (ví dụ nh: Foxpro), quản lý các các cơ sở dữ liệu dạng văn bản (ví dụ nh: Excite)hay những cơ sở dữ liệu có cả hai dạng cấu trúc trên (ví dụ nh WAIS).

* Quản lý các cơ sở dữ liệu quan hệ (ví dụ nh Dbase) quản lý các cơ sở dữ liệu có file chỉ mục (file chứa các từ đã đợc đánh chỉ mục) nhng vẫn lu giữ file nguồn ở một th mục nào đó trong máy tính hay quản lý cơ sở dữ liệu có file chỉ mục (chứa các từ đã đợc đánh chỉ mục) nhng vẫn lu file nguồn ở trong một file dữ liệu duy nhất hỗ trợ nhiều hệ điều hành (chẳng hạn nh UNIX, Windows NT, Windows 95). * Có thể truy nhập đợc thông qua nhiều dạng giao diện, kể cả trình duyệt Web, thông qua Telnet, thông qua kết nối modem, kết nối sử dụng giao diện GUI của Windows ...

Trong bài viết này, chúng ta sẽ quan tâm nhiều hơn tới các phần mềm đợc phát triển để quản lý và thực hiện tìm kiếm trên cơ sở dữ liệu gồm cả hai dạng: cấu trúc trờng và các đoạn văn bản.

Đánh chỉ mục

Trớc khi đợc đa vào để thực hiện công việc tìm kiếm, các cơ sở dữ liệu của chơng trình nhất thiết phải đợc đánh chỉ mục. Đánh chỉ mục là quá trình thực hiện công việc tìm kiếm trên tất cả các tài liệu đợc đa vào tìm kiếm và tạo ra một file chứa các cụm từ đợc tìm thấy trong những tài liệu đó. Tất nhiên là chỉ mục đợc đa ra cũng bao gồm một con trỏ để trỏ tới tài liệu gốc hoặc vị trí của tài liệu gốc trong file cơ sở dữ liệu. Điều này cho phép ngời sử dụng thực hiện việc tìm kiếm một trên một cụm thông tin và nhận lại danh sách các tài liệu có chứa cụm từ này. Các máy tìm kiếm trên Internet thờng phải chứa một lợng thông tin khổng lồ cần phải tìm kiếm, vì vậy chúng có thể có hoặc không có những chức năng sau: * Thực hiện đánh chỉ mục tất cả các file và th mục

* Tự động đánh chỉ mục tất cả các th mục con bên trong th mục cần đánh chỉ mục * Cho phép đánh chỉ mục với chỉ một số file có phần mở rộng xác định nào đó * Ghi nhận từ báo hiệu kết thúc

* Thêm chỉ mục (khi có một file mới đợc thêm vào danh sách các tài liệu cần đợc tìm kiếm, hệ thống không phải tạo lại tệp chỉ mục)

* Đánh chỉ mục động (tài liệu có thể đợc đánh chỉ mục trong khi ngời sử dụng vẫn đang thực hiện tìm kiếm thông tin trên tài liệu này)

* Tự động thực hiện đánh chỉ mục khi không có ngời sử dụng

* Thực hiện đánh chỉ mục xuyên qua các máy chủ hoặc xuyên qua các mạng * Kết hợp các file chỉ mục lại với nhau

* Đánh chỉ mục cả một số tài liệu đợc lu trữ dới các dạng khác nhau: HTML, ASCII, PDF, DOC ... * Đánh chỉ mục các thẻ HTML: meta, head, body, title, hay các thẻ ghi chú.

Tìm kiếm

Sau khi các khi các cơ sở dữ liệu đã đợc đánh chỉ mục, ngời lập trình sẽ tạo ra một mẫu (form) hoặc một script nào đó để cho phép ngời sử dụng có thể thực hiện nhập dữ liệu để tìm kiếm. Khả năng tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm sẽ rất khác nhau, ngay cả khi ngời lập trình cũng sử dụng cùng một cấu hình máy. Sự khác nhau này thờng phụ thuộc vào việc cơ sở dữ liệu đợc đánh chỉ mục nh thế nào và giao diện đợc thiết kế nh thế nào. Trong một số trờng hợp, những máy tìm kiếm chỉ thực hiện việc đánh chỉ mục hệ thống các cơ sở dữ liệu của họ, còn việc cài đặt giao diện hoặc viết các thủ tục tìm kiếm sẽ do một công ty thứ ba hoặc do một ai đó sẽ tạo ra. Tuy nhiên, mặc dù cùng một hệ thống cơ sở dữ liệu, tuy nhiên khả năng thực hiện tìm kiếm của các chơng trình cũng khác nhau khá xa. Điều này phụ thuộc vào những gì mà ngời lập trình cài đặt thêm vào bên trong đoạn mã tìm kiếm của họ. Tuỳ từng trờng hợp mà lập trình viên có thể thiết kế để cài đặt hoặc không cài đặt những chức năng sau: * Sử dụng ngôn ngữ tự nhiên. Khả năng này cho phép ngời sử dụng nhập vào một câu hỏi hay một cụm từ mô tả một cách tốt nhất chủ đề mà họ đang cần tìm.

* Chấp nhận các toán tử logic (AND, OR, NOT). Các toán tử này cho phép ngời sử dụng tìm địa chỉ các tài liệu có chứa tất cả các cụm từ (AND) hoặc các tài liệu có chứa một trong các cụm từ đợc nhập vào (OR) hoặc khi tài liệu chứa một cụm từ này nhng không chứa bất kì cụm từ nào khác trong các cụm từ đã đợc nhập vào.

* Chấp nhận các toán tử xấp xỉ: chức năng này sẽ cho phép những ngời sử dụng thực hiện tìm kiếm một cụm từ trong các cụm từ gồm rất nhiều ký tự. (Điều này tơng tự nh khi bạn sử dụng các dấu "?" và dấu "*" trong khi tìm kiếm file). Với cách này, ngời sử dụng có thể tìm đợc những từ mà họ không biết chính xác cách viết của nó. Dấu "?" đợc dùng để thế chỗ một kí tự còn dấu "*" đợc dùng để thế chỗ cho một chuỗi ký tự. Chẳng hạn nh (phép tìm kiếm với chuỗi "Anders?n" có nghĩa là thực hiện tìm chuỗi "Anderson" hay "Andersen"... Tìm kiếm với cụm "dark*" có thể nhận về kết quả có chứa darker, darkness, darkest...)

* Tìm kiếm cụm từ: cho phép ngời sử dụng tìm chính xác cụm từ.

* Tìm kiếm các từ gần nghĩa: sử dụng một toán tử để thaythế cụm cần tìm bằng các cụm từ gần nghĩa hoặc cung cấp cho ngời sử dụng một bảng các cụm từ gần nghĩa, hay các cụm từ cùng chủ đề.

* Tìm chính xác cụm từ: cho phép ngới sử dụng tìm kiếm nguyên văn cụm từ giống hệt cụm đợc nhập vào (chữ hoa và chữ thờng đợc coi là khác nhau).

* Tìm kiếm mờ: trả về các từ có cách phát âm gần giống với cụm từ đợc nhập vào.

* Chấp nhận các toán tử chỉ khoảng cần tìm: cho phép trả về danh sách các giá trị tìm đợc trong khoảng.

* Tìm kiếm theo trờng: cho phép ngời sử dụng chỉ thực hiện tìm kiếm trên một trờng hay một số trờng nhất định nào đó của cơ sở dữ liệu.

* Tìm kiếm tơng tự: cho phép ngời sử dụng tìm những tài liệu tơng tự nh tài liệu đã đợc tìm thấy. Ngoài ra, các máy tìm kiếm thờng cho phép ngời sử dụng dùng thêm những chức năng sau: * Lựa chọn để thực hiện tìm kiếm trên một hoặc nhiều cơ sở dữ liệu khác

* ấn định số kết quả tối đa đợc trả về.

* Lựa chọn giữa dạng tìm kiếm thông thờng hay dạng tìm kiếm với những chức năng nâng cao (advance)

Hiển thị kết quả

Sau khi cơ sở dữ liệu đã đợc tìm kiếm, kết quả phải đợc trả về trong một dạng nào đó. Khuôn dạng này có thể chứa một số thông tin sơ bộ mô tả về từng địa chỉ đợc tìm thấy để ngời sử dụng quyết định nên xem địa chỉ nào. Dựa trên cơ sở việc đánh địa chỉ và tìm kiếm đợc thực hiện nh thế nào mà kết quả tìm kiếm đợc trả về có thể khác nhau, chúng có thể có hoặc không cung cấp thêm những thông tin sau: * Tiêu đề của tài liệu đợc tìm thấy

* Tác giả của tài liệu này

* Một số mô tả sơ bộ về nội dung tài liệu * Kích thớc tài liệu

* Độ chính xác so với cụm từ đợc ngời sử dụng nhập vào * Số tài liệu thoả mãn yêu cầu đợc tìm thấy

* Cụm từ và các toán tử đã đợc sử dụng để tìm kiếm * Ngày tháng dữ liệu đợc tạo hay đợc đánh địa chỉ

* Cụm từ tìm kiếm đợc có thể đợc đánh dấu đặc biệt để làm nổi bật lên trong văn bản

Một phần của tài liệu Connect to Internet potx (Trang 46 - 48)

Tải bản đầy đủ (DOC)

(63 trang)
w