Phõn loại mỏy truy tỡm - Xây dựng máy tìm kiếm ảnh- 123docz.net

Ngày nay, thỡ cỏc mỏy truy tỡm đó phỏt triển rất xa so với dạng nguyờn thuỷ. Cú hai cỏch chớnh phõn loại mỏy truy tỡm.

3.3.1. Theo phương thức hoạt động

Kiểu mỏy nhện (spider): Cơ sở dữ liệu của cỏc mỏy truy tỡm được cập nhật hoỏ bởi cỏc phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Cỏc phần mềm này sẽ tự động dũ tỡm và phõn tớch từ những trang cú sẵn trong cơ sở dữ liệu để kiếm ra cỏc liờn kết (link) từ cỏc trang và trở lại bổ sung dữ liệu cho chớnh nú sau khi phõn tớch. Phần mềm này cũng sẽ bỏo

cỏo về cỏc liờn kết đó bị đào thải. Từ khoỏ được bỏ vào là để cho mỏy truy tỡm lục kiếm trong bảng chỉ số của nú. Kết quả tốt nhất sau khi phõn hạng sẽ được xếp ở thứ tự đầu tiờn. Trang thụng dụng nhất dựng nguyờn tắc này là http://www.google.com

Giao diện của mỏy metacrawler

Kiểu mỏy truy tỡm ảo (meta-search engine): Ngày nay, người ta cú thể lợi dụng cỏc mỏy truy tỡm sẵn cú để thiết kế thành một loại mỏy truy tỡm mới gọi là mỏy truy tỡm ảo. Nguyờn tắc của loại mỏy truy tỡm này khỏ đơn giản. Nú khụng cú cơ sở dữ liệu. Khi hoạt động thỡ nú sẽ gởi từ khoỏ đến cỏc mỏy truy tỡm khỏc một cỏch đồng loạt và nhận về tất cả cỏc kết quả tỡm được. Nhiệm vụ tiếp theo chỉ là phõn tớch và phõn hạng lại cỏc tài liệu tỡm được cho thõn chủ. Ưu điểm của loại mỏy truy tỡm này là lợi dụng cơ sở dữ liệu của cỏc mỏy truy tỡm khỏc để tỡm ra nhiều kết quả hơn và nhanh hơn. Nhưng vỡ loại này chỉ tồn tại nếu cú cỏc mỏy truy tỡm nguyờn thuỷ nờn gọi là meta- (tiền tố meta cú nghĩa là "siờu hỡnh" hay "ảo"). Điển hỡnh loại này là MetaCrawler.

Kiểu thư mục đối tượng (subject directory): Cũn gọi là mỏy truy tỡm theo phõn lớp (hierarchical search engine) - mỏy truy tỡm này phõn lớp sẵn cỏc đối tượng vào cỏc thư mục và người dựng sẽ lựa theo kiểu rẽ nhỏnh từ từ cho đến khi tỡm ra cỏc trang Web mà mỡnh muốn. Kiểu này dễ cho người truy cập nhưng cú điểm yếu là nú khụng thể bao gồm hết mọi chủ đề mà họ muốn kiếm

ra. Hơn nữa, sự phõn loại đụi khi khụng được đầy đủ và chớnh xỏc. Điển hỡnh của loại này là http://www.yahoo.com

Kiểu cơ sở dữ liệu đặc biệt hay cũn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra khụng thực sự cú từ địa chỉ trang Web cụ thể qua cỏc mỏy truy tỡm dữ liệu này tồn tại trong cỏc cơ sở dữ liệu của một mỏy tớnh hay mạng ở đõu đú trờn Internet mà cỏc trang Web được phộp sử dụng. Đặc biệt, cỏc trang Web nghiờn cứu của cỏc đại học hay học viện như http://lii.org, http://www.academicinfo.net và http://infomine.ucr.edu thuộc kiểu này.

Sau này nhiều mỏy truy tỡm hỗ trợ người dựng qua nhiều cỏch thức khỏc nhau nờn người ta ớt thấy ranh giới phõn chia của cỏc mỏy truy tỡm nữa mà thay vào đú là cỏc hệ thống mỏy truy tỡm lại bao gồm nhiều kiểu chức năng khỏc nhau. Chẳng hạn như http://www.yahoo.com khụng cũn đơn thuần là một mỏy truy tỡm theo kiểu thư mục đối tượng mà bờn cạnh đú nú cũng cung cấp luụn cả kiểu mỏy nhện cho người dựng.

3.3.2. Theo chức năng

Theo cỏch phõn loại này thỡ tựy theo đối tượng tỡm kiếm mà cú: Kiếm địa chỉ trang Web

Kiếm địa chỉ thư điện tử

Kiếm thụng tin riờng về một người Kiếm thụng tin về một tổ chức Kiếm việc làm

Phần 4

MÁY TèM KIẾM CRAWPHOTO