Các phương tiện tìm kiếm

Một phần của tài liệu Tài liệu Công Nghệ Internet tiếng Việt (Trang 138 - 142)

Search Engine - Phương tiện tìm kiếm đề cập tới một cơ sở dữ liệu lớn của các nguồn internet như các trang web, các nhóm thảo luận (diễn đàn), các chương trình, các hình ảnh, …. Nó giúp để định vị thông tin trên WWW.

Người sử dụng có thể tìm kiếm cho bất kỳ thông tin nào bằng việc truyền truy vấn dưới dạng các từ khóa hoặc cụm từ. Sau đó nó tìm kiếm các thông tin liên quan trong cơ sở dữ liệu của nó và phản hồi lại người sử dụng.

http://vietjack.com/ Trang chia sẻ các bài học online miễn phí Trang 139 Các thành phần của phương tiện tìm kiếm

Theo cách chung, có 3 thành phần cơ bản của một phương tiện tìm kiếm được liệt kê dưới đây:

1. Web Crawler

2. Cơ sở dữ liệu

3. Giao diện tìm kiếm

Web crawler

Nó cũng được biết đến như là spider hoặc bots. Nó là một thành phần phần mềm mà vắt ngang qua internet để thu thập thông tin.

Cơ sở dữ liệu

Tất cả thông tin trên web được lưu trong cơ sở dữ liệu. Nó bao gồm các nguồn web lớn.

Các giao diện tìm kiếm

Thành phần này là một giao diện giữa người sử dụng và cơ sở dữ liệu. Nó giúp người sử dụng tìm kiếm thông qua cơ sở dữ liệu.

Cách phương tiện tìm kiếm làm việc

Web crawler, cơ sở dữ liệu và giao diện tìm kiếm là các thành phần chính của phương tiện tìm kiếm àm thực sự giúp cho phương tiện tìm kiếm làm việc. Các phương tiện tìm kiếm sử dụng sự diễn đạt logic AND, OR, NOT để hạn chế và mở rộng các kết quả của một cuộc tìm kiếm. Dưới đây là các bước mà được thực hiện bởi phương tiện tìm kiếm:

 Phương tiện tìm kiếm tìm từ khóa trong chỉ mục cho cơ sở dữ liệu đã xác định trước thay vì đi vào trực tiếp các web để tìm từ khóa đó.

 Sau đó nó sử dụng phần mềm để tìm kiếm thông tin trong cơ sở dữ liệu. Thành phần phần mềm này được biết đến như là web crawler.

 Một khi Web crawler tìm các các trang, phương tiện tìm kiếm sau đó hiển thị các trang liên quan như là kết quả. Những trang thu lượm được này có chung đặc điểm là bao gồm các đầu đề trang, kích cỡ phần văn bản, câu đầu tiên, ….

http://vietjack.com/ Trang chia sẻ các bài học online miễn phí Trang 140

Các tiêu chuẩn tìm kiếm này có thể đa dạng, khác nhau bởi các phương tiện tìm kiếm khác nhau. Thông tin thu lượm được được sắp xếp theo các yếu tố đa dạng như tính liên tục của từ khóa, sự thích hợp của thông tin, các đường liên kết, ….

 Người sử dụng có thể nhấp chuột vào bất cứ kết quả tìm kiếm nào để mở nó.

Cấu trúc

Cấu trúc phương tiện tìm kiếm bao gồm 3 lớp cơ bản được liệt kê bên dưới:

 Thu thập và tinh chế nội dung

 Tìm kiếm lõi (core)

 Các giao thức người dùng và ứng dụng

Tiến trình phương tiện tìm kiếm

Tiến trình Indexing

Tiến trình Indexing bao gồm 3 nhiệm vụ sau:

http://vietjack.com/ Trang chia sẻ các bài học online miễn phí Trang 141

 Biến đổi văn bản

 Lập chỉ mục

THU THẬP VĂN BẢN (TEXT ACQUISITION)

Nó nhận diện và lưu giữ các tài liệu để lập chỉ mục.

BIẾN ĐỔI VĂN BẢN (TEXT TRASFORMATION)

Nó biến đổi tài liệu vào trong các mục hoặc các đặc điểm.

LẬP CHỈ MỤC (INDEX CREATION)

Nó nhận các mục hoặc các đặc điểm được tạo bởi biến đổi văn bản và tạo cấu trúc dữ liệu để hỗ trợ làm tăng tốc độ tìm kiếm.

Tiến trình truy vấn (Query Process)

Tiến trình truy vấn thực hiện 3 nhiệm vụ sau:

 Tương tác người sử dụng

 Phân loại

 Ước lượng

TƯƠNG TÁC NGƯỜI SỬ DỤNG (USER INTERACTION)

Nó hỗ trợ việc tạo và việc tịnh chế các truy vấn người sử dụng và hiển thị các kết quả.

RANKING

Nó sử dụng truy vấn và các chỉ mục để tạo danh sách các tài liệu được phân loại sắp xếp.

ƯỚC LƯỢNG (EVALUATION)

Nó giám sát và đánh giá sự hiệu quả hoặc không hiệu quả. Nó được thực hiện ngoại tuyến.

Ví dụ

Bảng dưới đây liệt kê một số công cụ tìm kiếm đang có hiện nay:

Phương tiện

http://vietjack.com/ Trang chia sẻ các bài học online miễn phí Trang 142

Google Đầu tiên nó được gọi là BlackRub. Nó là phương tiện tìm kiếm phổ biến nhất trên toàn cầu.

Bing

Nó được khởi đầu vào năm 2009 bởi Microsoft. Nó là phương tiện tìm kiếm trên cơ sở web mới nhất mà cũng phân phối các kết quả của Yahoo.

Ask

Nó được khởi đầu vào năm 1996 và đầu tiên được biết như là Ask Jeeves. Nó bao gồm các hỗ trợ cho match, từ điển, và các câu hỏi hội thoại.

AltaVista

Nó được khởi đầu bởi Digital Equipment Corporation vào năm 1995. Từ 2003, nó được cung cấp bởi công nghệ Yahoo.

AOL.Search Nó được cung cấp bởi Google.

LYCOS Nó là cổng thông tin trong tốp 5 và giá trị sở hữu trực tuyến đứng thứ 13 theo Media Matrix.

Alexa Nó là công ty con của Amazon.

Tổng quan về cộng tác trực tuyến

Một phần của tài liệu Tài liệu Công Nghệ Internet tiếng Việt (Trang 138 - 142)