Bài toán tìm kiếm dữ liệu

Bài toán tìm kiếm thông tin không mới, đã được nghiên cứu và phát triển trong một thời gian dài. Ngay từ thời gian đầu, lúc các máy tính làm việc riêng lẻ, nhu cầu tìm kiến thông tin trong các văn bản, tài nguyên trên máy tính đã là nhu cầu cấp thiết của con người. Đặc biệt từ khi mạng máy tính được xây dựng, thời đại phát triển của Internet và Web, việc tìm kiếm càng phát triển và bùng nổ. Lượng thông tin, tài nguyên được cung cấp qua Web trên môi trường Internet phát triển theo cấp số nhân và người sử dụng mò mẫm trong mớ hỗn độn thông tin đó để tìm được thông tin mình cần, giống như việc đọc muột cuốn sách mà không có chỉ mục. Các máy tìm kiếm – Search engine đã được phát triển từ thời gian đầu của Internet, cung cấp nội dung cần thiết cho người sử dụng, giúp người dùng tìm kiếm được nhanh nhất, chính xác nhất nội dung mình cần. Mục tiêu của hệ thống là hướng đến môi trường Internet với số lượng khổng lồ các trang web và các tài nguyên.

Theo số liệu thống kê của Google, thế giới đã đạt con số 1 trillion (1.000.000.000.000) URL vào tháng 7 năm 2008 [21]. Theo con số không chính thức thì hiện tại, thế giới đã có khoảng 2,4 trillion URL. Với lượng trang web khổng lồ như thế, các hệ thống tìm kiếm cần hoạt động cực kỳ hiệu quả mới có thể đảm bảo cung cấp nội dung, tiện ích đến cho người sử dụng. Ngay từ trước khi có hệ thống mạng Internet, đã tồn tại nhiều hệ thống tìm kiếm tài nguyên. Chúng ta sẽ tìm hiểu về lịch sử hình thành các máy tìm kiếm và cách thức xây dựng một hệ thống tìm kiếm.

Hình 3.1-1: Số lượng URL trên thế giới [21]

Mô hình của máy tìm kiếm

Các giải pháp xây dựng máy tìm kiếm