Sự phỏt triển của hệ tỡm kiếm đó chuyển từ lĩnh vực nghiờn cứu sang lĩnh vực thương mại hoỏ. Ngày nay, hầu hết cỏc hệ tỡm kiếm đó được thương mại hoỏ, thuộc bản quyền của cỏc cụng ty, nờn cỏc thụng tin về kỹ thuật khụng được cụng bố cụng khai. Hai vấn đề chớnh cần quan tõm trong việc tỡm kiếm thụng tin là: Thu nhập thụng tin và tỡm được thụng tin gỡ trong số thụng tin thu nhập được.
Việc thu nhập thụng tin từ cỏc Web site khỏc nhau trờn Internet liờn quan đến cỏc điều sau [1]:
25
- Sự phõn tỏn của dữ kiệu: Dữ liệu được phõn tỏn trờn phạm vi toàn thế giới, được định vị ở cỏc vị trớ và mụi trường khỏc nhau.
- Độ bất ổn của dữ liệu rất cao: Dữ liệu cú thể được thờm vào hay xoỏ đi một cỏch dễ dàng và tuỳ ý mà khụng cần bỏo trước. Cú rất nhiều thay đổi về nội dung tài liệu, địa chỉ và cũn làm mất đi mối liờn kết giữa cỏc trang Web với nhau.
- Lượng dữ liệu khổng lồ: Khối lượng dữ liệu cú thể được thờm vào hay xoỏ đi một cỏch dễ dàng và khụng ngừng được bổ sung hàng ngày hàng giờ. Ngoài lượng dữ liệu văn bản cũn cú một lượng dữ liệu đa phương tiện (ảnh, õm thanh, video) lớn hơn gấp nhiều lần.
- Dữ liệu cú cấu trỳc khỏc nhau và dư thừa: Thụng tin được đưa lờn mạng khụng nhất thiết ở dạng siờu văn bản, mà cú nhiều kiểu dữ liệu cú cấu trỳc khỏc nhau, đến mức cú thể xem chỳng là khụng cấu trỳc, và khụng cần thiết phải đảm bảo tớnh nhất quỏn và toàn vẹn dữ liệu nào. Và cũng do sự trựng lặp, dư thừa dữ liệu đó làm tăng lượng dữ liệu trờn mạng.
- Chất lượng dữ liệu: Dữ liệu trờn Internet khụng đồng nhất, chỳng được đưa lờn với cỏc khuụn dạng khỏc nhau, với cỏc mụi trường khỏc nhau và với cỏc ngụn ngữ khỏc nhau,...
- Dữ liệu động: Rất nhiều thụng tin trờn Web được thay đổi một cỏch tự động, nội dung của chỳng cú thể thay đổi tuỳ theo hành động của người dựng.
- Mó ký tự _ngụn ngữ khỏc nhau: Hiện nay, hầu như cỏc trang Web được sử dụng Anh ngữ, chẳng hạn như Google, AltaVista, Excite. Cũn cú một số quốc gia xõy dựng cỏc hệ tỡm kiếm với đặc thự của riờng mỡnh và sử dụng ngụn ngữ của quốc gia họ như Nhật Bản, Trung Quốc: http://www.chinese.yahoo.com, http://www.yahoo.co.jp. Bờn cạnh đú, cỏc hệ tỡm kiếm mà người sử dụng nhập vào một dũng văn bản như cỏc từ khoỏ cần tỡm, cũn cú hệ tỡm kiếm đưa ra cỏc cõu hỏi và người dựng chỉ cần trả lời như Ask Jeeves,... Việc xõy dựng một hệ tỡm kiếm cho tất cả cỏc ngụn ngữ là vấn đề rất khú, mặc dự đó cú hỗ trợ nhiều ngụn ngữ khỏc
26
Sự tương tỏc giữa người dựng và hệ thụng thu nhận thụng tin cũng khụng kộm phần quan trọng.
- Nhận thụng tin truy vấn dữ liệu từ người dựng: người dựng đưa thụng tin cần tỡm và hệ tỡm kiếm cần xử lý cỏc thụng tin mà người dựng yờu cầu và trả về cỏc thụng tin tỡm được liờn quan đến lệnh truy vấn.
- Trả về kết quả tỡm được: hệ tỡm kiếm cần phải trả về cỏc thụng tin tỡm được trong một khuụn dạng thớch hợp để người dựng cú thể xỏc định được tài liệu mà họ mong muốn. Cỏc hệ tỡm kiếm tốt cũn cú thể đỏnh giỏ và sắp xếp kết quả theo một vài chỉ tiờu nào đú.