2.1 Cấu trỳc bộ tỡm duyệt
2.1.2 Cỏc thụng số cơ bản của bộ tỡm duyệt Web
Số trang Web mà bộ tỡm duyệt cú thể được duyệt trong một ngày. Thụng số này chỉ ra số trang Web mà một bộ tỡm duyệt cú thể duyệt được trong một ngày, thụng số này thường là giỏ trị trung bỡnh (trong một khoảng thời gian). Càng nhiều trang Web được duyệt, hệ tỡm kiếm càng cập nhật nhanh cỏc thụng tin mới trờn Internet và rỳt ngắn chu kỳ duyệt lại trang Web của nú.
Số lượng trang Web cú thể duyệt, thụng số này chỉ ra số lượng trang Web tối đa mà một bộ tỡm duyệt cú thể duyệt được. Đõy cũng là số lượng tối đa cỏc trang Web mà một hệ tỡm kiếm cú thể tỡm kiếm. Thụng số này phụ thuộc vào cả số lượng
37
tối đa cỏc trang Web mà bộ tạo chỉ mục của hệ tỡm kiếm cú thể tạo chỉ mục cũng như khả năng lưu trữ của hệ thống.
Mỗi mỏy chủ Web cú một lượng trang Web khỏc nhau. Cấu trỳc thư mục cũng khỏc nhau. Vớ dụ như số tối đa thư mục con trực tiếp mà một thư mục cú thể cú, hay số mức thư mục con cú thể cú của một thư mục. Rất nhiều mỏy tỡm kiếm khi cho bộ tỡm duyệt thực hiện việc tải cỏc trang Web về đó khụng tải tất cả cỏc trang Web của mỏy chủ Web mà thường hạn chế số tối đa thư mục con hay số tối đa cấp thư mục con cú thể tải về.
Chu kỳ cập nhật lại thụng tin: Do sự thay đổi liờn tục của thụng tin trờn Internet. Hàng giờ, hàng ngày cú rất nhiều trang Web được tạo ra hay nội dung của nú bị thay đổi. Cỏc trang Web mà hệ tỡm kiếm đó tỡm duyệt và tạo chỉ mục cú thể đó bị cập nhật bởi người chủ của trang Web hoặc được cập nhật tự động khi cú một tỏc động nào đú. Chớnh vỡ vậy, để thụng tin tỡm kiếm trả về cho người dựng được chớnh xỏc, cỏc hệ tỡm kiếm thường thiết lập cho bộ tỡm duyệt tự động cập nhật lại thụng tin theo một chu kỳ nhất định. Chu kỳ này thường tớnh theo tuần hay thỏng. Chu kỳ lại cập nhật thụng tin càng nhỏ thỡ khả năng kết quả tỡm kiếm đỏp ứng được yờu cầu của người dựng càng lớn và ngược lại.
Khả năng duyệt sớm nhất cỏc địa chỉ Web do người quản trị hoặc người dựng lựa chọn. Cỏc hệ tỡm kiếm thường lập lịch cho mỡnh để tự động cú thể thu nhận cỏc trang Web theo một thứ tự nào đú. Khi đú cỏc địa chỉ URL, đặc biệt là cỏc địa chỉ URL mới cần phải đợi đến lượt mỡnh để cú thể cú trong cơ sở dữ liệu của hệ tỡm kiếm. Thời gian chờ này cú thể lờn đến hàng tuần hoặc hàng thỏng. Chớnh vỡ vậy, một số hệ tỡm kiếm đó phỏt triển phần trực tiếp cập nhật cỏc địa chỉ URL để yờu cầu bộ tỡm duyệt duyệt ngay khi cú thể. Đõy là một đặc tớnh mới thường được phỏt triển trong cỏc hệ tỡm kiếm thương mại. Người dựng muốn nhanh chúng quảng bỏ thụng tin, sản phẩm của mỡnh thỡ phải trả một khoản tiền nào đú cho người chủ của hệ tỡm kiếm. Khi đú, địa chỉ trang Web của họ sẽ được bộ tỡm duyệt duyệt sớm
38
hơn và thụng tin nhanh chúng được đưa vào trong cơ sở dữ liệu của hệ tỡm kiếm để mọi người cú thể tỡm ra.
Khả năng tỡm duyệt cỏc trang Web khụng được chỉ ra bởi người dựng cũng như người quản.
Cú một số hệ tỡm kiếm khụng cú khả năng duyệt được cỏc trang Web nếu khụng chỉ ra địa chỉ URL của trang Web đú. Khả năng tỡm duyệt cỏc trang Web khụng được chỉ ra bởi người dựng cũng như người quản trị liờn quan đến khả năng trớch lọc cỏc địa chỉ URL mới từ cỏc trang Web đó duyệt của hệ tỡm kiếm. Hiện nay, hầu hết cỏc hệ tỡm kiếm đó cú khả năng này.
Tốc độ duyệt trang Web của bộ tỡm duyệt, thụng số này chỉ ra số lượng tối đa cỏc trang Web mà bộ tỡm duyệt cú thể duyệt được trong một ngày. Thụng số này phản ỏnh tốc độ duyệt Web của bộ tỡm duyệt. Để tăng tốc độ, một hệ tỡm kiếm cú thể cú nhiều bộ tỡm duyệt và mỗi một bộ tỡm duyệt lại chạy ở dạng đa luồng. Do đú, tại cựng một thời điểm, cỏc bộ tỡm duyệt cú thể duyệt được nhiều địa chỉ URL khỏc nhau, ở tại nhiều mỏy chủ Web khỏc nhau.
Kớch thước tối đa và thời gian tối đa của một trang Web được tải về. Do vấn đề xử lý tài liệu văn bản cũng như sự cõn nhắc giữa yếu tố thời gian tải một văn bản từ mỏy chủ Web về cơ sở dữ liệu của hệ tỡm kiếm và số lượng từ trong văn bản cần được tạo chỉ mục mà một số hệ tỡm kiếm chỉ tải trang Web với một kớch thước giới hạn nào đú. Nếu trang Web được tải về cú kớch thước lớn hơn kớch thước giới hạn này thỡ phần cũn lại sẽ khụng được lấy về và do đú chỳng khụng được tạo chỉ mục. Tương tự như kớch thước tối đa là thời gian tối đa một trang Web được tải về. Bộ tỡm duyệt chỉ tải về cỏc trang Web trong một thời gian xỏc định nào đú. Vớ dụ, bộ tỡm duyệt của Excite tải về mỗi trang Web trong vũng 30 giõy, nếu vượt quỏ thời gian này thỡ phần cũn lại của tài liệu sẽ khụng được lấy về tiếp và do đú khụng được tạo chỉ mục. Trong khi đú, Lycos tải về 275 ký tự đầu của trang, cũn Infoseek tải về 16Kb của trang để sử dụng nú tạo chỉ mục[12].
39
Độ sõu của địa chỉ trong một mỏy chủ Web mà bộ tỡm duyệt cú thể duyệt được.
Phần lớn cũng do vấn đề thời gian, để cú thể tỡm kiếm được theo chiều rộng, một số bộ tỡm duyệt hạn chế độ sõu của địa chỉ của trang Web cần tải về. Độ sõu của địa chỉ được xỏc định như việc xỏc định độ sõu của cõy thư mục, độ sõu 0 ứng với địa chỉ trang chủ (trang mặc định) của một mỏy chủ Web. Việc hạn chế độ sõu này giỳp cho bộ tỡm duyệt khụng mất nhiều thời gian mở rộng chiều rộng tỡm kiếm trong một mỏy chủ Web mà để dành thời gian cho mỏy chủ Web khỏc.
Hỗ trợ là một trong những cấu trỳc được sử dụng nhiều trong cỏc trang Web hiện nay. Frame cho phộp cỏc trang Web được phõn chia thành trang nhỏ khỏc nhau. Cỏc frame cú thể là của cựng một địa chỉ Web hoặc cũng cú thể là của cỏc địa chỉ Web khỏc nhau. Nhờ frame mà người chủ trang Web dễ dàng định vị được vị trớ thể hiện nội dung mỡnh cần trờn trang Web. Đối với người dựng, cỏc frame giỳp cho việc quan sỏt bố cục nội dung tài liệu được dễ dàng hơn. Vớ dụ như một trang Web cú 2 frame, frame bờn phải là mục lục của cỏc tài liệu, cũn frame bờn trỏi thỡ nội dung của chỉ mục đú sẽ được hiện lờn ở frame bờn phải. Ngoài nội dung vẫn như thường cú ở cỏc trang Web cú thể cú từ một đến vài nội dung trong cỏc frame, được tạm gọi là nội dung phụ. Như vậy, khi tải cỏc trang Web cú chứa frame, cỏc bộ tỡm duyệt cần phải tải được cả nội dung chớnh và cỏc nội dung phụ.
Khả năng duyệt cỏc trang Web được bảo vệ bởi mật khẩu hoặc cần đưa vào thụng tin.
Đõy là một tớnh năng nõng cao rất khú thực hiện được của bộ tỡm duyệt. Tớnh năng này cho phộp bộ tỡm duyệt gửi yờu cầu tải về trang Web đến mỏy chủ Web với cỏc tham số đi kốm. Tuỳ thuộc vào tham số đi kốm mà bộ tỡm duyệt sẽ nhận cỏc nội dung của trang Web khỏc nhau. Tớnh năng này rất khú thực hiện được bởi tham số đi kốm khụng phụ thuộc vào bộ tỡm duyệt mà phụ thuộc vào bản thõn mỏy chủ Web.
40
Khả năng xỏc định cỏc địa chỉ được đề cập nhiều ở cỏc trang Web khỏc. Khả
năng xỏc định cỏc địa chỉ Web được nhiều người dựng tỡm đến hoặc được đề cập nhiều ở cỏc trang Web khỏc cho phộp bộ tỡm duyệt ưu tiờn tải trang Web này về trước. Để cú được khả năng này, cỏc bộ tỡm duyệt cần phải thống kờ được số lần mà một địa chỉ URL được đề cập đến bằng cỏch kết hợp việc phõn tớch cỏc trang Web đó nhận về với cơ sở dữ liệu URL của nú. Đõy là một tớnh năng nõng cao, chỉ cú ở một số hệ tỡm kiếm[12].
Khả năng xỏc định được tần suất mà một trang Web được cập nhật thụng tin. Như đó đề cập ở trờn, để trỏnh “lạc hậu” của hệ tỡm kiếm, sau mỗi khoảng thời
gian bộ tỡm duyệt sẽ cập nhật lại thụng tin của mỡnh bằng việc tải lại cỏc địa chỉ trang Web cũ. Do khụng biết trước được khi nào thỡ cỏc trang Web cũ này thay đổi nội dung nờn cú thể bộ tỡm duyệt khụng được cập nhật kịp thời cỏc trang Web thay đổi thường xuyờn. Ngược lại, cú khi bộ tỡm duyệt lại mất thời gian tải lại cỏc trang Web chưa được cập nhật kể từ lần tải về trước. Để trỏnh hiện tượng này, bộ tỡm duyệt được phỏt triển một khả năng nõng cao là khả năng xỏc định được tần suất mà một trang Web được cập nhật. Thụng qua đú nú sẽ thay đổi chu kỳ cập nhật lại thụng tin về trang Web đú một cỏch thớch hợp.
Cú nhiều cỏch để thực hiện điều này, một cỏch trong số đú là thực hiện được bằng cỏch kiểm tra sự thay đổi sau một vài chu kỳ cập nhật lại. Hoặc cũng cú thể căn cứ vào một số từ khoỏ trong trang Web để xỏc định. Cỏc trang Web về giỏ cả, lịch trỡnh, bỏo chớ,...thường thay đổi thường xuyờn cũn cỏc trang kiểu lưu trữ thụng tin (tài liệu hướng dẫn, tài liệu về cụng nghệ,...) thường ớt thay đổi mà chủ yếu là thờm trang Web mới (với địa chỉ mới). Hoặc trong một số trường hợp, đặc biệt là trường hợp cú thể lấy được thuộc tớnh của file.html thỡ căn cứ vào thuộc tớnh ngày cập nhật của flie.