0
Tải bản đầy đủ (.doc) (58 trang)

Thước đo độ hoàn chỉnh

Một phần của tài liệu THẬP THÔNG TIN TRÊN WEB VÀ ỨNG DỤNG (Trang 28 -35 )

Do các thước đo độ hoàn chỉnh là rất khó tính toán cho nên tôi đã sử dụng một số cách gián tiếp để ước lượng độ hoàn chỉnh. Một số cách có thể kể đến như :

+ Thu hồi mục tiêu : Một tập hợp các URL liên quan được chia thành 2 bộ là hạt giống và mục tiêu. Trình thu thập bắt đầu từ các trang hạt giống và thu hồi các trang mục tiêu. Việc thu hồi mục tiêu được tính như sau:

Trong đó Pt là tập các trang mục tiêu , Pc là tập các trang được thu thập. Lưu ý rằng giả định ban đầu là các mục tiêu là tập hợp ngẫu nhiên của các trang liên quan.

Hình 5: Hình mình họa thu hồi mục tiêu

+ Độ mạnh mẽ: Các URL hạt giống được chia thành hai bộ tách rời là Sa và Sb.

Mỗi bộ thường khởi tạo một trường hợp của cùng một trình thu thập. Sự chồng chéo trong các trang thu thập bắt nguồn từ hai bộ này là không tránh khỏi. Một lượng lớn sự chồng chéo được giải quyết bởi độ mạnh mẽ của trình thu thập.

Độ mạnh mẽ là một số liệu dùng để đo hiệu suất của trình thu thập trong một cách mà kết hợp cả độ chính xác và độ hoàn chỉnh. Ví dụ, cách tìm kiếm độ dài của một số các trang được thu thập trước khi một tỷ lệ nhất định của các trang liên quan được lấy.

Hình 6 là một ví dụ về biểu đồ hiệu suất cho hai trình thu thập khác nhau. Hiệu suất của trình thu thập được mô tả như là một quỹ đạo theo thời gian (được xấp xỉ bằng số lượng các trang đã thu thập ). Trình thu thập tối ưu ngây thơ được so sánh với trình thu thập theo chiều rộng dựa trên đánh giá trên 159 chủ đề với 10000 trang đã thu thập bởi mỗi trình thu thập trên mỗi chủ đề (vì thế việc đánh giá liên quan đến hàng triệu trang)

Hình 6: So sánh giữa thuật toán breadth-first và naive best-first: (a) Theo độ chính xác trung bình (b) Theo độ thu hồi mục tiêu trung bình

Chương 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN

Trong chương này chúng ta sẽ từng bước hiện thực hóa việc xây dựng website tổng hợp thông tin. Phần đầu chương sẽ tìm hiểu về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo là các đánh giá phân tích và các giải pháp nhằm nâng cao hiệu suất của trình thu thập, phần cuối chương là việc hiện thực hóa ứng dụng thông qua việc xây dựng hệ thống cơ sở dữ liệu và thiết kế giao diện website.

2.1. CÁC KIẾN THỨC NỀN TẢNG

2.1.1. Mạng toàn cầu

Mạng toàn cầu (world wide web [8], gọi tắt là web hoặc www) là một không gian thông tin toàn cầu mà mọi người có thể truy nhập (đọc và viết) qua các máy tính nối với mạng Internet. Thuật ngữ này thường được hiểu nhầm là từ đồng nghĩa với chính thuật ngữ Internet. Nhưng Web thực ra chỉ là một trong các dịch vụ chạy trên Internet, chẳng hạn như dịch vụ thư điện tử. Web được phát minh và đưa vào sử dụng vào khoảng năm 1990, 1991 bởi viện sĩ Viện Hàn lâm Anh Tim Berners-Lee và Robert Cailliau (Bỉ) tại CERN, Geneva, Switzerland.

Các tài liệu trên world wide web được lưu trữ trong một hệ thống siêu văn bản (hypertext), đặt tại các máy tính trong mạng Internet. Người dùng phải sử dụng một chương trình được gọi là trình duyệt web (web browser) để xem siêu văn bản. Chương trình này sẽ nhận thông tin tại ô địa chỉ do người sử dụng yêu cầu (thông tin trong ô địa chỉ được gọi là tên miền (domain name)), rồi sau đó chương trình sẽ tự động gửi thông tin đến máy chủ (web server) và hiển thị trên màn hình máy tính của người xem. Người dùng có thể theo các liên kết siêu văn bản trên mỗi trang web để nối với các tài liệu khác hoặc gửi thông tin phản hồi theo máy chủ trong một quá trình tương tác. Hoạt động truy tìm theo các siêu liên kết thường được gọi là duyệt web.

Quá trình này cho phép người dùng có thể lướt các trang web để lấy thông tin. Tuy nhiên độ chính xác và chứng thực của thông tin không được đảm bảo.

Hình 7: World wide web

World wide web có thể được phân loại thành ba loại: các trang web tĩnh, các trang web động và các trang web tích cực [4].

- Trang web tĩnh: Một trang web tĩnh là một file HTML cụ thể nằm trên web server.

- Trang web động : Một trang web động không tồn tại dưới dạng một file cố định trên web server. Trang Web động chỉ được server tạo ra khi nhận được một yêu cầu cụ thể từ trình duyệt web. Khi nhận được một yêu cầu, Web server sẽ chạy một chương trình ứng dụng nào đó để tạo ra nội dung một văn bản. Sau đó văn bản này được trả về cho trình duyệt.

- Trang web tích cực : Một trang web tích cực là loại văn bản có chứa chương trình. Chương trình này có khả năng tính toán và hiển thị thông tin. Khi trình duyệt yêu cầu, server sẽ gửi cho trình duyệt một văn bản có đính kèm chương trình. Trình duyệt sẽ chạy chương trình này tại máy tính cục bộ của mình, chương trình có thể tương tác với người sử dụng. Do vậy nội dung trang web tích cực không bất biến mà thay đổi khi chương trình tương ứng thực thi. Có thể coi các trang web tích cực là các trang web động về nội dung.

Loại web Ưu điểm Nhược điểm Trang web tĩnh Tính đơn giản, tiện dụng và

tin cậy. Sau khi được tạo ra trang web tĩnh có một định dạng cố định và bất biến. Trình duyệt có thể nhanh chóng hiển thị một trang web tĩnh, và có thể tăng hiệu suất hệ thống bằng cách sử dụng cơ chế cache.

Thiếu tính linh hoạt. Khi phải thay đổi, chúng ta phải chỉnh sửa lại mỗi trang web tĩnh. Điều này không được làm tự động mà phải làm thủ công. Do đó trang web tĩnh không thích hợp khi cần cung cấp thông tin biến đổi thường xuyên.

Trang web động Khả năng hiển thị ngay lập tức thông tin hiện thời từ phía server. Những thông tin thay đổi thường xuyên, chẳng hạn như dự báo thời tiết, giá các loại cổ phiếu,... có thể được một chương trình ứng dụng ở phía server sinh ra và chuyển cho trình duyệt khi có yêu cầu.

Chi phí cài đặt tương đối cao và không linh hoạt khi phải hiển thị thông tin hay thay đổi. Giống như web tĩnh, một khi thông điệp được server sinh ra và chuyển cho trình duyệt thì nội dung thông điệp là cố định. Nếu mỗi lần thông tin thay đổi thì trình duyệt phải cập nhật lại để lấy nội dung mới.

Trang web tích cực

Ưu điểm chính của web tích cực so với web động chính là khả năng cập nhật thông tin liên tục do khả năng web tích cực có khả năng tương tác trực tiếp với server để cập nhật thông tin. Ví dụ một trang web hiển thị giá của thị trường chứng khoán có thể tự động cập nhật giá các loại cổ phiếu mà không cần bất kỳ sự can thiệp nào từ phía người dùng.

Nhược điểm chính của web tích cực là chi phí xây dựng và khả năng an ninh hệ thống. Vì phải tải và sau đó thực thi một chương trình từ server, nên phải có khả năng đảm bảo chương trình này không làm gì có hại trên máy khách (client).

2.1.2. Giao thức truyền tải siêu văn bản

Giao thức truyền tải siêu văn bản (Hyper Text Transfer Protocol viết tắt là HTTP, [4]) là giao thức quan trọng nhất của web. Các tiến trình máy khách (client) và máy chủ (server) trên các hệ thống đầu cuối khác nhau giao tiếp với nhau thông qua việc trao đổi các thông điệp HTTP.

Hình 8. Tương tác client và server

Có 2 loại thông điệp HTTP là : Thông điệp yêu cầu (HTTP request) và thông điệp trả lời (HTTP response)

2.1.3. Ngôn ngữ đánh dấu siêu văn bản

Ngôn ngữ đánh dấu siêu văn bản (Hyper Text Markup Language viết tắt là HTML) là một ngôn ngữ đánh dấu được thiết kế ra để tạo nên các trang web. HTML

được xem như là một ứng dụng của SGML (Standard Generalized Markup Language – một chuẩn ISO định nghĩa các ngôn ngữ đánh dấu văn bản tổng quát). HTML được tổ chức World Wide Web Consortium (W3C, [7]) duy trì và là ngôn ngữ đánh dấu cốt lõi của World Wide Web. Phiên bản mới nhất của nó hiện là HTML 4.01. Tuy nhiên HTML hiện không còn được phát triển tiếp mà người ta đã thay thế nó bằng XHTML – một chuẩn HTML mở rộng dựa trên XML và có cú pháp chặt chẽ hơn HTML. Mặc dù vậy nhưng phần lớn các trang web hiện nay vẫn được viết bằng HTML.

Có bốn loại phần tử đánh dấu trong HTML [8]:

• Đánh dấu có cấu trúc miêu tả mục đích của phần văn bản (ví dụ, <h1>VietNam</h1> sẽ điều khiển phần mềm đọc hiển thị “VietNam” là tiêu đề cấp một).

• Đánh dấu trình bày miêu tả phần hiện hình trực quan của phần văn bản bất kể chức năng của nó là gì (ví dụ <b>in đậm</b> sẽ hiển thị thành in đậm).

• Đánh dấu liên kết ngoài chứa phần liên kết từ trang này đến trang kia. Ví dụ như <a href="http://www.wikipedia.org/">Wikipedia</a> sẽ hiển thị từ http://www. wikipedia.org/ như là một liên kết ngoài đến http://vi.wikipedia.org/wiki/URL

• Các phần tử thành phần điều khiển giúp tạo ra các đối tượng điều khiển như các nút bấm, các ô textbox để nhập liệu.

Một tài liệu HTML được tạo nên bởi các phần tử HTML(Element, [2]). Một cách tổng quát, một element bao gồm 3 thành phần: một cặp thẻ (tags) gồm một thẻ bắt đầu và một thẻ kết thúc; các thuộc tính (nằm trong thẻ bắt đầu); và toàn bộ phần ký tự, hình ảnh, nội dung thông tin sẽ được hiển thị lên màn hình. Một element là mọi thứ nằm giữa hai thẻ đầu cuối, tính cả hai thẻ này.

HTML là ngôn ngữ không phân biệt chữ hoa hay chữ thường (hai thẻ <td> và <TD> đều là một). Các phần tử HTML cần có một thẻ mở và một thẻ đóng, tuy nhiên điều này không luôn luôn đúng, có nhiều phần tử không cần thẻ đóng, ví dụ các thẻ<br>, <hr> và <li>. Ngoài ra khi lồng nhau, các phần tử HTML cũng không cần thiết phải lồng nhau theo đúng thứ tự (tức là thẻ nào mở trước thì phải đóng sau).

Một phần của tài liệu THẬP THÔNG TIN TRÊN WEB VÀ ỨNG DỤNG (Trang 28 -35 )

×