THIẾT KẾVÀCÀIĐẶT Ngôn ngữ lập trình : Java, HTML Công cụ lập trình : JBuilder X, Microsoft Fontpage Web Server : Resin Hệ quản trị CSDL : Mircrosoft SQL Server 2000 Chương 1: THIẾTKẾ DỮ LIỆU Khi thiếtkế hệ thống tìm kiếm thông tin vấn đề khó khăn nhất phải đối mặt là tổ chức cấu trúc dữ liệu . Vì khối lượng dữ liệu phải lưu trữ của hệ thống tìm kiếm thông tin là rất lớn, và khối lượng yêu cầu tìm kiếm phải xử lý cũng rất lớn (trên môi trường Web) nên cấu trúc dữ liệu phải được tổ chức tối ưu cho việc đáp ứng (về thời gian) đối với yêu cầu tìm kiếm của người sử dụng. Dữ liệu của hệ thống được xây dựng dựa trên mô hình vector, sử dụng phương pháp tập tin nghịch đảo 1. Cơ sở dữ liệu trong SQL CSDL trong SQL server phục vụ cho toàn bộ hệ thống gồm bảng Url : chứa các thông tin cần thiết cho ứng dụng về 1 URL. Bảng UrlSTT Tên thuộc tính Ý nghĩa Kiểu dữ liệu Miền giá trị Ghi chú 1 Depth Độ sâu của Integer 0 : đây là FromURL StartURL 2 LastModified Ngày cập nhật nội dung URL gần nhất Bigint 3 ContentLength Kích thước trang web mà URL chỉ tới Bigint 4 Status Trạng thái của URL Integer UNDOWNLOAD URL chưa được download GOOD URL đã được download về BROKEN URL bị hỏng trong khi kết nối với server GOOD- INDEXING URL đã download về và đang được lập chỉ mục BROKEN- INDEXING URL đang được lập chỉ mục nhưng bị hỏng liên kết 5 Title Tiêu đề của trang web mà URL chỉ tới Varchar(255) 6 ContentType Cho biết nội dung của URL thuộc dạng nào Varchar(50) 7 UrlId Định danh của URL Bigint Khóa chính 8 UrlName Địa chỉ Varchar(255) Duy nhất của 1 URL 9 OutputPath Tên file download về Varchar(255) 10 RootId Định danh của StartURL Bigint Bảng 6. : Bảng URL 2. Hệ thống tập tin Do hệ thống dùng Webserver là Resin nên toàn bộ cơ sở dữ liệu được lưu trong thư mục làm việc của Resin “\doc\se\working”. Ngoài dữ liệu được lưu trữ trong Hệ quản trị Cơ sở dữ liệu SQL Server 2000, ứng dụng còn có hệ thống file như sau: “Index.txt”: chính là từ điển chỉ mục, chứa thông tin về một mục từ như trọng số, số tài liệu có chứa mục từ này, là từ tiếng Anh hay tiếng Việt, trang bắt đầu và trang kết thúc trong tập tin nghịch đảo, và sẽ được trình bày cụ thể ở phần dưới. “Inverse.dat”: tập tin nghịch đảo, chứa các thông tin về các tài liệu và trọng số của các mục từ trong tài liệu đó, xem cụ thể trong phần tập tin nghịch đảo ở phần dưới. “UnicodetoUTF8.txt”: font chữ Unicode. . THIẾT KẾ VÀ CÀI ĐẶT Ngôn ngữ lập trình : Java, HTML Công cụ lập trình : JBuilder. Resin Hệ quản trị CSDL : Mircrosoft SQL Server 2000 Chương 1: THIẾT KẾ DỮ LIỆU Khi thiết kế hệ thống tìm kiếm thông tin vấn đề khó khăn nhất phải đối mặt