Phần thu nhập dữ liệu

Một phần của tài liệu TÌM HIỂU WAP VÀ CÔNG CỤ TÌM KIẾM HỖ TRỢ THIẾT BỊ DI ĐỘNG (Trang 56 - 59)

Các tài liệu thu thập về sẽ được hệ thống lập chỉ mục lọc các thông tin thừa, chuyển thành những tài liệu dưới dạng thuần văn bản. Trang web qua bước tiền xử lý để lọc bỏ các tag, các thông tin không liên quan tới nội dung tài liệu như chú thích, meta data, xử lý các kí tự đặc biệt ( các kí tự được thay thế bằng chuỗi bắt đầu bằng dấu kí tự “&” và kết thúc bằng kí tự “;”) để chuyển về dạng thông thường.

Sau đó thực hiện công đoạn tách từ. Việc lập chỉ mục sẽ trích ra các mục từ quan trọng của tài liệu và ghi các mục từ này vào cơ sở dữ liệu của hệ thống với tần suất xuất hiện tương ứng của nó.

Hình 5.6: Lưu đồ xử lý quy trình lập chỉ mục

Khi hệ thống tìm kiếm đã khởi động thì mo-đun phân tích, xử lý dữ liệu sẽ hoạt động liên tục, thực hiện phân tích nội dung các trang web, bỏ các dữ liệu thừa và xử lý nội dung văn bản của tài liệu. Hoạt động này là một phần tách biệt trong hệ thống, không ảnh hưởng đến tốc độ và thời gian xử lý hay tìm kiếm thông tin chung của toàn hệ thống. Mục đích chính là làm tăng khối lượng các trang web mà hệ thống đã xử lý, lưu trữ vào cơ sở dữ liệu để tìm kiếm sau này.

Thiết kế dữ liêu

Dữ liệu của hệ thống được xây dựng dựa trên mô hình vector, sử dụng phương pháp tổ chức tập tin nghịch đảo như đã trình bày trong các phần trước, bên cạnh đó

có một số phần cải tiến nhằm đạt được kết quả tốt về thời gian xử lý cho hệ thống. Dữ liệu của hệ thống gồm 3 phần chính sau:

-Bảng định danh tài liệu: dùng hệ quản trị cơ sở dữ liệu Oracle quản lý, lưu trữ thông tin về các URL như: định danh, địa chỉ, tiêu đề, ….

-Tập tin nghịch đảo: chứa thông tin về các tài liệu và trọng số của mục từ trong tài liệu đó.

-Từ điển chỉ mục: chứa thông tin về một từ như số lần xuất hiện, số tài liệu có chứa từ đó, vị trí trong tập tin nghịch đảo

Bảng định danh tài liệu

Bảng định danh tài liệu lưu trữ danh sách các trang web đã được lập chỉ mục cùng các thông tin kèm theo của từng trang. Vì số lượng trang web lập chỉ mục lớn nên hệ thống sử dụng hệ quản trị cơ sở dữ liệu Oracle để quản lý. Cấu trúc bảng định danh tài liệu gồm các trường sau:

STT Tên trường Kiểu Mô tả

1 DOCID Number Số định danh cho mỗi tài liệu, do hệ thống gán tự động

2 URL Chuỗi Địa chỉ của trang web

3 TITlE Chuỗi Tiêu đề của trang web

4 NGAY Ngày Ngày tạo lập của tài liệu

5 TRICH DAN Chuỗi

Nội dung trích dẫn (chưa cài đặt trường này)

Các tác vụ chính trên bảng này là : oThêm một tài liệu

oTìm kiếm tài liệu dựa trên DOCID. Tác vụ tìm kiếm được thực hiện thường xuyên, nên cài index cho trường DOCID để tăng tốc độ tìm kiếm.

Một phần của tài liệu TÌM HIỂU WAP VÀ CÔNG CỤ TÌM KIẾM HỖ TRỢ THIẾT BỊ DI ĐỘNG (Trang 56 - 59)

Tải bản đầy đủ (DOC)

(68 trang)
w