Quản lý dữ liệu hệ thống

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 65 - 69)

CHƯƠNG 3: THỰC NGHIỆM ỨNG DỤNG ĐÁNH GIÁ VÀ THU THẬP THÔNG TIN

3.1. Mô hình bài toán

3.1.3. Quản lý dữ liệu hệ thống

Cơ sở dữ liệu là một phần không thể thiếu của bất cứ ứng dụng nào của ngày nay. Vì tầm quan trọng của nó nhƣ vậy mà việc lựa chọn các hệ quản trị cơ sở dữ liệu phù hợp với yêu cầu của bài toàn là hết sức quan trọng và cần cân nhắc kĩ. Nhƣ đã được trình bày trong chương 1: cơ sở lý thuyết, hệ thống theo dõi thông tin trên Internet của tôi sử dụng hai hệ quản trị cơ sở dữ liệu, thứ nhất là hệ quản trị cơ sở dữ liệu MongoDB dùng để lưu trữ các tin bài là kết qủa của tìm kiếm. Và thứ hai là hệ quản trị cơ sở dữ liệu MySQL để lưu trữ quản lý người dùng. Sau đây tôi sẽ trình bày chi tiết về cấu trúc của hai cơ sở dữ liệu vừa nêu.

3.1.3.1. Cơ sở dữ liệu lưu trữ các tin bài

Sau khi phân tích những kết quả trả về từ các công cụ tìm kiếm, hệ thống đã bóc tách ra được những trường thông tin quan trọng cần thiết phục vụ cho việc lưu trữ các tin bài liên quan và hiển thị kết quả cho người dùng theo dõi. Các dữ liệu của của hệ thống được lưu trữ dưới dạng các tài liệu (document) trong hệ quản trị cơ sở dữ liệu MongoDB. Do có nhiều từ khóa nên tương ứng với mỗi từ khóa hệ thống sẽ tự sinh ra một collection với các trường là:

Bảng 3.5: Mô tả collection của cơ sở dữ liệu lưu tin bài Collection

_id: int title: text

description: text displayUrl: text url: text

sourceCode: text time: datetime

Trong đó, mỗi trường tương ứng với các dữ liệu đã trích xuất từ những kết quả trả về của Google:

- Trường _id: được gán duy nhất cho mỗi kết quả, được đánh tự tăng trong cơ sở dữ liệu.

- Trường title: là tiêu đề của trang web kết quả.

- Trường description: là mô tả ngắn gọn nội dung của trang web kết quả.

- Trường displayUrl: hiển thị của liên kết đến trang web gốc.

- Trường url: là đường dẫn đến trang web gốc.

- Ngoài các trường trên là các trường được lấy từ việc phân tích các kết quả trả về, ta có thêm trường sourceCode là mã nguồn của các trang kết quả có url tương ứng, và trường time là thời gian lưu trữ vào cơ sở dữ liệu.

3.1.3.2. Cơ sở dữ liệu quản lý người dùng

Với ưu điển dễ dàng quản lý và lưu trữ của các hệ quản trị cơ sở dữ liệu quan hệ, hệ thống đã sử dụng hệ quản trị cơ sở dữ liệu MySQL để quản lý người dùng, gồm các bảng:

Hình 3.6: Lược đồ cơ sở dữ liệu quản lý người dùng.

Trong cơ sở dữ liệu chứa các bảng:

- Bảng Users: chứa các thông tin cá nhân của người dùng trong đó gồm các cột:

Bảng 3.6: Mô tả các thuộc tính của quan hệ User

Tên cột Mô tả

Id Định danh của người dùng, do hệ thống tự sinh ra là duy nhất cho mỗi người dùng

Username Là tên mà người dùng đã đăng kí dùng để đăng nhập vào ứng dụng web.

password

Mật khẩu của người dùng, phải gồm ít nhất 6 kí tự. Hệ thống sử dụng mã hóa MD5 để mã hóa bảo vệ mật khẩu.

Email

Email của người dùng, mỗi người dùng chỉ sử dụng 1 địa chỉ mail duy nhất, sử dụng khi người dùng muốn khôi phục lại mật khẩu của mình trong trường hợp người dùng quên mật khẩu.

- Bảng keywords chứa các từ khóa mà tất cả người dùng đăng kí với hệ thống gồm các trường:

Bảng 3.7: Mô tả các thuộc tính của quan hệ keywords

Tên cột Mô tả

key_id Định danh duy nhất của mỗi từ khóa.

Keyname Tên của từ khóa.

- Do mối quan hệ giữa người dùng và từ khóa là quan hệ nhiều nhiều (một người dùng có thể có nhiều từ khóa, và một từ khóa có thể được đăng kí bởi nhiều người) nên sinh ra thêm một bảng nữa là users_keywords là bảng tham chiếu từ người dùng với những từ khóa của họ, bảng có những trường sau:

Bảng 3.8: Mô tả các thuộc tính của quan hệ users_keywords

Tên cột Mô tả

User_id Định dinh duy nhất của người dùng.

Key_id Định danh duy nhất của từ khóa Day_start

Thời gian mà từ khóa đƣợc đăng kí với hệ thống do người dùng.

Day_stop

Thời gian gần đây nhất mà từ khóa bị tạm dừng theo dõi.

Stt

Trạng thái của từ khóa, với stt = 1 nghĩa là từ khóa vẫn đang đƣợc theo dõi, stt = 0 là từ khóa đang bị tạm dừng.

- Ngoài ra hệ thống còn quản lý các từ khóa mà đang đƣợc tìm kiếm nhiều nhất trên Google do chính Google thống kê qua trang web Google. Xu hường của mình bằng bảng trends gồm các trường:

Bảng 3.9: Mô tả các thuộc tính của quan hệ trends

Tên cột Mô tả

Id Định danh duy nhất của từ khóa

Trend_name Tên của từ khóa.

Searches Số lƣợng tìm kiếm qua Google đƣợc thống kê trên Google Xu hướng

url Liên kết đến trang Google tìm kiếm chính từ khóa đó.

Timesave Thời gian lưu vào cơ sở dữ liệu.

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 65 - 69)

Tải bản đầy đủ (PDF)

(80 trang)