Quản lý dữ liệu hệ thống

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 65 - 69)

Cơ sở dữ liệu là một phần không thể thiếu của bất cứ ứng dụng nào của ngày nay. Vì tầm quan trọng của nó nhƣ vậy mà việc lựa chọn các hệ quản trị cơ sở dữ liệu phù hợp với yêu cầu của bài toàn là hết sức quan trọng và cần cân nhắc kĩ. Nhƣ đã đƣợc trình bày trong chƣơng 1: cơ sở lý thuyết, hệ thống theo dõi thông tin trên Internet của tôi sử dụng hai hệ quản trị cơ sở dữ liệu, thứ nhất là hệ quản trị cơ sở dữ liệu MongoDB dùng để lƣu trữ các tin bài là kết qủa của tìm kiếm. Và thứ hai là hệ quản trị cơ sở dữ liệu MySQL để lƣu trữ quản lý ngƣời dùng. Sau đây tôi sẽ trình bày chi tiết về cấu trúc của hai cơ sở dữ liệu vừa nêu.

3.1.3.1. Cơ sở dữ liệu lưu trữ các tin bài

Sau khi phân tích những kết quả trả về từ các công cụ tìm kiếm, hệ thống đã bóc tách ra đƣợc những trƣờng thông tin quan trọng cần thiết phục vụ cho việc lƣu trữ các tin bài liên quan và hiển thị kết quả cho ngƣời dùng theo dõi. Các dữ liệu của của hệ thống đƣợc lƣu trữ dƣới dạng các tài liệu (document) trong hệ quản trị cơ sở dữ liệu MongoDB. Do có nhiều từ khóa nên tƣơng ứng với mỗi từ khóa hệ thống sẽ tự sinh ra một collection với các trƣờng là:

Bảng 3.5: Mô tả collection của cơ sở dữ liệu lưu tin bài Collection _id: int title: text description: text displayUrl: text url: text sourceCode: text time: datetime

Trong đó, mỗi trƣờng tƣơng ứng với các dữ liệu đã trích xuất từ những kết quả trả về của Google:

- Trƣờng _id: đƣợc gán duy nhất cho mỗi kết quả, đƣợc đánh tự tăng trong cơ sở dữ liệu.

- Trƣờng title: là tiêu đề của trang web kết quả.

- Trƣờng description: là mô tả ngắn gọn nội dung của trang web kết quả.

- Trƣờng displayUrl: hiển thị của liên kết đến trang web gốc. - Trƣờng url: là đƣờng dẫn đến trang web gốc.

- Ngoài các trƣờng trên là các trƣờng đƣợc lấy từ việc phân tích các kết quả trả về, ta có thêm trƣờng sourceCode là mã nguồn của các trang kết quả có url tƣơng ứng, và trƣờng time là thời gian lƣu trữ vào cơ sở dữ liệu.

3.1.3.2. Cơ sở dữ liệu quản lý người dùng

Với ƣu điển dễ dàng quản lý và lƣu trữ của các hệ quản trị cơ sở dữ liệu quan hệ, hệ thống đã sử dụng hệ quản trị cơ sở dữ liệu MySQL để quản lý ngƣời dùng, gồm các bảng:

Hình 3.6: Lược đồ cơ sở dữ liệu quản lý người dùng.

Trong cơ sở dữ liệu chứa các bảng:

- Bảng Users: chứa các thông tin cá nhân của ngƣời dùng trong đó gồm

Bảng 3.6: Mô tả các thuộc tính của quan hệ User

Tên cột Mô tả

Id Định danh của ngƣời dùng, do hệ thống tự sinh ra là duy nhất cho mỗi ngƣời dùng

Username Là tên mà ngƣời dùng đã đăng kí dùng để đăng nhập vào ứng dụng web.

password

Mật khẩu của ngƣời dùng, phải gồm ít nhất 6 kí tự. Hệ thống sử dụng mã hóa MD5 để mã hóa bảo vệ mật khẩu.

Email

Email của ngƣời dùng, mỗi ngƣời dùng chỉ sử dụng 1 địa chỉ mail duy nhất, sử dụng khi ngƣời dùng muốn khôi phục lại mật khẩu của mình trong trƣờng hợp ngƣời dùng quên mật khẩu.

- Bảng keywords chứa các từ khóa mà tất cả ngƣời dùng đăng kí với hệ thống gồm các trƣờng:

Bảng 3.7: Mô tả các thuộc tính của quan hệ keywords

Tên cột Mô tả

key_id Định danh duy nhất của mỗi từ khóa.

Keyname Tên của từ khóa.

- Do mối quan hệ giữa ngƣời dùng và từ khóa là quan hệ nhiều nhiều (một ngƣời dùng có thể có nhiều từ khóa, và một từ khóa có thể đƣợc đăng kí bởi nhiều ngƣời) nên sinh ra thêm một bảng nữa là

users_keywords là bảng tham chiếu từ ngƣời dùng với những từ khóa

Bảng 3.8: Mô tả các thuộc tính của quan hệ users_keywords (adsbygoogle = window.adsbygoogle || []).push({});

Tên cột Mô tả

User_id Định dinh duy nhất của ngƣời dùng.

Key_id Định danh duy nhất của từ khóa

Day_start

Thời gian mà từ khóa đƣợc đăng kí với hệ thống do ngƣời dùng.

Day_stop

Thời gian gần đây nhất mà từ khóa bị tạm dừng theo dõi.

Stt

Trạng thái của từ khóa, với stt = 1 nghĩa là từ khóa vẫn đang đƣợc theo dõi, stt = 0 là từ khóa đang bị tạm dừng.

- Ngoài ra hệ thống còn quản lý các từ khóa mà đang đƣợc tìm kiếm nhiều nhất trên Google do chính Google thống kê qua trang web Google. Xu hƣờng của mình bằng bảng trends gồm các trƣờng:

Bảng 3.9: Mô tả các thuộc tính của quan hệ trends

Tên cột Mô tả

Id Định danh duy nhất của từ khóa

Trend_name Tên của từ khóa.

Searches Số lƣợng tìm kiếm qua Google đƣợc thống kê

trên Google Xu hƣớng

url Liên kết đến trang Google tìm kiếm chính từ

khóa đó.

Timesave Thời gian lƣu vào cơ sở dữ liệu.

Một phần của tài liệu Đánh giá và thu thập thông tin tự động trên internet sử dụng dịch vụ tìm kiếm (Trang 65 - 69)