Tầng lưu giữ (Persistant tier):

Một phần của tài liệu Xây dựng hệ thống đọc tin trên mobile (Trang 36)

Tầng lưu giữ là một hệ quản trị cơ sở dữ liệu, để lưu giữ nội dung các tin tức đã lấy được, đồng thời cũng lưu giữ thông tin về từng tin tức (như tin tức đó thuộc báo nào, được cập nhật lên khi nào, có bao nhiêu tin đã đăng lại, …).

Hệ quản trị cơ sở dữ liệu được chọn là MySQL. MySQL là hệ quản trị cơ sở dữ liệu mã nguồn mở phổ biến nhất thế giới và được các nhà phát triển rất ưa chuộng trong quá trình phát triển ứng dụng. Vì MySQL là cơ sở dữ liệu tốc độ cao, ổn định và dễ sử dụng, có tính khả chuyển, hoạt động trên nhiều hệ điều hành cung cấp một hệ thống lớn các hàm tiện ích rất mạnh.Với tốc độ và tính bảo mật cao, MySQL rất thích hợp cho các ứng dụng có truy cập CSDL trên internet.

Cơ sở dữ liệu của hệ thống được tổng hợp từ các nguồn báo trên internet. Trên server cho chạy liên tục các bọ thu thập dữ liệu (crawler). Các bọ này có nhiệm vụ đọc các RSS lấy từ các nguồn tin tức khác nhau và lấy nội dung của từng tin tức này đưa vào cơ sở dữ liệu.

Các bọ tìm kiếm được viết bằng ngôn ngữ Python. Python là ngôn ngữ khá mạnh trong xử lý xâu, văn bản. Chẳng hạn tương tác với khối lượng lớn dữ liệu trong các file, hoặc muốn thay đổi tên, hay sắp xếp lại các file hình ảnh theo một tiêu chuẩn phức tạp. Đặc biệt Python là ngôn ngữ rất được ưa chuông khi viết các bọ tìm kiếm, bản thân Google cũng sử dụng Python để viết các bọ tìm kiếm của họ

Sau khi các bọ tìm kiếm tổng hợp tin tức từ các báo khác nhau thông qua các kênh thông tin RSS, một thuật toán sẽ được áp dụng để tìm ra các tin tức có nội dung trùng lặp nhau, thông qua đó xác định xem tin tức nào là tin gốc, tin nào là tin đăng lại. Cả tin gốc và tin đăng lại sẽ được lưu lại trong cơ sở dữ liệu, nhưng khi hiển thị ra kết quả trả về cho ứng dụng trên mobile, thì các tin tức gốc sẽ được ưu tiên hiện thị trước nhất. Các tin tức trùng nội dung thì được gộp lại thành một nhóm

Một phần của tài liệu Xây dựng hệ thống đọc tin trên mobile (Trang 36)

Tải bản đầy đủ (DOC)

(66 trang)
w