Chi tiết về Database

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải pháp nền tảng cho hệ thống tích hợp dữ liệu lớn và không đồng nhất (Trang 29 - 31)

2.2 Thực hiện quản lý tích hợp dữ liệu tập trung

2.2.5 Chi tiết về Database

Đối với việc thống kê và phân tích các dữ liệu tích hợp, chúng ta cần phải lưu các thông tin vào trong một DB. Thành phần DB được chọn phải hiệu quả trong việc nhận dữ liệu tới và gửi các dữ liệu đi, hỗ trợ việc tìm kiếm nhanh, dễ dàng cho việc phân tích.

Để chia sẻ gánh nặng gây ra bởi các file dữ liệu lớn, chúng ta lựa chọn bổ sung thêm trong kiến trúc với nhiều thành phần hàng đợi và nhiều thành phần xử lý phân tích parser. Và cuối cùng chúng ta muốn tất cả các dữ liệu, không cần biết nó đến từ đâu đều phải được gửi tập trung vào cùng một DB. Có nghĩa rằng DB mà chúng ta lựa chọn cần phải đảm bảo có hiệu suất cao.

Các dữ liệu liên tục đọc ghi vào trong DB, vì thế nó cần sử dụng rất nhiều bộ nhớ RAM, tài nguyên CPU và hiệu suất cao của ổ cứng. Nếu nhận thấy rằng DB luôn luôn trong tình trạng quá tải và bắt đầu mất dữ liệu, đó là thời điểm chúng ta cần xem xét nâng cấp phần cứng hoặc lựa chọn ghi với khối dữ liệu nhỏ hơn. Đôi khi cũng gặp phải trường hợp không thể nâng cấp phần cứng để giải quyết vấn đề thì chúng ta có thể lựa chọn giải pháp phân cụm cluster. Elasticsearch cho phép chúng ta chia sẻ cùng một DB giữa các server khác nhau.

Một lượng lớn các dữ liệu tích hợp trở nên vô ích nếu không có ai thể truy cập và lấy thông tin từ chúng. Để đọc các dữ liệu được lưu trữ trong DB, chúng ta sẽ sử dụng một hoặc nhiều client kết nối đến nhằm thực hiện truy vấn thông tin. Sự phức tạp và số lượng của các câu lệnh truy vấn đồng thời sẽ quyết định sử dụng bao nhiêu tài nguyên của CPU để xử lý. Ngoài ra, các câu lệnh truy vấn cũng sẽ tiêu tốn tài nguyên khi đọc dữ liệu từ ổ đĩa, điều này có thể ảnh hưởng tới hiệu suất ghi các dữ liệu đến. Nếu sử dụng lập lịch cho các câu lệnh truy vấn để giám sát các loại dữ liệu lỗi và cảnh báo. Các truy vấn này sẽ làm tăng tải trọng của trên máy chủ DB, do đó chúng ta luôn luôn phải để mắt tới DB sẽ bị ảnh hưởng như thế nào do các lệnh truy vấn gây ra.

Trong DB có rất nhiều thông tin và nó cần lưu trữ với hình thức càng cô lập càng tốt để có thể bảo vệ chống lại bất kỳ mối đe dọa nào từ bên ngoài. Chúng ta nên cấu hình cho phép truy cập duy nhất một cổng cho thành phần parser và client sử dụng.

Sau một thời gian hệ thống chạy sẽ có rất nhiều dữ liệu được lưu trữ trong DB. Nhiều dữ liệu quá cũ trở thành dư thừa và không có ý nghĩa. Để giữ cho DB luôn

được kiểm soát và hiệu quả, chúng ta nên lập lịch cho một nhiệm vụ quét dọn để xóa các nội dung dữ liệu cũ theo các loại dữ liệu đã được phân loại.

Một phần của tài liệu (LUẬN văn THẠC sĩ) giải pháp nền tảng cho hệ thống tích hợp dữ liệu lớn và không đồng nhất (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(72 trang)