5. Ý nghĩa thực tiễn của đề tài
3.1 Cấu trúc và cách thức hoạt động
3.1.7 Cách thức phát hiện và cảnh báo lỗi
Cảnh báo lỗi phần quan trọng bậc nhất trong một hệ thống giám sát mạng. Nhờ có chức năng này mà người quản trị hệ thống mới có khả năng nhận biết được tình trạng của hệ thống mạng và dịch vụ của mình khi có lỗi xảy ra. Trong nợi dung của sản phẩm luận văn, dựa vào các đối tượng giám sát đã được phân loại ở trên, nhóm tác giả đưa ra mợt số cảnh báo mặc định như sau:
Cảnh báo khi có thiết bị (máy chủ, router, switch, ESXi,..) bị mất kết nối.
Cảnh báo khi một máy chủ sử dụng vượt quá tài nguyên cho phép, có thể là tài nguyên CPU, RAM, ổ đĩa,... Các tài nguyên này được đo bằng đơn vị phần trăm (%). Ví dụ mợt máy chủ dùng quá 80% dung lượng RAM thì hệ thống sẽ phát ra cảnh báo. Cảnh bảo khi một giao tiếp mạng bị mất kết nối hoặc được phục hồi.
Các nội dung cảnh báo ở trên sẽ được khởi tạo mặt định cho người quản trị mới đăng ký, gọi là các “Rule”. Người quản trị có thể thay đổi lại giá trị của các Rule này cho phù hợp với u cầu giám sát của mình. Ví dụ, chúng ta có thể đặt ràng ḅc rằng, hệ thống sẽ báo lỗi khi server A có dung lượng ram chiếm q 60% thay vì 80% như mặc định. Điều này là hợp lý bởi đối với mỗi đối tượng mạng khác nhau, sử dụng cho các mục đích khác nhau thì sẽ có các mức tài nguyên được sử dụng khác nhau.
Dưới đây là danh các “Rules” được khởi tạo mặt định cho một tài khoản đăng ký mới. Bảng 4.6 Rule mặc định của người dùng mới
Loại thiết bị Loại Rule So sánh Giá trị Mức độ Trạng thái
WINDOWS MEMORY_USED > 60% Warning Kích hoạt WINDOWS MEMORY_USED > 80% Critical Kích hoạt WINDOWS HDD_USED > 80% Warning Kích hoạt WINDOWS HDD_USED > 90% Critical Kích hoạt WINDOWS STATUS = DOWN Critical Kích hoạt LINUX MEMORY_USED > 60% Warning Kích hoạt LINUX MEMORY_USED > 80% Critical Kích hoạt LINUX HDD_USED > 80% Warning Kích hoạt LINUX HDD_USED > 90% Critical Kích hoạt LINUX STATUS = DOWN Critical Kích hoạt ROUTER STATUS = DOWN Critical Kích hoạt SWITCH STATUS = DOWN Critical Kích hoạt VMWare-
ESXI
STATUS = DOWN Critical Kích hoạt VMWare-
VCENTER
STATUS = DOWN Critical Kích hoạt
Như đã mơ tả ở trên, Master Server sẽ có nhiệm vụ thu thập thơng tin và trạng thái của các đối tượng theo dõi. Các thông tin này sẽ được lưu xuống cơ sỡ dữ liệu MySQL và được mợt tiến trình khác của Website qt qua thường xuyên, so sánh giá trị của dữ liệu thu thập được với các giá trị các Rule mà người dùng định nghĩa, nếu thỏa yêu cầu so sánh, hệ thống sẽ phát ra cảnh báo cho người quản trị. Ở đây có hai hình thức cảnh báo mà hệ thống sử dụng đó chính là cảnh báo qua email và cảnh báo qua tin nhắn SMS. Đối với cảnh báo qua email, hệ thống sẽ sử dụng một email gateway hoặc một SMTP server để làm nhiệm vụ chuyển phát email. Đối với cảnh báo qua tin nhắn SMS, hệ thống sử dụng một SMS gateway từ dịch vụ của hãnh bên ngồi, kết nối thơng qua API được cung cấp sẵn để gửi tin nhắn đi. Dịch vụ SMS gateway được sử dụng trong đồ án là Nexmo, tại địa chỉ https://www.nexmo.com .
Đây là một nhà cung cấp tin nhắn SMS và đầu số trực tuyến lớn và uy tín trên thế giới với nhiều khách hàng lớn như Line, Viber, Kakao Talk,...Dưới đây là sơ đồ mô tả q trình thu thập thơng tin trạng thái thiết bị, phát hiện sự cố và gửi thông báo cho
Hình 3.7 Sơ đồ quá trình kiểm tra trạng thái và phát cảnh báo