Cách thức phát hiện và cảnh báo lỗi

5. Ý nghĩa thực tiễn của đề tài

3.1 Cấu trúc và cách thức hoạt động

3.1.7 Cách thức phát hiện và cảnh báo lỗi

Cảnh báo lỗi phần quan trọng bậc nhất trong một hệ thống giám sát mạng. Nhờ có chức năng này mà người quản trị hệ thống mới có khả năng nhận biết được tình trạng của hệ thống mạng và dịch vụ của mình khi có lỗi xảy ra. Trong nợi dung của sản phẩm luận văn, dựa vào các đối tượng giám sát đã được phân loại ở trên, nhóm tác giả đưa ra mợt số cảnh báo mặc định như sau:

 Cảnh báo khi có thiết bị (máy chủ, router, switch, ESXi,..) bị mất kết nối.

 Cảnh báo khi một máy chủ sử dụng vượt quá tài nguyên cho phép, có thể là tài nguyên CPU, RAM, ổ đĩa,... Các tài nguyên này được đo bằng đơn vị phần trăm (%). Ví dụ mợt máy chủ dùng quá 80% dung lượng RAM thì hệ thống sẽ phát ra cảnh báo.  Cảnh bảo khi một giao tiếp mạng bị mất kết nối hoặc được phục hồi.

Các nội dung cảnh báo ở trên sẽ được khởi tạo mặt định cho người quản trị mới đăng ký, gọi là các “Rule”. Người quản trị có thể thay đổi lại giá trị của các Rule này cho phù hợp với u cầu giám sát của mình. Ví dụ, chúng ta có thể đặt ràng ḅc rằng, hệ thống sẽ báo lỗi khi server A có dung lượng ram chiếm q 60% thay vì 80% như mặc định. Điều này là hợp lý bởi đối với mỗi đối tượng mạng khác nhau, sử dụng cho các mục đích khác nhau thì sẽ có các mức tài nguyên được sử dụng khác nhau.

Dưới đây là danh các “Rules” được khởi tạo mặt định cho một tài khoản đăng ký mới. Bảng 4.6 Rule mặc định của người dùng mới

Loại thiết bị Loại Rule So sánh Giá trị Mức độ Trạng thái

WINDOWS MEMORY_USED > 60% Warning Kích hoạt WINDOWS MEMORY_USED > 80% Critical Kích hoạt WINDOWS HDD_USED > 80% Warning Kích hoạt WINDOWS HDD_USED > 90% Critical Kích hoạt WINDOWS STATUS = DOWN Critical Kích hoạt LINUX MEMORY_USED > 60% Warning Kích hoạt LINUX MEMORY_USED > 80% Critical Kích hoạt LINUX HDD_USED > 80% Warning Kích hoạt LINUX HDD_USED > 90% Critical Kích hoạt LINUX STATUS = DOWN Critical Kích hoạt ROUTER STATUS = DOWN Critical Kích hoạt SWITCH STATUS = DOWN Critical Kích hoạt VMWare-

ESXI

STATUS = DOWN Critical Kích hoạt VMWare-

VCENTER

STATUS = DOWN Critical Kích hoạt

Như đã mơ tả ở trên, Master Server sẽ có nhiệm vụ thu thập thơng tin và trạng thái của các đối tượng theo dõi. Các thông tin này sẽ được lưu xuống cơ sỡ dữ liệu MySQL và được mợt tiến trình khác của Website qt qua thường xuyên, so sánh giá trị của dữ liệu thu thập được với các giá trị các Rule mà người dùng định nghĩa, nếu thỏa yêu cầu so sánh, hệ thống sẽ phát ra cảnh báo cho người quản trị. Ở đây có hai hình thức cảnh báo mà hệ thống sử dụng đó chính là cảnh báo qua email và cảnh báo qua tin nhắn SMS. Đối với cảnh báo qua email, hệ thống sẽ sử dụng một email gateway hoặc một SMTP server để làm nhiệm vụ chuyển phát email. Đối với cảnh báo qua tin nhắn SMS, hệ thống sử dụng một SMS gateway từ dịch vụ của hãnh bên ngồi, kết nối thơng qua API được cung cấp sẵn để gửi tin nhắn đi. Dịch vụ SMS gateway được sử dụng trong đồ án là Nexmo, tại địa chỉ https://www.nexmo.com .

Đây là một nhà cung cấp tin nhắn SMS và đầu số trực tuyến lớn và uy tín trên thế giới với nhiều khách hàng lớn như Line, Viber, Kakao Talk,...Dưới đây là sơ đồ mô tả q trình thu thập thơng tin trạng thái thiết bị, phát hiện sự cố và gửi thông báo cho

Hình 3.7 Sơ đồ quá trình kiểm tra trạng thái và phát cảnh báo

Cách thức phát hiện và cảnh báo lỗi

Ngơn ngữ lập trình python

Cách thức quản lý sự kiện