Đầu tiên là vào file defaults.ini xuống phần smtp và chỉnh phần host, user, pass đây sẽ là mail gửi cảnh báo về ở đây mình dùng Gmail cho nên phần host sẽ như hình
vi /usr/share/grafana/conf/defaults.ini
Enable: # Khởi động smtp
Host: # Máy chủ thư đi của gmail và port là 587
User: # Tài khoản mail dùng để gửi cảnh báo
Pass: # Pass của Gmail
From_address: # Khi nhận mail cảnh báo thì đây là địa chỉ gửi mail Sau đó lưu cấu hình và restart lại Grafana
systemctl restart grafana-server
Name và Type: Đặt tên cho channel và chọn cách thức gửi cảnh báo
Address: điền mail nhận cảnh báo, có thể điền nhiều mail ở đây khơng giới hạn
mail nhận, mail cách nhau bằng dấu phẩy.
Optional Email settings: Phần này để gửi một mail cho tất cả các mail liệt kê ở
trên
Notification settings: Chọn kiểu thông báo gửi về mail ở đây mình chọn
Include image có nghĩa là cảnh báo sẽ gửi về kèm hình ảnh. Bấm test sẽ có 1 cảnh báo test gửi về mail để kiểm tra
Cảnh báo trạng thái của Web Server:
Sẽ có 3 trạng thái cảnh báo là OK – PENDING – ALEARTING thì như bên dưới khi Web Server có metrics bằng 0 trong vịng 1p sẽ từ trạng thái OK chuyển sang PENDING và kiểm tra tiếp điều kiện trong vòng 1p tiếp theo nếu metric vẫn bằng 1 thì sẽ chuyển sang ALERTING cịn trở về 1 sẽ về lại trạng thái OK
Chú thích: Trạng thái hoạt động của Web Server có dạng metrics “1 có nghĩa là web đang hoạt động, 0 là web đang bị stop hoặc không hoạt động”
Tạo một dashboard để cảnh báo cho dịch vụ web
Mình sử dụng metric là Nginx_UP trên hình sẽ hiển thị có 2 dịch vụ sử dụng Nginx đang hoạt động và có metric bằng 1
Phần Legend dùng {{job}} để hiển thị địa chỉ của máy ảo và port sử dụng
Máy ảo sẽ có 2 trạng thái hoạt động là 1 là đang hoạt động và 0 là khơng hoạt động dựa vào đó ta sẽ viết cảnh báo như sau:
Tiếp theo mình sẽ viết cảnh báo trên Esxi
Cảnh báo trạng thái hoạt động của các máy ảo trên Esxi:
Mình sẽ dùng metric vmware_vm_power_state và label là vm_name để lấy thông tin trạng thái hoạt động và tên của máy ảo
Phần Legend dùng {{vm_name}} để hiển thị tên máy ảo
Máy ảo sẽ có 2 trạng thái hoạt động là 1 là đang hoạt động và 0 là không hoạt động dựa vào đó ta sẽ viết cảnh báo như sau:
Tương tự như cảnh báo web nhưng phần Conditions sẽ là IS ABOVE là lớn hơn 80% sẽ gửi cảnh báo
Đây là cảnh báo được gửi tới mail Alerting là trang thái cảnh báo cịn OK là trạng thái hoạt động bình thường khi Server hoạt động trở lại