thay đổi nhanh chóng các đòng đữ liệu như: thống kê lưu lượng truy cập imtemet, đầu giá trên mạng [4], [6] ‘Trong Quản trị mạng, tần suất trích mẫu thu thập thông tin càng lớn thì việc
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRUONG DAI HOC CONG NGHE THONG TIN & TRUYEN THONG
NGUYÊN THỊ MỸ HẠNH
THUẬT TOÁN XOAY VÒNG
VOI QUAN LY DU LIEU CHUỖI THỜI GIAN
VA UNG DUNG TRONG QUAD
LUAN VAN THAC SY CONG NGHE THONG TIN
Thai Nguyén - 2016
Trang 2- ĐẠI HỌC THÁI NGUYÊN
TRUONG DAI HOC CONG NGHE THONG TIN & TRUYEN THONG
NGUYEN THI MY HANH
THUAT TOAN XOAY VONG VOI QUAN LY DU LIEU CHUOI THOI GIAN
VA UNG DUNG TRONG QUAN TRI MANG MAY TINH
Chuyên ngành: Khoa học máy tính
: 60480101
LUAN VAN THAC SY CONG NGHE THONG TIN
NGUGI HUGNG DAN KHOA HOC
PGS.TS NGUYEN VAN TA
Trang 3Số lượng và kết quả nghiên cứu trong luận văn này là hoàn toàn trung
thực và chưa từng được sử dụng hoặc công bố trong bất cứ công trình nào khác
"Mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các
'thông tin trích dẫn trong luận văn đều được ghỉ rõ nguồn gốc
Tác giả luận văn
Trang 4
LOICAM ON
Lời đầu tiên học viên xin gửi lời cảm on trân thành tới các Thầy, Cô giáo trường Đại học Công nghệ thông tin và Truyền thông, Đại học Thái Nguyên, các thầy cô đã tân tỉnh đạy bảo, truyền đạt các kiến thức quý báu cho
"học viên trong suốt quá trình học tập
Xin tran trọng cảm ơn Khoa, Phòng, Ban và các cán bộ đã tạo điều kiện
tốt nhất cho học viên học tập và hoàn thành đề tài tốt nghiệp của mình
Đặc biệt, học viên xin được gửi lời cảm ơn sâu sắc đến Thầy giáo
"hướng dẫn học viên PGS TS Nguyễn Văn Tam, Thầy đã tận tình chỉ bảo giúp
đỡ học viên trong suốt quả trình nghiên cứu dé hoàn thành luận văn
Cuối cùng học viên xin gửi lời cảm ơn gia đình, bạn bè, đồng nghiệp đã
giúp đỡ, động viên ủng hộ học viên rất nhiều trong toàn bộ quá trình học tập cũng như nghiên cứu dé hoàn thành luận văn này
Trân trong căm ơn!
Trang 5CHƯƠNG I: MÔ HÌNH QUẢN LÝ LUỎNG DỮ LIỆU CHUỖI
1.1 Kiến trúc tổng quát của hệ thống quản lý luông dữ
thời gian
1.1.1 Giới thiệu chung
1.1.2 Khải niệm chuỗi thời gian
1.1.3 Kiến trúc tông quát
1.2 Mô hình dữ liệu và truy vấn
1.2.1 Mô hình dữ
1.2.2 Ngữ nghĩa truy vấn liên tục
CHƯƠNG II :THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU
CHUỖI THỜI GIAN TRON
Trang 6
2.1.1 Nguyên lý cũa thuật toán xoay vòng RR( Round Robin)
chuỗi thời gian RRD
2.2.1 RRD trong thu thập dữ liệu và hiển thị kết quả
2.2.2 RRD trong phát hiện bắt thường
CHUONG 3 : CHƯƠNG TRINH THU NGHIEM
3.1 Bài toán thữ nghiệm
3.2 Bộ công cụ phục vụ xây dựng cơ sỡ dữ liệu chuỗi thời gian
RRDtool
3.2.1 Tập các hàm thư viện cita RRDiool
3.2.2 Hoạt động cũa RRDfooL
3.2.3 Giám sắt dữ liệu bắt thường
3.3 Kỹ thuật tích hợp RRDTool vào hệ quan tri mang CACTI
KET LUAN VA HUONG PHAT TRIEN
TAI LIEU THAM KHAO
Trang 7Internet Service Provider Local Area NetWork Personal Computer Primary Data Point Personal Hompe Page Round Robin
Round Robin Archives Round Robin Database Simple Network Managerment Protocol Structured Query Language
Tool Command Language
‘Tranfer Control Protocol Time Series Database Uniform Resource Locator Extensible Markup Language
Trang 8- Kiến trúc tổng thể của hệ quân lý luồng Dữ liệu
- Nguyên lý của cơ sở dữ liêu RRD
- Vấn đề tỷ lệ và thời gian 1
- Vấn đề
lê và thời gian 2
- Hợp nhất trong Cơ sở đữ liệu RRD
- Sơ đồ khối của hệ quản tri mang
- Biểu điễn đô thi trong RRD
- Lưu đồ chung Chương trình tích hop RRDTool! vio Cacti
- Chạy lệnh tích hợp RRDTool
- Mô hình thữ nghiệm
- Mân hình đăng nhập hệ thống
- Giao diện chính của Cacti
- Cài dat dich vu SNMP cho thiết bị mới
- Tìm ñile SNMP Serrices
- Đặt cầu hình SNMP Services
- Cài dat thiét bi vao Cacti
- Danh sách các nội đung cần giám sát
~ Trạng thái kết nói thiết bi trong Cacti
~ Thể hiện việc lựa chọn thiết bị cần tao dé thi
~ Danh sách các máy có trong cây đồ thị
18
19
21
2 2
Trang 9Hình 3.16
Hình 3.17
Hình 3.18
Hình 3.19
- Import Templates data trong cacti
~ Thông tin quản lý các thiết bị trong hệ thống mạng
- Quản lý theo lịch thời gian
~ Thông tin giới hạn của hệ thống
60
61
61 6
Trang 10giải pháp nhằm tối ưu hóa hệ thống, tránh tốn kém tài nguyên và giảm độ
phức tạp Trong một co sỡ dữ liệu Round - Robin (RR) thường là dữ liệu
chuỗi thời gian như: băng thông mạng, nhiệt độ, giá cổ phiếu vv, tất nhiều các ứng dung mới nổi gần đây yêu cầu hỗ trợ cho việc phân tích trực tuyến thay đổi nhanh chóng các đòng đữ liệu như: thống kê lưu lượng truy cập
imtemet, đầu giá trên mạng [4], [6]
‘Trong Quản trị mạng, tần suất trích mẫu thu thập thông tin càng lớn thì
việc chin đoán hoạt động của mạng càng chính xác (Vi du: chân đoán lỗi, nhưng việc xử lý và lưu trữ đữ liệu theo thời gian là cực lớn, các giải pháp về
cơ sỡ dữ liệu truyền thống không đáp ứng được, thuật toán RRD là giải pháp
"hữu hiệu Do đồ, học viên lựa chọn đề tài luận văn Thạc sỹ “ Thuật toán xoay
đưới dạng đồ thị trạng thái hoạt động của các thiết bị cần giám sit,
sử đụng RRDtool đề lưu trữ đữ liệu và hiển thị đữ liệu theo chuỗi thời gian
Dé thực hiện được điều đó học viên sẽ tiến hành nghiên cứu về mô hình quản
1ý luồng đữ liệu chuỗi thời gian, thuật toán xoay vòng với các đữ liệu chuỗi
Trang 111 Đối tượng và phạm vi nghiên cứu:
a Đối tượng nghiên cứu
Dữ liệu chuỗi thời gian
b Phạm vi nghiên cứu:
- Xếp lịch xoay vòng
- RRD trong quản trị mạng
3 Ý nghĩa khoa học, thực tiễn của đề tài
- Ý nghĩa khoa học: Hiểu được Ứng đụng của Thuật toán xoay vòng với quản tý đữ liệu chuỗi thời gian vào trong quản trị mạng máy tính
- Ý nghĩa thực tiễn: Vận dụng các phương pháp nghiên cứu để giải
quyết một bài toán về quản trị mạng, đồ là thuật toán xoay vòng với quản
đữ liệu chuỗi thời gian trong quản trị mạng Kết quả này có thể hoàn thiện, triển khai và ứng đụng trong thực tiễn
4 Phương pháp nghiên cứu:
- Nghiên cứu các kết quả đã công bố trong lĩnh vực quản lý dữ liệu
chuỗi thời gian và ứng đụng của quản lý đữ liệu chuỗi thời gian, thuật toán xoay vòng với cơ sở đữ liệu chuỗi thời gian RRD trong quản trị mạng
- Phân tích, tổng hợp, đánh giá các kết quả
~ Phân tích lý thuyết và xây đựng chương trình đề thử nghiệm bài toán
5 Bố cục cũa luận văt
Luận văn được trình bây thành các chương như sau:
Trang 12Chong 1: MO HINH QUAN LY LUONG DU LIEU CHUOI THOI
GIAN
Chương 2: THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU
CHUỖI THỜI GIAN TRƠNG QUẢN TRỊ MẠNG
Chương 3: CHƯƠNG TRÌNH THỨ NGHIỆM.
Trang 13
'Bộ cơ sở đữ liệu lưu trữ truyền thống bao gồm các bản ghi tương đối
tĩnh không cô khái niệm được xác định trước thời gian, trừ khi thuộc tính đầu thời gian được bỗ sung rõ ràng Trong khi mô hình này rắt thuận lợi cho việc
1.1.1 Giới thiệu chung
Cơ sở dữ liệu truyền thống đã được sử đụng trong các ứng dụng yêu
cầu lưu trữ dữ liệu liên tục và truy
sở đữ liệu bao gỗi
vấn phức tạp Thông thường, một cơ
một tập các đối tượng không sắp xếp theo thứ tự và tương
đối tĩnh Việc chèn, cập nhật và xóa xây ra ít thường xuyên hơn so với các
truy vá
'Truy vấn được thực hiện khi có yêu cầu và câu trả lời phân ánh tình
trạng hiện tại của các cơ sở đữ liệu Tuy nhiên, trong thời gian gần đãi chúng ta đã chứng
mô hình truy v
sự nỗi lên của các ứng đụng mà mô hình dữ liệu và
này không phù hợp Thay vào
thông tin xuất hiện một cách tự nhiên trong các đạng thức một luông
„ các sự kiện xây ra và
Trang 14trị đữ liệu; ví đụ bao gồm đữ liệu tir cam bién [5], lưu lượng Internet [4], các
mi cổ phiếu, tài chính [5], đầu giá trực tuyến [6], nhật ký sử đụng Web và
"bản ghi các cuộc gọi điện thoại [1]
Một luông dữ liệu là chuỗi các mục đữ liệu được sắp xếp theo thời
gian thực, liên tục, có trình tự (ví dụ ngầm định theo thời gian xuất hiện hoặc được đánh bởi nhãn thời gian (timestamp) một cách rõ ràng Thật khô có thể
kiểm soát thứ tự đến của các mục đữ liệu và cũng không khả thi để lưu trữ
toàn bộ luông đữ liệu Tương tự như vậy, các truy vấn luỗng dỡ liệu chạy liên tục trong một khoảng thời gian và từng bước sẽ trả về kết quả mới khi đữ liệu
mới đến Với các đặc điểm của luông đữ liệu và cách truy vấn liên tục đặt ra
các yêu cầu sau đây cho hệ thống quản lý luỗng dữ liệu
« Các mô hình đữ liệu và ngữ nghĩa truy vấn phải cho phép hoạt động
đựa trên trật tự và dựa trên thời gian (ví đụ như các truy vấn được thực trên
một cửa số động, năm phút một)
« Do không cô khả năng lưu trữ toàn bộ luông đữ liệu đây đủ nên có thể sử đụng các cấu trúc tóm lược, gần đúng Kết quả là, các truy vấn trên các
‘ban tôm lược cô thê không trả về đữ liệu chính xác
« Việc truy vấn dữ liệu trực tuyến có thê không thê sử đụng thao tác
blocking
« Do hiệu suất và khả năng lưu trữ hạn chễ, việc theo đối lại toàn bộ
luỗng đữ liệu nguyên gốc là không khả thi Các thuật toán xử lý luông đữ liệu chỉ sử đụng được luông dữ liệu một lần
« Các ứng đụng giám sát luông đữ liệu trong thời gian thực phải phân
‘ing nhanh với các giá trị đữ liệu bất thường
« Truy vấn chạy thời gian dài cô thể gặp phải những thay đổi điều
kiện của hệ thống.
Trang 15Một chuỗi thời gian là một đãy các giá trị quan sát X : ={Xi, X:}
được xếp thứ tự điễn biến thời gian với xị là các giá trị quan sát tại thời điểm đầu tiên, x; là quan sát tại thời điểm thứ 2 và x, là quan sát tại thời điểm thứ n
‘Vi du: Cac bao cao tài chính mà ta thấy hằng ngày trên báo chí, tivi hay
Tnternet về các chỉ số chứng khoán, tỹ giá tiễn tệ, chỉ số tăng cường hay chỉ số
tiêu đùng đều là những thể hiện rất thực tế của chuỗi thời gian hay doanh số
của công ty trong 20 năm gần đây, hoặc nhiệt độ ghỉ nhận tại một trạm quan trắc khí tượng, hoặc công suất điện năng tiêu thụ trong một nhà máy hoặc lưu lượng mạng đo được với chu kỳ 5 phút đồ là các ví dụ điễn hình cho một
chuỗi thời gian
'Với chuỗi thời gian ta thường biểu thị trong một mặt phẳng với trục hoành biểu thị thời gian và trục tung biểu thị giá trị biến quan sát Phân tích chuỗi thời gian c6 mục đích nhận đạng và tập hợp lại các yếu tố, những biến đổi theo thời gian mà nô cô ảnh hưởng đến giá trị của biển quan sát
1.1.3 Kiến trúc tông quát
Kiến trúc tổng quát của hệ thống hệ quản lý luỗng đữ liệu thể hiện
trong hình 1.L
Trang 16
Lad
'Hình 1.1 Kiến trúc tông thể của hệ quản lý luồng dữ liệu
‘Modul theo dai dau vào dữ liệu sẽ điều chỉnh tốc độ thu thập dữ liệu cho phù hợp, có thể sẽ phải loại bỏ một số gói tin nếu hệ thống không thể tiếp nhận hết các gồi tin đến Dữ liệu thường được lưu trữ trong ba phân vùng: Kho lưu trữ làm việc, kho lưu trữ bản tom lược của luỗng đữ liệu, kho lưu trữ tĩnh cho meta-data Các truy vấn chạy lâu phải được đăng ký tới hàng đợi
và đặt vào nhôm chia sẽ Bộ xử lý truy vấn Vì chỉ có thể truy vấn một
truy vấn của họ đựa trên các kết quả mới nhất
1.2 Mô hình dữ liệu và truy vấn
1.2.1 Mô hình dữ liệu
Một luỗng đữ liệu theo thời gian thực là một chuỗi các mục đữ liệu dit liệu đến theo một trình tự và chỉ cô thể được nhìn thấy một lần [3] Vì các
Trang 17Mục đữ liệu của luông đữ liệu riêng có thê biểu điễn đưới đạng các
các bộ đối tượng quan hệ hoặc các thể hiện cũa đối tượng Trong mô hình dựa
trên quan hệ, mục đữ liệu là các bộ chuyển tiếp được lưu trữ trong mối quan
tệ ảo qua nút từ xa Trong mô hình đựa trên đối tượn;
mục đữ liệu được mô hình hóa như các loại (phân cấp) dữ liệu với các phương pháp liên quan
Các mục đữ liệu của luỗng đữ liệu có thể không đến theo trình tự và
hoặc đưới dạng tiền xử lý, đo vậy có thể có các mô hình dữ liệu sau:
1 Gii đệm không có thie tực Các mục đữ liệu từ các lĩnh vực khác nhau đến không theo thứ tự đặc biệt và không có bất kỷ tiền xử lý nào
2 Ghi dém có thứ tực các mục đữ liệu từ các lĩnh vực khác nhau
không được tiền xử lý nhưng đến trong một trình tự đã biết
3 Tổng hop không có thứ tự: các mục đữ liệu riêng từ cùng một
miễn được tiền xử lý và chỉ có một mục đữ liệu đến đối với mỗi miễn, không
theo thứ tự cụ thê,
4 Tổng hợp có thứ tự: các mục đữ liệu riêng từ cùng một miền được
tiền xử lý và chỉ có một mục đữ liệu đến đối với mỗi miễn theo một trật tự cho trước
Trong nhiều trường hợp, chi quan tâm một đoạn trích từ luỗng dữ liệu tại một thời điểm do vậy mô hình cửa số được đưa ra với ba lớp như sau:
© Hướng chuyển động của các điểm đầu cuối: Hai đầu cuối có định xác định một cửa số cổ định Hai điểm đầu cuối cô thể trượt(hoặc trượt tiến hoặc trượt lùi), định nghĩa một cửa số rượt Nêu một đầu cuối cố định và
Trang 18một điểm cuối đi chuyển (về phía trước hoặc phía sau) định nghĩa một cửa số
giới hạn Như vậy có tổng cộng chín loại cửa số khác nhau
+ Cửa số vật lý và logic: Cửa số vật lý là cửa số được định nghĩa dựa trên khoảng thời gian Cửa số logic được định nghĩa đựa trên bộ đếm
© Cập nhật khoảng: Việc tái đánh giá cập nhật cửa số được thực hiện mỗi khi có một bộ đữ liệu mới đến Đối với tiến trình xử lý theo nó có thể
gây ra một "bước nhây cửa số " Nếu khoảng thời cập nhật là lớn hơn so với
kích thước cửa số, thì sẽ tạo ra một loạt cửa số không chồng lấn nhau
1.2.2 Ngữ nghĩa truy vẫn liên tục
Bất kỳ truy vấn kiên tri, đơn điệu mà cập nhật được từng bước, có thể được thực hiện như một truy vấn liên tục trên một cơ sở đữ liệu truyền thống Trong một cơ sở đữ liệu chỉ được thêm vào cuối, tất ca các truy vấn nối tiếp là đơn điệu: Mỗi lần một bộ đữ liệu được thêm vào, hoặc là nô đáp
‘ing các truy vấn hoặc không và điều kiện thỏa mãn không thay đổi theo thời gian Ngược lại, thêm phủ định cô thể vi phạm tính đơn điệu Tương tự như vậy, nếu các cơ sở dữ liệu không chỉ được thêm vào cuối, thì không cô truy
vấn đơn điệu, khi các bộ đữ liệu được cập nhật có thể ngừng đáp ứng một truy vấn nhất định
Ngữ nghĩa ít hạn chế các truy vấn liên tục, đơn điệu và không đơn điệu trên luỗng dữ liệu đã đưa ra [6] Gia sit
như là một tập hợp các số tự nhiên và rằng tất cả các truy vấn liên tục được tái định giá tại mỗi nhịp (tick) đồng hỏ Cho A (Q, t) là tập hợp câu trả lời
của một truy vấn liên tục Q ai thoi điểm t, r là thời gian hiện tại, và 0 là thời
ig thời gian được biểu diễn
điểm bắt đầu Tập trả lời cho một truy vấn liên tục, đơn điệu Q tại r là:
4(@.7) = JlAl@.0) — A(t 1)) VALQ.O}
Trang 19Nghĩa là, chỉ cần tái đánh giá các truy vấn trên các mục đữ liệu mới đến và gắn thêm các bộ chất lượng vào kết quả Ngược lại, các truy vấn
không đơn điệu cô thé cin phải được tái tính từ đầu trong mọi tái đánh giá, theo ngữ nghĩa sau đây:
A9.) = ÚJA(9.9)
Ngôn ngữ truy vẫn luồng đữ liệu
Ba mô hình truy vấn cho hệ thống quản lý luông đữ liệu đã được đề xuất Hệ thống đựa trên quan hệ sử đụng ngôn ngữ SQL-like để truy vấn gần giống như truy vẫn cơ sỡ đữ liệu quan hệ với sự cãi tiến đưa thêm cơ chế cửa
số và trình tự Ngôn ngữ dựa trên đối tượng cũng giống nhw SQL, nhưng hỗ trợ cho luỗng đữ liệu, định nghĩa thêm kiểu dữ liệu trờu tượng (ADT) và các phương pháp xử lý tín hiệu liên quan Hệ thống hướng thủ tục, xây dựng truy
vấn bằng cách định nghĩa luỏng đữ liệu các toán tử khác nhau
1.3 Một số ứng dụng của hệ quản lý luồng dữ liệu
1.3.1 Ung dung trong mang cam bién (Sensor Networks)
‘Mang cảm biến có thể được sử đụng cho quản lý hệ thống địa lý
nhiều luông dữ liệu thì cần thiết phải phân tích đữ liệu từ nhiều ngt
néu ứng dụng chỉ tập hợp trên một luồng dữ liệu đuy nhất thì có thể chỉ cần
Trang 201
nguên nuôi) Việc khai phá đữ liệu của bộ cảm biến có thể yêu cầu truy cập vào đữ liệu lịch sử của bộ cảm biển Một số ví du về truy vấn tương đối điển
‘hinh trong mạng cảm biến như:
© Kích hoạt bộ nhảy (trigger) nếu có một vài cảm biến trong trong miễn cô báo cáo đo vượt quá ngưỡng cho phép
© Vẽ đường viền bản đỏ nhiệt độ cho đự báo thời tiết
Thực hiện kết nối luông đữ liệu nhiệt độ từ các trạm theo đối thời tiết Liên kết các kết quả vào bảng tĩnh chứa các kinh độ và vĩ độ của mỗi trạm, kết nối tất cả các điểm tạo bản tin dy bao thời tiết vùng miễn
Hệ thống Ad hoc để phân tích lưu lượng Internet trong thời gian thực
đã được sử đụng, ví du [2] Tương tự như các mạng cảm biến, việc kết nối đữ
liệu từ nhiều nguồn khác nhau như theo đối, lọc gói tin và phát hiện các điều
kiện bất thường (ví dụ như tắc nghẽn hoặc tấn công từ chối dịch vụ) là cần thiết Hệ thống phải hỗ trợ cho các truy vấn lịch sử và khai phá đữ liệu trực tuyến trên mạng Ví đụ so sánh đầu hiệu của lưu lượng mạng hiện tại với các mẫu lưu lượng được lưu trữ để phát hiện một cuộc tấn công từ chối địch
vụ Một ví dụ khác như theo đối URL cũa các yêu cầu Web gin day dé tìm ra
khách hàng tiêu thụ băng thông nhiều nhất Sau đây là các truy vấn điển hình
trong phân tích lưu lượng mạng:
+ Ma trận lưu lượng: Xác định tổng lượng băng thông sử đụng bởi
mỗi cặp nguồn - đích và nhôm theo địa chỉ IP, mặt nạ mạng con, và loại giao
‘thie Luu ý rằng lưu lượng IP được đôn kênh theo thống kê, đo đó một luồng
lưu lượng phải được tách kênh để tấ tạo lại các phiên TCP TP
Trang 211.3.3 Ứng dụng trong phân tích nhật ký giao dich
“Khai phá dữ liệu trực tuyến, sử đụng các bản ghỉ truy nhập vweb, ban ghỉ cuộc gọi điện thoại, và bản ghỉ các giao địch Ngân hàng qua ATM cũng
là bài toán phù hợp với các mô hình luỗng dữ liệu Mục đích của việc khai
phá đữ liệu này là đề tìm kiếm các mẫu hành vi quan tâm của khách hàng, xác định các hành vi nghỉ ngờ, từ đó có thể chỉ ra hành vi gian lận và dự báo giá trị đữ liệu cho tương lai Cũng tương tự như trong ứng đụng trực tuyến
khác, điều này đòi hỏi phải kết nối nhiều luỗng đữ liệu, thực hiện các phép lọc phức tạp và phân tích thống kê Sau đây là một số vi du:
® Tìm tất cả các trang web trên một máy chủ cụ thể đã được truy
nhập trong mười lãm phút cuối với một tỷ lệ lớn hơn mức trung bình hàng
ngày ít nhất là 40%
® Kiểm tra nhật ký của máy chủ Web trong thời gian thực và nếu
may chủ chính bị quá tải thì tái định tuyến người ding dén các máy chủ dự
phòng
« Xác định đường kính chuyển ving (Roaming) của khách hing sit dụng điện thoại đi động: Khai phá nhật ký về điện thoại di động đối với mỗi
khách hàng và xác định số lượng lớn nhất của các trạm gốc khác nhau mà
khách hàng sử đụng trong một cuộc gọi điện thoại di động
Bên cạnh các ứng dung mang tinh kỹ thuật, hệ quản lý luồng dữ liệu còn cô nhiều ứng dung trong lĩnh vực tài chính ngân hàng, thị trường chứng khoán Tuy nhiên các vấn đề này nằm ngoài phạm vi nghiên cứu cia luận
văn.
Trang 2213
Chương 1 đã trình bày kiến trúc, mô hình đữ liệu, mô hình truy vấn
và một số lĩnh vực ứng đụng của hệ quản lý luồng đữ liệu chuỗi thời gian
"Một trong các ứng đụng nỗi bật là sử dụng hệ thống này trong quá trình thu thập, lưu trữ tạm thời, truy vấn, xử lý phục vụ quân tr, theo đõi và phát hiện
các hoạt động bắt thường trên mạng Trong quản trị mạng, tần suất trích mẫu
thu thập thông tin càng lớn thì việc chân đoán hoạt động của mạng cảng chính
xác (Vi dụ: chân đoán
là cực lớn, Thuật toán xoay vòng với cơ sở dữ liệu chuỗi thời gian RRD
nhưng việc xử lý và lưu trữ đữ liệu theo thời gian
(Round Robin Database) là một giải pháp nhằm tối ưu hóa hệ thống, tránh tốn
kêm tài nguyên và giảm độ phức tạp của hệ thống Thuật toán RRD và ứng dung trong quản trị mạng là nội đung của chương 2
Trang 23CHƯƠNGH
'THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN
TRONG QUẦN TRỊ MẠNG
2.1 Thuật toán xoay vòng với cơ sở đữ liệu chuỗi thời gian
"Thuật toán xoay vòng với quản lý đữ liệu chuỗi thời gian cho phép lưu
trữ và hiển thị đữ liệu chuỗi thời gian, thu thập thông tin từ mạng hay chuyển
đổi từ MySQL và lưu trữ các dữ liệu đưới dạng đã xử lý, giảm thiểu vận hành
1O để cập nhật thời gian thực và trình bày đỏ thị hữu ích bằng cách xử lý đữ
liệu độ phân giải ỡ các khoảng thời gian khác nhau
li thời gian RRD sử dụng bộ quét thiết
đữ liêu của các máy tính trên mạng như: tải trung bình, sử dung
hiển thị kết quả đưới đạng đỏ thị các thông số đó của các máy tính trên mạng
Như vậy, để thấy rõ các điểm giống nhau và sự khác biệt giữa thuật
vòng RR( Round Robin) truyền thống được sit dung trong hệ điều
toần xo;
hành máy tính và thuật toán thuật toán xoay vòng trong cơ sở dữ liệu chuỗi thời gian RRD ( Round Robin Database), trước tiên chúng ta nhắc lại nguyên
1ý thuật toán RE và tiếp theo sẽ trình bày về thuật toán RRD
2.1.1 Nguyên lý cũa thuật tán xoay vòng RR( Round Robin)
"Trong thuật toán này, hệ thị
quantum) khoảng tit 10-100 mili giy (ms)
1g quy dinh một lượng tử thời gian (time
Trang 24Hàng đợi các tiến trình được tổ chức theo kiểu vòng tròn và các tiến
trình luôn luôn đâm bão được phục vụ Khi có tiến trình mới phát sinh, nó sẽ được đưa vào hàng đợi vòng tròn và được đặt ở vị trí phục vụ ngay Các tiến trình đù ngắn hay dài đều có độ ưu tiên phục vụ như nhau
‘Vidu minh hoạ: về thuật toán Round Robin
Thời gian chờ đợi trung bình sẽ 1a (0+6+3+5)/3 = 4.66 milisecondes
'Nếu có m tiến trình trong hang doi sin sang va sé dung quantum g, thi
én trinh sé duoc c4p phat CPU J/m trong từng khoảng thời gian g
Trang 25
tiến trình sẽ không phải đợi qua (n-1)q don vị thời gian trước khi nhận được
CPU cho lượt kế tiếp
Nhận xét: Vắ
quantum Nếu thời lượng quantum quá bế sẽ phất sinh quá nhiều sự
chuyên đổi giữa các tiền trình và khiến cho việc sử đụng CPU kém hiệu quả
ag thời gian hỏi đáp và giảm
đề đáng quan tâm đối với giải thuật RR là độ đài của
‘Nhung néu sử đụng quantom quá lớn sẽ làm
'khã năng tương tác của hệ thống
Trên thực tế, dé dim bảo độ ưu tiên cho các tiền trình đài, hệ thống sẽ phân chia các tiến trình thành m lớp Số lần được phục vụ và thời gian một lần phục vụ tiền trình tại mỗi lớp khác nhau (giả sử ở lớp thứ ¡, tiến trình được phục vụ &: lần và mỗi lần với thời gian g))
Nếu sau khoảng thời gian đã được phân phối mà tiến trình chưa kết
thúc hoặc không bị ngit thi nó sẽ được chuyển sang lớp thứ ¡ + 7 ( với š.; và g-1 lon hon ) Lượng tử thời gian sẽ tăng din cho đến khi tiến trình rơi vào lớp ngoài cùng (lớp m) Ở đó nó sẽ được phục vụ với lượng tử g„ không đổi
Như vậy thứ tự ưu tiên của các tiền trình sẽ ting dan theo thời gian xếp hàng
đợi
Ưu điểm của phương pháp phục vụ đồng mức theo lớp sẽ cho phép hệ
thông ưu tiên những tiến trình ngắn (vì nó kết thúc sớm) nhưng nỗ không
tổn hại lớn cho các tiến trình dài
Nhược điểm là đo phải thường xuyên phân phối lại giờ CPU nên thời gian chờ đợi trung bình của Rounđ Robin có thể lớn.
Trang 261
2.1.2 Thuật toán xoay vòng với cơ sỡ đi
(Round Robin Database)
2.1.2.1 Nguyén ia RRD
Nhu cầu xây dựng hệ thống quản trị mạng cho phép giám sát theo
thời gian thực cũng như phân tích tốc độ mạng cao là cần thiết Để tăng độ
chính xác của các phép đo lường, quản trị mạng thường làm tăng tần số l
mẫu Hậu quả của xu hướng này là hệ thống giám sát sản xuất một số lượng
dữ liệu lớn cần được lưu trữ và phân tích trong thời gian rất ngắn Cơ sở dit
liệu quan hệ không thích hợp cho việc lưu trữ và xử lý dỡ liệu đo lường phục
vụ quân trị mạng vì các lý đo sau:
+ Tại mỗi khoảng thời gian đo lường, các bảng sẽ cập nhập dữ liệu mới
và như vậy làm tăng số bản ghỉ Hậu quả là bảng dữ liệu cũng như các không
gian thực trên đĩa tăng cùng với số phép đo
* Ngay sau khi chỉ số băng trở nên đủ lớn sẽ căn chờ việc lưu (cached)
xuống RAM và việc lấy đữ liệu sẽ trở nên chậm chạp đáng kể, đăc biệt đối
với các ứng dụng cô đữ liệu ở phần đầu cơ sỡ dỡ liệu
Để giải quyết những vấn đề này với cơ sở đữ liệu quan hệ, cơ sở đữ liệu chuỗi thời gian (Time series database, TSDs) đã được tạo ra Cơ sỡ dit liệu xoay vong (Round - Robin, Database, RRD) là một bổ sung tuyệt vời dé
cơ sở dữ liệu quan hệ lưu trữ chuỗi thời gian Nó thực hiện một bộ đệm quay vòng cổ định dựa trên tệp tin, nơi dữ liệu được lưu trữ theo dẫu thời gian Khi
cơ sở dữ liệu được tạo ra, phải sác định thời gian tổn tại dữ liệu cũng như các
tần số (tên bước của RRD) đữ liệu được lưu trữ Ví dụ, cứ mỗi 5 phút thực
hiện phép đo và lưu giá trị đo lâu nhất 30 ngày Hình 2.1: mô tả nguyên lý giải thuật của một cơ sở dữ liệu RRD Vì tắt cả các thông tin được quy định
tại thời điểm tạo cơ sở đữ liệu, các file RRD không phát triển theo thời gian:
Trang 27kích thước của chúng là tỉnh và bằng bộ đệm quay vòng Mỗi cơ sở đữ liệu 'RRD có thể lưu trữ nhiều chuỗi thời gian, không nhất thiết tất cả chia sẽ cùng thông số thời gian sống và tần số Thường cơ sở đữ liệu RRD có kích thước
nhỏ (64 KB hoặc ít hơn) và được lưu trữ như các tập tin trên đĩa
‘Round Robin Archive - RRA ‘ed tine period
‘xe mie sare
'
"Hình 2.1 Nguyên lý cũa cơ sỡ dữ liệu RRD (RRA) 2.1.2.2 Dit ligu trong RRD
Cơ sỡ dỡ liệu chuỗi thời gian RRD lưu trữ đạng "tý lệ” trong khoảng thời gian Những khoảng thời gian được xác định rõ ràng về ranh giới theo thời gian Tuy nhiên, dỡ liệu đầu vào không phải là luôn luôn là một tỷ lệ và
tất có thê sẽ không trong ranh giới đó Điều này có nghĩa là đữ liệu đầu vào cần phải được xử lý
Quả trình chuyển đổi đỡ liệu chia làm ba giai đoạn:
« Chuyên đổi dữ liệu về đạng tỷ lệ
« Chuẩn hóa các khoảng thời gian
« Hợp nhất các khoảng thời gian vào một khoảng thời gian lớn hơn.
Trang 2819
'Tất cả các giai đoạn đều áp dụng cho tất cả các đữ liệu đầu vào, không
cô trường hợp ngoại lệ Dữ liệu đầu vào cô bốn kiểu được sử dụng là: GAUGE, COUNTER, ABSOLUTE, DERIVE
Giai đoạn 1: Chuyén déi dữ liệu vê dạng tỹ lệ
Đối với từng kiểu đữ liệu đầu vào sẽ có quy tắc chuyên đổi khác nhau:
Các dữ liệu đầu vào đã là một tỷ lệ Vi dụ như một đồng hỗ tốc độ,
nhiệt độ Kiễu dữ liệu này không cần chuyên đổi, nhưng vẫn phải chuẩn hóa
và hợp nhất các khoảng thời gian
+ DERIVE:
Kidu dé ligu nay tương tự như COUNTER, tuy nhiên có thé ting hoặc giảm Tỷ lệ có thể cô giá trị đương hoặc âm
"Trong cả bốn trường hợp, kết quả dữ liệu sau chuyên đổi đều là một tỷ
lệ này có hiệu lực giữa lần truy nhập trước và hiện tại Như vậy công cụ
'RDtool không cần phải biết bất cứ điều gì về các dữ liệu đầu vào mà chỉ cần
'biết khi bắt đầu, kết thúc và tỷ lệ.
Trang 29Rate
Time
Hình 2.2 Van dé tỷ lệ và thời gian 1 Hãy quan sắt ví dụ như hình 2.2 nếu máy tính chuyển dữ liệu tốc độ 60, trong 1 giây, hay chuyển cùng một lượng dữ liệu với tốc độ 30
1g 2 giây hoặc 20 byte/giây trong 3 gi
hoặc 15 bytegiây
Chúng ta nhận thấy: tỷ lệ nhân với thời gian là một hằng số Nếu chúng
ta quan tâm số byte đữ liệu được truyền, trong hình trên, diện tích các miễn là
quan trọng, khơng cần quan tâm chiều rộng cũng như chiều cao của nĩ
Chính vì vậy sau khi chuyên đổi về dạng tỷ lệ dữ liệu cần phải được chuẩn hĩa
Giai đoạn 2: Chuẩn hĩa khộng thời gian
Các đầu vào bây giờ là một tỷ lệ nhưng nĩ khơng xác định rõ ranh giới thời gian Chính vì vậy cần chuẩn hĩa khoảng thời gian Gia sử chúng ta đọc
một bộ đếm mỗi phút Chúng ta biết nội đung bộ đếm tại một thời điểm cụ
thể (MMM: SS) Nhung chúng ta khơng biết: số đếm tăng lên với tỷ lệ cao trong một khoảng thời gian ngắn (1 giây ở 60 byte/giay) hoặc trong một thời gian đài ở một tỷ lệ nhỏ (60 giây ỡ 1 byte/giây) Trên hình 2.2, các thời điểm (MM: SS) sẽ được 6 dau dé trong vùng trắng,
Trang 30Điều này cĩ nghĩa rằng tỷ lệ chúng ta biết khơng phải là tÿ lệ thực!
Trong ví du trên, chúng ta chỉ biết rằng may tính chuyển 60 byte trong 60 giây, ỡ đầu đồ giữa MM: SS và MM: SS tiếp theo Tỷ lệ tính tốn được sẽ là
1 byte/giây trong mỗi khoảng thời gian 60 giây
Hình 2.3 cho
šy một số khoảng thời gian và mức đo Các mẫu được
tại giây thứ 30 của mỗi phút, mỗi miễn cĩ màu đại điện cho các lẫn đo lường khác nhau
0:00" 01100 0200 0300 0490
Hình 2.3 Vấn để tỷ lệ và thời gian 2
"Phần đưới của hình 2.3 là kết quả đữ liệu sau khi chuẩn hĩa hĩa Mỗi tỷ
lệ đã chuẩn hĩa cĩ giá trị trong một khoảng thời gian nhất định Chúng ta gọi
chung là điểm di liệu chính PDP (Primary Data Point) Mỗi PDP là cĩ giá trị
trong một bước
Giai đoạn 3: Hợp nhất các khộng thời gian
Giả sử chúng ta cơ dữ liệu như trên hình 2.3 Chúng ta muốn xem
mười ngày của đữ liệu trên một biêu đỏ Nếu mỗi PDP là một phút, bạn cần
10 * 24 * 60 PDP (10 ngày 24 giờ 60 phút) 14400 PDP là rất nhiều, đặc biệt 1à nếu màn hình ảnh nhỏ chỉ là 360 pixels Cĩ một cách để hiễn thị dữ liệu đĩ
là để gộp một số PDP với nhau và hiển thị chúng như một điểm ảnh Ví đụ gộp 40 PDP vào một thời gian, cho mỗi điểm ảnh, đề cĩ được tổng cộng mười
Trang 31Lấy tỷ lệ chuẩn hóa cuối cùng
Các hàm hợp nhất CF (Consolidation Function ) này được sử đụng phụ thuộc vào mục tiêu khác nhau
Các dữ liệu thu thập của các hệ thống sử dụng cơ sỡ dữ liệu chuỗi thời gian được xử lý và lưu trữ trong các cơ sở dữ liệu RRD dưới đạng các tập tin .Do lượng dữ liệu thu thập được rất lớn và để theo đối hoạt động trong một quá khứ đài, các hệ thống cũng sử đụng nguyên Iÿ “Hợp nhất các khoảng thời gian” Từ các đữ liệu thu thập được trong RRD, hệ thông có thể thiết đặt để tính toán các giá trị AVERAGE, MIN, MAX, and LAST trong những khoảng thời gian nhất định và lưu vào cơ sỡ dữ liệu lưu trữ Round Robin Archives, RRA)
"Trong một hệ thống, có thể có nhiều cơ sỡ đữ liệu RRA, cô thể thiết đặt
để hợp nhất khoảng thời gian với các hàm AVERAGE, MIN, MAX, and LAST của các thông số thu được cho từng cơ sở dữ liệu lưu trữ RRA Hình
2.4 Minh họa cơ chế tổ hợp đữ liệu n¿
Trang 32'RRD là từ viết tắt của Cơ sở đữ liệu Round Robin là một hệ thống quản
lý, lưu trữ đữ liệu và hiển thị đữ liệu theo chuỗi thời gian
Hình 2.5 cho thấy sơ đồ khối của một hệ thống quản trị mạng:
trữ trong các bảng đữ liệu MySQL Trên cùng một my chủ, các modul quét
các thiết bị để (poller) truy vấn, thu thập các thông số mạng của các thiết bị,
Trang 33RRD Hé quân trị mạng sử đụng những đữ liệu RRD để tổ hợp và biểu điễn kết quả đưới dạng đỏ thị RRD cũng được sử đụng để phát hiện các lưu lượng tắt thường trong mạng và qua đó đánh giá hoạt động hay phát hiện các tấn
công mạng
2.2.1 RRD trong thu thập dữ liệu và hiển thị kết quả
Một hệ thống lưu trữ chuyên ngành được biết đến như một cơ sở đữ
liệu Round Robin cho phép lưu trữ một lượng lớn thông tin chuỗi thời gian
như nhiệt độ, băng thông mạng và giá cổ phiếu với một đung lượng đĩa không đổi Nó làm điều này bằng cách tận đụng nhu cầu thay đôi cho chính xác Như chúng ta sẽ thấy sau này, các "round_- robin" một phần xuất phát từ cấu trúc
dữ liệu cơ bản được sử đụng đễ lưu trữ các điểm dữ liệu: đanh sách tròn
“Nhiệm vụ đầu tiên trong thu thập đữ liệu là để lấy dữ liệu và được thực hiện bằng cách sử đụng bộ quét thiết bị Tân số quét c6 thé được thực
hiện từ lịch của hệ điều hành
Sau khi thu thập được đữ liệu, đễ có thê tạo ra những đồ thị về trang
thái hoạt động của các thiết bị cần giám sát sử dụng RRDTool (Round Robin Database Tool) để lưu trữ dữ liệu RRDTool là một hệ thống lưu trữ dữ liệu
va hién thị dữ liệu theo chuỗi thời gian Nó lưu trữ các dữ liệu một cách rất
nhỏ gọn mà độ lớn của tập sẽ không thay đổi theo thời gian, dựa trên dữ liệu
của RRDTool, RDDTool hỗ trợ trong hệ thống đồ họa, tạo ra các sơ đỏ thể
hiện dỡ liệu mà nó thu thập được
Một trong những tính năng được đánh giá cao nhất của RRDTool là
tích hợp chức năng đỗ họa Điều này càng hữu ích khi kết hợp với máy chủ
web.
Trang 34"Như vậy, đữ liệu được thể hiện qua các thông số của hệ thống va khoảng thời gian dữ liệu được thu thập Hình ảnh của các dữ liệu này thường được mình hoa thé hiện theo những cách rit khác nhau trên cơ sở đó người
quản trị cô thê đánh giá được ngưỡng của thiết bị
"Trong hệ quản trị mạng, ngoài việc sử đụng cơ sở đữ liệu RRD dé hw trữ dữ liệu thu thập và tổ hop theo chuỗi thời gian, các nhà c
1g nghé con
'phát triển cơ sở đữ liệu RRD đề biểu điễn đữ liệu đưới đạng đồ thi Hinh 2.6
‘Minh họa nguyên lý hiển thị kết quả các thô
1g số mạng từ RRD
Hình 2.6 Biểu diễn đồ thị trong RRD
Hệ thống giám sát mạng quy mô lớn yêu cầu lưu trữ và tổ hợp đữ liệu
đo lường hiệu quả cơ sỡ dữ liệu quan hệ và cơ sở đữ liệu xoay vòng RRD Có những hạn chế khi xử lý một lượng lớn số chuỗi thời gian Thời gian truy cập
dữ liệu làm tăng đáng kể khi tập số đữ liệu, số phép đo lưỡng lớn Chính vi
vây hệ thống quản trị và theo dõi mạng buộc phải giảm số các thông số đo
1g số để thời gian truy cập đữ liêu giới hạn
lường số liệu và tần suất lấy thôi
Trang 35số lượng tuyệt đối của đữ liệu được tạo ra trên cơ sở một thời gian ngắn Các
cơ sở hạ tầng phục vụ mạng lưới hoạt động lớn gồm hàng chục thiết bị chuyển mạch và định tuyến, hàng trăm máy tính host, và hàng ngàn trường hợp ứng đụng đaemon đề hỗ trợ một số thuê bao của hơn 1 triệu người sử
dụng Thứ hai, có rất nhiều loại trong các loại đữ liệu thu thập được Các địch
vụ mạng doanh nghiệp theo đối các bộ đếm SNMP trên các liên kết mạng,
thống kê như tải của CPU và hoạt động của thiết bị LO, và các bản ghi sự
kiện cho daemon tng dung Mọi biến giám sát, có một đơn vị lưu trữ dữ liệu
trên một công thiết bị chuyển mạch, tải CPU của một máy chủ, hoặc yêu cầu
xử lý bởi một chương trình chạy như một tiền trình nền, tạo ra một chuỗi thời gian Tất cả những chuỗi thời gian phản ánh một phần của hệ thống mạng
địch vụ tổng thể Do đó, thách thức đầu tiên là thu thập, lưu trữ và cung cấp thời gian truy cập dữ liệu rộng lớn và da đạng Các phần mềm mã nguồn mỡ [7] thường gặp thứ thách đầu tiên này Khi sử đụng trình đuyệt web, kỹ thuật viên mạng có thể nhanh chồng xem một loat biéu đồ thời gian cho một mục
tiêu và biển của tin suất
Các kỹ thuật viên mạng có thể sẽ quan tâm đến hành vi khác thường: nghĩa là, những thay đổi trong hành vi ngắn hạn của một chuỗi thời gian (phút hoặc giờ) mà không phù hợp với lịch sử quá khứ Các kỹ thuật viên có thể sẽ không quan tâm tới xu hướng đài hạn (tuần hoặc tháng) bỡi vì họ hy vọng
Trang 36chuỗi thời gian phải được phát triển trong một môi trường năng động Hành vỉ
khác thường có thê chỉ là một phần rất nhỏ trong hiệu suất, sự
bại trong
‘ing đụng, hoặc hệ thống thời gian chết Trong một số trường hợp, hành vi 'khác thường có thể được dự đoán; một số hành vi lại không thể đự đoán được
"Thách thức thứ hai của mạng lưới giám sắt là việc tự động xác định
"hành vi khác thường ở giữa hàng ngàn chuỗi thời gian mạng địch vụ Một khỉ hành vi đồ được xác định, thả sẽ kích hoạt được cảnh báo để thu hút sự chú ý
của kỹ thuật viên về các vấn đề tiêm năng Hiện cô các công cụ phần mềm cũng cấp một số chức năng này, nhưng các giải pháp này thường đựa trên các quy tắc đơn giản hoặc một mức nào đó (ví dụ sử dụng bộ nhớ là đưới 80%) Những quy định đơn giãn này và mức nay là đủ cho nhiều ứng đụng, nhưng
họ không thể phát hiện những thay đổi tinh té hon trong hành vi và họ áp đụng một tiêu chí tĩnh đề phát hiện hành vi khác thường hơn là một tiêu chí
năng động,
'Khái niệm về hành vi khác thường
Giả sử một mô hình thống kê tôn tại mô tả hành vi của mét chuỗi thời
gian (hoặc ít nhất là mô tả những điểm cần chú ý) Với một mô hình như vậy,
người ta có thể xác định hành vi khác thường là những hành vĩ không phù hợp với các mô hình (hoặc không được mô tả hiệu quả bởi các mô hình)
Tất nhiên, hành vi bất thường đối với một mô hình thống kê có thể hoặc không thể mang lại kết quả thực từ quyền lợi của các kỹ thuật viên Trong trường hợp phát hiện nhầm từ kết quả bình thường thành bắt thường thì gọi là sai tuyệt đối (false positive) Rõ ràng, ý tưỡng là để giảm thiêu tỷ lệ sự
kiện bình thường sai khi xác định tất cả các sự kiện thực Tuy nhiên, ý tưởng
này hiểm khi có thể đạt được Trong hầu hết các hệ thống phát hiện, có một
sự cân bằng giữa các sự lựa chọn (để tránh nhầm kết quả bình thường, cung.
Trang 37trọng nếu ta coi mô hình thống kê cho hành vi bất thường như là một cơ chế
sàng lọc chứ không phãi là một sự thay thế cho sự phán đoán của các kỹ thuật viên
Chú ý: định nghĩa này áp dụng cho mỗi chuỗi thời gian độc lập Có
thể cô nhiều cách để đạt được mô hình thống kê các hành vi khác thường
bằng cách tận dung các mối quan hệ giữa các biến mạng lưới địch vụ nhưng điều đó không được để cập trong bài viết này
Nhiều mạng lưới địch vụ chuỗi thời gian cần phải cô các quy tắc
(hoặc đặc điểm) sau đây và những quy tắc này cũng tất cần cho một mô hình:
1 Một xu hướng theo thời gian (ví đụ một sự gia tăng dẫn din
3 Biến thiên theo mia (vi du, yêu cầu ứng đụng đao động rất mạnh từng phút trong giờ cao điểm từ 4-8 giờ tối, nhưng lúc 1 giờ sáng yêu cầu ứng dụng hầu như không thay đổi)
4, Tién héa din din của những qui luật (1) đến (3) theo thời gian
(vi du, chu kỳ hàng ngày thay đổi dần dần khi số lượng các giờ ban ngày buổi tối tăng từ tháng Một đến tháng Sáu).
Trang 38Những quy định này có thé không đầy đủ nhưng nô là những quy
định quan trọng nhất
Ngoài hàng loạt những qui luật thời gian cho mô hình thì thiết kế mô
tình phải xem xét bối cảnh giám sát thời gian thực Các
'biết rất rõ là mô hình thống kê hết sức phức tạp và khô có thể tính toán kha thi
trong bồi cảnh thời gian thực
thuật viên cí
"Phát hiện hành vi bất thường này được chia thành ba phần:
~_ Một thuật toán để đự đoán các giá trị của một chuỗi thời gian
tương lại
- Một thước đo về độ lệch giữa các giá trị dự đoán và các giá trị
quan sắt
~ Một cơ chế dé quyết định liệu
hoặc chuỗi các giá trị quan sát là “bị lệch” so với giá trị đự đoán
1g và khi nào một giá trị quan sat
Các mô hình được đề xuất là một phẫn mỡ rộng của Holt - Wimters
Dự báo, trong đó hỗ trợ mô hình gia tăng cập nhật thông qua làm thông suốt
Các phần sau day thao luận về các mô hình ở một số chỉ tiết và yêu cầu một
số ký hiệu toán học
Cho yì „tài với
gian quan sát thấy ỡ một số khoảng thời gian cổ định ( nhắc lại RRDtool ánh
+~: biểu thị chuỗi các giá trị cho các chuỗi thời
quan sát mỗi ngày)
Phương pháp làm trơn theo lí
Trang 39giá trị hiện tại và những dự đoán hiện tại Cho ÿ, biễu thị các giá trị dự đoán
cho thời điểm ¿ + 1, sau đó: i: +(1-a) Se
Dự đoán thực sự là trung bình về lượng tất cả các quan sát trong quá
khứ trong chuỗi thời gian Những tiền đề của Phương pháp làm trơn theo lũy
thừa là giá trị hiện tại cung cấp nhiều thông tin nhất cho đự đoán các giá trị tiếp theo, và rằng trọng lượng của sự quan sát cũ sẽ giảm theo cấp số nhân bởi
vi những quan sit này thiên về quá khứ Nó là một thuật toán gia tăng vì các
đự đoán tiếp theo thu được bằng cách cập nhật các đự báo hiện tại với các giá
trị quan sắt hiện tại
ạ là các tham số mô hình và 0 < ø < 1 No quyết định tỷ lệ phân rã (1
~ 8) và trọng lượng các giá trị hiện tại được đưa ra trong quá trình cập nhật gia tăng
Phuong pháp dự đoán theo mô hình Holt - Winters
Phương pháp dự báo theo mô hình Hoit - Winters là một thuật toán phức tạp hơn là phương pháp làm trơn theo li ý thửa Holt - Winters dựa trên tiên đề rằng các chuỗi thời gian quan sát có thễ được chia thành ba phần: đường cơ sỡ, xu hướng tuyến tính, và hiệu ứng theo mùa Các thuật toán giả định mỗi thành phần này tiến hóa theo thời gian và điều này được thực hiện
‘bing cách áp dung phương pháp làm trơn theo lũy thừa đề từng bước cập nhật các thành phần
Trang 4031
y= Bla, ~ a,-1) + (1 = Bybe-a
“Xu hướng theo mùa
= 101-4) + 0mm Như trong phương pháp làm trơn theo lũy thừa, hệ số cập nhật là trung bình của các dự báo và ước tính thu được chỉ từ y; quan sát, với phân số được xác định bởi các thông của mô hình (2, 6, ;) Nhớ lại m là khoảng thời
gian của chu kỷ theo mia; vi vậy các hệ số theo mùa tại thời điểm t tham khảo các hệ số tính toán cuối cũng cho cùng thời diém trong chu kỹ theo mùa
Các tước tính mới của đường cơ sỡ là giá trị quan sắt được điều chỉnh
'bởi các ước tính tốt nhất có sẵn của hệ số theo mùa (c, „) Làm cơ sở cập nhật vào tài khoản cho sự thay đổi đo xu hướng tuyến tính, dự đoán xu hướng tuyến tính được thêm vào hệ số đường cơ sở Các ước tính mới của xu hướng
tuyến tính chỉ đơn giãn là sự khác biệt giữa các cơ sỡ mới và cũ (như khoảng thời gian giữa các quan sát cố định, nó không liên quan) Các ước tính mới của các thành phin theo mùa là sự khác biệt giữa giá trị quan sắt và các cơ sở tương ứng
a, 8 và ; là các thông số thích nghỉ của thuật toán và 0 < ø, ổ, ÿ < 1
Giá trị lớn hơn có nghĩa là các thuật toán thích nghỉ nhanh hơn và dự đoán
phân ánh quan sát gần đây trong chuỗi thời gian; giá trị nhỏ hơn cô nghĩa là
các thuật toán thích nghĩ chậm hơn, đặt trọng lượng hơn về lịch sử quá khứ
của chuỗi thời gian
Lưu ý rằng các công thức cập nhật bao hàm một sự hỗ trợ cần thiết để lưu trữ các giá trị hiện tại của đường cơ sở và xu hướng tuyến tính, và một
giai đoạn duy nhất của hệ số theo mùa, như các giá trị lưu trữ được thay thé
tại mỗi lần lặp.