1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán xoay vòng với quản lý dữ liệu chuỗi thời gian và Ứng dụng trong quản trị mạng máy tính

95 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thuật Toán Xoay Vòng Với Quản Lý Dữ Liệu Chuỗi Thời Gian Và Ứng Dụng Trong Quản Trị Mạng Máy Tính
Tác giả Nguyễn Thị Mỹ Hạnh
Người hướng dẫn PGS. TS Nguyễn Văn Tám
Trường học Đại học Thái Nguyên
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2016
Thành phố Thái Nguyên
Định dạng
Số trang 95
Dung lượng 4,66 MB

Nội dung

thay đổi nhanh chóng các đòng đữ liệu như: thống kê lưu lượng truy cập imtemet, đầu giá trên mạng [4], [6] ‘Trong Quản trị mạng, tần suất trích mẫu thu thập thông tin càng lớn thì việc

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRUONG DAI HOC CONG NGHE THONG TIN & TRUYEN THONG

NGUYÊN THỊ MỸ HẠNH

THUẬT TOÁN XOAY VÒNG

VOI QUAN LY DU LIEU CHUỖI THỜI GIAN

VA UNG DUNG TRONG QUAD

LUAN VAN THAC SY CONG NGHE THONG TIN

Thai Nguyén - 2016

Trang 2

- ĐẠI HỌC THÁI NGUYÊN

TRUONG DAI HOC CONG NGHE THONG TIN & TRUYEN THONG

NGUYEN THI MY HANH

THUAT TOAN XOAY VONG VOI QUAN LY DU LIEU CHUOI THOI GIAN

VA UNG DUNG TRONG QUAN TRI MANG MAY TINH

Chuyên ngành: Khoa học máy tính

: 60480101

LUAN VAN THAC SY CONG NGHE THONG TIN

NGUGI HUGNG DAN KHOA HOC

PGS.TS NGUYEN VAN TA

Trang 3

Số lượng và kết quả nghiên cứu trong luận văn này là hoàn toàn trung

thực và chưa từng được sử dụng hoặc công bố trong bất cứ công trình nào khác

"Mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các

'thông tin trích dẫn trong luận văn đều được ghỉ rõ nguồn gốc

Tác giả luận văn

Trang 4

LOICAM ON

Lời đầu tiên học viên xin gửi lời cảm on trân thành tới các Thầy, Cô giáo trường Đại học Công nghệ thông tin và Truyền thông, Đại học Thái Nguyên, các thầy cô đã tân tỉnh đạy bảo, truyền đạt các kiến thức quý báu cho

"học viên trong suốt quá trình học tập

Xin tran trọng cảm ơn Khoa, Phòng, Ban và các cán bộ đã tạo điều kiện

tốt nhất cho học viên học tập và hoàn thành đề tài tốt nghiệp của mình

Đặc biệt, học viên xin được gửi lời cảm ơn sâu sắc đến Thầy giáo

"hướng dẫn học viên PGS TS Nguyễn Văn Tam, Thầy đã tận tình chỉ bảo giúp

đỡ học viên trong suốt quả trình nghiên cứu dé hoàn thành luận văn

Cuối cùng học viên xin gửi lời cảm ơn gia đình, bạn bè, đồng nghiệp đã

giúp đỡ, động viên ủng hộ học viên rất nhiều trong toàn bộ quá trình học tập cũng như nghiên cứu dé hoàn thành luận văn này

Trân trong căm ơn!

Trang 5

CHƯƠNG I: MÔ HÌNH QUẢN LÝ LUỎNG DỮ LIỆU CHUỖI

1.1 Kiến trúc tổng quát của hệ thống quản lý luông dữ

thời gian

1.1.1 Giới thiệu chung

1.1.2 Khải niệm chuỗi thời gian

1.1.3 Kiến trúc tông quát

1.2 Mô hình dữ liệu và truy vấn

1.2.1 Mô hình dữ

1.2.2 Ngữ nghĩa truy vấn liên tục

CHƯƠNG II :THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU

CHUỖI THỜI GIAN TRON

Trang 6

2.1.1 Nguyên lý cũa thuật toán xoay vòng RR( Round Robin)

chuỗi thời gian RRD

2.2.1 RRD trong thu thập dữ liệu và hiển thị kết quả

2.2.2 RRD trong phát hiện bắt thường

CHUONG 3 : CHƯƠNG TRINH THU NGHIEM

3.1 Bài toán thữ nghiệm

3.2 Bộ công cụ phục vụ xây dựng cơ sỡ dữ liệu chuỗi thời gian

RRDtool

3.2.1 Tập các hàm thư viện cita RRDiool

3.2.2 Hoạt động cũa RRDfooL

3.2.3 Giám sắt dữ liệu bắt thường

3.3 Kỹ thuật tích hợp RRDTool vào hệ quan tri mang CACTI

KET LUAN VA HUONG PHAT TRIEN

TAI LIEU THAM KHAO

Trang 7

Internet Service Provider Local Area NetWork Personal Computer Primary Data Point Personal Hompe Page Round Robin

Round Robin Archives Round Robin Database Simple Network Managerment Protocol Structured Query Language

Tool Command Language

‘Tranfer Control Protocol Time Series Database Uniform Resource Locator Extensible Markup Language

Trang 8

- Kiến trúc tổng thể của hệ quân lý luồng Dữ liệu

- Nguyên lý của cơ sở dữ liêu RRD

- Vấn đề tỷ lệ và thời gian 1

- Vấn đề

lê và thời gian 2

- Hợp nhất trong Cơ sở đữ liệu RRD

- Sơ đồ khối của hệ quản tri mang

- Biểu điễn đô thi trong RRD

- Lưu đồ chung Chương trình tích hop RRDTool! vio Cacti

- Chạy lệnh tích hợp RRDTool

- Mô hình thữ nghiệm

- Mân hình đăng nhập hệ thống

- Giao diện chính của Cacti

- Cài dat dich vu SNMP cho thiết bị mới

- Tìm ñile SNMP Serrices

- Đặt cầu hình SNMP Services

- Cài dat thiét bi vao Cacti

- Danh sách các nội đung cần giám sát

~ Trạng thái kết nói thiết bi trong Cacti

~ Thể hiện việc lựa chọn thiết bị cần tao dé thi

~ Danh sách các máy có trong cây đồ thị

18

19

21

2 2

Trang 9

Hình 3.16

Hình 3.17

Hình 3.18

Hình 3.19

- Import Templates data trong cacti

~ Thông tin quản lý các thiết bị trong hệ thống mạng

- Quản lý theo lịch thời gian

~ Thông tin giới hạn của hệ thống

60

61

61 6

Trang 10

giải pháp nhằm tối ưu hóa hệ thống, tránh tốn kém tài nguyên và giảm độ

phức tạp Trong một co sỡ dữ liệu Round - Robin (RR) thường là dữ liệu

chuỗi thời gian như: băng thông mạng, nhiệt độ, giá cổ phiếu vv, tất nhiều các ứng dung mới nổi gần đây yêu cầu hỗ trợ cho việc phân tích trực tuyến thay đổi nhanh chóng các đòng đữ liệu như: thống kê lưu lượng truy cập

imtemet, đầu giá trên mạng [4], [6]

‘Trong Quản trị mạng, tần suất trích mẫu thu thập thông tin càng lớn thì

việc chin đoán hoạt động của mạng càng chính xác (Vi du: chân đoán lỗi, nhưng việc xử lý và lưu trữ đữ liệu theo thời gian là cực lớn, các giải pháp về

cơ sỡ dữ liệu truyền thống không đáp ứng được, thuật toán RRD là giải pháp

"hữu hiệu Do đồ, học viên lựa chọn đề tài luận văn Thạc sỹ “ Thuật toán xoay

đưới dạng đồ thị trạng thái hoạt động của các thiết bị cần giám sit,

sử đụng RRDtool đề lưu trữ đữ liệu và hiển thị đữ liệu theo chuỗi thời gian

Dé thực hiện được điều đó học viên sẽ tiến hành nghiên cứu về mô hình quản

1ý luồng đữ liệu chuỗi thời gian, thuật toán xoay vòng với các đữ liệu chuỗi

Trang 11

1 Đối tượng và phạm vi nghiên cứu:

a Đối tượng nghiên cứu

Dữ liệu chuỗi thời gian

b Phạm vi nghiên cứu:

- Xếp lịch xoay vòng

- RRD trong quản trị mạng

3 Ý nghĩa khoa học, thực tiễn của đề tài

- Ý nghĩa khoa học: Hiểu được Ứng đụng của Thuật toán xoay vòng với quản tý đữ liệu chuỗi thời gian vào trong quản trị mạng máy tính

- Ý nghĩa thực tiễn: Vận dụng các phương pháp nghiên cứu để giải

quyết một bài toán về quản trị mạng, đồ là thuật toán xoay vòng với quản

đữ liệu chuỗi thời gian trong quản trị mạng Kết quả này có thể hoàn thiện, triển khai và ứng đụng trong thực tiễn

4 Phương pháp nghiên cứu:

- Nghiên cứu các kết quả đã công bố trong lĩnh vực quản lý dữ liệu

chuỗi thời gian và ứng đụng của quản lý đữ liệu chuỗi thời gian, thuật toán xoay vòng với cơ sở đữ liệu chuỗi thời gian RRD trong quản trị mạng

- Phân tích, tổng hợp, đánh giá các kết quả

~ Phân tích lý thuyết và xây đựng chương trình đề thử nghiệm bài toán

5 Bố cục cũa luận văt

Luận văn được trình bây thành các chương như sau:

Trang 12

Chong 1: MO HINH QUAN LY LUONG DU LIEU CHUOI THOI

GIAN

Chương 2: THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU

CHUỖI THỜI GIAN TRƠNG QUẢN TRỊ MẠNG

Chương 3: CHƯƠNG TRÌNH THỨ NGHIỆM.

Trang 13

'Bộ cơ sở đữ liệu lưu trữ truyền thống bao gồm các bản ghi tương đối

tĩnh không cô khái niệm được xác định trước thời gian, trừ khi thuộc tính đầu thời gian được bỗ sung rõ ràng Trong khi mô hình này rắt thuận lợi cho việc

1.1.1 Giới thiệu chung

Cơ sở dữ liệu truyền thống đã được sử đụng trong các ứng dụng yêu

cầu lưu trữ dữ liệu liên tục và truy

sở đữ liệu bao gỗi

vấn phức tạp Thông thường, một cơ

một tập các đối tượng không sắp xếp theo thứ tự và tương

đối tĩnh Việc chèn, cập nhật và xóa xây ra ít thường xuyên hơn so với các

truy vá

'Truy vấn được thực hiện khi có yêu cầu và câu trả lời phân ánh tình

trạng hiện tại của các cơ sở đữ liệu Tuy nhiên, trong thời gian gần đãi chúng ta đã chứng

mô hình truy v

sự nỗi lên của các ứng đụng mà mô hình dữ liệu và

này không phù hợp Thay vào

thông tin xuất hiện một cách tự nhiên trong các đạng thức một luông

„ các sự kiện xây ra và

Trang 14

trị đữ liệu; ví đụ bao gồm đữ liệu tir cam bién [5], lưu lượng Internet [4], các

mi cổ phiếu, tài chính [5], đầu giá trực tuyến [6], nhật ký sử đụng Web và

"bản ghi các cuộc gọi điện thoại [1]

Một luông dữ liệu là chuỗi các mục đữ liệu được sắp xếp theo thời

gian thực, liên tục, có trình tự (ví dụ ngầm định theo thời gian xuất hiện hoặc được đánh bởi nhãn thời gian (timestamp) một cách rõ ràng Thật khô có thể

kiểm soát thứ tự đến của các mục đữ liệu và cũng không khả thi để lưu trữ

toàn bộ luông đữ liệu Tương tự như vậy, các truy vấn luỗng dỡ liệu chạy liên tục trong một khoảng thời gian và từng bước sẽ trả về kết quả mới khi đữ liệu

mới đến Với các đặc điểm của luông đữ liệu và cách truy vấn liên tục đặt ra

các yêu cầu sau đây cho hệ thống quản lý luỗng dữ liệu

« Các mô hình đữ liệu và ngữ nghĩa truy vấn phải cho phép hoạt động

đựa trên trật tự và dựa trên thời gian (ví đụ như các truy vấn được thực trên

một cửa số động, năm phút một)

« Do không cô khả năng lưu trữ toàn bộ luông đữ liệu đây đủ nên có thể sử đụng các cấu trúc tóm lược, gần đúng Kết quả là, các truy vấn trên các

‘ban tôm lược cô thê không trả về đữ liệu chính xác

« Việc truy vấn dữ liệu trực tuyến có thê không thê sử đụng thao tác

blocking

« Do hiệu suất và khả năng lưu trữ hạn chễ, việc theo đối lại toàn bộ

luỗng đữ liệu nguyên gốc là không khả thi Các thuật toán xử lý luông đữ liệu chỉ sử đụng được luông dữ liệu một lần

« Các ứng đụng giám sát luông đữ liệu trong thời gian thực phải phân

‘ing nhanh với các giá trị đữ liệu bất thường

« Truy vấn chạy thời gian dài cô thể gặp phải những thay đổi điều

kiện của hệ thống.

Trang 15

Một chuỗi thời gian là một đãy các giá trị quan sát X : ={Xi, X:}

được xếp thứ tự điễn biến thời gian với xị là các giá trị quan sát tại thời điểm đầu tiên, x; là quan sát tại thời điểm thứ 2 và x, là quan sát tại thời điểm thứ n

‘Vi du: Cac bao cao tài chính mà ta thấy hằng ngày trên báo chí, tivi hay

Tnternet về các chỉ số chứng khoán, tỹ giá tiễn tệ, chỉ số tăng cường hay chỉ số

tiêu đùng đều là những thể hiện rất thực tế của chuỗi thời gian hay doanh số

của công ty trong 20 năm gần đây, hoặc nhiệt độ ghỉ nhận tại một trạm quan trắc khí tượng, hoặc công suất điện năng tiêu thụ trong một nhà máy hoặc lưu lượng mạng đo được với chu kỳ 5 phút đồ là các ví dụ điễn hình cho một

chuỗi thời gian

'Với chuỗi thời gian ta thường biểu thị trong một mặt phẳng với trục hoành biểu thị thời gian và trục tung biểu thị giá trị biến quan sát Phân tích chuỗi thời gian c6 mục đích nhận đạng và tập hợp lại các yếu tố, những biến đổi theo thời gian mà nô cô ảnh hưởng đến giá trị của biển quan sát

1.1.3 Kiến trúc tông quát

Kiến trúc tổng quát của hệ thống hệ quản lý luỗng đữ liệu thể hiện

trong hình 1.L

Trang 16

Lad

'Hình 1.1 Kiến trúc tông thể của hệ quản lý luồng dữ liệu

‘Modul theo dai dau vào dữ liệu sẽ điều chỉnh tốc độ thu thập dữ liệu cho phù hợp, có thể sẽ phải loại bỏ một số gói tin nếu hệ thống không thể tiếp nhận hết các gồi tin đến Dữ liệu thường được lưu trữ trong ba phân vùng: Kho lưu trữ làm việc, kho lưu trữ bản tom lược của luỗng đữ liệu, kho lưu trữ tĩnh cho meta-data Các truy vấn chạy lâu phải được đăng ký tới hàng đợi

và đặt vào nhôm chia sẽ Bộ xử lý truy vấn Vì chỉ có thể truy vấn một

truy vấn của họ đựa trên các kết quả mới nhất

1.2 Mô hình dữ liệu và truy vấn

1.2.1 Mô hình dữ liệu

Một luỗng đữ liệu theo thời gian thực là một chuỗi các mục đữ liệu dit liệu đến theo một trình tự và chỉ cô thể được nhìn thấy một lần [3] Vì các

Trang 17

Mục đữ liệu của luông đữ liệu riêng có thê biểu điễn đưới đạng các

các bộ đối tượng quan hệ hoặc các thể hiện cũa đối tượng Trong mô hình dựa

trên quan hệ, mục đữ liệu là các bộ chuyển tiếp được lưu trữ trong mối quan

tệ ảo qua nút từ xa Trong mô hình đựa trên đối tượn;

mục đữ liệu được mô hình hóa như các loại (phân cấp) dữ liệu với các phương pháp liên quan

Các mục đữ liệu của luỗng đữ liệu có thể không đến theo trình tự và

hoặc đưới dạng tiền xử lý, đo vậy có thể có các mô hình dữ liệu sau:

1 Gii đệm không có thie tực Các mục đữ liệu từ các lĩnh vực khác nhau đến không theo thứ tự đặc biệt và không có bất kỷ tiền xử lý nào

2 Ghi dém có thứ tực các mục đữ liệu từ các lĩnh vực khác nhau

không được tiền xử lý nhưng đến trong một trình tự đã biết

3 Tổng hop không có thứ tự: các mục đữ liệu riêng từ cùng một

miễn được tiền xử lý và chỉ có một mục đữ liệu đến đối với mỗi miễn, không

theo thứ tự cụ thê,

4 Tổng hợp có thứ tự: các mục đữ liệu riêng từ cùng một miền được

tiền xử lý và chỉ có một mục đữ liệu đến đối với mỗi miễn theo một trật tự cho trước

Trong nhiều trường hợp, chi quan tâm một đoạn trích từ luỗng dữ liệu tại một thời điểm do vậy mô hình cửa số được đưa ra với ba lớp như sau:

© Hướng chuyển động của các điểm đầu cuối: Hai đầu cuối có định xác định một cửa số cổ định Hai điểm đầu cuối cô thể trượt(hoặc trượt tiến hoặc trượt lùi), định nghĩa một cửa số rượt Nêu một đầu cuối cố định và

Trang 18

một điểm cuối đi chuyển (về phía trước hoặc phía sau) định nghĩa một cửa số

giới hạn Như vậy có tổng cộng chín loại cửa số khác nhau

+ Cửa số vật lý và logic: Cửa số vật lý là cửa số được định nghĩa dựa trên khoảng thời gian Cửa số logic được định nghĩa đựa trên bộ đếm

© Cập nhật khoảng: Việc tái đánh giá cập nhật cửa số được thực hiện mỗi khi có một bộ đữ liệu mới đến Đối với tiến trình xử lý theo nó có thể

gây ra một "bước nhây cửa số " Nếu khoảng thời cập nhật là lớn hơn so với

kích thước cửa số, thì sẽ tạo ra một loạt cửa số không chồng lấn nhau

1.2.2 Ngữ nghĩa truy vẫn liên tục

Bất kỳ truy vấn kiên tri, đơn điệu mà cập nhật được từng bước, có thể được thực hiện như một truy vấn liên tục trên một cơ sở đữ liệu truyền thống Trong một cơ sở đữ liệu chỉ được thêm vào cuối, tất ca các truy vấn nối tiếp là đơn điệu: Mỗi lần một bộ đữ liệu được thêm vào, hoặc là nô đáp

‘ing các truy vấn hoặc không và điều kiện thỏa mãn không thay đổi theo thời gian Ngược lại, thêm phủ định cô thể vi phạm tính đơn điệu Tương tự như vậy, nếu các cơ sở dữ liệu không chỉ được thêm vào cuối, thì không cô truy

vấn đơn điệu, khi các bộ đữ liệu được cập nhật có thể ngừng đáp ứng một truy vấn nhất định

Ngữ nghĩa ít hạn chế các truy vấn liên tục, đơn điệu và không đơn điệu trên luỗng dữ liệu đã đưa ra [6] Gia sit

như là một tập hợp các số tự nhiên và rằng tất cả các truy vấn liên tục được tái định giá tại mỗi nhịp (tick) đồng hỏ Cho A (Q, t) là tập hợp câu trả lời

của một truy vấn liên tục Q ai thoi điểm t, r là thời gian hiện tại, và 0 là thời

ig thời gian được biểu diễn

điểm bắt đầu Tập trả lời cho một truy vấn liên tục, đơn điệu Q tại r là:

4(@.7) = JlAl@.0) — A(t 1)) VALQ.O}

Trang 19

Nghĩa là, chỉ cần tái đánh giá các truy vấn trên các mục đữ liệu mới đến và gắn thêm các bộ chất lượng vào kết quả Ngược lại, các truy vấn

không đơn điệu cô thé cin phải được tái tính từ đầu trong mọi tái đánh giá, theo ngữ nghĩa sau đây:

A9.) = ÚJA(9.9)

Ngôn ngữ truy vẫn luồng đữ liệu

Ba mô hình truy vấn cho hệ thống quản lý luông đữ liệu đã được đề xuất Hệ thống đựa trên quan hệ sử đụng ngôn ngữ SQL-like để truy vấn gần giống như truy vẫn cơ sỡ đữ liệu quan hệ với sự cãi tiến đưa thêm cơ chế cửa

số và trình tự Ngôn ngữ dựa trên đối tượng cũng giống nhw SQL, nhưng hỗ trợ cho luỗng đữ liệu, định nghĩa thêm kiểu dữ liệu trờu tượng (ADT) và các phương pháp xử lý tín hiệu liên quan Hệ thống hướng thủ tục, xây dựng truy

vấn bằng cách định nghĩa luỏng đữ liệu các toán tử khác nhau

1.3 Một số ứng dụng của hệ quản lý luồng dữ liệu

1.3.1 Ung dung trong mang cam bién (Sensor Networks)

‘Mang cảm biến có thể được sử đụng cho quản lý hệ thống địa lý

nhiều luông dữ liệu thì cần thiết phải phân tích đữ liệu từ nhiều ngt

néu ứng dụng chỉ tập hợp trên một luồng dữ liệu đuy nhất thì có thể chỉ cần

Trang 20

1

nguên nuôi) Việc khai phá đữ liệu của bộ cảm biến có thể yêu cầu truy cập vào đữ liệu lịch sử của bộ cảm biển Một số ví du về truy vấn tương đối điển

‘hinh trong mạng cảm biến như:

© Kích hoạt bộ nhảy (trigger) nếu có một vài cảm biến trong trong miễn cô báo cáo đo vượt quá ngưỡng cho phép

© Vẽ đường viền bản đỏ nhiệt độ cho đự báo thời tiết

Thực hiện kết nối luông đữ liệu nhiệt độ từ các trạm theo đối thời tiết Liên kết các kết quả vào bảng tĩnh chứa các kinh độ và vĩ độ của mỗi trạm, kết nối tất cả các điểm tạo bản tin dy bao thời tiết vùng miễn

Hệ thống Ad hoc để phân tích lưu lượng Internet trong thời gian thực

đã được sử đụng, ví du [2] Tương tự như các mạng cảm biến, việc kết nối đữ

liệu từ nhiều nguồn khác nhau như theo đối, lọc gói tin và phát hiện các điều

kiện bất thường (ví dụ như tắc nghẽn hoặc tấn công từ chối dịch vụ) là cần thiết Hệ thống phải hỗ trợ cho các truy vấn lịch sử và khai phá đữ liệu trực tuyến trên mạng Ví đụ so sánh đầu hiệu của lưu lượng mạng hiện tại với các mẫu lưu lượng được lưu trữ để phát hiện một cuộc tấn công từ chối địch

vụ Một ví dụ khác như theo đối URL cũa các yêu cầu Web gin day dé tìm ra

khách hàng tiêu thụ băng thông nhiều nhất Sau đây là các truy vấn điển hình

trong phân tích lưu lượng mạng:

+ Ma trận lưu lượng: Xác định tổng lượng băng thông sử đụng bởi

mỗi cặp nguồn - đích và nhôm theo địa chỉ IP, mặt nạ mạng con, và loại giao

‘thie Luu ý rằng lưu lượng IP được đôn kênh theo thống kê, đo đó một luồng

lưu lượng phải được tách kênh để tấ tạo lại các phiên TCP TP

Trang 21

1.3.3 Ứng dụng trong phân tích nhật ký giao dich

“Khai phá dữ liệu trực tuyến, sử đụng các bản ghỉ truy nhập vweb, ban ghỉ cuộc gọi điện thoại, và bản ghỉ các giao địch Ngân hàng qua ATM cũng

là bài toán phù hợp với các mô hình luỗng dữ liệu Mục đích của việc khai

phá đữ liệu này là đề tìm kiếm các mẫu hành vi quan tâm của khách hàng, xác định các hành vi nghỉ ngờ, từ đó có thể chỉ ra hành vi gian lận và dự báo giá trị đữ liệu cho tương lai Cũng tương tự như trong ứng đụng trực tuyến

khác, điều này đòi hỏi phải kết nối nhiều luỗng đữ liệu, thực hiện các phép lọc phức tạp và phân tích thống kê Sau đây là một số vi du:

® Tìm tất cả các trang web trên một máy chủ cụ thể đã được truy

nhập trong mười lãm phút cuối với một tỷ lệ lớn hơn mức trung bình hàng

ngày ít nhất là 40%

® Kiểm tra nhật ký của máy chủ Web trong thời gian thực và nếu

may chủ chính bị quá tải thì tái định tuyến người ding dén các máy chủ dự

phòng

« Xác định đường kính chuyển ving (Roaming) của khách hing sit dụng điện thoại đi động: Khai phá nhật ký về điện thoại di động đối với mỗi

khách hàng và xác định số lượng lớn nhất của các trạm gốc khác nhau mà

khách hàng sử đụng trong một cuộc gọi điện thoại di động

Bên cạnh các ứng dung mang tinh kỹ thuật, hệ quản lý luồng dữ liệu còn cô nhiều ứng dung trong lĩnh vực tài chính ngân hàng, thị trường chứng khoán Tuy nhiên các vấn đề này nằm ngoài phạm vi nghiên cứu cia luận

văn.

Trang 22

13

Chương 1 đã trình bày kiến trúc, mô hình đữ liệu, mô hình truy vấn

và một số lĩnh vực ứng đụng của hệ quản lý luồng đữ liệu chuỗi thời gian

"Một trong các ứng đụng nỗi bật là sử dụng hệ thống này trong quá trình thu thập, lưu trữ tạm thời, truy vấn, xử lý phục vụ quân tr, theo đõi và phát hiện

các hoạt động bắt thường trên mạng Trong quản trị mạng, tần suất trích mẫu

thu thập thông tin càng lớn thì việc chân đoán hoạt động của mạng cảng chính

xác (Vi dụ: chân đoán

là cực lớn, Thuật toán xoay vòng với cơ sở dữ liệu chuỗi thời gian RRD

nhưng việc xử lý và lưu trữ đữ liệu theo thời gian

(Round Robin Database) là một giải pháp nhằm tối ưu hóa hệ thống, tránh tốn

kêm tài nguyên và giảm độ phức tạp của hệ thống Thuật toán RRD và ứng dung trong quản trị mạng là nội đung của chương 2

Trang 23

CHƯƠNGH

'THUẬT TOÁN XOAY VÒNG VỚI CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN

TRONG QUẦN TRỊ MẠNG

2.1 Thuật toán xoay vòng với cơ sở đữ liệu chuỗi thời gian

"Thuật toán xoay vòng với quản lý đữ liệu chuỗi thời gian cho phép lưu

trữ và hiển thị đữ liệu chuỗi thời gian, thu thập thông tin từ mạng hay chuyển

đổi từ MySQL và lưu trữ các dữ liệu đưới dạng đã xử lý, giảm thiểu vận hành

1O để cập nhật thời gian thực và trình bày đỏ thị hữu ích bằng cách xử lý đữ

liệu độ phân giải ỡ các khoảng thời gian khác nhau

li thời gian RRD sử dụng bộ quét thiết

đữ liêu của các máy tính trên mạng như: tải trung bình, sử dung

hiển thị kết quả đưới đạng đỏ thị các thông số đó của các máy tính trên mạng

Như vậy, để thấy rõ các điểm giống nhau và sự khác biệt giữa thuật

vòng RR( Round Robin) truyền thống được sit dung trong hệ điều

toần xo;

hành máy tính và thuật toán thuật toán xoay vòng trong cơ sở dữ liệu chuỗi thời gian RRD ( Round Robin Database), trước tiên chúng ta nhắc lại nguyên

1ý thuật toán RE và tiếp theo sẽ trình bày về thuật toán RRD

2.1.1 Nguyên lý cũa thuật tán xoay vòng RR( Round Robin)

"Trong thuật toán này, hệ thị

quantum) khoảng tit 10-100 mili giy (ms)

1g quy dinh một lượng tử thời gian (time

Trang 24

Hàng đợi các tiến trình được tổ chức theo kiểu vòng tròn và các tiến

trình luôn luôn đâm bão được phục vụ Khi có tiến trình mới phát sinh, nó sẽ được đưa vào hàng đợi vòng tròn và được đặt ở vị trí phục vụ ngay Các tiến trình đù ngắn hay dài đều có độ ưu tiên phục vụ như nhau

‘Vidu minh hoạ: về thuật toán Round Robin

Thời gian chờ đợi trung bình sẽ 1a (0+6+3+5)/3 = 4.66 milisecondes

'Nếu có m tiến trình trong hang doi sin sang va sé dung quantum g, thi

én trinh sé duoc c4p phat CPU J/m trong từng khoảng thời gian g

Trang 25

tiến trình sẽ không phải đợi qua (n-1)q don vị thời gian trước khi nhận được

CPU cho lượt kế tiếp

Nhận xét: Vắ

quantum Nếu thời lượng quantum quá bế sẽ phất sinh quá nhiều sự

chuyên đổi giữa các tiền trình và khiến cho việc sử đụng CPU kém hiệu quả

ag thời gian hỏi đáp và giảm

đề đáng quan tâm đối với giải thuật RR là độ đài của

‘Nhung néu sử đụng quantom quá lớn sẽ làm

'khã năng tương tác của hệ thống

Trên thực tế, dé dim bảo độ ưu tiên cho các tiền trình đài, hệ thống sẽ phân chia các tiến trình thành m lớp Số lần được phục vụ và thời gian một lần phục vụ tiền trình tại mỗi lớp khác nhau (giả sử ở lớp thứ ¡, tiến trình được phục vụ &: lần và mỗi lần với thời gian g))

Nếu sau khoảng thời gian đã được phân phối mà tiến trình chưa kết

thúc hoặc không bị ngit thi nó sẽ được chuyển sang lớp thứ ¡ + 7 ( với š.; và g-1 lon hon ) Lượng tử thời gian sẽ tăng din cho đến khi tiến trình rơi vào lớp ngoài cùng (lớp m) Ở đó nó sẽ được phục vụ với lượng tử g„ không đổi

Như vậy thứ tự ưu tiên của các tiền trình sẽ ting dan theo thời gian xếp hàng

đợi

Ưu điểm của phương pháp phục vụ đồng mức theo lớp sẽ cho phép hệ

thông ưu tiên những tiến trình ngắn (vì nó kết thúc sớm) nhưng nỗ không

tổn hại lớn cho các tiến trình dài

Nhược điểm là đo phải thường xuyên phân phối lại giờ CPU nên thời gian chờ đợi trung bình của Rounđ Robin có thể lớn.

Trang 26

1

2.1.2 Thuật toán xoay vòng với cơ sỡ đi

(Round Robin Database)

2.1.2.1 Nguyén ia RRD

Nhu cầu xây dựng hệ thống quản trị mạng cho phép giám sát theo

thời gian thực cũng như phân tích tốc độ mạng cao là cần thiết Để tăng độ

chính xác của các phép đo lường, quản trị mạng thường làm tăng tần số l

mẫu Hậu quả của xu hướng này là hệ thống giám sát sản xuất một số lượng

dữ liệu lớn cần được lưu trữ và phân tích trong thời gian rất ngắn Cơ sở dit

liệu quan hệ không thích hợp cho việc lưu trữ và xử lý dỡ liệu đo lường phục

vụ quân trị mạng vì các lý đo sau:

+ Tại mỗi khoảng thời gian đo lường, các bảng sẽ cập nhập dữ liệu mới

và như vậy làm tăng số bản ghỉ Hậu quả là bảng dữ liệu cũng như các không

gian thực trên đĩa tăng cùng với số phép đo

* Ngay sau khi chỉ số băng trở nên đủ lớn sẽ căn chờ việc lưu (cached)

xuống RAM và việc lấy đữ liệu sẽ trở nên chậm chạp đáng kể, đăc biệt đối

với các ứng dụng cô đữ liệu ở phần đầu cơ sỡ dỡ liệu

Để giải quyết những vấn đề này với cơ sở đữ liệu quan hệ, cơ sở đữ liệu chuỗi thời gian (Time series database, TSDs) đã được tạo ra Cơ sỡ dit liệu xoay vong (Round - Robin, Database, RRD) là một bổ sung tuyệt vời dé

cơ sở dữ liệu quan hệ lưu trữ chuỗi thời gian Nó thực hiện một bộ đệm quay vòng cổ định dựa trên tệp tin, nơi dữ liệu được lưu trữ theo dẫu thời gian Khi

cơ sở dữ liệu được tạo ra, phải sác định thời gian tổn tại dữ liệu cũng như các

tần số (tên bước của RRD) đữ liệu được lưu trữ Ví dụ, cứ mỗi 5 phút thực

hiện phép đo và lưu giá trị đo lâu nhất 30 ngày Hình 2.1: mô tả nguyên lý giải thuật của một cơ sở dữ liệu RRD Vì tắt cả các thông tin được quy định

tại thời điểm tạo cơ sở đữ liệu, các file RRD không phát triển theo thời gian:

Trang 27

kích thước của chúng là tỉnh và bằng bộ đệm quay vòng Mỗi cơ sở đữ liệu 'RRD có thể lưu trữ nhiều chuỗi thời gian, không nhất thiết tất cả chia sẽ cùng thông số thời gian sống và tần số Thường cơ sở đữ liệu RRD có kích thước

nhỏ (64 KB hoặc ít hơn) và được lưu trữ như các tập tin trên đĩa

‘Round Robin Archive - RRA ‘ed tine period

‘xe mie sare

'

"Hình 2.1 Nguyên lý cũa cơ sỡ dữ liệu RRD (RRA) 2.1.2.2 Dit ligu trong RRD

Cơ sỡ dỡ liệu chuỗi thời gian RRD lưu trữ đạng "tý lệ” trong khoảng thời gian Những khoảng thời gian được xác định rõ ràng về ranh giới theo thời gian Tuy nhiên, dỡ liệu đầu vào không phải là luôn luôn là một tỷ lệ và

tất có thê sẽ không trong ranh giới đó Điều này có nghĩa là đữ liệu đầu vào cần phải được xử lý

Quả trình chuyển đổi đỡ liệu chia làm ba giai đoạn:

« Chuyên đổi dữ liệu về đạng tỷ lệ

« Chuẩn hóa các khoảng thời gian

« Hợp nhất các khoảng thời gian vào một khoảng thời gian lớn hơn.

Trang 28

19

'Tất cả các giai đoạn đều áp dụng cho tất cả các đữ liệu đầu vào, không

cô trường hợp ngoại lệ Dữ liệu đầu vào cô bốn kiểu được sử dụng là: GAUGE, COUNTER, ABSOLUTE, DERIVE

Giai đoạn 1: Chuyén déi dữ liệu vê dạng tỹ lệ

Đối với từng kiểu đữ liệu đầu vào sẽ có quy tắc chuyên đổi khác nhau:

Các dữ liệu đầu vào đã là một tỷ lệ Vi dụ như một đồng hỗ tốc độ,

nhiệt độ Kiễu dữ liệu này không cần chuyên đổi, nhưng vẫn phải chuẩn hóa

và hợp nhất các khoảng thời gian

+ DERIVE:

Kidu dé ligu nay tương tự như COUNTER, tuy nhiên có thé ting hoặc giảm Tỷ lệ có thể cô giá trị đương hoặc âm

"Trong cả bốn trường hợp, kết quả dữ liệu sau chuyên đổi đều là một tỷ

lệ này có hiệu lực giữa lần truy nhập trước và hiện tại Như vậy công cụ

'RDtool không cần phải biết bất cứ điều gì về các dữ liệu đầu vào mà chỉ cần

'biết khi bắt đầu, kết thúc và tỷ lệ.

Trang 29

Rate

Time

Hình 2.2 Van dé tỷ lệ và thời gian 1 Hãy quan sắt ví dụ như hình 2.2 nếu máy tính chuyển dữ liệu tốc độ 60, trong 1 giây, hay chuyển cùng một lượng dữ liệu với tốc độ 30

1g 2 giây hoặc 20 byte/giây trong 3 gi

hoặc 15 bytegiây

Chúng ta nhận thấy: tỷ lệ nhân với thời gian là một hằng số Nếu chúng

ta quan tâm số byte đữ liệu được truyền, trong hình trên, diện tích các miễn là

quan trọng, khơng cần quan tâm chiều rộng cũng như chiều cao của nĩ

Chính vì vậy sau khi chuyên đổi về dạng tỷ lệ dữ liệu cần phải được chuẩn hĩa

Giai đoạn 2: Chuẩn hĩa khộng thời gian

Các đầu vào bây giờ là một tỷ lệ nhưng nĩ khơng xác định rõ ranh giới thời gian Chính vì vậy cần chuẩn hĩa khoảng thời gian Gia sử chúng ta đọc

một bộ đếm mỗi phút Chúng ta biết nội đung bộ đếm tại một thời điểm cụ

thể (MMM: SS) Nhung chúng ta khơng biết: số đếm tăng lên với tỷ lệ cao trong một khoảng thời gian ngắn (1 giây ở 60 byte/giay) hoặc trong một thời gian đài ở một tỷ lệ nhỏ (60 giây ỡ 1 byte/giây) Trên hình 2.2, các thời điểm (MM: SS) sẽ được 6 dau dé trong vùng trắng,

Trang 30

Điều này cĩ nghĩa rằng tỷ lệ chúng ta biết khơng phải là tÿ lệ thực!

Trong ví du trên, chúng ta chỉ biết rằng may tính chuyển 60 byte trong 60 giây, ỡ đầu đồ giữa MM: SS và MM: SS tiếp theo Tỷ lệ tính tốn được sẽ là

1 byte/giây trong mỗi khoảng thời gian 60 giây

Hình 2.3 cho

šy một số khoảng thời gian và mức đo Các mẫu được

tại giây thứ 30 của mỗi phút, mỗi miễn cĩ màu đại điện cho các lẫn đo lường khác nhau

0:00" 01100 0200 0300 0490

Hình 2.3 Vấn để tỷ lệ và thời gian 2

"Phần đưới của hình 2.3 là kết quả đữ liệu sau khi chuẩn hĩa hĩa Mỗi tỷ

lệ đã chuẩn hĩa cĩ giá trị trong một khoảng thời gian nhất định Chúng ta gọi

chung là điểm di liệu chính PDP (Primary Data Point) Mỗi PDP là cĩ giá trị

trong một bước

Giai đoạn 3: Hợp nhất các khộng thời gian

Giả sử chúng ta cơ dữ liệu như trên hình 2.3 Chúng ta muốn xem

mười ngày của đữ liệu trên một biêu đỏ Nếu mỗi PDP là một phút, bạn cần

10 * 24 * 60 PDP (10 ngày 24 giờ 60 phút) 14400 PDP là rất nhiều, đặc biệt 1à nếu màn hình ảnh nhỏ chỉ là 360 pixels Cĩ một cách để hiễn thị dữ liệu đĩ

là để gộp một số PDP với nhau và hiển thị chúng như một điểm ảnh Ví đụ gộp 40 PDP vào một thời gian, cho mỗi điểm ảnh, đề cĩ được tổng cộng mười

Trang 31

Lấy tỷ lệ chuẩn hóa cuối cùng

Các hàm hợp nhất CF (Consolidation Function ) này được sử đụng phụ thuộc vào mục tiêu khác nhau

Các dữ liệu thu thập của các hệ thống sử dụng cơ sỡ dữ liệu chuỗi thời gian được xử lý và lưu trữ trong các cơ sở dữ liệu RRD dưới đạng các tập tin .Do lượng dữ liệu thu thập được rất lớn và để theo đối hoạt động trong một quá khứ đài, các hệ thống cũng sử đụng nguyên Iÿ “Hợp nhất các khoảng thời gian” Từ các đữ liệu thu thập được trong RRD, hệ thông có thể thiết đặt để tính toán các giá trị AVERAGE, MIN, MAX, and LAST trong những khoảng thời gian nhất định và lưu vào cơ sỡ dữ liệu lưu trữ Round Robin Archives, RRA)

"Trong một hệ thống, có thể có nhiều cơ sỡ đữ liệu RRA, cô thể thiết đặt

để hợp nhất khoảng thời gian với các hàm AVERAGE, MIN, MAX, and LAST của các thông số thu được cho từng cơ sở dữ liệu lưu trữ RRA Hình

2.4 Minh họa cơ chế tổ hợp đữ liệu n¿

Trang 32

'RRD là từ viết tắt của Cơ sở đữ liệu Round Robin là một hệ thống quản

lý, lưu trữ đữ liệu và hiển thị đữ liệu theo chuỗi thời gian

Hình 2.5 cho thấy sơ đồ khối của một hệ thống quản trị mạng:

trữ trong các bảng đữ liệu MySQL Trên cùng một my chủ, các modul quét

các thiết bị để (poller) truy vấn, thu thập các thông số mạng của các thiết bị,

Trang 33

RRD Hé quân trị mạng sử đụng những đữ liệu RRD để tổ hợp và biểu điễn kết quả đưới dạng đỏ thị RRD cũng được sử đụng để phát hiện các lưu lượng tắt thường trong mạng và qua đó đánh giá hoạt động hay phát hiện các tấn

công mạng

2.2.1 RRD trong thu thập dữ liệu và hiển thị kết quả

Một hệ thống lưu trữ chuyên ngành được biết đến như một cơ sở đữ

liệu Round Robin cho phép lưu trữ một lượng lớn thông tin chuỗi thời gian

như nhiệt độ, băng thông mạng và giá cổ phiếu với một đung lượng đĩa không đổi Nó làm điều này bằng cách tận đụng nhu cầu thay đôi cho chính xác Như chúng ta sẽ thấy sau này, các "round_- robin" một phần xuất phát từ cấu trúc

dữ liệu cơ bản được sử đụng đễ lưu trữ các điểm dữ liệu: đanh sách tròn

“Nhiệm vụ đầu tiên trong thu thập đữ liệu là để lấy dữ liệu và được thực hiện bằng cách sử đụng bộ quét thiết bị Tân số quét c6 thé được thực

hiện từ lịch của hệ điều hành

Sau khi thu thập được đữ liệu, đễ có thê tạo ra những đồ thị về trang

thái hoạt động của các thiết bị cần giám sát sử dụng RRDTool (Round Robin Database Tool) để lưu trữ dữ liệu RRDTool là một hệ thống lưu trữ dữ liệu

va hién thị dữ liệu theo chuỗi thời gian Nó lưu trữ các dữ liệu một cách rất

nhỏ gọn mà độ lớn của tập sẽ không thay đổi theo thời gian, dựa trên dữ liệu

của RRDTool, RDDTool hỗ trợ trong hệ thống đồ họa, tạo ra các sơ đỏ thể

hiện dỡ liệu mà nó thu thập được

Một trong những tính năng được đánh giá cao nhất của RRDTool là

tích hợp chức năng đỗ họa Điều này càng hữu ích khi kết hợp với máy chủ

web.

Trang 34

"Như vậy, đữ liệu được thể hiện qua các thông số của hệ thống va khoảng thời gian dữ liệu được thu thập Hình ảnh của các dữ liệu này thường được mình hoa thé hiện theo những cách rit khác nhau trên cơ sở đó người

quản trị cô thê đánh giá được ngưỡng của thiết bị

"Trong hệ quản trị mạng, ngoài việc sử đụng cơ sở đữ liệu RRD dé hw trữ dữ liệu thu thập và tổ hop theo chuỗi thời gian, các nhà c

1g nghé con

'phát triển cơ sở đữ liệu RRD đề biểu điễn đữ liệu đưới đạng đồ thi Hinh 2.6

‘Minh họa nguyên lý hiển thị kết quả các thô

1g số mạng từ RRD

Hình 2.6 Biểu diễn đồ thị trong RRD

Hệ thống giám sát mạng quy mô lớn yêu cầu lưu trữ và tổ hợp đữ liệu

đo lường hiệu quả cơ sỡ dữ liệu quan hệ và cơ sở đữ liệu xoay vòng RRD Có những hạn chế khi xử lý một lượng lớn số chuỗi thời gian Thời gian truy cập

dữ liệu làm tăng đáng kể khi tập số đữ liệu, số phép đo lưỡng lớn Chính vi

vây hệ thống quản trị và theo dõi mạng buộc phải giảm số các thông số đo

1g số để thời gian truy cập đữ liêu giới hạn

lường số liệu và tần suất lấy thôi

Trang 35

số lượng tuyệt đối của đữ liệu được tạo ra trên cơ sở một thời gian ngắn Các

cơ sở hạ tầng phục vụ mạng lưới hoạt động lớn gồm hàng chục thiết bị chuyển mạch và định tuyến, hàng trăm máy tính host, và hàng ngàn trường hợp ứng đụng đaemon đề hỗ trợ một số thuê bao của hơn 1 triệu người sử

dụng Thứ hai, có rất nhiều loại trong các loại đữ liệu thu thập được Các địch

vụ mạng doanh nghiệp theo đối các bộ đếm SNMP trên các liên kết mạng,

thống kê như tải của CPU và hoạt động của thiết bị LO, và các bản ghi sự

kiện cho daemon tng dung Mọi biến giám sát, có một đơn vị lưu trữ dữ liệu

trên một công thiết bị chuyển mạch, tải CPU của một máy chủ, hoặc yêu cầu

xử lý bởi một chương trình chạy như một tiền trình nền, tạo ra một chuỗi thời gian Tất cả những chuỗi thời gian phản ánh một phần của hệ thống mạng

địch vụ tổng thể Do đó, thách thức đầu tiên là thu thập, lưu trữ và cung cấp thời gian truy cập dữ liệu rộng lớn và da đạng Các phần mềm mã nguồn mỡ [7] thường gặp thứ thách đầu tiên này Khi sử đụng trình đuyệt web, kỹ thuật viên mạng có thể nhanh chồng xem một loat biéu đồ thời gian cho một mục

tiêu và biển của tin suất

Các kỹ thuật viên mạng có thể sẽ quan tâm đến hành vi khác thường: nghĩa là, những thay đổi trong hành vi ngắn hạn của một chuỗi thời gian (phút hoặc giờ) mà không phù hợp với lịch sử quá khứ Các kỹ thuật viên có thể sẽ không quan tâm tới xu hướng đài hạn (tuần hoặc tháng) bỡi vì họ hy vọng

Trang 36

chuỗi thời gian phải được phát triển trong một môi trường năng động Hành vỉ

khác thường có thê chỉ là một phần rất nhỏ trong hiệu suất, sự

bại trong

‘ing đụng, hoặc hệ thống thời gian chết Trong một số trường hợp, hành vi 'khác thường có thể được dự đoán; một số hành vi lại không thể đự đoán được

"Thách thức thứ hai của mạng lưới giám sắt là việc tự động xác định

"hành vi khác thường ở giữa hàng ngàn chuỗi thời gian mạng địch vụ Một khỉ hành vi đồ được xác định, thả sẽ kích hoạt được cảnh báo để thu hút sự chú ý

của kỹ thuật viên về các vấn đề tiêm năng Hiện cô các công cụ phần mềm cũng cấp một số chức năng này, nhưng các giải pháp này thường đựa trên các quy tắc đơn giản hoặc một mức nào đó (ví dụ sử dụng bộ nhớ là đưới 80%) Những quy định đơn giãn này và mức nay là đủ cho nhiều ứng đụng, nhưng

họ không thể phát hiện những thay đổi tinh té hon trong hành vi và họ áp đụng một tiêu chí tĩnh đề phát hiện hành vi khác thường hơn là một tiêu chí

năng động,

'Khái niệm về hành vi khác thường

Giả sử một mô hình thống kê tôn tại mô tả hành vi của mét chuỗi thời

gian (hoặc ít nhất là mô tả những điểm cần chú ý) Với một mô hình như vậy,

người ta có thể xác định hành vi khác thường là những hành vĩ không phù hợp với các mô hình (hoặc không được mô tả hiệu quả bởi các mô hình)

Tất nhiên, hành vi bất thường đối với một mô hình thống kê có thể hoặc không thể mang lại kết quả thực từ quyền lợi của các kỹ thuật viên Trong trường hợp phát hiện nhầm từ kết quả bình thường thành bắt thường thì gọi là sai tuyệt đối (false positive) Rõ ràng, ý tưỡng là để giảm thiêu tỷ lệ sự

kiện bình thường sai khi xác định tất cả các sự kiện thực Tuy nhiên, ý tưởng

này hiểm khi có thể đạt được Trong hầu hết các hệ thống phát hiện, có một

sự cân bằng giữa các sự lựa chọn (để tránh nhầm kết quả bình thường, cung.

Trang 37

trọng nếu ta coi mô hình thống kê cho hành vi bất thường như là một cơ chế

sàng lọc chứ không phãi là một sự thay thế cho sự phán đoán của các kỹ thuật viên

Chú ý: định nghĩa này áp dụng cho mỗi chuỗi thời gian độc lập Có

thể cô nhiều cách để đạt được mô hình thống kê các hành vi khác thường

bằng cách tận dung các mối quan hệ giữa các biến mạng lưới địch vụ nhưng điều đó không được để cập trong bài viết này

Nhiều mạng lưới địch vụ chuỗi thời gian cần phải cô các quy tắc

(hoặc đặc điểm) sau đây và những quy tắc này cũng tất cần cho một mô hình:

1 Một xu hướng theo thời gian (ví đụ một sự gia tăng dẫn din

3 Biến thiên theo mia (vi du, yêu cầu ứng đụng đao động rất mạnh từng phút trong giờ cao điểm từ 4-8 giờ tối, nhưng lúc 1 giờ sáng yêu cầu ứng dụng hầu như không thay đổi)

4, Tién héa din din của những qui luật (1) đến (3) theo thời gian

(vi du, chu kỳ hàng ngày thay đổi dần dần khi số lượng các giờ ban ngày buổi tối tăng từ tháng Một đến tháng Sáu).

Trang 38

Những quy định này có thé không đầy đủ nhưng nô là những quy

định quan trọng nhất

Ngoài hàng loạt những qui luật thời gian cho mô hình thì thiết kế mô

tình phải xem xét bối cảnh giám sát thời gian thực Các

'biết rất rõ là mô hình thống kê hết sức phức tạp và khô có thể tính toán kha thi

trong bồi cảnh thời gian thực

thuật viên cí

"Phát hiện hành vi bất thường này được chia thành ba phần:

~_ Một thuật toán để đự đoán các giá trị của một chuỗi thời gian

tương lại

- Một thước đo về độ lệch giữa các giá trị dự đoán và các giá trị

quan sắt

~ Một cơ chế dé quyết định liệu

hoặc chuỗi các giá trị quan sát là “bị lệch” so với giá trị đự đoán

1g và khi nào một giá trị quan sat

Các mô hình được đề xuất là một phẫn mỡ rộng của Holt - Wimters

Dự báo, trong đó hỗ trợ mô hình gia tăng cập nhật thông qua làm thông suốt

Các phần sau day thao luận về các mô hình ở một số chỉ tiết và yêu cầu một

số ký hiệu toán học

Cho yì „tài với

gian quan sát thấy ỡ một số khoảng thời gian cổ định ( nhắc lại RRDtool ánh

+~: biểu thị chuỗi các giá trị cho các chuỗi thời

quan sát mỗi ngày)

Phương pháp làm trơn theo lí

Trang 39

giá trị hiện tại và những dự đoán hiện tại Cho ÿ, biễu thị các giá trị dự đoán

cho thời điểm ¿ + 1, sau đó: i: +(1-a) Se

Dự đoán thực sự là trung bình về lượng tất cả các quan sát trong quá

khứ trong chuỗi thời gian Những tiền đề của Phương pháp làm trơn theo lũy

thừa là giá trị hiện tại cung cấp nhiều thông tin nhất cho đự đoán các giá trị tiếp theo, và rằng trọng lượng của sự quan sát cũ sẽ giảm theo cấp số nhân bởi

vi những quan sit này thiên về quá khứ Nó là một thuật toán gia tăng vì các

đự đoán tiếp theo thu được bằng cách cập nhật các đự báo hiện tại với các giá

trị quan sắt hiện tại

ạ là các tham số mô hình và 0 < ø < 1 No quyết định tỷ lệ phân rã (1

~ 8) và trọng lượng các giá trị hiện tại được đưa ra trong quá trình cập nhật gia tăng

Phuong pháp dự đoán theo mô hình Holt - Winters

Phương pháp dự báo theo mô hình Hoit - Winters là một thuật toán phức tạp hơn là phương pháp làm trơn theo li ý thửa Holt - Winters dựa trên tiên đề rằng các chuỗi thời gian quan sát có thễ được chia thành ba phần: đường cơ sỡ, xu hướng tuyến tính, và hiệu ứng theo mùa Các thuật toán giả định mỗi thành phần này tiến hóa theo thời gian và điều này được thực hiện

‘bing cách áp dung phương pháp làm trơn theo lũy thừa đề từng bước cập nhật các thành phần

Trang 40

31

y= Bla, ~ a,-1) + (1 = Bybe-a

“Xu hướng theo mùa

= 101-4) + 0mm Như trong phương pháp làm trơn theo lũy thừa, hệ số cập nhật là trung bình của các dự báo và ước tính thu được chỉ từ y; quan sát, với phân số được xác định bởi các thông của mô hình (2, 6, ;) Nhớ lại m là khoảng thời

gian của chu kỷ theo mia; vi vậy các hệ số theo mùa tại thời điểm t tham khảo các hệ số tính toán cuối cũng cho cùng thời diém trong chu kỹ theo mùa

Các tước tính mới của đường cơ sỡ là giá trị quan sắt được điều chỉnh

'bởi các ước tính tốt nhất có sẵn của hệ số theo mùa (c, „) Làm cơ sở cập nhật vào tài khoản cho sự thay đổi đo xu hướng tuyến tính, dự đoán xu hướng tuyến tính được thêm vào hệ số đường cơ sở Các ước tính mới của xu hướng

tuyến tính chỉ đơn giãn là sự khác biệt giữa các cơ sỡ mới và cũ (như khoảng thời gian giữa các quan sát cố định, nó không liên quan) Các ước tính mới của các thành phin theo mùa là sự khác biệt giữa giá trị quan sắt và các cơ sở tương ứng

a, 8 và ; là các thông số thích nghỉ của thuật toán và 0 < ø, ổ, ÿ < 1

Giá trị lớn hơn có nghĩa là các thuật toán thích nghỉ nhanh hơn và dự đoán

phân ánh quan sát gần đây trong chuỗi thời gian; giá trị nhỏ hơn cô nghĩa là

các thuật toán thích nghĩ chậm hơn, đặt trọng lượng hơn về lịch sử quá khứ

của chuỗi thời gian

Lưu ý rằng các công thức cập nhật bao hàm một sự hỗ trợ cần thiết để lưu trữ các giá trị hiện tại của đường cơ sở và xu hướng tuyến tính, và một

giai đoạn duy nhất của hệ số theo mùa, như các giá trị lưu trữ được thay thé

tại mỗi lần lặp.

Ngày đăng: 24/12/2024, 16:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN