HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
ÁP DỤNG THUAT TOÁN SPADE VÀO BÀI TOÁN PHÁT HIỆN SỚM BĂNG THÔNG VƯỢT NGƯỠNG TRONG MẠNG IP
CHUYEN NGÀNH : KHOA HOC MAY TÍNHMA SO: 60.48.01.01
TOM TAT LUAN VAN THAC SI
HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Nguyễn Mạnh Hùng
Phản biện 1: c2 Q2 2n n2 ng nh nh ve
Phản biện 2: 2222202020212 2n ng nh sen
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thông
Có thé tim hiéu luận văn tại:
- Thu viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MO DAU
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin, van dé áp dụng công
nghệ thông tin vào các lĩnh vực của kinh tế - xã hội trở nên phô biến Không nằm ngoài xu thế phát triển đó, các doanh nghiệp viễn thông đã và đang công nghệ thông tin hóa các hoạt
động quản lý và kinh doanh của mình Việc áp dụng công nghệ thông tin đã giúp các doanh
nghiệp viễn thông thực hiện quản lý tập trung và nâng cao hiệu quả trong quản lý và kinh
Nguồn thu từ kinh doanh cung cấp mang IP đem lại nguồn thu đáng ké cho các
doanh nghiệp viễn thông Khách hàng cũng dần khắt khe hơn trong việc lựa chọn nhà cung
cấp với yêu cầu về chất lượng dịch vụ ngày càng cao Khi đó, các nhà cung cấp dịch vụ
không những phải phát triển một cơ sở hạ tầng mạng lớn mạnh, mà còn phải chú tâm vào đảm bảo và gia tăng chất lượng dịch vụ như đã cam kết với khách hàng Do đó, trong quá trình giám sát hoạt động mang cần phát hiện và xử lý kịp thời các sự cố băng thông vượt
ngưỡng Sự cô này có thé làm suy giảm chat lượng mạng, ảnh hưởng chất lượng dịch vụ Tuy nhiên, hoạt động giám sát vẫn mang tính bị động, sự cố xảy ra mới thực hiện khắc
phục Nhu cầu phát hiện sớm băng thông vượt ngưỡng trong mạng IP đang rất được quan
Khai phá dữ liệu là quá trình phát hiện ra tri thức trong CSDL, các tri thức này sẽ
giúp cho việc dự báo trong kinh doanh, hoạt động sản xuất, Khai phá dữ liệu giúp giảm chi phí về thời gian so với phương pháp truyền thống trước kia, như phương pháp thống kê Kỹ thuật này đã được áp dụng dé giải quyết nhiều bài toán liên quan tới lĩnh vực viễn thông.
Tuy nhiên, các bài toán được giải quyết hầu như chỉ tập trung vào giải quyết các vấn đề liên
quan tới chiến lược kinh doanh, xu hướng sử dụng dịch vụ của khách hang., Áp dụng khai
pha dữ liệu vào giải quyết bài toán phát hiện sớm băng thông vượt ngưỡng trong mạng IP là
một hướng di mới.
Khai phá mẫu tuần tự giống như tất cả các kỹ thuật khai phá dt liệu khác, mục dich chính là trích xuất ra các thông tin hữu ích mà chúng ta chưa biết Tuy nhiên, ưu thế của
khai phá mẫu tuần tự là dựa vào những dữ liệu theo thời gian đã có, chúng ta có thể dự đoán được xu thế trong tương lai dựa theo những mẫu tuần tự trong quá khứ Trong phân tích mua hàng, khai phá mẫu tuần tự giúp cửa hàng đề ra các chiến lược tiếp thị sản phẩm, chương trình khuyến mại hay đặt hàng Hay trong sử dụng Web, các mẫu tuần tự giúp kiến
Trang 4trúc lại Website, tự động chèn thêm các liên kết liên quan trong các trang Web Dữ liệu băng thông trên mạng được hệ thống lưu trữ liên tục theo thời gian, đặc điểm này hoàn toàn phù hợp với khai phá mẫu tuần tự giúp đưa ra những dự đoán về băng thông trong tương
lai, từ đó phát hiện sớm băng thông vượt ngưỡng.
Đó là lý do tôi chọn đề tài “Áp dung thuật toán SPADE vào bài toán phát hiện sớm
băng thông vượt ngưỡng trong mang IP”.
Nội dung luận văn gồm 3 chương:
Chương 1: Bài toán phát hiện sớm băng thông vượt ngưỡng trong mang IP
Chương 1 sẽ trình bày bài toán phát hiện sớm băng thông vượt ngưỡng trong mang
IP Mô hình giám sát thiết bị IP cùng với nhu cầu và nội dung bài toán được trình bày ở phần đầu Tiếp theo, luận văn đưa ra đề xuất hướng giải quyết bài toán.
Chương 2: Thuật toán SPADE
Trong Chương 2, luận văn sẽ trình bày quá trình khai phá mẫu tuần tự, thuật toán
khai phá mẫu tuần tự sử dụng các lớp tương đương SPADE cùng ví dụ minh họa.
Chương 3: Xây dựng ứng dụng phát hiện sớm băng thông vượt ngưỡng trong
mạng IP
Ở Chương 3, luận văn sẽ mô tả tổng quát bài toán phát hiện sớm băng thông vượt ngưỡng trong mang IP Từ đó, luận văn sẽ tiến hành xây dựng kiến trúc hệ thống, cài đặt và thử nghiệm chương trình ứng dụng Những phân tích, đánh giá dựa trên kết quả thử nghiệm
được trình bày ở phân cuôi.
Trang 5Chương 1 - BÀI TOÁN PHÁT HIỆN SỚM BĂNG THÔNG VƯỢT
NGƯỠNG TRONG MẠNG IP
1.1 Bai toán phát hiện sớm băng thông vượt ngưỡng trong mang IP
1.1.1 Giới thiệu mô hình giám sát thiết bị LP
Cơ sở hạ tầng mạng Internet của các doanh nghiệp viễn thông tùy thuộc vào quy mô mạng lưới sẽ có kiến trúc khác nhau Nhưng về cơ bản đều được chia thành ba lớp chính:
lớp lõi (core), lớp truy nhập (access) và lớp người dùng.
Thiết bị của lớp lõi hay lớp truy nhập được chia thành nhiều giao diện (interface) hay
công (port) Các thiết bị ở mức đưới sẽ kết nối tới thiết bị mức trên thông qua các interface.
Do tài nguyên về băng thông là có hạn nên băng thông trên mỗi interface được cấu hình tùy
thuộc vào lưu lượng dữ liệu truyền tải, tránh lãng phí tài nguyên.
1.L2 Nhu cầu phát hiện sớm băng thông vượt ngưỡng
Dữ liệu tải của thiết bị đóng vai trò quan trọng trong hoạt động vận hành, giám sát hệ thống Khi mỗi thông số tải vượt quá một ngưỡng nhất định thì đều mang một ý nghĩa cảnh
báo cụ thể với hoạt động giám sát, rằng hệ thống đang gặp sự có, cần khắc phục ngay Đối
với mạng Internet, lưu lượng vào (traffic in) và lưu lượng ra (traffic out) trên thiết bị là hai
thông số tải được quan tâm chủ yếu trong quá trình giám sát Khi một trong hai thông số này
vượt ngưỡng nhất định so với băng thông, tức là lưu lượng dé liệu truyền tải trên mang quá lớn, băng thông hiện tại có thể bị sử dụng hết Và có nguy cơ xảy ra nghẽn mạng, kéo theo
Suy giảm chất lượng dịch vụ trên hệ thống.
Từ đó, trong quá trình giám sát cần phát hiện được khi xảy ra tình trạng lưu lượng sử dụng vượt ngưỡng nhất định so với băng thông cho phép, để có hành động khắc phục sự cố
kịp thời nhằm cân bằng tải, giúp dịch vụ luôn ở trạng thái tốt nhất.
1.1.3 Bài toán phát hiện sớm băng thông vượt ngưỡng
Vấn đề phát hiện băng thông vượt ngưỡng rất quan trọng trong hoạt động điều hành,
giám sát mạng Internet Tuy nhiên, hoạt động này vẫn mang tính bị động, khi băng thông đã
vượt ngưỡng, sự cố đã xảy ra, hoạt động ứng cứu mới được thực hiện Chi phí dé khắc phục khi sự cố đã xảy ra luôn lớn hơn so với được ngăn chặn kip thời trước khi sự cố xảy ra Từ đó, việc nghiên cứu và xây dựng một hệ thống có thé phát hiện sớm được băng thông vượt ngưỡng là cần thiết.
1.2 Khảo sát hướng giải quyết bài toán trong thực tế
Trang 6Với nhu cầu phát hiện sớm băng thông vượt ngưỡng trong mạng IP, đã có một số giải
pháp được đưa ra trong thực tế như: dựa vào thông số tải của thời điểm hiện tại để xác định
trong lịch sử có xảy ra vượt ngưỡng không, hay giảm ngưỡng xác định băng thông vượt
ngưỡng xuống một tỷ lệ nhất định và dự đoán rằng khi băng thông vượt ngưỡng mới thì sẽ xảy ra vượt ngưỡng thực, Tuy nhiên, những giải pháp hiện tại đều chưa đem lại kết quả như mong muốn Đây chính động lực dé tìm và đưa ra hướng giải quyết mới.
1.3 Dé xuất hướng giải quyết bài toán
Dé giải quyết bài toán phát hiện sớm băng thông vượt ngưỡng trong mang IP thì kỹ thuật khai phá dữ liệu, mà cụ thê là khai phá mẫu tuần tự được lựa chọn Kỹ thuật khai phá
dữ liệu đã được áp dụng để giải quyết nhiều bài toán liên quan tới lĩnh vực viễn thông Tuy nhiên, các bài toán được giải quyết hầu như chỉ tập trung vào giải quyết các vấn đề liên quan tới chiến lược kinh doanh, xu hướng sử dụng dịch vụ của khách hàng, Việc áp dụng khai phá dữ liệu vào giải quyết bài toán phát hiện sớm băng thông vượt ngưỡng trong mạng
IP đây là một hướng đi mới.
Giống như tất cả các kỹ thuật khai phá dữ liệu khác, mục đích chính của khai phá
mẫu tuần tự cũng là trích xuất ra các thông tin hữu ích mà chúng ta chưa biết Tuy nhiên, ưu thế của khai phá mẫu tuần tự chính là dựa vào những dữ liệu theo thời gian đã có, chúng ta có thé du đoán được xu thé trong tương lai dựa theo những mẫu tuần tự trong quá khứ Dữ liệu tải của thiết bị trong quá trình hoạt động được hệ thống lưu trữ liên tục theo thời gian,
đặc điểm này hoàn toàn phù hợp dé chúng ta áp dung kỹ thuật khai phá mẫu tuần tự dé phát
hiện sớm tải vượt ngưỡng trước khi sự cô xảy ra.
1.4 Kết luận Chương 1
Đề đảm bảo chất lượng dịch vụ như đã cam kết với khách hàng, thì trong hoạt động điều hành và giám sát mạng Internet luôn cần phát hiện, khắc phục sớm các sự cố xảy ra Trong đó, sự cô băng thông vượt ngưỡng có thể gây suy giảm chất lượng mạng được đặc
biệt quan tâm Từ đó, bai toán phát hiện sớm băng thông vượt ngưỡng trong mang IP được
đặt ra Kỹ thuật khai phá mẫu tuần tự cũng giống như các kỹ thuật khai phá đữ liệu khác, đó
là trích xuất ra các thông tin hữu ích mà chúng ta chưa biết Tuy nhiên, với khai phá mẫu tuần tự, chúng ta có thé dự đoán được xu thé trong tương lai dựa theo những mẫu tuần tự trong quá khứ Với đặc trưng này, áp dụng kỹ thuật khai phá mẫu tuần tự vào giải quyết bài
toán phát hiện sớm băng thông vượt ngưỡng trong mang IP hoàn toàn phù hợp.
Trang 7Chương 2 - THUẬT TOÁN SPADE
2.1 Giới thiệu về mẫu tuần tự và khai phá mẫu tuần tự 2.1.1 Mẫu tuân tự
Cho I = {ij, i, , Im} là một tập m các item (phan tử), trong đó các item độc lập với nhau và được sắp xếp theo thứ tự từ điền Một event (sự kiện) hay thành phần (element) là một tập hợp các phần tử, được ký hiệu a = x), X¿, , X, trong đó x; € I Khi đó, một chuỗi là một tập hợp của các event có thứ tự theo thời gian, ký hiệu chuỗi s = ai —>as >a, với a; là
một event của s và —> biểu diễn thứ tự xảy ra của các event a; Một item chỉ có thể xuất hiện một lần duy nhất trong một event, nhưng có thê xuất hiện nhiều lần trong các event khác
nhau của chuỗi Kích thước (size) của chuỗi chính là số lượng event có trong chuỗi, còn độ dài (length) của chuỗi là số lượng item trong chuỗi đó Một chuỗi có độ dài k được ký hiệu
là k-sequence.
Một chuỗi được coi là thường xuyên hay phổ biến nếu nó xảy ra nhiều hơn min_sup Tập các chuỗi phổ biến có độ dài k được ký hiệu là F, Chuỗi phổ biến là cực đại nếu chuỗi
đó không là chuỗi con của bat kỳ chuỗi phổ biến nào [3].
2.1.2 Quá trình khai phá mẫu tuân tự
Quá trình khai phá mẫu tuần tự gồm các giai đoạn [4]:
- _ Giai đoạn sắp xếp (Sort Phase): Mục đích là chuyên đổi CSDL ban đầu thành CSDL chuỗi theo đối tượng.
- - Giai đoạn litemset (Litemset Phase): Các tap item phổ biến (frequent itemset) được
tìm thay ở giai đoạn litemset Một tập item với độ hỗ trợ tối thiểu (min_sup) được gọi là tập item phổ biến hay litemset.
- Giai đoạn chuyển đổi (Transformation Phase): Chúng ta chuyên đổi mỗi chuỗi đầu
vào ban đầu thành một đại diện thay thế.
- _ Giai đoạn chuối (Sequence Phase): Giai đoạn này sẽ giúp chúng ta tìm ra các chuỗi
phô biến hay mẫu tuần tự.
- _ Giai đoạn chuỗi cực đại (Maximal Phase): Mục đích của giai đoạn này là thực hiện tìm các chuỗi cực đại trong tập các chuỗi phô biến.
2.1.3 Một số thuật toán khai phá mẫu tuần tự
Khai phá mẫu tuần tự (SPM - Sequential pattern mining) là quá trình trích xuất các mẫu
tuần tự có độ hỗ trợ vượt ngưỡng hỗ trợ tối thiểu xác định Hầu hết các thuật toán cơ bản
Trang 8đều dựa trên tính chất của thuật toán Apriori, đó là mẫu tuần tự chứa các mẫu con cũng là tuần tự.
a) Các thuật toán giống Apriori
- _ Thuật toán AprioriAll.
b) Các thuật toán dựa trên BFS
- - Thuật toán GSP.- Thuật toán MFS.
c) Các thuật toán dựa trên DFS- - Thuật toán SPADE.
- Thuật toán PrefixSpan.
d) Các thuật toán dựa trên mẫu tuần tự đóng
- _ Thuật toán CloSpan.- _ Thuật toán BIDE.
e) Các thuật toán dựa trên sự gia tăng
- - Thuật toán SuffixTree.- - Thuật toán FASTUP.
2.2 Thuật toán SPADE
SPADE (Sequential Pattern Discovery using Equivalence classes) áp dụng phương
pháp định dang dọc dựa trên Apriori dé thực hiện khai phá toàn bộ mẫu tuần tự của CSDL
chuỗi đầu vào.
2.2.1 Nguôn gốc thuật toán
SPADE được Mohammed J Zaki [3] đề xuất theo giải pháp sử dụng tính chất của Apriori kết hợp với tổ chức không gian tìm kiếm theo kiến trúc mạng, áp dụng định nghĩa
lớp tương đương dé giải quyết van đề [3].
a) Mạng chuỗi
Gọi S là tập tất cả các chuỗi với các item trong tập item I, thi quan hệ chuỗi con
(subsequence) <, xác định hyper-lattice trong S Do tất cả các chuỗi con của một chuỗi phổ
biến là phổ biến, chúng ta có được phương pháp cắt tia mạnh b)_ Đếm độ hỗ trợ
Chuỗi bat kỳ trong S có thé có được bằng cách thực hiện join theo thời gian của một số nguyên tử trong mạng, và độ hỗ trợ của chuỗi có thé có được bằng cách join id-list của các
nguyên tử.
Trang 9c) Phân rã mạng: Các lớp dựa trên tiền tố
Định nghĩa hàm p: (S, N)—>S với S là tập chuỗi, N là tập các số nguyên không âm, và p(X, k) = X[1:k] Nói cách khác, p(X, k) đưa ra tiền t6 có độ dài k của X Quan hệ tương đương @, trên mạng S được xác định như sau: VX, Y e S, chúng ta nói rằng X có liên quan đến Y trong 6,, ký hiệu là X =, Y khi và chỉ khi p(X, k) = p(Y, k) Đây là 2 chuỗi=),
trong cùng lớp nếu chúng có cùng tiền tổ có độ dài k phổ biến Mỗi [X], là một
hyper-lattice với việc bản thân nó là tập các nguyên tử.
d) Tìm kiếm các chuỗi phổ biến
Tìm kiếm theo chiều rộng (BFS- Breadth-Frist Search): Trong tìm kiếm theo chiều rộng
các lớp tương đương của mạng được tạo ra bằng cách áp dụng đệ quy của 6, được khai pha theo cách từ dưới lên Chúng ta xử lý tất cả các lớp con ở cùng cấp trước khi chuyển sang
cấp tiếp theo.
Tìm kiếm theo chiếu sâu (DFS- Depth-Frist Search): Trong tìm kiểm theo chiều sâu,
chúng ta giải quyết hoàn toàn tat cả các lớp tương đương con doc theo một nhánh trước khi chuyền sang nhánh tiếp theo.
Như vậy, DFS yêu cầu bộ nhớ chính ít hon BFS Do đó, khi số lượng chuỗi phổ biến lớn, ví dụ trong nhiều miền hay nhiều trường hợp mà giá trị min-sup rất thấp, DFS là cách tiếp cận khả thi nhất, vì sử dung BFS có thé làm tràn bộ nhớ ảo.
2.2.2 Mô tả thuật toán
Thuật toán SPADE được mô tả ở (2.3), các bước chính bao gồm: tính toán độ phổ
biến của 1-sequence và 2-sequence, phân rã thành các lớp tương đương cho dựa trên tiền tố, và thực hiện liệt kê tat cả các chuỗi phổ biến thông qua BFS hay DFS trong mỗi lớp [3].
SPADE (min_sup, D):
F, = { frequent items or 1-sequences};
£ = { equivalence classes [X], };
for all [X] € £ do Enumerate-Frequent-Seq([X]);
a) Tính toán độ phô biên 1-sequence và 2-sequence
Thuật toán SPADE sử dụng định dạng CSDL dọc, ở đó chúng ta lưu id-list (cặp sid va
eid) cho mỗi item.
Trang 10Tính F;: Với CSDL đọc, tat cả các 1-sequence phô biến có thé được tính toán chỉ trong một lần truy van CSDL Chúng ta tăng độ hỗ trợ cho mỗi sid mới gặp được.
Tính F>: Dé tinh độ phô biến 2-sequence, chúng ta có hai giải pháp:
- _ Sử dụng một bước tiền xử lý dé thu thập số lượng của tất cả 2-sequence trên cận dưới
được đặc tả bởi người dùng.
- _ Thực hiện chuyền từ doc sang ngang.
b) Liệt kê các chuỗi phổ biến của một lớp
Các chuỗi phổ biến được tạo ra bằng cách join các id-list của tat cả các cặp của nguyên
tử (bao gồm cả join với chính ban thân chúng) và kiểm tra ứng viên với min_sup Trước khi join id-list thì bước cắt tia có thé được thêm vào dé đảm bao tat cả các chuỗi của chuỗi kết
quả là phô biến.
Các chuỗi được tìm thay là phổ biến ở mức hiện tại hình thành các nguyên tử của các
lớp cho mức tiếp theo Quá trình đệ quy này được lặp đi lặp lại cho tới khi tất cả các chuỗi
phô biến được liệt kê.
c) Join id-list theo thời gian
Có 3 chuỗi cha phô biến cực tiểu có thé:
- _ Nguyên tử event với nguyên tử event: Nếu chúng ta join PB với PD thì đầu ra chỉ có 1 nguyên tử event duy nhất là PBD.
- _ Nguyên tử event với nguyên tử chuỗi: Nếu chúng ta join PB với PA thì chúng ta chỉ có 1 nguyên tử chuỗi là PBA.
- _ Nguyên tử chuỗi với nguyên tử chuỗi: Nếu chúng ta join PA với PF thì có 3 kết
quả: một nguyên tử event mới P—> AF, và 2 nguyên tử chuỗi mới là P> AF và P>F>
A Xảy ra trường hợp đặc biệt khi join P—>A với chính nó, ta có duy nhất 1 nguyên tử chuỗi
mới là P->A->A.
d) Cắt tia các chuỗi
Chúng ta kiểm tra xem tất cả các chuỗi con k của nó có độ dai k-1 là phổ biến Nếu tất cả
chúng là phổ biến thì chúng ta thực hiện join id-list Nếu không, chuỗi được loại bỏ.
2.2.3 Đặc trưng của thuật toán SPADE
- SPADE sử dụng hướng tiếp cận lý thiết mang dé phân rã không gian tìm kiếm ban đầu thành các không gian tìm kiếm nhỏ hơn nhờ áp dụng định nghĩa lớp tương đương, trong đó mỗi không gian tìm kiếm con có thé được xử lý một cách độc lập trong bộ nhớ chính.
Trang 11Với hướng tiếp cận này, thuật toán thường yêu cầu 3 lần truy vấn CSDL hay 1 lần duy nhất với trường hợp dữ liệu được tiền xử lý, do đó giúp giảm chi phí I/O.
- _ Định dang CSDL dọc theo id-list được áp dụng, ở đó mỗi chuỗi là một danh sách các đối tượng xảy cùng mốc thời gian Và tất cả các chuỗi phổ biến có thé được liệt qua các
phép join theo thời gian đơn giản trên danh sách id-list.
- Chi phí tính toán để liệt kê chuỗi phổ biến trong các không gian tìm kiếm con cũng được giảm thiêu nhờ 2 chiến lược: Tìm kiếm BFS và tìm kiếm DFS Khi số lượng chuỗi phổ
biến lớn, DFS là cách tiếp cận kha thi.
2.2.4 Ví dụ mình họa
Đề hiểu rõ hơn về hoạt động của thuật toán SPADE, chúng ta sẽ cùng nhau thực hiện khai phá toàn bộ mẫu tuần tự trên tập dữ liệu tải traffic in trong cùng ngày của mang IP với
min_sup = 50%.
Bang 2.3: CSDL tai traffic in H
Interface_id Interface_name Date_time Counter
Trang 12Hình 2.9: Danh sách id-list của CSDL H sau chuẩn hóa b) Xác định danh sách chuỗi phổ biến độ dài 1 F¡
Chúng ta xác định được tập các chuỗi phô biến độ dài 1, F¡ = {(1.3), (1.5), (1.6), (2.6),
Hình 2.10: Danh sách id-list của các chuỗi phố biến độ dài 1
c) Xác định danh sách chuỗi phô biến độ dài 2 Fy
Danh sách id-list của các chuỗi 2-sequence phô biến được biểu diễn trong Hình 2.11.
Hình 2.11: Danh sách id-list của chuỗi phố biến độ dài 2
d) Sử dụng tìm kiếm DFS dé tìm các chuỗi phổ biến trong từng phân vùng con
Không gian tìm kiếm ban đầu đã được chia nhỏ thành 4 phân vùng con độc lập nhau,
tương ứng 4 lớp tương đương là [1.3l¿ [1.5l¿ [1.6]¿ [2.6], và [2.7], - Chúng ta có thé
thực hiện join id-list theo thời gian với phương pháp DFS trên 4 lớp tương đương này.
e) Kết quả
Bang 2.8: Danh sách chuỗi phố biến
k-sequence Sequence Count(1.3) 3
1-sequence (1.5) 3(1.6) 3