1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu Logfile của Firewall trong hệ thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ

59 843 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 2,07 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHÍ THANH KHAI PHÁ DỮ LIỆU LOGFILE CỦA FIREWALL TRONG HỆ THỐNG MẠNG IPTV NHẰM PHÁT HIỆN TẤN CÔNG TỪ CHỐI DỊCH VỤ Ngành: CNTT

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHÍ THANH

KHAI PHÁ DỮ LIỆU LOGFILE CỦA FIREWALL TRONG HỆ THỐNG MẠNG IPTV NHẰM PHÁT HIỆN TẤN CÔNG

TỪ CHỐI DỊCH VỤ

Ngành: CNTT Chuyên ngành: Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy

Hà Nội – 2013

Trang 2

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy giáo,

PGS-TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn em trong suốt quá trình

thực hiện đề tài

Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa CNTT, trường

Đại học Công nghệ, Đại học Quốc gia Hà Nội đã truyền đạt kiến thức quý báu

cho em trong những năm học vừa qua

Cuối cùng, xin gửi lời cảm ơn chân thành đến những tác giả của các tài

liệu mà tôi đã sử dụng để tham khảo trong quá trình thực hiện đề tài

Xin chân thành cảm ơn!

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan mô hình giải pháp “Khai phá dữ liệu logfile của

Firewall trong hệ thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ”

được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS

TS Hà Quang Thụy

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Học viên thực hiện

Nguyễn Chí Thanh

Trang 4

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 2

MỤC LỤC 3

DANH MỤC CÁC CHỮ VIẾT TẮT 5

DANH MỤC BẢNG BIỂU 6

DANH MỤC HÌNH VẼ 7

MỞ ĐẦU 8

CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV 11

1.1 GIỚI THIỆU VỀ MẠNG IPTV 11

1.1.1 IPTV là gì 11

1.1.2 Kiến trúc tổng quan mạng IPTV 11

1.1.3 Các dịch vụ của mạng IPTV 13

1.2 DỮ LIỆU LOGFILE MẠNG IPTV 13

1.2.1 Logfile Firewall 14

1.2.2 Router syslog 15

1.2.3 STB logs 16

1.2.4 Log ứng dụng 17

1.3 TẤN CÔNG TỪ CHỐI DỊCH VỤ 19

1.3.1 Giới thiệu về tấn công từ chối dịch vụ 19

1.3.2 Các loại tấn công từ chối dịch vụ 19

CHƯƠNG 2: PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE 21

2.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 21

2.1.1 Phát hiện tri thức 21

2.1.2 Khai phá dữ liệu 22

2.1.3 Ứng dụng của khai phá dữ liệu 23

2.2 SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV 24

2.3 MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE ĐIỂN HÌNH 25

2.3.1 Sơ bộ về phân lớp dữ liệu 25

II.3.1.1 Khái niệm phân lớp dữ liệu 25

II.3.1.2 Ứng dụng của phân lớp dữ liệu 28

II.3.1.3 Các kỹ thuật phân lớp dữ liệu 29

2.3.2 Sơ bộ về phân cụm dữ liệu 29

II.3.2.1 Khái niệm phân cụm dữ liệu 29

II.3.2.2 Ứng dụng của phân cụm dữ liệu 30

Trang 5

II.3.2.3 Các kỹ thuật phân cụm dữ liệu 31

CHƯƠNG 3: MÔ HÌNH KHAI PHÁ DỮ LIỆU LOGFILE CỦA FIREWALL TRONG HỆ THỐNG MẠNG IPTV NHẰM PHÁT HIỆN TẤN CÔNG TỪ CHỐI DỊCH VỤ 32

3.1 MÔ TẢ BÀI TOÁN 33

3.1.1 Tên gọi bài toán 33

3.1.2 Phân tích bài toán 33

3.1.3 Xác định dữ liệu cần thiết 33

3.2 MÔ HÌNH GIẢI PHÁP 34

3.2.1 Xây dựng mô hình 34

3.2.2 Phân lớp bản ghi logfile theo địa chỉ và cổng dịch vụ máy đích 37

3.2.3 Phân cụm bản ghi logfile theo địa chỉ máy trạm 40

CHƯƠNG 4: THỰC NGHIỆM 45

4.1 QUY TRÌNH THỰC NGHIỆM 45

4.1.1 Môi trường thực nghiệm 45

4.1.2 Mô tả quy trình thực nghiệm 46

4.2 PHÂN TÍCH DỮ LIỆU LOGFILE FIREWALL ISA 46

4.3 PHẦN MỀM DoSAlert 48

4.3.1 Chức năng chính của phần mềm 48

4.3.2 Mô tả cơ sở dữ liệu 49

4.3.3 Giao diện phần mềm 50

4.4 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 52

4.4.1 Kết quả thực nghiệm 52

4.4.2 Đánh giá kết quả thực nghiệm 56

KẾT LUẬN 57

TÀI LIỆU THAM KHẢO 58

Trang 6

DANH MỤC CÁC CHỮ VIẾT TẮT

API Application Programming Interface

CSDL Cơ sở dữ liệ

DoS Denial of Service

CNTT Công nghệ thông tin

DDoS Distributed Denial of Service

DRM Digital Rights Management

DSLAM Digital Subscriber Line Access Multiplexer

EPG Electronic Program Guide

HDTV High Definition Television

IP Internet Protocol

IPTV Internet Protocol Television

ISP Internet Service Provider

ITU International Telecommunication Union

KDD Knowledge Discovery in Database

KPDL Khai pha dữ liệu

MoD Music on Demand

PKI Public Key Infrastructure

QoS Quality of Service

SIEM Security Information and Event Management

STB Set Top Box

VoD Video on Demand

VoIP Voice over Internet Protocol

DSL Digital Subscriber Line

Trang 7

DANH MỤC BẢNG BIỂU

Bảng 1.1: Cấu trúc STB log 17

Bảng 1.2: Cấu trúc logfile của IIS 18

Bảng 3.1: Dữ liệu kiểm thử sau khi trích chọn và khử nhiễu 39

Bảng 3.2 (a): Dữ liệu kiểm thử sau khi phân lớp 39

Bảng 3.2 (b): Dữ liệu kiểm thử sau khi phân lớp 39

Bảng 3.2 (c): Dữ liệu kiểm thử sau khi phân lớp 40

Bảng 4.1: Cấu trúc logfile Firewall ISA 2006 48

Bảng 4.2: Cấu trúc bảng cơ sở dữ liệu tbl_setting 49

Bảng 4.3: Cấu trúc bảng cơ sở dữ liệu tbl_destinationip 49

Bảng 4.4: Cấu trúc bảng phụ trong cơ sở dữ liệu 50

Trang 8

DANH MỤC HÌNH VẼ

Hình 1.1: Mô hình tổng quan hệ thống IPTV 12

Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006 15

Hình 1.3: Syslog 16

Hình 2.1: Quá trình phát hiện tri thức 21

Hình 2.2: Quá trình khai phá dữ liệu 23

Hình 2.3: Quá trình phân lớp dữ liệu [1] 26

Hình 2.4: Bước học trong phân lớp dữ liệu [1] 27

Hình 2.5 (a): Bước phân lớp dữ liệu [1] 28

Hình 2.5 (b): Bước phân lớp dữ liệu [1] 28

Hình 2.6: Ví dụ về phân cụm dữ liệu 30

Hình 3.1: Mô hình giải quyết bài toán 35

Hình 3.2: Tập dữ liệu kiểm thử 38

Hình 3.3(a): Kết quả phân cụm trên tập dữ liệu kiểm thử 43

Hình 3.3(b): Kết quả phân cụm trên tập dữ liệu kiểm thử 43

Hình 4.1: Mô hình hệ thống thực nghiệm 46

Hình 4.2: Giao diện chính của phần mềm DoSAlert 50

Hình 4.3: Menu chính của phần mềm DoSAlert 51

Hình 4.4: Giao diện thiết lập danh sách IP cần giám sát 51

Hình 4.5: Giao diện thiết lập đường dẫn thư mục 52

Hình 4.6: Giao diện thiết lập tham số cảnh báo tấn công từ chối dịch vụ 52

Hình 4.7: Giao diện quản trị phần mềm XAMPP 53

Hình 4.8: Giao diện quản trị ISA Server 2006 53

Hình 4.9: Giao diện website demo 54

Hình 4.10: Cấu hình ghi log trên Firewall ISA 54

Hình 4.11:Dữ liệu trên logfile của Firewall ISA 55

Hình 4.12:Thông tin cảnh báo trên phần mềm DoSAlert 56

Trang 9

MỞ ĐẦU

Ngày nay, việc quản lý và vận hành các hệ thống mạng viễn thông đều dựa trên việc phân tích dữ liệu do các thiết bị và ứng dụng trong hệ thống cung cấp Những dữ liệu này được gọi là dữ liệu log hệ thống và dữ liệu log ứng dụng Dữ liệu log hệ thống là những dữ liệu được tạo ra bởi các thiết bị hệ thống

và hệ điều hành Dữ liệu log ứng dụng là những dữ liệu được tạo ra bởi các ứng dụng chuyên trách phục vụ một hoặc một số nhiệm vụ trong hệ thống Những dữ liệu này thường rất phức tạp do được cung cấp bởi những hệ thống có sự tham gia của nhiều hãng trong cùng một mạng lưới rộng lớn Nguyên nhân của sự phức tạp này chủ yếu là do các dữ liệu có định dạng khác nhau, ý nghĩa các thành phần khác nhau, dẫn đến khó khăn trong quá trình đọc và phân tích, gây phức tạp trong việc tìm mối tương quan giữa các dữ liệu, gây phức tạp trong việc thu thập và lưu trữ, v.v… Một phần nhỏ của dữ liệu này được thể hiện thông qua các hệ thống giám sát vận hành trực tuyến, cho phép cung cấp một bức tranh toàn cảnh về quá trình vận hành và chất lượng dịch vụ theo từng thành phần mạng khác nhau, tuy nhiên phần lớn dữ liệu được nén và lưu trữ cục bộ Khi có một sự kiện bất thường xảy ra cần được phân tích chi tiết tức thời, các dữ liệu gần đây sẽ được lấy ra, giải nén rồi đưa vào phân tích Đây là một loại phân tích ra quyết định trực tuyến và nó tạo ra những thách thức lớn đối với các phương thức khai phá dữ liệu và các quá trình phát hiện tri thức [8, 9, 10, 11]

Ngoài ra, sự phát triển nhanh chóng của công nghệ viễn thông như nâng cao tốc độ Internet, các công nghệ di động mới, sự phát triển của kết nối không dây, sự kết hợp các công nghệ cũ và mới, cùng với sự gia tăng không ngừng khách hàng sử dụng cũng làm cho số lượng dữ liệu log tạo ra lớn hơn, dữ liệu log ngày càng phức tạp hơn Việc trích xuất các phần dữ liệu phù hợp, có giá trị trong một khối lượng lớn các dữ liệu hệ thống là thách thức đối với các phương thức và công cụ phân tích hiện nay Điều này đỏi hỏi sự cải tiến không ngừng các phương pháp tiếp cận và kỹ thuật khai phá dữ liệu, đồng thời nâng cao khả năng xử lý và lưu trữ của các thiết bị hệ thống nhằm cho phép truy xuất và phân tích dữ liệu nhanh chóng

Các hệ thống mạng viễn thông lớn được thiết kế để tạo ra những tập dữ liệu log đặc thù nhằm hỗ trợ cho việc phân tích IPTV (Internet Protocol TeleVision) là một ví dụ về những hệ thống mạng như vậy [13, 14] Thông qua

dữ liệu log, những quản trị viên có thể nắm được quá trình vận hành của hệ thống, biết được những gì đang diễn ra trong mạng Tuy nhiên không phải toàn

bộ các dữ liệu log là có giá trị, chỉ một phần nhỏ trong đó cần giám sát trực tuyến, một phần cần được lưu trữ để sử dụng khi cần thiết, thậm chí, có những

dữ liệu hoàn toàn vô giá trị Để lấy ra và sử dụng những dữ liệu có ích đòi hỏi phải có phương pháp khai phá dữ liệu thích hợp Điều này sẽ hỗ trợ các quản trị viên trong việc phân tích và ra quyết định nhanh khi cần thiết

Trang 10

Việc khai phá dữ liệu logfile trong hệ thống đang ngày càng được quan tâm và chú trọng nhiều hơn Phạm vi ứng dụng của nó cũng được mở rộng ra các lĩnh vực khác, đặc biệt là lĩnh vực đảm bảo an toàn thông tin Chỉ thị 897/CT của Thủ tướng Chính phủ về việc tăng cường triển khai các hoạt động đảm bảo

an toàn thông tin số nêu rõ: các Bộ, cơ quan ngang Bộ, cơ quan thuộc Chính phủ, Ủy ban nhân dân các tỉnh, thành phố trực thuộc Trung ương nhất thiết phải

“áp dụng chính sách ghi lưu tập trung biên bản hoạt động (logfile) cần thiết để phục vụ công tác điều tra và khắc phục sự cố mạng” đối với các hệ thống thông

tin quan trọng, các cổng, trang thông tin điện tử quan trọng [4] Điều này cho thấy tầm quan trọng của việc sử dụng dữ liệu logfile trong việc đảm bảo an toàn vận hành cho các hệ thống công nghệ thông tin (CNTT) là không nhỏ

Trên thị trường hiện nay có một loại giải pháp bảo mật đang bắt đầu được

sử dụng phổ biến trong các hệ thống CNTT lớn nói chung và hệ thống IPTV nói riêng, đó là giải pháp “Quản lý và phân tích các sự kiện an toàn thông tin” (Security Information and Event Management - SIEM) [10] Giải pháp này dựa trên việc thu thập và phân tích dữ liệu log của tất cả các thiết bị và ứng dụng trong hệ thống Những kỹ thuật chính được áp dụng trong giải pháp SIEM chính

là các kỹ thuật khai phá dữ liệu Mục tiêu của các giải pháp này mới chỉ ở mức

độ hỗ trợ điều tra, xử lý các sự cố vận hành hệ thống, đánh giá hiệu suất hoạt động, và chưa tập trung nhiều vào việc phát hiện, cảnh báo các sự cố bảo mật Mặt khác, các giải pháp này chỉ phù hợp để triển khai trong những hệ thống có quy mô lớn, được đầu tư nhiều giải pháp bảo mật khác để bảo vệ tổng thể, theo

đó, giải pháp SIEM sẽ đưa ra cảnh báo dựa trên log của chính những thiết bị bảo mật đó Có thể thấy các giải pháp này chưa thực sự phù hợp với môi trường CNTT ở Việt Nam bởi vì các doanh nghiệp ở Việt Nam chưa dành sự quan tâm đúng mức về việc đảm bảo an toàn thông tin, mặt khác chi phí đầu tư cũng là một vấn đề lớn khiến cho các hệ thống CNTT ở Việt Nam không được trang bị đầy đủ các giải pháp bảo mật, dẫn đến việc triển khai các sản phẩm SIEM không hiệu quả

Dựa trên việc tham khảo nghiên cứu của Kimmo Hätönen, 2009 [10] về phân tích logfile hệ thống mạng IPTV nhằm hỗ trợ ra quyết định trong việc xử

lý các sự cố vận hành, đánh giá hiệu năng hệ thống, đánh giá chất lượng dịch vụ, tác giả nhận thấy có thể áp dụng một cách hiệu quả các kỹ thuật khai phá dữ liệu vào việc đảm bảo an toàn, bảo mật cho hệ thống mạng IPTV nói riêng và các hệ thống CNTT nói chung Hướng tiếp cận này sẽ hữu ích trong việc phát triển những giải pháp cảnh báo tấn công, có đặc tính phù hợp với môi trường CNTT tại Việt Nam, đó là: hiệu quả, chi phí thấp, dễ triển khai và áp dụng cho nhiều hệ thống với quy mô khác nhau

Cụ thể trong luận văn này, tác giả đề xuất xây dựng mô hình giải pháp khai phá dữ liệu logfile của Firewall trong mạng IPTV nhằm phát hiện tấn công

từ chối dịch vụ (DoS)

Nội dung của luận văn chia thành các chương như sau:

Trang 11

Chương 1: Luận văn giới thiệu sơ bộ về hệ thống mạng IPTV và một số

loại logfile thường gặp trong mạng IPTV Kiến trúc tổng quan và các dịch vụ điển hình hệ thống mạng IPTV được trình bày Cấu trúc dữ liệu của các logfile

hệ thống (Logfile Firewall, Router Syslog, STB log) cũng như logfile ứng dụng

đã được mô tả Một số nội dung sơ bộ về tấn công từ chối dịch vụ cũng được giới thiệu

Chương 2: Luận văn giới thiệu tổng quan về khai phá dữ liệu và các

phương pháp khai phá dữ liệu logfile điển hình Nội dung chính của chương này

là giới thiệu về một số bài toán khai phá dữ liệu logfile

Chương 3: Dựa trên hướng tiếp cận của Kimmo Hätönen [10], luận văn

đề xuất một mô hình giải pháp khai phá dữ liệu logfile của Firewall trong hệ thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ Các bước thực hiện quá trình mô hình (Xác định dữ liệu liên quan, Thu thập và tiền xử lý dữ liệu, Thi hành khai phá dữ liệu, Xác định mẫu thu thập được, Đánh giá mẫu kết quả) được trình bày

Chương 4: Luận văn trình bầy thực nghiệm thực tế dựa trên mô hình đề

xuất Luận văn đề nghị một tiêu chí kết luận đang diễn ra một cuộc tấn công từ chỗi dịch vụ và thực nghiệm phát hiện phát hiện sự xuất hiện của tấn công theo tiêu chí được đề xuất Phần mềm thực nghiệm dựa trên DoSAlert đã hoạt động cho kết quả phù hợp

Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng

phát triển trong tương lai

Trang 12

CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV

1.1 GIỚI THIỆU VỀ MẠNG IPTV

1.1.1 IPTV là gì

Cuối thập kỷ trước, cùng sự phát triển của các dịch vụ truyền hình vệ tinh,

sự tăng trưởng của dịch vụ truyền hình cáp số, và đặc biệt là sự ra đời của HDTV (High Definition Television) đã để lại dấu ấn đối với lĩnh vực truyền hình Tuy nhiên, hiện nay trên thế giới đã xuất hiện một phương thức cung cấp dịch vụ mới mạnh hơn, đó là IPTV (Internet Protocol Television) IPTV ra đời dựa trên sự hậu thuẫn của ngành viễn thông, đặc biệt là mạng băng rộng; IPTV

dễ dàng cung cấp nhiều hoạt động tương tác hơn, tạo nên sự cạnh tranh mạnh

mẽ hơn cho các doanh nghiệp kinh doanh dịch vụ truyền hình

Sự phát triển nhanh chóng của mạng Internet băng rộng làm thay đổi cả

về nội dung và kĩ thuật truyền hình IPTV là một hệ thống cung cấp các dịch vụ truyền hình số tới các thuê bao sử dụng giao thức IP trên kết nối băng rộng IPTV thường được cung cấp cùng với dịch vụ VoD và cũng có thể cung cấp cùng với các dịch vụ Internet khác như truy cập Web và VoIP, do đó còn được gọi là “Triple Play” và được cung cấp bởi nhà khai thác dịch vụ băng rộng sử dụng chung một hạ tầng mạng Hiện nay IPTV đang là cấp độ cao nhất và là công nghệ truyền hình của tương lai Sự vượt trội trong kĩ thuật truyền hình của IPTV là tính năng tương tác giữa hệ thống với người xem, cho phép người xem chủ động về thời gian và khả năng triển khai nhiều dịch vụ giá trị gia tăng tiện ích khác trên hệ thống nhằm đáp ứng nhu cầu của người sử dụng Đây cũng là

xu hướng hội tụ của mạng viễn thông thế giới

Trên thế giới đã có một số quốc gia triển khai thành công IPTV Tại Việt Nam một số nhà cung cấp IPTV như VNPT, FPT, VTC,…

Hệ thống IPTV truyền tải các kênh truyền hình quảng bá và nội dung video, audio theo yêu cầu chất lượng cao qua một mạng băng thông rộng Theo

tổ chức Liên Hiệp Viễn Thông Quốc Tế ITU thì: IPTV là dịch vụ đa phương tiện

bao gồm truyền hình, video, audio, văn bản, đồ họa và dữ liệu truyền trên một mạng IP và được quản lý để đáp ứng yêu cầu về chất lượng dịch vụ (Quality of Serice – QoS), sự trải nghiệm (Quality of Experience – QoE), tính bảo mật, tính tương tác và độ tin cậy [13]

1.1.2 Kiến trúc tổng quan mạng IPTV

Hệ thống IPTV bao gồm 04 thành phần quan trọng, đó là: nội dung (Content), nền tảng (Platform), hệ thống mạng (Network), và thiết bị đầu cuối (Terminal) Trong mô hình kinh doanh, 04 thành phần trên tương ứng với 04 vai trò sau: nhà cung cấp nội dung (Content Provider), nhà cung cấp dịch vụ

Trang 13

(Service Provider), nhà cung cấp hệ thống mạng (Network Provider), khách hàng (Customer) [14]

Kiến trúc tổng quan mạng IPTV như sau [14]:

Hình 1.1: Mô hình tổng quan hệ thống IPTV

Thành phần nội dung (Content) [14]: bao gồm âm thanh, hình ảnh, dữ

liệu, dữ liệu văn bản, và các ứng dụng Những nội dung này được phân phối thông qua các kênh khác nhau như vệ tinh, truyền hình mặt đất, cơ sở dữ liệu của nhà cung cấp nội dung, v.v…

Thành phần nền tảng (Platform) [14]: bao gồm việc nhận dữ liệu nội

dung, xử lý, truyền tải, bảo mật và quản lý tùy theo quy định của nhà cung cấp dịch vụ Thành phần này bao gồm các hệ thống chính sau:

- Hệ thống nhận nội dung: nhận các tín hiệu nguồn từ nhà cung cấp nội dung, nhà cung cấp chương trình, thông qua truyền hình mặt đất, vệ tinh, cáp, mạng IP, v.v… Đồng thời, hệ thống này kiểm soát việc phân phối tín hiệu thông qua các bộ chuyển mạch và giám sát việc phát nội dung thông qua phòng điểu khiển chính

- Hệ thống xử lý và truyền tải: hệ thống này thực hiện việc nén các tín hiệu nhận được theo một định dạng nhất định (ví dụ: H.264, MPEG2, VC1), sau đó đóng gói thành theo định dạng IP và chuyển sang hệ thống mạng

- Hệ thống xử lý giá trị gia tăng: sử dụng các middleware và các nền tảng ứng dụng để cung cấp các dịch vụ dữ liệu bổ sung như thông tin, thương mại, truyền thông, giải trí, giáo dục

- Hệ thống bảo mật: bao gồm các hệ thống quản lý bản quyền số, các

hệ thống mã hóa và giải mã nội dung, hệ thống kiểm soát truy nhập nhằm ngăn chặn việc khai thác nội dung bất hợp pháp Trong đó, hệ thống quản lý bản quyền số (DRM) giúp nhà khai thác bảo vệ nội

Trang 14

dung của mình, như trộn các tín hiệu truyền hình hay mã hóa nội dung VoD, khi truyền đi trên mạng Internet và tích hợp với tính năng an ninh tại STB ở phía thuê bao Hệ thống DRM dựa trên các khái niệm của hệ thống cơ sở hạ tầng khoá công khai (Public Key Infrastructure – PKI Ngoài ra, hệ thống bảo mật cũng bao gồm các thiết bị chuyên dụng khác như: tường lửa (firewall), thiết bị phát hiện và ngăn chặn xâm nhập (ips), thiết bị quản lý log tập trung, v.v…

- Hệ thống quản lý: thực hiện phối hợp và kiểm soát các hoạt động nội bộ giữa các hệ thống phụ và trong toàn bộ hệ thống Ngoài ra,

hệ thống này còn quản lý và lên lịch cho cách chương trình, nội dung và các thiết bị, đồng thời quản lý các thông tin về trạng thái thuê bao và tính cước

Thành phần hệ thống mạng (Network) [14]: thành phần này bao gồm hạ

tầng mạng IP băng rộng để truyền dịch vụ từ nhà cung cấp dịch vụ IPTV đến khách hàng Mạng truy nhập sẽ tận dụng phần hạ tầng mạng xDSL có sẵn Để cung cấp dịch vụ với chất lượng tốt và tiêu thụ ít băng thông khi có đồng thời nhiều truy nhập đến hệ thống, mạng truy nhập băng rộng cần phải được hỗ trợ multicast

Thành phần đầu cuối (Terminal) [14]: thành phần này nằm ở phía khách

hàng, bao gồm các thiết bị cho phép thu nhận, giải mã và hiển thị nội dung trên tivi như Set-Top-Box (STB) STB cần hỗ trợ các chuẩn MPEG-4/H.264 Ngoài

ra, STB cũng có thể hỗ trợ HDTV, có khả năng kết nối với các thiết bị lưu trữ bên ngoài, video phone, truy nhập web, v.v

1.1.3 Các dịch vụ của mạng IPTV

Cung cấp các dịch vụ quảng bá: Quảng bá ti vi (Broadcast TV); kênh âm thanh (Audio Channel); truyền hình trực tuyến (Time-Shift TV); VOD băng hẹp [8]

Cung cấp các dịch vụ theo yêu cầu: Video theo yêu cầu (Video on Demand - VoD); âm nhạc theo yêu cầu (Music on Demand - MoD); TV theo yêu cầu (TV on Demand - TVoD) [8]

Cung cấp các dịch vụ tương tác: thông tin tương tác (Interactive Information); truyền hình tương tác (Interactive TV); công ích, từ thiện, trực tuyến (Online Subscription); đánh bạc trực tuyến (Online Gambling); phỏng vấn trực tuyến (Online Bill Enquiry); trò chơi (Game); Web; Email; TV thương mại (TV-Commerce) [8]

1.2 DỮ LIỆU LOGFILE MẠNG IPTV

Trong một hệ thống mạng lớn như IPTV, các nhà cung cấp dịch vụ thường thu thập một lượng lớn dữ liệu như log thiết bị, log hệ thống, các thông

Trang 15

tin cảnh báo, thông điệp điều khiển được tạo ra trên mạng lưới bởi các ứng dụng hoặc thiết bị Những dữ liệu này thường đa dạng và phức tạp bởi có rất nhiều thiết bị khác nhau tham gia vào hệ thống Các máy chủ với các hệ điều hành khác nhau cũng tạo ra một lượng lớn dữ liệu log Ngoài ra còn có log của những ứng dụng hoạt động trên hệ thống

Trong mạng IPTV, thường gặp một số loại logfile hệ thống sau:

- Firewall logs: là các bản ghi log ghi lại trạng thái hoạt động của Firewall, các kết nối vào ra hệ thống, các hành động mà Firewall đã thực thi đối với từng kết nối (cho phép hoặc chặn), thông tin về nguồn kết nối, đích kết nối, v.v…

- Router syslogs [11]: đó là các log được tạo ra bởi các router trong

đó mô tả một loạt các sự kiện được router ghi lại

- STB logs [11]: là các bản ghi mô tả lại những hoạt động của người dùng cuối, chẳng hạn tắt, bật STB, yêu cầu nội dung, v.v

- Các log ứng dụng, đặc biệt là log ứng dụng web, cho phép khai thác các dữ liệu được thu thập khi người dùng truy cập máy chủ web nhằm thực hiện một số tác vụ như xem và yêu cầu dịch vụ truyền hình, đăng ký và sử dụng các dịch vụ giá trị gia tăng,v.v… Các log ứng dụng khác có thể được sử dụng cho những yêu cầu phân tích cụ thể

1.2.1 Logfile Firewall

Trong hệ thống IPTV, vấn đề đảm bảo an toàn an ninh trong quá trình cung cấp dịch vụ luôn được quan tâm Đây cũng là một trong những yêu cầu hàng đầu trong quá trình thiết kế, xây dựng của hệ thống IPTV nói riêng và các

hệ thống CNTT nói chung

Hiện nay có rất nhiều giải pháp an toàn thông tin được áp dụng trong các

hệ thống CNTT Trong đó, Firewall là giải pháp bảo mật phổ biến nhất, và là một trong những trang bị tiêu chuẩn cần có đối với một hệ thống IPTV

Firewall cho phép người quản trị kiểm soát các truy nhập ra vào hệ thống, ngăn chặn những truy nhập bất hợp pháp Các Firewall thế hệ mới ngoài chức năng kiểm soát kết nối cơ bản còn được tích hợp thêm các module bảo mật khác như: module phát hiện và ngăn chặn xâm nhập, module thiết lập kết nối mạng riêng ảo, module dò quét virus,…

Trong quá trình vận hành, việc phân tích dữ liệu log của Firewall đóng vai trò quan trọng trong việc đánh giá hiệu quả hoạt động, điều tra truy vết khi xảy

ra sự cố trên hệ thống, thống kê đánh giá lưu lượng kết nối và hiệu năng của hệ thống, v.v Đặc biệt, do lưu lại những thông tin liên quan đến các kết nối từ bên ngoài vào hệ thống nên dữ liệu log của Firewall rất hữu ích trong việc phát hiện

và cảnh báo các cuộc tấn công từ chối dịch vụ

Trang 16

Log của các loại Firewall khác nhau sẽ có cấu trúc khác nhau, được lưu dưới những định dạng khác nhau Hai định dạng phổ biến của log Firewall là cơ

sở dữ liệu và logfile Luận văn này sẽ tập trung vào việc phân tích dữ liệu log được lưu trữ dưới dạng file nhằm mục đích phát hiện ra các cuộc tấn công Từ chối dịch vụ

Ví dụ về cấu trúc logfile của Firewall ISA Server 2006:

Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006

1.2.2 Router syslog

Router syslog ghi lại những thông tin được quan sát bởi router, chẳng hạn các liên kết (link), thay đổi trạng thái giao thức liên quan, đưa ra cảnh báo về môi trường (ví dụ điện áp, nhiệt độ), các cảnh báo khác như vi phạm về quy tắc định tuyến,v.v…

Mặc dù các thông điệp syslog chủ yếu để giám sát và gỡ các lỗi phần cứng và phần mềm router, nhưng chúng có thể rất có giá trị để những người vận hành mạng quản lý các dịch vụ và xử lý các sự cố mạng Chính vì vậy mà syslog thường được thu thập trên tất cả các router trong mạng, đặc biệt là mạng ISP Một giao thức syslog (syslog protocol) được chuẩn hóa và hỗ trợ rộng rãi bởi các nhà cung cấp router nhằm chuyển các thông điệp syslog từ router tới các bộ thu thập syslog

Dưới đây là ví dụ về syslog [11]:

Trang 17

Hình 1.3: Syslog

Có thể nhận thấy một cấu trúc tối thiểu trong các thông điệp syslog:

1 Nhãn thời gian cho biết thời điểm thông điệp được tạo ra

2 Tham số xác định router tạo ra thông điệp (gọi là router nguồn)

3 Loại thông điệp, còn được gọi là mã lỗi (error code), chỉ ra bản chất của vấn đề

4 Thông tin chi tiết được tạo ra bởi hệ điều hành của router

Thông tin chi tiết thường khá đặc biệt Chúng là các đoạn văn bản được tạo ra bởi hệ điều hành router bao gồm các thông tin như vị trí, tình trạng, hoặc các thông điệp cảnh báo đã được thiết lập sẵn Trong thông điệp syslog có thể định nghĩa nhiều kiểu phụ Kiểu phụ là một đoạn thông điệp được sử dụng lặp lại nhiều lần với một số thay đổi về giá trị các chuỗi con trong đoạn thông điệp

đó Chẳng hạn, “Line protocol on Interface , changed state to ” có thể được

xem là một kiểu phụ Việc kết hợp giữa syslog và các kiểu phụ có thể được dùng

để tạo ra các mẫu xác định các lớp điều kiện mạng mà thông điệp syslog mô tả

Ta gọi đây là phân lớp log

1.2.3 STB logs

Trong mạng IPTV, set-top-box (STB) là một máy tính nhỏ cung cấp liên lạc hai chiều trên nền IP và chịu trách nhiệm giải mã các tín hiệu video STB được tích hợp các giao tiếp mạng để tạo ra các kết nối tốc độ cao Phần mềm chạy trên STB ghi lại các sự kiện như là tắt/bật STB, chuyển kênh, ngắt hệ thống,v.v…

Các hãng cung cấp STB có định dạng log khác nhau Dưới đây là một ví

dụ về định dạng STB log [6]:

1;STBID:1233;IP:202.18.0.1;Username:TEST@IPTV.com;hardw areversion:001.001.001;softwareversion:001.001.001;Firmw are::001.001.001;Version:001.001.001 (new line)

Vender:XX;stbmodel:STB-YYYYMMDDHHMMSS: event description (new line) YYYYMMDDHHMMSS: event description (new line)

Bảng dưới mô tả cấu trúc sự kiện (event) trong STB [6]:

Event type State change Startup

Shutdown

Trang 18

Peripheral change Enter standby state Exit standby state Fault Software error

Hardware error Network error Service

observation

Refer to 4.4

Configuration change

Local configuration change

Remote configuration change

Fault level Enumeration: DEBUG; INFO; WARN;

ERROR; FATAL Error Refer to Appendix B

ý nghĩa các trường, mỗi bản ghi là một dòng hoặc gồm nhiều dòng,v.v…

Dưới đây là các trường dữ liệu có trong log được tạo ra bởi web server IIS (internet information server) [8]:

Trang 19

s-port Port of the server (usually “80”)

cs-username Name of the client (usually “‐“)

c-ip IP of the client

cs(Cookie) Cookie used (usually “‐“)

cs(Referer) Client’s web service referrer (usually “‐“)

cs-host

Address of the server that hosted the requested web service (usually the Service Group

address) sc-status HTTP Status Code

sc-substatus Associated Sub Status Code

sc-win32-status Associated Win32 Status Code

sc-bytes Bytes sent from the server to the client

cs-bytes Bytes sent from the client to the server

tim-taken Time taken to service the request

Bảng 1.2: Cấu trúc logfile của IIS

Trang 20

1.3 TẤN CÔNG TỪ CHỐI DỊCH VỤ

1.3.1 Giới thiệu về tấn công từ chối dịch vụ

Tấn công từ chối dịch vụ (Denial of Service – DoS) là một hình thức phá hoại dựa trên những hành động ngăn chặn người dùng tiếp cận một tài nguyên nào đó trên mạng [9] Theo đó, tin tặc sẽ lợi dụng điểm yếu hoặc lỗi an toàn thông tin của một hệ thống mạng cung cấp dịch vụ để làm ngưng trệ hoặc ngăn cản người dùng truy nhập dịch vụ đó, buộc nhà cung cấp phải tạm ngừng dịch

vụ và tìm cách khôi phục hệ thống

Những cuộc tấn công từ chối dịch vụ đã được biết đến từ đầu những năm

1980 [9] Ngày nay, các cuộc tấn công từ chối dịch vụ thường được thực hiện phân tán (Distributed DoS – DDoS): có nghĩa là tin tặc chiếm quyền kiểm soát một lượng lớn máy tính và ra lệnh cho chúng liên tục tạo các yêu cầu kết nối tới

hệ thống là đích tấn công Kết quả là hệ thống này bị quá tải và khiến cho những người dùng hợp lệ không thể truy cập được Nạn nhân điển hình của tấn công từ chối dịch vụ là các hệ thống máy chủ website thương mại điện tử, website tin tức, mạng doanh nghiệp, ngân hàng và các website chính phủ [9]

Việc ngừng hoạt động của hệ thống dịch vụ thường gây thiệt hại khó có thể tính chính xác: đó là tổng của thiệt hại trực tiếp về tiền bạc, uy tín cho nhà cung cấp dịch vụ, và thiệt hại gián tiếp của khách hàng sử dụng dịch vụ Đôi khi,

dù chỉ làm chậm và giảm khả năng phục vụ của hệ thống, thì loại tấn công này cũng dẫn tới những thiệt hại đáng kể

1.3.2 Các loại tấn công từ chối dịch vụ

Tấn công từ chối dịch vụ có ba loại cơ bản sau đây [5]:

1 Tiêu hao tài nguyên:

Máy tính và hệ thống mạng cần được đảm bảo một số yếu tố nhất định

để có thể vận hành, chẳng hạn: băng thông mạng, bộ nhớ và không gian ổ đĩa, chip xử lý, cấu trúc dữ liệu, khả năng truy cập tới các máy tính và hệ thống mạng khác, và một số tài nguyên môi trường như nguồn điện, điều hòa nhiệt độ… Trong đó, những loại tài nguyên sau thường bị khai thác trong các cuộc tấn công từ chối dịch vụ [5]:

- Kết nối mạng

- Sử dụng chính tài nguyên

- Tiêu hao băng thông

- Tiêu hao tài nguyên hệ thống như bộ nhớ, vi xử lý, không gian ổ đĩa,…

2 Phá hủy hoặc thay đổi thông tin cấu hình: một tin tặc có thể lợi dụng lỗ hổng trên hệ thống để thay đổi hoặc phá hủy các thông tin cấu hình (chẳng hạn: thay đổi bảng định tuyến trên router, chỉnh sửa registry trên hệ điều hành), điều này có thể khiến cho hệ thống vận hành không đúng chức năng hoặc không thể vận hành được

Trang 21

3 Phá hủy mức vật lý hoặc thay đổi thành phần hệ thống mạng: kiểu tấn công này liên quan đến những lỗ hổng trong việc bảo vệ hệ thống mức vật lý Tin tặc có thể lợi dụng vấn đề này để tương tác trực tiếp vào hệ thống và thực hiện các hành động phá hoại

Hiện nay, trên thực tế, tấn công từ chối dịch vụ thường xuất hiện phổ biến

ở loại thứ nhất, tức là làm tiêu hao tài nguyên hệ thống Có hai loại kỹ thuật chính để thực hiện loại tấn công này, đó là:

Loại thứ nhất: tin tặc gửi rất nhiều yêu cầu dịch vụ, bắt chước như người dùng thực sự yêu cầu đối với hệ thống Khi nhận được quá nhiều yêu cầu dịch

vụ giả của tin tặc, hệ thống sẽ sử dụng toàn bộ tài nguyên của mình để đáp ứng các yêu cầu đó và không còn tài nguyên để phục vụ các yêu cầu thực sự của người dùng, và người dùng không thể truy nhập được vào hệ thống Hình thức phổ biến của kiểu tấn công gây quá tải này là tấn công từ chối dịch vụ phân tán (Distributed DoS – DDoS), tạo ra yêu cầu dịch vụ giả từ nhiều địa chỉ, khiến cho nhà quản trị hệ thống không phân biệt được đó có phải là một cuộc tấn công từ chối dịch vụ hay không

Loại thứ hai: tin tặc lợi dụng kẽ hở an toàn thông tin của hệ thống để gửi các yêu cầu hoặc các gói tin không hợp lệ (không đúng theo tiêu chuẩn) một cách cố ý, khiến cho hệ thống bị tấn công khi nhận được yêu cầu hay gói tin này

sẽ xử lý không đúng hoặc không theo trình tự đã được thiết kế, dẫn đến sự sụp

đổ của chính hệ thống đó Ví dụ điển hình của kiểu tấn công này là “SYN

Flooding”, gây cho hệ thống dịch vụ mất khả năng tiếp nhận kết nối TCP

Biến thể của tấn công từ chối dịch vụ là dạng tấn công từ chối dịch vụ phân tán (DDoS) Hình thức tấn công này hiện rất phổ biến và được các tin tặc

sử dụng nhiều bởi khả năng phá hoại lớn Bản chất của tấn công từ chối dịch vụ phân tán là bao gồm nhiều cuộc tấn công từ chối dịch vụ đơn lẻ xuất phát từ một

số lượng cực lớn các máy tính khác nhau Do đó, việc phát hiện các cuộc tấn công từ chối dịch vụ đơn lẻ cũng sẽ giúp phát hiện được những cuộc tán công từ chối dịch vụ phân tán

Luận văn này tập trung vào việc phân tích logfile của Firewall để phát hiện ra các cuộc tấn công từ chối dịch vụ được thực hiện theo kỹ thuật thứ nhất, tức là tin tặc sử dụng một lượng lớn các yêu cầu dịch vụ giả để làm tiêu hao tài nguyên hệ thống

Trang 22

CHƯƠNG 2: PHƯƠNG PHÁP KHAI PHÁ DỮ

LIỆU LOGFILE

2.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

2.1.1 Phát hiện tri thức

Khai phá dữ liệu (KPDL: Data Mining) là một lĩnh vực nghiên cứu nhằm

tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ những cơ sở dữ liệu (CSDL) lớn tại các đơn vị, tổ chức, doanh nghiệp,… từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này Các kết quả nghiên cứu khoa học cùng những ứng dụng thành công trong phát hiện tri thức

từ cơ sở dữ liệu (Knowledge Discovery in Databases: KDD) cho thấy KPDL là

một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ tìm kiếm phân tích dữ liệu truyền thống Hiện nay, KPDL đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như thương mại, tài chính, y học, viễn thông,…

Các kỹ thuật chính được áp dụng trong lĩnh vực KPDL phần lớn được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê và tính toán hiệu năng cao, [7]

Như vậy, một cách khái quát, KPDL là một quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích, tiềm ẩn trong CSDL lớn KDD là mục tiêu chính của KPDL, do vậy hai khái niệm KPDL và KDD được các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau Thế nhưng nếu phân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD

Quá trình phát hiện tri thức (KDD) có thể chia thành 5 bước như sau [1]:

Hình 2.1: Quá trình phát hiện tri thức

Trang 23

- Chọn lựa dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai phá (liên quan tới bài toán phát hiện tri thức) từ các tập

dữ liệu lớn ban đầu

- Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hóa

- Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa

dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau

- Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong

dữ liệu Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD

- Đánh giá và trình diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được biến đổi và trình diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định

2.1.2 Khai phá dữ liệu

Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri thức Về bản chất là giai đoạn duy nhất trong các giai đoạn nói trên tìm ra được thông tin mới, tiềm ẩn, ữu ích có trong cơ sở dữ liệu phục vụ cho mô tả và dự đoán

Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong tập dữ liệu mà con người có thể hiểu được

Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm

Quá trình khai phá dữ liệu gồm các bước chính sau đây [3]:

Trang 24

Hình 2.2: Quá trình khai phá dữ liệu

Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

- Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp

- Thu thập và tiền xử lý dữliệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán khai phá dữ liệu có thể hiểu được Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v

- Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu

và thực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa

2.1.3 Ứng dụng của khai phá dữ liệu

KPDL là một lĩnh vực được quan tâm và ứng dụng rộng rãi Một số ứng dụng điển hình trong KPDL có thể liệt kê như sau [1]:

- Ứng dụng trong khoa học như thiên văn học, tin sinh học, y học (sáng chế các dược phẩm)

- Ứng dụng trong thương mại như quản lý quan hệ khách hàng (Customer Relationship Management: CRM), phát hiện gian lận, thương mại điện tử, sản xuất, thể thao/giải trí, dịch vụ viễn thông, tiếp thị định hướng, bảo hiểm y tế

- Ứng dụng trong World Wide Web như máy tìm kiếm, quảng cáo trực tuyến, khai phá web và khai phá mạng phương tiện xã hội

- Ứng dụng trong hoạt động chính quyền như phát hiện tội phạm, phát hiện lừa đảo thuế thu nhập cá nhân

- v.v

Hiện nay các hệ quản trị CSDL đã tích hợp những modul để KPDL như SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn công cụ KPDL tích hợp trong cả MS-Word, MS-Excel

Trang 25

2.2 SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV

Theo Kimmo Hätönen [10], việc quản lý mạng IPTV nói riêng và các mạng viễn thông nói chung yêu cầu phải có khả năng đưa ra quyết định nhanh (rapid decision-making) Khả năng này được cung cấp bởi các phương pháp khai phá dữ liệu Việc ra quyết định dựa trên kết quả truy xuất thông tin từ một lượng lớn dữ liệu được thu thập liên tục từ các hệ thống mạng Các dữ liệu này được tạo ra bởi các thành phần trong hệ thống (thiết bị mạng, thiết bị máy chủ, STB, các ứng dụng,…) Các thiết bị bảo mật như Firewall, IPS/IDS, Web Firewall,… cũng là một thành phần không thể thiếu trong hệ thống IPTV Chúng cũng tham gia vào quá trình vận hành hệ thống mạng Các thiết bị bảo mật này ghi lại những thông tin về các kết nối ra vào, kiểm tra thông tin truyền tải để phát hiện mã độc hay những hành động gây hại,… Việc theo dõi và phân tích log của những thiết bị này giúp cho người quản trị kiểm soát vận hành hệ thống tốt hơn, đảm bảo sự an toàn bảo mật của hệ thống trong quá trình cung cấp dịch vụ Tất cả những thành phần của hệ thống sẽ tạo ra các mục log, đưa ra cảnh báo về các sự kiện, trạng thái hệ thống và một loạt các thông số về hoạt động của hệ thống Dữ liệu log sau đó được thu thập và gửi về trung tâm vận hành, tại đây chúng được giám sát và phân tích để phát hiện ra bất kỳ vấn đề nào xảy ra trong quá trình vận hành hoặc nhằm tối ưu hiệu suất và chất lượng dịch

vụ Một hệ thống mạng trung bình có thể tạo ra hàng ngàn cảnh báo và hàng chục gigabyte dữ liệu log mỗi ngày Dữ liệu này chứa thông tin về hiệu suất và hoạt động của tất cả các thành phần mạng và dịch vụ được cung cấp

Khối lượng dữ liệu thu thập đặt ra những thách thức đối với các phương pháp phân tích và những công cụ hỗ trợ các chức năng quản lý mạng [10] Ví

dụ, làm thế nào để nhận ra và xác định ngay lập tức các vấn đề làm gián đoạn lưu thông dữ liệu, làm thế nào để tìm ra các vùng mạng và các thành phần cần phải tối ưu, làm thế nào để phát hiện ngay khi diễn ra các cuộc tấn công mạng làm ảnh hưởng đến hoạt động của hệ thống? Đây là những vấn đề gặp phải thường xuyên trong quá trình quản lý và vận hành mạng IPTV nói riêng và các mạng viễn thông nói chung Trong bối cảnh như vậy, các hệ thống viễn thông chính là một trong những đối tượng đầu tiên được áp dụng các phương pháp khai phá dữ liệu vào việc hỗ trợ ra quyết định trong quá trình quản trị hệ thống

Một trong những thách thức lớn nhất đối với các kỹ thuật khai phá dữ liệu

và phát hiện tri thức là làm sao để hỗ trợ cho các quá trình liên tục, chẳng hạn bảo trì mạng, giám sát mạng, trong đó các nhiệm vụ tương tự được lặp đi lặp lại hàng ngày Trong những nhiệm vụ này, các tập dữ liệu được phân tích hàng ngày là rất lớn và có khung thời gian chặt chẽ Các kỹ thuật khai phá dữ liệu hiện nay đã được cải tiến rất nhiều và thực sự có hiệu quả trong việc phân tích nhanh dữ liệu với khối lượng lớn; đồng thời hỗ trợ đắc lực cho người quản trị trong việc ra quyết định

IPTV là một hệ thống cung cấp dịch vụ có độ phức tạp cao Việc đảm bảo chất lượng và tính liên tục của dịch vụ là mục tiêu hàng đầu của bất kỳ hệ thống IPTV nào Biện pháp để đạt được các mục tiêu này là thường xuyên phân tích

Trang 26

trạng thái vận hành của hệ thống để đưa ra những quyết định điều chỉnh hoạt động, tối ưu các thông số, xử lý sự cố một cách nhanh chóng, chính xác Việc phân tích, đánh giá hoạt động của hệ thống cũng giúp tổ chức điều chỉnh chiến lượng, đánh giá thị trường, nhận định nhu cầu của khách hàng Chính vì vậy, việc áp dụng các kỹ thuật khai phá dữ liệu trong quản trị là rất cần thiết để đảm bảo hệ thống vận hành hiệu quả

2.3 MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE ĐIỂN HÌNH

Với hai mục đích khai phá dữ liệu là mô tả và dự đoán, các phương pháp khai phá dữ liệu sau đây thường được sử dụng:

- Luật kết hợp (association rules)

- Phân lớp (Classfication)

- Hồi quy (Regression)

- Trực quan hóa (Visualiztion)

- Phân cụm (Clustering)

- Tổng hợp (Summarization)

- Mô hình ràng buộc (Dependency modeling)

- Biểu diễn mô hình (Model Evaluation)

- Phân tích sự phát triển và độ lệch (Evolution and deviation analyst)

- Phương pháp tìm kiếm (Search Method)

Ngày nay, các phương pháp khai phá dữ liệu đã được nghiên cứu, biến đổi

và tối ưu cho nhiều mục đích khác nhau Tuy nhiên, có ba phương pháp được sử dụng nhiều trong khai phá dữ liệu logfile, đó là:

- Luật kết hợp

- Phân lớp dữ liệu

- Phân cụm dữ liệu

Luặn văn này sẽ tập trung giới thiệu về hai phương pháp phân lớp dữ liệu

và phân cụm dữ liệu Đây cũng chính là hai phương pháp được áp dụng trong quá trình thực nghiệm

2.3.1 Sơ bộ về phân lớp dữ liệu

II.3.1.1 Khái niệm phân lớp dữ liệu

Một trong các nhiệm vụ chính của khai phá dữ liệu là giải quyết bài toán phân lớp Đầu vào của bài toán phân lớp là một tập các mẫu học đã được phân lớp trước, mỗi mẫu được mô tả bằng một số thuộc tính Các thuộc tính dùng để

Trang 27

mô tả một mẫu gồm hai loại là thuộc tính liên tục và thuộc tính rời rạc Trong số các thuộc tính rời rạc có một thuộc tính đặc biệt là phân lớp, mà các giá trị của

nó được gọi là nhãn lớp Thuộc tính liên tục sẽ nhận các giá trị có thứ tự, ngược lại thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự Ngoài ra, các thuộc tính

có thể nhận giá trị không xác định (chẳng hạn, vì những lý do khách quan ta không thể biết được giá trị của nó) Chú ý rằng nhãn lớp của tất cả các mẫu không được phép nhận giá trị không xác định Nhiệm vụ của quá trình phân lớp

là thiết lập được ánh xạ giữa giá trị của các thuộc tính với các nhãn lớp Mô hình biểu diễn quan hệ nói trên sau đó sẽ được dùng để xác định nhãn lớp cho các quan sát mới không nằm trong tập mẫu ban đầu [1]

Hình 2.3: Quá trình phân lớp dữ liệu [1]

Quá trình phân lớp dữ liệu gồm hai bước [1]:

- Bước thứ nhất: quá trình học (learning)

Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp

dữ liệu hay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case) Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật if-then, cây quyết định, công thức logic, hay mạng nơron Quá trình này được mô tả như sau [1]:

Trang 28

Hình 2.4: Bước học trong phân lớp dữ liệu [1]

- Bước thứ hai: phân lớp (classification)

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp

dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của

mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được

mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với

dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết

Trang 29

Hình 2.5 (a): Bước phân lớp dữ liệu [1]

Hình 2.5 (b): Bước phân lớp dữ liệu [1]

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toán được đặc biệt trú trọng và phát triển

II.3.1.2 Ứng dụng của phân lớp dữ liệu

Thực tế đặt ra nhu cầu từ một cơ sở dữ liệu với nhiều thông tin ẩn ta có thể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của

Ngày đăng: 25/03/2015, 09:44

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w