Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 110 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
110
Dung lượng
2,38 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH BỘ MÔN VIỄN THÔNG -o0o - LUẬN ÁN CAO HỌC NGHIÊN CỨU BẢN CHẤT PHÂN ĐOẠN VÀ ĐA PHÂN ĐOẠN CỦA DỮ LIỆU MẠNG GVHD: TS LÊ TIẾN THƯỜNG HV: KS VÕ THỊ LƯU PHƯƠNG Lớp: CHK10 _ KTVT-ĐT 05/2003 LỜI CẢM TẠ Tôi xin cảm ơn chồng, cha mẹ em hỗ trợ, động viên nhiều cho công việc học tập Xin chân thành cảm ơn Tiến Sĩ LÊ TIẾN THƯỜNG tận tình hướng dẫn tơi suốt thời gian làm luận án Ngày 15 tháng năm 2003, Võ Thị Lưu Phương Chương 1: LỜI NÓI ĐẦU 1.1 Giới thiệu chung 1.2 Các nội dung Luận án bao gồm tất chương ¾ Chương 1: Các phương pháp phân tích mơ hình q trình phân đoạn Chương nói đến lỗi thời mơ hình Poison áp dụng cho lưu thơng mạng Sau nêu lên đặc tính lưu thơng mạng, đặc tính phân đoạn Các trình tiêu biểu trình phân đoạn Tự Đồng Dạng Phụ thuộc Tầm Xa Sau đó, chương cịn đề cập đến phương pháp để ước lượng tham số Hurst (đánh giá mức độ tự đồng dạng q trình) Các mơ hình cho trình phân đoạn đề cập đến, bao gồm mơ hình FARIMA, mơ hình nguồn ON/OFF, mơ hình fBm, ¾ Chương 2: Biến đổi wavelet phương pháp Phân Tích Đa Phân Giải Đầu tiên chương nêu lại số lý thuyết biến đổi wavelet liên tục (CWT) biến đổi wavelet rời rạc (DWT) số tính chất bật chúng Phần trọng tâm chương trình bày phương pháp Phân Tích Đa Phân Giải, mà công cụ quan trọng áp dụng chương ¾ Chương 3: Phương pháp phân tích liệu phân đoạn wavelets Chương cho ta biết làm mà Phân Tích Đa Phân Giải ứng dụng để phân tích, ước lượng tổng hợp q trình phân đoạn ¾ Chương 4: Bản chất Đa Phân Đoạn liệu WAN Chương nêu lên cách nhìn liệu thang tỉ lệ rât nhỏ (cỡ vài trăm mili giây trở xuống), mà đồ thị Logscale, biểu diễn khơng cịn tuyến tính Đó biểu đa phân đoạn liệu WAN Dữ liệu Đa Phân Đoạn khơng dược mơ hình hóa tham số liệu Phân Đoạn mà nhiều tham số khác theo thời gian Trong chương đề cập đến khác biệt liệu LAN liệu WAN, thang tỉ lệ lớn thang tỉ lệ nhỏ ¾ Chương 5: Mơ hình Đa Phân Đoạn dựa vào Wavelet Chuơng nêu lên mơ hình tối ưu để áp dụng cho liệu Đa Phân Đoạn Ưu điểm Những Kiến Thức Cơ Bản HV: KS.Võ Thị Lưu Phương mơ hình so với mơ hình khác ln cho ngõ dương, giống với liệu thức Cơng cụ áp dụng cho mơ hình wavelet Haar Phân Tích Đa Phân Giải ¾ Chương 6: Chương trình mơ Chương bao gồm phần Phần đầu chương trình MATLAB ước lượng tham số Hurst liệu Phân Đoạn Đánh giá chất liệu (Tự Đồng Dạng hay Phụ Thuộc Tầm Xa ) Phần thứ hai chương trình MATLAB dùng để ước lượng tham số liệu Đa Phân Đoạn Sau trình bày kết đạt nêu lên ý kiến đánh giá chúng ¾ Chương 7: Hướng phát triền Chương nêu lên việc chưa thực luận án hướng phát triển tương lai Ngồi chương ra, luận án cịn có hai phụ lục quan trọng khơng nhằm cung cấp cho người đọc số kiến thức tảng Đó là: ¾ Phụ lục A: Ơn lại số vấn đề lý thuyết xác suất trình ngẫu nhiên Phần trình bày lại số khái niệm xác suất phân bố quan trọng áp dụng luận án Ngồi ra, cịn định nghĩa số q trình ngẫu nhiên thơng dụng như: q trình dừng, q trình chuyển động Brownian, ¾ Phụ lục B giới thiệu phân tích Đa Phân Đoạn 1.3 Một số ký hiệu quy ước ¾ f (x ) ~ g (x ) x → a có nghĩa là: lim x→a f (x ) =1 g (x ) ¾ f (x ) ≈ g (x ) x → a có nghĩa là: lim x→a f (x ) = C , C số hữu hạn, khác g (x ) ¾ Ngoại trừ rõ, cịn khơng ∑ có nghĩa n +∞ ∑ n = −∞ d ¾ = có nghĩa chiều (dimensional) fd ¾ = có nghĩa chiều hữu hạn (finte-dimensional) Những Kiến Thức Cơ Bản HV: KS.Võ Thị Lưu Phương Tóm tắt nội dung Ngày nay, mạng liệu, LAN WAN ngày phức tạp phong phú ứng dụng chất nhiều lớp hệ thống mạng (7 lớp theo mơ hình OSI) Nên ta khơng thể dùng mơ hình Poisson để mơ hình cho liệu mạng làm với mạng thoại truyền thống hon 70 năm qua Dữ liệu mạng LAN có chất khác so với lưu thơng mạng thoại truyền thống (mạng chuyển mạch mạch), chất Tự Đồng Dạng, hay gọi phân đoạn Đồng thời, có biểu Phụ Thuộc Tầm Xa Dữ liệu phân đoạn đặc trưng tham số tham số Hurst (H) Đầu tiên, ta dùng phương pháp thống kê truyền thống đồ thị Phương sai-thời gian, đồ thị R/S, đồ thị Periodogram để phân tích, ước lượng tham số H liệu phân đoạn Sau đó, ta nêu lên phương pháp phân tích pháp triển gần phương pháp dựa biến đổi wavelets rời rạc (Discrete Wavelets Transform _ DWT) phân tích đa phân giải (Multiresolution Analysis _ MRA) Dưới lăng kính wavelet ta cịn gọi liệu phân đoạn liệu tỉ lệ (scaling), hay bất biến tỉ lệ (invariant scaling) xuất phát từ định nghĩa liệu có tham số thống kê khơng đổi nhiều thang tỉ lệ khác Và ta dùng tham số thống kê bậc hai, tham số đặc trưng cho liệu phân đoạn gọi số mũ bậc hai α, α=2H-1 Ta dùng đồ thị Logscale Diagram để phân tích đặc tính tỉ lệ ước lượng số mũ bậc hai liệu so sánh phương pháp phân tích với phương pháp thống kê truyền thống, nêu bậc ưu điểm Tuy nhiên, quan sát dòng liệu WAN thang tỉ lệ nhỏ (khoảng 100ms) ta thấy đồ thị Logsacle khơng cịn tuyến tính nữa, liệu lúc có chất khác với phân đoạn, chất đa phân đoạn liệu WAN Ta phải dùng phương pháp đồ thị khác để phân tích ước lượng WAN traffic thang tỉ lệ, đồ thị Multiscale Diagram Dữ liệu Đa Phân Đoạn đặc trưng nhiều tham số, số mũ tỉ lệ bậc khác bậc Luận án bao gồm tất chương ¾ Chương 1: Giới thiệu chung Chương nói đến lỗi thời mơ hình Poison áp dụng cho lưu thơng mạng Giới thiệu đo đạc Bellcore thí nghiệm khám phá chất phân đoạn liệu mạng Và sau nêu số ký hiệu quy ước ¾ Chương 2: Các phương pháp phân tích mơ hình q trình phân đoạn Sau nêu lên đặc tính lưu thơng mạng, đặc tính phân đoạn Các q trình tiêu biểu trình phân đoạn Tự Đồng Dạng Phụ thuộc Tầm Xa Sau đó, chương cịn đề cập đến Abstract HV: KS.Võ Thị Lưu Phương phương pháp để ước lượng tham số Hurst (đánh giá mức độ tự đồng dạng trình) Các mơ hình cho q trình phân đoạn đề cập đến, bao gồm mơ hình FARIMA, mơ hình nguồn ON/OFF, mơ hình fBm, ¾ Chương 3: Biến đổi wavelet phương pháp Phân Tích Đa Phân Giải Đầu tiên chương nêu lại số lý thuyết biến đổi wavelet liên tục (CWT) biến đổi wavelet rời rạc (DWT) số tính chất bật chúng Phần trọng tâm chương trình bày phương pháp Phân Tích Đa Phân Giải, mà công cụ quan trọng áp dụng chương ¾ Chương 4: Phương pháp phân tích liệu phân đoạn wavelets Chương cho ta biết làm mà Phân Tích Đa Phân Giải ứng dụng để phân tích, ước lượng tổng hợp q trình phân đoạn ¾ Chương 5: Bản chất Đa Phân Đoạn liệu WAN Chương nêu lên cách nhìn liệu thang tỉ lệ rât nhỏ (cỡ vài trăm mili giây trở xuống), mà đồ thị Logscale, biểu diễn khơng cịn tuyến tính Đó biểu đa phân đoạn liệu WAN Dữ liệu Đa Phân Đoạn không dược mơ hình hóa tham số liệu Phân Đoạn mà nhiều tham số khác theo thời gian Trong chương đề cập đến khác biệt liệu LAN liệu WAN, thang tỉ lệ lớn thang tỉ lệ nhỏ ¾ Chương 6: Chương trình mơ Chương bao gồm phần Phần đầu chương trình MATLAB ước lượng tham số Hurst liệu Phân Đoạn Đánh giá chất liệu (Tự Đồng Dạng hay Phụ Thuộc Tầm Xa ) Phần thứ hai chương trình MATLAB dùng để ước lượng tham số liệu Đa Phân Đoạn Sau trình bày kết đạt nêu lên ý kiến đánh giá chúng ¾ Hướng phát triển Phần nêu lên việc chưa thực luận án hướng phát triển tương lai Ngồi chương ra, luận án cịn có hai phụ lục khơng phần quan trọng nhằm cung cấp cho người đọc số kiến thức tảng, là: ¾ Phụ lục A: Ơn lại số vấn đề lý thuyết xác suất trình ngẫu nhiên Phần trình bày lại số khái niệm xác suất phân bố quan trọng áp dụng luận án Ngồi ra, cịn định nghĩa số q trình ngẫu nhiên thơng dụng như: q trình dừng, q trình chuyển động Brownian, ¾ Phụ lục B giới thiệu khái niệm phân đoạn (tự đồng dạng) toán học Abstract HV: KS.Võ Thị Lưu Phương Tóm tắt nội dung Ngày nay, mạng liệu, LAN WAN ngày phức tạp phong phú ứng dụng chất nhiều lớp hệ thống mạng (7 lớp theo mơ hình OSI) Nên ta khơng thể dùng mơ hình Poisson để mơ hình cho liệu mạng làm với mạng thoại truyền thống hon 70 năm qua Dữ liệu mạng LAN có chất khác so với lưu thơng mạng thoại truyền thống (mạng chuyển mạch mạch), chất Tự Đồng Dạng, hay gọi phân đoạn Đồng thời, có biểu Phụ Thuộc Tầm Xa Dữ liệu phân đoạn đặc trưng tham số tham số Hurst (H) Đầu tiên, ta dùng phương pháp thống kê truyền thống đồ thị Phương sai-thời gian, đồ thị R/S, đồ thị Periodogram để phân tích, ước lượng tham số H liệu phân đoạn Sau đó, ta nêu lên phương pháp phân tích pháp triển gần phương pháp dựa biến đổi wavelets rời rạc (Discrete Wavelets Transform _ DWT) phân tích đa phân giải (Multiresolution Analisis _ MRA) Dưới lăng kính wavelet ta cịn gọi liệu phân đoạn liệu tỉ lệ (scaling), hay bất biến tỉ lệ (invariant scaling) xuất phát từ định nghĩa liệu có tham số thống kê khơng đổi nhiều thang tỉ lệ khác Và ta dùng tham số thống kê bậc hai, tham số đặc trưng cho liệu phân đoạn gọi số mũ bậc hai α, α=2H-1 Ta dùng đồ thị Logscale Diagram để phân tích đặc tính tỉ lệ ước lượng số mũ bậc hai liệu so sánh phương pháp phân tích với phương pháp thống kê truyền thống, nêu bậc ưu điểm Abstract HV: KS.Võ Thị Lưu Phương Chương 1: LỜI NÓI ĐẦU Sự lỗi thời mơ hình Poisson Trong phân tích, mơ lưu thơng mạng thoại cổ điển, mơ hình Poisson sử dụng 70 năm với giả thiết: ¾ Khoảng thời gian đến theo phân bố Poisson (Poisson arrival rate) ¾ Khoảng thời gian gọi theo luật số mũ Giả thiết có xuất phát từ tính chất có mạng điện thoại truyền thống (chuyển mạch mạch) Trong lưu thông mạng điện thoại, số lần gọi đến gọi giữ máy đơn vị thời gian có phân bố theo luật hàm số mũ, gọi độc lập lẫn Và mơ hình Poisson tỏ phù hợp với mạng điện thoại Trong mơ hình Poisson với tham số λ biểu diễn số gọi đến trung bình, xác suất Pk(t) ( k gọi đến khoảng thời gian cố định t) tính sau: Pk (t ) = (λt )k e −λt , k≥0 k! (1.1) Mơ hình dựa theo Poisson dễ dàng tính tốn theo tốn học, cần tham số để đặc tính hóa traffic flow, số gọi giữ máy flow trình Poisson theo luật hàm số mũ Mơ hình Poisson có lợi điểm hợp lưu thơng Poisson có phân bố Poisson, đó, traffic tổng hợp dễ phân tích mơ hình Trong thực tế, mơ hình Poisson thích hợp với tầm thang tỉ lệ thời gian giới hạn, cách tối ưu hóa tham số λ, mơ hình phù hợp với số loại traffic tầm xa tầm gần Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Tuy nhiên, mơ hình lại không phù hợp với mạng liệu, mạng liệu có nguồn gốc từ mạng thoại, ví dụ dial-up internet Điều data traffic tạo nhiều chế khác từ lưu thông thoại Lưu thông thoại dùng mạch ảo, có tính chất hướng kết nối (connection-oriented) Trong mạch ảo, kết nối ln trì giao thức báo hiệu, băng thông cho traffic tương đối thấp Khi số lượng kết nối vượt khả đường truyền, gọi đến bị loại bỏ giao thức điều khiển Hơn nữa, thời gian gọi đến thực bị ảnh hưởng trực tiếp từ yếu tố người Mặc khác, traffic internet dựa theo chế chuyển mạch gói, có tính chất phi kết nối (connectionless) Trên mạng internet, liệu gói truyền phân mảnh thành nhiều gói với kích thước khác nhau, gói có header chứa field địa nguồn, địa đích phần payload có chiều dài khác Mỗi gói tự động định tuyến đến đích router dựa theo thơng tin hearder Do tính chất giao thức internet phi kết nối, đó, khơng phải tất gói phân mảnh từ ứng dụng đếu định tuyến đường Hơn nữa, điều quan trọng mạng Internet cách mà cư xử tắc nghẽn Tắc nghẽn xảy đệm router, mà tốc độ lưu thông vào vượt tốc độ tối đa mà đường ngõ cho phép (nghẽn cổ chai) Khi có tắc nghẽn xảy ra, router loại bỏ gói Để đảm bảo cho data đến đích, máy tính nguồn phải có chế điều khiển luồn chế truyền lại, thông thường, có timer lưu thơng internet, timer tràn host nguồn truyền lại gói, lưu thơng thoại truyền thống bị chi phối người Nói cách khác, data traffic có tương quan theo thời gian mạnh hơn, có tính burst (nhiều điểm vọt bất thường) nhiều voice traffic Hình 1.1 mơ tả tính burst mạng thoại truyền thống (có phân bố Poisson), song lưu thơng Internet khơng đơn giản Trong hình 1.1, số packet đơn vị thời gian đếm biểu diễn theo chiều dọc, khoảng thời gian quan sát biểu diễn theo chiều ngang Các khoảng thời gian tăng dần cách nhân lên 10 (trong hình thứ 3) nhân lên (trong hình đầu hình cuối) Khoảng thời gian đơn vị tăng theo hệ số Traffic quan sát lớp datalink Các khoảng thời gian quan sát mở rộng dần từ đỉnh đến đáy Ta thấy hình 1.1, khoảng quan sát dài mạng thoại, tính bursty giảm, Internet traffic burst thang tỉ lệ thời gian Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Tóm lại, chất, lưu thơng mạng ngày có đặc điểm khác với mạng thoại truyền thống, đó, ta cần phải có phương pháp mới, mơ hình để phân tích mơ lưu thơng mạng liệu Hình 1.1: Tính bursty phân bố Poisson hay mạng thoại cổ điển (trái) mạng Internet hay mạng chuyển mạch gói (phải), đo lớp datalink Traffic trở nên phẳng mạng thoại, bursty mạng internet Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Chương 1: Tài Liệu Tham Khảo Papers: W Leland, M Taqqu, W Willinger, and D Wilson (1994), On the SelfSimilar Nature of Ethernet Traffic (Extended Version), IEEE/ACM Transactions on Networking, 2(1):1–15 Darryl N VEITCH, Murad S TAQQU and Patrice ABRY, Meaningful MRA initialisation for discrete time serie, July 11, 2000 P Abry, P Flandrin, M S Taqqu and D Veitch, Self-similarity and long-range dependence through the wavelet lens, January 25, 2000 P Abry and D Veitch (1998), Wavelet Analysis of Long-Range Dependent Traffic, IEEE Transactions on Information Theory P Abry, P Flandrin, M S Taqqu and D Veitch, Wavelets for the Analysis, Estimation, and Synthesis of Scaling Data, 2000 R Riedi, J.L Lévy Véhel, TCP traffic is multifractal: a numerical study, Preprint, submitted to IEEE Trans on Networking R Riedi, M.S Crouse, V.J Ribeiro, R.G Baraniuk, A Multifractal Wavelet Model with Application to Network Tra_c, to be published in IEEE Trans on Info Theory, Special Issue on Multiscale Statistical Signal Analysis and its Applications, April, 1999 R H Riedi, M S Crouse, V Ribeiro, and R G Baraniuk, A multifractal wavelet model with application to network traffic, IEEE Trans Info Theory, vol 45, pp 992–1018, April 1999 A Feldmann, A C Gilbert, and W Willinger, Data networks as cascades: Investigating the multifractal nature of Internet WAN traffic, ACM Computer Communication Review, 28:42–55, 1998 10 A Feldmann, A Gilbert, W Willinger, and T Kurtz, The Changing Nature of Network Traffic: Scaling Phenomena, ACM Computer Communication Review, Vol 28, No 2, pp 5-26, April 1998 11 M Grossglauser and J Bolot (1996), On the Relevance of Long-Range Dependence in Network Traffic, Computer Communication Review, 26(4):15–24 Những Kiến Thức Cơ Bản HV: KS.Võ Thị Lưu Phương 12 V Paxson and S Floyd (1995), Wide-Area Traffic: The Failure of Poisson Modeling, IEEE/ACM Transactions on Networking, 3(3):226– 244 13 Dr Thomas B Fowler, A Short Tutorial on Fractals and Internet Traffic, Feb 2002 Books: 14 Wavelets and Subband Coding 15 Ten Lectures of Wavelets Thesis: 16 Luận Văn Tốt Nghiệp Sơn&Quyên, Dữ liệu Phân Đoạn Đa Phân Đoạn, Trường Đại Học Bách Khoa, Tp.HCM, năm 2003 17 Ram Balakrishnan, Wavelet-based Network Traffic Modeling, Master’s thesis, University of Saskatchewan, March 2000 18 Attila Vidács, Self-Similar Traffic Modeling Techniques in ATM Networks, Master's Thesis, Technical University of Budapest, May 23, 1996 19 Kensuke Fukuda, A Study on Phase Transition Phenomena in Internet Traffic, doctoral dissertation, Keio University, February 1999 20 Bong Kyun Ryu, Fractal Network Traffic: From Understanding to Implications, Submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy in the Graduate School of Arts and Sciences, Columbia University, 1996 Websites: Darryl N VEITCH, http://www.cubinlab.ee.mu.oz.au/~darryl/ Murad S TAQQU, http://math.bu.edu/people/murad/methods/ http://www.dsp.rice.edu Những Kiến Thức Cơ Bản HV: KS.Võ Thị Lưu Phương PHỤ LỤC A: CÁC QUÁ TRÌNH NGẪU NHIÊN (Stochastic Processes) Định nghĩa Một trình ngẫu nhiên, họ biến ngẫu nhiên {x(t ), t ∈ T } rõ thông số t qua vài tập hợp số T Ví dụ như, tập số diễn giải chiều thời gian, x(t) hàm theo thời gian Nói cách khác q trình ngẫu nhiên biến ngẫu nhiên có hàm thay đổi theo thời gian Một trình ngẫu nhiên theo thời gian liên tục q trình có t thay đổi cách liên tục, ví dụ tập số thực khơng âm {x(t ), ≤ t < ∞}.Q trình ngẫu nhiên rời rạc theo thời gian trình có t nhận giá trị rời rạc, ví dụ số nguyên dương {x(t ), t = 1,2, } Xét lại biến ngẫu nhiên định nghĩa hàm ánh xạ từ thí nghiệm với giá trị cho trước Từ biểu thức x(t) diễn tả theo nhiều cách: ¾ Một họ hàm theo thời gian (t thay đổi, tất thơng số dương) ¾ Một hàm thời gian đơn (t thay đổi, thông số ra) ¾ Một biến ngẫu nhiên (t cố định, tất thơng số dương) ¾ Một số đơn (single) (t cố định; thơng số ra) Q trình ngẫu nhiên với giá trị liên tục trình với biến ngẫu nhiên x(t) có t cố định (trường hợp thứ danh sách trên) nhận giá trị liên tục, trái ngược với trình ngẫu nhiên có giá trị rời rạc q trình có biến ngẫu nhiên thời điểm t nhận số lượng xác định, hay khơng xác định đếm được, giá trị Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Một q trình ngẫu nhiên liên tục thời gian có giá trị liên tục hay giá trị rời rạc, trình ngẫu nhiên rời rạc theo thời gian có giá trị liên tục hay rời rạc Xét biến ngẫu nhiên bất kỳ, x(t) với giá trị cố định t mô tả phân bố xác suất mật độ xác suất Đối với trình ngẫu nhiên có giá trị liên tục: Hàm phân bố: F(x;t) = Pr[x(t) < x]; F(-∞;t) = 0; F(∞;t) = Hàm mật độ: f(x;t) = ∂ F(x; t) ∂x x ∞ −∞ −∞ F(x;t) = ∫ f(y; t)dy ∫ f(y; t)dy = Đối với trình ngẫu nhiên giá trị rời rạc: ∑P Px(t)(k) = Pr[x(t) = k] all k x (t ) (k) = Tất đặc điểm thống kê trình ngẫu nhiên phải chuyển thành biến ngẫu nhiên Quá trình ngẫu nhiên x(t) biến ngẫu nhiên không xác định, t Để diễn tả đầy đủ tính thống kê trình, ta cần phải đưa hàm mật độ xác suất chung cho toàn biến x(t1), x(t2), , x(tn) với đầy đủ giá trị n (1 ≤ n < ∞) tất thời gian lấy mẫu (t1, t2, , tn) Các tham số thống kê bậc bậc hai Trung bình phương sai trình ngẫu nhiên định nghĩa theo cách thơng thường: E[x(t)] = μ(t) = ∞ ∫ xf(x; t)dx Trường hợp giá trị liên tục ∑ kPr[x(t) = k] Trường hợp giá trị rời rạc −∞ E[x(t)] = μ(t) = all k E[x (t)] = ∞ ∫x f(x; t)dx Trường hợp giá trị liên tục −∞ Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương E[x2(t)] = ∑k Pr[x(t) = k] Trường hợp giá trị rời rạc all k [ ] Var[x(t)] = σ x2(t ) = Ε (x(t ) − μ (t ))2 = Ε[x (t )] − μ (t ) Chú ý thơng thường trị trung bình phương sai trình ngẫu nhiên hàm theo thời gian Nội dung quan trọng phần hàm tự tương quan R(t1, t2), moment chung hai biến ngẫu nhiên x1(t) x2(t): R(t1,t2) = E[x(t1)x(t2)] Hàm tự tương quan đo lường quan hệ hai khoảng thời gian trình ngẫu nhiên Con số liên kết tự tương quan: C(t1,t2) = E[(x(t1)] - μ(t1)(x(t2) - μ(t2))] = R(t1,t2) - μ(t1)μ(t2) (1) Phương sai x(t) cho bởi: Var[x(t)] = C(t,t) = R(t,t) - μ2(t) (2) Hệ số tương quan x(t1) x(t2) gọi hàm tự tương quan chuẩn hố q trình ngẫu nhiên diễn tả: p(t1,t2) = E[(x(t ) − μ (t ))(x(t ) - μ (t ))] σ 1σ = C(t , t ) σ 1σ (3) Quá trình dừng (stationary) X(t) đại lượng biến thiên theo thời gian Tại thời điểm t, X(t) biến ngẫu nhiên, t biến thiên ta gọi X(t) trình ngẫu nhiên Một trình ngẫu nhiên X gọi dừng tính chất thống kê q trình khơng đổi theo thời gian, ví dụ: chúng tất thời điểm t Một trình ngẫu nhiên gọi dừng độ nhạy rộng (widesense) hay gọi dừng đến bậc hai thống kê bậc bậc hai chúng kỳ vọng μ phương sai σ2 không thay đổi theo thời gian Cho trình X dừng độ nhạy rộng, ta định nghĩa hàm autocovariance R(τ) X hàm tự tương quan ρ(τ) X sau: Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương R(τ ) = E[( X (t ) − μ )( X (t + τ ) − μ )] (4) R(τ ) R(τ ) = R(0) σ ρ (τ ) = (5) Đối với τ, R(τ) covariance thành phần X cách khoảng thời gian τ Tương tự, ρ(τ) tương quan thành phần X cách khoảng thời gian τ Mật độ phổ (Spectral Density) Mật độ phổ (hay phổ công suất) trình ngẫu nhiên dừng biến đổi Fourier hàm tự tương quan nó: ∞ S(w) = ∫ R(τ )e - jwt dτ (6) −∞ Ở w tần số đo radian (w = 2πf) j = −1 Với hàm thời gian lý thuyết, mật độ phổ đưa tần số phân bố cơng suất tín hiệu Xét hàm thống kê, S(w) mật độ trung bình cơng suất thành phần tần số gần với w x(t) Nhắc lại x(t) hàm thời gian đơn (single time funtion) có t thay đổi có thành phần Do hàm thời gian, hàm thời gian khác, gộp thành tổng thành phần tần số, mật độ phổ đưa cơng suất liên quan xây dựng thành phần Nếu ta xét x(t) họ hàm thời gian (t thay đổi, tất thành phần tồn tại) mật độ phổ đưa cơng suất trung bình cho thành phần tần số, lấy trung bình qua tất hàm thời gian x(t) tồn Biến đổi ngược Fourier trả hàm thời gian: R(τ) = 2π ∞ ∫ S(w)e jwτ dw (7) −∞ Tại t = ta có: 2π ∞ ∫ S(w)e jwτ dw = R(0) = E[|x(t)|2] (8) −∞ Vì S(w)/2π tương đương với cơng suất trung bình trình x(t) Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Cũng ý rằng: ∞ S(0) = ∫ R(τ )dτ (9) −∞ S(0) biểu diễn thành phần dc phổ cơng suất tương ứng với tích phân hàm tự tương quan Thành phần xác định R(τ) suy giảm lúc τ → ∞ cách nhanh chóng tích phân R(τ) xác định Ta trình bày phổ cơng suất q trình thống kê có định nghĩa điểm rời rạc miền thời gian (quá trình ngẫu nhiên thời gian rời rạc): S(w) = ∞ ∑ R(k)e − jkw S(0) = k = −∞ ∞ ∑ R(k) (10) k = -∞ S(0) đặc trưng cho thành phần dc phổ công suất tương ứng với tổng vô hạn hàm tự tương quan Thành phần xác định R(τ) suy giảm lúc τ → ∞ cách nhanh chóng tổng xác định Số gia độc lập (Independent Increment) Một trình ngẫu nhiên với thông số liên tục {x(t ),0 ≤ t ≤ ∞} gọi có số gia độc lập x(0) = với chọn lựa số t0 < t1 < < tn, n biến ngẫu nhiên: x(t1) - x(t0), x(t2) - x(t1), , x(tn) - x(tn-1) độc lập Vì vậy, số lượng "dịch chuyển" (movement) trình ngẫu nhiên khoảng thời gian độc lập với dịch chuyển khoảng thời gian khơng chồng lên khác Q trình gọi có số gia độc lập ổn định nếu: thoả mãn điều kiện x(t2 + h) - x(t1 + h) có phân bố giống x(t2) - x(t1) với t2 > t1 h > Hai tính chất q trình có số gia độc lập ổn định quan trọng ¾ Nếu x(t) có số gia độc lập dừng E[x(t)] = μ(t) hàm liên tục theo thời gian μ(t) = a + bt, a b số Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương ¾ Tương tự Var[x(t) - x(0)] hàm liên tục theo thời gian với s ta có Var[x(s + t) - x(s)] = σ2t, với σ2 số Hai q trình đóng vai trị quan trọng lý thuyết trình ngẫu nhiên trình Brownian trình Poisson Các trình đếu có số gia độc lập Q trình dịch chuyển (Brownian motion process) Brownian Dịch chuyển Brownian dịch chuyển ngẫu nhiên mẫu cực nhỏ lơ lửng chất lỏng hay chất khí va chạm phân tử với môi trường chung quanh Hiện tượng vật lý sở cho định nghĩa trình chuyển động Brownian (Brownian motion), trình Wiener trình Wiener-Lévy Xét hàm B(t) với lượng nhỏ chuyển động Brownian rõ độ dịch chuyển so với điểm bắt đầu chiều sau khoảng thời gian t Xét dịch chuyển lưới mẫu khoảng thời gian đến (s,t), so sánh với khoảng thời gian tác động Kết B(t) - B(s) xem tổng số lượng độ dịch chuyển nhỏ Ta có B(t) - B(s) có phân bố xác suất chuẩn Giả sử môi trường cân bằng, độ dịch chuyển phụ thuộc vào độ dài khoảng thời gian đến không phụ thuộc vào thời điểm bắt đầu khoảng thời gian Tức là, phân bố xác suất B(t) - B(s) giống với B(t +h) B(s + h) với h > Cuối cùng, dịch chuyển mẫu nhờ có va chạm ngẫu nhiên thường xuyên xảy ra, độ dịch chuyển lưới khoảng thời gian không chồng lên nên độc lập B(t) có độ tăng độc lập Như ta định nghĩa trình dịch chuyển Brownian B(t) trình thoả mãn điều kiện sau: ¾ {B(t), ≤ t < ∞} có số gia độc lập dừng ¾ Với t > biến ngẫu nhiên B(t) có phân bố chuẩn ¾ Với t > 0, E[B(t)] = ¾ B(0) = Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Mật độ xác suất q trình dịch chuyển Brownian có dạng: fB(x,t) = σ 2πt e −(x − μ(t)) / σ 2t (11) Giả sử μ(t) = chuẩn hố σ = Phương trình trở thành: fB(x,y) = 2πt e −x / 2t (12) Từ ta có: Var[B(t)] = t ; Var[B(t) - B(s)] = | t - s | Một đại lượng quan trọng khác tự tương quan B(t), diễn tả RB(t1, t2) Ta có đại lượng theo cách sau: B Trước tiên quan sát t4 > t3 > t2 > t1 : E[(B(t4) - B(t3)) (B(t2) - B(t1))] = E[B(t4) - B(t3)] × E[B(t2) - B(t1)] = (E[B(t4) - E[B(t3)]) × ((E[B(t2) - E[B(t1)]) = (0 - 0) × (0 - 0) = Hàng phương trình hai khoảng thời gian không chồng lên nhau, đại lượng (B(t4) - B(t3)) (B(t2) - B(t1)) độc lập nhờ có tổng độ tăng độc lập Nhắc lại biến ngẫu nhiên độc lập X Y, E[XY] = E[X]E[Y] Bây xét hai khoảng (0, t1) (t1, t2) với < t1 < t2 Đây khoảng khơng chồng lên nhau, thế: = E[(B(t2) - B(t1))(B(t1) - B(0))] = E[(B(t2) - B(t1))B(t1)] = E[(B(t2)B(t1)] - E[B2(t1)] = E[(B(t2)B(t1)] - Var[B(t1)] = E[(B(t2)B(t1)] - t1 Do đó: RB(t1, t2) = E[(B(t1)B(t2)] = t1 B Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên với t1 < t2 HV: KS.Võ Thị Lưu Phương Thơng thường, sau tự tương quan B(t) diễn tả thành RB(t,s) = min[t,s] Vì B(t) có trung bình zero, nên hàm autocovariance hàm tự tương quan Do CB(t,s) = min[t,s] B B Một cách diễn giải thường sử dụng trình chuyển động Brownian sau Giả sử X biến ngẫu nhiên phân bố theo hàm chuẩn có trung bình phương sai Ta có: f(x) = 2π e −x /2 (13) Định nghĩa trình thống kê B(t) sau: B(t) = X t (14) Tức giá trị B(t) thời điểm t với biến ngẫu nhiên X nhân với bậc hai khoảng thời gian đến Với giá trị t cho trước, B(t) biến ngẫu nhiên phân bố chuẩn có trung bình Đối với biến ngẫu nhiên X số a, ta ln có: Var(aX) = a2Var(x) Do đó, Var[B(t)] = Var[X t ] = ( t )2 Var[X] = t Vì B(t) trình Brownian Một cách khác để phát trình chuyển động Brownian quan sát phạm vi trình rời rạc Giả sử xây dựng đồ thị hàm rời rạc theo thời gian dựa sở chọn số ngẫu nhiên theo phân bố chuẩn Mỗi giá trị y thành cơng có cách cộng thêm số ngẫu nhiên vào điểm trước để y Các điểm thành công trục t xếp cách đặn (ví dụ 1, 2, 3, ) Nó trở thành hàm rời rạc theo thời gian xấp xỉ với dịch chuyển Brownian Nếu ta chia trục thời gian cách tinh chọn biến ngẫu nhiên với phương sai nhỏ cách tỉ lệ, ta cải thiện xấp xỉ Lúc hàm trở thành trình dịch chuyển Brownian liên tục theo thời gian Q trình Poisson q trình có liên quan Xét lại khoảng thời gian đến ngẫu nhiên, ta có phân bố Poisson: Pr[k mẫu đến khoảng thời gian T] = X Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên ( λ T ) k − λT e k! HV: KS.Võ Thị Lưu Phương Ta định nghĩa trình tổng Poisson {N(t), t ≥ 0} (Poisson counting process) sau: ¾ N(t) có độ tăng độc lập ổn định ¾ N(0) = ¾ Với < t1 < t2 đại lượng N(t2) - N(t1) số điểm khoảng (t1, t2) có phân bố Poisson với trung bình λ(t1 - t2) Ta có hàm xác suất N(t): Pr[N(t) = k] = ( λ t ) k − λt e k! E[N(t) = Var[N(t)] = λt N(t) t ti X(t) (a) Poisson counting process 2/L 1/L t (b) Poisson increment process Hình 1: Các q trình Poisson Phụ lục A – Ơn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Rõ ràng N(t) khơng dừng trung bình hàm theo thời gian Mỗi hàm thời gian q trình ngẫu nhiên (một thơng số ra) có dạng bậc thang tăng với bậc 1, xuất điểm ngẫu nhiên ti Một q trình dừng có liên quan với trình tổng số Poisson trình số gia Poisson (Poisson increment process) Cho trình tổng số Poisson N(t) với trung bình λt cho số L (L > 0) Có thể định nghĩa trình số gia Poisson sau: X(t) = N(t + L) − N(t) L X(t) k/L, k số điểm khoảng (t, t + L) Quá trình số gia nhận từ trình tổng minh hoạ Hình 1a Hình 1b E[X(t)] = 1 E[N(t + L)] − E[N(t)] = λ L L Với trung bình số, X(t) trình dừng độ nhạy rộng có hàm tự tương quan với biến đơn, R(τ) ⎧λ ⎪ R(τ) = ⎨ λ2 ⎛ τ ⎞ ⎪λ + L ⎜⎜1 − L ⎟⎟ ⎠ ⎝ ⎩ |τ |> L |τ |< L (15) Vì tương quan lớn hai thời điểm nằm khoảng độ dài nhau, có giá trị nhỏ cho thời điểm khác Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên 10 HV: KS.Võ Thị Lưu Phương Phụ lục B: GIỚI THIỆU VỀ ĐA PHÂN ĐOẠN 1.1 Chuỗi nhị thức (Binomial measure) Mục đích kỹ thuật phân tích đa phân đoạn giải thích cách rõ ràng trường hợp đơn giản: đo nhị thức khoảng đơn vị Phân tích nhị thức phép đo xác suất μ, định nghĩa thông qua xây dựng đệ quy Bắt đầu cách chia đoạn I=[0,1] thành đoạn I0 I1 có chiều dài nhau, ta gán trọng số ch chúng m0 m1=1-m0 Ta lại tiếp tục chia hai đoạn thành đoạn nhỏ I00, I01, I10, I11, chúng có trọng số là: m0m0, m0m1,m1m0, m1m1 tương ứng Và tiếp tục lặp lại Tại bước lặp thứ n, trọng số tổng cộng phân bố 2n đoạn I ε ε có trọng số μ I ε ε = mε mε Sự xây dụng tạo nên n ( n ) 1 chuỗi μn ký hiệu μ Bằng phép xây dựng này, restriction μ đoạn I0 I1 có cấu trúc μ Thực ra, chúng tạo cách nhân μ, đó, suy giảm khơng gian khối lượng ½ mi Nói cách khác, μ chuỗi tự đồng dạng (xem hình 2.1) Phụ lục A – Ơn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương Hình 1: Phép phân tích nhị thức với m0=0.4, số lần lặp n=13 Có cách khác để định nghĩa μ sau Cho x=.σ1σ2 biểu diễn nhị phân điểm đoạn [0,1] Ở ta không quan tâm đến điểm với mở rộng nhiều lần kết ta liên quan đến hầu hết tất điểm x Tưởng tượng mức σk chọn cách ngẫu nhiên cho P[σ k = i ] = mi độc lập với k μ luật, hay gọi phân bố xác suất x đoạn [0,1] Rõ ràng với phép phân tích này, μ khơng có mật độ, ngoại trừ m0=m1=1/2 Cụ thể hơn, M(x)=μ([0,x]) có đạo hàm khắp nơi 1.2 Biểu cục μ khơng có mật độ dẫn đến lốm đốm nó, hay nói cácfh khác xuất tính chất phân đoạn Đó mục đích (aim) phân tích đa phân đoạn để đặc tính hóa biểu lốm đốm Cấu trúc nhân tầng μ dẫn đến trọng lượng Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương chuỗi khoảng giảm nhanh theo luật số mũ co xuống tới điểm x, gọi xấp xỉ − nα ( x ) Phụ lục A – Ôn lại số lý thuyết xác suất trình ngẫu nhiên HV: KS.Võ Thị Lưu Phương ... tính Đó biểu đa phân đoạn liệu WAN Dữ liệu Đa Phân Đoạn khơng dược mơ hình hóa tham số liệu Phân Đoạn mà nhiều tham số khác theo thời gian Trong chương đề cập đến khác biệt liệu LAN liệu WAN, thang... làm mà Phân Tích Đa Phân Giải ứng dụng để phân tích, ước lượng tổng hợp q trình phân đoạn ¾ Chương 5: Bản chất Đa Phân Đoạn liệu WAN Chương nêu lên cách nhìn liệu thang tỉ lệ rât nhỏ (cỡ vài trăm... tính Đó biểu đa phân đoạn liệu WAN Dữ liệu Đa Phân Đoạn không dược mô hình hóa tham số liệu Phân Đoạn mà nhiều tham số khác theo thời gian Trong chương đề cập đến khác biệt liệu LAN liệu WAN, thang