Nghiên cứu giải pháp tối ưu hệ thống web caching (tt)

1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG PHAN VŨ HẢI VÂN NGHIÊN CỨU CÁC GIẢI PHÁP TỐI ƯU HỆ THỐNG WEB CACHING Chuyên ngành: Truyền liệu Mạng máy tính Mã số: 60.48.15 Người hướng dẫn khoa học: TS HỒ KHÁNH LÂM TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2010 MỞ ĐẦU Hơn 80 phần trăm lưu lượng Internet lượng truy nhập truyền thông với nội dung web Ngày nay, với phát triển công nghệ truyền thông băng rộng, công nghệ truyền thông đa phương tiện qua WWW phát triển mạnh mẽ Sự cung cấp dịch vụ thơng tin kinh tế, văn hố, xã hội ngày phong phú mạng xu tích hợp hệ thống thơng tin hoạt động trị, kinh tế, xã hội giao diện Web nói riêng, việc tối ưu hố lưu lượng thơng tin, hạn chế đến mức tối đa khả tắc nghẽn mạng trở nên cần thiết Web trở thành ứng dụng thành công bậc Internet Tuy nhiên nâng cấp cần thiết máy chủ băng thông mạng Internet không theo kịp phát triển với luật số mũ (luật Zipf) nhu cầu khách hàng vài năm qua, chất lượng dịch vụ yêu cầu băng thông rộng thời gian thực truy nhập qua Web bị hạn chế, chưa đáp ứng nhu cầu cao người sử dụng Như vậy, ngồi giải pháp tốn kém, tăng băng thơng kênh truyền dẫn cấp mạng, tăng công suất nút mạng truy nhập, mạng địa phương, mạng trục Internet, nhà cung cấp dịch vụ Internet đưa vào kiến trúc Web caching Đây cách để giảm độ trễ truy nhập nội dung Web, tiết kiệm băng thông kênh truyền dẫn tầng mạng Internet Cách đảm bảo lưu trữ nội dung Web nhớ đệm hệ thống máy chủ phân tán nút truy nhập tầng mạng Mục đích luận văn nhằm tìm hiểu Web caching, kiểu kiến trúc Web Caching, thuật toán thay cache hiệu Vận dụng kiến thức nghiên cứu để đánh giá hệ thống Web Caching dùng cho mạng VNN.VN VNPT, đưa giải pháp Web Caching tối ưu cho mạng VNN.VN 3 Chương 1- NHỮNG ĐẶC ĐIỂM CỦA INTERNET 1.1 LỊCH SỬ VÀ TỐC ĐỘ PHÁT TRIỂN INTERNET 1.1.1 Lịch sử Internet Tiền thân mạng Internet ngày mạng ARPANET Thuật ngữ "Internet" xuất lần đầu vào khoảng năm 1974 Lúc mạng gọi ARPANET Năm 1984, ARPANET chia thành hai phần: ARPANET MILNET Đến năm 1980, ARPANET đánh giá mạng trụ cột Internet Giữa thập niên 1980 thành lập mạng liên kết trung tâm máy tính lớn với gọi NSFNET Sự hình thành mạng xương sống NSFNET mạng vùng khác tạo môi trường thuận lợi cho phát triển Internet Tới năm 1995, NSFNET thu lại thành mạng nghiên cứu cịn Internet tiếp tục phát triển.Các dịch vụ Internet không ngừng phát triển tạo cho nhân loại thời kỳ mới: thời kỳ thương mại điện tử Internet 1.1.2 Tốc độ sử dụng Internet Việt Nam Việt Nam nước có tốc độ tăng trưởng số người dùng internet tốp 10 nước có tốc độ tăng trưởng số người dùng nhanh khu vực châu Á nước có tốc độ tăng trưởng lớn so với giới (giai đoạn 2000-2009), tăng 10,662.2 % 1.1.3 Xu hướng tăng trưởng Internet Việt Nam Bảng 1.2 Thống kê số liệu phát triển Internet Việt Nam tính đến 2009 Tháng 05 năm Số người dùng % dân số sử dụng Số tên miền đăng ký 2003 1.709,478 2,14 2.746 2004 4,311,336 5,29 7,088 2005 7,184,875 8,71 10,829 2006 12,911,637 15,53 18,530 2007 16,176,973 19,46 42,470 2008 19,774,809 23,50 74,625 2009 21,430,463 24.87 105,326 1.2 NHỮNG GIẢI PHÁP TĂNG HIỆU SUẤT CỦA INTERNET 1.2.1 Tăng dung lượng truyền dẫn: Là việc đầu tư, nâng cấp dung lượng truyền dẫn Việc triển khai đơn giản, nhanh có sẵn hệ thống truyền dẫn nhiên trở nên phức tạp hệ thống truyền dẫn khơng có sẵn Ngồi chi phí thuê kênh quốc tế đắt, việc vận hành khai thác kênh truyền dẫn quốc tế không đơn giản 1.2.2 Sử dụng thiết bị quản lý băng thông: Sử dụng thiết bị để ấn định mức độ băng thơng cụ thể cho loại hình dịch vụ Việc sử dụng thiết bị quản lý băng thơng ấn định mức độ băng thông cụ thể cho loại dịch vụ nhiên chi phí đầu tư hệ thống khơng nhỏ Bên cạnh băng thơng khơng đủ lớn có dịch vụ bị ảnh hưởng đến chất lượng bị lấy băng thông để dành cho dịch vụ ưu tiên, không thỏa mãn tối đa nhu cầu người sử dụng 1.2.3 Sử dụng hệ thống Web Caching: Khi sử dụng giải pháp này, tiết kiệm băng thông WAN việc đưa thông tin gần với người sử dụng Đảm bảo nâng cao chất lượng truy nhập thời gian đáp ứng dịch vụ nhanh Tuy nhiên hệ thống khơng đủ lớn gây đến việc thường xuyên bị tải, ảnh hưởng tới hoạt động dịch vụ Do đặc thù riêng ISP mà ISP có cách lựa chọn giải pháp nâng cao chất lượng mạng riêng Và Web caching giải pháp Chương 2- KHÁI NIỆM WEB CACHING, CÁC KIẾN TRÚC VÀ THUẬT TOÁN THAY THẾ CỦA WEB CACHING 2.1 KHÁI NIỆM VỀ WEB CACHING 2.1.1 Định nghĩa Web Caching Web caching việc lưu trữ tài liệu web cho gần với người dùng, mặt chức web client máy chủ đệm lưu trữ riêng biệt Cache (bộ đệm) chia thành loại: Browser cache (bộ đệm trình duyệt), Proxy Cache (bộ đệm ủy nhiệm), Gateway cache (bộ đệm cổng vào) 2.1.2 Một số khái niệm Cache  2.1.2.1 Browser cache Browser cache hay gọi đệm trình duyệt Những trình duyệt IE, Moziila, Firefox bạn dùng để truy cập mạng, có sẵn thư mục nội dung tải lưu để sử dụng tương lại 5  2.1.2.2 Proxy Cache Proxy cache máy chủ caching trung gian nhằm giảm tải lưu lượng đường truyền Web Proxy Cache (bộ đệm Web Proxy) làm việc nguyên tắc với Browser Cache quy mô lớn Hình 2.1 Sơ đồ biểu diễn Proxy cache  2.1.2.3 Gateway cache Gateway cache máy chủ caching nằm trước Web server (máy chủ web) nhằm giảm tải cho web server Nó thường biết đến “reverse proxy cache” Hình 2.2 Vị trí đặt gateway cache 2.2 CÁC LOẠI KIẾN TRÚC WEB CACHING 2.2.1 Caching phân tầng (Hierarchical cache) Hình 2.3 Sơ đồ đầy đủ kiến trúc phân tầng Web Caching ISP 2.2.2 Caching phân tán (Distributed cache) Hình 2.4 Sơ đồ kiến trúc phân tán Web caching ISP 2.2.3 Caching kết hợp (Hybrid scheme) Hình 2.5 Sơ đồ Hybrid Web Caching ISP 2.3 CÁC THUẬT TỐN CACHE 2.3.1.Thuật tốn Least recently used (LRU) Thuật toán giả định trang vừa lấy khỏi cache tiếp tục truy nhập thời gian tới Để thay nội dung cache, LRU xố bỏ trang khơng truy cập đến khoảng thời gian dài Chức LRU minh hoạ hình đây: Hình 2.6: Lược đồ thay nội dung cache thuật toán LRU LRU thuật toán cache sử dụng rộng rãi nhất, LRU coi trang có chi phí (cost) kích thước khơng đổi, mục đích LRU tối ưu hố tỷ lệ hit Ưu điểm LRU khai thác đặc tính cục truy nhập Nhược điểm LRU bỏ qua thay đổi chi phí kích thước trang, LRU khơng tính đến tần suất truy nhập 2.3.2 Thuật toán Least Frequently Used with Dynamic Aging (LFU-DA) LFU-DA thuật tốn dựa tần suất truy nhập, giả định chi phí kích thước trang khơng đổi Trong thuật toán LFU, định loại bỏ nội dung trang vào số lần truy nhập đến trang Việc đếm số lần truy nhập tất trang cache lưu lại trang có số lần truy nhập đến nhỏ bị loại bỏ Thuật toán LFU-DA mở rộng từ LFU cách sử dụng thêm thuật toán tuổi động ( Dynamic Aging ) Qua thực nghiệm người ta quan sát tỷ lệ byte hit ( tỷ lệ tổng kích thước trang Web u cầu có nội dung nằm sẵn cache với tổng kích thước trang Web yêu cầu) thuật toán LFU-DA cao 2.2.3 Thuật toán Greedy Dual Size (GDS) Thuật tốn tính đến thay đổi chi phí kích thước trang Việc loại bỏ trang khỏi hệ thống tỷ lệ kích thước chi phí trang.Cũng giống thuật toán LFU-DA, GDS gán giá trị H(p) với trang p cache Khi trang lưu vào cache trang nằm cache truy nhập lại giá trị H(p) cập nhật lại: H(p)=C(p)/S(p) Trong S(p) kích thước trang, C(p) hàm chi phí thể chi phí để lưu trang p vào cache Trang p có giá trị H(p)=Hmin:=minpH(p) ( tất trang nằm cache) bị loại bỏ khỏi cache có yêu cầu thay trang Tiếp theo L đặt giá trị H(p) trang bị loại bỏ Tuy nhiên giống LRU, GDS không tính đến tần suất truy nhập 2.2.4 Thuật tốn Cost Effective (CE) Thuật toán CE đưa để giảm tồn chi phí lấy tài liệu Nhìn chung, người sử dụng Internet chia nhóm sau: (i)Khách hàng tìm kiếm thời gian đáp trả ngắn (ii)Khách hàng tìm cách tối đa hóa sử dụng băng thơng (ví dụ Internet Service Provider, ISP) Vì vậy, có hai mơ hình chi phí để tối ưu hóa proxy cache cho hai nhóm mục tiêu sử dụng Thứ nhất, mơ hình độ trễ mà đo độ trễ tải người dùng cuối, thứ hai mơ hình lưu lượng truy cập mà đo lưu lượng mạng Chúng tơi xác định tỷ lệ giảm chi phí (CRR) sau: CRR   H i  Ci * 100% với Hi=1 yêu cầu i Hit lại Hi=0  Ci Ci chi phí lấy đối tượng i Chúng tơi xác định chi phí độ trễ tải quan sát người dùng mơ hình độ trễ, số lưu lượng mạng tạo mô hình lưu lượng Trong CE, giá trị lợi ích (Benefit Value-BV) gán cho đối tượng, biểu diễn tầm quan trọng cache Khi cache đầy, đối tượng với BV thấp bị thay BV bao gồm phần: chi phí, xác suất tái truy cập (Pr) tuổi động Xác suất tái truy cập BV=(Cost/Size)*Pr +Age Cost: Chi phí lấy đối tượng từ máy chủ Pr Xác suất tái truy cập: Pr  1/  Pf ( Log10 Size) b với Pf=Df+1/Df Pf xác suất có điều kiện việc tái truy cập đối tượng truy cập f lần Df Số tài liệu truy cập f lần α Giá trị đặc trưng luật phân bố Zipf b trọng số Size Kích thước đối tượng yêu cầu Age Tuổi cache, xác định BV bé tất đối tượng Nếu đối tượng đọc f lần , ước tính xác suất tái truy cập Pf = Df+1 / Df , Df số tài liệu truy cập f lần Tỷ lệ truy cập trung bình đối tượng ước tính kích thước Cho R tỷ lệ truy cập trung bình cho đối tượng S kích thước R ước tính R = C / Sb, nơi C b hai Tỷ lệ truy cập trung bình : Ps  C b với b=1,3 C ( Log 10 Size) Brelau giới thiệu mơ hình cho u cầu trang web, theo luật Zipf: P K R R độ thông dụng trang , K α tham số độc lập Tuổi cache thời gian truy cập gần Khi đối tượng đưa đến cache, BV chi phí lấy đối tượng cộng với H (ban đầu H = 0) Trong trường hợp cache hit, H đặt thời gian Chương 3- PHÂN TÍCH HIỆU NĂNG CỦA CÁC KIẾN TRÚC WEB CACHING VÀ CÁC THUẬT TOÁN THAY THẾ 3.1.PHÂN TÍCH, SO SÁNH HIỆU NĂNG KIẾN TRÚC WEB CACHING 3.1.1 Kiến trúc cache phân tầng phân tán Kiến trúc phân tầng có thời gian kết nối nhỏ kiến trúc phân tán Bởi kiến trúc phân tầng trang lưu trữ cách dư thừa hệ thống cache cấp độ mạng khác dẫn tới giảm thời gian kết nối Ngược lại kiến trúc phân tán có thời gia truyền nội dung trang Web thấp kiến trúc phân tầng, kiến trúc phân tán lưu lượng Web lưu chuyển tầng mạng phía bị nghẽn Mơ hình mạng Hình 3.1 Mơ hình phân cấp ISP Chúng ta xây dựng topology mạng dạng cấu trúc đầy đủ O-ary, hình Hình 3.2 Mơ hình phân 10  O đại diện cho độ mở (số nhánh) nút cấu trúc  H số đường kết nối mạng nút gốc mạng quốc gia với nút gốc mạng cấp vùng H đại diện cho số đường kết nối nút gốc mạng cấp vùng với nút gốc mạng cấp khu vực  z số kết nối máy chủ gốc nút gốc  l số cấp (0≤ 1≤ 2H+z) đó:  l = mức mạng đệm quan  l = H mức mạng đệm vùng  l = 2H mức mạng đệm quốc gia  l = 2H + z máy chủ gốc Giả định băng thông đồng với ISP (mỗi kết nối ISP có tốc độ truyền dẫn (transmission rate))  CI, CR, CN tốc độ truyền dẫn (transmission rate) kết nối mạng quan, vùng, quốc gia  C: tỷ lệ nghẽn nút cổ chai đường truyền dẫn quốc tế Kiến trúc phân tầng Hệ thống cache thường đặt điểm truy nhập hai mạng khác để giảm chi phí truyền trang qua mạng Tại nước có mạng quốc gia hệ thống cache quốc gia Vậy có OH mạng vùng mạng có hệ thống cache cấp vùng Có O2H mạng khu vực mạng có hệ thống cache cấp khu vực Hệ thống cache đặt độ cao cấu trúc tương ứng cấp độ kiến trúc phân tầng, độ cao H cấu trúc tương ứng cấp độ kiến trúc phân tầng, độ cao 2H cấu trúc tương ứng cấp độ kiến trúc phân tầng Cache nối tới ISP qua kênh truy nhập Chúng ta giả sử dung lượng kênh truy nhập cấp độ dung lượng kênh trung kế mạng cấp độ nghĩa CI, CR,CN C cho cấp độ tương ứng Tỷ lệ hit hệ thống cache cấp khu vực, vùng, quốc gia đại diện giá trị: hitI, hitR, hitN (hit: số phần trăm yêu cầu đáp ứng mức đệm) Kiến trúc phân tán Cache đặt cấp khu vực khơng có trung gian trang Web cấp mạng khác Để chia sẻ hệ thống cache khu vực, hệ thống cache cấp mạng trung gian lưu giữ liệu meta-data chứa đựng thơng tin nội dung lưu hệ thống cache khu vực Các cache khu vực trao đổi định kỳ lượng thông tin meta-data 11 tài liệu mà chúng lưu trữ Chúng ta giả sử thông tin thường xuyên cập nhật tất cache khu vực mà có tài liệu lấy cache 3.1.1.1 Thời gian kết nối Tc Thời gian kết nối phần độ trễ truy vấn lấy văn (nội dung) Chúng ta giả sử thời gian kết nối phụ thuộc vào khoảng cách từ client đến với văn xét phạm vi mạng lưới Thời gian kết nối đến văn có độ phổ biến tot trường hợp sử dụng caching phân tán caching phân cấp Khoảng thời gian cập nhật trường hợp = 24 giờ; thời gian cập nhật dài số lượng yêu cầu tăng Tuy nhiên hiệu tương đối mơ hình caching phân tán caching phân cấp tương đương Trước hết, thấy với văn không phổ biến (tot nhỏ), hai mơ hình phân tán phân cấp có thời gian kết nối cao yêu cầu kết nối phải chuyển tới máy chủ chứa văn Khi văn hay truy cập, thời gian kết nối mơ hình phân tán mơ hình phân cấp gần xác suất văn tìm thấy máy chủ caching biên mạng cao 3.1.1.2 Thời gian truyền Tt Phân bố lưu lượng tạo mơ hình caching phân tán βdl mơ hình caching phân cấp βhl tất cấp độ mạng Với N=250 triệu trang Web, phân bố theo luật Zipf Thời gian cập nhật trang =24h Tổng lưu lượng mạng O2H.I =1000 truy nhập/s Chúng ta cố định kích thước trang S=15KB Ta tính tỷ lệ hit cấp độ cache hitI=0.5, hitR=0.6 hitN=0.7 Mơ hình caching phân tán gây tăng gấp lần băng thông mức mạng thấp sử dụng nhiều băng thông mức mạng quốc gia so với mơ hình caching phân cấp Tuy nhiên, lưu lượng nút mạng bị nghẽn lại giảm 1/2 Chúng ta thiết lập băng thông mạng cấp khu vực CI = 100Mb/s Mạng cấp độ quốc gia vùng có băng thơng CN = CR Chúng ta không cố định hai băng thông mà xem xét độ nghẽn mạng ρ (    h H S ) hai mạng (chúng ta thay đổi mức độ sử dụng băng CN thông ρ kết nối mạng cấp quốc gia kiến trúc caching phân cấp) Kết nối quốc tế thường xuyên nghẽn có mức độ sử dụng băng thông (β1O2H(1-hitN)S/C) = 0.95 Nút thắt cổ chai lưu lượng đường kết nối từ client đến máy chủ gốc đường kết nối quốc tế Chúng ta quan sát thấy hiệu mơ hình phân tán phân cấp giống 12 khơng có kết nối bị nghẽn cao mạng cấp vùng cấp quốc gia Mơ hình caching phân tán có thời gian truyền dẫn thấp phân cấp có nhiều yêu cầu thỏa mãn mức mạng không bị nghẽn 3.1.1.3 Thời gian trễ tổng thể Thời gian trễ tổng thể tổng thời gian kết nối thời gian truyền dẫn Với văn lớn, thời gian trễ tổng thể xấp xỉ với thời gian truyền dẫn Với văn nhỏ, thời gian truyền dẫn nhỏ trường hợp này, thời gian trễ tổng thể xấp xỉ với thời gian kết nối Mơ hình mạng phân tầng (phân cấp) có thời gian trễ thấp với văn nhỏ 200KB mơ hình mạng caching phân cấp có thời gian kết nối thấp mơ hình caching phân tán Tuy nhiên mơ hình mạng caching phân tán có thời gian trễ thấp trường hợp văn có kích thước lớn thời gian truyền dẫn mơ hình nhỏ Mức ngưỡng dung lượng văn phụ thuộc vào mức độ nghẽn mạng quốc gia Nghẽn lớn với mức ngưỡng kích thước văn nhỏ, mơ hình caching phân tán có độ trễ nhỏ mơ hình caching phân cấp 3.1.1.4 Băng thơng sử dụng Tính tốn lượng băng thông sử dụng dựa số lượng đường link (liên kết) cần thiết để gửi trả gói tin cho clients (khách hàng) Mơ hình caching phân tán sử dụng nhiều băng thơng mơ hình caching phân cấp mạng cấp Tuy nhiên lưu lượng mạng phân tán tốt với phần lớn băng thông sử dụng mức mạng nghẽn Ngồi mơ hình caching phân cấp sử dụng kết nối mạng cấp vùng văn tìm thấy máy chủ caching cấp vùng Ở cấp mạng quốc gia tương tự Vì hướng tiếp cận sử dụng chủ caching mức biên máy trạm để cung cấp ứng dụng nội dung thường có hiệu xét mặt băng thông hướng tiếp cận khác 3.1.2 Kiến trúc kết hợp (Caching lai) Kiến trúc cache lai kiến trúc có số lượng xác định k cache liên kết mức mạng kiến trúc phân tầng 3.1.2.1 Thời gian kết nối Tc Thời gian kết nối kiến trúc kết hợp phụ thuộc vào số lượng cache kết hợp k cấp mạng Số lượng cache kết hợp cấp thay đổi từ tới OH = 64 (toàn số lượng cache bên cạnh cấp độ cache kết hợp) Hình cho ta thấy thời gian kết nối trung bình cho tồn N trang web, phụ thuộc vào số cache kết hợp 13 Hình 3.9 Thời gian kết nối trung bình cho tồn N trang Web, phụ thuộc vào số cache kết hợp k Khả tìm thấy trang hệ thống cache bên cạnh gần nhỏ, phần lớn yêu cầu cache cấp phục vụ với khoảng cách H hop Khi số cache kết hợp tăng lên, thời gian kết nối giảm tới giá trị nhỏ Bời khả để truy nhập trang hệt hống cache bên cạnh gần so với hệ thống cache cấp trên.Tuy nhiên số cache kết hợp tăng ngưỡng kc=4, thời gian kết nối tăng nhanh trang yêu cầu từ hệ thống cache bên cạnh có khoảng cách mạng lớn Số lượng cache kết hợp tối ưu kc để tối thiểu hóa thời gian kết nối số lượng cache mà khoảng cách mạng gần so với mạng cấp trên: kc=O[H/2] Chúng ta thấy kiến trúc hỗn hợp với số kết nối tối ưu kc có thời gian kết nối nhỏ kiến trúc phân tán chí nhỏ kiến trúc phân tầng khoảng lớn Hình 3.10 Thời gian kết nối Caching phân cấp, caching phấn tán caching hỗn hợp 3.1.2.2 Thời gian truyền Tt Hình 3.11 biểu diễn cho thời gian truyền tất N trang Web phụ thuộc vào số cache kết hợp cấp 14 Hình 3.11 Thời gian truyền N trang Web Sau xem xét hai trường hợp mạng cấp quốc gia không nghẽn (ρ=3) điểm nút cổ chai đường quốc tế, mạng cấp quốc gia nghẽn (ρ=0.8), nhận thấy mạng quốc gia khơng nghẽn thay đổi số lượng cache kết hợp không ảnh hưởng đến thời gian truyền Tuy nhiên mạng quốc gia bị nghẽn thời gian truyền phụ thuộc nhiều vào số lượng cache kết hợp cấp mạng Nếu số lượng cache kết hợp nhỏ, có khả trang Web lấy từ cache bên cạnh Các trang phần lớn lấy từ cache cấp qua đường kết nối mức bị nghẽn nặng Khi số cache kết hợp tăng, khả để nhận trang hệ thống cache bên cạnh tăng thời gian truyền nhỏ Nếu số cache kết hợp vượt qua ngưỡng kt =16, thời gian truyền lại tăng lại trang Web nhận qua có khoảng cách lớn đường kết nối bị nghẽn nặng Số cache kết hợp tối ưu kt để tối thiểu hóa thời gian truyền phụ thuộc vào số lượng cache kết hợp đạt mà khơng làm nghẽn kênh kết nối Trong trường hợp kênh lớp mạng cấp quốc gia bị nghẽn, số lượng cache kết hợp tối ưu cấp kt =16 Giá trị tương ứng với số cache vùng kết hợp với để đáp ứng yêu cầu truy nhập mà không cần phải đến đường kết nối cấp quốc gia: kt=OH-1 Hình 3.12 Thời gian truyền cho caching lai với số đệm tối ưu k, ρ=0,8 Lựa chọn số cache kết hợp mạng kết hợp có thời gian kết nối nhỏ so với kiến trúc phân tầng thời gian truyền nhỏ kiến trúc phân tán 3.1.2.3 Thời gian trễ tổng thể Với trường hợp trang kích thước nhỏ số cache kết hợp tối ưu gần với giá trị kc, kc tối thiểu thời gian kết nối Với trường hợp trang kích thước lớn số cache kết hợp tối ưu gần với giá trị kt, kt tối thiểu thời gian truyền Với kích thước số lượng cache kết hợ tối ưu để tối thiểu hóa thời gian trễ có giá trị k opt: kc ≤ k opt ≤ kt 15 k opt phụ thuộc vào kích thước trang, giá trị k opt thay đổi khoảng kc =4 kt=16 Với trang có kích thước nhỏ vài KB k opt = kc =4 Kiến trúc kết hợp với số cache kết hợp tối ưu có tổng thời gian trễ nhỏ kiến trúc phân tầng kiến trúc phân tán 3.1.2.4 Băng thông sử dụng Băng thơng sử dụng mơ hình caching lai nhỏ so với băng thơng sử dụng mơ hình caching phân tán với mức độ phổ biến khác nội dung yêu cầu mạng cấp vùng cấp quốc gia Nguyên nhân kết có thêm máy chủ caching trung gian giúp giảm đáng kể băng thông sử dụng, giống trường hợp sử dung multicast lớp ứng dụng Hiệu mơ hình caching lai so với mơ hình caching phân cấp phụ thuốc vào số lượng máy chủ caching cộng tác Đặc biệt trường hợp có k = kc = máy chủ caching cộng tác, băng thơng sử dụng mơ hình caching lai chí cịn nhỏ băng thơng sử dụng mơ hình caching phân tán (khoảng 1.2 lần với văn có mức độ phổ biến trung bình) Chú ý rằng, với k = kc = 4, số lượng chuyển tiếp trung gian yêu cầu caching giảm thiểu Khi có k = kt = 16 máy chủ caching cộng tác để giảm thiểu thời gian truyền dẫn trường hợp mạng nghẽn, băng thông sử dụng tăng nhẹ (khoảng 1.3 lần với văn có độ phổ biến trung bình) so với mơ hình phân cấp có trường hợp phải lấy thông tin từ máy chủ caching xa để tránh đường kết nối bị nghẽn mức 3.2 ĐÁNH GIÁ HIỆU NĂNG CÁC THUẬT TOÁN CACHE 3.2.1 Phép thử DEC CE(L) tốt so với thuật toán thay khác theo CRR cho tất kích thước nhớ cache Các CRR thu CE lên tới 140% tốt so với LFU LRU cho nhớ cache 10MB Trong nhớ cache 1GB CE(L) thực 23% tốt so với LFU GDS, xét đến chi phí, kích thước tuổi cache, thực tốt nhiều so LRU LFU Nhưng, CE(L) thực tốt so với GDS (L) cải thiện phạm vi tương đối từ 24% nhớ cache nhỏ đến 5% kích thước nhớ cache lớn CE(P) giảm chi phí tốt LRU, LFU GDS Cụ thể, hiệu CE(P) 67% cao LRU cho nhớ cache 50MB cao 50% với nhớ cache 100MB.Hình 3.16 so sánh hiệu thuật toán tỷ lệ hit HR Với kích thước cache vừa phải (200MB 400MB), CE(P) cải thiện khoảng 50% HR so với LRU LFU HR GDS (P) tốt so với LRU LFU GDS (P) khơng xem xét tình trạng cache lạnh, hiệu khơng phải tối ưu.Hình 3.17 so sánh hiệu thuật toán tỷ lệ byte hit BHR 16 CE(P) tốt khoảng 10% so với LRU 20% -30% so với LFU Tuy nhiên, CE(L) thể hiệu hiệu ấn tượng BHR 3.2.2 Phép thử SJ Phép thử khơng tính đến độ trễ tải cho u cầu, chúng tơi khơng tính BV cho CE(L) Vì phép thử có so sánh hiệu CE(P) với GDS(P), LRU, LFU Tương tự phép thử DEC, CE(P) thực tốt việc giảm chi phí lấy tài liệu Tuy nhiên, mức độ cải tiến không cao phép thử DEC Khi kích thước nhớ cache nhỏ (18MB), CE(P) tốt GDS (P) khoảng 5% vượt LFU khoảng 13% Về HR BHR, CE(P) tốt so với thuật toán thay khác phép thử DEC Lưu ý có hai khác biệt phép thử SJ DEC Trước tiên, GDS (P) không hiển thị cải tiến đáng kể việc giảm chi phí phép thử SJ Thứ hai, CE(P) có BHR tốt nhất, việc cải thiện hiệu nhỏ so với cải tiến phép thử DEC Trong thuật toán CE, thành phần quan trọng BV dự đoán xác suất tái truy cập Các đối tượng dự đoán truy cập lần lại nhớ cache thời gian dài Do đó, tải làm việc nhiều truy nhập cục bộ, có nhiều hit cache với thuật toán CE 3.2.3 Phép thử BO Tương tự phép thử DEC SJ, thuật toán CE(P) tốt CRR HR Những ưu nhiều đáng kể so với phép thử trước Với kích thước nhớ cache 180MB, CE(P) có HR cao 70% so với LRU, 35% so với LFU 24% so với GDS (P) Hiệu cuảng cải tiến đáng kể cho kích thước cache khác (xem Hình 3.22) Tuy nhiên, BHR thuật tốn CE(P) khơng phải ln ln tốt phép thử BO (xem Hình 3.23) Đối với kích thước nhớ cache lớn BHR tốt nhất, với cache nhỏ khơng Xem xét việc cải tiến hiệu thuật toán CE tỷ lệ giảm chi phí CRR tỷ lệ hit HR, việc BHR giảm nhẹ cho kích thước nhớ cache nhỏ khơng đáng kể 3.2.4.Kết luận Thuật tốn CE mơ hình độ trễ ký hiệu CE(L) ln có tỷ lệ giảm chi phí CRR tốt thuật tốn khác Thuật tốn CE mơ hình gói ký hiệu CE(P) ln có tỷ lệ hit HR tốt thuật toán khác Thuật toán CE(P) đạt tỷ lệ byte hit (BHR) tốt thuật toán trường hợp cache lớn, trường hợp cache nhỏ hiệu giảm nhẹ 17 Chương 4- HIỆN TRẠNG VÀ GIẢI PHÁP TỐI ƯU HỆ THỐNG WEB CACHING MẠNG VNN.VN CỦA VNPT 4.1 HIỆN TRẠNG 4.1.1 Hiện trạng khách hàng đặc tính lưu lượng Với việc bùng nổ thuê bao Internet, tính đến tháng 9/2009 có 21 triệu người sử dụng Internet, tương đương với tỉ lệ số dân sử dụng Internet 25,6% Một số đáng ghi nhận có gần 2,7 triệu khách thuê bao băng thông rộng (xDSL) nước 90% doanh nghiệp kết nối Internet băng thông rộng VNPT phấn đấu phát triển 1.000.000 thuê bao truy nhập băng rộng năm 2010 Như vậy, với yêu cầu, mục tiêu phát triển dịch vụ tiềm Công ty năm 2009 năm tiếp theo, việc đáp ứng kịp thời yêu cầu trang thiết bị phục vụ sản xuất kinh doanh cho mạng VNN cấp thiết Nâng cấp “Hệ thống Caching mạng VNN” thực mục tiêu nâng cao chất lượng dịch vụ Internet sở đáp ứng nhanh yêu cầu truy cập Đặc tính lưu lượng mạng VNN tập trung nhiều khu vực HNI HCM Lưu lượng dành cho khách hàng băng rộng đổ dồn từ node mạng trục BRAS tầng mạng truy nhập – nơi tiếp yêu cầu từ phía khách hàng lớn 4.1.2 Hiện trạng hệ thống Web Caching mạng VNN.VN Hình 4.2 Sơ đồ tổng quan kiến trúc Web Caching VNPT VNPT sử dụng hệ thống Web Caching cho tầng mạng trục (core network) mạng VNN 18 4.1.3 Hiện trạng lưu lượng hướng mạng VNN Hệ thống Web Caching VNPT làm giảm thiểu đáng kể lưu lượng mạng từ mức vùng lên mức quốc gia giảm nghẽn nút cổ chai nút trung tâm vùng Tuy nhiên, khơng tối ưu lưu lượng theo địa phương có tỉ lệ mật độ dân cư, dân trí, mức sống khác Do đó, truy nhập địa phương có nhu cầu sử dụng thấp khơng hiệu quả, cịn nơi có nhu cầu cau thành phố Hồ Chí Minh, Hà Nội, Hưng Yên hiệu đem lại thấp Cũng chất lượng dịch vụ nơi chưa cao chưa thỏa mãn đòi hỏi người sử dụng đặc biệt thời gian cao điểm (dịp lễ, tết ) Vẫn trang lưu lượng sử dụng 80% dung lượng băng thông Như vậy, yêu cầu đặt cần phải có giải pháp nâng cấp tơí ưu hệ thống Web Caching, tiết kiệm chi phí thơng 4.1.4 Đánh giá nhận định trạng * Ưu điểm: - Hệ thống sử dụng cache farm cho ba khu vực, giảm chi phí mạng nhiều yêu cầu thỏa mãn với liệu lưu trữ bên cache farm, giảm thời gian truyền dẫn, tiết kiệm chi phí đường truyền mạng - Trong cache farm bao gồm Content Engine Cisco nên mang đầy đủ đặc tính kĩ thuật Cache Engine - Qua theo dõi hoạt động, hệ thống Web Caching mạng VNN góp phần giảm phần đáng kể dung lượng kênh Internet quốc tế việc hoạt động hiệu quả, tỷ lệ tiết kiệm thông thường xuyên đạt 25-30% tổng lưu lượng HTTP mạng - Hệ thống Web Caching chứng tỏ hiệu mặt kỹ thuật tính kinh tế so với việc mở kênh Ineternet quốc tế trực tiếp mà không sử dụng hệ thống Caching - Ngoài ra, hệ thống Web Caching cịn có vai trị quan trọng việc ngăn chặn truy cập tới địa web đen từ phía người sử dụng nhằm đảm bảo an tồn thơng tin, hạn chế việc quảng bá nội dung “bẩn” vào Việt Nam qua mạng Internet toàn cầu - Web Caching hỗ trợ tốt tính xác thực truy nhập người dùng nhằm đáp ứng yêu cầu đặc thù việc quản lý nội dung Internet quan quản lý nhà nước Việc thực chức hệ thống caching làm giảm tải hệ thống firewall không cần dùng đến hệ thống firewall tạo thuận lợi cho hệ thống mạng thơng suốt hồn tồn, hạn chế việc hình thành nghẽn nút cổ chai mạng sử dụng hệ thống firewall mạng * Nhược điểm: - Hiện hệ thống Web Caching sử dụng tầng mạng trục mạng VNN, tầng mạng khác chưa có Web cache 19 - Mạng VNN sử dụng kiến trúc Web Caching phân tán mức vùng, giảm lưu lượng mạng từ mức vùng lên mức cao (mức quốc gia) kiến trúc mạng VNN ta nhận thấy mức quốc gia mức khu vực (các tỉnh, điểm tập trung lưu lượng POPs) chưa có caching Vì dẫn đến tình trạng “nghẽn nút cổ chai” đường truyền từ điểm tập trung lưu lượng POPs đến khu vực nghẽn từ miền đến mức cao số lượng người truy nhập tăng lên (ví dụ ngày lễ tết, cao điểm số lượng người truy nhập tăng cao) - Các thiết bị hệ thống Web caching sử dụng thuật tốn LRU, làm lãng phí dung lượng nhớ cache để lưu trang multimedia có kích thước lớn mà dường khơng truy nhập lại thời gian trước mắt, đạt hiệu cao với truy nhập cục đối tượng kích thước chi phí - Lưu lượng từ tầng mạng trục xuống tới điểm tập trung lưu lượng (các BRAS) POPs (tỉnh) trọng điểm (nơi tiếp nhận yêu cầu từ khách hàng lớn Vì thời kỳ cao điểm gây nghẽn nút cổ chai yêu cầu từ phía khách hàng tăng cao - Thực tế hệ thống Web Caching mạng VNN đảm bảo phục vụ cho phận khách hàng băng rộng, chưa đảm bảo phục vụ cho toàn khách hàng băng rộng khách hàng loại - Hệ thống bị tải nên việc vận hành khai thác phải tiến hành reset lại tay để giải phóng tài nguyên, hệ thống làm nội dung lưu trữ Cache làm cho Cache phải lấy nội dung lại từ đầu, việc tiết kiệm băng thông quốc tế bị giảm đáng kể Qua phân tích ta thấy: Hệ thống Web Caching mạng VNN dùng chưa tương xứng với quy mô khách hàng (lưu lượng) phát triển mạng Tầng mạng truy nhập POP nơi tập trung nhiều truy nhập tỉnh khác có lưu lượng khác nhau, đầu tư web caching cho tầng POP khu vực đem lại hiệu sử dụng kênh truy nhập lên tầng mạng tốt VNPT chưa đầu tư Web Caching POPs (Web Proxy server) 4.2 GIẢI PHÁP NÂNG CẤP WEB CACHING CHO MẠNG VNN 4.2.1 Giải pháp - Hệ thống sử dụng kiến trúc kết hợp (kiến trúc lai), bao gồm nhiều cấp caching nhiều thành phần caching cấp - Ở chương đánh giá hiệu thuật toán thay cache LRU, LFU, GDS, CE thực nghiệm Kết quan sát cho thấy CE gần đạt tỷ lệ hit, tỷ lệ byte hit, tỉ lệ giảm chi phí tốt Vì việc sử dụng thuật tốn CE lựa chọn tối ưu thời 20 - Thiết bị chọn sử dụng hệ thống Web Caching Cisco Cache Engine - Dựa vào bảng thống kê lưu lượng trên, để giải vấn đề giảm nghẽn cổ chai POPs có lưu lượng cao Trong giai đoạn đầu nâng cấp hệ thống Web Caching đưa phương án: Đầu tư Cache farm cho điểm tập trung lưu lượng lớn tỉnh Hà Nội, Hồ Chí Minh, HYN, HDG nhằm san tải nhanh chóng lượng yêu cầu khách hàng tăng cao - Sử dụng thêm Web Caching P2P (Caching ngang hàng hay web caching mức quốc gia với nhà cấp dịch vụ khác) nhằm giảm lưu lượng mạng quốc tế 4.2.2 Sơ đồ kiến trúc giải pháp Web Caching cho mạng VNN.VN Hình 4.4 Sơ đồ tổng quan giải pháp Web Caching cho mạng VNN VNPT Hình 4.5 Sơ đồ chi tiết Web caching POP HYN 21 KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận Luận văn trình bày nét mạng internet, lịch sử, tốc độ phát triển internet đưa xu hướng tăng trưởng internet Việt Nam Đưa phương pháp để nâng cao hiệu suất sử dụng internet đáp ứng nhu cầu sử dụng khách hàng tốc độ sử dụng internet, đặc biệt ADSL Việt Nam phát triển không ngừng sử dụng hệ thống Web Caching Luận văn trình bày tổng quan kiến trúc Web Caching, thuật toán cache đồng thời tiến hành phân tích hiệu kiến trúc thuật toán thay Web Caching Luận văn đưa khảo sát trạng khách hàng, trạng hệ thống Web Caching VNPT Từ có nhận xét, đánh giá ưu nhược điểm hệ thống Web Caching VNPT Luận văn trình bày giải pháp nâng cấp hệ thống Web Caching cho mạng VNN VNPT Những đóng góp khoa học thực tiễn luận văn: Đưa giải pháp nâng cấp hệ thống Web Caching nhằm tối ưu hệ thống web caching cho mạng VNN VNPT Khuyến nghị a) Khuyến nghị VNPT  Mạng VNN VNPT nên sử dụng hệ thống Web caching lai, bao gồm nhiều cấp caching nhiều thành phần caching cấp  Sử dụng thuật tốn thay giảm chi phí hiệu CE  Căn vào đặc điểm khách hàng, đặc tính lưu lượng nhu cầu sử dụng internet vùng, VNPT nên chia việc đầu tư nâng cấp hệ thống Web caching theo giai đoạn: - Đầu tư Web caching cho POPs trọng điểm, số người sử dụng ADSL lớn, tỷ lệ nghẽn cao giai đoạn 1(các tỉnh: Hồ Chí Minh, Hà Nội, Đà Nẵng, Hưng Yên, Hải Dương) - Đầu tư Web Caching mức quốc gia nhằm san tải lưu lượng Web với ISP khác khu vực để giảm thiểu tối đa băng thông sử dụng quốc tế - Đầu tư Web Caching cho tất POPs lại khu vực nhằm tối ưu hóa hồn tồn việc sử dụng hệ thống Web Caching, nâng cao chất lượng mạng cho người dùng b) Hướng nghiên cứu tiếp theo: Nghiên cứu việc dùng hệ thống Caching cho loại hình dịch vụ băng thông rộng khác internet trực tiếp, IPTV, Game_online, web conferencing, ... hiểu Web caching, kiểu kiến trúc Web Caching, thuật toán thay cache hiệu Vận dụng kiến thức nghiên cứu để đánh giá hệ thống Web Caching dùng cho mạng VNN.VN VNPT, đưa giải pháp Web Caching tối ưu. .. giá ưu nhược điểm hệ thống Web Caching VNPT Luận văn trình bày giải pháp nâng cấp hệ thống Web Caching cho mạng VNN VNPT Những đóng góp khoa học thực tiễn luận văn: Đưa giải pháp nâng cấp hệ thống. .. giải pháp Chương 2- KHÁI NIỆM WEB CACHING, CÁC KIẾN TRÚC VÀ THUẬT TOÁN THAY THẾ CỦA WEB CACHING 2.1 KHÁI NIỆM VỀ WEB CACHING 2.1.1 Định nghĩa Web Caching Web caching việc lưu trữ tài liệu web

Định dạng
Số trang	21
Dung lượng	1,14 MB