Kiến trú web caching phân tích giải pháp web caching của isp ở cămpuchia

Trang 1 Bộ giáo dục và đào tạo trờng đại học bách khoa Hà Nội TAN KOSAL Trang 2 trờng đại học bách khoa Hà Nội Tan kosal kiến trúc web caching phân – tích giảI pháp web caching của

GIỚI THIỆU CHUNG VỀ WEB CACHING 1.1 VÌ SAO PHẢI DÙNG WEB CACHING ?

Sự phát triển của Internet

Trong những năm gần đây, Internet đã trở thành nguồn cung cấp thông tin khổng lồ, với hơn 3 tỷ trang web và gần 80% người sử dụng Internet truy cập nội dung từ các trang này Sự gia tăng này đã dẫn đến tình trạng quá tải và nghẽn mạng cho các hệ thống máy chủ và kênh truyền thông Chi phí cho việc duy trì hạ tầng không thể đáp ứng kịp thời với tốc độ phát triển của nhu cầu sử dụng Internet Các nhà cung cấp dịch vụ Internet (ISP) phải đáp ứng nhu cầu ngày càng cao từ lượng lớn người dùng, đồng thời đảm bảo chất lượng dịch vụ như giảm tắc nghẽn và tăng tốc độ truy cập thông tin, trong khi vẫn tiết kiệm chi phí về thuê kênh viễn thông Do đó, cần có giải pháp để hỗ trợ sự phát triển bền vững của Internet.

Các giải pháp

Các giải pháp đều phải khắc phục các vấn đề liên quan đến việc sử dụng Internet, bao gồm giảm nghẽn băng thông Các cấp mạng cần được cải thiện bao gồm mạng quốc gia (National network), mạng vùng (Regional networks) và các mạng khu vực (Institutional networks).

Giải pháp phổ biến nhất để nâng cao hiệu suất mạng là cải thiện các nguồn tài nguyên như sử dụng server mạnh, tăng cường băng thông và tối ưu cấu trúc mạng về định tuyến và phân tải Tuy nhiên, những phương pháp này thường đòi hỏi chi phí đầu tư lớn, và tốc độ đầu tư cùng chi phí cao không thể đáp ứng kịp thời sự gia tăng nhanh chóng của yêu cầu truy cập Internet.

Hơn 70-80% lưu lượng truy cập Internet đến từ việc tham chiếu nội dung của các website Do đó, phần lớn lưu lượng của các hệ thống cung cấp dịch vụ và các kênh truyền dẫn chủ yếu là các giao dịch giữa người sử dụng (clients) và các web servers Việc sử dụng giải pháp bộ nhớ đệm (cache) để lưu trữ nội dung của những trang web phổ biến không chỉ giúp cải thiện tốc độ truy cập mà còn chứng tỏ những ưu điểm vượt trội của nó trong việc phục vụ nhu cầu của người dùng.

 B ộ đệm làm giảm bớt nhu cầu chiếm giữ đường truyền (kho ng 35%), ả giảm thông lượng gi a các máy trữ ạm (clients) và máy chủ thông tin (content servers)

Bộ đệm cải thiện chất lượng dịch vụ (QoS) bằng cách phân phối thông tin qua băng thông rộng với tốc độ cao hơn, giúp giảm thời gian trễ và tối ưu hóa trải nghiệm của người dùng cuối.

Khi người dùng truy cập một trang web, trình duyệt sẽ lưu trữ nội dung của trang đó trên máy tính (local web caching) Nhờ vậy, khi truy cập lại trang web, nội dung sẽ được lấy từ máy tính mà không cần gửi yêu cầu đến máy chủ gốc, giúp tiết kiệm băng thông và tăng tốc độ truy cập Tính năng này có mặt trên các trình duyệt như Microsoft, Netscape và Mozilla Trong môi trường mạng LAN, nhiều máy tính có thể sử dụng một bộ nhớ cache chia sẻ, nhưng khi số lượng người dùng tăng, hiệu suất của cache có thể giảm Tỷ lệ truy cập thành công từ cache trong môi trường này thường dao động từ 30% đến 50%.

Web Caching là một giải pháp hiệu quả và tiết kiệm chi phí, giúp nâng cao chất lượng dịch vụ và đáp ứng hầu hết các nhu cầu của người dùng khi truy cập nội dung thông tin trên Web.

1.2 GIỚI THIỆU V WỀ EB CACHING

Bộ nhớ đệm là vùng lưu trữ tạm thời thông tin được sao chép từ các nguồn dữ liệu gốc Với hàng triệu trang web trên internet, lượng thông tin khổng lồ cần được xử lý ngày càng tăng Người dùng thường có nhu cầu truy cập cùng một đối tượng, ví dụ như logo của Yahoo, xuất hiện trên nhiều trang web thông tin Mỗi trang web này được truy cập bởi hàng triệu người dùng và nhiều lần trong ngày Bộ đệm cho web là hệ thống máy tính chuyên dụng giúp quản lý và lưu trữ các đối tượng khi người dùng truy xuất từ máy chủ.

Bộ đệm sẽ xử lý và truy xuất nội dung của đối tượng từ vùng nhớ của nó thay vì gửi yêu cầu đến Server lưu trữ đối tượng gốc, giúp giảm tải cho server và tăng tốc độ truy xuất Để đảm bảo tính chính xác của nội dung, cơ chế này quy định một khoảng thời gian cho mỗi đối tượng và khi qua khoảng thời gian này, bộ đệm sẽ tự động load lại nội dung của đối tượng được lưu trữ trên máy chủ gốc Nhờ đó, người dùng sẽ luôn nhận được nội dung đúng và mới nhất của đối tượng Khi có nhiều yêu cầu truy xuất chung đến một đối tượng, phương pháp này càng thể hiện được tính hiệu quả của nó.

Client là ất kỳ ứng ụ b d ng n tào o nên s k t nố ử ụạ ự ế i s d ng cho m c đích ụ g i yêử u cầu

Là một mô hình ứng dụng, có thể chấp nhận việc xử lý và phản hồi yêu cầu bằng cách gửi trả lại những câu trả lời liên quan Bất kỳ chương trình nào cũng có thể hoạt động vừa như client vừa như server, tùy thuộc vào vai trò mà một kết nối thực hiện Thuật ngữ này thường được sử dụng để chỉ mối quan hệ giữa các kết nối, không phụ thuộc vào loại yêu cầu.

Hình 1.1 : Kiến trúc cơ bản c a mộ ộ đệủ t b m cho Web

Để xây dựng một web server hiệu quả, cần có phần mềm và phần cứng phù hợp Việc lựa chọn máy tính phải dựa trên các yêu cầu đặc biệt của mạng LAN và hệ điều hành.

NOS) m đang à chạy Web server có thể ự th c hi n mộ ốệ t s nhi m v nh ệ ụ ư sau:

 Ho t nạ độ g việ đăng kc ý

 Xác nhậ những n ngườ ử ụngi s d

 Ghi địa ch Internet, thời gian và yêu cầu mà làm ỉ cho mỗ ết nối k i

 Truyền các y u c u d li u mà c browser l n sê ầ ữ ệ ả ẫ erver c th truy ó ể c p ậ trự tiếp tới các c ứng ụng ọ d g i là gate ay w

Browser l phầ ề ứng ụng ng để truy nhập World ide W Web (WWW) Browser có 2 nhiệm v ụ chính :

Sử dụng URL là cách để truy cập thông tin trên Internet, cho phép người dùng thực hiện thao tác dựa trên nội dung của địa chỉ web Đối với siêu văn bản (HyperText), trình duyệt cần hỗ trợ các giao thức như HTTP, FTP và Gopher để thực hiện việc truy cập và giao tiếp hiệu quả.

Online Browser Addressing Schemer common Protocols Format Negotiation

Hình 1.2: Mô hình Client/S erver

 Để ả gi i thích mã HTML trong tài li u nó nh n t máy ệ ậ ừ chủ và đưa ra tài u t i liệ đó ớ ngườ ử ụng ớ nhiề định ạng browser i s d v i u d

Khi nhập URL khác, quá trình s bẽ ắt đầu l i ạ khắp nơi Browser sử dụng URL để yêu cầ ài liệ ồ cho đợi máy u t u r i chủ trả ạ ài liệ l i t u

Firewall là một công cụ quan trọng giúp bảo vệ hệ thống mạng khỏi các truy cập trái phép, đảm bảo an toàn cho thông tin nội bộ Nó hoạt động bằng cách ngăn chặn sự xâm nhập từ bên ngoài, bảo vệ các nguồn dữ liệu và hạn chế các mối đe dọa không mong muốn.

Proxy là một hệ thống trung gian, hoạt động như một máy chủ và cũng là một khách hàng, với mục đích tiếp nhận yêu cầu và thay thế các khách hàng khác Các proxy thường nằm ở phía đầu của mạng và có khả năng xử lý yêu cầu từ các client khác nhau Khi yêu cầu được chuyển tiếp, proxy sẽ hoạt động như một client để nhận thông tin từ máy chủ và sau đó gửi thông tin này trở lại cho client đã yêu cầu.

Hình 1.3 :Quan h ệ giữa Web browser và Internet Server

Là các client mà đưa ra yêu cầu ban u , th ng là ình đầ ườ tr duyệt, trình soạn ảoth , v.v

Là server c chứó a n i ộ dung nguồ hoặn c là nơi ộ dung nguồ đượn i n c t o ạ ra.

Proxy là một hệ thống trung gian hoạt động như một máy chủ vừa là client, nhằm gửi yêu cầu đến Origin Server thay vì để các client trực tiếp truy cập Các proxy thường được sử dụng để truy cập mạng và có hệ thống caching để lưu trữ nội dung trang web thường xuyên được truy cập Khi client gửi yêu cầu nội dung trang web, nếu nội dung đó đã được lưu trữ trong cache của proxy, nó sẽ trả ngay cho client Nếu không, proxy sẽ chuyển tiếp yêu cầu đến hệ thống web caching hoặc trực tiếp đến Origin Server.

Hì nh 1.4 mô tả mô hình proxy tiếp nhận yêu cầu Khi nhận thông tin từ server nguồn, proxy sẽ chuyển tiếp nội dung web đến client và đồng thời lưu trữ nội dung trang web tại cache của nó.

Một số kh niệm

QUAN HỆ GIỮA MÁY TRẠM VÀ MÁY CHỦ DỮ LIỆU

Phần này mô tả các thành phần tham gia vào việc trao đổi giữa các máy trạm và máy chủ lưu trữ dữ liệu chính Những thành phần này được sử dụng để xác định máy chủ cung cấp dữ liệu tối ưu nhất.

1.3.1 Định hướng lại địa chỉ URL Uniform Resource Locator ( Redirection)

Một cơ chế đơn giản và thông dụng để kết nối giữa máy chủ và máy trạm là sử dụng giao thức HTTP, với mã phản hồi 307 để tái định hướng địa chỉ tạm thời Kết nối này sẽ quyết định giữ nguyên hoặc chuyển tiếp đến một máy chủ khác.

Phụ thu c hoàộ n to n v o cơ chế ảo mậ ủà à b t c a giao th c HTTP ứ

1.3.2 Định hướng lại tên miền (DNS redirection)

Hệ thống DNS cung cấp khả năng kết nối hiệu quả giữa máy trạm và máy chủ, giúp tăng cường tính ổn định và độ tin cậy DNS sắp xếp các yêu cầu dựa trên chất lượng của các dịch vụ Khi một máy trạm sử dụng tên máy chủ để truy cập, DNS sẽ xác định địa chỉ IP của máy chủ một cách hợp lý nhất để xử lý yêu cầu từ máy trạm Ngoài ra, DNS cũng cung cấp khả năng cân bằng tải bằng cách phân tán các yêu cầu đến các máy chủ một cách hợp lý.

Phụ thu c hoàộ n to n v o cơ chế ảo mậ ủà à b t c a DNS

1.3.3.Quan hệgiữa c c m y chủá á (Replica to Replica Relationships)

1.3.3.1 Tạo b n sao theo lô (ả Batch Drive Mirror Replication)

Trong cơ chế này, các máy chủ cập nhật dữ liệu tạo kết nối với máy chủ chính Giao tiếp giữa máy chủ chính và các máy chủ dự phòng diễn ra theo hàng đợi Ngay khi kết nối được thiết lập, lô dữ liệu sẽ được sao chép sang máy chủ dự phòng.

Phụ thu là một phần quan trọng trong các chính sách bảo mật của các giao thức được sử dụng để thiết lập kết nối và trao đổi dữ liệu Trong số đó, FTP và RDIST là hai giao thức phổ biến thường được áp dụng.

Trong cơ chế hoạt động của máy chủ dự phòng, dữ liệu cần thiết sẽ được lưu trữ sẵn để đáp ứng nhu cầu truy xuất Khi máy trạm yêu cầu dữ liệu, máy chủ dự phòng sẽ tìm kiếm trong cơ sở dữ liệu cục bộ của nó Nếu không tìm thấy thông tin, máy chủ sẽ thực hiện một kết nối tới máy chủ chính để lấy dữ liệu

Phụ thu c và chính sách bảo mật của các giao thức được sử dụng như URL, FTP, GOPHER, HTCP và ICP rất quan trọng trong việc đảm bảo an toàn cho thông tin Các giao thức này đóng vai trò thiết yếu trong việc trao đổi dữ liệu một cách hiệu quả và bảo mật.

1.3.3.3.Tạo b n sao s dả ử ụng cơ chế đồ ng b ộ

Trong cơ chế đồng bộ, các máy chủ sử dụng các giao thức đồng bộ với nhau để đảm bảo dữ liệu luôn đồng nhất tại các vị trí khác nhau Chiến lược đồng bộ có thể được thiết lập để thực hiện theo khoảng thời gian xác định, từ mức độ cao như thực hiện đồng bộ theo từng phút đến mức độ thấp hơn như đồng bộ hàng giờ, hàng ngày.

Các giao thức đư c sử ụợ d ng đ u ứề ng dụng các cơ ch b o mật ế ảKeberos, RSA

KẾT LUẬN

Công nghệ lưu giữ và cung cấp nội dung Web tại nơi người truy cập là một giải pháp công nghệ quan trọng, giúp giảm thời gian truy cập dữ liệu Web cho người dùng cuối Nó hạn chế và tránh tình trạng tắc nghẽn lưu lượng dữ liệu trao đổi trên mạng Những ưu điểm của Web caching bao gồm cải thiện tốc độ truy cập, giảm tải cho máy chủ gốc và nâng cao trải nghiệm người dùng.

 Giảm bớt băng thông b i việc giảở m lưu lư ng từ trình duyệt ợ (browser) đến nội dung máy chủ

 Giảm b t t i trên Web server khi có nhi u yêu cớ ả ề ầu gửi đ n máy ế chủ

 Truyền Web Object cho người sử ụ d ng cuối cùng nhanh hơn

 Giảm b t băng thông và chi phí , nó có lợi ích cho người sử dụng, ớ người cung cấp dịch vụ và người sở ữ h u Web site

 Scalability: bộ đệ m mạng có hàng nghìn Local server đối với nhu cầu nội dung lớn

 Tăng cường ch t lư ng d ch v khi n i dung đư c chuyểấ ợ ị ụ ộ ợ n đ n ế băng thông cao hơn

SO SÁNH PHÂN TÍCH CÁC MÔ HÌNH KIẾN TRÚC HỆ THỐNG WEB CACHING 2.1 GIỚI THIỆU CÁC KIẾN TRÚC CACHE

Kiến trúc cache phân tán - Distributed Cache

Gần đây, nhiều nghiên cứu đã đề xuất việc thiết lập một phương thức cache phân tán an toàn, trong đó các hệ thống cache hoạt động ở một mức độ nhất định Trong các hệ thống cache phân tán, không có các hệ thống cache trung gian ngoại trừ hệ thống cache ở cấp vĩ mô Các máy chủ cache sẽ phục vụ các yêu cầu từ các máy chủ cache khác trong cùng một mạng Để xác định xem cần phải truy xuất nội dung từ máy chủ cache nào, tất cả các máy chủ này đều lưu trữ những thông tin meta-data để quy chiếu đến các nội dung chứa trong các máy chủ cache khác Để đạt được hiệu quả và mở rộng khả năng phân tán các thông tin meta-data giữa các máy chủ, người ta sử dụng cơ chế phân tán có tính phân cấp Tuy nhiên, mô hình phân cấp này chỉ được sử dụng để phân tán các thông tin danh bạ về vị trí của các nội dung chứ không phải nội dung thực tế.

Kiến trúc cache phân tán của Web Caching bao gồm các bản sao của nội dung thực tế, giúp tối ưu hóa lượng dữ liệu truyền qua các lớp mạng cốt lõi, giảm thiểu tắc nghẽn và tiết kiệm không gian đĩa ở các lớp mạng trung gian Mặc dù có nhiều lợi ích, việc triển khai mô hình này trên diện rộng có thể gặp phải một số vấn đề như thời gian kết nối cao, tốc độ băng thông không ổn định và các vấn đề liên quan đến quản lý hệ thống Kiến trúc này phù hợp với các mạng có phạm vi nhỏ, nơi các cache khu vực được kết nối với nhau qua các đường kênh tốc độ cao, tối ưu hóa dung lượng truyền tải.

Kiến trúc cache hỗn hợp – Hybit cache

Nhằm t n d ng các u i m và h n ậ ụ ư đ ể ạ chế những nhượ đ ểc i m c a ủ hai mô

Hệ thống Web Caching được thiết kế theo kiến trúc phân tầng, trong đó các cache được kết hợp với nhau nhằm tối ưu hóa hiệu suất Một hệ thống cache có kiến trúc hỗn hợp có thể tận dụng ưu điểm của cả hai loại cache, giúp giảm thời gian kết nối và thời gian chuyển tải một trang web Trong mô hình này, máy chủ cache có khả năng tương tác với các máy chủ cache đồng cấp hoặc cấp cao hơn, đảm bảo rằng trang web được lấy từ máy chủ cache gần nhất với thời gian truy xuất nhanh nhất Kiến trúc này giúp hạn chế việc lấy dữ liệu từ các máy chủ cache xa, từ đó cải thiện tốc độ xử lý và giảm chi phí.

Người ta nhận ra rằng trong kiến trúc hệ thống cache, việc tối ưu hóa cấu trúc cache là rất quan trọng để đạt được hiệu năng tốt nhất Hệ thống cache cần được kết hợp với số lượng cache tại mỗi tầng hợp lý, nhằm tận dụng được lợi ích của cả hai kiến trúc phân tán và tập trung, giúp giảm thời gian kết nối và thời gian truyền tải trang web Mức độ kết hợp hệ thống cache tại mỗi điểm mạng phải được tính toán linh hoạt dựa trên kích thước trang web, năng lực hệ thống cache và lưu lượng trên mạng Khi hệ thống cache cấp cao hơn hoặc lớp mạng phía trên bị nghẽn, hệ thống cache cấp dưới sẽ bị ảnh hưởng Tương tự, khi hệ thống cache cấp dưới hoặc lớp mạng phía dưới ở trạng thái không sẵn sàng, hệ thống cache tại vùng gần nhất sẽ phục vụ yêu cầu đó trong thời gian ngắn nhất.

2.2 ĐÁNH GIÁ HI U NĂNG CỆ ỦA KI N TRÚC PHÂN TẦNG VÀ Ế

Trong phần này, chúng ta sẽ xây dựng mô hình phân tích để đánh giá hiệu năng của các kiến trúc phân tầng và kiến trúc phân tán Chúng ta sẽ so sánh hai kiến trúc này dựa trên độ trễ khi duyệt một trang.

Web là kiến trúc phân tầng có thời gian kết nối ngắn hơn kiến trúc phân tán Điều này xảy ra vì trong kiến trúc phân tầng, các bản sao của một trang được lưu trữ một cách đồng bộ tại các hệ thống cache ở nhiều độ mạng khác nhau, dẫn đến giảm thời gian kết nối Ngược lại, kiến trúc phân tán có thời gian truyền tải nội dung của một trang web thấp hơn kiến trúc phân tầng, bởi vì trong kiến trúc phân tán, lưu lượng Web được lưu chuyển hiệu quả hơn.

Hình 2.3: Ki n ế trúc ỗ h n h p c a Wợ ủ eb Caching

ĐÁNH GIÁ HIỆU NĂNG CỦA KIẾN TRÚC PHÂN TẦNG VÀ PHÂN TÁN

Ta có mô hình ạng ph n tầng ủ m â c a m ISột P như ình ướ , trong đó h d i m i ISỗ P có một số ệ hi u n ng riêă ng (AS)

Trong mô hình ày ta đưa ra một giả định ợ n h p lý là mô hình Internet phân tầng g m ồ 3 cấp IS P:

 Những m ng c p ạ ấ khu vự institutional net ork)c ( w

 Những m ng c p vạ ấ ùng (regional network)

 Và Backbone cấ quốc gia (national Backbone) p

Here is the rewritten paragraph:Các thuê bao được kết nối tới mạng lưới khu vực; mạng lưới khu vực được kết nối tới mạng lưới vùng và mạng lưới vùng được kết nối tới mạng quốc gia Các mạng quốc gia được kết nối với nhau bằng đường kênh truyền thông quốc tế (international path) Các máy chủ chứa nội dung gốc (origin servers) được kết nối tại một số mạng quốc gia nào đó, chứa thông tin được truyền tải qua các mạng lưới.

Hình 2.4 : Mô hình ph n cấ â p c a ISủ P ( Net ork topology)w

Chúng ta x y dựng opology củâ t a m ngạ d i dướ ạng ấ c u trúc c y đầ đủâ y O-aray d i y: ướ đầ

 O là điểm n mút ở ỗ ối g c cây

 H là s ố đường ết nố giữ k i a n g c c a mút ố ủ ạng quốc gia và n g c c a út ố ủ mạng ấp v c ùng

 H cũng là s ố đường ết nố giữ k i a n g c c a mút ố ủ ạng ấp vùng và nút c g c c a mố ủ ạng ấp c khu vự c

 z là đường ết nố k i máy chủ ốc v g à n gút ốc (ví d cáụ c đường ết nố k i quốc tế)

 l là cấp độ của y, khi đó: câ 0 ≤ l ≤ 2 H + z

 l = 0 thể hiệ cache cấn p khu v c ự

 l = H là mức mạng c a các b m c p vủ ộ đệ ấ ùng

 l 2 = H là m c mứ ạng c a b m c p ủ ộ đệ ấ quốc gia.

Hình 2.5: Kiểu cây, cách đạ cache (Tree mode, showing cache t lacement.)

Giả định ăng th ng l đồng đề trong mỗ b ô à u i ISP ( mỗ đường kết nối i giữa cá ISc P có cùng ốc độ truyề t n d n ẫ )

 C , l C R và C N là tốc độ truyền d n c a cáẫ ủ c kết nố ở ạng ấ khu vự , i m c p c vùng, quốc gia

 C là tốc độ nghẽn cổ chai tr n các đường truyê ền d n qu c t ẫ ố ế

Chúng ta định nghĩ ổng ố trang Wa t s eb l N S là à kích thước c a mủ ột trang Giả ử s là các trang này được thay đổ địi nh k v i ỳ ớ chu kỳ thay đổi là

Các trang được lưu trữ trong hệ thống cache sẽ được truy cập theo chu kỳ, với cường độ truy cập được phân bố theo quy luật Poisson Mỗi trang trong vùng cache có cường độ truy cập trung bình là P_i và λ_l,i Tổng cường độ truy cập của N trang trong vùng cache được biểu thị bằng βI.

Bài viết này đề cập đến việc xếp hạng các trang web dựa trên phân bố ipf, trong đó Z được sử dụng để xác định độ phổ biến của từng trang Theo đó, trang có lượng truy cập trung bình sẽ được mô tả bằng công thức λ β δ α.

I , = (2.2) α l y cáấ c gi trị trong khoảng (0.6 >0.9) vá - à δ được xác định b i : ở

Giả sử rằng số lượng truy cập trang được phân bố đồng nhất giữa tất cả các khu vực trong hệ thống cache, tổng số truy cập trang tại các khu vực này được ký hiệu là O2H Nếu phân bố truy cập trang tại mỗi hệ thống cache khu vực tuân theo phân bố Zipf, điều này không nhất thiết có nghĩa là phân bố truy cập trang tại hệ thống cache vùng hay quốc gia cũng tuân theo luật phân bố Zipf.

Việc phân bố các hệ thống cache trung gian sẽ ảnh hưởng đến hiệu suất của các hệ thống cache mức thấp hơn Chúng ta không thể bỏ qua mô hình nhóm thuê bao phức hợp trong phần tử này Nếu truy cập vào các hệ thống cache ở vùng khác nhau có những mẫu truy cập khác nhau, tỷ lệ hit của các hệ thống cache trung gian sẽ thấp hơn.

Hệ thống cache thường được thiết lập để giảm chi phí truyền tải dữ liệu giữa hai mạng khác nhau Trong một mạng quốc gia, chỉ có một hệ thống cache quốc gia Tuy nhiên, trong mạng vùng (regional network), mỗi vùng sẽ có một hệ thống cache riêng để phục vụ nhu cầu truy cập dữ liệu Ngoài ra, trong mạng khu vực (institutional network), mỗi khu vực cũng sẽ được trang bị một hệ thống cache cấp khu vực để tối ưu hóa hiệu suất truy cập.

Hệ thống cache khu vực được thiết lập ở độ cao 0 trong kiến trúc phân tầng Độ cao H của cấu trúc này tương ứng với cấp 1, trong khi độ cao H của các cấp cao hơn lần lượt tương ứng với cấp 2 và cấp 3 trong kiến trúc phân tầng quốc gia Cache được nối với các kênh truy nhập thông qua các kết nối mạng Chúng ta cần đảm bảo rằng dung lượng kênh truy nhập tại mỗi cấp bậc bằng dung lượng kênh trung kế của mạng tại cấp đó, tương ứng với C1, C2, CN và C cho từng cấp Tỷ lệ hit tại hệ thống cache của các cấp khu vực, vùng và quốc gia được biểu diễn bằng các giá trị: hitN, hit1, R.

Trong kiến trúc cache phân tán, cache chỉ được đặt tại các khu vực địa lý cụ thể (mạng lưới tổ chức) và không có bản sao trung gian của các trang web từ các mạng khu vực khác Để chia sẻ các bản sao giữa các hệ thống cache khu vực, hệ thống cache tại mạng trung gian sẽ ưu tiên lưu trữ dữ liệu meta-data, chứa thông tin về nội dung được ưu tiên trong các hệ thống cache khu vực Để tránh việc trùng lặp meta-data, vị trí của các nội dung sẽ được nhân bản tại các cache khu vực.

Trong phần này, chúng ta xây dựng mô hình độ trễ mong muốn để nhận một trang web trong một cấu trúc phân tán và phân tầng Tổng thời gian trễ T để nhận một trang web có thể được chia thành hai phần: thời gian kết nối Tc và thời gian truyền tải Tt Thời gian kết nối Tc là khoảng thời gian từ khi trang web nhận được yêu cầu từ người dùng đến khi byte dữ liệu đầu tiên được nhận Thời gian truyền tải Tt là thời gian cần thiết để truyền toàn bộ trang Như vậy, độ trễ trung bình được tính theo công thức cụ thể.

Thời gian kết nối phụ thuộc vào số đường kết nối và số đường dẫn đến hệ thống cache tương ứng Gọng i L là số đường kết nối để tối ưu hóa truy cập tới các trang tương ứng trong kiến trúc phân tầng Giả sử rằng hệ điều hành của cache ưu tiên cho việc thiết lập các kết nối TCP Giai đoạn lọc là độ trễ lan truyền qua mỗi “hop” Thời gian kết nối trong kiến trúc phân tầng được tính như sau:

Số lượng kết nối TCP trong hệ thống 4D là 3, điều này cho phép thiết lập kết nối hiệu quả trước khi dữ liệu được truyền tải Để tính toán khoảng cách và tối ưu hóa việc lưu trữ trong hệ thống cache khu vực, cần có một phương pháp kết nối ổn định trong suốt thời gian kết nối.

G i ọ L là cấp mật độ rạng như vậy của cấu trúc cây bậc cao nhất có chứa bản sao của trang web Thời gian kết nối trong kiểu ế ối đến cấu trúc phân tán được tính như sau:

Here is a rewritten paragraph that conveys the same meaning while complying with SEO rules:"Trong kiến trúc phân tầng, trình duyệt đầu tiên đi đến máy chủ L, sau đó nó đi xuống cache cấp khu vực để ấp cập lại bản sao của trang Web Như vậy, số đường kết nối là 2L Kiến trúc phân tầng L giúp giảm số lượng đường kết nối để đi đến chỗ có trang Web mong muốn."

Phân bố ủ L giống nhau ảnh hưởng đến việc phân tán và phân tầng Để tính xác suất P(L=1), chúng ta sử dụng công thức P(L=1) = P(L≥1) - P(L≥l+1) Trong đó, P(L≥1) là xác suất mà số đường kết nối đến chỗ kín có trang web mong muốn là lớn hơn hoặc bằng 1 Để tính P(L≥1), ta cần xác định τ, thời gian trong khoảng thời gian i.

[ ] 0 , ∆ t i có mạ đó ột truy nhập xu t hiệấ n Bi n s ng ế ố độ τ đượ ph n bố đồc â ng nhất trong toàn b ộ khoả ời gian này, như ậng th v y ta có:

Trong đó P ( L ≥ l | τ ) xálà c suất kh ng có truy nhậô p n tào ới trang i trong khoảng th ời gian [ ] 0 , τ , xác suất này được tính nh sau: ư

Kết hợ 2 phương trình tr n ta cp ê ó:

Thời gian truyền một trang phụ thuộc vào tốc độ mạng, với thời gian truyền có thể nhỏ khi truy cập qua mạng thấp, và lâu hơn khi sử dụng mạng cao Hệ thống cache được thiết kế để cải thiện thời gian phản hồi, cho phép hệ thống giữ lại trang đã nhận trong khi vẫn đang tải trang mới Điều này có nghĩa là khi hệ thống bắt đầu nhận một trang, nó sẽ lưu trữ trang này vào hệ thống cache để sử dụng ngay lập tức, giúp tối ưu hóa hiệu suất mà không cần chờ đợi quá lâu Hệ thống cache có thể được coi là có dung lượng vô hạn, tăng cường khả năng phục vụ người dùng.

Ta tính đượ thờ gian truyề trong kiế tr c ph n tầ g c i n n ú â n E [ ] T t h và trong kiến útr c ph n tánâ E [ ] T t d như sau:

ĐÁNH GÍA HIỆU NĂNG CỦA KIẾN TRÚC HỖN HỢP

Kiến trúc phân tán cache đang trở thành chủ đề quan tâm hiện nay Việc tăng dung lượng kết nối internet sẽ không có ý nghĩa nếu các trang truy cập trên hệ thống cache đồng bộ có dung lượng nhỏ Để tăng tỷ lệ truy cập, cần nâng cao dung lượng đĩa của cache Tuy nhiên, trong kiến trúc phân tán, khu vực chứa nhiều trang sẽ dẫn đến số lượng truy cập bên ngoài hệ thống cache đồng bộ tăng cao Do đó, việc tăng dung lượng đĩa không chỉ tiết kiệm băng thông mà còn giảm độ trễ, cải thiện trải nghiệm người dùng Hơn nữa, kiến trúc phân tán có thể sử dụng nhiều băng thông hơn ở các cấp mạng thấp Tuy nhiên, kiến trúc này cũng có thể được áp dụng trong các phạm vi nhỏ hơn, nơi các hệ thống cache kết nối với nhau qua mạng cache nội bộ và băng thông dư thừa, như mạng campus hoặc mạng metropolitan.

2.3 ĐÁNH G HI U NÍA Ệ ĂNG CỦA KI N TRÚẾ C HỖN H P Ợ

Here is a rewritten paragraph that conveys the same meaning while complying with SEO rules:"Thời gian kết nối trong kiến trúc hệ thống phụ thuộc vào số lượng cache cộng tác tại mỗi cấp phần mềm Số lượng cache cộng tác tại mỗi cấp phần mềm thay đổi đổ ừi từ 1 đến O(H) = 64, toàn bộ số lượng cache đồng bộ tại mỗi cấp phần mềm hợp nhất độ cache giống nhau Hình dưới đây cho thấy thời gian kết nối trung bình cho toàn bộ N trang web, phụ thuộc vào số cache cộng tác và số lượng truy cập."Let me know if you need any further assistance!

Khi số lượng cache cộng tác rất nhỏ, thời gian kết nối lại cao Khả năng tìm thấy một trang tại hệ thống cache đồng cấp là rất thấp, vì vậy cần phải cải thiện việc cache để phục vụ tốt hơn Khi số lượng cache cộng tác tăng lên, thời gian kết nối sẽ giảm xuống đến một giá trị tối thiểu Điều này xảy ra vì khả năng truy cập một trang tại hệ thống cache đồng cấp tăng lên Tuy nhiên, khi số lượng cache cộng tác vượt ngưỡng kc=4, thời gian kết nối lại tăng nhanh chóng do trang được yêu cầu thường xuyên Số lượng cache cộng tác tối ưu kc để tối thiểu hóa thời gian kết nối là kc = O H / 2.

Trong hình d i là ướ thời gian kết nố ủi c a 3 kiến trúc cache:

 Kiến trúc h n h p v i số ượỗ ợ ớ l ng cache cộng tá ố ưc t i u kc

Hình 2.11 : Thời gian kế ốt n i ph thu c v sụ ộ ào ố ượ l ng cache ng t c tạcô á i m i c p mỗ ấ ạng trong kiến trúc hỗn h p ợ

Kiến trúc hỗ trợ tối ưu hóa lượng cache trong kết nối thời gian thực là yếu tố quan trọng trong việc cải thiện hiệu suất của hệ thống phân tán Việc sử dụng cache hiệu quả giúp giảm thiểu độ trễ và tăng tốc độ truy xuất dữ liệu, từ đó nâng cao trải nghiệm người dùng Các giải pháp tối ưu hóa này cần được áp dụng đồng bộ trong từng tầng của kiến trúc để đảm bảo tính nhất quán và hiệu quả trong quá trình xử lý thông tin.

Here is a rewritten paragraph that complies with SEO rules:Trong phần này, chúng ta sẽ nghi nhận thời gian truyền trong kiến trúc hệ thống phân tán và tối ưu hóa số cache cộng tác để giảm thiểu thời gian truyền Hình dưới đây cho thấy thời gian truy xuất của tất cả N trang web phụ thuộc vào cache cộng tác tại mỗi nút Chúng ta xét hai trường hợp mạng quốc gia không nghẽn (ρ = 0.3) điểm nút cuối là các đường quốc tế và mạng cấp quốc gia nghẽn.

) 8 0 ( ρ = Hình 2.12 : Thời gian k t nế ối trong kiến trúc hỗn h p v i s ợ ớ ố cache cộng c tối tá ưu kc

Khi mạng quốc gia bị nghẽn, thời gian truyền phụ thuộc vào lượng cache cộng tác tại mỗi điểm Nếu lượng cache này quá nhỏ, khả năng truy cập vào trang web sẽ giảm Ngược lại, khi số lượng cache cộng tác tăng lên, hệ thống cache đồng cấp có thể cải thiện thời gian truyền Khi số cache cộng tác vượt qua ngưỡng tối ưu, thời gian truy cập vào các trang web sẽ được cải thiện thông qua các cache không cách mạng lưới bị nghẽn Số lượng cache cộng tác cần được tối ưu hóa để giảm thiểu thời gian truyền mà không làm nghẽn các kết nối mạng Hình 2.13 cho thấy thời gian truyền trung bình phụ thuộc vào số lượng cache cộng tác trong các mô hình khác nhau.

Hình ướ d i là thờ gian truyềi n trong 3 tr ng h p: ườ ợ

 Kiến trúc h n h p v i sốỗ ợ ớ cache c ng tác t i u kt ộ ố ư

 Kiến útr c ph n tâ án

Kiến trúc hỗn hợp với sử dụng cache tối ưu có thể cải thiện thời gian truyền tải, giảm lưu lượng xung quanh mạng cao Việc áp dụng các kỹ thuật tối ưu hóa cache giúp tăng cường hiệu suất truyền dữ liệu và nâng cao trải nghiệm người dùng.

Việc tối ưu hóa số cache có thể cải thiện hiệu suất hệ thống, giúp thời gian kết nối nhanh hơn so với kiến trúc phân tầng Điều này đặc biệt quan trọng trong các ứng dụng yêu cầu truyền tải dữ liệu nhanh chóng và hiệu quả Tối ưu hóa cache không chỉ giảm thiểu độ trễ mà còn nâng cao khả năng xử lý của hệ thống trong môi trường mạng phức tạp.

Căn cứ vào các trang web, có một số ưu điểm của cache trong việc tối ưu hóa thời gian tải trang Trong trường hợp các trang có kích thước nhỏ, cache có thể giúp tối ưu hóa gần như ngay lập tức giá trị kết nối, vì nó giảm thiểu thời gian kết nối Đối với các trang kích thước lớn, cache cũng đóng vai trò quan trọng trong việc tối ưu hóa gần giá trị kết nối, bởi vì nó cải thiện thời gian truyền tải dữ liệu.

V i mớ ột k ch thướí c bất kỳ th ố ượng cache cộng c tố ưu để ố thiể ho ì s l tá i t i u á thời gian trễ có á gi trị k opt : kc ≤ k opt ≤ kt (2.20)

Hình ướ cho thấy rằng độ dày k opt phụ thuộc vào kích thước trang, với giá trị k opt thay đổi trong khoảng kc=4 và kt Đối với các trang có kích thước nhỏ hơn hoặc bằng 8 KB, k opt sẽ bằng kc và đạt giá trị 4.

Hình ướ d i là độ trễ cho c c trang kích thướ ớá c l n (S 0KB) v giá à trị t i ố ưu k opt = kt = 16

Hình 2.14 : S lố ượng cache kết hợp t i ố ưu k opt phụ thuộc kích thước trang S , ρ = 0 8

Hình 2.15: Tổng độ ễ tr trong ki n úế tr c h n h p v i ỗ ợ ớ k opt = kt = 16 ,

Như ậ kiến tr c hỗ v y ú n h p v i s ợ ớ ố cache cộng c tố ưu c ổng thờ tá i ó t i gian trễ nh hơỏ n ki n úế tr c ph n t ng và kiâ ầ ến útr c ph n tá â n.

KẾT LUẬN

Chúng ta đã thực hiện đánh giá hiệu năng của hai kiến trúc cache: kiến trúc phân tầng và kiến trúc phân tán Phân tích cho thấy hệ thống cache tại mỗi cấp được kết nối với nhau nhằm tối ưu hóa đáp ứng Hệ thống cache phân tầng có thời gian kết nối ngắn hơn nhờ vào việc đặt các cache gần nhau trong mạng trung gian, trong khi kiến trúc phân tán sử dụng băng thông hiệu quả ở các cấp mạng cao hơn Tuy nhiên, trong kiến trúc phân tầng, các hệ thống cache ở mức cao có thể trở thành nút nghẽn cổ chai Ngược lại, kiến trúc phân tán có thời gian truyền file ngắn hơn do phân tán tải lượng ra khắp các đường kết nối mạng Mặc dù kiến trúc phân tán đạt hiệu năng tốt hơn với các mạng được kết nối tốt, việc triển khai kiến trúc này trên diện rộng vẫn gặp nhiều vấn đề như thời gian kết nối cao, sử dụng tài nguyên băng thông không hiệu quả và các vấn đề quản trị hệ thống.

Kiến trúc cache hỗ trợ việc kết hợp các kiến trúc phân tầng và kiến trúc phân tán, giúp giảm thời gian kết nối và thời gian truyền file Chúng ta có thể cấu hình và điều chỉnh mức độ hoạt động của các cache tại cùng một cấp độ để tối ưu hóa độ trễ, đồng thời cải thiện hiệu suất sử dụng băng thông dựa trên độ nghẽn hiện tại của mạng, tải trọng của hệ thống máy chủ, hệ thống cache cấp trên, và kích thước của trang web.

CÁC GIAO THỨC CHO WEB CACHING 3.1 ĐẶT VẤN ĐỀ

GIAO THỨC ICPv2

Giao thức ICPv2 là một đ nh dạng tin nhắn sử ụng cho việc truyền ị d thông giữa các Web Caching M c dù các bặ ộ đệ m Web sử ụ d ng giao thức

HTTP là giao thức dùng để chuyển dữ liệu, giúp việc giao tiếp trở nên đơn giản và hiệu quả Giao thức ICPv2 được sử dụng trong mạng lưới bộ đệm để xác định các thực thể Web cụ thể Một bộ đệm gửi yêu cầu (ICPv2 Query) tới các láng giềng của nó, và các láng giềng này sẽ phản hồi bằng cầu trả lời (ICPv2 Reply) để xác nhận tính chính xác của dữ liệu.

Phân cấp lưu đệm như đã trình bày trên ta thở ấ ằy r ng:

Trong bộ đệm phân cấp, các mối quan hệ ngang hàng giữa các bộ đệm láng giềng được hình thành Hai loại mối quan hệ chính là cha con và anh em Hình vẽ minh họa cho một bộ đệm phân cấp đơn giản giúp chúng ta dễ dàng hiểu hơn về cấu trúc này.

Parent Cache Lấy về trực tiếp

Giao thức ICPv2 hiện nay được triển khai trên giao thức UDP, không bị giới hạn bởi UDP Giao thức này mang lại những đặc tính quan trọng cho người dùng lưu trữ web, cho phép trao đổi thông tin nhanh chóng chỉ trong một hoặc hai giây Điều này rất cần thiết vì một bộ đệ không thể chờ đợi lâu trước khi bắt đầu thu hồi thông tin Nếu có lỗi trong việc nhận tin nhắn phản hồi, điều này có thể do mạng bị tắc nghẽn hoặc gặp sự cố Trong một số trường hợp, người dùng sẽ không có lựa chọn về hàng xóm mà họ kết nối Giao thức ICPv2 hoạt động hiệu quả hơn qua UDP so với TCP, nhờ vào tính đơn giản của nó.

ICP có thể được sử dụng để lựa chọn bộ đệm, và lỗi khi nhận trả lời từ bộ đệm có thể xác định là lỗi của mạng hoặc cấu trúc hệ thống Cầu trả lời ICPv2 bao gồm thông tin hỗ trợ việc lưu trữ từ nguồn thích hợp, giúp thu hồi dữ liệu từ những nơi thực tế.

Giao thức ICPv2 được khởi xướng và phát triển bởi Peter Danzig và các cộng sự tại trường đại học Southern California, đóng vai trò quan trọng trong việc cải tiến công nghệ phân cấp caching trong dự án nghiên cứu Harvest.

2.3.2 Định dạng tin nhắn ICPv2 Định dạng tin nhắn giao thức ICPv2 bao gồm 20 octet cố đị nh ph n ầ tiêu đề (header) thêm một ph n t i tin (payload) có thể biầ ả ến đ ổi.

Ghi chú: Tất cả các trường phải đư c biểu diễn trong trật tự byte ợ mạng n

Các trường của đ nh dạng tin nhắị

Một trong các Opcote được đ nh nghĩa ị ở phần dưới đây:

Số phiên bản của giao thức ICPv2 đã được cập nhật, và tài liệu này sẽ tập trung vào phiên bản thứ 2 Cả hai phiên bản 2 và 3 đã được sử dụng để phát triển nội dung Trường số phiên bản cho phép sự phát triển trong tương lai của giao thức này.

Chi u d tề ài ổng ( tính theo octets) củ tin nhắ ICPv2 Tin nhắn ICPv2 a n kh ng ô được v t quá 16,384 octets ượ chiều d ài

Một nhận dạng mờ khi đáp ng m t c hứ ộ âu ỏi, gi tr n á ị ày ph i được sao ả chép vào ti nhắ trả ời n n l

C l a ờ ự chọn của m t ộ trường 32 bit cho ph p mở ộé r ng phi n b n n ê ả ày c a ủ giao thứ trong thực tc ế, cách giớ ạ xem trong “ ICPv2 i h n option Flags” d i ướ đây

M t ộ trường 4 octet để ỗ h trợ các c tđặ ính a ch n lự ọ Tính năng của giao thức ICP dv2 ưới đây đảm b o ả cho trường ày n :

L a ự chọ ICP_FLAG_SRC_RTT sử ụng 16 bit thấp củ Option Datan d a để đ o ph n hồả i RTT L a ch n ICP_FLAG_SRC_RTT đư c mô t k h n ự ọ ợ ả ĩ ơ dư đâới y

Version Message Length Request Number

Options Option Date Sender Host Address

Địa chỉ IPv4 của các máy chủ trong giao thức ICPv2 là một trường quan trọng, cho phép xác định nguồn gốc của tin nhắn Trường này được sử dụng trong các hàm như name(), accept(), và recvfrom() Việc thiết lập đúng địa chỉ này là cần thiết để đảm bảo tính chính xác và an toàn trong quá trình truyền tải dữ liệu.

Bao gồm tr ng Payload biển i ườ đổ phụ thuộc v mã Oào pcode, nhưng h u ầ như nó bao gồm một chu i URL u cu i r ng ỗ đầ ố ỗ (null erminated URL -t string)

Bảng ướ đây chỉ ra m nhậ d i ã n dạng hiện n c a t ày ủ ín nhắ ICP :n

Trong đó ta đi nghiên cứ ừu t ng ngh ý ĩa nh ưsau:

Here is the rewritten paragraph:"Khi gặp lỗi không thể hình thành tin nhắn, một số trường hợp có thể xảy ra lỗi ICP_OP_INVALID Ngoài ra, lỗi ICP_OP_ERR cũng được sử dụng trong các mục đích khác nhau Cả hai lỗi này đều có thể ngăn cản quá trình gửi tin nhắn được thực hiện thành công."

Mã tin hỏ được xác định là cách thức an toàn hơn so với các mã khác Đầu tiên, nó yêu cầu địa chỉ IPv4 của người dùng, tiếp theo là việc mở một URL Địa chỉ máy chủ ra câu hỏi (Request HTTP Address) không phải là thông tin chung của băm, mà ít nhất cũng chỉ ra nguồn gốc của câu hỏi Địa chỉ này thường là trường rỗng Một tin nhắn ICP vv2 với mã RHA rỗng (tức là địa chỉ IPv4 không xác định) thường được sử dụng khi địa chỉ máy chủ không rõ ràng, dẫn đến việc không xác định được giá trị của địa chỉ IPv4.

Để đáp ứng yêu cầu của mệnh lệnh ICP_OP_QUERY, người nhận cần xác nhận một trong các giá trị sau trong các tín nhắn: ICP_OP_HIT, ICP_OP_ERR, ICP_OP_MISS_NOFETCH, ICP_OP_DENIED hoặc ICP_OP_OBJ.

Giống như ICP_OP_QUERY, ICP_OP_SECHO được sử dụng để mô phỏng câu hỏi cho mọi t máy chủ Khi giao thức ICP được áp dụng, nó ưu tiên láng giềng gần nhất, cho phép máy chủ có thể bao gồm trong một thuật toán bội để truyền tải thông tin hiệu quả Phản hồi từ ICP_OP_SECHO đơn giản là một URL cuối cùng.

Ghi chú: Mục đích chính của bài viết này là phân tích sự khác biệt giữa câu hỏi hợp logic và câu trả lời lôgic, cũng như sự tương tác giữa người hỏi và người trả lời Việc hiểu rõ các khái niệm này giúp làm rõ cách thức giao tiếp hiệu quả trong các cuộc thảo luận và phỏng vấn.

Giống như ICP_OP_QUERY, ICPv2 được sử dụng trong mô phỏng một bộ câu hỏi cho một đệ Giao thức ICPv2 cho phép chọn lựa các thông tin liên quan đến đệ mà không bị ràng buộc bởi các giao thức khác Khi sử dụng giao thức này, có thể bao gồm thuật toán thông qua việc chuyển tiếp một tin nhắn ICP_OP_DECHO tới các công cụ liên quan Phần tóm tắt tin nhắn này chỉ đơn giản là một URL đầu vào rỗng.

B ả ng 3.2:ICP_OP_QUERY payload format

THUẬT TOÁN CỦA WEB CACHING 4.1 TỔNG QUÁT VỀ CÁC THUẬT TOÁN CACHING

MỘT SỐ THUẬT TOÁN CỦA WEB CACHING

4.3.1 Thuật to Lán east Re ently Used LRUc

Thuật toán LRU (Least Recently Used) dựa trên việc theo dõi các trang vừa được truy cập Nó giả định rằng một trang sẽ được truy cập lại trong tương lai gần nếu nó đã được truy cập trong một khoảng thời gian nhất định Để thay thế nội dung trong bộ nhớ cache, LRU sẽ xóa bỏ các trang không được truy cập trong khoảng thời gian dài nhất.

Ch c nứ ăng củ LRU đượ minh hoạ trong hình a c đây: d

LRU (Least Recently Used) là một thuật toán quản lý bộ nhớ cache, trong đó khi một trang được yêu cầu nhưng không có trong cache (cache miss), hệ thống sẽ lấy nội dung của trang đó và đưa vào cache, đồng thời cung cấp nội dung cho người dùng Nội dung của trang mới sẽ được đặt ở vị trí đầu trong cache, trong khi các trang khác sẽ được điều chỉnh vị trí, với trang được truy cập gần đây nhất (MRU - Most Recently Used) nằm ở đầu và trang ít được truy cập nhất (LRU - Least Recently Used) ở cuối.

Khi trang được yêu cầu nằm trong cache (trường hợp cache hit), cache sẽ lưu trữ nội dung này để chuyển cho người dùng Đồng thời, nội dung này sẽ được đặt lại vào đầu danh sách theo thuật toán MRU (Most Recently Used).

Hình 4.1: L c ượ đồ thay thế ộ n i dung cache c a thu t ủ ậ toán LRU

Khi thay thể một nội dung trong cache, LRU sẽ loại b trang có n i ỏ ộ dung nằ ở ịm v trí cuố ùng trong ng n xi c ă ếp t i v í ạ ị tr LRU. à c s d r r t i vì

Thuật toán LRU (Least Recently Used) là một trong những thuật toán cache phổ biến nhất, bởi vì nó xem xét các trang có chi phí và kích thước khác nhau Mục đích chính của LRU là tối ưu hóa tỷ lệ hit trong bộ nhớ cache Một trong những ưu điểm nổi bật của LRU là khả năng khai thác được đặc điểm truy cập cục bộ của dữ liệu.

Nhược điểm: LRU là b ỏ qua sự thay đổ ề chi phi v í và kích thước c a ủ trang, cũng nhưLRU kh ng tínhô đế ần t n su t của cáấ c truy nhập

4.3.2.Thuật to Seán gmented Least Recently Used (SLRU: Thu t toán ậ thay thể ộ n i dung cache dựa trên tính tương quan theo thời gian của truy nh p)ậ u c t k á i ô ê

SLRU là một phương pháp cải tiến của LRU, được thiết kế để tối ưu hóa việc lưu trữ nội dung thông tin trên đĩa cứng Phương pháp này chia bộ nhớ cache thành hai phần: một phần được bảo vệ (protected segment) và một phần không được bảo vệ (unprotected segment) Cả hai phần đều hoạt động theo cơ chế tương tự như LRU, nhưng SLRU cải thiện khả năng quản lý bộ nhớ bằng cách đảm bảo rằng các trang quan trọng hơn được giữ lại lâu hơn trong bộ nhớ cache Khi một trang không được truy cập trong một khoảng thời gian nhất định, nó sẽ bị loại bỏ khỏi phần không được bảo vệ, trong khi các trang trong phần được bảo vệ vẫn được giữ lại Điều này giúp tối ưu hóa hiệu suất truy cập và sử dụng dung lượng cache hiệu quả hơn.

Here is the rewritten paragraph:Khi một trang được yêu cầu nhiều lần trong cache (cache miss), cache sẽ lưu lại nội dung này để ưu tiên truy xuất và đồng thời chuyển nó cho người sử dụng; đồng thời nội dung trang này sẽ được đặt lại vào đầu ngăn xếp và đẩy lên phía trên để ưu tiên truy xuất Nếu trang này không được truy nhập thêm một lần nữa, nó sẽ bị loại bỏ khỏi ngăn xếp khi nội dung của nó tiếp đến vị trí cuối cùng của LRU.

Khi một trang được yêu cầu từ cache (cache hit), cache sẽ ngay lập tức cung cấp nội dung cho người sử dụng, đồng thời nội dung này sẽ được đặt lên đầu ngăn xếp của phần không được bôi đen Sau đó, nội dung này sẽ được di chuyển về phía cuối ngăn xếp LRU Khi một nội dung bị chuyển từ vị trí cuối cùng của LRU, nó sẽ được đặt vào vị trí MRU đầu tiên của phần không được bôi đen và sẽ được xử lý như trường hợp khi trang được yêu cầu không nằm trong cache Chức năng của MRU được minh họa trong hình vẽ.

SLRU l thuậ toán cache đã đượ tham số ho , n ử ụng tham số

Fp để đặ ả c t ph n tr m bộầ ă nh cache đư c s d ng ớ ợ ử ụ cho ph n đ ạ đượâ o n c b o ả vệ Qua thự nghiệ ngườ ta r t ra được m i ú c giá tr t t nh t cho tham s n là ị ố ấ ố ày Fp=0.6

Hình 4.2: L c ượ đồ thay thể ộ n i dung cache c a thu t ủ ậ toán SLRU

4.3.3.Thuật to Lán east Frequently Used ith Dynamic Aging (LFU-W DA: Thuật toán thay thể cache d a trên tần suất truy nhập) ự

Thuật toán LFU-DA (Least Frequently Used with Dynamic Aging) là một phương pháp quản lý bộ nhớ cache dựa trên tần suất truy cập dữ liệu Trong thuật toán này, quyết định loại bỏ nội dung của một trang dựa vào số lần truy cập của nó Các trang trong cache được lưu trữ cùng với số lần truy cập, và trang có số lần truy cập thấp nhất sẽ bị loại bỏ trước LFU-DA cải tiến thuật toán LFU bằng cách sử dụng phương pháp "tuổi động" để điều chỉnh độ ưu tiên của các trang trong cache Tuổi cache được xác định dựa trên số lần truy cập của trang vừa bị loại bỏ, giúp cải thiện hiệu suất lưu trữ Kết quả thực nghiệm cho thấy tỷ lệ byte hit của thuật toán LFU-DA cao, cho thấy khả năng giữ lại nội dung quan trọng trong cache hiệu quả hơn.

Initialize Set L ←  0 for each request to a document p do if resides in cache

When the cache lacks sufficient free space, fetch the document denoted as 'p' Set the variable 'L' to the minimum value of 'A q' for all documents 'q' currently in the cache Identify and evict the document with the smallest 'A q' value Update 'A p' by adding 'L' to the value of 'V(p)' Finally, return the results.

Mỗi trang đư c cache trong hệ thốợ ng đư c gắn một giá trị tuổi ợ cache A p

 L đượ địc nh ngh a là tu i c a ĩ ổ ủ cache, gi tr V(p) c a mỗi trang được á ị ủ đặ ằt b ng số ầ l n truy nhập c a nó ủ

 Giá trị A p c a m i ủ ỗ trang được c p ậ nhật A p = L + V ( p )khi trang được truy nhập M i ỗ khi c vió ệc ạ ỏ ộlo i b m t trang, L sẽ đư c g ợ án giá l i ạ gi trá ị A p c a ủ trang đó

Thuật toán Greedy Dual, được đề xuất bởi Young (You94), được xem như một phương pháp tối ưu hóa cho thuật toán LRU trong Web Caching Thuật toán này hoạt động bằng cách duy trì một giá trị đánh giá H(p) cho tất cả dữ liệu được ưu tiên lưu trữ Khi một dữ liệu được yêu cầu, giá trị của nó được cập nhật bằng giá trị lưu trữ hiện tại c(p) Khi cần chuyển một dữ liệu ra khỏi bộ nhớ, dữ liệu có giá trị H thấp nhất sẽ được chọn Dữ liệu này sẽ được loại bỏ và giá trị H của tất cả các tài liệu còn lại trong bộ nhớ sẽ được điều chỉnh tương ứng.

Thuật toán Greedy Dual rất hữu ích trong nhiều trường hợp Nó được sử dụng để loại bỏ những dữ liệu tương tự như thuật toán LRU Các dữ liệu đã được truy cập gần đây thường có giá trị giảm xuống, do đó, việc loại bỏ chúng giúp tăng thời gian truy cập cho những dữ liệu quan trọng hơn Trái lại, những dữ liệu được xem xét dựa trên thời gian truy cập cuối cùng, nhưng với thuật toán Greedy Dual, việc loại bỏ cuối cùng phụ thuộc vào giá trị của dữ liệu và các giá trị của những tập dữ liệu đã được loại bỏ trước đó.

Thuật toán Greedy Dual được sử dụng để giảm thiểu tổng giá trị do các dữ liệu lưu trữ gây ra Việc tối ưu hóa Web Caching có thể được thực hiện bằng cách xác định các yếu tố ảnh hưởng đến giá trị lưu trữ Ví dụ, có thể thiết lập mối quan hệ giữa thời gian và các dữ liệu lưu trữ Theo cách tiếp cận này, mọi khía cạnh liên quan đến dữ liệu lưu trữ đều có thể được tối ưu hóa để giảm thiểu một cách hiệu quả.

4.3.5 Thuật toán GreedyDual Size (GDS: Thuật toán thay thể ộ- n i dung cache có kích thước và chí phi c a trang) ủ t c à Ir t n

Thuật toán GDS, được phát triển bởi Cao Văn Ni, tính đến sự thay đổi của chi phí và kích thước của trang Việc loại bỏ trang khỏi hệ thống dựa trên tỷ lệ giữa kích thước và chi phí trang Tương tự như thuật toán LFU DA, GDS gán một giá trị H(p) cho mỗi trang p trong cache Khi một trang mới được lưu vào cache hoặc khi một trang đã có trong cache được truy cập, giá trị H(p) sẽ được cập nhật.

Trong đó s ( p )là kích thước c a ủ trang

( p c là hàm hi ph thể hiệ chi ph để ưu một trang c í n í l p vào trong cache

Giá trị H(p) của trang p được xác định là Hmin, là giá trị nhỏ nhất trong tất cả các trang trong cache Khi có yêu cầu thay thế trang, trang có giá trị Hmin sẽ bị loại bỏ khỏi cache Giá trị Hmin được tính dựa trên các thuộc tính của trang cần loại bỏ Tuy nhiên, thuật toán GDS, giống như LRU, không tính đến tần suất truy cập của trang Thuật toán GDS được mô tả như sau.

4.3.5.1 Thuật toán GreedDual Size s- ửa đổi

Thuật toán GreedyDual-Size đã được điều chỉnh bởi Cao và Irany nhằm cải thiện hiệu suất của thuật toán GreedyDual trong việc xử lý các vấn đề liên quan đến Web Caching Họ đã định hình lại các phương pháp đánh giá và tối ưu hóa để giải quyết vấn đề chung của các thuật toán này, đặc biệt là khi phải xử lý dữ liệu lớn trong quá trình diễn ra việc lọc Yêu cầu chính của nghiên cứu là phát triển một phương pháp lọc hiệu quả khi giới hạn về mặt khái niệm và giá trị của các tài nguyên được lưu trữ.

Ban uđầ , L có á bgi trị ằng 0 Bấ ứ khi nào ột dữ liệ đượ ưu trữ t c m u c l hoặc truy cập, gi tr c a nó á ị ủ

Khi xả ra loạy i bỏ, những ữ liệ d u c l i òn ạ kh ng đượ đánh giô c á l i ạ nhưng trị ố s L s ẽ đượ đặ ương đương vớ gi trịc t t i á H c a d u b ủ ữ liệ ị loạ ỏ i b

M c dù tặ ổng chi phí cho việc s d nử ụ g máy điệ toán giản m xu ng đáng k ố ể nhưng thuậ toán ửa đổ ẫt s i v n hoạ đột ng chính xác nh bi n thứư ế c g c ố

For each request for document p do

If p is in cache Then H ( p ) ←  L + c ( p ) / s ( p )

Else fetch p While there is not enough free cache for p

Do L ←  min{ H(q) | q is in cache } Evict the minimum q

Hình 4 :.4 o n mã Đ ạ giả ậ cho thuật l p toán GD

4.3.5.2 Chứng minh tính tối ưu trực tuy n c a thu t toán ế ủ ậ

KẾT LUẬN

Hiện nay, phần lớn sản phẩm caching trên thị trường sử dụng thuật toán LRU, bên cạnh đó còn có một số giải pháp triển khai các thuật toán như LFU, DA, GDS, GD* trên phần mềm Squid Chúng ta không chỉ quan tâm đến lưu lượng web hiện tại mà còn cần chú ý đến các đặc tính ưu việt của lượng truy cập Việc bảo đảm các đặc tính ưu việt của lượng truy cập là cần thiết do sự gia tăng nhanh chóng của nội dung âm thanh số (MP3) và video (MPEG) trong lưu lượng truy cập web Để đánh giá hiệu năng của các thuật toán thay thế nội dung cache, chúng ta đã thống kê tỷ lệ hit và tỷ lệ byte hit của mỗi thuật toán cho từng loại trang HTML, hình ảnh và đa phương tiện.

Kết quả phân tích cho thấy tỷ lệ hit của trang giáo dục có tỉ lệ cao nhất Khi xem xét tỷ lệ hit và byte hit, có thể nhận thấy rằng tỷ lệ hit bị ảnh hưởng chủ yếu bởi tỷ lệ byte hit của trang ảnh Đồng thời, tỷ lệ byte hit cũng ảnh hưởng đến tỷ lệ trang multimedia.

Hiện nay, lượng truy nhập web chủ yếu đến từ trang ảnh, chiếm 70%, trong khi trang multimedia chỉ chiếm 2% Điều này cho thấy rằng việc tối ưu hóa nội dung ảnh là rất quan trọng để cải thiện hiệu suất và tỷ lệ hit so với các thuật toán khác Đặc biệt, việc sử dụng cache proxy có thể giúp tăng tốc độ tải trang và cải thiện trải nghiệm người dùng.

Giải pháp sử dụng phần mềm Squid với thuật toán GD* là lựa chọn tối ưu cho việc quản lý lưu lượng web hiện tại, bao gồm đánh giá tổng thể về tỷ lệ byte hit và tỷ lệ hit.

Việc dự báo lượng truy cập trên các trang multimedia đang trở nên quan trọng, với tỷ lệ truy cập của một số loại trang này ngày càng tăng Thời gian giữa hai lần truy cập thành công vào cùng một trang web cũng được rút ngắn Với việc cải thiện chất lượng dự báo, GDS đã đạt được hiệu suất tương đương với GD* khi xét đến tỷ lệ hit Tuy nhiên, sự khác biệt giữa LRU và LFU DA trong việc xử lý tỷ lệ hit có thể trở nên đáng kể, đặc biệt khi so sánh với các mô hình khác Đánh giá tổng thể cho thấy tỷ lệ hit và byte hit của GDS đang có xu hướng ổn định, và Squid sẽ là lựa chọn tiềm năng cho tương lai.

GIẢI PHÁP WEB CACHING CỦA MỘT ISP Ở CĂMPUCHIA 5.1 CISCO CACHE ENGINE

Tìm hiểu phần cứng Cache Engine

Để ắ liề g n n một Cache Engine v i mạớ ng, m ng ph i có nh ng i u ạ ả ữ đ ề kiện sau:

 Định tuyế ạn t i à nh ( home) cho Cache Engine phải là ph n m m Cisco ầ ề IOS v i h ớ ỗ trợ WCCP Ví dụ, Cache Engine làm việc v i ớ những nhả (releases) v đị h tuyếà n n:

- Cisco IOS release 11.1(20)CA, và những nh tuy đị ến series 7500 và

- Cisco IOS release 11.2(15)P, và những router eries: 2500,36xx, s

4500, RSP7000, 7200, 7500 và định tuyế ướn l i cho Catalyst 5000

To connect physically, use an RJ-45 connector for either 10 Mbps Ethernet or 100 Mbps Fast Ethernet The Cache Engine automatically detects faults in a 100Mb full-duplex environment If you have a 100Mb full-duplex connection, it is necessary to manually configure the settings using the EthernetConfig console command.

Chúng ta có thể sử dụng EthernetConfig để kiểm tra và điều chỉnh kết nối Ethernet, đảm bảo hoạt động hiệu quả Kết nối Cache Engine với Hub, switch hoặc router là rất quan trọng Hãy sử dụng các lệnh thích hợp và sau đó ping hệ thống để xác nhận tình trạng kết nối.

Để thiết lập cấu hình ban đầu cho máy, cần thêm nữ phả vào một bộ giao tiếp người-máy tại Cache Engine Thiết bị đầu vào có thể là một bộ điều khiển VT100 thông thường hoặc một máy tính để bàn/laptop, có khả năng điều chỉnh theo số ổ cứng của máy Sau khi hoàn thành cấu hình cơ bản, quản lý Cache sẽ được thực hiện hiệu quả hơn.

Engine sử ụ d ng m t ộ trình duyệt m ngt tạ ạ ấi b t kỳ máy nào Mộ định tuyết n đơn có thể ỗ h ợ ộtr m t cache farm lên tớ 32 Cache Engine.i

Ví dụ cấu hình của ISP

Mạng ISP có hai mục tiêu chính là tăng lưu lượng Web và giảm chi phí WAN Việc tối ưu hóa mạng có ảnh hưởng lớn đến việc triển khai cache farm tại các điểm kết nối WAN giữa các vùng khác nhau.

Trong hình ảnh này, có thể đặt một cache farm tại các điểm A, B, C Khi kết nối lên mạng quy mô từ các POP đến các cơ quan lớn hơn, quy mô của các cache farm sẽ được tăng cường Ví dụ, có thể đặt một Cache Engine đơn tại POP (địa điểm A), nhưng sẽ có nhiều Cache Engine tại các địa điểm B và C để tối ưu hóa hiệu suất của cache farm.

Hình 5 1:Miể ả chung những Cache Farm trong mộn t t m ng ISPạ y n b

Hình 5.2 minh họa chi tiết cấu trúc của một mạng ISP, bao gồm các điểm POP và kết nối mạng trong khu vực rộng lớn hơn Cache farm được kết nối với các POP thông qua mạng riêng biệt, sử dụng thiết bị AS5300 Cần đảm bảo rằng WCCP được kích hoạt trên router POP và giới hạn lưu lượng Web trên giao diện kết nối từ POP tới cơ quan chính.

Here is the rewritten paragraph:"Cũng như thế, các Cache farm được tạo ra trong cơ quan chính để lưu trữ router và nhận luồng dữ liệu từ các điểm POP WCCP cho phép router này và các máy chủ khác trong mạng lưới cơ quan chính (ví dụ A, B, C) thực hiện lưu trữ web trên giao diện được kết nối internet Do lưu lượng truy cập internet rất lớn, nó trở thành một vấn đề không thể bỏ qua việc có một cache farm tại router Tuy nhiên, các cache farm này lại mang lại lợi ích để tăng tốc mạng lưới."

MẠNG INTERNET TẠI CĂMPUCHIA

5.2.1 Kh o sáả t hiện trạng mạng viễn thống Cămpuchia

Mạng Internet tại Campuchia đã trải qua sự phát triển đáng kể trong những năm gần đây, với việc áp dụng công nghệ mới như ADSL để cải thiện tốc độ truy cập Sự tiến bộ này không chỉ nâng cao chất lượng dịch vụ mà còn đáp ứng nhu cầu ngày càng cao của người dùng trong kỷ nguyên số.

 Thuê bao Internet là 13.000 ( bao gồm: Dial-up, Leased Internet, Wireless Broadband Internet, Sattlellite Broadband Int net (băng rộer ng v ệ tính và ADSL)

 DNS bao gồm thu bao:ê

 Ngườ ử ụi s d ng Internet : Internet subscribers * 2.5) 32,500 (

 Giá truy nhậ Internet trong mộp t ti ng c a ế ủ Internet café i Phnom tạ Penh là US$0.40- US$1.00

5.2.1.1 Cơ sở ạ h ng tầng Internet ở Cămpuchia:

Truy cập quay số (Dial up access) là phương thức kết nối internet qua đường dây điện thoại PSTN, cho phép người dùng sử dụng máy tính để truy cập mạng khi không có dịch vụ internet hoạt động Phương thức này thường được cung cấp bởi các nhà cung cấp dịch vụ ISP và có tốc độ kết nối tương đối chậm.

ADSL (Asymmetric Digital Subscriber Line) utilizes existing telephone lines to provide internet access through a Digital Subscriber Line Access Multiplexer (DSLAM), enabling users to connect to the internet while still using their phone line for voice calls This technology allows for a stable and efficient internet connection, making it a popular choice for many households.

Leased Line (đường truyền thuê bao) là dịch vụ kết nối Internet liên tục 24/24h thông qua đường dây điện thoại, nhưng không sử dụng mạng công cộng PSTN Dịch vụ này cho phép người dùng kết nối trực tiếp với nhà cung cấp viễn thông, đảm bảo tốc độ và độ ổn định cao cho việc truyền tải dữ liệu.

Hình 3 Cơ sở ạ ầ 5 : h t ng m ng Internet ở Cămpuchia hiện nay ạ

5.2.1.2 Các nhà cung cấp dịch v Internet tụ ại Cămpuchia

Hiện này ở ă C mpuchia có 4 nh cung cấà p dịch ụ Internet chính đó v là

Casacom P, Cogetel P, Camshin P, Camintel IS IS IS ISP cả 4 nh cung cà ấp n i u ày đ ề ở Phnom Penh

Nhà cung cấp dịch vụ Internet Cacom (Cambodia Samart Communications Company) hoạt động dưới sự quản lý của Samart Group từ Thái Lan, Công ty Telkom Malaysia và chính phủ Campuchia nắm giữ 30% cổ phần Cacom đã triển khai công nghệ NMT 900 từ năm 1992 và GSM từ năm 1999, sử dụng thiết bị của Ericsson với tổng vốn đầu tư lên tới 7.5 triệu USD.

Nhà cung cấp dịch vụ Amshin (Cambodia Shinawatra) đã bắt đầu kinh doanh với chính phủ và thành lập dịch vụ WLL Vào năm 1997, Camsin đã trở thành một công ty độc lập thuộc tập đoàn Shinawatra Group của Thái Lan, cung cấp dịch vụ GSM với thời hạn hoạt động đến năm 2032 và tần số 1800MHz Đến tháng 12 năm 2000, Camshin đã có 6.778 thuê bao WLL và 15.552 thuê bao GSM, cung cấp dịch vụ ISDN.

Camintel, or Cambodia Indat Telecommunications, is a telecommunications service provider established in 1995 as a joint venture between Indonesia's PT Indosat, which holds a 49% stake, and the Cambodian government The company was formed under the auspices of the United Nations Transitional Authority in Cambodia (UTAC) and has been instrumental in developing telecommunications infrastructure in the region.

Indosat has established a significant presence in Cambodia through Camintel, which operates a robust telecommunications network The company provides essential services, including phone cards and Internet ISP access, catering to users across various provinces.

Công ty Coge el là nhà cung cấp dịch vụ ISP hàng đầu tại Campuchia, đã mua cổ phần từ Telstra Bigpond vào tháng 8 năm 2002 Bigpond đã bắt đầu hoạt động tại Campuchia từ năm 1997, khẳng định vị thế của mình trên thị trường viễn thông.

Cogetel là nhà cung cấp dịch vụ Internet hàng đầu tại Campuchia, cung cấp kết nối nhanh chóng và đáng tin cậy Công ty này nổi bật với các sản phẩm và dịch vụ đa dạng, bao gồm cả việc cung cấp dữ liệu qua vệ tinh Intelsat Hợp tác với Bộ Bưu chính và Viễn thông Campuchia (MPTC), Cogetel cam kết mang đến dịch vụ internet chất lượng cao cho người dùng, đáp ứng nhu cầu ngày càng tăng của thị trường.

5.2.1.3 Các thành phần cung cấp và quản lý giảm sát mạng

Bộ ưu chính viễn thông Campuchia (MPTC) cung cấp nhiều hình thức dịch vụ công cộng, bao gồm các dịch vụ ISP như truy cập Dial-up, đường truyền thuê bao và ADSL.

Camnet và Bigpond đều thuê đường truyền từ MPTC, với Camnet cung cấp dịch vụ thuê lại băng thông 128kbps với giá 5000 USD mỗi tháng Cả hai công ty đều có hệ thống kết nối và dịch vụ ISP riêng, trong đó Camnet duy trì kết nối 51kbps thông qua Singapore Telecom Internet Exchange (STTX) từ năm 2001 Hệ thống này cũng kết nối với Thaicom và UUNET, đảm bảo tốc độ downstream và upstream đạt 512kbps.

 Telesurf (Mobitel) Gateway 007 là Gate ay quốc tế ủw c a v tệ ính đi qua Tele2 và truy cấp 2Mbps downstream, 2Mbps upstream

 MPTC-GW Gate ay 001: là w Gateway của B bộ ưu chính viễ thông n Cămpuchia quản lý, s d ng v tử ụ ệ ính Indosat củ PT Indosat của a n c ướ Indonesia

 MPTC-Optical Fibre Port: C mpuchia khă ông có Microwave Backbone

Hành trình từ Battambong đến Phnom Penh và tiếp tục đến Việt Nam bắt đầu với việc khám phá Battambong và Siem Reap Du khách có thể lên kế hoạch di chuyển từ Phnom Penh đến Shihanouville, sau đó từ Phnom Penh đến Kompong Cham, tiếp tục đến Siem Reap và cuối cùng từ Kompong Cham đến Stoeung Treng để tận hưởng vẻ đẹp của biển.

NiDa E-Government, established by the National Information Communications Technology Development Authority in August 2000, enables the government to effectively utilize Information and Communication Technologies (ICT) Its primary goal is to enhance the development of ICT programs, facilitating improved services and communication within the government framework.

Trước khi g n đây chầ ính ph ủ ủ c a C mpuchia kh ng lă ô àm được rõ ràng ICT không có khả ăng giám sá n t đẩy mạnh ùng Internet d

5.2.2 Đánh giá Internet của Cămpuchia Ưu điể m:

 Internet của Cămpuchia dù công ng nghệ ADSL

 Có nhiều công ty tư nh n â đầu t v làử ào m nh cung c p dịà ấ ch v ụ Internet

 Có thể ừ đáp ứng v a yêu cầu c a ủ ngườ ử ụngi s d có thể ìm kiể , trả t m c u ôứ th ng tin tr n Internet ê

 Cấu tr c mạú ng nh , b ng thông th p, t c tương đ i ch m ỏ ă ấ ố độ ố ậ

 H ệ thống Web Caching nhỏ, chỉ ở ầ t ng mạng trục, do đó thường có hiện tượng nghẽn nú ổt c chai những giờở (buổi chiều), mùa cao đ ểm i(mùa du lịch)

5.3 KHẢO SÁT H TH NG WEB CACHING CỦA MẠNG ISP Da Ệ Ố Ni (National Information Communication Technology Development Authority)

Nhà cung cấp dịch ụ internet củ v a NiDa cung c p Internet v i mạng ấ ớ trục g m cáồ c nút ớ như sau: Phnom Penh, Siem Riep v l n à Battambong t t cấ ả n n i v i út ố ớ nhau bằng các k nh truyềê n d n n*T1 ẫ (n0)

Hệ thống Web Caching hoạt động chủ yếu ở tầng mạng trục, không bao gồm các tầng thấp hơn như mạng khu vực và mạng truy nhập Công nghệ của Cisco, bao gồm Cache Engine và Cache Farm, được sử dụng để tối ưu hóa hiệu suất của hệ thống Web Caching.

Hình 5.4 : Sơ đồ mạng l i Web Caching c a mạn ISướ ủ g P NiDa

5.3.1 Nhận xét chung của NiDa

Khảo sát s t ng th m ng ơ đồ ổ ể ạ Backbone Int ent NiDa ta rer út ra đư c ợ nh ngữ nhận xét sau:

Qua tìm hiểu v cáề c thống số ủ c a mạng ướ l i Web Caching của ISP NiDa ta có nhận xét sau:

 H ệ thống ùng Caching Farm cho cả d 3 trung t m: Trung tâm PP â (Phnom Penh), trung tâm SR (Siêm Ri p) v trung t m BTB (Battambong) ê à â

 Các thiết bị aching đề đượ đấ c u c u n i vàố o mạng theo giao diện Gigabit 1000Mbps

 Giao tiếp d li u t i c ng ữ ệ ạ ổ gate ay w đều là giao di n quang Gigabit ệ 1000Mbps

 Dung lượng h th ng đĩa c a PP, SR, BTB l n l t là: 1.800GB, ệ ố ủ ầ ượ 504GB, 1.476GB

 S lố ượng ngườ truy nhậi p hi n t i i u ệ ạ nh ề nhất l ở PP (và ì là Thành phố l n à ớ ) v SR (l khu du lịch) à

H ệ thống Web Caching của ISP NiDa s d ng các thiết bị Web ử ụ Caching của Cisco g i là ọ Cache Engine.

Cache Engine được tổ ch c theo cáứ c chợ: Cache farm, nên t i ả được phân t n sá ử ụ d ng aggregation router Ưu điể m:

KẾT LUẬN

Hiện nay, có nhiều mô hình xây dựng hệ thống caching cho ISP, tập trung vào ba nhóm chính: mô hình phân tán, mô hình hệ thống caching phân tầng và mô hình hỗn hợp Mỗi mô hình đều có ưu nhược điểm riêng, tùy thuộc vào nhu cầu sử dụng và cấu trúc mạng Việc lựa chọn mô hình mạng phù hợp rất quan trọng Đề xuất chọn mô hình cache hỗn hợp với nhiều cấp caching và các thành phần caching liên kết chặt chẽ giữa các cấp.

Dial-up Dial-up Dial-up

Hình 5.5 : Sơ đồ đề xu t gi i pháp c a mấ ả ủ ạn ISg P NiDa

Hiện tại và trong tương lai, hệ thống Caching sẽ được mở rộng tại các điểm POP của mạng NiDa, tạo thành một hệ thống Cache Farm liên kết với nhau Mục tiêu là đáp ứng nhu cầu sử dụng và khai thác dịch vụ của người dùng một cách hiệu quả.

Sau khi mở ộ r ng, c u trúc mấ ạng lư i này đ m bảớ ả o các ưu điểm sau cho việc cung c p dấ ịch v Internet: ụ

 Cho phép tiết ki m băng thông qu c t v i t l ệ ố ế ớ ỷ ệ Cache hit 40%

 Tăng tốc đ truy xuất internet củộ a ngư i s d ng ờ ử ụ

 Giảm t i h th ng x lý Firewall ả ệ ố ử

 Giảm t i x lý h th ng ả ử ệ ố Router Gate ayw

ÁP DỤNG SQUID CHO WEB CACHING 6.1 CÔNG CỤ PHẦN MỀM SQUID CHO WEB CACHING

Squid là gì ?

Squid là một máy chủ Proxy Caching hiệu quả cho các web máy trạm, hỗ trợ FTP và dữ liệu HTTP Nó cũng là phần mềm cho hệ thống Web cache server phân cấp, sử dụng giao thức ICP với các thành phần chính.

 Nhận và xử lý yêu cầu số liệu Web từ trình duyệt Web cũng như các yêu cầu ICP từ các cache server

 Cập nhật số liệu Web được lưu trữ trong bộ nhớ RAM và trên đĩa cứng

 Quản trị cấu hình và thông kế khai thác ( như trong hình 6-1)

Squid là phần mềm mã nguồn mở miễn phí, hỗ trợ phát triển liên tục và được sử dụng phổ biến trong cộng đồng nghiên cứu khoa học và giáo dục toàn cầu.

Vì sao phải chọn Squdi ?

Khác với phần mềm caching truyền thống, Squid quản lý tất cả các yêu cầu trong một quy trình đơn, không khóa và điều khiển I/O Squid lưu trữ dữ liệu, đặc biệt là các đối tượng cache trong RAM, đồng thời cung cấp bộ đệm cho các truy vấn DNS, hỗ trợ việc tìm kiếm DNS không khoa.

Squid hỗ trợ SSL, cung cấp kiểm soát truy cập linh hoạt và ghi lại dữ liệu yêu cầu đầy đủ Với việc sử dụng giao thức bộ đệm Internet hạn chế, Squid có thể được cấu hình trong hệ thống phân cấp hoặc mạng lưới để tối ưu hóa băng thông Squid bao gồm một chương trình máy chủ chính, một chương trình dnsserver để quản lý tên miền, cùng với các chương trình tùy chọn cho ghi lại yêu cầu và xác thực, cũng như các công cụ quản lý và người dùng Khi khởi động, Squid tạo ra nhiều cấu hình cho các tiến trình dnsserver, mỗi tiến trình có thể hoạt động độc lập và quản lý hệ thống tên miền.

Đặc điểm của Squid

 Một Web Proxy Server được đưa ra đầy đủ

 Thiết kế để chạy trên hệ thống UNIX

 Phần mềm mã nguồn mở miễn phí

 Kết quả của nhiều sự đóng góp của những người tình nguyện không công (và có công (paid))

Những hỗ trợ của Squid…

 Proxying và caching của HTTP, FTP và những URL khác

 Những bộ đệm phân tầng (Cache hierarchies)

 ICP, HTCP, CARP, Cache Digests

 Điều khiển truy nhập có phạm vi rộng

 Gia tốc máy chủ HTTP

 Caching của DNS tra cứu

Mô hình thử nghiệm của Squid

Bình thường khi truy cập Web thì lưu lượng HTTP từ client tới server đi thẳng và trao đổi trực tiếp nhau:

Client > HTTP request > Web Server

Client < HTTP reply < Web Server

Khi có triển khai hệ thống caching sử dụng Squid:

Tóm tắt quá trình thử nghiệm:

 Cài đặt hệ thống Squid trên Linux, cấu hình để hoạt động ở chế độ Proxy (Có thể dùng port 80 hoặc 8080)

PHƯƠNG PHÁP CÀI ĐẶT VÀ CHẠY SQUID

6.2.1 Cấu hình để chạy được phần mềm Squid

Bộ nhớ vật lý là tài nguyên quan trọng nhất trong hệ thống máy tính Mặc dù bộ xử lý không cần phải siêu nhanh, nhưng hệ thống đĩa lại có thể trở thành nút thắt cổ chai chính Do đó, việc sử dụng đĩa nhanh là rất quan trọng để tối ưu hóa hiệu suất của bộ nhớ cache.

Trong cuối năm 1998, nếu mua một máy tính cho bộ nhớ cache thì mua theo cấu hình như sau :

• Five 9 GB UW-SCSI disks

 Đối với phiên bản Squid-1.0 và Squid-1.1 chúng ta có thể gõ make từ thứ mục gốc sau khi mở ra từ tập tin nguồn.

Ví dụ: %tar xzf squid-1.1.21-src.tar.gz

 Đối với squid 2.5 chúng ta phải tự chạy cấu hình script trước khi chạy:- %tar xzf squid 2.5.STABLE5.tar-

Sau khi dịch Squid, chúng ta cái đặt nó với lệnh sau đây:

Nếu chúng ta có ICMP sau đó chúng ta sẽ gõ :

Sau khi cái đặt, chúng ta muồn soạn thảo và chỉnh tập tin squid.conf trong thứ mục /usr/local/squid/etc/squid.conf

Để cấu hình Squid, bạn cần tìm tệp cấu hình tại đường dẫn /usr/local/squid/etc/squid.conf, nơi có tài liệu hướng dẫn Trong tệp này, bạn nên tham khảo chỉ dẫn QUICKSTART để nắm bắt cách thiết lập Đặc biệt, cần điều chỉnh chỉ thị http_access để cho phép truy cập từ Client Cuối cùng, xác định cấu hình tệp cần sử dụng với tùy chọn –k parse.

% /usr/local/squid/bin/squid k parse -

Trước khi tiếp tục, cần sửa các lỗi sai cú pháp hoặc cấu hình trong kết quả Sau khi hoàn tất việc soạn thảo tập tin cấu hình, chúng ta sẽ khởi động Squid lần đầu tiên Đầu tiên, hãy tạo thư mục swap và chạy với tùy chọn –z.

% /usr/local/squid/bin/squid

Lưu ý: Nếu chúng ta chạy Squid như root , chúng ta phải

Để cấu hình Squid, đầu tiên bạn cần truy cập vào thư mục /usr/local/squid/var/logs và thiết lập quyền sở hữu cho thư mục cache_dir theo cấu hình cache_effective_user trong file squid.conf Để kiểm tra kết quả gỡ lỗi, hãy sử dụng lệnh thích hợp.

% /usr/local/squid/bin/squid NCd1 Nếu chúng ta làm thành công, sẽ thấy dòng thông báo: Ready to serve request

Nếu chúng ta chạy squid trong background, gõ như sau:

%/usr/local/squid/bin/squid

6.2.4 Quản hệ giữa browsers và Squid

Hầu hết các trình duyệt web hiện nay đều hỗ trợ proxy và có thể dễ dàng cấu hình để sử dụng máy chủ Squid làm proxy Nhiều trình duyệt còn cung cấp tính năng nâng cao, cho phép người dùng thiết lập danh sách miền hoặc URL không cần qua proxy, cũng như cấu hình proxy tự động bằng JavaScript.

6.2.4.1 Cấu hình trình duyệt Netscape cho Web caching

Chọn Preferences từ Edit menu, chọn tuỳ chọn Manual proxy configuration

Các giao thức hỗ trợ máy chủ Squid bao gồm HTTP, FTP và Gopher Để cấu hình, bạn cần nhập tên miền (hostname) hoặc địa chỉ IP của máy chủ Squid cùng với số cổng HTTP (chẳng hạn như cổng 3128) vào cột cổng Đối với các giao thức không được Squid hỗ trợ, bạn để trống cột này.

Hình 6.2 : Cấu hình trình duyệt Netscape cho Web Caching

6.2.4.2 Cấu hình trình duyệt Netscape tự động cho Web caching

Chọn Preferences từ Edit menu Chọn tuỳ chọn Automatic proxy configuration URL và điền vào trong text box

Hình 6.3 : Cấu hình trình duyệt Netscape tự động cho Web caching

Tiêu đề	Kiến Trúc Web Caching – Phân Tích Giải Pháp Web Caching Của ISP Tại Cămpuchia
Tác giả	Tan Kosal
Người hướng dẫn	TS. Hồ Khánh Lâm
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2005
Thành phố	Hà Nội