Luận văn thạc sĩ Khoa học máy tính: Lấy mẫu dữ liệu đầu vào để cải thiện giải thuật tô màu cho mạng lưới CDNS

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS TS Thoại Nam

Cán bộ chấm nhận xét 1 : TS Nguyễn Lê Duy Lai

Cán bộ chấm nhận xét 2 : PGS TS Trần Công Hùng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 13 tháng 7 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS TS Trần Văn Hoài - Chủ tịch hội đồng 2 TS Lê Thành Sách - Thư ký

3 TS Nguyễn Lê Duy Lai - Phản biện 1 4 PGS TS Trần Công Hùng - Phản biện 2 5 PGS TS Lê Trung Quân - Ủy Viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

i ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Hoàng Vinh MSHV: 1970135

Ngày, tháng, năm sinh: 27/03/1996 Nơi sinh: TP Hồ Chí Minh Chuyên ngành: Khoa học máy tính Mã số : 8480101

I TÊN ĐỀ TÀI : Lấy mẫu dữ liệu đầu vào để cải thiện giải thuật tô màu cho mạng lưới CDN / Sampling input data to improve coloring algorithm for Content Delivery Network

II NHIỆM VỤ VÀ NỘI DUNG: Thực hiện nghiên cứu và đánh giá việc cải thiện giải

thuật tô màu cho mạng CDNs thông qua việc lấy mẫu dữ liệu đầu vào

III NGÀY GIAO NHIỆM VỤ : 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Thoại Nam

Trang 4

ii

LỜI CẢM ƠN

Tôi xin chân thành gửi lời cảm ơn đến thầy Thoại Nam – Phó Giáo sư Tiến sĩ của trường đại học Bách Khoa Thành phố Hồ Chí Minh Thầy đã tận tình hướng dẫn, chỉ bảo tôi và giải đáp thắc mắc trong suốt quá trình thực hiện đề tài Bên cạnh đó, xin cảm ơn thạc sĩ La Hoàng Lộc, người đã hỗ trợ tôi chạy lại giải thuật tô màu cho mạng CDNs mô phỏng Ngoài ra, tôi cũng gửi lời biết ơn chân thành tới tất cả các quý Thầy, Cô trong khoa Khoa học Máy Tính đã nhiệt tình giảng dạy, truyền đạt kiến thức cho tôi trong suốt quá trình học tập tại trường

Trân Trọng

TP Hồ Chí Minh, ngày 13 tháng 7 năm 2023 Trần Hoàng Vinh

Trang 5

iii

TÓM TẮT LUẬN VĂN

Cùng với sự tăng trưởng về số lượng nội dung trên mạng Internet như hiện nay, việc truyền tải nội dung tới người dùng ở khắp nơi trên thế giới cần sự hỗ trợ của mạng phân phối nội dung (Content Delivery Networks) Nhằm cải thiện hiệu suất của mạng và tối ưu lưu lượng truyền tải trong mạng, một số phương pháp được đưa ra, trong đó giải thuật tô màu cho mạng CDNs mang lại kết quả khả quan nhất Tuy nhiên, độ phưc tạp của giải thuật phụ thuộc phần lớn vào số lượng yêu cầu của người dùng và số lượng nội dung Bên cạnh đó, chi phí để truyền tải nội dung về trung tâm để thực hiện tính toán lại giải thuật tô màu cũng là một chi phí không hề nhỏ và thời gian để chạy giải thuật cũng là một vấn đề cần xem xét Trước những vấn đề đó, luận văn đưa ra hướng giải quyết cho việc giảm độ phức tạp của giải thuật tô màu bằng cách lấy mẫu Việc lấy mẫu cũng được chia làm 2 bài toán nhỏ, lấy mẫu tập trung và lấy mẫu phân tán Trong đó lấy mẫu tập trung nhằm giải quyết vấn đề độ phức tạp của giải thuật tô màu và lấy mẫu phân tán giúp giảm tải chi phí đẩy dữ liệu về trung tâm để xử lý Cùng với các chứng minh về lý thuyết và các kết quả thực nghiệm, luận văn đã cho thấy được tính cần thiết của việc lấy mẫu và đưa ra công thức để đánh giá độ tương đồng của tập dữ liệu trước và sau khi lấy mẫu Từ đó, đóng góp một phần vào việc tối ưu mạng phân phối nội dung thông qua giải thuật tô màu

Trang 6

iv

ABSTRACT

Along with the growth in the number of content on the Internet as it is today, the delivery of content to users around the world needs the support of content distribution networks (Content Delivery Networks) In order to improve network performance and optimize traffic transmission in the network, some methods are proposed, in which the coloring algorithm for CDNs networks brings the most promising results However, the complexity of the algorithm depends largely on the number of user requests and the number of content In addition, the cost of transmitting content to the center to perform recalculation of the coloring algorithm is also a significant cost and the time to run the algorithm is also an issue to consider Facing these problems, the thesis proposes a solution to reduce the complexity of the coloring algorithm by sampling Sampling is also divided into 2 small problems, centralized sampling and distributed sampling In which centralized sampling aims to solve the problem of complexity of coloring algorithm and distributed sampling helps reduce data push cost to center for processing Along with theoretical proofs and experimental results, the thesis has shown the necessity of sampling and gives a formula to evaluate the similarity of data sets before and after sampling From there, contributing a part to optimizing content distribution networks through coloring algorithms

Trang 7

v

LỜI CAM ĐOAN

Tôi xin cam đoan rằng tất cả những thông tin và kết quả được trình bày trong luận văn này ngoài việc tham khảo các nguồn tài liệu đã được ghi đầy đủ trong phần phụ lục các tài liệu tham khảo, thì đều cho chính tôi thực hiện Không có phần nội dung nào được sao chép từ các đề tài thực tập tốt nghiệp, luận văn đại học của trường này hay trường khác Nếu có bất kỳ sai phạm hay gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước Ban Chủ Nhiệm Khoa và Ban Giám Hiệu Nhà Trường

Người cam đoan

Trần Hoàng Vinh

Trang 8

vi

MỤC LỤC

NHIỆM VỤ LUẬN VĂN THẠC SĨ i

LỜI CẢM ƠN ii

TÓM TẮT LUẬN VĂN iii

ABSTRACT iv

LỜI CAM ĐOAN v

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 4

2.1 Tổng quan về mạng CDNs 4

2.2 Phương pháp lấy mẫu 12

CHƯƠNG 3: BÀI TOÁN LẤY MẪU TẬP TRUNG TRONG MẠNG CDNS 19

3.1 Phân tích giải thuật tô màu trong CDNs 19

3.2 Bài toán lấy mẫu tập trung trong mạng CDNs 21

CHƯƠNG 4: LẤY MẪU PHÂN TÁN CHO GIẢI THUẬT TÔ MÀU TRONG CDNS 24

4.1 Giải thuật lấy mẫu phân tán trong mạng CDNs 24

Trang 9

vii

TÀI LIỆU THAM KHẢO 42PHẦN LÝ LỊCH TRÍCH NGANG 44

Trang 10

1

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI

Ngày nay, Internet gần như là công cụ quan trọng trong cuộc sống thường ngày Nhờ Internet, chúng ta có thể tiếp cận với những nội dung mới thường xuyên thông qua các trang web, mạng xã hội, giúp con người dễ dàng kết nối với nhau Tính đến ngày 31/12/2021, đã có khoảng 5,385,798,406 người dùng Internet trên toàn cầu, chiếm khoảng 67,9% dân số thế giới [1] Theo trang web [2], tính đến thời điểm hiện tại đã có hơn 160 triệu website đang hoạt động trên Internet Thông qua đó, chúng ta thấy được sự phức tạp của mạng lưới Internet hiện nay và nguyên nhân chính dẫn đến sự tắt nghẽn mạng lưới truyền tải trên Internet Kỹ thuật sử dụng mạng phân phối nội dung (Content Delivery Networks – CDN) được đề xuất nhằm giải quyết vấn đề trên Người dùng ở bất cứ vị trí địa lý nào trên cũng có thể tiếp cận được nội dung ở cách xa họ hơn nửa vòng trái đất thông qua các Edge Server mà không gặp trở ngại về đường truyền Nói đơn giản, một người dùng ở Việt Nam muốn truy cập 1 nội dung được đặt ở máy chủ bên Mỹ sẽ tốn rất nhiều thời gian hơn so với việc truy cập nội dung đó được lưu ở máy chủ đặt ở Singapore Điều này giúp tăng tỉ lệ truy cập của nội dung đó cũng như trải nghiệm của người dùng Tuy nhiên, số lượng nội dung sinh ra hằng ngày càng nhiều và độ phổ biến của nội dung thay đổi nhanh chóng theo giờ, nhưng phần cứng trên các Edge Server thì có giới hạn Vì thế, tác giả Nakajima [3] đã đề xuất chiến lược Cooperative Caching kết hợp với giải thuật tô màu để các Edge Server có thể bắt kịp với sự thay đổi của nội dung Tuy nhiên, với số lượng nội dung ngày càng nở rộng, giải thuật tô màu cho mạng CDNs sẽ có độ phức tạp càng lớn, dẫn đến việc tăng thời gian tính toán cũng như chi phí trong mạng CDNs Mục tiêu chính của luận văn là cải thiện thời gian xử lý và chi phí đường truyền trong mạng CDNs thông qua việc lấy mẫu Cụ thể, đề tài sẽ tập trung vào hai bài toán lấy mẫu chính là lấy mẫu tập trung và lấy mẫu phân tán Qua đó, đưa ra một công thức về tính tương đồng của tập dữ liệu trước và sau khi lấy mẫu trên

Trang 11

thuật tô màu trước vào sau khi lấy mẫu

3 Thực nghiệm việc lấy mẫu trên tập dữ liệu thực tế và đánh giá kết quả thông qua mạng CDN mô phỏng

Đối tượng và phạm vi nghiên cứu:

Trong luận văn này, mạng CDN sẽ được mô phỏng lại bưởi công cụ Mininet Đầu vào của mạng sẽ là dữ liệu yêu cầu của người dùng theo thời gian được trích suất từ một ISP lớn của Việt Nam trong ngày 6/12/2018 Tập dữ liệu này được chia thành 24 khoảng thời gian với mỗi khoảng thời gian tương ứng với 1 tiếng trong ngày Phạm vi nghiên cứu của luân văn sẽ tập trung vào việc lấy mẫu của dữ liệu đầu vào, đánh giá sự tương đồng của đầu ra giải thuật tô màu trước và sau lấy mẫu

Phương pháp:

Đề tài sử dụng kỹ thuật lấy mẫu (Data Sampling) để giảm tải khối lượng dữ liệu, từ đó làm giảm độ phức tạp của giải thuật tô màu Dữ liệu này sẽ được chạy trong mạng CDN mô phỏng để sinh ra tập số để tô màu nội dung tương ứng Tập số này là kết quả chính nhằm đánh giá tính tương đồng giữa kết quả trước và sau lấy mẫu thông qua công thức phát triển từ giải thuật đánh giá tính tương động Jaccard

Cấu trúc luận văn:

Chương 1 sẽ giới thiệu về đề tài, mục tiêu của nghiên cứu và tóm tắt luận văn Chương 2 sẽ tập trung mô tả cơ sở lý thuyết, các định nghĩa, các nghiên cứu liên quan về mạng CDNs và các kỹ thuật lấy mẫu Chương 3 và 4 sẽ mô tả bài toán lấy mẫu tập trung và phân tán trong mạng CDNs và công thức về độ tương

Trang 12

3

đồng giữa tập dữ liệu lấy mẫu và tập dữ liệu ban đầu Chương 5 sẽ thực nghiệm trên tập dữ liệu thực tế và đánh giá kết quả đạt được trong chương 6 Từ đó, đưa ra kết luận và hướng phát triển cho đề tài này

Trang 13

Một mạng lưới CDNs bao gồm các thành phần sau:

● Origin Server: Là máy chủ gốc chứa toàn bộ nội dung

● Edge Server (Cache server): Là các máy chủ đặt tại các vị trí địa lý khác nhau để phục vụ người dùng Các máy chủ này có nhiệm vụ chính là lưu trữ một bản sao của nội dung từ máy chủ gốc và phân phối nội dung đó tới người dùng

Điểm mạnh của mạng CDN là cải thiện được trải nghiệm của người dùng cuối Điều này rất quan trọng đối với các trang thương mạng điện tử, truyền hình hay trò chơi trực tuyến Khi người dùng truy cập vào một trang web, yêu cầu của họ sẽ được gửi đến Edge Server có vị trí địa lý gần nhất Nếu nội dung mà người dùng yêu cầu không có, Edge Server sẽ gửi yêu cầu tới các Edge Server khác trong mạng lưới hoặc về Orgin Server để lấy nội dung mà người dùng yêu cầu Sau đó lưu trữ một bản sao của nội dung đó lên bộ lưu trữ của chính nó để phục vụ cho các yêu cầu sau đó của người dùng đó hoặc người dùng khác Bên cạnh

Trang 14

5

đó, CDN giúp phân phối tải trọng trên nhiều máy chủ Với một dịch vụ trong mạng Internet, nếu chỉ được dựng trên một máy chủ đơn lẻ, số lượng yêu cầu cho dich vụ đó sẽ bị giới hạn Nếu vượt qua giới hạn này có thể gây ra áp lực lớn cho máy chủ đó, dẫn đến quá tải ảnh hưởng tới dịch vụ Nhờ vào việc phân phối tải trọng trên nhiều máy chủ của mạng CDN, dịch vụ đó có thể tiếp nhận nhiều yêu cầu hơn, khả năng chịu tải cao hơn Một điểm mạnh khác của mạng CDN là khả năng mở rộng Với khả năng mở rộng linh hoạt, thêm các nút Edge Server và nâng cấp hệ thống dễ dàng để đáp ứng lưu lượng truy cập ngày càng tăng của hệ thống

Bên cạnh những điểm mạnh trên, mạng CDNs cũng có một vài điểm yếu cần được cải thiện và chú ý Thứ nhất là về chi phí, để xây dừng và vận hành một mang CDNs đòi hỏi phải có chi phí đầu tư lớn Bên cạnh đó việc phân phối và quản lý mạng CDN có thể trở nên rất phức tạp Đặc biệt đối với các mạng có số lượng Edge Server lớn Thứ hai là giới hạn về phần cứng, bên cạnh về khả năng xử lý, khả năng lưu trữ trên các Edge Server là một giới hạn của mạng CDNs Việc lưu trữ nội dung trên các Edge Server sẽ bị giới hạn bởi khả năng lưu trữ vật lý của máy chủ [3] Thứ ba là khả năng routing trong mạng CDNs, nếu không có bảng phân phối đường đi hợp lý, lưu lượng trong mạng CDNs có thể trở nên rất lớn Điều này ảnh hưởng trực tiếp để hiệu suất của mạng

Để khắc phục được điểm yếu về giới hạn tài nguyên và việc routing trong mạng CDN, Nakajima và cộng sự [3] đã đưa ra giải thuật Caching dựa theo màu và giải thuật định tuyến dựa theo màu nhầm tối ưu việc lưu trữ trên các Edge Server và đường đi ngắn nhất để lấy được nội dung trong mạng CDNs Phương pháp này cho phép các Edge Server kết hợp với nhau để tăng tỉ lệ hit cho mạng CDNs thay vì hoạt động riêng ở từng khu vực địa lý Cụ thể về giải thuật sẽ được trình bày trong các mục tiếp theo

Trang 15

Vấn đề đặt ra là chiến lược Hybrid Caching không hỗ trợ cho Cooperative Caching [6] Nếu không có sự kết hợp của các Edge Server khác thì có thể dẫn đến việc lưu trữ các nội dung không phổ biến, làm giảm hiệu quả việc sử dụng không gian lưu trữ trên các Edge Server Tuy nhiên, giải thuật Caching dựa theo màu đã kết hợp thành công hai ưu điểm của hai chiến lược này bằng các thẻ màu Trong giải thuật này, các thẻ màu sẽ được gán cho các Edge Server và các nội dung Nội dung nào có cùng màu với Edge Server thì sẽ được lưu trên Edge Server đó Với phương pháp này, các Edge Server có cùng màu sẽ tăng không gian lưu trữ các nội dung phổ biến Ngoài ra để tăng tỷ lệ truy cập của các Edge Server, nội dung càng phổ biến sẽ được gán bởi nhiều thẻ màu Điều này đồng nghĩa với việc nội dung đó sẽ được lưu trữ trên nhiều Edge Server khác nhau Ngoài ra, với chiến lược Hybrid Caching, các Edge Server sẽ được chia làm hai không gian lưu trữ riêng biệt Không gian đầu tiên sử dụng phương pháp Least Frequently Used (LFU) để lưu trữ các nội dung được đánh màu trùng với Edge Server Không gian còn lại sử dụng phương pháp Least Recently Used (LRU) cải tiến nhằm lưu trữ

Trang 16

7

bất kỳ nội dung không trùng màu với Edge Server Phương pháp LRU cải tiến [7] này cho tỉ lệ truy cập tốt hơn phương pháp LRU [8]

Hình 1 Nội dung được đánh màu và lưu trữ trên các Edge Server được tô màu [3]

Hình 2 Chiến lược Hybrid Caching trên Edge Server [3]

a) Đánh màu Edge Server

Mỗi Edge Server trong mạng lưới được xem như một nút trong đồ thị Khi này, các Edge Server sẽ được tô màu bằng giải thuật nổi tiếng của Welsh-Powell – giải thuật tô màu độ thị bằng cách sử dụng số lượng màu ít nhất Tuy nhiên, thuật toán đã được cải tiến để tô chính xác N màu cho tất cả các Edge Server trong mạng Giả sử bài toán cho 4 màu (đỏ, lục, lam, vàng) để tô cho toàn bộ các Edge Server trong mạng, giải thuật WP cải tiến sẽ phân bố 4 màu có tỉ lệ xắp xỉ nhau Chi tiết về thuật toán được mô tả trong bài báo [4]

Trang 17

8

b) Đánh màu nội dung

Tùy vào mức độ phổ biến của nội dung mà nội dung đó có thể có nhiều nhất N màu Khi này độ phổ biến của nội dung sẽ được thể hiện qua số lượng màu mà nội dung đó được gán Một nội dung được biểu diễn bằng N-bit vectơ, trong đó 0 có nghĩa là không có màu và 1 có nghĩa là được đánh màu Tương tự như đánh màu Edge Server, chúng ta cũng có 4 màu (đỏ, lục, lam, vàng) Như vậy độ phổ biến của nội dung cũng sẽ được chia làm 5 lớp Lớp thứ nhất với tất cả các bit là 0, lớp thứ 2 gồm 3 bit 0 và 1 bit 1, lớp thứ 3 gồm 2 bit 0 và 2 bit 1, lớp thứ 4 gồm 1 bit 0 và 3 bit 1, và lớp cuối cùng gồm 4 bit 1

Như vậy, việc đánh màu nội dung sẽ phụ thuộc vào độ phổ biến của nội dung đó Bài toán đặt ra là làm sao để có thể biết được nội dung đó phổ biến hay không? Yếu tố này phụ thuộc vào yêu cầu của người dùng, người dùng yêu cầu nội dung đó càng nhiều thì nội dung đó càng phổ biến Trong mỗi Edge Server, khi nhận được bất kỳ yêu cầu từ người dùng, máy chủ đều sẽ lưu lại trong Access Log của mình theo trình tự thời gian Như vậy, chỉ cần tập hợp các Access Log từ các Cache Server để tính toán độ phổ biến của nội dung thông qua tần suất yêu cầu của nội dung đó và sắp xếp theo thứ tự số lượng yêu cầu từ cao đến thấp Nội dung phổ biến nhất sẽ có thứ hạng đầu tiên và nội dung được yêu cầu ít nhất sẽ có thứ hạng cuối cùng Sau đó nội dung sẽ được phân bố vào các lớp phổ biến tương ứng Như bảng 1, nội dung từ 1 đến 22 sẽ được đánh 4 màu, nội dung từ 23 – 25 sẽ được đánh 3 màu, nội dung có hạng từ 26 – 47 sẽ được đánh 2 màu, nội dung có hạng từ 48 – 305 sẽ được đánh 1 màu và nội dung có hạng 306 trở về sau sẽ không được đánh màu Một tập số như vậy sẽ được gọi là Separator Ranks, nhằm phân loại mức độ phổ biến của nội dung trong giải thuật tô màu

Trang 18

Bảng 1 Bảng ánh xạ độ phổ biến và thẻ màu trong trường hợp 4 màu [4]

Như vậy, một vấn đề mới làm sao tìm được tập hợp Separator Ranks phù hợp? Bài báo [3] đã chứng minh với mỗi tập Separator Ranks khác nhau, traffic có thể được tính mà không quan tâm đến băng thông và thời gian truyền tải nội dung qua công thức:

𝑇𝑒𝑠𝑡 = ∑ ∑ ∑ 𝑒𝑖𝑗𝑝𝑖𝑘𝑦𝑖𝑗𝑘𝐾

Với 𝑇𝑒𝑠𝑡 là tổng traffic trong mạng, 𝑒𝑖𝑗 là số đường mà nội dung k đi đến với người dùng thứ i từ Edge Server, 𝑝𝑖𝑘 là xác suất yêu cầu mà người dùng i đối với nội dung k, 𝑦𝑖𝑗𝑘 là một biến nhị phân cho biết Cache Server j lưu trữ nội dung k là máy chủ gần nhất với người dùng i I, J, K tương ứng với số người dùng, số Edge Server và số nội dung được lưu trữ ở Origin Server [3]

Bài báo [6] cũng đưa một số ràng buộc để tìm ra Separator Ranks tối ưu để giảm tối thiểu traffic trong trường hợp 4 màu là

Trang 19

{ 𝑆[0] ≤ 𝑆[1] ≤ ≤ 𝑆[𝑁 − 1]𝑆[0] + 𝑆[1] + + 𝑆[𝑁 − 1] = 𝑁 ∗ 𝐶

2.1.3 Giải thuật định tuyến dựa theo màu (Color-based Routing)

Bên cạnh việc lưu trữ bản sao của nội dung trên các Edge Server, định tuyến trong mạng CDNs cũng rất quan trọng trong việc chi phối mạng toàn bộ traffic Khi nhận một yêu cầu cho một nội dung mà Edge Server đó không lưu trữ, thông thường Edge Server sẽ gửi yêu cầu đó về Origin Server để lấy nội dung đó Lúc này thuật toán Dijkstra [9] được sử dụng để tìm đường đi ngắn nhất từ Edge Server về Origin Server Tuy nhiên, đường đi ngắn nhất này đôi khi có thể đi qua các Edge Server khác, nơi có thể chứa những nội dung đang được yêu cầu Điều này cho thấy rằng, các thuật toán định tuyến thông thường không khai thác được thế mạnh của chiến lược Cooperative caching Hơn nữa, nếu có quá nhiều yêu cầu gửi về Origin Server có thể gây ra tắt nghẽn, làm giảm hiệu suất của mạng CDNs

Nakajima và các cộng sự [4] đã đề suất được lược đồ định tuyến dựa theo màu để tận dụng lợi thế của các thẻ màu nhàm giảm tải traffic và chi phí định tuyến bằng cách bổ sung thêm hai bẳng định tuyến khác Bảng định tuyến thứ nhất là Bảng định tuyến yêu cầu (Request Routing Table) nhằm lưu trữ thông tin về màu sắc và ID tương ứng Bảng định tuyến thứ hai là Bảng định tuyến đáp ứng

Trang 20

11

(Response Routing Table) nhằm lưu trữ địa chỉ mạng và giao diện phản hồi khi tìm thấy nội dung được yêu cầu Chính vì giải thuật tô màu các Edge Server dựa trên thuật toán Welsh-Powell cải tiến, nên chúng ta có thể gom nhóm các Cache Server gần nhau nhưng khác màu thành các cụm nhỏ Cụ thể hơn, các thẻ màu của nội dung được thể hiện trong các yêu cầu gửi đến các Edge Server Khi này Edge Server sẽ kiểm tra không gian lưu trữ LFU và LRU Nếu nội dung đó được tìm thấy, Edge Server sẽ trả lời trực tiếp cho yêu cầu đó và ngược lại, yêu cầu đó sẽ chuyển tiếp đến Cache Server cùng màu gần nhất thông qua Bảng định tuyến yêu cầu Nếu là một nội dung mới, không màu, yêu cầu sẽ được chuyển tiếp như mặc định

Các kết quả thử nghiệm trong bài báo [6] cũng đã cho thấy được giải thuật định tuyến dựa theo màu làm giảm 30% lưu lượng đường truyền so với giải thuật định tuyến đường đi ngắn nhất (Shortest-path routing) Giải thuật định tuyến đường đi ngắn nhất đã giảm tải số lượng yêu cầu tới Origin Server nhưng lưu lượng đường truyền có thể tối ưu hơn bằng cách sử dụng các thẻ màu Hình 3 mô tả khái niệm cơ bản của giải thuật định tuyến dựa theo màu so với giải thuật định tuyến đường đi ngắn nhất Nội dung người dùng yêu cầu được đánh tag 0011 Như vậy những Edge Server được đánh màu 0001 và 0010 sẽ chứa nội dung đó Yêu cầu ban đầu đi vào Edge Server có thẻ màu 1000 Edge Server này không chứa nội dung được yêu cầu và theo giải thuật định tuyến đường đi ngắn nhất, yêu cầu sẽ được chuyển tiếp cho Edge Server 0100 và về Orgin Server Tuy nhiên với giải thuật định tuyến dựa theo màu, bảng định tuyến sẽ điều hướng yêu cầu sang Edge Server có thẻ màu 0001 gần nhất và trả về nội dung cho người dùng yêu cầu

Trang 21

12

Hình 3 Mô phỏng giải thuật Color-based Routing và Shortest-path routing [4]

2.2 Phương pháp lấy mẫu

Lấy mẫu là phương pháp lựa chọn một số phần tử để tạo thành một tập hợp có thể quan sát được từ một quần thể nhằm ước tính hoặc đánh giá toàn bộ quần thể đó Lấy ví dụ như, khi có một cuộc điều tra ý kiến quốc gia, chỉ có một mẫu người dân được tiếp xúc và lấy ý kiến Ý kiến của mẫu người dân này sẽ đại diện cho toàn bộ người trong quốc gia đó [10]

Áp dụng các phương pháp chọn mẫu để tìm ra mẫu đặc trưng là một việc đơn giản, nhưng để xác định mẫu mà chúng ta đạt được có thật sự tốt hay không lại là một vấn đề khác Một mẫu tốt là mẫu có đầy đủ tất cả các điểm đặc trưng của quần thể Mỗi cá thể trong quần thể đều phải có cơ hội được chọn ngẫu nhiên như nhau Ngoài ra, mẫu được chọn phải có tính hợp lệ, tính đúng đắn và tính chính xác Các tính chất này có thể được chứng minh về mặt toán học hay bằng cách làm thí nghiệm để kiểm chứng Ví dụ như một quần thể có 100 người trong đó có 50 người mặc áo đỏ, 30 người mặc áo xanh và 20 người mặc áo vàng Như vậy, mẫu mà chúng ta trích xuất từ quần thể cũng phải có tỉ lệ tương ứng 50% đỏ, 30% xanh và 20% vàng

Để tìm ra được một mẫu đặc trưng tốt, trước tiên ta cũng phải thiết lập các bước thiết kế mẫu Dựa vào bài toán mà ta quan tâm, ta phải đưa ra được mục tiêu nghiên cứu, các đặc tính mà chúng ta quan tâm trong một quần thể Ví dụ

Trang 22

13

như ta đang quan tâm mối quan hệ giữa cân nặng và chiều cao trong một quần thể thì ngoài những đặc tính như cân nặng, chiều cao của mỗi người thì độ tuổi cũng là một đặc tính cần xem xét Ngoài ra, một số tham số mà ta cần quan tâm như phương sai, giá trị trung bình, kích cỡ của mẫu,… Mẫu lấy bao nhiêu phần tử của quần thể là phù hợp? Đây cũng là câu hỏi mà các nhà khoa học dữ liệu phải đặt ra Nếu lấy quá ít thì không đủ dữ liệu để khai thác giá trị hoặc dẫn đến giá trị không phù hợp Ngược lại, nếu lấy quá nhiều thì việc lấy mẫu không có nhiều ý nghĩa Vì vậy, việc lấy mẫu cũng phải tuân theo một số quy tắc nhất định như:

● Đặc tính trong quần thể biến thiên càng nhiều thì kích cỡ của mẫu phải lớn để đạt tính chính xác

● Mẫu càng lớn thì phạm vi sai số càng nhỏ ● Mẫu càng lớn thì mức độ tin cậy càng cao

Có hai kĩ thuật lấy mẫu chính mà ta thường gặp là lấy mẫu ngẫu nhiên và lấy mẫu phi ngẫu nhiên Tuỳ vào bài toán mà chúng ta có thể lựa chọn những kỹ thuật lấy mẫu phù hợp

Phương pháp lấy mẫu ngẫu nhiên

+ Simple Random Sampling: Đây là kĩ thuật lấy mẫu một cách ngẫu nhiên bằng cách chọn ra n phần tử trong N sao cho mọi mẫu riêng biệt trong C_N^n có cơ hội được lựa chọn như nhau, với n là kích thước của mẫu và N là kích thước của quần thể Đầu tiên, chúng ta sẽ đánh số các phần tử từ 1 đến N Sau đó, chúng ta có thể sử dụng Random Number Tables hay các phần mềm Random Number Generator để lấy mẫu Hình bên dưới là ví dụ của Random Number Table

Trang 23

14

Hình 4 Ví dụ về Random Number Table

Ưu điểm của hướng tiếp cận này là chúng ta không quan tâm đến kích cỡ của quần thể và rất dễ để áp dụng Ngược lại, nhược điểm của phương pháp này là tốn nhiều thời gian và có sai số lớn Phương pháp này thích hợp với các bài toán không có nhiều thông tin về tập mẫu

+ Stratified Sampling: Phương pháp này chia quần thể thành các nhóm nhỏ dựa trên tính tương đồng (Similarity) sau đó chọn ngẫu nhiên các cá thể trong từng nhóm Phương pháp này phù hợp với các bài toán có nhiều thông tin về quần thể Tuy nhiên, cần lưu ý rằng, việc chia nhóm càng nhiều thì chi phí cho phương pháp này càng lớn Bên cạnh đó, việc chia các nhóm nhỏ cũng cần được cân nhắc, ví dụ như nếu tổng là 200 thì nên chia 4 nhóm hay 10 nhóm là hợp lý Hướng tiếp cận này có ưu điểm làm đảm bảo mức đại diện cho từng nhóm nghiên cứu, kiểm soát kích thước mẫu ở các nhóm nhỏ, tăng hiệu quả cho việc thống kê và có thể áp dụng nhiều phương pháp lấy mẫu khác nhau cho từng nhóm Nhược điểm thì như đề cập ở trên, việc chia nhóm sẽ gây tốn kém chi phí cũng như việc lựa chọn ở các nhóm có tỉ lệ khác nhau

+ Cluster Sampling: Tương tự như Stratified Sampling, chúng ta cũng chia quần thể thành từng nhóm nhỏ Nhưng với phương pháp này, các nhóm nhỏ không dựa trên tính tương đồng mà dựa trên tính đa dạng của quần thể Các đặc điểm tiềm năng của quần thể đều được thể hiện trong mỗi cụm nhỏ Sau đó, ta sẽ

Trang 24

Phương pháp lấy mẫu phi ngẫu nhiên

+ Covenience Sampling: Kỹ thuật này chọn các cá thể trong quần thể bằng cách dụa trên phần tử dễ lấy nhất Ví dụ, một tổ chức muốn thành lập chi nhánh tại 10 thành phố trong nước Họ sẽ chọn những thành phố nào gần với nơi mà nhân viên của họ sinh sống nhất để tiện việc đi lại Việc thành lập mẫu với phương pháp này rất thuận tiện và nhanh chóng Tuy nhiên, nếu lựa chọn các phần tử dễ lấy nhất thì mẫu của chúng ta không tính tổng quát, một số đặc trưng của quần thể sẽ bị mất đi Phương pháp này không phù hợp với những dữ liệu đa dạng về đặc tính

+ Purposive Sampling / Judemental Sampling: Phương pháp này sử dụng cho mục đích nghiên cứu, chọn ra các cá thể trong quần thể để đạt được mục tiêu một cách tốt nhất Phương pháp này chỉ áp dụng với các mẫu nhỏ có chứa các phần tử đặc biệt chứa nhiều thông tin hoặc ở giai đoạn đầu của việc nghiên cứu

+ Quota Sampling: Kỹ thuật này lấy mẫu dựa trên một số tiêu chuẩn thiết lập từ trước, tỷ lệ nhóm cá thể trong tập mẫu phải giống nhau Các cá thể được chọn cho đến khi chúng đạt đúng tỉ lẹ của một loại dữ liệu Ví dụ đơn giản, nếu chúng ta biết rằng trái đất có 6 tỷ người, trong đó có 55% nam và 45% nữ thì trong một tập mẫu 1000 người thì 45% trong đó là nữ và 55% là nam Phương

Trang 25

Hồ chứa mẫu ( Reservoir Sampling)

Trong lĩnh vực Big Data, dữ liệu được sinh ra liên tục Vì thế chúng ta cần một thuật toán lấy mẫu phù hợp với dạng dữ liệu streaming Theo Mohammed AI-Kateb [11], Reservoir Sampling là một kỹ thuật lấy mẫu ngẫu nhiên phù hợp với dạng dữ liệu liên tục Kỹ thuật lấy mẫu này cũng phù hợp cho các cụm tính toán bị giới hạn về khả năng xử lý Lý do là vì Reservoir Sampling cho phép giới hạn về kích thước của mẫu và không cần phải duyệt qua toàn bộ tập dữ liệu Do đó, kỹ thuật lấy mẫu này không quan tâm đến kích thước của quần thể

Ban đầu, cần phải xác định được kích thước của hồ chứa mẫu Kích thước của hồ là cố định và đại diện bằng tham số r Sau đó, thuật toán sẽ duyệt qua các phần tử trong tập dữ liệu ban đầu Nếu phần tự được duyệt chưa vượt quá thứ tự r thì lưu phần tử đó vào hồ chứa mẫu Nếu phần tử được duyệt đã vượt quá kích thước của hồ chưa mẫu r thì với xác suất là 𝒓

𝒌 phần tử đó sẽ được thay thế ngẫu nhiên bằng một phần tử trong hồ chứa mẫu Sau khi duyệt hết tất cả các phần tử, hồ chưa mẫu với kích thước r là tập dữ liệu được lấy ngẫu nhiên từ dữ liệu ban đầu Hình 5 biểu diễn chi tiết thuật toán

Trang 26

17

Hình 5 Thuật toán Reservoir Sampling

Ưu điểm của phương pháp lấy mẫu này là một thuật toán đơn giản và hiệu quả trong việc lấy mẫu Giải thuật lấy mẫu này có thời gian chạy hiệu quả với độ

phưc tạp là O(n) với n là số lượng phần tử trong tập dữ liệu Ngoài ra, việc giới

hạn kích thước của hồ chứa mẫu giúp cho việc tính toán không cần dùng nhiều tài nguyên hệ thống Điều này cực kỳ hiệu quả đối với các hệ thống có tài nguyên hạn chế Bên cạnh đó, mỗi phần tử cũng được đảm bảo tính ngẫu nhiên từ tập dữ liệu ban đầu Mỗi phần tử đều có cùng xác suất được chọn vào tập con và không có bất kỳ phân phối nào được giả định trước Điều này có nghĩa là dữ liệu ban đầu không cần phải được phân phối theo một mô hình nhất đinh (ví dụ: phân phối chuẩn) Nhờ tính chất này, hồ chứa mẫu là một phương pháp linh hoạt và có thể được dùng cho nhiều loại dữ liệu khác nhau Bên cạnh đó, phương pháp lấy mẫu này có khả năng mở rộng để áp dụng cho các tập dữ liệu lớn và dòng dữ liệu liên tục Kích thước của hồ chứa mẫu có thể điều chỉnh linh hoạt để thích ứng với yêu cầu lấy mẫu khác nhau Đối với các dữ liệu thay đổi theo thời gian, thêm hay xóa phần tử, phương pháp này không phù hợp vì sẽ làm thay đổi xác suất được chọn của các phần tử trong tập dữ liệu Điều này dẫn đến sự thiếu công bằng trong việc lấy mẫu và không đảm bảo tính ngẫu nhiên trong trường hợp tập dữ liệu thay đổi