Hình 20: Kiến trúc hệ thống CDN của cơng ty NTT Nhật Bản.
Tập dữ liệu được sử dụng trong phần này cũng tương tự như tập dữ liệu trong phần 6.1.1. Cụ thể hơn, phần này sử dụng 2 tập dữ liệu gồm: tập dữ liệu thực của hệ thống CDN tại Việt Nam và một tập dữ liệu mô phỏng sinh ra từ phân phối Gamma.
6.2.2 Kết quả thí nghiệm
Trong phần này, luận văn sử dụng 2 giải thuật Bayesian đa mục tiêu là USeMO và TSEMO. Giải thuật USeMO sử dụng 2 acquisition function là UCB và EI. Đối với hướng tiếp cận giải thuật di truyền, luận văn sử dụng giải thuật NSGA-II. Các giải thuật này được thiết lập thông số như đã mơ tả trong phần 5.4.1 và 5.4.2.2.
Hình 21 cho thấy kết quả khi chạy các giải thuật tối ưu hóa Bayesian và
NSGA-II cho bài toán cấp phát bộ nhớ với tập dữ liệu mô phỏng. Kết quả cho thấy các giải thuật Bayesian tốt hơn so với giải thuật NSGA-II trong trường hợp kích thước mạng nhỏ và trung bình. Trong trường hợp kích thước mạng lớn, giải thuật TSEMO cho kết quả tệ hơn so với NSGA-II. Điều này do giải thuật TSEMO sẽ trở nên khó tối ưu hơn khi số biến đầu vào trở lên lớn. Tuy nhiên, các hướng tiếp cận của giải thuật USeMO đều cho kết quả tốt hơn NSGA-II và TSEMO. Giải thuật USeMO với
acquisition function UCB cho kết quả tốt hơn USeMO với acquisition function EI.
Với các đường có cùng màu, đường nết đứt luôn cho kết quả tốt hơn đường nết liền, điều này nghĩa rằng hướng tiếp cận đề xuất trong luận văn có thể cải thiện hiệu năng giải thuật Bayesian gốc.
(b) Pareto front được lấy ngẫu nhiên từ một trong 10 lần chạy. (F1, F2 lần lượt là giá
trị được chuẫn hóa của và )
Hình 21: Kết quả chạy các giải thuật tối ưu hóa đa mục tiêu cho bài tốn cấp phát bộ nhớ với dữ liệu mơ phỏng. (Các đường cùng màu với nét liền và nét đứt lần lượt là
giải thuật gốc và giải thuật đã được áp dụng đề xuất điều chỉnh tham số β.).
b) Thí nghiệm với tập dữ liệu thực
Hình 22 cho thấy Pareto front của giải thuật USeMO-UCB gốc và giải thuật này sau khi áp dụng phương pháp được đề xuất trong luận văn. Do việc chạy tối ưu hóa trên tập dữ liệu thực với hàng trăm GB log file có thể tốn rất nhiều thời gian, thí nghiệm này chỉ chạy giải thuật USeMO-UCB vì đây là giải thuật tốt nhất trong các thí nghiệm ở trên. Thí nghiệm này cũng so sánh giữa các nghiệm tối ưu được đề xuất bởi giải thuật Bayesian với giải pháp hiện tại của hệ thống thực. Hình 23 cho thấy sự đánh đổi giữa chi phí có thể tiết kiệm với chất lượng hệ thống. Các nghiệm này được lấy từ Pareto front của giải thuật USeMO-UCB với phương pháp điều chỉnh tham số β. Kết quả cho thấy với tập nghiệm được đề xuất từ giải thuật tối ưu hóa này, chủ hệ thống CDN có thể tiết kiệm được gần 39% chi phí với cùng chất lượng hệ thống hiện tại.
Hình 22: Pareto front của giải thuật USeMO-UCB gốc và giải thuật USeMO-UCB với giải pháp điều chỉnh tham số β.
Hình 23: Sự đánh đổi giữa chi phí tiết kiệm được và chất lượng hệ thống.
6.2.2.2 Bài toán phân bố replica servers
Thí nghiệm này khơng sử dụng hệ thống CDN của cơng ty Việt Nam do kích thước của hệ thống này quá nhỏ (chỉ có 5 nodes) dẫn đến khơng gian nghiệm của bài tốn nhỏ (có 25 nghiệm khả dĩ). Dữ liệu được sử dụng trong phần này là tập dữ liệu mơ phỏng. Hình 24 là kết quả chạy thí nghiệm của các giải thuật Bayesian và NSGA- II cho bài toán phân bố replica servers với hệ thống CDN của công ty Pháp và Nhật. Các đường nét liền và nét đứt cùng màu lần lượt là giải thuật Bayesian gốc và giải thuật Bayesian đã áp dụng phương pháp điều chỉnh tham số được đề xuất trong luận văn. Tổng quan kết quả cho thấy các giải thuật Bayesian đều cho kết quả tốt hơn rất nhiều so với giải thuật di truyền NSGA-II. Hơn thế nữa, thấy phương pháp để xuất của luận văn có thể cải thiện rõ rệt giải thuật Bayesian gốc trong tất cả trường hợp. Riêng
trường hợp giải thuật USeMO sử dụng acquisition function EI với mạng kích thước lớn giải thuật đề xuất có hội tụ nhanh hơn giải thuật gốc trong các bước chạy đầu và ở các bước chạy đánh giá sau, 2 giải thuật này hội tụ gần nhau. USeMO với acquisition
function UCB cho kết quả tốt nhất so sánh với các giải thuật Bayesian khác.
(a) Normalized Hypervolume Indicator trung bình 10 lần chạy
(b) Pareto front được lấy ngẫu nhiên từ một trong 10 lần chạy. Hình 24: Kết quả chạy các giải thuật tối ưu hóa đa mục tiêu cho bài
CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TRIỂN
Các dịch vụ đa phương tiện trực tuyến ngày càng phát triển với nhu cầu và tiêu chí về chất lượng dịch vụ ngày càng cao. Vai trị của hệ thống CDN trong mơ hình hệ thống của các cơng ty cung cấp nội dung ngày càng quan trọng. Mặc dù đây không phải là một công nghệ mới mà đã được áp dụng rộng rãi trong công nghiệp. Việc nghiên cứu và tối ưu hóa hệ thống CDN vẫn là một bài toán mà doanh nghiệp và giới nghiên cứu quan tâm. Một môi trường thử nghiệm đáng tin cậy là cần thiết để các nhà nghiên cứu có thể triển khai, thử nghiệm các ý tưởng cải thiện. Bên cạnh đó nhu cầu về việc tối ưu hóa chi phí đầu tư cơ sở hạ tầng hệ thống CDN cũng là một bài toán được các nhà cung cấp dịch vụ hay người thuê hệ thống cloud CDN quan tâm. Những nhu cầu thực tiễn đó là động lực cho đề tài luận văn này.
Công cụ giả lập được phát triển trong luận văn này có khả năng tái triển khai các ứng dụng thực từ hệ thống được giả lập, đồng thời có thể trả về các kết quả độ đo với độ tin cậy chấp nhận được. Người dùng có thể dễ dàng sử dụng cơng cụ kết hợp với Docker để triển khai ứng dụng của họ. Tuy nhiên, luận văn vẫn có một số hạn chế về việc đánh giá công cụ. Nhiều thông tin của hệ thống thực được dùng trong thí nghiệm khơng được cung cấp đầy đủ do tính bảo mật của doanh nghiệp, dẫn đến việc giả lập khơng mơ phỏng được hồn tồn điều kiện hệ thống. Kết quả khi so sánh các độ đo chất lượng hệ thống giữa môi trường giả lập và môi trường thực bị chênh lệch. Ngoài ra một số độ đo khác của hệ thống thực như traffic nội mạng, MLU,... không được lưu lại bởi hệ thống log nên luận văn không thể đánh giá tất cả các độ đo mà công cụ cung cấp. Trong tương lai, luận văn sẽ tìm thêm các tập dữ liệu đầy đủ và lý tưởng hơn để đánh giá bộ giả lập.
Trong luận văn này, bài toán cấp phát tài nguyên cho hệ thống CDN được mơ hình hóa như một bài tốn tối ưu hóa đa mục tiêu rời rạc. Bài tốn tổng qt này có thể mở rộng cho nhiều hàm đánh giá chất lượng hệ thống hơn. Một số bài tốn thực tế có thể được mơ hình hóa tương tự như bài toán tổng quát này như: bài toán tối ưu hóa
topology mạng, bài tốn cấp phát bandwidth cho mạng,... Các hàm đánh giá chất lượng hệ thống trong luận văn này chỉ đơn giản là traffic nội mạng hệ thống. Chúng ta có thể tận dụng bộ giả lập để đánh giá các tiêu chí chất lượng khác như: hit rate, độ trễ, jitter, MLU…
Giải pháp tối ưu hóa đề xuất trong luận văn này cho thấy có thể cải thiện giải thuật Bayesian thông qua việc điều chỉnh tham số exploration và exploitation của acquisition function. Chúng ta có thể mở rộng, thử nghiệm ý tưởng này với các acquisition function khác. Bên cạnh đó, tùy thuộc vào bài tốn cụ thể mà ta có thể
DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ
Chương này là chương đính kèm các bài báo khoa học liên quan đến đề tài được công bố trong 2 năm trở lại đây. Danh sách các bài báo gồm có:
1) H. L. La et al., “A use case of Content Delivery Network raw log file analysis,” in Proceeding of the 2020 International Conference on Advanced Computing and Applications (ACOMP), 2020, pp. 71-78.
2) H. L. La et al., “CDNET: A Content Delivery Network Emulator,” in
Proceeding of the 2021 International Symposium on Networks, Computers and Communications (ISNCC), 2021.
3) H. L. La et al., "A Multi-Objective Approach for Optimizing Content Delivery Network System Configuration," in Proceeding of the 22nd Asia-Pacific
Network Operations and Management Symposium (APNOMS), 2021, pp. 226-
TÀI LIỆU THAM KHẢO
[1] M. Peuster et al.,"MeDICINE: Rapid prototyping of production-ready network services in multi-PoP environments," in Proc. of the Conference on Network Function Virtualization and Software Defined Networks (NFV-SDN), 2016, pp.
148-153.
[2] B. Lantz et al., "A network in a laptop: rapid prototyping for software-defined networks," in Proceedings of the 9th ACM SIGCOMM Workshop on Hot
Topics in Networks, 2010, pp. 1-6.
[3] S. Hykes et al., "Docker." Internet: www.docker.com/get-started, Jul. 10,
2021.
[4] H. L. La et al., "A use case of Content Delivery Network raw log file
analysis," in Proceedings of the International Conference on Advanced Computing and Applications (ACOMP), 2020, pp. 71-78.
[5] F. Zhou et al., "Joint optimization for the delivery of multiple video channels in Telco-CDN," in Proceedings of the 9th International Conference on Network and Service Management (CNSM 2013), 2013, pp. 161-165.
[6] T. Nakajima et al., “A light-weight content distribution scheme for cooperative caching in telco-cdns,” in Proceedings of the Fourth International Symposium
on Computing and Networking (CANDAR), 2016, pp. 126–132.
[7] H. Che et al., “Analysis and design of hierarchical webcaching systems,” in Proceedings of the Conference on Computer Communications. Twentieth Annual Joint Conference of the IEEE Computer and Communications Society,
[8] F. Olmos et al., “Catalog dynamics: Impact of content publishing and
perishing on the performance of a LRU cache,” in Proceedings of the 26th
International Teletraffic Congress, 2014, pp. 1-9.
[9] A. Varga and R. Hornig, "An overview of the OMNeT++ simulation environment," in Proceedings of the 1st international conference on Simulation tools and techniques for communications, networks and systems & workshops, 2008, pp. 1-10.
[10] L. Wang et al., "Reliability and Security in the CoDeeN Content Distribution
Network," in Proceedings of the General Track: USENIX Annual Technical
Conference, 2004. p. 171-184.
[11] J. M. Marquès et al., "Planetlab," Internet: https://planetlab.cs.princeton.edu/, Jul. 10, 2021.
[12] K. Stamos et al., “CDN: A simulation tool for content distribution networks,” ACM Trans. Model. Comput. Simul., vol. 20, Jan. 2010.
[13] S. U. Khan and C. Ardil, "A fast replica placement methodology for large- scale distributed computing systems," in Proceedings of the International Conference on Parallel and Distributed Computing Systems (ICPDCS). 2009.
pp. 121-127.
[14] Z. Feng et al., "Optimizing content delivery in ICN networks by the supply
chain model," in Proceedings of the 35th International Performance Computing and Communications Conference (IPCCC), 2016, pp. 1-8.
[15] T. Kelly and D. Reeves, "Optimal Web cache sizing: Scalable methods for exact solutions," Computer Communications, vol. 24, no.2, pp. 163-173, 2001. [16] S. Sajithabanu and S. R. Balasundaram, "Cloud based Content Delivery
Network using Genetic Optimization Algorithm for storage cost," in
Telecommunications Systems (ANTS), 2016, pp. 1-6.
[17] T. Nguyen et al., "Resource optimization for content distribution networks in
shared infrastructure environment," in Proc. of the Australian
Telecommunications Networks Applications Conference (ATNAC), 2003.
[18] J. Sahoo et al., "A Survey on Replica Server Placement Algorithms for
Content Delivery Networks," in IEEE Communications Surveys & Tutorials, vol. 19, no. 2, pp. 1002-1026, 2017.
[19] S. Iturriaga et al., “Evolutionary algorithms for optimizing cost and qos on
cloud-based content distribution networks,” Programming and Computer Software, vol. 45, pp. 544–556, Dec. 2019.
[20] Y. Fu et al., “Multi-objective Flow Shop Deteriorating Scheduling Problem
via an Adaptive Multipopulation Genetic Algorithm,” in Proceedings of the Institution of Mechanical Engineers, Part B: Journal of Engineering Manufacture 232, pp. 2641-2650, Dec. 2018.
[21] J. Jia et al., "Attribute weighting methods and decision quality in the presence of response error: a simulation study." Journal of Behavioral Decision
Making, vol.11, pp. 85-105, 1998.
[22] K. Deb et al., "A fast and elitist multiobjective genetic algorithm: NSGA-II," IEEE Transactions on Evolutionary Computation, vol. 6, no. 2, pp. 182-197,
Apr. 2002.
[23] C. E. Rasmussen and C. K. Williams, Gaussian processes for machine learning. MA: MIT Press, 2006.
[24] F. Hutter et al., "Sequential model-based optimization for general algorithm
[25] R. Jenatton et al., "Bayesian optimization with tree-structured dependencies,"
in Proceedings of the International Conference on Machine Learning, 2017. p. 1655-1664.
[26] A. Shah et al., "Student-t processes as alternatives to Gaussian processes," in Proceedings of the Artificial intelligence and statistics, 2014, p. 877-885.
[27] D. R. Jones et al., "Efficient global optimization of expensive black-box
functions," Journal of Global Optimization, vol.13, no.4, pp. 455–492, 1998. [28] N. Srinivas et al., "Gaussian process optimization in the bandit setting: No
regret and experimental design," ICML. [Online]. Avaiable:
https://icml.cc/Conferences/2010/papers/422.pdf.
[29] H. J. Kushner, “A new method of locating the maximum point of an arbitrary
multipeak curve in the presence of noise,” IEEE Transactions on Automatic
Control, vol.1, pp. 69-79, 1963.
[30] J. M. Hernández-Lobato et al., "Predictive entropy search for efficient global
optimization of black-box functions," in Proceedings of the 27th International
Conference on Neural Information Processing Systems, 2014, pp. 918–926.
[31] E. Contal et al., "Parallel gaussian process optimization with upper confidence bound and pure exploration," in Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pp.
225–240, 2013.
[32] T. Desautels et al., "Parallelizing exploration-exploitation tradeoffs in gaussian process bandit optimization," Journal of Machine Learning Research, vol. 15, pp. 3873–3923, 2014.
[33] T. Kathuria et al., "Batched gaussian process bandit optimization via
Systems, vol. 29, pp. 4206–4214, 2016.
[34] J. Azimi et al., "Batch bayesian optimization via simulation matching,"
In Advances in Neural Information Processing Systems, 2010, pp. 109-117. [35] J. González et al., "Batch bayesian optimization via local penalization," In
Artificial intelligence and statistics, 2016, pp. 648–657.
[36] J. Knowles, "Parego: a hybrid algorithm with on-line landscape approximation for expensive multiobjective optimization problems," in IEEE Transactions on
Evolutionary Computation, vol. 10, no. 1, pp. 50–66, 2006.
[37] S. Belakaria et al., "Uncertainty-aware search framework for multi-objective
Bayesian optimization." In Proceedings of the AAAI Conference on Artificial
Intelligence, pp. 10044-10052. 2020.
[38] E. Bradford et al., "Efficient multiobjective optimization employing Gaussian
processes, spectral sampling and a genetic algorithm", Journal of Global Optimization, vol. 71, no. 2, pp. 407-438, 2018.
[39] M. K. Lukovic et al., "Diversity-Guided Multi-Objective Bayesian
Optimization With Batch Evaluations," Advances in Neural Information
Processing Systems, vol. 33, pp. 17708-17720, 2020.
[40] E. C. Garrido-Merchán and D. Hernández-Lobato, "Dealing with categorical and integer-valued variables in bayesian optimization with gaussian processes," Neurocomputing, vol. 380, p. 20-35, 2020.
[41] P. Luong et al., "Bayesian optimization with discrete variables,"
in Proceedings of the Australasian Joint Conference on Artificial Intelligence, 2019, pp. 473-484.
networking experiments and technologies, 2012, pp. 253-264.
[43] N. Handigol et al., "Mininet performance fidelity benchmarks," Internet:
https://hci.stanford.edu/cstr/reports/2012-02.pdf, Jul. 10, 2021.
[44] E. Zitzler and L. Thiele, "Multiobjective optimization using evolutionary algorithms - A comparative case study," in Proceedings of the International Conference on Parallel Problem Solving from Nature (PPSN), 1998, pp. 292–
301.
[45] M. G. Genton, "Classes of kernels for machine learning: a statistics perspective," Journal of machine learning research, vol.2, pp. 299-312, Dec. 2001.
[46] F. Bowman, Introduction to Bessel Functions, Dover: New York, 1958.
[47] I. Sysoev et al., "Nginx." Internet: https://www.nginx.com/, Jul. 10, 2021. [48] R. McCool et al., "Apache Sofware Foundation." Internet:
https://httpd.apache.org/, Jul. 10, 2021.
[49] P. H. Kamp etc al., "Varnish." Internet: https://varnish-cache.org/, Jul. 10,
2021.
[50] J. Vila-Carbo et al., "An evaluation of switched ethernet and linux traffic
control for real-time transmission," in Proceedings of the IEEE International Conference on Emerging Technologies and Factory Automation, 2008, pp.
400-407.
[51] "FastAPI." Internet: https://fastapi.tiangolo.com/, Jul. 10, 2021.
[52] A. N. Tran ec al., "A Scalable Color-Based Caching Scheme in Telco-CDNs,"
in Proceedings of the 15th International Conference on Network and Service
[53] "Netdata." Internet: https://www.netdata.cloud/, Jul. 10, 2021.
[54] E. W. Dijkstra, “A note on two problems in connexion with graphs,”
Numerische Mathematik, vol. 1, no. 1, p. 269–271, Dec. 1959.
[55] C. Maschio and D. Schiozer, “Probabilistic history matching usingdiscrete latin hypercube sampling and nonparametric density estimation,”
Journal of Petroleum Science and Engineering, vol. 147, May. 2016.
[56] T. Anh et al., "Constrained mixed-integer Gaussian mixture Bayesian