Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 94 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
94
Dung lượng
1,88 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng sử dụng học tăng cường sâu NGUYỄN XUÂN TUẤN TRUNG Trung.nxt202893M@sis.hust.edu.vn Ngành Kỹ thuật viễn thông Chữ ký GVHD Giảng viên hướng dẫn: TS Phạm Tuấn Minh PGS.TS Nguyễn Hữu Thanh Trường: Điện - Điện tử HÀ NỘI, 09/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Xuân Tuấn Trung Đề tài luận văn: Xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng sử dụng học tăng cường sâu Chuyên ngành: Kỹ thuật viễn thông Mã số SV: 20202893M Tác giả, người hướng dẫn khoa học hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/10/2022 với nội dung sau: • Bổ sung thơng tin thiếu mục 2.2 bao gồm: luồng phục vụ thành công; không phục vụ thành công; mối quan hệ thành phần dịch vụ 𝑐𝑖 lực tính tốn nút 𝑐𝑎𝑝𝑖 • Giải thích cách huấn luyện mạng nơ-ron tác nhân nhà phê bình mục 2.3.2.3 • Giải thích kết hình 3.2, 3.3, 3.4 • Thêm bảng định nghĩa cơng thức tốn học Hà Nội, Ngày Giáo viên hướng dẫn tháng 11 năm 2022 Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG LỜI CAM ĐOAN Tôi Nguyễn Xuân Tuấn Trung, mã số học viên 20202893M, học viên lớp kỹ thuật viễn thơng (KH), khóa 2020B Người hướng dẫn TS Phạm Tuấn Minh PGS TS Nguyễn Hữu Thanh Tơi xin cam đoan tồn nội dung trình bày luận văn “Xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng sử dụng học tăng cường sâu” kết trình tìm hiểu nghiên cứu Các liệu nêu luận văn hồn tồn trung thực, phản ánh kết mơ thực tế Mọi thơng tin trích dẫn tn thủ quy định sở hữu trí tuệ, tài liệu tham khảo liệt kê rõ ràng Tôi xin chịu hoàn toàn trách nhiệm với nội dung viết luận văn Hà Nội, ngày 29 tháng 09 năm 2022 Người cam đoan Nguyễn Xuân Tuấn Trung MỞ ĐẦU Ảo hóa chức mạng (Network Function Virtualization - NFV) dần trở thành thành phần kiến trúc mạng Internet hệ Dịch vụ NFV bao gồm thành phần chức kết nối với nhau, gọi chuỗi chức dịch vụ (Service Function Chaining - SFC), chạy nhiều nút mạng theo yêu cầu Để đáp ứng yêu cầu dịch vụ, chức dịch vụ cần khởi tạo nút Sau luồng liệu yêu cầu dịch vụ điều khiển đến nút này, tùy theo chuỗi chức dịch vụ mục tiêu tối ưu nhà cung cấp dịch vụ NFV Thông thường để giải vấn đề điều khiển lưu lượng, nhà cung cấp thường tiếp cận phương pháp tùy chỉnh thiết kế chuyên gia Tuy nhiên, phương pháp hoạt động tốt cho kịch định mơ hình thường dựa vào giả định khơng thực tế kiến thức khơng có sẵn Học tăng cường sâu năm gần trở nên phổ biến với toán định phức tạp với thông tin môi trường khơng đầy đủ Phương pháp học cách đưa định điều phối dịch vụ tốt hướng tới giả định thực tế Nó tương tác trực tiếp với môi trường mạng hoạt động dựa thơng tin giám sát có sẵn Một tác nhân huấn luyện ngoại tuyến mà không cần tới kiến thức chuyên gia sau triển khai trực tuyến mạng Tác nhân học định điều khiển lưu lượng tốt nhằm tối ưu hóa mục tiêu khác So sánh với thuật toán heuristic, mơ hình học tăng cường sâu có khả áp dụng linh hoạt cho mơ hình lưu lượng liệu mục tiêu tối ưu khác Vì vậy, em xin chọn đề tài "Xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng sử dụng học tăng cường sâu” Qua luận văn này, em xin chân thành cảm ơn hướng dẫn trực tiếp hỗ trợ từ TS Phạm Tuấn Minh góp ý đến từ PGS.TS Nguyễn Hữu Thanh Em xin bày tỏ biết ơn tới gia đình, người thân bạn bè hỗ trợ động viên tinh thần suốt trình nghiên cứu hồn thành luận văn HỌC VIÊN TĨM TẮT LUẬN VĂN Mục tiêu luận văn áp dụng học tăng cường sâu để xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng đáp ứng nhiều mục tiêu tối ưu mơ hình lưu lượng khác Đồng thời, so sánh đánh giá hiệu với mơ hình ứng dụng học tăng cường sâu với thuật toán heuristic việc điều khiển lưu lượng Mơ hình đưa dựa vào thơng tin giám sát có sẵn từ hệ thống mạng, học tìm giải pháp điều khiển lưu lượng nhằm tối ưu mục tiêu tỷ lệ chấp nhận yêu cầu trễ đầu cuối trung bình luồng Tác nhân mơ hình đề xuất huấn luyện ngoại tuyến triển khai trực tuyến mạng Các kết từ mơ cho thấy, mơ hình mà tác giả đề xuất vượt trội so với thuật toán xấp xỉ luyện kim Ngồi trường hợp quy mơ mạng thay đổi thực tế, mơ hình cho kết khả quan Luận văn trình bày thành chương sau: Chương giới thiệu tổng quan lý thuyết ảo hóa chức mạng bao gồm khái niệm, đặc điểm, kiến trúc mơ hình dịch vụ NFV Trong chương tác giả giới thiệu phương pháp học tăng cường sâu, bao gồm khái niệm, mơ hình, phương pháp lịch sử phát triển loại hình học máy Chương tiền đề để xây dựng mơ hình đề xuất chương sau Chương hai luận văn trình bày vấn đề điều khiển lưu lượng ảo hóa chức mạng, hạn chế phương pháp sử dụng Cùng với khảo sát tác giả nghiên cứu có Tiếp đó, tác giả đưa mơ hình hóa toán điều khiển lưu lượng NFV đưa phương pháp giải vấn đề mà tác giả đề xuất dựa học tăng cường sâu phương pháp xấp xỉ Chương ba luận văn đưa đề xuất mơ hình thí nghiệm mà tác giả tiến hành để đánh giá hiệu thuật toán đề xuất với thuật toán xấp xỉ Các thí nghiệm tiến hành kịch khác tăng số lượng nút đầu vào, tăng lực tính tốn nút mạng mở rộng quy mô mạng Kết đánh giá cho thấy tính hiệu mơ hình đề xuất với thông số hiệu độ trễ đầu cuối tỷ lệ đáp ứng yêu cầu dịch vụ HỌC VIÊN MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU TOÁN HỌC iii DANH MỤC THUẬT NGỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii CHƯƠNG GIỚI THIỆU VỀ ẢO HÓA CHỨC NĂNG MẠNG VÀ HỌC TĂNG CƯỜNG SÂU 1.1 Giới thiệu ảo hóa chức mạng 1.1.1 Khái niệm 1.1.2 Đặc điểm NFV 1.1.3 Kiến trúc NFV 1.1.4 Dịch vụ NFV 10 1.2 Giới thiệu học tăng cường sâu 12 1.2.1 Giới thiệu học tăng cường 12 1.2.2 Phân loại thuật toán 14 1.2.3 Học sâu cho học tăng cường 19 1.2.4 Lịch sử phát triển 21 1.3 Kết luận chương 28 CHƯƠNG BÀI TOÁN ĐIỀU KHIỂN LƯU LƯỢNG TRONG ẢO HÓA CHỨC NĂNG MẠNG 29 2.1 Giới thiệu toán điều khiển lưu lượng NFV 29 2.1.1 Mơ tả tốn 29 2.1.2 Các nghiên cứu liên quan 31 2.2 Mơ hình hóa toán 32 2.2.1 Mơ hình hóa đầu vào 32 2.2.2 Mô hình hóa đầu 34 2.2.3 Mơ hình hóa mục tiêu tối ưu 34 2.3 Thuật toán học tăng cường sâu để điều khiển lưu lượng NFV 35 i 2.3.1 Mơ tả thuật tốn 35 2.3.2 Xây dựng thuật toán học tăng cường sâu cho toán NFV 40 2.4 Thuật toán luyện kim để điều khiển lưu lượng NFV 45 2.4.1 Mô tả thuật toán 45 2.4.2 Xây dựng thuật toán luyện kim để giải toán 47 2.5 Kết luận chương 48 CHƯƠNG ĐÁNH GIÁ THUẬT TOÁN 49 3.1 Cài đặt thuật toán 49 3.1.1 Thuật toán học tăng cường sâu DDPG 49 3.1.2 Thuật toán luyện kim SA 49 3.2 Kịch đánh giá 49 3.2.1 Mơ hình lưu lượng liệu 49 3.2.2 Mơ hình mạng 53 3.2.3 Mơ hình chuỗi dịch vụ 54 3.2.4 Môi trường mô 55 3.3 Kết đánh giá 55 3.3.1 Chọn số vòng lặp huấn luyện 55 3.3.2 Số nút đầu vào dịch vụ thay đổi 56 3.3.3 Khả tính tốn nút mơ hình mạng thay đổi 62 3.3.4 Quy mơ mơ hình mạng thay đổi 64 3.4 Kết luận 65 TÀI LIỆU THAM KHẢO 67 ii 3.3.4 Quy mô mơ hình mạng thay đổi Nhằm đánh giá hiệu thuật tốn với quy mơ mạng khác nhau, thí nghiệm thực mơ hình mạng bao gồm Abilence (11 nút mạng), BT Europe (24 nút mạng), China Telecom (42 nút mạng), TiNet (53 nút mạng) có nút đầu vào; mơ hình lưu lượng liệu tuân theo phân bố Poisson Kết so sánh dựa theo hai tiêu chí tỷ lệ đáp ứng yêu cầu trễ đầu cuối trung bình luồng phục vụ thành cơng Kết so sánh tác nhân DRL có trọng số mục tiêu khác nhau, với thuật toán SA Trước tiên, đánh giá tỷ lệ đáp ứng yêu cầu kích thước mạng thay đổi Hình 3.10 tương ứng với mơ hình lưu lượng liệu tuân theo phân bố Poisson Trục tung biểu đồ biểu trễ đầu cuối trung bình luồng phục vụ thành công, đơn vị ms Trục hoành biểu đồ biễu diễn quy mô nút tăng dần từ 11 nút, 24 nút, 42 nút, 53 nút Các đường biểu đồ tương ứng: màu xanh dương (thuật toán DRL với trọng số flow weight = 1, delay weight = 0); màu xanh lục (thuật toán DRL với trọng số flow weight = 0.5, delay weight = 0.5); màu đỏ (thuật toán DRL với trọng số flow weight = 0, delay weight = 1) màu vàng (thuật tốn SA) Hình 3.10 Tỷ lệ chấp nhận yêu cầu quy mô mạng thay đổi Theo hình 3.10, quy mơ mạng lớn lên tác nhân DRL với trọng số chấp nhận yêu cầu flow weight = vượt trội so với thuật toán SA Tỷ lệ chấp nhận yêu cẩu tác nhân DRL với trọng số flow weight = tăng lên theo quy mô số nút mạng Khi so sánh tác nhân DRL với trọng số 64 mục tiêu khác nhau, trọng số mục tiêu tỷ lệ chấp nhận yêu cầu lớn tỷ lệ chấp nhận kết nối lớn Tiếp theo, đánh giá độ trễ đầu cuối trung bình kích thước mạng thay đổi Trục tung biểu đồ biểu trễ đầu cuối trung bình luồng phục vụ thành cơng, đơn vị ms Trục hoành biểu đồ biễu diễn quy mô nút tăng dần từ 11 nút, 24 nút, 42 nút, 53 nút Các đường biểu đồ tương ứng: màu xanh đương (thuật toán DRL với trọng số flow weight = 1, delay weight = 0); màu xanh lục (thuật toán DRL với trọng số flow weight = 0.5, delay weight = 0.5); màu đỏ (thuật toán DRL với trọng số flow weight = 0, delay weight = 1) màu vàng (thuật tốn SA) Hình 3.11 Trễ đầu cuối trung bình quy mơ mạng thay đổi Theo hình 3.11, ta thấy rằng, với quy mơ mạng lớn trễ trung bình luồng yêu cầu thành công tăng Nguyên nhân chức mạng đặt nút cách xa quy mô mạng lớn So sánh tác nhân DRL có trọng số mục tiêu khác nhau, trọng số trễ lớn trễ đầu cuối trung bình luồng u cầu phục vụ thành cơng nhỏ Cịn so sánh với thuật tốn SA rõ ràng tác nhân DRL hoàn toàn vượt trội 3.4 Kết luận Trong luận văn, tác giả áp dụng học tăng cường sâu để xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng đáp ứng nhiều mục 65 tiêu tối ưu mơ hình lưu lượng khác Đồng thời, luận văn so sánh đánh giá hiệu mơ hình ứng dụng học tăng cường sâu với thuật toán heuristic việc điều khiển lưu lượng Các kết đánh giá cho thấy mơ hình học tăng cường có kết vượt trội so với thuật toán xấp xỉ luyện kim tỷ lệ đáp ứng yêu cầu độ trễ đầu cuối trung bình thay đổi số nút đầu vào, khả tính tốn nút kích thước mơ hình mạng Luận văn có số hướng phát triển sau: • Mở rộng đánh giá hiệu mơ hình đề xuất cho tham số hiệu quan trọng khác thời gian đáp ứng yêu cầu, khả đảm bảo độ trễ đầu cuối • Mở rộng mơ hình để điều khiển lưu lượng có lỗi xảy nút hay liên kết hệ thống NFV • So sánh đánh giá mơ hình học tăng cường sâu luận văn với mơ hình học tăng cường sâu khác 66 TÀI LIỆU THAM KHẢO [1] Cui, Chunfeng and Deng, Hui and Telekom, Deutsche and Michel, Uwe and Damker, Herbert, "Network Functions Virtualisation," SDN and OpenFlow World Congress, no 1, p 5, 22-24 October 2012 [2] "Network Functions Virtualisation (NFV); Use Cases," ETSI GS NFV 001, 2013 [3] Laura Graesser, Wah Loon Keng, Foundations of Deep Reinforcement Learning: Theory and Practice in Python, Addison-Wesley, 2020 [4] R J Williams, "Simple statistical gradient-following algorithms for connectionist reinforcement learning," Machine learning, vol 8, no 229-256, p 3, 1992 [5] R S Sutton, D McAllester, S Singh and Y Mansour, "Policy gradient methods for reinforcement learning with function approximation," Advances in neural information processing systems, vol 12, 1999 [6] Rummery, G A and Niranjan, M., On-line Q-learning using connectionist systems, Citeseer, 1994 [7] Mnih, Volodymyr and Kavukcuoglu, Koray and Silver, David and Graves, Alex and Antonoglou, Ioannis and Wierstra, Daan and Riedmiller, Martin, "Playing atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, 2013 [8] van Hasselt, H., Guez, A., and Silver, D, "Deep reinforcement learning with double q-learning," in Proceedings of the AAAI conference on artificial intelligence, 2016 [9] Kalashnikov, Dmitry and Irpan, Alex and Pastor, Peter and Ibarz, Julian and Herzog, Alexander and Jang, Eric and Quillen, Deirdre and Holly, Ethan and Kalakrishnan, Mrinal and Vanhoucke, Vincent and others, "QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation," arXiv preprint arXiv:1806.10293, 2018 67 [10] Silver, D., Huang, A., Maddison, C J., Guez, A., Sifre, L., Van Den Driessche, G.,, "Mastering the game of Go with deep neural networks and tree search," Nature, vol 529, no 484 489, p 7587, 2016 [11] W a T E Li, "Iterative linear quadratic regulator design for nonlinear biological movement systems," in ICINCO (1), Citeseer, 2004 [12] Schulman, John and Levine, Sergey and Abbeel, Pieter and Jordan, Michael and Moritz, Philipp, "Trust region policy optimization," in International conference on machine learning, PMLR, 2015 [13] Schulman, John and Wolski, Filip and Dhariwal, Prafulla and Radford, Alec and Klimov, Oleg, "Proximal policy optimization algorithms," arXiv preprint arXiv:1707.06347, 2017 [14] Lillicrap, Timothy P and Hunt, Jonathan J and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan, "Continuous control with deep reinforcement learning," arXiv preprint arXiv:1509.02971, 2015 [15] Haarnoja, Tuomas and Zhou, Aurick and Abbeel, Pieter and Levine, Sergey, "Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor," arXiv preprint arXiv:1801.01290, 2018 [16] R S Sutton, "Dyna, an Integrated Architecture for Learning, Planning, and," ACM Sigart Bulletin, vol 2, no 160 163, p 4, 1991 [17] LeCun, Y., Boser, B., Denker, J S., Henderson, D., Howard, R E., Hubbard, W.,, "Backpropagation applied to handwritten zip code recognition}," Neural computation, vol 1, no 541 551, p 4, 1989 [18] Tesauro, G el at., "Temporal difference learning and TD-Gammon," Communications of the ACM, vol 38, no 58 68, p 3, 1995 [19] "PyTorch," 2022 [Online] Available: https://github.com/pytorch/pytorch [Accessed 21 Sep 2022] [20] Abadi, Mart and Agarwal, Ashish and Barham, Paul and Brevdo, Eugene and Chen, Zhifeng and Citro, Craig and Corrado, Greg S and Davis, Andy and Dean, Jeffrey and Devin, Matthieu and others, "Tensorflow: Large- 68 scale machine learning on heterogeneous distributed systems," arXiv preprint arXiv:1603.04467, 2016 [21] Rumelhart, D E., Hinton, G E., and Williams, R J., "Learning representations by back-propagating errors," Nature, vol 323, no 533-536, p 6088, 1986 [22] R Bellman, Dynamic Programming, Princeton: Princeton University Press, 1957 [23] R Bellman, "A Markovian decision process," Journal of mathematics and mechanics, no 679 684, 1957 [24] R A Howard, Dynamic programming and markov processes, John Wiley, 1960 [25] W S Lovejoy, "A survey of algorithmic methods for partially observed Markov decision processes," Annals of Operations Research, vol 28, no 47 65, p 1, 1991 [26] D J White, "Real applications of Markov decision processes," Interfaces, vol 15, no 73 83, p 6, 1985 [27] D J White, "Further real applications of Markov decision processes," Interfaces, vol 18, p 5, 1988 [28] D J White, "A survey of applications of Markov decision processes," Journal of the operational research society, vol 44, no 1073 1096, p 11, 1993 [29] J Rust, "Numerical dynamic programming in economics," Handbook of computational economics, vol 1, no 619 729, 1996 [30] D P Bertsekas, "Distributed dynamic programming," IEEE transactions on Automatic Control, vol 27, no 610 616, p 3, 1982 [31] D P Bertsekas, "Distributed asynchronous computation of fixed points," Mathematical Programming, vol 27, no 107 120, p 1, 1983 [32] D P Bertsekas, Dynamic Programming and Optimal Control, Belmont: Athena Scientific, 2005 69 [33] D P Bertsekas, Dynamic Programming and Optimal Control, vol 2, Belmont: Athena Scientific, 2012 [34] M L Puterman, Markov Decision Problems, New York: Wiley, 1994 [35] S Ross, Introduction to Stochastic Dynamic Programming, New York: Academic Press, 1983 [36] P Whittle, Optimization over Time, vol 1, New York: Wiley, 1982 [37] P Whittle, Optimization over Time, New York: Wiley, 1983 [38] E L Thorndike, Animal Intelligence, Darien: Hafner, 1911 [39] G A Kimble, Hilgard and Marquis’ Conditioning and Learning, New York: Appleton-Century-Crofts, 1961 [40] G A Kimble, Foundations of Conditioning and Learning, New York: Appleton-Century-Croft, 1967 [41] J E Mazur, Learning and Behavior, 3rd ed., Englewood Cliffs, NJ: Prentice-Hall, 1994 [42] Hilgard, E R., Bower, G H., Theories of Learning, Prentice-Hall, NJ: Englewood Cliffs, 1975 [43] D C Dennett, "Why the law of effect will not go away," Brainstorms, no 71–89, 1978 [44] G Cziko, Without Miracles: Universal Selection Theory and the Second Darvinian, Cambridge, MA: MIT Press, 1995 [45] M L Minsky, "Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain-Model Problem," PhD thesis, Princeton University, 1954 [46] Waltz, M D., Fu, K S., "A heuristic approach to reinforcement learning control systems," IEEE Transactions on Automatic Control, vol 10, no 390 398, p 4, 1965 [47] J M Mendel, "A survey of learning control systems," ISA Transactions, no 297–303, p 5, 1966 70 [48] K S Fu, "Learning control systems Review and outlook," IEEE transactions on Automatic Control, vol 15, no 210 221, p 2, 1970 [49] M L Minsky, "Steps toward artificial intelligence," Proceedings of the IRE, vol 49, no 30, p 1, 1961 [50] Clark, W A., Farley, B G., "Generalization of pattern recognition in a selforganizing system," in Proceedings of the March 1-3, 1955, western joint computer conference, 1955 [51] F Rosenblatt, Principles of Neurodynamics: Perceptrons and the Theory of Brain, Washington, DC: Spartan Books, 1962 [52] Widrow, B., Hoff, M E., "Adaptive switching circuits," Stanford Univ Ca Stanford Electronics Labs, 1960 [53] J H Andreae, "STELLA: A scheme for a learning machine," IFAC Proceedings Volumes, vol 1, no 497 502, p 2, 1963 [54] D Michie, "Trial and error," Science Survey, no 129-145, 1961 [55] Michie, D., Chambers, R A., "BOXES: An experiment in adaptive control," Machine intelligence, vol 2, no 137 152, p 2, 1968 [56] B Widrow, "Pattern-recognizing control systems," Compurter and Information Sciences, 1964 [57] D Michie, On Machine Intelligence, Edinburgh: Edinburgh University Press, 1974 [58] Widrow, B., Gupta, N K., Maitra, S , "Punish/reward: Learning with a critic in adaptive threshold systems," IEEE Transactions on Systems, Man, and Cybernetics, no 455 465, p 5, 1973 [59] Tsetlin, M L et al., Automaton theory and modeling of biological systems, Academic Press New York, 1973 [60] Narendra, K S., Thathachar, M A L , "Learning automata-a survey," IEEE Transactions on systems, man, and cybernetics, no 323 334, p 4, 1974 71 [61] Narendra, K S., Thathachar, M A L , Learning automata: an introduction, Courier corporation, 2012 [62] Barto, A G and Anandan, P., "Pattern-recognizing stochastic learning automata," IEEE Transactions on Systems, Man, and Cybernetics, no 360-375, p 3, 1985 [63] J H Holland, Adaptation in Natural and Artificial Systems, Ann Arbor: University of Michigan Press, 1975 [64] J H Holland, "Escaping brittleness: the possibility of general purpose machine learning algorithms applied to parallel rule-based systems," RS Michalski, JG Carbonell and TM Mitchell Machine learning, 1986 [65] A H Klopf, "Brain function and adaptive systems: a heterostatic theory," Air Force Cambridge Research Laboratories, Air Force Systems Command, United States, 1972 [66] A H Klopf, "A comparison of natural and artificial intelligence," ACM SIGART Bulletin, no 11 13, p 52, 1975 [67] A H Klopf, The Hedonistic Neuron: A Theory of Memory, Learning, and Intelligence, Washington, DC.: Hemisphere, 1982 [68] Barto, A G., Anderson, C W., Sutton, R S., "Synthesis of nonlinear control surfaces by a layered associative search network," Biological Cybernetics, vol 43, no 175 185, p 3, 1982 [69] A G Barto, "Learning by statistical cooperation of self-interested neuronlike computing elements," Human Neurobiology, vol 4, no 229 256, p 4, 1985 [70] A G Barto, "Game-theoretic cooperativity in networks of self-interested units," in AIP Conference Proceedings, American Institute of Physics, 1986 [71] Barto, A G., Jordan, M I., "Gradient following without back-propagation in layered networks," Frontiers in cognitive neuroscience, no 443 449, 1992 72 [72] A L Samuel, "Some studies in machine learning using the game of checkers," IBM Journal of research and development, vol 44, no 206-226, p 1.2, 2000 [73] C E Shannon, "Programming a computer for playing chess," The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, vol 41, no 256 275, p 314, 1950 [74] R S Sutton, "A unified theory of expectation in classical and instrumental conditioning," Bachelors thesis, Stanford University, 1978 [75] Sutton, R S., Barto, A G., "Toward a modern theory of adaptive networks: expectation and prediction," Psychological review, vol 88, p 2, 1981 [76] Barto, A G., Sutton, R S., "Simulation of anticipatory responses in classical conditioning by a neuron-like adaptive element," Behavioural Brain Research, vol 4, no 221 235, p 3, 1982 [77] A H Klopf, "A neuronal model of classical conditioning," Psychobiology, vol 16, no 85 125, p 2, 1988 [78] Moore, J W., Desmond, J E., Berthier, N E., Blazis, E J., Sutton, R S., Barto, A G , "Simulation of the classically conditioned nictitating membrane response by a neuron-like adaptive element: Response topography, neuronal firing, and interstimulus intervals," Behavioural brain research, vol 21, no 143 154, p 2, 1986 [79] Sutton, R S., Barto, A G., "A temporal-difference model of classical conditioning," in Proceedings of the ninth annual conference of the cognitive science society, Seattle, WA, 1987 [80] Sutton, R S., Barto, A G., Time-derivative models of pavlovian reinforcement, The MIT Press, 1990 [81] Hawkins, Robert D and Kandel, Eric R, "Is there a cell-biological alphabet for simple forms of learning?," Psychological review, vol 91, no 375, p 3, 1984 [82] G Tesauro, "Simple neural models of classical conditioning," Biological cybernetics, vol 55, no 187 200, p 2, 1986 73 [83] Friston, K J., Tononi, G., Reeke, G N., Sporns, O., Edelman, G M., "Value-dependent selection in the brain: simulation in a synthetic neural model," Neuroscience, vol 59, no 229 243, p 2, 1994 [84] Schultz, W., Dayan, P., Montague, P R., "A neural substrate of prediction and reward," Science, vol 275, no 1593 1599, p 5306, 1997 [85] Barto, A G., Sutton, R S., Anderson, C W., "Neuronlike adaptive elements that can solve difficult learning control problems," IEEE transactions on systems, man, and cybernetics, no 834 846, p 5, 1983 [86] R S Sutton, "Temporal Credit Assignment in Reinforcement Learning," PhD thesis, University of Massachusetts, Amherst, 1984 [87] C W Anderson, "Learning and Problem Solving with Multilayer Connectionist Systems," PhD thesis, University of Massachusetts, Amherst, 1986 [88] R S Sutton, "Learning to predict by the methods of temporal differences," Machine learning, vol 3, no 44, p 1, 1988 [89] I H Witten, "An adaptive optimal controller for discrete-time Markov environments," Information and control, vol 34, no 286 295, p 4, 1977 [90] C J C H Watkins, "Learning from Delayed Rewards," PhD thesis, University of Cambridge, 1989 [91] P J Werbos, "Building and understanding adaptive systems: A statistical/numerical approach to factory automation and brain research," IEEE Transactions on Systems, Man, and Cybernetics, vol 17, no 20, p 1, 1987 [92] P J Werbos, "Advanced forecasting methods for global crisis warning and models of intelligence," General System Yearbook, no 25 38, 1977 [93] C.-H Hong and B Varghese, "Resource Management in Fog/Edge Computing: A Survey on Architectures, Infrastructure, and Algorithms," ACM Comput Surv 48, vol 52, no 0360-0300, p 5, 2015 74 [94] Z Á Mann, "Allocation of Virtual Machines in Cloud Data Centers—A Survey of Problem Models and Optimization Algorithms," ACM Comput Surv 52, vol 48, no 0360-0300, p 1, 2020 [95] J G Herrera and J F Botero, "Resource Allocation in NFV: A Comprehensive Survey," IEEE Transactions on Network and Service Management, vol 13, no 518-532, p 3, 2016 [96] H Moens and F De Turck, "VNF-P: A model for efficient placement of virtualized network functions," in 10th International Conference on Network and Service Management (CNSM) and Workshop, 2014 [97] R Mijumbi, J Serrat, J.-L Gorricho, N Bouten, F De Turck, and S Davy, "Design and evaluation of algorithms for mapping and scheduling of virtual network functions," Conference on Network Softwarization (NetSoft), no 1-9, 2015 [98] R Mijumbi, J Serrat, J.-L Gorricho, N Bouten, F De Turck, and S Davy, "Optimal virtual network function placement in multi-cloud service function chaining architecture," Computer Communications, vol 102, no 1–16, 2017 [99] T.-W Kuo, B.-H Liou, K C.-J Lin and M.-J Tsai, "Deploying chains of virtual network functions: On the relation between link and server usage," in IEEE INFOCOM 2016 - The 35th Annual IEEE International Conference on Computer Communications, 2016 [100] C Fuerst, S Schmid, L Suresh and P Costa, "Kraken: Online and elastic resource reservations for multi-tenant datacenters," 2016 [101] M Ghaznavi, A Khan, N Shahriar, K Alsubhi, R Ahmed and R Boutaba, "Elastic virtual network function placement," in 2015 IEEE 4th International Conference on Cloud Networking (CloudNet), 2015 [102] M Blöcher, R Khalili, L Wang and P Eugster, "Letting off STEAM: Distributed Runtime Traffic Scheduling for Service Function Chaining," in IEEE INFOCOM 2020 - IEEE Conference on Computer Communications, 2020 75 [103] L Popa, G Kumar, M Chowdhury, A Krishnamurthy, S Ratnasamy and I Stoica, "FairCloud: Sharing the Network in Cloud Computing," SIGCOMM Comput Commun Rev., vol 42, p 187–198, August 2012 [104] S Dräxler, H Karl and Z Á Mann, "JASPER: Joint Optimization of Scaling, Placement, and Routing of Virtual Network Services," IEEE Transactions on Network and Service Management, vol 15, pp 946-960, 2018 [105] C Hardegen, B Pfülb, S Rieger, A Gepperth and S Reißmann, "Flowbased Throughput Prediction using Deep Learning and Real-World Network Traffic," in 2019 15th International Conference on Network and Service Management (CNSM), 2019 [106] X Fei, F Liu, H Xu and H Jin, "Adaptive VNF Scaling and Flow Routing with Proactive Demand Prediction," in IEEE INFOCOM 2018 - IEEE Conference on Computer Communications, 2018 [107] X Zhang, C Wu, Z Li and F C M Lau, "Proactive VNF provisioning with multi-timescale cloud resources: Fusing online learning and online optimization," in IEEE INFOCOM 2017 - IEEE Conference on Computer Communications, 2017 [108] J Pei, P Hong, M Pan, J Liu and J Zhou, "Optimal VNF Placement via Deep Reinforcement Learning in SDN/NFV-Enabled Networks," IEEE Journal on Selected Areas in Communications, vol 38, pp 263-278, 2020 [109] X Wang, C Wu, F Le and F C M Lau, "Online Learning-Assisted VNF Service Chain Scaling with Network Uncertainties," in 2017 IEEE 10th International Conference on Cloud Computing (CLOUD), 2017 [110] Y Xiao, Q Zhang, F Liu, J Wang, M Zhao, Z Zhang and J Zhang, "NFVdeep: Adaptive Online Service Function Chain Deployment with Deep Reinforcement Learning," in 2019 IEEE/ACM 27th International Symposium on Quality of Service (IWQoS), 2019 [111] P T A Quang, Y Hadjadj-Aoul and A Outtagarts, "A Deep Reinforcement Learning Approach for VNF Forwarding Graph Embedding," IEEE Transactions on Network and Service Management, vol 16, pp 1318-1331, 2019 76 [112] Y S Nasir and D Guo, "Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks," IEEE Journal on Selected Areas in Communications, vol 37, pp 2239-2250, 2019 [113] L Gu, D Zeng, W Li, S Guo, A Y Zomaya and H Jin, "Intelligent VNF Orchestration and Flow Scheduling via Model-Assisted Deep Reinforcement Learning," IEEE Journal on Selected Areas in Communications, vol 38, pp 279-291, 2020 [114] D Silver, G Lever, N Heess, T Degris, D Wierstra and M Riedmiller, "Deterministic Policy Gradient Algorithms," in Proceedings of the 31st International Conference on Machine Learning, Bejing, 2014 [115] R Hafner and M Riedmiller, "Reinforcement learning in feedback control," Machine learning, vol 84, p 137–169, 2011 [116] S Schneider, A Manzoor, H Qarawlus, R Schellenberg, H Karl, R Khalili and A Hecker, "Self-Driving Network and Service Coordination Using Deep Reinforcement Learning," in 2020 16th International Conference on Network and Service Management (CNSM), 2020 [117] T.-M Pham, "Traffic Engineering Based on Reinforcement Learning for Service Function Chaining With Delay Guarantee," IEEE Access, vol 9, pp 121583-121592, 2021 [118] W Fischer and K Meier-Hellstern, "The Markov-modulated Poisson process (MMPP) cookbook," Performance Evaluation, vol 18, pp 149171, 1993 [119] S Knight, H X Nguyen, N Falkner, R Bowden and M Roughan, "The Internet Topology Zoo," IEEE Journal on Selected Areas in Communications, vol 29, pp 1765-1775, 2011 [120] [Online] Available: http://graphml.graphdrawing.org/ [Accessed 18 September 2022] [121] [Online] Available: https://en.wikipedia.org/wiki/Signal_propagation_delay [Accessed 27 Sep 2022] 77 [122] Tuan-Minh Pham, Thi-Minh Nguyen, Xuan-Tuan-Trung Nguyen, HoaiNam Chu, Ngo Hong Son, "Fast Optimal Resource Allocation for Resilient Service Coordination in an NFV-Enabled Internet-of-Things System," in International Conference on Advanced Technologies for Communications , Hanoi, 2022 78 ... thành luận văn HỌC VIÊN TÓM TẮT LUẬN VĂN Mục tiêu luận văn áp dụng học tăng cường sâu để xây dựng mơ hình điều khiển lưu lượng ảo hóa chức mạng đáp ứng nhiều mục tiêu tối ưu mơ hình lưu lượng khác... chương sau 28 CHƯƠNG BÀI TOÁN ĐIỀU KHIỂN LƯU LƯỢNG TRONG ẢO HÓA CHỨC NĂNG MẠNG Trong chương này, tác giả đưa phát biểu toán điều khiển lưu lượng ảo hóa chức mạng khảo sát nghiên cứu liên quan có... Giới thiệu học tăng cường Trong phần này, tác giả nêu khái quát học tăng cường phương pháp mô hình hóa sử dụng học tăng cường Học tăng cường nghiên cứu cách thức tác nhân (agent) môi trường (environment)