Nâng cao chất lượng phát video qua http bằng phương pháp học tăng cường

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - THẠCH QUỐC TUẤN NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) TP HỒ CHÍ MINH – Năm 2022 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - THẠCH QUỐC TUẤN NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG CHUYÊN NGÀNH:HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ THỊ LƯU PHƯƠNG TP HỒ CHÍ MINH – Năm 2022 i LỜI CAM ĐOAN Tôi cam đoan luận văn: “Nâng cao chất lượng phát video qua HTTP phương pháp học tăng cường” công trình nghiên cứu tơi Tơi cam đoan số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022 Học viên thực luận văn Thạch Quốc Tuấn ii LỜI CẢM ƠN Trong suốt trình học tập nghiên cứu thực luận văn, nỗ lực thân, nhận hướng dẫn nhiệt tình q báu q Thầy Cơ, với động viên ủng hộ gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn sâu sắc, xin gửi lời cảm ơn chân thành tới: Ban Giám Đốc, Phòng đào tạo sau đại học q Thầy Cơ Học viện Cơng nghệ Bưu Chính Viễn Thơng, Cơ sở Thành Phố Hồ Chí Minh, tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Tôi xin chân thành cảm ơn Cô PGS.TS Võ Thị Lưu Phương, người kính u hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tơi suốt q trình thực hồn thành luận văn Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp quan động viên, hỗ trợ tơi lúc khó khăn để tơi học tập hồn thành luận văn Mặc dù có nhiều cố gắng, nỗ lực, thời gian kinh nghiệm nghiên cứu khoa học hạn chế nên khơng thể tránh khỏi thiếu sót Tôi xin chân thành cảm ơn thầy cô Hội đồng bảo vệ, thầy phản biện Xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022 Học viên thực luận văn Thạch Quốc Tuấn iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ABR Adaptive Bitrate Tương thích tốc độ bit QoE Quality of Experience Chất lượng trải nghiệm Dynamic Adative Streaming Phát trực tuyến tương thích over HTTP động qua HTTP DASH HTTP Hyper Text Transfer Protocol Experience Replay Giao thức truyền tải siêu văn (Sử dụng www) Bộ nhớ trải nghiệm (sử dụng DQN) IoT Internet of Things Internet vạn vật HD High Definition Độ nét cao (video) SD Standard Definition Độ nét tiêu chuẩn (video) ML Machine Learning Máy học RL Reinforcement Learning Học tăng cường DRL Deep Reinforcement Learning Học tăng cường sâu DQN Deep Q Learning Networks Mạng học sâu Q-Learning Bộ đệm phát lại Replay Buffer RAM MPEG 3GPP HAS Random Access Memory Bộ nhớ truy cập ngẫu nhiên Moving Picture Experts Nhóm Chuyên gia Hình ảnh Group Động 3rd Generation Partnership Project HTTP Adaptive Streaming Dự án Hợp tác Thế hệ thứ Phát trực tuyến tương thích HTTP DASH MPD Dynamic Adaptive Streaming Phát trực tuyến tương thích over HTTP động qua HTTP Media Presentation (file) Mơ tả trình chiếu đa Description phương tiện iv DANH SÁCH HÌNH VẼ Hình 1.1: Mơ hình phát trực tuyến truyền thống Hình 1.2: Mơ hình phát trực tuyến HAS Hình 1.3: Các thành phần DASH Hình 1.4: Cấu trúc file MPD Hình 1.5: Mơ hình phát trực tuyến tương thích tốc độ bit qua HTTP 10 Hình 2.1: Các thuật tốn ABR phổ biến ban đầu 15 Hình 2.2: Áp dụng học tăng cường việc lựa chọn chất lượng video 16 Hình 3.1: Sơ đồ tổng quan RL 20 Hình 3.2: Các mơ hình RL 24 Hình 3.3: Sơ đồ hoạt động DQN 27 Hình 3.4: Lưu đồ tiến trình cập nhật 28 Hình 3.5: Mơ hình học tăng cường cho vấn đề phát video tương thích tốc độ bit qua HTTP 31 Hình 4.1: Đoạn code huấn luyện lưu mơ hình tốt 37 Hình 4.2: Code Đánh giá tác nhân theo tập liệu test FCC 37 Hình 4.3: Biểu đồ giá trị phần thưởng tích lũy DQN huấn luyện 39 v DANH SÁCH BẢNG Bảng 1.1: So sánh khác hệ thống phát trực tuyến truyền thống hệ thống HAS Bảng 4.1: Kết QoE thực đánh giá với α = 2.66 39 Bảng P 1: Khoảng đề xuất siêu tham số thuật toán DQN 45 Bảng P 2: Các siêu tham số sau cân chỉnh 45 vi MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT iii DANH SÁCH BẢNG .v MỤC LỤC vi MỞ ĐẦU 1 Lý chọn đề tài .1 Tổng quan vấn đề nghiên cứu Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu .3 Phương pháp nghiên cứu Cấu trúc luận văn CHƯƠNG TỔNG QUAN VỀ PHÁT VIDEO QUA HTTP 1.1 Đặt vấn đề 1.1.1 Truyền phát video .5 1.1.2 Vai trò QoE yếu tố ảnh hưởng đến QoE .12 1.2 Kết luận chương 13 CHƯƠNG CÁC THUẬT TOÁN LỰA CHỌN TỐC ĐỘ BIT TƯƠNG THÍCH TRONG PHÁT VIDEO QUA HTTP 14 2.1 Tổng quan 14 2.1.1 Các thuật tốn tương thích tốc độ bit có xu hướng thời gian tới 14 2.2 QoE cách đánh giá QoE 17 2.2.1 Công thức QoE cho phát trực tuyến video .17 2.3 Kết luận chương 19 vii CHƯƠNG GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG PHÁT TRỰC TUYẾN VIDEO: HỌC TĂNG CƯỜNG (REINFORCEMENT LEARNING) 20 3.1 Phương pháp học tăng cường .20 3.1.1 Tổng quan học tăng cường 20 3.1.2 Không gian rạng thái (state space) 21 3.1.3 Không gian hành động (action space) 21 3.1.4 Chính sách (Policy) 22 3.1.5 Quỹ đạo 22 3.1.6 Phần thưởng lợi tức .22 3.1.7 Q-function, V-function 23 3.1.8 Các mơ hình học tăng cường 24 3.2 Q-Learning Deep Q-Learning 25 3.2.1 Q-Learning 25 3.2.2 Deep Q-Learning 26 3.3 Áp dụng DQN vào phát trực tuyến video 30 3.4 Kết luận chương 32 CHƯƠNG MÔ PHỎNG VÀ THỬ NGHIỆM GIẢI PHÁP 33 4.1 Công cụ mô 33 4.1.1 PyTorch 33 4.1.2 OpenAI Gym Environment 33 4.1.3 Stable_Baseline .35 4.2 Tập liệu dùng cho q trình mơ .36 4.3 Q trình mơ 37 4.4 Đánh giá kết mô 38 4.4.1 Các thuật toán khác 38 4.4.2 Đánh giá kết 39 4.5 Kết luận chương 40 CHƯƠNG 5: KẾT LUẬN 41 5.1 Kết nghiên cứu đề tài 41 5.2 Hạn chế luận văn 41 viii 5.3 Vấn đề kiến nghị hướng nghiên cứu 41 DANH MỤC TÀI LIỆU THAM KHẢO 42 PHỤ LỤC 45 31 Hình 3.5: Mơ hình học tăng cường cho vấn đề phát video tương thích tốc độ bit qua HTTP Khi áp dụng giải pháp DQN vào phát trực tuyến, Hình 3.5, không gian trạng thái , các hàm phần thưởng, hành động, hàm phần thưởng, tác nhân học tăng cườn định nghĩa sau: Trạng thái (tương ứng với giá trị st) định nghĩa tập hợp quan sát từ môi trường ước tính thơng lượng mạng, độ trễ, chất lượng phân đoạn video vừa tải trước đó, kích thước phân đoạn tương ứng với mức chất lượng khác nhau, số phân đoạn video lại,… Hành động (tương ứng với giá trị at): hành động định nghĩa lựa chọn chất lượng phân đoạn video tiếp theo, tùy thuộc vào kết việc quan sát trạng thái môi trường Tác nhân học tăng cường (DRL agents) hướng nghiên cứu luận văn thuật toán DQN Hàm phần thưởng (reward) giá trị QoE tổng thu thập được, tổng hợp độ lợi mang lại từ chất lượng phân đoạn video liên tiếp, giá trị bị giảm trừ hai phân đoạn liên tiếp có mức chất lượng khác giảm trừ bị 32 đứng hình Theo đó, hàm phần thưởng phân đoạn video thứ i tính theo cơng thức (9) Sau trình huấn luyện cách sử dụng thuật toán DQN, kết thu giá trị QoE tính tốn từ hành động lựa chọn mức chất lượng phân đoạn video tải 3.4 Kết luận chương Chương nêu lên vấn đề mà luận văn đối mặt đề xuất quy trình nghiên cứu Trong chương sau, luận văn trình bày trình cụ thể trình xây dựng đánh giá kết đạt 33 CHƯƠNG MƠ PHỎNG VÀ THỬ NGHIỆM GIẢI PHÁP 4.1 Cơng cụ mô Từ công thức đánh giá QoE kết chương 3, luận văn tập trung xây dựng công cụ mô việc sử dụng mã nguồn mở Pytorch, Stable_Baseline OpenAI Gym 4.1.1 PyTorch PyTorch [18] (Paszke et al., 2019) framework học máy mã nguồn mở , giúp tăng tốc lộ trình từ mẫu nghiên cứu đến triển khai thực tế PyTorch cung cấp hai tính cao cấp: (1) Tính toán tensor (giống NumPy) với khả tăng tốc mạnh mẽ thông qua GPU (2) Mạng Deep nơ-ron xây dựng hệ thống phân biệt tự động theo phân loại PyTorch thịnh hành cộng đồng nghiên cứu tính động hầu hết thư viện RL xây dựng PyTorch cho phép toàn quyền tùy chỉnh So với framework có trước đó, PyTorch có nhiều ưu điểm như: Động so với tĩnh: Mặc dù PyTorch TensorFlow hoạt động tensor, khác biệt PyTorch Tensorflow PyTorch sử dụng đồ thị tính tốn động, TensorFlow sử dụng đồ thị tính tốn tĩnh Song song hóa liệu: PyTorch sử dụng thực thi bất đồng Python để triển khai xử lý liệu song song, với TensorFlow khơng Với TensorFlow, cần phải cấu hình nhân cơng thao tác xử lý liệu song song Nhiều thư viện nghiên cứu khác xây dựng PyTorch (ví dụ: Stable_Baseline 3, cho phép tồn quyền tùy chỉnh framework khác TensorFlow khơng có thư viện dạng 4.1.2 OpenAI Gym Environment Gym [19] (Brockman cộng sự, 2016) công cụ để phát triển so sánh thuật toán Reinforcement Learning Hỗ trợ dạy tác nhân thứ, từ đến chơi trò chơi Pong Pinball Nó khơng có giả định cấu trúc tác nhân tương thích với thư viện số tính tốn Thư viện Gym tập hợp vấn đề kiểm tra - mơi trường - mà người dùng sử dụng để tìm thuật tốn học tập củng cố Những 34 mơi trường có giao diện chia sẻ cho phép người dùng xây dựng thuật toán chung dựa thuật toán có Giao diện mơi trường bao gồm hai chức chính: step reset Tại thời điểm bắt đầu tập, thực thao tác reset, nhằm đặt lại tất biến tập Sau đó, step thực liên tục tập kết thúc lặp lại tiến trình Hàm step yêu cầu liệu đầu vào hành động step trước trả trạng thái/quan sát tiếp theo, giá trị vô hướng làm phần thưởng biến boolean cho biết tập kết thúc hay chưa Thiết kế OpenAI Gym dựa kinh nghiệm tác giả phát triển so sánh thuật toán học tăng cường kinh nghiệm chúng tơi sử dụng điểm chuẩn trước Quyết định thiết kế Gym tóm tắt sau: Môi trường, tác nhân: Hai khái niệm cốt lõi tác nhân môi trường Các tác giả chọn cung cấp phần trừu tượng cho môi trường, tác nhân Lựa chọn nhằm tối đa hóa thuận tiện cho người dùng cho phép phương thức triển khai khác giao diện tác nhân Nhấn mạnh độ phức tạp q trình lấy mẫu, khơng hiệu suất cuối Hiệu suất thuật toán RL mơi trường đo theo hai hướng: thứ nhất, hiệu suất cuối cùng; thứ hai, lượng thời gian cần thiết để học — lấy mẫu phức tạp Cả hiệu suất cuối độ phức tạp mẫu thú vị, nhiên, số lượng tính tốn tùy ý sử dụng để tăng hiệu suất sau cùng, làm cho so sánh tài ngun tính tốn chất lượng thuật tốn Khuyến khích đánh giá ngang hàng, khơng cạnh tranh: Trang web OpenAI Gym cho phép người dùng so sánh hiệu suất thuật toán họ Một nguồn cảm hứng Kaggle, nơi tổ chức loạt thi học máy với bảng thành tích Tuy nhiên, mục đích bảng điểm OpenAI Gym để tạo thi, mà để kích thích việc chia sẻ mã nguồn ý tưởng, đồng thời trở thành tiêu chuẩn có ý nghĩa cho phương pháp truy cập khác Lập phiên nghiêm ngặt cho môi trường: Nếu mơi trường thay đổi, kết trước sau thay đổi so sánh Để tránh vấn đề này, tác giả đảm bảo thay đổi môi trường kèm với gia tăng số phiên 35 Giám sát theo mặc định: Theo mặc định, môi trường thiết kế với mục tiêu giám sát, đối tượng theo dõi bước thời gian (một bước mô phỏng) sử dụng hàm reset (lấy mẫu trạng thái khởi tạo mới) Thao tác giám sát cấu hình, ghi lại video định kỳ Việc xây dựng đường mô học tập hoàn thiện 4.1.3 Stable_Baseline Stable_Baseline3 [20](SB3) (Rafn cộng sự, 2021) framework mã nguồn mở triển khai thuật tốn Deep RL khơng theo mơ hình sử dụng phổ biến Thư viện trọng đến tuân thủ phương pháp hay kỹ thuật phần mềm để đạt triển khai chất lượng cao phù hợp với kết trước Mỗi thuật tốn chuẩn hóa mơi trường chung so với lần triển khai trước Bộ thử nghiệm bao gồm 95% mã với với thay đổi xem xét kỹ lưỡng dựa người dùng hoạt động, đảm bảo lỗi triển khai giảm thiểu Vào tháng 11 năm 2021, SB3 có 800 GitHub, 100 vấn đề xử lý 80 yêu cầu hợp nhất, làm cho SB3 trở thành thư viện RL phổ biến Các tính Stable_Baseline tóm tắt sau:  API đơn giản Các tác nhân traning Stable_Baseline vài dịng mã, sau tác nhân truy vấn cho hành động Điều cho phép nhà nghiên cứu dễ dàng sử dụng thuật toán thành phần sở thử nghiệm họ, áp dụng RL sang tác vụ môi trường lạ, chẳng hạn học hỏi liên tục công mạng WiFi dao động cầu  Tài liệu: Stable_Baseline kèm với tài liệu mở rộng mã API bao gồm hướng dẫn sử dụng, bao gồm người dùng nâng cao với sưu tập ví dụ cụ thể Hơn nữa, tác giả phát triển hướng dẫn RL Colab, cho phép người dùng mô thư viện trực tiếp trình duyệt  Chất lượng triển khai cao: Các thuật toán xác nhận dựa kết công bố cách so sánh sơ đồ học tác nhân Hơn nữa, tất hàm nhập (các loại tham số trả về) ghi lại với phong cách 36 quán, hầu hết hàm bao phủ đơn vị kiểm tra Kiểm tra tích hợp liên tục để đảm bảo tất thay đổi vượt qua tra đơn vị kiểm tra loại kiểm tra, xác thực kiểu mã tài liệu  Toàn diện: Stable_Baseline chứa thuật tốn sách phi sách đại, thường sử dụng làm đường sở thử nghiệm Hơn nữa, Stable_Baseline cung cấp tính độc lập với thuật toán khác Các tác giả hỗ trợ ghi log vào file CSV TensorBoard Đánh giá chung: Sử dụng thư viện mã nguồn mở có sẵn thay bắt đầu triển khai từ “con số không” mang lại số lợi định: Tiết kiệm thời gian hiệu Các thuật toán thư viện mã nguồn mở chuẩn hóa kỹ lưỡng để phù hợp với kết cơng bố nhiều tác vụ khác nhau, thuật tốn có độ tin cậy cao Mơi trường mô bắt buộc phải tuân theo giao diện Gym [16], làm cho dễ dàng sử dụng thuật toán khác dễ dàng mở rộng hơn, chúng đến từ thư viện khác 4.2 Tập liệu dùng cho q trình mơ Mức video chất lượng: Đối với video, trình mơ sử dụng tập liệu video Elephants dream [21] (Blender, 2014) Video mã hóa thành 20 mức chất lượng khác với phân đoạn có thời lượng giây Bảy mức mã hóa bitrate sau: [700, 900, 2000, 3000, 5000, 6000, 8000] Kbps chọn, tuân theo cấu trúc (Google, 2021), mức chất lượng phổ biến, thân thuộc với người dùng là: (240p, 360p, 480p, 720p, 720p @ 60fps, 1080p, 1080p @ 60 khung hình / giây) Do đó, tác nhân có hành động riêng biệt cho bước 60 phần video (N = 60) sử dụng, có thời lượng 240 giây Chất lượng mặc định phân đoạn mức chất lượng thấp 4G LTE: tập liệu 4G LTE [22](Raca cộng sự, 2018) bao gồm 135 đoạn băng thông, với mức trung bình có thời lượng 15 phút cho đoạn băng thông, mức độ chi tiết giây Tập liệu thu thập đoạn băng thông từ nhà khai 37 thác di động Ireland, với kiểu di chuyển (tĩnh, người bộ, xe hơi, xe buýt xe lửa) FCC: Tập liệu FCC chứa triệu đoạn, mức độ chi tiết 10 giây mẫu [23] (FCC, 2019) Tôi tạo 1.000 đoạn băng thông ngẫu nhiên (mỗi đoạn kéo dài 320 giây) cho tập liệu huấn luyện kiểm thử Tôi sử dụng tập liệu tháng năm 2019 4.3 Q trình mơ Huấn luyện kiểm thử: Trong hai tập liệu, chia ngẫu nhiên tập liệu thành 80% cho huấn luyện 20% để kiểm tra Để tăng tốc q trình huấn luyện, tơi kết hợp liệu FCC LTE để huấn luyện tác nhân học tăng cường Tác nhân huấn luyện 590.000 bước với 10000 tập để tìm mơ hình Trong q trình huấn luyện, mơ hình tốt so với mơ hình trước sẽ giữ lại để so sánh tìm mơ hình tốt Hình 4.1: Đoạn code huấn luyện lưu mơ hình tốt Hình 4.2: Code đánh giá kết thu theo tập liệu test FCC 38 Sau huấn luyện, tác nhân DQN đánh giá kiểm tra tập thử nghiệm (được phân chia mô tả trên) 200 tập ghi lại giá trị phần thưởng trung bình Thử nghiệm lặp lại 10 lần sử dụng giá trị trung bình Dữ liệu đầu vào cố định trình đánh giá, tức bước, thuật toán quan sát liệu đầu vào Các thư viện mã nguồn mở: Theo ghi nhận khuyến nghị tưc công trình nghiên cứu [26](Engstrom cộng sự, 2020; [27]Henderson cộng sự, 2018; [28]Islam cộng sự, 2017; [29]Hu cộng sự, 2021; [30]Irpan, 2018; Andrychowicz cộng sự, 2021), thủ thuật tối ưu cấp lập trình (ví dụ: chuẩn hóa việc quan sát, chia tỷ lệ phần thưởng, ) từ tảng lập trình khác tác động đến hiệu suất thuật tốn học tăng cường Vì thế, tơi sử dụng thuật toán học tăng cường DQN xây dựng thư viện mã nguồn mở Stable_Baselines3 , mà không sửa đổi phần thuật toán α β: theo [6], đặt β = sử dụng giá trị α = 2.66 để kiểm tra 4.4 Đánh giá kết mơ 4.4.1 Các thuật tốn khác Tơi so sánh phương pháp tương thích tốc độ bit dựa học tăng cường, DQN, so với thuật tốn có trước là: Ngẫu nhiên (RAN): với thuật toán này, bước, mức chất lượng video lựa chọn cách ngẫu nhiên Cố định (CON): thuật toán chọn mức chất lượng bước, cụ thể 3000kpbs, tương đương chuẩn video HD 720p Dựa thông lượng (TRB): Mức chất lượng cao chọn phải nhỏ bình quân mức chất lượng ba phân đoạn tải xuống gần BOLA [13]: thuật tốn tương thích dựa thơng lượng, sử dụng phương pháp tối ưu Lyapunov để giảm thiểu đứng hình tối ưu hóa chất lượng video 39 4.4.2 Đánh giá kết Kết thể Bảng 4.1 giá trị α = 2.66 siêu tham số lựa chọn sẵn Thuật toán DQN hội tụ sau 250.000 bước huấn luyện Hình 4.3: Biểu đồ giá trị phần thưởng tích lũy DQN huấn luyện Khi so sánh QoE giải pháp QoE với thuật toán giải pháp khác khác, thuật toán dựa DQN đem lại giá trị QoE cao Bảng 4.1: Kết QoE thực đánh giá với α = 2.66 FCC QoE Chuyển đổi mức chất lượng Rebuffer (Đứng hình) DQN 0.821 0.19 0.06 THRB 0.726 0.20 0.03 BOLA 0.785 0.11 0.09 RAN -1.142 0.606 1.38 CON -1.686 0.044 2.8 LTE QoE Chuyển đổi mức chất lượng Rebuffer (Đứng hình) DQN 0.485 0.17 0.141 THRB 0.417 0.186 0.208 BOLA 0.455 0.152 0.265 RAN -2.2005 0.604 2.380 CON -3.14 0.044 4.251 40 4.5 Kết luận chương Trong chương này, từ việc mô sở so sánh kết thu được, so sánh phương pháp tương thích tốc độ bit dựa học tăng cường sâu DQN với thuật tốn trước thấy, giải pháp học tăng cường sâu DQN có nhiều ưu điểm, mang lại giá trị QoE vượt trội so với thuật tốn có trước Hạn chế luận văn nằm bước thực môi trường mô phỏng, cần triển khai thực nghiệm mơi trường thực để đánh giá xác 41 CHƯƠNG 5: KẾT LUẬN 5.1 Kết nghiên cứu đề tài Luận văn “NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG” giới thiệu lịch sử phát video trực tuyến giải pháp có Tiếp theo tơi phân tích yếu tố tác động đến chất lượng dịch vụ, tác động đến trải nghiệm người dùng đánh giá tác động Sau cùng, đề xuất giải pháp, thư viện framework dùng để mô phỏng, đánh giá kết thu Kết mô chứng minh tính hiệu giải pháp học tăng cường sâu DQN áp dụng cho thuật tốn tương thích tốc độ bit Với kết thuật tốn tương thích tốc độ bit dựa học tăng cường thể ưu điểm so với phương pháp truyền thống 5.2 Hạn chế luận văn Môi trường thực: Do quỹ thời gian hạn hẹp, thực việc đánh giá thông qua kết mô sử dụng thuật toán áp dụng học tăng cường để so sánh với thuật tốn truyền thống mà mà khơng thực việc mô môi trường thực dash.js Trong mơi trường thực có nhiều vấn đề cần để giải 5.3 Vấn đề kiến nghị hướng nghiên cứu Từ kết thực tế để đáp ứng hạn chế, xin đề xuất hướng nghiên cứu luận văn thực môi trường thực, sử dụng đa dạng thuật toán học tăng cường khác, sử dụng thư viện mã nguồn mở A2C, PPO, thuật toán đại, cho phép thực q trình tính tốn song song, giảm thời gian huấn luyện tác nhân Các thuật toán nhiều cơng trình nghiên cứu đề cập đến 42 DANH MỤC TÀI LIỆU THAM KHẢO [1] A Bentaleb, B Taani, A Begen, C Timmerer and R Zimmermann, "A Survey on Bitrate Adaptation Schemes for Streaming Media Over HTTP," IEEE Communications Surveys & Tutorials, vol 21, pp 562-585, 2019 [2] Cisco, "Cisco visual networking index: Forecast and methodology," 2016 [3] F Dobrian, V Sekar, A Awan, I Stoica, D A Joseph, A Ganjam, J Zhan, and H Zhang, "Understanding the Impact of Video Quality on User Engagement," in ACM SIGCOMM, 2011 [4] S S Krishnan and R K Sitaraman, "Video Stream Quality Impacts Viewer Behavior: Inferring Causality using Quasi-Experimental Designs," in IMC, 2012 [5] I Sodagar, "The MPEG-DASH Standard for Multimedia Streaming Over the Internet," IEEE Multimedia, 2011 [6] Mao, Hongzi & Netravali, Ravi & Alizadeh, Mohammad, "Neural Adaptive Video Streaming with Pensieve," in the Conference of the ACM Special Interest Group, 2017 [7] Richard S Sutton and Andrew G Barto, "Reinforcement Learning: An Introduction," in The MIT Press Cambridge, Massachusetts London, 2015 [8] T Hoßfeld et al, "Initial delay vs interruptions: Between the devil and the deep blue sea," in 4th Int Workshop Qual Multimedia Experience (QoMEX), 2012 [9] Matteo Gadaleta, Federico Chiariotti, Michele Rossi, and Andrea Zanella, "D-DASH: A Deep Q-Learning Framework for DASH Video Streaming," in IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING, 2017 [10] Z L e al, "Probe and adapt: Rate adaptation for HTTP video streaming at scale," in IEEE J Sel Areas Commun, 2014 [11] Xiaoqi Yin , Abhishek Jindal, Vyas Sekar, Bruno Sinopoli, "A Control-Theoretic Approach for Dynamic Adaptive Video Streaming over HTTP," in Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication, 2015 [12] Huang, Te-Yuan & Handigol, Nikhil & Heller, Brandon & McKeown, Nick & Johari, Ramesh, "Confused, timid, and unstable: Picking a video streaming rate is hard," in Proceedings of the 2012 Internet Measurement Conference, 2012 43 [13] Kevin Spiteri, Rahul Urgaonkar, and Ramesh K Sitaraman., "Near-optimal bitrate adaptation for online videos," IEEE/ACM Transactions on Networking, 2020 [14] Maxim Claeys, Steven Latré, Jeroen Famaey, Tingyao Wu, Werner Van Leekwijck, and Filip De Turck, "Design of a Q-learning-based client quality selection algorithm for HTTP adaptive video streaming," in Adaptive and Learning Agents Workshop, 2013 [15] Maxim Claeys, Steven Latré, Jeroen Famaey, Tingyao Wu, Werner Van Leekwijck, and Filip De Turck, "Design and optimisation of a (fa)q-learning-based http adaptive streaming client," Connection Science, 2014 [16] Federico Chiariotti, Stefano D’Aronco, Laura Toni, and Pascal Frossard, "Online learning adaptation strategy for dash clients," in Proceedings of the 7th International Conference on Multimedia Systems, 2016 [17] V Mnih, K Kavukcuoglu et al, "Playing Atari with Deep Reinforcement Learning," arXiv:1312.5602 [18] A Paszke, S Gross, et al, "PyTorch: An Imperative Style, High-Performance Deep Learning Library," in Advances in Neural Information Processing Systems, Curran Associates, Inc., 2019 [19] G Brockman, V Cheung, et al, "Openai gym," arXiv:1606.01540 [20] A Raffin, A Hill, A Gleave, A Kanervisto, M Ernestus, and N Dormann, "StableBaselines3: Reliable Reinforcement Learning Implementations," Journal of Machine Learning Research 22, 2021 [21] Blender, "Elephants dream movie," 2014 [Online] Available: https://orange.blender.org/ [22] Darijo Raca, Jason J Quinlan, Ahmed H Zahran, and Cormac J Sreenan, "Beyond throughput: A 4g lte dataset with channel and context metrics," in Proceedings of the 9th ACM Multimedia Systems Conference, 2018 [23] FCC, "The tenth measuring broadband america fxed broadband report: A report on consumer fxed broadband performance in the united states," 2019 [24] Cédric Colas, Olivier Sigaud, and Pierre-Yves Oudeyer, "A hitchhiker’s guide to statistical comparisons of reinforcement learning algorithms," arXiv:1904.06979, 2019 44 [25] SciPy 1.0 Contributors at el, "SciPy 1.0: Fundamental Algorithms for Scientifc Computing in Python.," Nat Methods 17, 2020 [26] L Engstrom, A Ilyas, S Santurkar, et al, "Implementation matters in deep rl: A case study on ppo and trpo," International Conference on Learning Representations, 2020 [27] P Henderson, R Islam, P Bachman, J Pineau, D Precup, and DavidMeger, "Deep reinforcement learning that matters," 2018 [28] Riashat Islam, Peter Henderson, Maziar Gomrokchi, and Doina Precup, "Reproducibility of benchmarked deep reinforcement learning tasks for continuous control," Reproducibility in Machine Learning Workshop (ICML), 20171 [29] Jian Hu, Siyang Jiang, Seth Austin Harding, Haibin Wu, and Shih wei Liao, "Rethinking the implementation tricks and monotonicity constraint in cooperative multi-agent reinforcement learning," 2021 [30] A Irpan, "Deep reinforcement learning doesn’t work yet.," 2018 [Online] Available: https://www.alexirpan.com/2018/02/14/rl-hard.html 45 PHỤ LỤC Trong phụ lục này, tơi trình bày giá trị siêu tham số (Hyperparameter)của thuật toán DQN giá trị sau cân chỉnh Chi tiết siêu tham số thuật toán DQN có [17] Bảng P 1: Khoảng đề xuất siêu tham số thuật toán DQN Hyperparameter Learning rate Buffer size Batch size Learning starts Discount factor Polyak coef Train frequency Gradient steps Target update interval Exploration fraction Kiểu liệu float int int int float float int int int float Giá trị mẫu 1e-5 – 1e-3 (59 –11800) (59 –590) (295 –2360) {0.95,0.99} {0.95,1} (30 –120) (-1 – 59) (30 – 200) (0.2 –0.6) Bảng P 2: Các siêu tham số sau cân chỉnh Hyperparameter Learning rate buffer size Batch size Learning starts gamma Target update interval Exploration fraction Kiểu liệu float int int int float int float Giá trị cân chỉnh 0.0005 10000 128 128 0.9 25 0.1