2020 httt thachquoctuan ttlv 0963

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG THẠCH QUỐC TUẤN NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) TP HỒ CHÍ MINH – NĂM 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS VÕ THỊ LƯU PHƯƠNG Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn Học viện Công nghệ Bưu Viễn Thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Chính Viễn Thơng MỞ ĐẦU Với xu hướng phát triển điện toán đám mây kết nối vạn vật IoT, thập kỷ vừa qua chứng kiến phát triển vượt bậc phát video trực tuyến chiếm phần lớn lưu lượng truy cập Internet nhờ tiến công nghệ truyền tải, lực thiết bị đầu cuối phương pháp nén âm thanh-video chiếm 60% lưu lượng Internet toàn cầu [1] , [2] Thị trường phát video trực tuyến định giá lên đến hàng tỉ đô la Cùng với phát triển thị trường yêu cầu ngày cao video có chất lượng, chứng minh yếu tố quan trọng ảnh hưởng đến trải nghiệm chất lượng người dùng [3], [4] Điều tạo thách thức cho việc cung cấp video với “Chất lượng trải nghiệm tốt nhất” qua mạng Internet, hệ thống mạng ban đầu thiết kế để theo kiểu “nỗ lực tối đa” – để truyền tải liệu khơng theo thời gian thực Người dùng dừng xem có vấn đề với việc phát trực tuyến chất lượng video thấp hay việc đứng hình, phát lại Ảnh hưởng trực tiếp đến doanh thu nhà cung cấp nội dung video Với mục tiêu nâng cao chất lượng trải nghiệm người dùng, vốn bị ảnh hưởng nhiều yếu tố băng thơng, cường độ tín hiệu, độ nghẽn mạng thời gian mạng hội tụ sau có thay đổi, nhiều thuật tốn tương thích tốc độ bit [5] triển khai rộng rãi phía đầu cuối khách hàng yêu cầu mức chất lượng khác máy chủ Trong năm gần đây, giải pháp Học tăng cường [6], [7] trội thay cho phương pháp truyền thống khác Giải pháp end-to-end học cách cải thiện chất lượng phiên phát trực tuyến cách sử dụng tham số đầu vào chất lượng mạng kích thước video, với cách thức tính tốn đơn giản Từ điều trên, chọn đề tài “Nâng cao chất lượng phát video qua HTTP phương pháp học tăng cường”, sở dựa nghiên cứu trước đó, xây dựng thuật tốn ABR hình thức học tăng cường mơi trường mơ phỏng, sử dụng video thời gian thực mạng 4G Sau đó, hiệu suất thuật tốn đánh giá theo giao thức đánh giá biết Cuối cùng, xin đề xuất số hướng nghiên cứu tương lai vấn đề này, cải thiện số thông số ảnh hưởng đến QoE người dùng Luận văn gồm chương với nội dung sau: Chương 1: Giới thiệu tổng quan kỹ thuật phát video qua HTTP, trạng phát video trực tuyến nay, vai trò QoE phát video yếu tố ảnh hưởng đến QoE Chương 2: Trình bày cơng trình nghiên cứu có liên quan thuật tốn tương thích tốc độ bit phát trực tuyến video, đánh giá QoE xây dựng hàm QoE Chương 3: Giới thiệu giải pháp nâng cao chất lượng phát trực tuyến video phương pháp học tăng cường (reinforcement learning) Đề xuất thuật toán học tăng cường sâu Deep Q-Learning (DQN) Chương 4: Trình bày chi tiết công cụ mô sử dụng, với liệu đến q trình mơ đánh giá kết toàn trình Chương 5: Kết luận nội dung đề tài, nêu khó khăn, hạn chế trình nghiên cứu gặp phải đề xuất hướng phát triển Đề tài: NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG Tóm tắt luận văn CHƯƠNG TỔNG QUAN VỀ VIDEO STREAMING 1.1 Đặt vấn đề 1.1.1 1.1.1 Truyền phát video Video loại liệu đa phương tiện quan trọng lĩnh vực truyền thông giải trí Lưu lượng truy cập video tăng trưởng nhanh chóng thời gian gần đây, dự kiến chiếm phần lớn lưu lượng Internet toàn cầu [1] Vào thời kỳ đầu, video phát với công nghệ chuyển mạch gói, dù sau chuyển qua mạng Internet, gặp yếu tố bất lợi băng thơng, độ trễ, gói tin Phát video qua HTTP [1] công nghệ phổ biến mà nội dung đa phương tiện phân phối liên tục từ máy chủ HTTP đến thiết bị đầu cuối người dùng RTSP(TCP) RTP(UDP) Máy chủ video RTCP Reports (UDP) Người dùng Hình 1.1: Mơ hình phát trực tuyến truyền thống Trong mơ hình phát trực tuyến truyền thống khơng sử dụng HAS Hình 1.1, người dùng nhận thông tin đa phương tiện phát từ máy chủ cách sử dụng giao thức có thiên hướng kết nối Real-time Messaging Protocol (RTMP/TCP) không kết nối Real-time Transport Protocol (RTP/UDP) Giao thức chung để điều khiển máy chủ kiểu truyền thống chứa file nội dung đa phương tiện giao thức RSTP (Real-time Streaming Protocol: Giao thức phát trực tuyến thời gian thực) RTSP chịu trách nhiệm thiết lập phiên trực tuyến giữ trạng thái kết nối, khơng chịu trách nhiệm cho việc phân phối thật sự, mà nhiệm vụ phân phối RTP Dựa RTCP Reports (RTP Control Protocol: giao thức điều khiển RTP) từ người dùng, máy chủ thay đổi tốc độ tương thích lịch trình chuyển phát liệu Những điều làm cho máy chủ có cấu trúc phức tạp đắt đỏ Hơn nữa, giao thức cấu hình cần thiết lập xuyên suốt phiên, ngồi luồng liệu đa phương tiện bị chặn lại trường hợp sử dụng thiết bị NAT tường lửa Mặc dù triển khai theo giao thức nhau, nhà cung cấp dịch vụ khác nhau, máy chủ khác cầu hình cách vận hành, máy chủ có lỗi làm cho phiên trực tuyến bị gián đoạn không liên tục trừ có giải pháp sử dụng máy chủ dự phòng Những vấn đề việc phụ thuộc vào nhà cung cấp, khả mở rộng chi phí bảo trì cao gây thách thức cho giao thức RTSP HTTP GET Request RESPONE Bộ đệm Server Người dùng Hình 1.2: Mơ hình phát trực tuyến HAS So với mơ hình phát trực tuyến truyền thống, mơ hình HAS sử dụng HTTP ứng dụng sử dụng TCP giao thức cho lớp truyền tải, người dùng lấy liệu từ máy chủ HTTP chuẩn Hình 1.2 Cơ bản, máy chủ chứa nội dung đa phương tiện Giải pháp HAS triển khai theo chế tương thích động tùy theo nhiều điều kiện kết nối mạng khác để cung cấp trải nghiệm phát trực tuyến liên tục, chí mượt mà File đa phương tiện video luồng liệu phát trực tuyến nhận từ nguồn phát, trước phát chuẩn hóa máy chủ HTTP Các file chia nhỏ thành phân đoạn (còn gọi chunk) với mức thời lượng tương ứng Các phân đoạn mã hóa với mức tốc độ bit khác nhau, tương ứng với chất lượng khác nhau, cách sử dụng mã hóa chuyển mã Theo đó, máy chủ tạo file đầu mục, danh sách bao gồm địa web máy chủ HTTP, phân đoạn video khả dụng để xác định phân đoạn thuộc máy chủ thời gian khả dụng Trong suốt phiên HAS, người dùng nhận bảng kê chi tiết bao gồm liệu video, âm thanh, phụ đề tham số khác, sau tiến hành thường xuyên đo đạc tham số bắt buộc như: băng thông mạng khả dụng, trạng thái đệm, pin tình trạng CPU, v.v Người dùng đầu cuối lựa chọn chất lượng phân đoạn tải xuống số các phân đoạn lưu trữ máy chủ tùy theo thông số đo đạc Truyền phát video qua HTTP có số lợi ích sở hạ tầng Internet phát triển để hỗ trợ HTTP cách hiệu Ngoài ra, hầu hết tất tường lửa cấu hình để hỗ trợ kết nối HTTP Thêm vào đó, với phát trực tuyến qua HTTP, đầu cuối người dùng quản lý việc truyền phát mà khơng cần trì trạng thái phiên kết nối máy chủ Do đó, việc triển khai dịch vụ với số lượng lớn người dùng không gây tốn tài nguyên máy chủ nên chủ yếu sử dụng giao thức hoạt động tảng HTTP để cung cấp dịch vụ phát trực tuyến video Hình 1.3: Tổng quan phát trực tuyến tương thích tốc độ bit qua HTTP Theo đó, video lưu trữ máy chủ video, chia thành nhiều phân đoạn, thường vài giây Mỗi phân đoạn mã hóa thành nhiều mức tốc độ bit khác Phân đoạn có mức tốc độ bit cao đồng nghĩa với chất lượng cao có kích thước lớn Mức tốc độ bit phân đoạn video cân chỉnh để truyền phát mượt mà, liên tục, nghĩa là, chương trình phát video người dùng chuyển sang mức tốc độ bit khác phân đoạn video mà khơng tác động đến đoạn dự phịng khơng bỏ qua phần video Hình 1.3 mơ tả tiến trình phát video trực tuyến qua HTTP • Dữ liệu video chia nhỏ thành chunk – phân đoạn video, mã hóa với mức chất lượng khác lưu trữ máy chủ (streaming server) • Phần mềm phía người dùng (media player, web browser, ) cần kết nối đến máy chủ xác định tệp video máy chủ streaming muốn xem • Nhà cung cấp dịch vụ gửi lại cho người dùng danh sách máy chủ chứa video danh sách tốc độ bit video sẵn có • Người dùng u cầu phân đoạn video, cách sử dụng thuật toán tương thích tốc độ bit (ABR: Adaptive Bitrate Algorithm) Các thuật tốn sử dụng nhiều thơng số đầu vào (như tình trạng đệm, đo thơng lượng mạng,…) để lựa chọn mức tốc độ bit phân đoạn video Khi chunk tải thiết bị người dùng, lưu trữ đệm, giải mã (decode) sau hiển thị thơng qua chương trình chơi video (Ví dụ: VLC, KMPlayer nói trên),lưu ý phân đoạn muốn phát phải tải xuống hoàn toàn Lịch sử truyền trực tuyến có từ lâu hình thức xem lần đầu vào năm 1890, âm nhạc phát trực tuyến thơng qua mạng điện thoại Tính đến 2020, thị trường phát trực tuyến có trị giá hàng tỉ đơla ước tính tăng trưởng mở rộng hàng năm từ 21% từ năm 2021 Các nhà công nghệ khổng lồ, Facebook, Twitter Youtube đầu từ mạnh mẽ giành giật thị phần béo bở khổng lồ • Phát trực tuyến video sử dụng rộng rãi ứng dụng mạng như: phần mềm (các ứng dụng nghe nhạc, xem phim VLC, KMPlayer; hay trình duyệt web như: Internet Explorer, Google Chrome…) máy khách truy cập xem video từ máy chủ theo mơ hình máy chủ/máy khách; ứng dụng họp trực tuyến, đào tạo từ xa Vì phát trực tuyến video đóng vai trị ngày quan trọng mạng Internet nên có nhiều giao thức phát trực tuyến video phát triển, phục vụ nay, bao gồm: • Real Time Transport Protocol (RTP) • Real Time Messaging Protocol (RTMP) • HTTP Live Streaming (HLS) • Adobe HTTP Dynamic Streaming (HDS) • IIS Smooth Streaming • MPEG-DASH Trong giao thức trên, RTP RTMP hoạt động tốt mạng IP quản lý Tuy nhiên, Internet ngày nay, mạng quản lý thay thế, nhiều mạng không hỗ trợ truyền phát RTP Ngồi ra, gói RTP RTMP thường không phép thông qua tường lửa Các giao thức lại dựa tảng HTTP Phát trực tuyến video ứng dụng chiếm phần lớn lưu lượng Internet ngày Các phương thức phát video ngày cải thiện nâng cao chất lượng Bên cạnh đó, kết nối băng thơng rộng với phát triển thiết bị di động 3G/4G/5G, đó, người dùng sử dụng nhiều loại thiết bị khác để truy cập kho nội dung đa phương tiện khổng lồ nhiều phương thức kết nối với tốc độ truy cập Internet khác Tuy nhiên, điều đặt thách thức cho nhà cung cấp dịch vụ việc đảm bảo người dùng nhận video với chất lượng cao xem liên tục, khơng bị đứng hình Nhiều nghiên cứu chứng minh, người dùng ngừng xem video có có vấn đề xảy ra, lỗi từ lúc khởi đầu xem video chuyển đổi từ mức chất lượng cao sang chất lượng thấp nhất,… ảnh hưởng nghiêm trọng đến thu nhập nhà cung cấp dịch vụ Điều bị ảnh hưởng từ nhiều yếu tố chất lượng mạng, thiết bị đầu cuối phương thức truyền Để giải vấn đề này, nhà cung cấp dịch vụ nội dung triển khai tối ưu thuật tốn tương thích tốc độ bit (Adaptive Bitrate algoritms – ABR algorithms) nhằm mục đích nâng cao trải nghiệm người dùng (Quality of Experience – QoE) điều kiện kết nối khác để người dùng chủ động lựa chọn chất lượng các phân đoạn video với mức QoE tốt – dựa giám sát điều kiện khả dụng thơng lượng mạng, tình trạng đệm phát lại,… 1.1.2 Vai trò QoE yếu tố ảnh hưởng đến QoE Quality of Experience – QoE trải nghiệm người dùng đánh giá cảm nhận người dùng chất lượng dịch vụ, chất lượng video mà người dùng nhận sử dụng dịch vụ phát trực tuyến Do có nhiều giao thức phát trực tuyến, nên việc đánh giá QoE khó khăn 17 CHƯƠNG GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG PHÁT TRỰC TUYẾN VIDEO: HỌC TĂNG CƯỜNG (REINFORCEMENT LEARNING) 3.1 Phương pháp học tăng cường 3.1.1 Tổng quan học tăng cường Có nhiều giải pháp cho phát trực tuyến video, với mục tiêu nâng cao chất lượng QoE, đem lại cho người dùng trải nghiệm tốt Tuy nhiên, nói, chất lượng thu giải pháp có tùy thuộc vào kết dự đoán Nếu kết dự đoán sai, kết thu khơng tốt, dẫn đến chất lượng video kém, kéo giảm giá trị QoE Và từ đó, để khắc phục hạn chế giải pháp trước đó, giải pháp học tăng cường đề xuất chứng minh hiệu triển khai thực tế Học tăng cường việc huấn luyện mơ hình học máy để đưa chuỗi định Trong học tăng cường, sử dụng tác nhân (agent) tương tác với môi trường (environment) Tại thời điểm t, tác nhân lấy thông tin từ mơi trường để tìm trạng thái 𝑠𝑡 , từ tác nhân thực hành động 𝑎𝑡 Tác nhân nhận phần thưởng (reward) 𝑟𝑡 tương ứng với hành động 𝑎𝑡 , trạng thái môi trường thay đổi từ 𝑠𝑡 sang 𝑠𝑡+1 Giá trị 𝑟𝑡 cho biết tình trạng môi trường tốt hay xấu Mục tiêu tối đa phần thưởng tổng, gọi lợi tức Học tăng cường cách để tác nhân học thao tác đạt mục tiêu đề Hình 3.1: Sơ đồ tổng quan RL 18 Hình 3.1 mơ tả cách tác nhân thu thập trạng thái 𝑠𝑡 môi trường, thực hành động 𝑎𝑡 thu phần thưởng 𝑟𝑡 Hai thành phần học tăng cường tác nhân môi trường Môi trường nơi tác nhân tồn tương tác Ở bước tương tác, tác nhân quan sát thu thập thơng tin tình trạng môi trường định hành động Mơi trường thay đổi có tác nhân tác động tự thay đổi, không cần tác động Để hiểu rõ thể hơn, cần giới thiệu làm rõ số thuật ngữ sử dụng học tăng cường: − không gian trạng thái, − khơng gian hành động, − sách, − quỹ đạo, − phần thưởng lợi tức, − hàm giá trị: Q-funtion, V-function 3.1.2 The RL Landscape: Các mơ hình RL Hình 3.2: Các mơ hình RL 19 3.2 Q-Learning Deep Q-Learning 3.2.1 Q-Learning 3.2.2 Deep Q-Learning viết tắt DQN DQN thuật toán đại họ Q-Learning, kết hợp phương pháp học sâu Q-Learning, triển khai DASH nhằm đạt sách tối ưu cho mơ-đun điều giao thức tương thích DASH Hệ thống học máy sử dụng hệ thống phức tạp cơng trình nghiên cứu thể hiệu suất vượt trội, dù phương phát xuất gần Hình 3.3: Sơ đồ hoạt động DQN Hình 3.3 mơ tả sơ đồ hoạt động giải pháp học tăng cường DQN Nếu xem nội dung video dạng chuỗi cảnh với thời lượng phân phối theo cấp số nhân, dịch vụ phát trực tuyến video mơ hình hóa một chuỗi định Markov với không gian hành động A, không gian trạng thái S hàm phần thưởng ρ: S ×S × A → R Tương ứng, sử dụng qt để biểu thị hành động tải xuống phân đoạn t với chất lượng hình ảnh qt Hành động qt ∈ A, lấy hệ thống trạng thái cho trước st ∈ S, xác định phân phối thống kê trạng thái st + phần thưởng ρ (st, st + 1, qt) đạt bước t Hàm tổn thất 𝐿̃ bước t đánh giá thông qua bốn tham số 𝑒𝑡 = (𝑠𝑡 , 𝑞𝑡 , 𝑟𝑡, 𝑠𝑡+1 ), xem trải nghiệm tác nhân bước t tính sau: 20 𝐿̃(𝑠𝑡 , 𝑞𝑡 , 𝑟𝑡, 𝑠𝑡+1 ) = (𝑟𝑡 + 𝛼 max 𝑄̂ (𝑠𝑡+1 , 𝑞𝑡 |𝑤 ̅̅̅) 𝑡 − 𝑄(⟨𝑠𝑡 , 𝑞𝑡 |𝑤𝑡 ⟩ ) (8) 𝑞 Với 𝑟𝑡 phần thưởng phân đoạn t Đối với DASH, triển khai DQN, có hai mạng nơ-ron sâu sử dụng Mạng thứ nhất, với vector trọng số 𝑤𝑡 , cập nhật sau phân đoạn (thường sau bước thời gian t), dùng để xây dụng bảng giá trị Q-value 𝑄(⟨𝑠𝑡 , 𝑞𝑡 |𝑤𝑡 ⟩ Mạng thứ hai, thường gọi mạng đích, sử dụng nhằm tăng tính ổn định hệ thống học máy vector trọng số ̅̅̅ 𝑤𝑡 cập nhật sau K phân đoạn, thiết lập với giá trị mạng thứ giữ cố định cho K-1 bước Nghĩa 𝑤𝑡 = ̅̅̅ 𝑤𝑡 sau K phân đoạn Mạng đích dùng để tìm kiếm giá trị 𝑄(⟨𝑠𝑡 , 𝑞𝑡 |𝑤 ̅̅̅⟩ 𝑡 Ta định nghĩa mạng nơ-ron sử dụng liệu đầu vào trạng thái liệu đâu giá trị Q-value Thế mạng nơ-ron dễ bị tượng tràn liên tục nhận trạng thái giống có tính tuyến tính, cần phải áp dụng kỹ thuật Experience Replay để tăng tính ổn định thuật tốn tận dụng liệu thu thập trước Thay với trạng thái đầu vào, mạng nơ-ron cập nhật lần, ta lưu lại trạng thái vào nhớ replay-memory Sau thực lấy mẫu trạng thái thành batch đưa vào mạng nơ-ron thực việc huấn luyện Việc giúp đa dạng hóa liệu đầu vào tránh mạng nơ-ron bị tải Tuy nhiên, nhớ để lưu trữ mẫu cần phải đủ lớn để giảm biến động Điều đem lại lợi ích sau đây: liệu đáng tin cậy hơn, mẫu huấn luyện bị trùng lắp, sách q trình lấy mẫu độc lập, khơng phụ thuộc 21 Hình 3.4: Lưu đồ tiến trình cập nhật Tồn q trình chia thành giai đoạn liên tiếp Hình 3.4, thực thi khác có số bước thực hiện, gọi giai đoạn huấn luyện giai đoạn kiểm thử Giai đoạn huấn luyện: Tham số thăm dò, cụ thể ε trường hợp sách epsilon ε-tham lam giảm dần Ở lần lặp, trọng số mạng cập nhật để giảm thiểu hàm tổn thất (8) Phương pháp Adam sử dụng làm thuật tốn tối ưu hóa gradient giảm dần: thực thi tốc độ học tập tương thích để việc hội tụ diễn nhanh Giai đoạn kiểm thử: Tham số thăm dị đặt thành 0, đó, sách epsilon ε-tham lam thực hành động coi tối ưu tương ứng với trạng thái hệ thống ánh xạ Q (st, qt | wt) từ mạng nơron Đối với giai đoạn này, trọng số wt bị đóng băng khơng cịn cập nhật suốt thời gian kiểm tra Mạng mục tiêu không sử dụng giai đoạn kiểm tra tất đánh giá hiệu suất dựa kết thu giai đoạn thứ hai Sơ đồ trình cập nhật hiển thị Hình 3.3 Đầu tiên, trạng thái môi trường 𝑠𝑡 đưa vào mạng nơ-ron, kết đầu giá trị dự đoán Q cho hành động có 𝑞 ∈ 𝐴 , tức là, giá trị khác tập tương thích A Sau đó, hành động 𝑞𝑡 chọn theo sách ε- 22 tham lam softmax Khi thực hành động 𝑎𝑡 , hệ thống chuyển sang trạng thái 𝑠𝑡+1 phần thưởng 𝑟𝑡 đánh giá theo công thức: 𝑟𝑖 = 𝑞(𝑙𝑖 ) − 𝛽|𝑞(𝑙𝑖 ) − 𝑞(𝑙𝑖−1 )| − 𝛾∅𝑖 − 𝛿[max(0, 𝐵𝑚𝑎𝑥 − 𝐵𝑖 ]]2 (9) Trong đó: - 𝑞(𝑙𝑖 ) hàm độ lợi, tương ứng mức chất lượng 𝑙𝑖 phân đoạn video thứ i - |𝑞(𝑙𝑖 ) − 𝑞(𝑙𝑖−1 )| độ sai lệch mức chất lượng hai phân đoạn video liên tiếp Mức chất lượng video xem ổn định độ sai lệch nhỏ Các phân đoạn video nhận có thay đổi liên tục mức chất lượng ảnh hưởng nghiêm trọng đến cảm nhận người dùng - ∅𝑖 thời gian bị đứng hình phát phân đoạn thứ i, ∅𝑖 tính theo cơng thức ∅𝑖 = max (0, 𝑑𝑖 − 𝐵𝑖 ), với 𝑑𝑖 thời gian tải phân đoạn thứ i 𝐵𝑖 kích thước đệm (tính theo giây) - [𝑚𝑎𝑥 (0, 𝐵𝑚𝑎𝑥 − 𝐵𝑖 ]2 giảm trừ đệm video có giá trị thấp mức ngưỡng cho trước 𝐵𝑚𝑎𝑥 đệm Tuy nhiên, giá trị bỏ qua công thức QoE - 𝛽, 𝛾 𝑣à 𝛿 hệ số cho thành phần giảm trừ đứng hình, giảm trừ thay đổi mức chất lượng giảm trừ mức đệm thấp ngưỡng cho trước Thuật tốn DQN mơ tả sau: Initialize replay memory 𝑅 with fixed capacity Initialize action-value function 𝑎̂ with random weights 𝑤 Initialize target action-value function 𝑞̂ with weight 𝑤𝑡𝑎𝑟 = 𝑤 For episode 𝑚 = 1, … , 𝑀 For time step 𝑡 = 1, … , 𝑁 random action, with probability ϵ Select action 𝑎𝑡 = { arg max 𝑞̂(𝑠 , 𝑎′ ; 𝑤) , otherwise 𝑡 ′ a Take action 𝑎𝑡 and observe reward 𝑟𝑡 and new state 𝑠𝑡+1 23 Append transition (𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1 ) to 𝑅 Sample uniformly a random mini-batch of 𝐵 transitions (𝒔𝑗 , 𝒂𝑗 , 𝒓𝑗 , 𝒔𝑗+1 ) from 𝑅𝑘 𝑟𝑗 for terminal step 𝑗 + Set 𝑦𝑗 = {𝑟 + 𝛾 max 𝑞̂(𝑠 , 𝑎′ ; 𝑤 ) 𝑗 𝑗+1 𝑡𝑎𝑟 for non − terminal step 𝑗 + ′ 𝑎 Perform a stochastic gradient descent step w.r.t loss function 𝐽(𝑤) = ∑𝐵𝑗=1 (𝑦𝑗 − 𝑞̂(𝑠𝑗 , 𝑎𝑗 ; 𝑤)) 𝐵 Every fixed 𝐶 steps, update target network 𝑤𝑡𝑎𝑟 = 𝑤 End for End for 3.3 Ứng dụng DQN Video Streaming Như nói trên, DQN phương pháp học kết hợp học tăng cường QLearning với giải pháp học sâu, sử dụng mạng nơ-ron, thực học mơ hình thông qua tập hợp hành động tác nhân học tăng cường đưa Tại thời điểm t, tương ứng với trạng thái môi trường st, tác nhân thực hành động 𝑎𝑡 , tương tác với môi trường, môi trường chuyển sang trạng thái 𝑠𝑡+1 , nhận phần thưởng 𝑟𝑡+1 Mục tiêu việc học đưa chuỗi hành động nhằm đạt giá trị tối đa tổng phần thưởng nhận 24 Hình 3.5: Mơ hình học tăng cường cho vấn đề phát video tương thích tốc độ bit qua HTTP Khi áp dụng giải pháp DQN vào phát trực tuyến, Hình 3.5, khơng gian trạng thái , các hàm phần thưởng, hành động, hàm phần thưởng, tác nhân học tăng cườn định nghĩa sau: Trạng thái (tương ứng với giá trị st) định nghĩa tập hợp quan sát từ mơi trường ước tính thơng lượng mạng, độ trễ, chất lượng phân đoạn video vừa tải trước đó, kích thước phân đoạn tương ứng với mức chất lượng khác nhau, số phân đoạn video lại,… Hành động (tương ứng với giá trị at): hành động định nghĩa lựa chọn chất lượng phân đoạn video tiếp theo, tùy thuộc vào kết việc quan sát trạng thái môi trường Tác nhân học tăng cường (DRL agents) hướng nghiên cứu luận văn thuật toán DQN Hàm phần thưởng (reward) giá trị QoE tổng thu thập được, tổng hợp độ lợi mang lại từ chất lượng phân đoạn video liên tiếp, giá trị bị giảm trừ hai phân đoạn liên tiếp có mức chất lượng khác giảm trừ bị đứng hình Theo đó, hàm phần thưởng phân đoạn video thứ i tính theo cơng thức (9) 25 Sau q trình huấn luyện cách sử dụng thuật toán DQN, kết thu giá trị QoE tính tốn từ hành động lựa chọn mức chất lượng phân đoạn video tải 3.4 Kết luận chương Chương nêu lên vấn đề mà luận văn đối mặt đề xuất quy trình nghiên cứu Trong chương sau, luận văn trình bày trình cụ thể trình xây dựng đánh giá kết đạt 26 CHƯƠNG CÀI ĐẶT VÀ THỰC NGHIỆM 4.1 Công cụ mô Từ công thức đánh giá QoE kết chương 3, luận văn tập trung xây dựng công cụ mô việc sử dụng mã nguồn mở Pytorch, Stable_Baseline OpenAI Gym 4.1.1 PyTorch PyTorch [18] (Paszke et al., 2019) framework học máy mã nguồn mở , giúp tăng tốc lộ trình từ mẫu nghiên cứu đến triển khai thực tế PyTorch cung cấp hai tính cao cấp: (1) Tính tốn tensor (giống NumPy) với khả tăng tốc mạnh mẽ thông qua GPU (2) Mạng Deep neural xây dựng hệ thống phân biệt tự động theo phân loại PyTorch thịnh hành cộng đồng nghiên cứu tính động hầu hết thư viện RL xây dựng PyTorch cho phép toàn quyền tùy chỉnh 4.1.2 OpenAI Gym Environment Gym [19] (Brockman cộng sự, 2016) công cụ để phát triển so sánh thuật toán Reinforcement Learning Hỗ trợ dạy tác nhân thứ, từ đến chơi trị chơi Pong Pinball Nó khơng có giả định cấu trúc tác nhân tương thích với thư viện số tính toán 4.1.3 Stable_Baseline Stable_Baseline3 [20](SB3) (Rafn cộng sự, 2021) framework mã nguồn mở triển khai thuật tốn deep RL khơng theo mơ hình sử dụng phổ biến Thư viện trọng đến tuân thủ phương pháp hay kỹ thuật phần mềm để đạt triển khai chất lượng cao phù hợp với kết trước Mỗi thuật tốn chuẩn hóa mơi trường chung so với lần triển khai trước Bộ thử nghiệm bao gồm 95% mã với với thay đổi xem xét kỹ lưỡng dựa người dùng 27 hoạt động, đảm bảo lỗi triển khai giảm thiểu Vào tháng 11 năm 2021, SB3 có 800 GitHub, 100 vấn đề xử lý 80 yêu cầu hợp nhất, làm cho SB3 trở thành thư viện RL phổ biến 4.2 Tập liệu dùng cho q trình mơ Đối với video, q trình mơ sử dụng tập liệu video Elephants dream [15] (Blender, 2014) Video mã hóa thành 20 mức chất lượng khác với phân đoạn có thời lượng giây Bảy mức mã hóa bitrate sau: [700, 900, 2000, 3000, 5000, 6000, 8000] Kbps chọn, tuân theo cấu trúc (Google, 2021), mức chất lượng phổ biến, thân thuộc với người dùng là: (240p, 360p, 480p, 720p, 720p @ 60fps, 1080p, 1080p @ 60 khung hình / giây) Do đó, tác nhân có hành động riêng biệt cho bước 60 phần video (N = 60) sử dụng, có thời lượng 240 giây Chất lượng mặc định phân đoạn mức chất lượng thấp 4G LTE: tập liệu 4G LTE [16](Raca cộng sự, 2018) bao gồm 135 đoạn băng thơng, với mức trung bình có thời lượng 15 phút cho đoạn băng thông, mức độ chi tiết giây Tập liệu thu thập đoạn băng thông từ nhà khai thác di động Ireland, với kiểu di chuyển (tĩnh, người bộ, xe hơi, xe buýt xe lửa) FCC: Tập liệu FCC chứa triệu đoạn, mức độ chi tiết 10 giây mẫu [17] (FCC, 2019) Tôi tạo 1.000 đoạn băng thông ngẫu nhiên (mỗi đoạn kéo dài 320 giây) cho tập liệu huấn luyện kiểm thử Tôi sử dụng tập liệu tháng năm 2019 4.3 Quá trình mô Huấn luyện kiểm thử: Trong hai tập liệu, chia ngẫu nhiên tập liệu thành 80% cho huấn luyện 20% để kiểm tra Để tăng tốc q trình huấn luyện, tơi kết hợp liệu FCC LTE để huấn luyện tác nhân học tăng cường Tác nhân huấn luyện 590.000 bước với 10000 tập 28 để tìm mơ hình Trong q trình huấn luyện, mơ hình tốt so với mơ hình trước sẽ giữ lại để so sánh tìm mơ hình tốt Hình 4.1: Đoạn code huấn luyện lưu mơ hình tốt Hình 4.2: Code đánh giá kết thu theo tập liệu test FCC Sau huấn luyện, tác nhân DQN đánh giá kiểm tra tập thử nghiệm (được phân chia mô tả trên) 200 tập ghi lại giá trị phần thưởng trung bình Thử nghiệm lặp lại 10 lần sử dụng giá trị trung bình Dữ liệu đầu vào cố định trình đánh giá, tức bước, thuật toán quan sát liệu đầu vào Các thư viện mã nguồn mở: Sử dụng thuật toán triển khai thư viện mã nguồn mở Stable-Baselines3 mà không sửa đổi phần thuật toán α β: theo [6], đặt β = sử dụng giá trị α = 2.66 để kiểm tra 29 4.4 Đánh giá kết mô 4.4.1 Các thuật toán khác So sánh phương pháp tương thích tốc độ bit dựa học tăng cường, DQN, so với thuật tốn có trước nhận kết sau: • Ngẫu nhiên (RAN): với thuật toán này, bước, mức chất lượng video lựa chọn cách ngẫu nhiên • Cố định (CON): thuật toán chọn mức chất lượng bước, cụ thể 3000kpbs, tương đương chuẩn video HD 720p • Dựa thông lượng (TRB): Mức chất lượng cao chọn phải nhỏ bình quân mức chất lượng ba phân đoạn tải xuống gần • BOLA: thuật tốn tương thích dựa thơng lượng, sử dụng phương pháp tối ưu Lyapunov để giảm thiểu đứng hình tối ưu hóa chất lượng video 4.4.2 Kết mô Kết thể Bảng 4.1 giá trị α = 2.66 siêu tham số lựa chọn sẵn Thuật tốn DQN hội tụ sau 250.000 bước huấn luyện Hình 4.3: Biểu đồ giá trị phần thưởng tích lũy DQN huấn luyện 30 Khi so sánh QoE giải pháp QoE với thuật toán giải pháp khác khác, thuật toán dựa DQN đem lại giá trị QoE cao Bảng 4.1: Kết QoE thực đánh giá với α = 2.66 FCC QoE Chuyển đổi mức chất lượng Rebuffer (Đứng hình) DQN 0.821 0.19 0.06 THRB 0.726 0.20 0.03 BOLA 0.785 0.11 0.09 RAN -1.142 0.606 1.38 CON -1.686 0.044 2.8 LTE QoE Chuyển đổi mức chất lượng Rebuffer (Đứng hình) DQN 0.485 0.17 0.141 THRB 0.417 0.186 0.208 BOLA 0.455 0.152 0.265 RAN -2.2005 0.604 2.380 CON -3.14 0.044 4.251 31 CHƯƠNG KẾT LUẬN 5.1 Kết nghiên cứu đề tài Luận văn “NÂNG CAO CHẤT LƯỢNG PHÁT VIDEO QUA HTTP BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG” giới thiệu lịch sử phát video trực tuyến giải pháp có Tiếp theo tơi phân tích yếu tố tác động đến chất lượng dịch vụ, tác động đến trải nghiệm người dùng đánh giá tác động Sau cùng, đề xuất giải pháp, thư viện framework dùng để mô phỏng, đánh giá kết thu Kết mơ chứng minh tính hiệu giải pháp học tăng cường sâu DQN áp dụng cho thuật tốn tương thích tốc độ bit Với kết thuật tốn tương thích tốc độ bit dựa học tăng cường thể ưu điểm so với phương pháp truyền thống 5.2 Hạn chế luận văn Môi trường thực: Do quỹ thời gian hạn hẹp, thực việc đánh giá thông qua kết mơ sử dụng thuật tốn áp dụng học tăng cường để so sánh với thuật toán truyền thống mà mà không thực việc mô môi trường thực dash.js Trong môi trường thực có nhiều vấn đề cần để giải 5.3 Vấn đề kiến nghị hướng nghiên cứu Từ kết thực tế để đáp ứng hạn chế, xin đề xuất hướng nghiên cứu luận văn thực môi trường thực, sử dụng đa dạng thuật toán học tăng cường khác, sử dụng thư viện mã nguồn mở A2C, PPO, thuật tốn đại, cho phép thực q trình tính tốn song song, giảm thời gian huấn luyện tác nhân Các thuật tốn nhiều cơng trình nghiên cứu đề cập đến

Định dạng
Số trang	33
Dung lượng	1,06 MB