1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật viễn thông: Tối ưu tốc độ dữ liệu trong hệ thống miso có sự hỗ trợ của bề mặt phản xạ thông minh dùng học sâu tăng cường

75 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRẦN HỮU TUÂN

TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ THỐNG MISO CÓ SỰ HỖ TRỢ CỦA BỀ MẶT PHẢN XẠ THÔNG MINH

DÙNG HỌC SÂU TĂNG CƯỜNG

Chuyên ngành: Kỹ Thuật Viễn Thông Mã số:8520208

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 07 năm 2023

Trang 2

Cán bộ hướng dẫn khoa học : PGS.TS Hà Hoàng Kha (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch hội đồng: GS.TS Lê Tiến Thường

2 Thư ký: TS Huỳnh Phú Minh Cường 3 Phản biện 1: PGS TS Đỗ Hồng Tuấn 4 Phản biện 2: TS Nguyễn Đình Long 5 Ủy viên: TS Huỳnh Thế Thiện

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Hữu Tuân MSHV: 2170794 Ngày, tháng, năm sinh: 03/07/1998 Nơi sinh: Lâm Đồng Chuyên ngành: Kỹ Thuật Viễn Thông Mã số : 8520208

I TÊN ĐỀ TÀI:

Tối ưu tốc độ dữ liệu trong hệ thống MISO có sự hỗ trợ của bề mặt phản xạ thông minh dùng học sâu tăng cường (Rate optimization for intelligent reflecting surface aided MISO systems using deep reinforcement learning)

II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu mô hình hệ thống thông tin di động đa người dùng MISO có sự hỗ trợ của bề mặt phản xạ thông minh

- Giới thiệu mô hình toán và lời giải cho vấn đề tối ưu tốc độ dữ liệu cho hệ thống MISO có hỗ trợ bởi bề mặt phản xạ thông minh

- Phát triển và mô phỏng giải thuật ứng dụng học sâu tăng cường nhằm tối ưu tốc độ dữ liệu trong hệ thống MISO có sử dụng bề mặt phản xạ thông minh

III NGÀY GIAO NHIỆM VỤ : 05/09/2022

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023

V CÁN BỘ HƯỚNG DẪN: PSG.TS.Hà Hoàng Kha

Trang 4

i

LỜI CẢM ƠN

Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS TS Hà Hoàng Kha, người Thầy hướng dẫn em thực hiện luận văn này Thầy đã truyền đạt kiến thức, kinh nghiệm quý báu cũng như cung cấp các tài liệu cần thiết và giải đáp những thắc mắc mà em gặp phải trong suốt cả quá trình làm luận văn Sự tận tình và quan tâm của Thầy chính là nguồn cảm hứng để em cố gắng nghiên cứu và học tập kể cả sau khi kết thúc quá trình làm luận văn Một lần nữa, từ tận con tim mình, em xin tỏ lòng biết ơn sâu sắc nhất gửi đến Thầy

Tiếp theo, em xin gửi lời cảm ơn chân thành đến các thầy cô ở Bộ môn Viễn Thông, Khoa Điện - Điện tử, trường Đại học Bách Khoa Tp Hồ Chí Minh Tuy không trực tiếp hướng dẫn em, nhưng những kiến thức mà thầy cô đã giảng dạy cho em trong suốt những năm qua là cơ sở, nền tảng vững chắc giúp em có đủ khả năng để thực hiện luận văn này

Cuối cùng, em xin gửi lời cảm ơn chân thành đến gia đình, những người đã luôn bên cạnh, ủng hộ em về cả vật chất lẫn tinh thần để em hoàn thành luận văn này

Tp Hồ Chí Minh, tháng 6 năm 2023

Trần Hữu Tuân

Trang 5

ii

TÓM TẮT LUẬN VĂN

Những năm gần đây, đặc biệt là trong và sau khi đại dịch Covid-19, thế giới chứng kiến sự tăng trưởng vượt bậc của nhu cầu sử dụng các dịch vụ và ứng dụng di động không dây Từ đó, mạng di động thế hệ thứ 6 (6G) đang từng bước trở thành tâm điểm của các nguồn lực đầu tư và nghiên cứu Một trong số công nghệ mới đáng chú ý trong 6G đó là bề mặt phản xạ thông minh (IRS) Tuy chỉ mới được phát triển trong khoảng năm năm gần đây, IRS đã đạt được nhiều thành tựu đáng kể trong việc cải thiện hiệu suất và chất lượng của các hệ thống truyền thông Bên cạnh những ưu điểm, IRS cũng đặc ra một số thách thức nhất định và một trong số đó là vấn đề tối ưu cho các hệ thống có IRS Bên cạnh đó, các giải thuật máy học, học sâu hay trí tuệ nhân tạo đang trở thành xu hướng, được áp dụng trong nhiều lĩnh vực và hỗ trợ con người rất nhiều trong việc giải quyết các vấn đề phức tạp Tổng hợp lại, luận văn được xác định chủ đề nghiên cứu là: “Tối ưu tốc độ dữ liệu của hệ thống MISO có sử dụng bề mặt phản xạ thông minh dùng học sâu tăng cường”

Trước tiên, luận văn giới thiệu tổng quan về tình hình tăng trưởng của lưu lượng dữ liệu di động và đôi nét về công nghệ 6G; sau đó đề cập đến IRS và về học sâu tăng cường (DRL) từ đó xác định đề tài nghiên cứu Sau đó, luận văn trình bày cơ sở lý thuyết nền tảng được sử dụng trong luận văn, bao gồm một số khái niệm và công nghệ như IRS, DRL, giải thuật DDPG, một số lý thuyết cơ sở, và các kiến thức toán cần thiết Trên cơ sở đó luận văn giải quyết vấn đề tối ưu tổng tốc độ dữ liệu trong hệ thống MISO đa người dùng có sử dụng bề mặt phản xạ bằng không chỉ phương pháp giải tối ưu truyền thống mà còn là theo phương pháp ứng dụng học sâu tăng cường Đối với cả hai phương pháp, mô hình toán học, giải thuật lập trình, phương pháp đề xuất và kết quả mô phỏng đều được cung cấp đầy đủ Thông qua các kết quả mô phỏng, một số so sánh và nhận xét cũng sẽ được nêu lên để đánh giá khả năng cũng như chất lượng kết quả của cả hai phương pháp khi cùng áp dụng để giải quyết vấn đề đã đặt ra Cuối cùng, luận văn tổng hợp lại những công việc đã hoàn thành và đề ra hướng phát triển sau này.

Trang 6

iii

ABSTRACT

In recent years, especially during and after the Covid-19 pandemic, the world has witnessed a dramatic growth in demand for wireless mobile services and applications, which requires communication technology to be innovated and developed The 6th generation mobile network (6G) is gradually becoming the focus of investment and research With standards far beyond 5G, 6G networks promise to bring many breakthroughs and applications in the future One of these new technologies in 6G networks is the intelligent reflective surface (IRS) Although only developed in the last five years, the IRS has shown effects in improving the performance and quality of communication systems Along with the advantages, the IRS also identifies some challenges that need to be solved, one of them is the optimization problems for the system with the IRS In recent years, applying machine learning, deep learning or artificial intelligence algorithms is becoming a trend, which being applied in many fields and helping a lot in solving complex problems Altogether, the thesis is determined to research with the topic "Rate optimization for intelligent reflecting surface aided MISO systems using deep reinforcement learning"

First, this thesis introduces an overview of the development of mobile data traffic and some features of 6G technology; then mentioned the IRS and deep reinforcement learning (DRL) from which to define the research topic Then, the thesis presents the theoretical foundation, including some concepts and technologies such as IRS, DRL, DDPG algorithm, some basic theories, etc and mathematics background Next, the thesis solves the problem of optimizing the total data rate in the multi-user MISO system using the reflective surface by both approaches, according to the traditional optimal solution method and the other method using reinforcement deep learning For the two methods, mathematical models, programming algorithms, proposed solutions and simulation results are provided Through simulation results, some comparisons and comments will also be performed to evaluate the ability and quality of results of both methods Finally, the thesis summarizes the works done and proposes future research

Trang 7

iv

LỜI CAM ĐOAN

Tôi tên là Trần Hữu Tuân, học viên Thạc sĩ chuyên ngành Kỹ thuật Điện tử - Viễn Thông, khóa 2021, tại Đại học Quốc gia Thành phố Hồ Chí Minh – Trường Đại học Bách Khoa Tôi xin cam đoan những nội dung sau đây đều là sự thật:

• Công trình nghiên cứu này hoàn toàn do chính tôi thực hiện;

• Các tài liệu và trích dẫn trong luận văn này được tham khảo từ các nguồn thực tế, có uy tín và độ chính xác cao;

• Các số liệu và kết quả của công trình này được tôi thực một các độc lập và trung thực

TP Hồ Chí Minh, tháng 06 năm 2023

Trần Hữu Tuân

Trang 8

v

MỤC LỤC

CHƯƠNG 1 GIỚI THIỆU CHUNG 1

1.1 ĐẶT VẤN ĐỀ 1

1.1.1 Tốc độ tăng trưởng của dịch vụ dữ liệu di động trên mạng viễn thông 1

1.1.2 Công nghệ truyền thông không dây thế hệ thứ 6 4

1.2 LÝ DO CHỌN ĐỀ TÀI 8

1.3 MỤC TIÊU CỦA LUẬN VĂN 8

1.4 PHƯƠNG PHÁP VÀ PHẠM VI NGHIÊN CỨU 9

1.4.1 Phạm vi và đối tượng nghiên cứu 9

1.4.2 Phương pháp nghiên cứu 9

1.5 BỐ CỤC CỦA LUẬN VĂN 10

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 11

2.1 KÊNH TRUYỀN TRONG HỆ THỐNG VIỄN THÔNG 11

2.2 BỀ MẶT PHẢN XẠ THÔNG MINH 12

2.3 HỌC SÂU TĂNG CƯỜNG –DEEP REINFORCEMENT LEARNING 17

2.3.1 Tổng quát về học sâu tăng cường 17

2.3.2 Các thuật ngữ cơ bản trong học tăng cường 18

2.3.3 Các đặc điểm chính của học sâu tăng cường 19

2.4 GIẢI THUẬT DEEP DETERMINISTIC POLICY GRADIENT 21

2.4.1 Giới thiệu chung về DDPG 21

2.4.2 Chi tiết giải thuật 21

3.3 PHƯƠNG ÁN TIẾP CẬN SỬ DỤNG LỜI GIẢI TOÁN TỐI ƯU 29

3.3.1 Bài toán con số 1 30

3.3.2 Bài toán con số 2 33

3.4 PHƯƠNG ÁN TIẾP CẬN SỬ DỤNG DEEP REINFORCEMENT LEARNING 40

Trang 9

vi

3.4.1 Triển khai giải thuật DDPG 41

3.5 KẾT LUẬN CHƯƠNG 46

CHƯƠNG 4 MÔ PHỎNG VÀ KẾT QUẢ 47

4.1 XÂY DỰNG MÔI TRƯỜNG 47

Trang 10

vii

DANH SÁCH HÌNH MINH HỌA

Hình 1-1: Số lượng thuê bao di động toàn cầu [1] 1

Hình 1-2: Tỷ lệ thuê bao di động theo vùng và theo công nghệ [1] 2

Hình 1-3: Tốc độ phát triển của mạng viễn thông 5G [2] 3

Hình 1-4: Các tiêu chuẩn của công nghệ 6G [3] 5

Hình 1-5: Các yếu tố chính cấu thành nên công nghệ mạng 6G [2] 6

Hình 2-1: Minh họa cấu tạo một bề mặt phản xạ thông minh [6] 13

Hình 2-2: Cấu tạo vật lý của các phần tử phản xạ [6] 14

Hình 2-3: Minh họa hệ thống thông viễn thông có hỗ trợ của IRS 15

Hình 2-4: Minh họa một hệ thống MISO đa người dùng có hỗ trợ bởi IRS 16

Hình 2-5: Tương tác giữa Agent và Environment trong reinforcement learning [7] 19

Hình 3-1: Mô tả trực quan bằng hình ảnh của mô hình toán 28

Hình 4-1: Đường cong huấn luyện ở kênh thứ 10 (trái) và thứ 5000 (phải) 49

Hình 4-2: Đường cong huấn luyện ở kênh thứ 10.000 49

Hình 4-3: Đường cong huấn luyện trung bình 50

Hình 4-4: Sum rate của hai phương pháp khi 𝑀 = 4, 𝐾 = 4, 𝑃𝑡 = 0𝑑𝐵𝑚 51

Hình 4-5: Sum rate của hai phương pháp khi 𝑀 = 8, 𝑁 = 32, 𝐾 = 8 53

Hình 4-6: Sum rate của phương pháp dùng DRL khi thay đổi M, N, K 55

Hình 4-7: Sum rate của hai phương pháp khi thay đổi M, N, K 55

Trang 11

viii

DANH SÁCH BẢNG SỐ LIỆU

Bảng 2-1: Tổng hợp một số giải thuật DRL tiêu biểu [8] 20

Bảng 4-1: Sum rate khi tính trung bình của 50 kênh 51

Bảng 4-2: Sum rate khi tính trung bình của 50 kênh khi công suất phát thay đổi 52

Bảng 4-3: Tổng hợp kết quả mô phỏng 54

Trang 12

1

CHƯƠNG 1 GIỚI THIỆU CHUNG

Chương này trình bày những vấn đề nền tảng làm cơ sở và động lực nghiên cứu cho luận văn Cụ thể, Phần 1.1 đề cập quá trình tăng trưởng thực tế của nhu cầu sử dụng dữ liệu di động hiện nay và những tiềm năng của công nghệ truyền thông không dây thế hệ thứ 6; từ đó hình thành nên động lực nghiên cứu cho luận văn ở Phần 1.2 Tiếp theo, mục tiêu của luận văn được trình bày trong Phần 1.3 và cuối cùng, Phần 1.4 mô tả đối tượng và phạm vi nghiên cứu của luận văn

1.1 Đặt vấn đề

1.1.1 Tốc độ tăng trưởng của dịch vụ dữ liệu di động trên mạng viễn thông

Hình 1-1: Số lượng thuê bao di động toàn cầu [1]

Đã hơn 2 năm từ khi thế giới đón nhận cú sốc về đại dịch Covid-19, thời điểm hiện tại các hoạt động sinh hoạt và sản xuất kinh doanh đã phần nào trở lại nhịp độ

Trang 13

2

bình thường Tuy nhiên đại dịch đã thay đổi rất nhiều thói quen của con người, một trong số là sự gia tăng của nhu cầu được kết nối không dây tốc độ cao nhằm cung cấp cho con người các giải pháp giúp thực hiện làm việc và giao tiếp từ xa

Cũng vì động lực lớn như vậy mà chính những ảnh hưởng của đại dịch đã thúc đẩy ngành công nghệ viễn thông phá triển Các thống kê vẫn cho thấy rằng nhu cầu kết nối vào mạng di động của người dùng là rất lớn và không ngừng phát triển

Theo báo cáo hằng năm của Ericsson, đối tác hàng đầu thế giới trong cung cấp thiết bị lõi các mạng viễn thông di động, thì tới nữa đầu năm 2022, thế giới có tổng khoảng 8,2 tỷ thuê bao di động, trong đó phần lớn vẫn là các thuê bao công nghệ 4G, tỷ trọng thuê bao 5G chỉ chiếm khoảng 8% tương ứng 660 triệu thuê bao Nhưng mạng 5G được dự báo là sẽ có sự phát triển cực kỳ mạnh mẽ và Ericsson ước tính rằng đến năm 2027 tổng số thuê bao mạng 5G đạt 4.4 tỷ thuê bao trên tổng số 8.9 tỷ thuê bao trên toàn thế giới, tương ứng đạt 49%

Hình 1-2: Tỷ lệ thuê bao di động theo vùng và theo công nghệ [1]

Tốc độ phát triển phụ thuộc rất nhiều vào trình độ khoa học, công nghệ từng khu vực Ta có thể thấy rằng, xét trong năm 2020, trong khi mạng 4G thể hiện sự thống trị ở hầu hết các khu vực khảo sát thì ở những khu vực chậm tiến như châu Phi Hạ-Sahara hay Trung Đông và Bắc Phi, mạng 2G và 3G vẫn còn chiếm đa số Đến năm 2026, ta sẽ thấy mạng 5G sẽ xâm nhập và phát triển ở mọi khu vực trên thế giới, với

Trang 14

3

mức độ phổ biến tăng dần theo các khu vực từ trái sang phải như trên biểu đồ Trong đó, Bắc Mĩ, Hội đồng Hợp tác Vùng Vịnh, Tây Âu và Đông Bắc Á và các khu vực tiên phong trong việc thương mại hóa 5G

Như vậy, với tốc độ này, có thể khẳng định rằng mạng 5G cho thấy một sự phát triển nhanh chưa từng có khi so với các công nghệ mạng di động trước đây Điều này là minh chứng cho sự phù hợp của công nghệ 5G với các yêu cầu thực tế của xã hội hiện đại

Hình 1-3: Tốc độ phát triển của mạng viễn thông 5G [2]

Sự phát triển nhanh này cho thấy nhiều triển vọng và nhiều cơ hội trong phát triển kinh tế và công nghệ Tuy nhiên, cơ hội bao giờ cũng đi kèm với thách thức, ở thời điểm hiện tại có thể nói Việt Nam vẫn đi theo kịp nhịp độ của công nghệ truyền thông không dây thế hệ thứ 5 Nhưng nếu không chuẩn bị và có quá trình nghiên cứu trước, chỉ trong hơn 5 năm tới, công nghệ truyền thông không dây thế hệ thứ 6 (6G) sẽ lại bùng nổ như cách mà mạng 5G đã và đang càn quét mọi lĩnh vực của đời sống Do đó, trong vài năm gần đây, các nhà nghiên cứu trên khắp thế giới đã đặt những viên gạch đầu tiên để tìm hiểu và phát triển các công nghệ lõi về công nghệ truyền thông không dây thế hệ thứ 6 (hay 6G) Và vì vậy, để không tránh bị lỡ nhịp như các quốc

Trang 15

4

gia khu vực châu Phi trong kỷ nguyên 5G, chúng ta, những nhà nghiên cứu Việt Nam cũng đã bắt đầu hướng sự chú ý của mình vào lĩnh vực nghiên cứu này

1.1.2 Công nghệ truyền thông không dây thế hệ thứ 6

Truyền thông không dây thế hệ thứ 5 (5G) đã, đang và sẽ đem đến nhiều tiện ích cho cuộc sống, 5G nhanh chóng trở thành nhân tố chính trong thúc đẩy quá trình số hóa nền kinh tế và xã hội, đẩy nhanh sự phát triển của các công nghệ tự động hóa và tích hợp trí tuệ nhân tạo Tuy nhiên, vì các yêu cầu về kỹ thuật và nhu cầu của con người ngày một tăng nhanh và một lúc nào đó sẽ vực khả năng đáp ứng của công nghệ 5G Do đó, trong vài năm gần đây, các nhà nghiên cưu đã bắt đầu tìm hiểu về công nghệ truyền thông không dây thế hệ thứ 6 (hay 6G) Dự kiến, 6G sẽ ra mắt vào năm 2030 theo chu trình 10 năm của các thế hệ di động [2]

Các tiêu chuẩn của mạng 6G:

• Tốc độ dữ liệu đỉnh của 6G phải đạt ít nhất 1 Tbps

• Hiệu suất phổ và hiệu suất năng lượng tăng 2 lần so với 5G • Độ trễ giảm từ 1 ms đến 0.1 ms

• Độ tin cậy tăng từ 10-5 đến 10-7

Đó cũng là những yêu cầu của một số ứng dụng như extended reality (XR), Brain - Computer Interactions (BCI), Connected Robotics and Autonomous Systems (CRAS), Blockchain and Distributed Ledger Technologies (DLT)

Sự so sánh các tiêu chuẩn của 6G so với 5G được thể hiện qua biểu đồ mạng nhện ở bên dưới

Trang 16

5

Hình 1-4: Các tiêu chuẩn của công nghệ 6G [3]

Hiện nay, nhiều công nghệ, giải pháp đã và đang được nghiên cứu để đáp ứng các tiêu chuẩn của 6G Ta điểm qua một vài công nghệ và đặc điểm nổi bật trong kiến trúc của mạng 6G có thể được kể đến như sau:

Air Interface:

Công nghệ 6G sẽ tập trung vào dải tần terahertz đồng nghĩa việc các băng thông cực rộng sẽ có thể được sử dụng từ đó đặt ra các thử thách về phương pháp tương tác hiệu quả với dải tần này Trong các phổ tần số mới này, sự cân bằng giữa hiệu suất phổ, hiệu suất công suất và vùng phủ sóng sẽ đóng một vai trò quan trọng trong việc phát triển kênh liên lạc Điều này dẫn đến các yêu cầu mới trong thiết kế các mô hình giao diện vô tuyến mới, nơi mà các mô hình hệ thống đơn sóng mang (single-carrier) được chú trọng hơn

Trang 17

6

Hình 1-5: Các yếu tố chính cấu thành nên công nghệ mạng 6G [2]

Nhiều nhà nghiên cứu đã đề xuất các phương án sử dụng các mô hình mạng đa truy cập không trực giao non-orthogonal multiple access (NOMA) cho các hệ thống mạng di động B5G/6G Trong NOMA, tất cả người dùng được phép truy cập toàn bộ tài nguyên (băng tần) một cách đồng thời Một số nghiên cứu khác lại đề xuất các mô hình đa truy cập phân chia theo tỷ lệ - rate-splitting multiple access - (RSMA) như một công nghệ truy cập mới cho các hệ thống truyền thông 6G

Băng Tần:

Trong 6G, ý tưởng sử dụng các băng tần này hiện đang không được sử dụng cho bất kỳ kênh truyền thông vô tuyến nào đề xuất, tức là sử dụng đồng thời dải mmWave, THz và phổ ánh sáng khả kiến Tuy nhiên, vấn đề mới phát sinh là đối với dải tần cao tín hiệu bị suy giảm rất nhanh theo khoảng cách truyền đi Ví dụ, một BS 3G hoặc 4G có thể có phạm vi phủ sóng khoảng vài kilomet trong khi phạm vi phủ sóng của BS 5G hoặc 6G có thể bị giới hạn chỉ trong vài trăm mét Để giải quyết vấn đề này trong truyền tin dùng mmWave và THz, ý tưởng được sử dụng là sử dụng các công nghệ MIMO và Beamforming tân tiến hơn

Trang 18

7

Artifcial intelligence/machine learning (Artificial Intelligence, AI):

AI cung cấp "trí khôn" và tính tự động cho các hệ thống, cũng là điều mà 6G hướng đến Do đó AI có thể được xem là một trong những công nghệ thiết yếu và có giá trị cao trong tương lai của mạng không dây Khi được huấn luyện tốt, các mô hình sẽ có khả năng ra quyết định (việc có thể rất phức tạp đối với con người) một cách nhanh và chính xác

Advanced beamforming:

Bề mặt phản xạ thông minh (Intelligent Reflecting Surfaces, IRS)

IRS sử dụng các phần tử phản xạ thụ động để phản xạ lại tín hiệu một cách "thông minh" nhằm cải thiện nhiều yếu tố như tốc độ dữ liệu, hiệu suất phổ, hiệu suất năng lượng, Chi tiết về công nghệ IRS sẽ được nêu rõ trong chương 2 Ngoài IRS còn một số các công nghệ khác cũng được đề cập như:

Massive MIMO không - tế bào (Cell-Free Massive MIMO) - nhược điểm của

mạng không dây theo cấu trúc tế bào là tín hiệu của những thiết bị nằm ở rìa của tế bào khá yếu, và vì thế, thay vì để mỗi tế bào có một trạm gốc phục vụ, người ta bỏ đi dạng tế bào và cho toàn bộ trạm gốc phục vụ tất cả thiết bị trong khu vực ấy

Orbital angular momentum (OAM) aided MIMO: Orbital angular momentum

là đặc tính mới của sóng điện từ (EW) được phát hiện vào những năm 1990 được tạm dịch là mô men động lượng quỹ đạo (OAM) Khám phá này hứa hẹn việc truyền nhiều luồng dữ liệu trên cùng một kênh không gian Bởi vì các trạng thái OAM là vô hạn về mặt lý thuyết và tồn tại tính trực giao tự nhiên giữa các trạng thái OAM khác nhau Nên khi áp dụng kỹ thuật OAM ta có thể nâng cao hiệu suất phổ và khả năng truyền tải mà không cần sử dụng thêm tài nguyên (tức là tần số, thời gian và công suất) khi so sánh với việc đơn thuần thực hiện đa truy cập trong không gian Do đó mà OAM có tiềm năng lớn cho các ứng dụng trong mạng không dây 6G

Trang 19

8

Tính đồng bộ với các công nghệ trước đó:

Tính đồng bộ giữa mạng 6G và các công nghệ trước đó vừa là yêu cầu vừa là thách thức khi triển khai mạng 6G Lý do là bởi vì kết hợp quá nhiều công nghệ tân tiến sẽ khiến khoảng cách giữa 6G và các công nghệ truyền thống trở nên khó có thể lấp đầy Cần đảm bảo người dùng có thể dễ dàng chuyển đổi từ kết nối 6G xuống các mức thấp hơn 5G/4G và kể cả là 2G khi cần thiết Không những thế, để phát huy tối đa sức mạnh của 6G cũng cần đảm bảo 6G không làm ảnh hưởng đến khả năng kết nối của các chuẩn không dây khác như WiFi, Bluetooth, Ultra – Wide Band, Visible light communication (VLC), … Các yêu cầu này không chỉ giúp người dùng dễ dàng tiếp nhận và tạo môi trường tương tác thân thiện mà con giúp các bên triển khai dịch vụ viễn thông tiếp kiệm chi phí và giảm thời gian chuyển đổi dịch vụ cung cấp từ 4G/5G sang 6G

1.2 Lý do chọn đề tài

Những phân tích ở các phần trên đã cho thấy tầm quan trọng của việc nghiên cứu về 6G và các công nghệ tiềm năng Trong đó tôi đặc biệt có hứng thú với bề mặt phản xạ thông minh và việc ứng dụng AI, machine learning/Deep learning và hệ thống

mạng viễn thông Với tinh thần này, luận văn xác định đề tài nghiên cứu là "Tối ưu

tốc độ dữ liệu trong hệ thống MISO có sự hỗ trợ của bề mặt phản xạ thông minh dùng học sâu tăng cường"

1.3 Mục tiêu của luận văn

Luận văn dự kiến đạt được những mục tiêu sau:

• Cung cấp cái nhìn tổng quan về truyền thông không dây 6G; công nghệ IRS và về học sâu tăng cường deep reinforcement learning

• Đưa mô hình toán, đề xuất phương án và mô phỏng kết quả của bài toán tối ưu tổng tốc độ dữ liệu trong hệ thống MISO đa người dùng có sự hỗ trợ của IRS theo phương án lời giải tối ưu truyền thống

Trang 20

1.4 Phương pháp và phạm vi nghiên cứu

1.4.1 Phạm vi và đối tượng nghiên cứu

Luận văn tập trung nghiên cứu hệ thống MISO đa người dùng có sự hỗ trợ của IRS Trong đó nhấn mạnh vào vấn đề tối ưu tổng tốc độ dữ liệu, phương án tiếp cận xoay quanh phương pháp dùng lời giải tối ưu và ứng dụng giải thuật lập trình học sâu tăng cường Phạm vi được giới hạn trong điều kiện trạng thái thông tin kênh truyền (CSI) đã được biết tại trạm phát, các thành phần phần cứng là lý tưởng và IRS không suy hao và có thể tạo độ lệch pha liên tục

1.4.2 Phương pháp nghiên cứu

Các nghiên cứu trong luận văn này được phát triển tiếp nối từ một số công trình trước đây Cụ thể, tác giả xem xét các bài toán được nêu ra trong các nghiên cứu này, phân tích ưu nhược điểm và tìm hiểu những khía cạnh chưa được khai thác Từ đó, tác giả xây dựng một số mô hình khác, đề xuất các phương pháp mới phù hợp hoặc kết hợp các phương pháp đã có để tạo tiền đề so sánh và nhận xét Do hạn chế chi phí và nguồn lực, luận văn sẽ chỉ thực hiện các mô phỏng trên máy tính làm căn cứ để đánh giá và so sánh các giải thuật, tác giả tự thấy đây sẽ là một hạn chế lớn của luận văn

Trang 21

10

1.5 Bố cục của luận văn

Luận văn sẽ bao gồm các chương có thứ tự và nội dung chính như sau:

• Chương 1: Trình bày những vấn đề cơ bản làm nền tảng cho động lực nghiên cứu của luận văn

• Chương 2: Trình bày các lý thuyết và khái niệm cơ bản của hệ thống IRS, về học sâu tăng cường và về giải thuật DDPG

MISO-• Chương 3: Giải quyết bài toán tối ưu tổng tốc độ dữ liệu trong hệ MISO-IRS bằng phương pháp giải toán tôi ưu truyền thống cũng như bằng phương pháp áp dụng giải thuật DDPG

• Chương 4: Trình bày quá trình mô phỏng, kết quả thu được cũng như nhận xét và đánh giá về hai phương pháp đã thực hiện ở chương 3

• Chương 5: Tổng kết lại các vấn đề đã được đề cập trong luận văn và đề xuất các hướng phát triển cho luận văn

Trang 22

11

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Chương này đề cập đến một số lý thuyết cơ bản để giải quyết các bài toán được đặt ra ở các chương sau Cụ thể, Phần 2.1 mô tả các loại kênh truyền trong hệ thống viễn thông Tiếp theo, Phần 2.2 giới thiệu sơ lược về bề mặt phản xạ thông minh sau đó, Phần 2.3 trình bày các lý thuyết cơ bản về học sâu tăng cường và cuối cùng Phần 2.4 sẽ giới thiệu giải thuật Deep Deterministic Policy Gradient

2.1 Kênh truyền trong hệ thống viễn thông

Kênh truyền giữa bên phát và bên thu được chia làm hai loại: line-of-sight (LoS) và non-line-of-sight (NLoS) [4]

Kênh truyền LoS là trường hợp khi bên phát và bên thu "thấy" nhau Ngoài ra, giả định rằng ta đang ở trong một không gian tự do (free space), tức không có vật thể khác có thể phản xạ hay tán xạ lại tín hiệu Khi xét trường hợp MISO: bên phát gồm một anten truyền tín hiệu đến một dãy gồm M anten tuyến tính đồng nhất (uniform linear array, ULA), tức M anten thẳng hàng và hai anten kề nhau cách nhau một khoảng ∆ = 𝜆𝑑𝐻 Trong thực tế, thông thường khoảng cách giữa bên phát và bên thu lớn hơn nhiều so với kích thước của dãy anten (far-field), nên ta có thể xem khoảng cách từ bên phát đến mọi anten thu xấp xỉ bằng nhau Tuy sóng phát ra lan truyền với dạng cầu, nhưng khi tiếp cận các anten thu, nó hầu như là phẳng Những giả sử này cho phép ta tính độ lệch pha của tín hiệu khi đến các anten dễ dàng hơn Cụ thể, lấy anten đầu tiên làm chuẩn với góc tới 𝜑, độ lệch pha giữa nó và anten thứ m là 2𝜋 (𝑚 − 1) ∆ 𝑠𝑖𝑛(𝜑)/𝜆 Từ quan sát trên, ta dễ dàng tìm được vector kênh truyền LoS MISO 𝑔 ∈ ℂ𝑀×1 như sau:

𝒈 = √𝛽[1𝑒−𝑗2π𝑑𝐻sin 𝜙… 1𝑒−𝑗2π𝑑𝐻(𝑀−1) sin 𝜙]𝑇 (2.1) trong đó 𝛽 là độ lợi kênh truyền [4]

Trang 23

12

Kênh truyền NLoS, ngược lại, là trường hợp khi bên phát và bên thu không thấy nhau, tức không tồn tại đường truyền LoS Tuy nhiên, môi trường truyền dẫn có rất nhiều vật thể có thể tán xạ lại tín hiệu và ta chỉ xét các tín hiệu được tán xạ một lần Xét trường hợp cả bên phát và bên thu chỉ có 1 anten Giả sử tín hiệu từ bên phát đến bên thu theo L đường, mỗi đường có thể xem là LoS với quãng đường di , 𝑖 = 1, , 𝐿 Đáp ứng kênh truyền là tổng theo L đường này [4]:

Trang 24

13

hướng chùm tia tín hiệu (beamforming) đến bất kì vị trí nào trong tế bào một cách chính xác và cho phép ghép kênh không gian (spatial multiplexing) giữa các thiết bị đầu cuối Mặc dù giúp cải thiện đáng kể hiệu năng của hệ thống, Massive MIMO vẫn có một số nhược điểm lớn như chi phí phần cứng cao, tiêu hao nhiều năng lượng Điều này càng thể hiện rõ khi Massive MIMO hoạt động ở băng mmWave hay terahertz, cần sự hỗ trợ của các chuỗi RF (radio frequency) và các tiến trình xử lý tín hiệu phức tạp Hơn nữa, việc có quá nhiều thành phần hoạt động như relay, remote radio head cũng gây ra can nhiễu trầm trọng [5]

Trong những nỗ lực tìm kiếm các phương pháp cải thiện hiệu suất phổ và năng lượng, đồng thời hạ thấp chi phí của hệ thống, trong thời gian gần đây, người ta đặc biệt chú ý đến bề mặt phản xạ thông minh (IRS) Về cơ bản, IRS là một bề mặt hai chiều gồm các phần tử thụ động, chi phí thấp có khả năng tạo ra một độ dịch pha trên sóng tới, từ đó thay đổi cách thức lan truyền của sóng phản xạ Cần lưu ý rằng, IRS không phải là thành phần của bên phát hay bên thu, mà là một thành phần điều khiển được của môi trường truyền dẫn với nhiệm vụ duy nhất là phản xạ lại tín hiệu đến một cách "thụ động"; do đó công suất tiêu thụ của IRS là không đáng kể và có thể bỏ qua Hiện nay, việc sử dụng siêu vật liệu (metamaterial) để chế tạo IRS giúp điều chỉnh được độ dịch pha ngay trong thời gian thực

Hình 2-1: Minh họa cấu tạo một bề mặt phản xạ thông minh [6]

Trang 25

14

Về mặt cấu tạo, bề mặt phản xạ thông minh là một bề mặt 2 chiều, tập hợp một lượng lớn các phần tử phản xạ nữa bước sóng (sub-wavelength reflecting) – có thể hiểu chúng là các anten siêu nhỏ có hình dáng như các miếng chip Mỗi phần tử phản xạ được kết nối với một chip có thể điều chỉnh để thay đổi trở kháng tải của nó như một varactor Chúng ta có kiểm soát điện áp phân cực của các varactor dẫn đến trở kháng tải có thể điều chỉnh liên tục và tạo ra sự dịch chuyển pha liên tục

Ngoài ra có thể mắc thêm biến trở để thay đổi biên độ hệ số phản xạ, từ đó, chúng ta dễ dàng kiểm soát hệ số phản xạ (gồm cả biên độ và pha) của từng phần tử phản xạ riêng lẻ

Những đặc điểm riêng biệt này khiến cho truyền thông có sự hỗ trợ của RIS trở thành công nghệ độc đáo, khắc phục các điểm yếu còn tồn đọng của hệ thống thông tin liên lạc truyền thống

IRS có khả năng cung cấp các chức năng như: mở rộng vùng phủ sóng, khử nhiễu, đảm bảo độ tin cậy, tăng sự bảo mật, tối ưu hóa kênh truyền, nâng cao hiệu suất phổ, tiết kiệm năng lượng, đáp ứng các yêu cầu về tốc độ truyền dữ liệu của người dùng và chất lượng dịch vụ, góp phần nâng cao hiệu năng chung của toàn bộ hệ thống truyền thông không dây Các kịch bản ứng dụng của RIS khá đa dạng, từ hệ thống Wi-Fi chia sẻ phương tiện đến vùng mmWave và THz, thậm chí cả truyền thông quang học, bao phủ dải tần băng thông rộng, v.v…

Hình 2-2: Cấu tạo vật lý của các phần tử phản xạ [6]

Trang 26

15

Xét ở điều kiện tổng quát một hệ thống MIMO có hỗ trợ bởi IRS được mô tả trong hình dưới:

Hình 2-3: Minh họa hệ thống thông viễn thông có hỗ trợ của IRS

Giả sử bên phát có 𝑁𝑡 anten, IRS có 𝑀 phần tử và bên thu có 𝑁𝑟 anten Gọi các kênh truyền từ bên phát đến IRS, IRS đến bên thu và bên phát đến bên thu lần lượt là 𝐅 ∈ ℂ𝑀×𝑁𝑡, 𝐇𝐫 ∈ ℂ𝑁𝑟×𝑀, 𝐇𝐝 ∈ ℂ𝑀×𝑁𝑟 Đặt 𝜽 = [ 𝛼1𝑒𝑗𝜃1 , , 𝛼𝑀 𝑒𝑗𝜃𝑀] và gọi 𝚯 = 𝑑𝑖𝑎𝑔 (𝜽) là ma trận hệ số phản xạ của IRS, với 𝜽𝒎 ∈ [0, 2𝜋), 𝑚 = 1, , 𝑀 là độ dịch pha của phần tử thứ 𝑚 của IRS

Gọi x ∈ ℂ𝑁𝑡×1 là tín hiệu phát đi Thế thì tín hiệu nhận được ở bên thu được biểu diễn như sau:

trong đó n ∈ ℂ𝑁𝑟×1 là nhiễu bên thu

Khi đó, với bài toán MISO đa người dùng ta có, 𝐇𝐫 và 𝐇𝐝 trở thành các vector

𝒉𝒓 ∈ ℂ𝑀 và 𝒉𝒅 ∈ ℂ𝑀 khi đó với người dùng thứ 𝑘 ta có:

Trang 27

IRS có đáp ứng toàn dải, lý tưởng là có thể hoạt động ở bất kỳ tần số hoạt động nào IRS có thể được lắp đặt dễ dàng và hoạt động bền vững, chúng được làm từ các phần tử tán xạ thụ động chi phí thấp được nhúng trong siêu bề mặt, có thể ở bất kỳ hình dạng nào, do đó mang lại tính linh hoạt cao trong triển khai và thay thế Ví dụ, trên mặt tiền của các tòa nhà, trần nhà của nhà máy và không gian trong nhà

hr,k

hd,k

hd,i

Trang 28

17

2.3 Học sâu tăng cường – Deep reinforcement learning

2.3.1 Tổng quát về học sâu tăng cường

Trước tiên để hiểu khái niệm học sâu tăng cường (deep reinforcement learning) là gì ta cần đi qua khái niệm về học tăng cường – reinforcement learning Học tăng cường là một trong ba phân nhánh chính của các thuật toán học máy gồm: supervised learning (học có giám sát), unsupervised learning (học không giám sát) và reinforcement learning (học tăng cường)

Nếu như supervised learning là học tập từ một tệp các dữ liệu được gán nhãn để suy luận ra quan hệ giữa đầu vào và đầu ra, thì unsupervised learning sẽ không được cung cấp các dữ liệu được gán nhãn mà thay vào đó chỉ từ thông tin dữ liệu đầu vào được cung cấp, thuật toán sẽ tìm cách mô hình lại dữ liệu, phân loại và hình thành cấu trúc tổng quát cho tập dữ liệu Loại thứ ba là reinforcement learning - phương pháp tập trung vào việc làm thế nào để cho một tác tử trong môi trường có thể hành động sao cho lấy được phần thưởng nhiều nhất có thể

Khác với học có giám sát, học tăng cường không có cặp dữ liệu gán nhãn trước làm đầu vào và cũng không có đánh giá các hành động là đúng hay sai Nói cách khác, bản chất của reinforcement learning là trial-and-error, nghĩa là thử đi thử lại và rút ra kinh nghiệm sau mỗi lần thử như vậy để cuối cùng giải được bài toán yêu cầu [7] Nhờ tính chất này mà trong thời gian gần đây, học tăng cường được áp dụng vào lĩnh vực viễn thông và đạt được các thành quả rất đáng chú ý Cốt lõi của thành công này là vì các tính chất của học sâu phù hợp với các tính chất bài toán của ngành viễn thông, nơi mà khó chuẩn bị tập dữ liệu đầu vào so kích thước lớn, nhiều đại lượng ngẫu nhiên, thời gian phân tích và tiền xử lý dữ liệu quá lâu, chịu rất nhiều ảnh hưởng từ các yếu tố bên ngoài như nhiễu, can nhiễu, môi trường, v.v…

Trang 29

18

2.3.2 Các thuật ngữ cơ bản trong học tăng cường

Agent – được định nghĩa là đối tượng quan sát môi trường và có khả năng tác

động trở lại môi trường thông qua việc thực hiện các hành động

Environment – là môi trường xung quanh của agent, nơi mà agent tồn tại và

tương tác

Action - Hành động là phương thức của agent cho phép nó tương tác với môi

trường và thay đổi môi trường Dựa trên State S(t) của environment hiện tại mà agent sẽ đưa ra action a(t)

Observation - Sau khi nhận được sự tương tác từ agent thì environment có sự

chuyển đổi trạng thái đối với agent

State - Là trạng thái của môi trường mà agent nhận được

Policy - Chính sách là yếu tố xác định cách thức hoạt động của agent tại một thời

điểm nhất định Nói cách khác, chính sách là một ánh xạ từ các trạng thái (state) của môi trường đến các hành động sẽ được thực hiện khi ở trong các trạng thái đó Chính sách là cốt lõi của agent trong việc xác định hành vi Trong một số trường hợp, chính sách có thể là một hàm hoặc bảng tra cứu đơn giản Trong một số trường hợp khác, chính sách có thể liên quan đến tính toán mở rộng, ví dụ như quá trình tìm kiếm

Reward - Ở mỗi hành động, môi trường gửi đến cho agent một phần thưởng xác

định Mục tiêu của agent là tối đa hóa tổng phần thưởng mà nó nhận được trong một thời gian dài Tín hiệu phần thưởng (reward signal) giúp xác định đâu là sự kiện tốt và xấu đối với agent, đồng thời nó cũng là cơ sở chính để thay đổi chính sách Nếu một hành động được lựa chọn bởi chính sách mang đến phần thưởng thấp, thì chính sách đó có thể bị thay đổi Agent sẽ lựa chọn các hành động khác trong các tình huống tương tự ở tương lai

Trang 30

19

Hình 2-5: Tương tác giữa Agent và Environment trong reinforcement learning [7]

2.3.3 Các đặc điểm chính của học sâu tăng cường

Như đã nói ở trên, có rất nhiều giải thuật deep reinforcement learning khác nhau và mỗi giải thuật thường được phát triển và ứng dụng để giải quyết các bài toán và đối tượng khác nhau, có thể chia thành hai hướng tiếp cận cổ điển là Value-based và Policy Gradient algorithm

Các giải thuật Value-based xây dựng chính sách tối ưu (optimal policy) bằng cách thu thập tất cả các giá trị gần đúng của các Q-value Trong DRL, Q-function được biểu diễn bằng mạng nơ-ron và một chương trình tối ưu giá trị gần đúng thông qua lan truyền ngược Chương trình này được xây dựng bằng cách sử dụng các phương pháp rút gọn để có thể huấn luyện thông qua học có giám sát

Các giải thuật Policy-based thì cố gắng tìm ra chính sách tối ưu mà không thông qua việc tính toán Q-value ngay cả khi các trạng thái của môi trường là không đầy đủ (bài toán model-free) Điều này được thực hiện thông qua sử dụng ước tính gần đúng của gradient liên quan đến tham số chính sách Hay nói cách khác, nếu trên bài toán Value-based, chúng ta sử dụng Neural network để thực hiện bài toán ước lượng Q-value thì ở Policy Gradient, ta dùng Neural network để làm bài toán phân loại xem action nào phù hợp với state tương ứng nhất, một cách ngắn gọn, Value-based là bài toán regression trong khi Policy Gradient là bài toán classification

Trang 31

20

Bảng 2-1: Tổng hợp một số giải thuật DRL tiêu biểu [8]

Hướng tiếp cận Phương pháp Value-based algorithms Deep Q-learning

Double DQN Dueling DQN Noisy DQN Policy-based algorithms REINFORCE

Generalized Advantage Estimation (GAE) Natural Policy Gradient (NPG)

Trust-Region Policy Optimization (TRPO) Proximal Policy Optimization (PPO)

Mix Value-based and Policy-based Deep Deterministic Policy Gradient (DDPG) Soft Actor - Critic

Twin Delay DDPG

Ngoài ra, để giải quyết các bài toán phức tạp, các giải thuật pha trộn của hai hướng tiếp cận Value-based và Policy-based đã được đưa ra Đặc biệt là trong lĩnh vực viễn thông, nơi mà action space lớn, state space mang tính ngẫu nhiên cao thì việc áp dụng Mix Value-based and Policy-based là cực kỳ hữu ích và trong thực tế việc áp dụng này đã mang lại nhiều kết quả nghiên cứu triển vọng nhất là khi áp dụng vào giải quyết vấn đề tối ưu các hệ thống có sử dụng mặt phẳng phản xạ thông minh

Trang 32

21

2.4 Giải thuật Deep Deterministic Policy Gradient

2.4.1 Giới thiệu chung về DDPG

Deep Deterministic Policy Gradient (DDPG) là một thuật toán kết hợp đồng thời việc tối ưu một Q-function và một policy Giải thuật sử dụng một tập dữ liệu off-policy và phương trình để “học ” Q-function và dùng Q-function để học ngược lại policy Phương pháp này có liên hệ chặt chẽ với Q-learning với ý tưởng nền là nếu biết được giá trị của Q-value tối ưu (optimal action-state value) thì suy ra ta biết được giá trị của action tối ưu cho mỗi state thông qua việc giải phương trình [7]

𝑎∗(𝑠) = arg max

Như vậy trong Q-learning, để tìm action tiếp theo ta có thể tính Q-value của tất cả state action và chọn giá trị action theo công thức trên Điều này hoàn toàn rất dễ thực hiện ở Q-learning khi ta có một tập hợp các hành động là rời rạc và hữu hạn Nhưng khi tập hành động là một tập liên tục và vô hạn thì phương pháp trên trở nên không khả thi DDPG khắc phục điều này bằng cách sử dụng giả định rằng 𝑎 ≈𝜇𝜃(𝑠) và dùng hai mạng neural riêng biệt gọi là Actor và Critic Actor có nhiệm vụ đề xuất một action ứng với state tương ứng và Critic sẽ có nhiệm vụ tiên đoán xem cặp action-state được đưa ra là tốt (possible value) hay xấu (negative value)

Có thể chốt lại ngắn gọn các đặc điểm của DDPG như sau: DDPG là một giải thuật off-policy kết hợp giữa policy-based và value-based DDPG chỉ có thể sử dụng được cho các mô hình có không gian hành động liên tục và có thể coi DDPG là một giải thuật Q-learning và Policy-learning cho chuỗi hành động liên tục [9]

2.4.2 Chi tiết giải thuật

Như đã nói ở trên, DDPG là một giải thuật kết hợp đồng thời Q-learning và Policy-learning cho nên khi phân tích giải thuật ta cũng tiếp cận theo hai hướng này với giả định rằng 𝑎 ≈ 𝜇𝜃(𝑠)

Trang 33

𝜏[𝑅(𝜏)] = ∫ 𝑃(𝜏|𝜇)𝑅(𝜏)

(2.12) với 𝜏 = (𝑠0, 𝑎0, 𝑠1, 𝑎1, … ) là tập hợp state và action liên tiếp nhau đã được hiện, 𝑅( ) hàm sẽ trả về là kết quả reward ứng với state-action-next action tương ứng, 𝜇 là ký hiệu của policy, hàm 𝑃(𝜏|𝜇) được định nghĩa là xác suất tập hợp state và action 𝜏 xảy ra ở thời điểm thứ T như sau [9]:

𝑃(𝜏|𝜇) = 𝜌0(𝑠0) ∏ 𝑃(𝑠𝑡+1|𝑠𝑡, 𝑎𝑡)𝜇(𝑎𝑡|𝑠𝑡)

(2.13)

trong đó, 𝜌0( ) là hàm phân bố xác suất của đại lượng ngẫu nhiên state 𝑠

Từ phương trình trên có thể xây dựng hàm chi phí cho quá trình huấn luyện mạng

neural Critic (Q) ở trạng thái với các giá trị là 𝜙 như sau [9]:

(𝑠,𝑎,𝑟,𝑠′,𝑑)∼𝐷[(𝑄𝜙(𝑠, 𝑎) − (𝑟 + 𝛾(1 − 𝑑) max

𝑎′ 𝑄𝜙(𝑠′, 𝑎′)))2] (2.14) trong đó, 𝐷 là phân bố xác suất của tập dữ liệu (𝑠, 𝑎, 𝑟, 𝑠′, 𝑑), đại lượng 𝑑 đại diện cho trạng thái 𝑠′ có phải state cuối cùng hay không, 𝑑 = 1 khi 𝑠′ là state cuối cùng và 𝑑 = 0 trong các trường hợp còn lại

Tuy nhiên trên thực tế không thể sử dụng hàm chi phí này khi huấn luyện mạng neural critic vì ta thấy rằng ta cho mô hình dự đoán kết quả tối ưu và lại dùng chính kết quả tối ưu đã dự đoán để huấn luyện mô hình Điều này sẽ gây ra hiện tượng

Trang 34

23

“tuyết lỡ” – khi mô hình bị lệch khỏi kết quả đúng trong một tới hai chu trình huấn luyện, mô hình sẽ trật khỏi quỹ đạo và không thể hội tụ lại đỉnh cực tiểu hàm chi phí Do đó, để tăng tính ổn định, khi thực hiện huấn luyện các mô hình học sâu tăng cường ta luôn dùng Target Network (mạng đích) Mạng đích chỉ được cập nhật theo một quy tắc nhất định để tránh gặp phải hiện tướng trên Trong DDPG, Target network được cập nhật theo nguyên tắc:

Mặc khác khi xét đến phần Policy learning trong DDPG ta có:

Đối với mạng neural Actor (µ) mục tiêu là tìm được policy 𝜇𝜃(𝑠) cho ra action 𝑎 mà cho kết quả tối đa khi đưa vào hàm 𝑄𝜙(𝑠, 𝑎) Và vì action là đại lượng ngẫu nhiên liên tục, nên ta có thể giả định rằng hàm Q-value (Q-function) khả vi trên tập action Từ đó có thể thực hiện phép toán lấy gradient trên 𝑄𝜙(𝑠, 𝑎) với giả định 𝑎 ≈ 𝜇𝜃(𝑠) để giải bài toán [9]:

Trang 35

24

Giải thuật Deep Deterministic Policy Gradient

1 Input khởi tạo tham số cho mạng Actor 𝜃, cho mạng Critic 𝜙, làm trống buffer 𝒟 2 Khởi tạo tham số cho mạng Target, 𝜃𝑡𝑎𝑟𝑔𝑒𝑡⟵ 𝜃, 𝜙𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜙

7 Lưu bộ dữ liệu (𝑠, 𝑎, 𝑟, 𝑠′, 𝑑) vào buffer 𝒟

8 IF 𝑑 = 1 (𝑠 là trạng thái cuối) Then khởi động lại môi trường

9 IF số lượng dữ liệu trong buffer thoả và đạt điều kiện cập nhật tham số mạng neural Then

10 For số lần cập nhật cần để giải 1 bài toán do

11 Lấy ngẫu nhiên một batch các dữ liệu từ buffer, 𝐵 = {(𝑠, 𝑎, 𝑟, 𝑠′, 𝑑)} từ 𝒟

14 Cập nhật tham số mạng Actor theo phương pháp gradient descent dùng: ∇𝜃 1

|𝐵|∑ 𝑄𝜙(𝑠, 𝜇𝜃(𝑠))

𝑠 ∈𝐵

15 Cập nhật target network theo nguyên tắc:

𝜃𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜌𝜃𝑡𝑎𝑟𝑔𝑒𝑡 + (1 − 𝜌)𝜃 𝜙𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜌𝜙𝑡𝑎𝑟𝑔𝑒𝑡+ (1 − 𝜌)𝜙 16 End for

17 End If

18 Until kết thúc bài toán

Trang 36

25

2.5 Kết luận chương

Tổng kết lại, trong chương này, luận văn đã trình bày về một số khái niệm và lý thuyết liên quan đến các vấn đề sẽ được tìm hiểu và nghiên cứu trong luận văn Bắt đầu bằng những khai niệm cơ bản về kênh truyền trong hệ thống viễn thông, sau đó là công nghệ, cấu tạo và mô hình toán học của bề mặt phản xạ thông minh cũng như hệ thống MISO – IRS Phần còn lại của chương tập trung giới thiệu một số kiến thức, khái niệm và nguyên lý cơ bản về học sau tăng cường cũng như phân tích giải thuật Deep Deterministic Policy Gradient – giải thuật sẽ được áp dụng trực tiếp trong phần tiếp theo của luận văn

Trang 37

26

CHƯƠNG 3 TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ THỐNG MISO ĐA NGƯỜI DÙNG CÓ SỰ HỖ TRỢ CỦA IRS

Chương này có tập trung giới thiệu bài toán tối ưu tổng tốc độ dữ liệu của hệ thống MISO đa người dùng có sự hỗ trợ của mặt phẳng phản xạ thông minh IRS Phần đầu chương sẽ trình bày nguyên nhân và lý do luận văn lựa chọn bài toán này, sau đó là giới thiệu tổng quát tình hình chung của một số nghiên cứu liên quan Tiếp theo, tác giả sẽ đặt vấn đề và mô hình hóa một hệ thống MISO-IRS từ đó thiết lập các công thức toán học dẫn dắt đến bài toán tối ưu Sau đó, luận văn tập trung trình bày chi tiết hướng giải quyết thông qua phương pháp giải tối ưu truyền thống Cuối cùng, tác giả tập trung trình bày chi tiết phương án tiếp cận thông qua phương pháp học sâu tăng cường mà cụ thể là giải thuật Deep Deterministic Policy Gradient

3.1 Giới thiệu vấn đề tối ưu tốc độ dữ liệu trong hệ MISO-IRS

Đi cùng với việc triển khai mạng di động 5G trên toàn thế giới, các yêu cầu nghiêm ngặt hơn về độ tin cậy, dung lượng và hiệu quả năng lượng, cũng như độ trễ thấp cũng tăng theo Qua đó, các chuyên gia dự đoán rằng, các yêu cầu trên sẽ được đáp ứng được một cách tổng thể và hơn nữa là sẽ có các bước tiến vược bật trong các mạng không dây thế hệ tiếp theo Khi đó các xu hướng công nghệ hiện có trong mạng 5G (ví dụ như đa đầu ra đa đầu vào (MIMO); truyền thông sóng milimet…), có thể không đủ để đáp ứng những nhu cầu khó khăn mà các mạng di động thế hệ mới đề ra Đơn cử có thể thấy ở MIMO hay truyên sóng ở milimet do thường sẽ liên quan đến vấn đề chi phí phần cứng hay tiêu thụ năng lượng cao nên khó giữ được chỗ đứng trong các thế hệ mạng không dây tiếp theo

Ngày đăng: 30/07/2024, 17:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN