TRẦN HỮU TUÂN
TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ THỐNG MISO CÓ SỰ HỖ TRỢ CỦA BỀ MẶT PHẢN XẠ THÔNG MINH
DÙNG HỌC SÂU TĂNG CƯỜNG
Chuyên ngành: Kỹ Thuật Viễn Thông Mã số:8520208
LUẬN VĂN THẠC SĨ
Trang 2Cán bộ hướng dẫn khoa học : PGS.TS Hà Hoàng Kha (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1 : PGS.TS Đỗ Hồng Tuấn (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 : TS Nguyễn Đình Long (Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 6 tháng 7 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch hội đồng: GS.TS Lê Tiến Thường
2 Thư ký: TS Huỳnh Phú Minh Cường 3 Phản biện 1: PGS TS Đỗ Hồng Tuấn 4 Phản biện 2: TS Nguyễn Đình Long 5 Ủy viên: TS Huỳnh Thế Thiện
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Hữu Tuân MSHV: 2170794 Ngày, tháng, năm sinh: 03/07/1998 Nơi sinh: Lâm Đồng Chuyên ngành: Kỹ Thuật Viễn Thông Mã số : 8520208
I TÊN ĐỀ TÀI:
Tối ưu tốc độ dữ liệu trong hệ thống MISO có sự hỗ trợ của bề mặt phản xạ thông minh dùng học sâu tăng cường (Rate optimization for intelligent reflecting surface aided MISO systems using deep reinforcement learning)
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu mơ hình hệ thống thơng tin di động đa người dùng MISO có sự hỗ trợ của bề mặt phản xạ thông minh
- Giới thiệu mơ hình tốn và lời giải cho vấn đề tối ưu tốc độ dữ liệu cho hệ thống MISO có hỗ trợ bởi bề mặt phản xạ thông minh
- Phát triển và mô phỏng giải thuật ứng dụng học sâu tăng cường nhằm tối ưu tốc độ dữ liệu trong hệ thống MISO có sử dụng bề mặt phản xạ thông minh
III NGÀY GIAO NHIỆM VỤ : 05/09/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023
V CÁN BỘ HƯỚNG DẪN: PSG.TS.Hà Hoàng Kha
Tp HCM, ngày tháng 09 năm 2022
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ
Trang 4i
LỜI CẢM ƠN
Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS TS Hà Hoàng Kha, người Thầy hướng dẫn em thực hiện luận văn này Thầy đã truyền đạt kiến thức, kinh nghiệm quý báu cũng như cung cấp các tài liệu cần thiết và giải đáp những thắc mắc mà em gặp phải trong suốt cả quá trình làm luận văn Sự tận tình và quan tâm của Thầy chính là nguồn cảm hứng để em cố gắng nghiên cứu và học tập kể cả sau khi kết thúc quá trình làm luận văn Một lần nữa, từ tận con tim mình, em xin tỏ lòng biết ơn sâu sắc nhất gửi đến Thầy
Tiếp theo, em xin gửi lời cảm ơn chân thành đến các thầy cô ở Bộ môn Viễn Thông, Khoa Điện - Điện tử, trường Đại học Bách Khoa Tp Hồ Chí Minh Tuy khơng trực tiếp hướng dẫn em, nhưng những kiến thức mà thầy cô đã giảng dạy cho em trong suốt những năm qua là cơ sở, nền tảng vững chắc giúp em có đủ khả năng để thực hiện luận văn này
Cuối cùng, em xin gửi lời cảm ơn chân thành đến gia đình, những người đã luôn bên cạnh, ủng hộ em về cả vật chất lẫn tinh thần để em hoàn thành luận văn này
Tp Hồ Chí Minh, tháng 6 năm 2023
Trần Hữu Tuân
Trang 5ii
TÓM TẮT LUẬN VĂN
Những năm gần đây, đặc biệt là trong và sau khi đại dịch Covid-19, thế giới chứng kiến sự tăng trưởng vượt bậc của nhu cầu sử dụng các dịch vụ và ứng dụng di động không dây Từ đó, mạng di động thế hệ thứ 6 (6G) đang từng bước trở thành tâm điểm của các nguồn lực đầu tư và nghiên cứu Một trong số công nghệ mới đáng chú ý trong 6G đó là bề mặt phản xạ thông minh (IRS) Tuy chỉ mới được phát triển trong khoảng năm năm gần đây, IRS đã đạt được nhiều thành tựu đáng kể trong việc cải thiện hiệu suất và chất lượng của các hệ thống truyền thông Bên cạnh những ưu điểm, IRS cũng đặc ra một số thách thức nhất định và một trong số đó là vấn đề tối ưu cho các hệ thống có IRS Bên cạnh đó, các giải thuật máy học, học sâu hay trí tuệ nhân tạo đang trở thành xu hướng, được áp dụng trong nhiều lĩnh vực và hỗ trợ con người rất nhiều trong việc giải quyết các vấn đề phức tạp Tổng hợp lại, luận văn được xác định chủ đề nghiên cứu là: “Tối ưu tốc độ dữ liệu của hệ thống MISO có sử dụng bề mặt phản xạ thông minh dùng học sâu tăng cường”
Trang 6iii
ABSTRACT
In recent years, especially during and after the Covid-19 pandemic, the world has witnessed a dramatic growth in demand for wireless mobile services and applications, which requires communication technology to be innovated and developed The 6th generation mobile network (6G) is gradually becoming the focus of investment and research With standards far beyond 5G, 6G networks promise to bring many breakthroughs and applications in the future One of these new technologies in 6G networks is the intelligent reflective surface (IRS) Although only developed in the last five years, the IRS has shown effects in improving the performance and quality of communication systems Along with the advantages, the IRS also identifies some challenges that need to be solved, one of them is the optimization problems for the system with the IRS In recent years, applying machine learning, deep learning or artificial intelligence algorithms is becoming a trend, which being applied in many fields and helping a lot in solving complex problems Altogether, the thesis is determined to research with the topic "Rate optimization for intelligent reflecting surface aided MISO systems using deep reinforcement learning"
Trang 7iv
LỜI CAM ĐOAN
Tôi tên là Trần Hữu Tuân, học viên Thạc sĩ chuyên ngành Kỹ thuật Điện tử - Viễn Thơng, khóa 2021, tại Đại học Quốc gia Thành phố Hồ Chí Minh – Trường Đại học Bách Khoa Tôi xin cam đoan những nội dung sau đây đều là sự thật:
• Cơng trình nghiên cứu này hồn tồn do chính tơi thực hiện;
• Các tài liệu và trích dẫn trong luận văn này được tham khảo từ các nguồn thực tế, có uy tín và độ chính xác cao;
• Các số liệu và kết quả của cơng trình này được tôi thực một các độc lập và trung thực
TP Hồ Chí Minh, tháng 06 năm 2023
Trang 8v
MỤC LỤC
CHƯƠNG 1 GIỚI THIỆU CHUNG 1
1.1 ĐẶT VẤN ĐỀ 1
1.1.1 Tốc độ tăng trưởng của dịch vụ dữ liệu di động trên mạng viễn thông 1
1.1.2 Công nghệ truyền thông không dây thế hệ thứ 6 4
1.2 LÝ DO CHỌN ĐỀ TÀI 8
1.3 MỤC TIÊU CỦA LUẬN VĂN 8
1.4 PHƯƠNG PHÁP VÀ PHẠM VI NGHIÊN CỨU 9
1.4.1 Phạm vi và đối tượng nghiên cứu 9
1.4.2 Phương pháp nghiên cứu 9
1.5 BỐ CỤC CỦA LUẬN VĂN 10
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 11
2.1 KÊNH TRUYỀN TRONG HỆ THỐNG VIỄN THÔNG 11
2.2 BỀ MẶT PHẢN XẠ THÔNG MINH 12
2.3 HỌC SÂU TĂNG CƯỜNG –DEEP REINFORCEMENT LEARNING 17
2.3.1 Tổng quát về học sâu tăng cường 17
2.3.2 Các thuật ngữ cơ bản trong học tăng cường 18
2.3.3 Các đặc điểm chính của học sâu tăng cường 19
2.4 GIẢI THUẬT DEEP DETERMINISTIC POLICY GRADIENT 21
2.4.1 Giới thiệu chung về DDPG 21
2.4.2 Chi tiết giải thuật 21
2.5 KẾT LUẬN CHƯƠNG 25
CHƯƠNG 3 TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ THỐNG MISO ĐA NGƯỜI DÙNG CÓ SỰ HỖ TRỢ CỦA IRS 26
3.1 GIỚI THIỆU VẤN ĐỀ TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ MISO-IRS 26
3.2 MÔ TẢ VẤN ĐỀ 28
3.3 PHƯƠNG ÁN TIẾP CẬN SỬ DỤNG LỜI GIẢI TỐN TỐI ƯU 29
3.3.1 Bài tốn con số 1 30
3.3.2 Bài toán con số 2 33
Trang 9vi
3.4.1 Triển khai giải thuật DDPG 41
3.5 KẾT LUẬN CHƯƠNG 46
CHƯƠNG 4 MÔ PHỎNG VÀ KẾT QUẢ 47
4.1 XÂY DỰNG MÔI TRƯỜNG 47
4.2 KẾT QUẢ VÀ NHẬN XÉT 49
4.3 KẾT LUẬN CHƯƠNG 56
CHƯƠNG 5 KẾT LUẬN CHUNG VÀ HƯỚNG PHÁT TRIỂN 58
5.1 KẾT LUẬN CHUNG 58
5.2 HƯỚNG PHÁT TRIỂN 59
Trang 10vii
DANH SÁCH HÌNH MINH HỌA
Hình 1-1: Số lượng th bao di động tồn cầu [1] 1
Hình 1-2: Tỷ lệ thuê bao di động theo vùng và theo cơng nghệ [1] 2
Hình 1-3: Tốc độ phát triển của mạng viễn thông 5G [2] 3
Hình 1-4: Các tiêu chuẩn của cơng nghệ 6G [3] 5
Hình 1-5: Các yếu tố chính cấu thành nên cơng nghệ mạng 6G [2] 6
Hình 2-1: Minh họa cấu tạo một bề mặt phản xạ thông minh [6] 13
Hình 2-2: Cấu tạo vật lý của các phần tử phản xạ [6] 14
Hình 2-3: Minh họa hệ thống thơng viễn thơng có hỗ trợ của IRS 15
Hình 2-4: Minh họa một hệ thống MISO đa người dùng có hỗ trợ bởi IRS 16
Hình 2-5: Tương tác giữa Agent và Environment trong reinforcement learning [7] 19
Hình 3-1: Mơ tả trực quan bằng hình ảnh của mơ hình tốn 28
Hình 4-1: Đường cong huấn luyện ở kênh thứ 10 (trái) và thứ 5000 (phải) 49
Hình 4-2: Đường cong huấn luyện ở kênh thứ 10.000 49
Hình 4-3: Đường cong huấn luyện trung bình 50
Hình 4-4: Sum rate của hai phương pháp khi 𝑀 = 4, 𝐾 = 4, 𝑃𝑡 = 0𝑑𝐵𝑚 51
Hình 4-5: Sum rate của hai phương pháp khi 𝑀 = 8, 𝑁 = 32, 𝐾 = 8 53
Hình 4-6: Sum rate của phương pháp dùng DRL khi thay đổi M, N, K 55
Trang 11viii
DANH SÁCH BẢNG SỐ LIỆU
Bảng 2-1: Tổng hợp một số giải thuật DRL tiêu biểu [8] 20
Bảng 4-1: Sum rate khi tính trung bình của 50 kênh 51
Bảng 4-2: Sum rate khi tính trung bình của 50 kênh khi cơng suất phát thay đổi 52
Trang 121
CHƯƠNG 1 GIỚI THIỆU CHUNG
Chương này trình bày những vấn đề nền tảng làm cơ sở và động lực nghiên cứu cho luận văn Cụ thể, Phần 1.1 đề cập quá trình tăng trưởng thực tế của nhu cầu sử dụng dữ liệu di động hiện nay và những tiềm năng của công nghệ truyền thông không dây thế hệ thứ 6; từ đó hình thành nên động lực nghiên cứu cho luận văn ở Phần 1.2 Tiếp theo, mục tiêu của luận văn được trình bày trong Phần 1.3 và cuối cùng, Phần 1.4 mô tả đối tượng và phạm vi nghiên cứu của luận văn
1.1 Đặt vấn đề
1.1.1 Tốc độ tăng trưởng của dịch vụ dữ liệu di động trên mạng viễn thơng
Hình 1-1: Số lượng th bao di động toàn cầu [1]
Trang 132
bình thường Tuy nhiên đại dịch đã thay đổi rất nhiều thói quen của con người, một trong số là sự gia tăng của nhu cầu được kết nối không dây tốc độ cao nhằm cung cấp cho con người các giải pháp giúp thực hiện làm việc và giao tiếp từ xa
Cũng vì động lực lớn như vậy mà chính những ảnh hưởng của đại dịch đã thúc đẩy ngành công nghệ viễn thông phá triển Các thống kê vẫn cho thấy rằng nhu cầu kết nối vào mạng di động của người dùng là rất lớn và không ngừng phát triển
Theo báo cáo hằng năm của Ericsson, đối tác hàng đầu thế giới trong cung cấp thiết bị lõi các mạng viễn thông di động, thì tới nữa đầu năm 2022, thế giới có tổng khoảng 8,2 tỷ thuê bao di động, trong đó phần lớn vẫn là các thuê bao công nghệ 4G, tỷ trọng thuê bao 5G chỉ chiếm khoảng 8% tương ứng 660 triệu thuê bao Nhưng mạng 5G được dự báo là sẽ có sự phát triển cực kỳ mạnh mẽ và Ericsson ước tính rằng đến năm 2027 tổng số thuê bao mạng 5G đạt 4.4 tỷ thuê bao trên tổng số 8.9 tỷ thuê bao trên toàn thế giới, tương ứng đạt 49%
Hình 1-2: Tỷ lệ thuê bao di động theo vùng và theo công nghệ [1]
Trang 143
mức độ phổ biến tăng dần theo các khu vực từ trái sang phải như trên biểu đồ Trong đó, Bắc Mĩ, Hội đồng Hợp tác Vùng Vịnh, Tây Âu và Đông Bắc Á và các khu vực tiên phong trong việc thương mại hóa 5G
Như vậy, với tốc độ này, có thể khẳng định rằng mạng 5G cho thấy một sự phát triển nhanh chưa từng có khi so với các cơng nghệ mạng di động trước đây Điều này là minh chứng cho sự phù hợp của công nghệ 5G với các yêu cầu thực tế của xã hội hiện đại
Hình 1-3: Tốc độ phát triển của mạng viễn thông 5G [2]
Trang 154
gia khu vực châu Phi trong kỷ nguyên 5G, chúng ta, những nhà nghiên cứu Việt Nam cũng đã bắt đầu hướng sự chú ý của mình vào lĩnh vực nghiên cứu này
1.1.2 Công nghệ truyền thông không dây thế hệ thứ 6
Truyền thông không dây thế hệ thứ 5 (5G) đã, đang và sẽ đem đến nhiều tiện ích cho cuộc sống, 5G nhanh chóng trở thành nhân tố chính trong thúc đẩy q trình số hóa nền kinh tế và xã hội, đẩy nhanh sự phát triển của các cơng nghệ tự động hóa và tích hợp trí tuệ nhân tạo Tuy nhiên, vì các yêu cầu về kỹ thuật và nhu cầu của con người ngày một tăng nhanh và một lúc nào đó sẽ vực khả năng đáp ứng của cơng nghệ 5G Do đó, trong vài năm gần đây, các nhà nghiên cưu đã bắt đầu tìm hiểu về cơng nghệ truyền thơng khơng dây thế hệ thứ 6 (hay 6G) Dự kiến, 6G sẽ ra mắt vào năm 2030 theo chu trình 10 năm của các thế hệ di động [2]
Các tiêu chuẩn của mạng 6G:
• Tốc độ dữ liệu đỉnh của 6G phải đạt ít nhất 1 Tbps
• Hiệu suất phổ và hiệu suất năng lượng tăng 2 lần so với 5G • Độ trễ giảm từ 1 ms đến 0.1 ms
• Độ tin cậy tăng từ 10-5 đến 10-7
Đó cũng là những yêu cầu của một số ứng dụng như extended reality (XR), Brain - Computer Interactions (BCI), Connected Robotics and Autonomous Systems (CRAS), Blockchain and Distributed Ledger Technologies (DLT)
Trang 165
Hình 1-4: Các tiêu chuẩn của cơng nghệ 6G [3]
Hiện nay, nhiều công nghệ, giải pháp đã và đang được nghiên cứu để đáp ứng các tiêu chuẩn của 6G Ta điểm qua một vài công nghệ và đặc điểm nổi bật trong kiến trúc của mạng 6G có thể được kể đến như sau:
Air Interface:
Trang 176
Hình 1-5: Các yếu tố chính cấu thành nên cơng nghệ mạng 6G [2]
Nhiều nhà nghiên cứu đã đề xuất các phương án sử dụng các mơ hình mạng đa truy cập khơng trực giao non-orthogonal multiple access (NOMA) cho các hệ thống mạng di động B5G/6G Trong NOMA, tất cả người dùng được phép truy cập toàn bộ tài nguyên (băng tần) một cách đồng thời Một số nghiên cứu khác lại đề xuất các mơ hình đa truy cập phân chia theo tỷ lệ - rate-splitting multiple access - (RSMA) như một công nghệ truy cập mới cho các hệ thống truyền thông 6G
Băng Tần:
Trang 187
Artifcial intelligence/machine learning (Artificial Intelligence, AI):
AI cung cấp "trí khơn" và tính tự động cho các hệ thống, cũng là điều mà 6G hướng đến Do đó AI có thể được xem là một trong những cơng nghệ thiết yếu và có giá trị cao trong tương lai của mạng không dây Khi được huấn luyện tốt, các mơ hình sẽ có khả năng ra quyết định (việc có thể rất phức tạp đối với con người) một cách nhanh và chính xác
Advanced beamforming:
Bề mặt phản xạ thông minh (Intelligent Reflecting Surfaces, IRS)
IRS sử dụng các phần tử phản xạ thụ động để phản xạ lại tín hiệu một cách "thơng minh" nhằm cải thiện nhiều yếu tố như tốc độ dữ liệu, hiệu suất phổ, hiệu suất năng lượng, Chi tiết về công nghệ IRS sẽ được nêu rõ trong chương 2 Ngồi IRS cịn một số các cơng nghệ khác cũng được đề cập như:
Massive MIMO không - tế bào (Cell-Free Massive MIMO) - nhược điểm của
mạng khơng dây theo cấu trúc tế bào là tín hiệu của những thiết bị nằm ở rìa của tế bào khá yếu, và vì thế, thay vì để mỗi tế bào có một trạm gốc phục vụ, người ta bỏ đi dạng tế bào và cho toàn bộ trạm gốc phục vụ tất cả thiết bị trong khu vực ấy
Orbital angular momentum (OAM) aided MIMO: Orbital angular momentum
Trang 198
Tính đồng bộ với các cơng nghệ trước đó:
Tính đồng bộ giữa mạng 6G và các cơng nghệ trước đó vừa là u cầu vừa là thách thức khi triển khai mạng 6G Lý do là bởi vì kết hợp q nhiều cơng nghệ tân tiến sẽ khiến khoảng cách giữa 6G và các cơng nghệ truyền thống trở nên khó có thể lấp đầy Cần đảm bảo người dùng có thể dễ dàng chuyển đổi từ kết nối 6G xuống các mức thấp hơn 5G/4G và kể cả là 2G khi cần thiết Không những thế, để phát huy tối đa sức mạnh của 6G cũng cần đảm bảo 6G không làm ảnh hưởng đến khả năng kết nối của các chuẩn không dây khác như WiFi, Bluetooth, Ultra – Wide Band, Visible light communication (VLC), … Các yêu cầu này không chỉ giúp người dùng dễ dàng tiếp nhận và tạo môi trường tương tác thân thiện mà con giúp các bên triển khai dịch vụ viễn thông tiếp kiệm chi phí và giảm thời gian chuyển đổi dịch vụ cung cấp từ 4G/5G sang 6G
1.2 Lý do chọn đề tài
Những phân tích ở các phần trên đã cho thấy tầm quan trọng của việc nghiên cứu về 6G và các cơng nghệ tiềm năng Trong đó tơi đặc biệt có hứng thú với bề mặt phản xạ thông minh và việc ứng dụng AI, machine learning/Deep learning và hệ thống
mạng viễn thông Với tinh thần này, luận văn xác định đề tài nghiên cứu là "Tối ưu
tốc độ dữ liệu trong hệ thống MISO có sự hỗ trợ của bề mặt phản xạ thơng minh dùng học sâu tăng cường"
1.3 Mục tiêu của luận văn
Luận văn dự kiến đạt được những mục tiêu sau:
• Cung cấp cái nhìn tổng quan về truyền thông không dây 6G; công nghệ IRS và về học sâu tăng cường deep reinforcement learning
Trang 209
• Đề xuất giải thuật, lập trình và mơ phỏng cùng bài tốn trên theo hướng tiếp cận bằng phương pháp sử dụng học sâu tăng cường
• So sánh, đối chiếu, nhận xét kết quả mô phỏng nhằm đánh giá khả năng cũng như chất lượng của lời giải theo phương pháp học sâu tăng cường và lời giải tối ưu truyền thống
1.4 Phương pháp và phạm vi nghiên cứu
1.4.1 Phạm vi và đối tượng nghiên cứu
Luận văn tập trung nghiên cứu hệ thống MISO đa người dùng có sự hỗ trợ của IRS Trong đó nhấn mạnh vào vấn đề tối ưu tổng tốc độ dữ liệu, phương án tiếp cận xoay quanh phương pháp dùng lời giải tối ưu và ứng dụng giải thuật lập trình học sâu tăng cường Phạm vi được giới hạn trong điều kiện trạng thái thông tin kênh truyền (CSI) đã được biết tại trạm phát, các thành phần phần cứng là lý tưởng và IRS không suy hao và có thể tạo độ lệch pha liên tục
1.4.2 Phương pháp nghiên cứu
Trang 2110
1.5 Bố cục của luận văn
Luận văn sẽ bao gồm các chương có thứ tự và nội dung chính như sau:
• Chương 1: Trình bày những vấn đề cơ bản làm nền tảng cho động lực nghiên cứu của luận văn
• Chương 2: Trình bày các lý thuyết và khái niệm cơ bản của hệ thống MISO-IRS, về học sâu tăng cường và về giải thuật DDPG
• Chương 3: Giải quyết bài toán tối ưu tổng tốc độ dữ liệu trong hệ MISO-IRS bằng phương pháp giải tốn tơi ưu truyền thống cũng như bằng phương pháp áp dụng giải thuật DDPG
• Chương 4: Trình bày q trình mơ phỏng, kết quả thu được cũng như nhận xét và đánh giá về hai phương pháp đã thực hiện ở chương 3
Trang 2211
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Chương này đề cập đến một số lý thuyết cơ bản để giải quyết các bài toán được đặt ra ở các chương sau Cụ thể, Phần 2.1 mô tả các loại kênh truyền trong hệ thống viễn thông Tiếp theo, Phần 2.2 giới thiệu sơ lược về bề mặt phản xạ thơng minh sau đó, Phần 2.3 trình bày các lý thuyết cơ bản về học sâu tăng cường và cuối cùng Phần 2.4 sẽ giới thiệu giải thuật Deep Deterministic Policy Gradient
2.1 Kênh truyền trong hệ thống viễn thông
Kênh truyền giữa bên phát và bên thu được chia làm hai loại: line-of-sight (LoS) và non-line-of-sight (NLoS) [4]
Kênh truyền LoS là trường hợp khi bên phát và bên thu "thấy" nhau Ngoài ra, giả định rằng ta đang ở trong một khơng gian tự do (free space), tức khơng có vật thể khác có thể phản xạ hay tán xạ lại tín hiệu Khi xét trường hợp MISO: bên phát gồm một anten truyền tín hiệu đến một dãy gồm M anten tuyến tính đồng nhất (uniform linear array, ULA), tức M anten thẳng hàng và hai anten kề nhau cách nhau một khoảng ∆ = 𝜆𝑑𝐻 Trong thực tế, thông thường khoảng cách giữa bên phát và bên thu lớn hơn nhiều so với kích thước của dãy anten (far-field), nên ta có thể xem khoảng cách từ bên phát đến mọi anten thu xấp xỉ bằng nhau Tuy sóng phát ra lan truyền với dạng cầu, nhưng khi tiếp cận các anten thu, nó hầu như là phẳng Những giả sử này cho phép ta tính độ lệch pha của tín hiệu khi đến các anten dễ dàng hơn Cụ thể, lấy anten đầu tiên làm chuẩn với góc tới 𝜑, độ lệch pha giữa nó và anten thứ m là 2𝜋 (𝑚 − 1) ∆ 𝑠𝑖𝑛(𝜑)/𝜆 Từ quan sát trên, ta dễ dàng tìm được vector kênh truyền LoS MISO 𝑔 ∈ ℂ𝑀×1 như sau:
Trang 2312
Kênh truyền NLoS, ngược lại, là trường hợp khi bên phát và bên thu không thấy nhau, tức không tồn tại đường truyền LoS Tuy nhiên, môi trường truyền dẫn có rất nhiều vật thể có thể tán xạ lại tín hiệu và ta chỉ xét các tín hiệu được tán xạ một lần Xét trường hợp cả bên phát và bên thu chỉ có 1 anten Giả sử tín hiệu từ bên phát đến bên thu theo L đường, mỗi đường có thể xem là LoS với quãng đường di , 𝑖 = 1, , 𝐿 Đáp ứng kênh truyền là tổng theo L đường này [4]:
𝒈 = ∑ √𝛼𝑖
𝐿
𝑖=1
𝑒−𝑗2𝜋𝑑𝑖𝜆−𝑑 (2.2)
Giả sử các độ lợi và độ dịch pha theo L đường này là các biến ngẫu nhiên độc lập và có phân bố giống nhau (independent and identically distributed, i.i.d) Khi L đủ lớn, theo định luật giới hạn trung tâm, 𝑔 sẽ có phân bố Gaussian [4]:
𝒈 ∼ 𝒞 𝒩(0, 𝛽) (2.3)
Mơ hình này cịn được gọi là Rayleigh fading bởi |𝑔| có phân bố Rayleigh và |𝑔|2 có phân bố mũ Khái quát lên với trường hợp MISO khi bên phát có M anten ta
có [4]:
𝒈 ∼ 𝒞 𝒩(0, 𝛽Ι𝑀) (2.4)
Trên thực tế, kênh truyền LoS và NLoS có thể cùng tồn tại giữa bên thu và bên phát, trong trường hợp đó ta có kênh truyền Rician và được biểu diễn như sau:
𝐆 = √ 𝒦1 + 𝒦𝐆
𝑳𝒐𝑺+ √ 1
1 + 𝒦𝐆
𝑵𝑳𝒐𝑺 (2.5)
trong đo 𝒦 được gọi là hệ số Rician [4]
2.2 Bề mặt phản xạ thông minh
Trang 2413
hướng chùm tia tín hiệu (beamforming) đến bất kì vị trí nào trong tế bào một cách chính xác và cho phép ghép kênh không gian (spatial multiplexing) giữa các thiết bị đầu cuối Mặc dù giúp cải thiện đáng kể hiệu năng của hệ thống, Massive MIMO vẫn có một số nhược điểm lớn như chi phí phần cứng cao, tiêu hao nhiều năng lượng Điều này càng thể hiện rõ khi Massive MIMO hoạt động ở băng mmWave hay terahertz, cần sự hỗ trợ của các chuỗi RF (radio frequency) và các tiến trình xử lý tín hiệu phức tạp Hơn nữa, việc có quá nhiều thành phần hoạt động như relay, remote radio head cũng gây ra can nhiễu trầm trọng [5]
Trong những nỗ lực tìm kiếm các phương pháp cải thiện hiệu suất phổ và năng lượng, đồng thời hạ thấp chi phí của hệ thống, trong thời gian gần đây, người ta đặc biệt chú ý đến bề mặt phản xạ thông minh (IRS) Về cơ bản, IRS là một bề mặt hai chiều gồm các phần tử thụ động, chi phí thấp có khả năng tạo ra một độ dịch pha trên sóng tới, từ đó thay đổi cách thức lan truyền của sóng phản xạ Cần lưu ý rằng, IRS không phải là thành phần của bên phát hay bên thu, mà là một thành phần điều khiển được của môi trường truyền dẫn với nhiệm vụ duy nhất là phản xạ lại tín hiệu đến một cách "thụ động"; do đó cơng suất tiêu thụ của IRS là khơng đáng kể và có thể bỏ qua Hiện nay, việc sử dụng siêu vật liệu (metamaterial) để chế tạo IRS giúp điều chỉnh được độ dịch pha ngay trong thời gian thực
Trang 2514
Về mặt cấu tạo, bề mặt phản xạ thông minh là một bề mặt 2 chiều, tập hợp một lượng lớn các phần tử phản xạ nữa bước sóng (sub-wavelength reflecting) – có thể hiểu chúng là các anten siêu nhỏ có hình dáng như các miếng chip Mỗi phần tử phản xạ được kết nối với một chip có thể điều chỉnh để thay đổi trở kháng tải của nó như một varactor Chúng ta có kiểm sốt điện áp phân cực của các varactor dẫn đến trở kháng tải có thể điều chỉnh liên tục và tạo ra sự dịch chuyển pha liên tục
Ngồi ra có thể mắc thêm biến trở để thay đổi biên độ hệ số phản xạ, từ đó, chúng ta dễ dàng kiểm soát hệ số phản xạ (gồm cả biên độ và pha) của từng phần tử phản xạ riêng lẻ
Những đặc điểm riêng biệt này khiến cho truyền thông có sự hỗ trợ của RIS trở thành cơng nghệ độc đáo, khắc phục các điểm yếu còn tồn đọng của hệ thống thông tin liên lạc truyền thống
IRS có khả năng cung cấp các chức năng như: mở rộng vùng phủ sóng, khử nhiễu, đảm bảo độ tin cậy, tăng sự bảo mật, tối ưu hóa kênh truyền, nâng cao hiệu suất phổ, tiết kiệm năng lượng, đáp ứng các yêu cầu về tốc độ truyền dữ liệu của người dùng và chất lượng dịch vụ, góp phần nâng cao hiệu năng chung của toàn bộ hệ thống truyền thông không dây Các kịch bản ứng dụng của RIS khá đa dạng, từ hệ thống Wi-Fi chia sẻ phương tiện đến vùng mmWave và THz, thậm chí cả truyền thông quang học, bao phủ dải tần băng thông rộng, v.v…
Trang 2615
Xét ở điều kiện tổng quát một hệ thống MIMO có hỗ trợ bởi IRS được mơ tả trong hình dưới:
Hình 2-3: Minh họa hệ thống thơng viễn thơng có hỗ trợ của IRS
Giả sử bên phát có 𝑁𝑡 anten, IRS có 𝑀 phần tử và bên thu có 𝑁𝑟 anten Gọi các kênh truyền từ bên phát đến IRS, IRS đến bên thu và bên phát đến bên thu lần lượt là 𝐅 ∈ ℂ𝑀×𝑁𝑡, 𝐇𝐫 ∈ ℂ𝑁𝑟×𝑀, 𝐇𝐝 ∈ ℂ𝑀×𝑁𝑟 Đặt 𝜽 = [ 𝛼1𝑒𝑗𝜃1 , , 𝛼𝑀 𝑒𝑗𝜃𝑀] và gọi 𝚯 = 𝑑𝑖𝑎𝑔 (𝜽) là ma trận hệ số phản xạ của IRS, với 𝜽𝒎 ∈ [0, 2𝜋), 𝑚 = 1, , 𝑀 là độ dịch pha của phần tử thứ 𝑚 của IRS
Gọi x ∈ ℂ𝑁𝑡×1 là tín hiệu phát đi Thế thì tín hiệu nhận được ở bên thu được biểu diễn như sau:
y = (𝐇𝐝+ 𝐇𝐫𝚯𝐅)x + n (2.6)
trong đó n ∈ ℂ𝑁𝑟×1 là nhiễu bên thu
Khi đó, với bài tốn MISO đa người dùng ta có, 𝐇𝐫 và 𝐇𝐝 trở thành các vector
𝒉𝒓 ∈ ℂ𝑀 và 𝒉𝒅 ∈ ℂ𝑀 khi đó với người dùng thứ 𝑘 ta có:
Trang 2716
Hình 2-4: Minh họa một hệ thống MISO đa người dùng có hỗ trợ bởi IRS Ưu điểm mà các hệ thống IRS mang lại có thể được tóm gọn như sau:
IRS gần như thụ động, lý tưởng là không cần sử dụng bất kỳ nguồn năng lượng nào hoặc được cấp nguồn không dây dựa trên năng lượng thu hoạch RF
IRS được xem như một bề mặt tiếp giáp, lý tưởng là bất kỳ điểm nào cũng có thể định hình sóng khi tác động lên nó bằng cách lập trình bằng phần mềm
IRS khơng bị ảnh hưởng bởi nhiễu máy thu, lý tưởng là không cần bộ chuyển đổi tương tự sang số ADC hay số sang tương tự DAC và bộ khuếch đại công suất Do đó, IRS khơng tạo ra nhiễu khi phản xạ tín hiệu và cung cấp truyền dẫn song cơng
IRS có đáp ứng tồn dải, lý tưởng là có thể hoạt động ở bất kỳ tần số hoạt động nào IRS có thể được lắp đặt dễ dàng và hoạt động bền vững, chúng được làm từ các phần tử tán xạ thụ động chi phí thấp được nhúng trong siêu bề mặt, có thể ở bất kỳ hình dạng nào, do đó mang lại tính linh hoạt cao trong triển khai và thay thế Ví dụ, trên mặt tiền của các tòa nhà, trần nhà của nhà máy và không gian trong nhà
Trang 2817
2.3 Học sâu tăng cường – Deep reinforcement learning
2.3.1 Tổng quát về học sâu tăng cường
Trước tiên để hiểu khái niệm học sâu tăng cường (deep reinforcement learning) là gì ta cần đi qua khái niệm về học tăng cường – reinforcement learning Học tăng cường là một trong ba phân nhánh chính của các thuật tốn học máy gồm: supervised learning (học có giám sát), unsupervised learning (học không giám sát) và reinforcement learning (học tăng cường)
Nếu như supervised learning là học tập từ một tệp các dữ liệu được gán nhãn để suy luận ra quan hệ giữa đầu vào và đầu ra, thì unsupervised learning sẽ khơng được cung cấp các dữ liệu được gán nhãn mà thay vào đó chỉ từ thông tin dữ liệu đầu vào được cung cấp, thuật tốn sẽ tìm cách mơ hình lại dữ liệu, phân loại và hình thành cấu trúc tổng quát cho tập dữ liệu Loại thứ ba là reinforcement learning - phương pháp tập trung vào việc làm thế nào để cho một tác tử trong mơi trường có thể hành động sao cho lấy được phần thưởng nhiều nhất có thể
Trang 2918
2.3.2 Các thuật ngữ cơ bản trong học tăng cường
Agent – được định nghĩa là đối tượng quan sát môi trường và có khả năng tác
động trở lại mơi trường thông qua việc thực hiện các hành động
Environment – là môi trường xung quanh của agent, nơi mà agent tồn tại và
tương tác
Action - Hành động là phương thức của agent cho phép nó tương tác với mơi
trường và thay đổi môi trường Dựa trên State S(t) của environment hiện tại mà agent sẽ đưa ra action a(t)
Observation - Sau khi nhận được sự tương tác từ agent thì environment có sự
chuyển đổi trạng thái đối với agent
State - Là trạng thái của môi trường mà agent nhận được
Policy - Chính sách là yếu tố xác định cách thức hoạt động của agent tại một thời
điểm nhất định Nói cách khác, chính sách là một ánh xạ từ các trạng thái (state) của môi trường đến các hành động sẽ được thực hiện khi ở trong các trạng thái đó Chính sách là cốt lõi của agent trong việc xác định hành vi Trong một số trường hợp, chính sách có thể là một hàm hoặc bảng tra cứu đơn giản Trong một số trường hợp khác, chính sách có thể liên quan đến tính tốn mở rộng, ví dụ như q trình tìm kiếm
Reward - Ở mỗi hành động, môi trường gửi đến cho agent một phần thưởng xác
Trang 3019
Hình 2-5: Tương tác giữa Agent và Environment trong reinforcement learning [7]
2.3.3 Các đặc điểm chính của học sâu tăng cường
Như đã nói ở trên, có rất nhiều giải thuật deep reinforcement learning khác nhau và mỗi giải thuật thường được phát triển và ứng dụng để giải quyết các bài toán và đối tượng khác nhau, có thể chia thành hai hướng tiếp cận cổ điển là Value-based và Policy Gradient algorithm
Các giải thuật Value-based xây dựng chính sách tối ưu (optimal policy) bằng cách thu thập tất cả các giá trị gần đúng của các Q-value Trong DRL, Q-function được biểu diễn bằng mạng nơ-ron và một chương trình tối ưu giá trị gần đúng thông qua lan truyền ngược Chương trình này được xây dựng bằng cách sử dụng các phương pháp rút gọn để có thể huấn luyện thơng qua học có giám sát
Trang 3120
Bảng 2-1: Tổng hợp một số giải thuật DRL tiêu biểu [8]
Hướng tiếp cận Phương pháp Value-based algorithms Deep Q-learning
Double DQN Dueling DQN Noisy DQN Policy-based algorithms REINFORCE
Generalized Advantage Estimation (GAE) Natural Policy Gradient (NPG)
Trust-Region Policy Optimization (TRPO) Proximal Policy Optimization (PPO)
Mix Value-based and Policy-based Deep Deterministic Policy Gradient (DDPG) Soft Actor - Critic
Twin Delay DDPG
Trang 3221
2.4 Giải thuật Deep Deterministic Policy Gradient
2.4.1 Giới thiệu chung về DDPG
Deep Deterministic Policy Gradient (DDPG) là một thuật toán kết hợp đồng thời việc tối ưu một Q-function và một policy Giải thuật sử dụng một tập dữ liệu off-policy và phương trình để “học ” Q-function và dùng Q-function để học ngược lại policy Phương pháp này có liên hệ chặt chẽ với Q-learning với ý tưởng nền là nếu biết được giá trị của Q-value tối ưu (optimal action-state value) thì suy ra ta biết được giá trị của action tối ưu cho mỗi state thơng qua việc giải phương trình [7]
𝑎∗(𝑠) = arg max
𝑎 𝑄∗(𝑠, 𝑎) (2.10)
Như vậy trong Q-learning, để tìm action tiếp theo ta có thể tính Q-value của tất cả state action và chọn giá trị action theo cơng thức trên Điều này hồn tồn rất dễ thực hiện ở Q-learning khi ta có một tập hợp các hành động là rời rạc và hữu hạn Nhưng khi tập hành động là một tập liên tục và vơ hạn thì phương pháp trên trở nên khơng khả thi DDPG khắc phục điều này bằng cách sử dụng giả định rằng 𝑎 ≈𝜇𝜃(𝑠) và dùng hai mạng neural riêng biệt gọi là Actor và Critic Actor có nhiệm vụ đề xuất một action ứng với state tương ứng và Critic sẽ có nhiệm vụ tiên đoán xem cặp action-state được đưa ra là tốt (possible value) hay xấu (negative value)
Có thể chốt lại ngắn gọn các đặc điểm của DDPG như sau: DDPG là một giải thuật off-policy kết hợp giữa policy-based và value-based DDPG chỉ có thể sử dụng được cho các mơ hình có khơng gian hành động liên tục và có thể coi DDPG là một giải thuật Q-learning và Policy-learning cho chuỗi hành động liên tục [9]
2.4.2 Chi tiết giải thuật
Trang 3322
Về phần Q-learning trong DDPG:
Ta có phương trình Bellman mơ tả hàm action-value tối ưu 𝑄∗(𝑠, 𝑎) là [7]: 𝑄∗(𝑠, 𝑎) = E
𝑠′∼𝑃[𝑟(𝑠, 𝑎) + 𝛾 max
𝑎′ 𝑄∗(𝑠′, 𝑎′)] (2.11) trong đó 𝑠 là state hiện tại, a là action hiện tại, 𝑟(𝑠, 𝑎) là reward khi thực hiện action a ở state s, 𝛾 là hệ số discount, 𝑠′ là state kế tiếp và 𝑎′ là action kế tiếp 𝑃 là hàm phân bố ngẫu nhiên của các đại lượng 𝑠′ Hàm E được định nghĩa tổng quát là [8]:
E
𝜏[𝑅(𝜏)] = ∫ 𝑃(𝜏|𝜇)𝑅(𝜏)
𝜏
(2.12) với 𝜏 = (𝑠0, 𝑎0, 𝑠1, 𝑎1, … ) là tập hợp state và action liên tiếp nhau đã được hiện, 𝑅( ) hàm sẽ trả về là kết quả reward ứng với state-action-next action tương ứng, 𝜇 là ký hiệu của policy, hàm 𝑃(𝜏|𝜇) được định nghĩa là xác suất tập hợp state và action 𝜏 xảy ra ở thời điểm thứ T như sau [9]:
𝑃(𝜏|𝜇) = 𝜌0(𝑠0) ∏ 𝑃(𝑠𝑡+1|𝑠𝑡, 𝑎𝑡)𝜇(𝑎𝑡|𝑠𝑡)
𝑇−1
𝑡=0
(2.13)
trong đó, 𝜌0( ) là hàm phân bố xác suất của đại lượng ngẫu nhiên state 𝑠
Từ phương trình trên có thể xây dựng hàm chi phí cho q trình huấn luyện mạng
neural Critic (Q) ở trạng thái với các giá trị là 𝜙 như sau [9]:
𝐿(𝜙, 𝐷) = E
(𝑠,𝑎,𝑟,𝑠′,𝑑)∼𝐷[(𝑄𝜙(𝑠, 𝑎) − (𝑟 + 𝛾(1 − 𝑑) max
𝑎′ 𝑄𝜙(𝑠′, 𝑎′)))2] (2.14) trong đó, 𝐷 là phân bố xác suất của tập dữ liệu (𝑠, 𝑎, 𝑟, 𝑠′, 𝑑), đại lượng 𝑑 đại diện cho trạng thái 𝑠′ có phải state cuối cùng hay không, 𝑑 = 1 khi 𝑠′ là state cuối cùng và 𝑑 = 0 trong các trường hợp còn lại
Trang 3423
“tuyết lỡ” – khi mơ hình bị lệch khỏi kết quả đúng trong một tới hai chu trình huấn luyện, mơ hình sẽ trật khỏi quỹ đạo và khơng thể hội tụ lại đỉnh cực tiểu hàm chi phí Do đó, để tăng tính ổn định, khi thực hiện huấn luyện các mơ hình học sâu tăng cường ta ln dùng Target Network (mạng đích) Mạng đích chỉ được cập nhật theo một quy tắc nhất định để tránh gặp phải hiện tướng trên Trong DDPG, Target network được cập nhật theo nguyên tắc: 𝜙𝑡𝑎𝑟𝑔𝑒𝑡 ← 𝜀𝜙𝑡𝑎𝑟𝑔𝑒𝑡+ (1 − 𝜀)𝜙, 𝜀 ∈ [0,1] (2.15) Khi đó phương trình (2.14) trở thành: 𝐿(𝜙, 𝐷) = E(𝑠,𝑎,𝑟,𝑠′,𝑑)∼𝐷[(𝑄𝜙(𝑠, 𝑎) − (𝑟 + 𝛾(1 − 𝑑) max𝑎′ 𝑄𝜙𝑡𝑎𝑟𝑔𝑒𝑡(𝑠′, 𝜇𝑡𝑎𝑟𝑔𝑒𝑡(𝑠′)))2] (2.16)với giả định rằng 𝑎 ≈ 𝜇𝜃(𝑠)
Mặc khác khi xét đến phần Policy learning trong DDPG ta có:
Đối với mạng neural Actor (µ) mục tiêu là tìm được policy 𝜇𝜃(𝑠) cho ra action 𝑎 mà cho kết quả tối đa khi đưa vào hàm 𝑄𝜙(𝑠, 𝑎) Và vì action là đại lượng ngẫu nhiên liên tục, nên ta có thể giả định rằng hàm Q-value (Q-function) khả vi trên tập action Từ đó có thể thực hiện phép toán lấy gradient trên 𝑄𝜙(𝑠, 𝑎) với giả định 𝑎 ≈ 𝜇𝜃(𝑠) để giải bài toán [9]:
max
𝜃 E
(𝑠,𝑎,𝑟,𝑠′,𝑑)∼𝐷[𝑄𝜙(𝑠, 𝜇𝜃(𝑠))] (2.17)
Khi đó Actor network sẽ được huấn luyện với hàm chi phí là [9]:
𝐿(𝜃, 𝐷) = E
Trang 3524
Giải thuật Deep Deterministic Policy Gradient
1 Input khởi tạo tham số cho mạng Actor 𝜃, cho mạng Critic 𝜙, làm trống buffer 𝒟 2 Khởi tạo tham số cho mạng Target, 𝜃𝑡𝑎𝑟𝑔𝑒𝑡⟵ 𝜃, 𝜙𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜙
3 Repeat
4 Thu thập state 𝑠 và chọn action 𝑎 = 𝑐𝑙𝑖𝑝(𝜇𝜃(𝑠) + 𝜀, 𝑎𝑙𝑜𝑤, 𝑎ℎ𝑖𝑔ℎ), 𝜀 ∈ 𝒩 5 Triển khai tác động action 𝑎 vào môi trường (enviroment)
6 Thu thập state tiếp theo 𝑠’, reward 𝑟, and thực hiện kiểm tra 𝑑 xem 𝑠’ có phải state cuối cùng
7 Lưu bộ dữ liệu (𝑠, 𝑎, 𝑟, 𝑠′, 𝑑) vào buffer 𝒟
8 IF 𝑑 = 1 (𝑠′ là trạng thái cuối) Then khởi động lại môi trường
9 IF số lượng dữ liệu trong buffer thoả và đạt điều kiện cập nhật tham số mạng neural Then
10 For số lần cập nhật cần để giải 1 bài toán do
11 Lấy ngẫu nhiên một batch các dữ liệu từ buffer, 𝐵 = {(𝑠, 𝑎, 𝑟, 𝑠′, 𝑑)} từ 𝒟
12 Tính target
𝑦(𝑟, 𝑠′, 𝑑) = 𝑟 + 𝛾(1 − 𝑑)𝑄𝜙𝑡𝑎𝑟𝑔𝑒𝑡(𝑠′, 𝜇𝜃𝑡𝑎𝑟𝑔𝑒𝑡(𝑠))
13 Cập nhật tham số mạng Critic theo phương pháp gradient descent dùng: ∇𝜙 1
|𝐵| ∑ (𝑄𝜙(𝑠, 𝑎) − 𝑦(𝑟, 𝑠′, 𝑑))2(𝑠,𝑎,𝑟,𝑠′,𝑑) ∈𝐵
14 Cập nhật tham số mạng Actor theo phương pháp gradient descent dùng: ∇𝜃 1
|𝐵|∑ 𝑄𝜙(𝑠, 𝜇𝜃(𝑠))
𝑠 ∈𝐵
15 Cập nhật target network theo nguyên tắc:
𝜃𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜌𝜃𝑡𝑎𝑟𝑔𝑒𝑡 + (1 − 𝜌)𝜃 𝜙𝑡𝑎𝑟𝑔𝑒𝑡 ⟵ 𝜌𝜙𝑡𝑎𝑟𝑔𝑒𝑡+ (1 − 𝜌)𝜙 16 End for
17 End If
Trang 3625
2.5 Kết luận chương
Trang 3726
CHƯƠNG 3 TỐI ƯU TỐC ĐỘ DỮ LIỆU TRONG HỆ THỐNG MISO ĐA NGƯỜI DÙNG CÓ SỰ HỖ TRỢ CỦA IRS
Chương này có tập trung giới thiệu bài toán tối ưu tổng tốc độ dữ liệu của hệ thống MISO đa người dùng có sự hỗ trợ của mặt phẳng phản xạ thông minh IRS Phần đầu chương sẽ trình bày nguyên nhân và lý do luận văn lựa chọn bài tốn này, sau đó là giới thiệu tổng quát tình hình chung của một số nghiên cứu liên quan Tiếp theo, tác giả sẽ đặt vấn đề và mơ hình hóa một hệ thống MISO-IRS từ đó thiết lập các cơng thức tốn học dẫn dắt đến bài tốn tối ưu Sau đó, luận văn tập trung trình bày chi tiết hướng giải quyết thông qua phương pháp giải tối ưu truyền thống Cuối cùng, tác giả tập trung trình bày chi tiết phương án tiếp cận thông qua phương pháp học sâu tăng cường mà cụ thể là giải thuật Deep Deterministic Policy Gradient
3.1 Giới thiệu vấn đề tối ưu tốc độ dữ liệu trong hệ MISO-IRS
Trang 3827
Với những đột phá về mặt lý thuyết và thực nghiệm trong hệ thống vi điện tử và siêu vật liệu, bề mặt thơng minh có thể cấu hình lại (Reconfigurable Intelligent Surface – viết tắt là RIS) hay còn có tên gọi khác là bề mặt phản xạ thông minh (Intelligent reflecting surface – IRS), gần đây đã được cộng đồng ủng hộ như một công cụ mạnh mẽ để nâng cao hiệu suất phổ và hiệu quả năng lượng Tuy nhiên, việc sử dụng IRS cũng đi kèm với nhiều thách thức cần giải quyết, trong đó có các bài tốn tối ưu công suất, năng lượng, hiệu năng năng hay tốc độ dữ liệu trên các hệ thống có IRS Lý do là bởi việc tối ưu này trở nên cực kỳ phức tạp do số lượng các tham số tăng một cách đáng kể so với các hệ thống MIMO truyền thống Trong khuôn khổ luận văn, tác giả sẽ chỉ tập trung nêu phương pháp giải quyết vấn đề tối ưu tổng tốc độ dữ liệu của một hệ thống MISO đa người dùng có sự hỗ trợ của IRS bằng phương pháp sử dụng Deep learning Vần đề này được quan tâm vì qua đây sẽ phần nào kiểm tra và đánh giá được khả năng của phương pháp dùng Deep learning trong giải quyết các bài toán liên quan đến IRS, từ đó có thể mở ra thêm hướng tiếp cận khác, giúp giải quyết được các khó khăn phát sinh khi tối ưu hệ thống có sử dụng IRS trong thực tế
Trang 3928
small-scale và large-scale fading Từ đây sẽ cung cấp cái nhìn tổng quan về khả năng của phương pháp sử dụng Deep Reinforcement Learning trong quá trình tối ưu tốc độ dữ liệu trong hệ thống MISO đa người dùng có sự hỗ trợ của IRS
3.2 Mơ tả vấn đề
Như đã đề cập bên trên, luận văn xoay quanh việc giải quyết vấn đề tối đa tổng tốc độ của tất cả các người dùng cuối trong một hệ thống đa đầu vào đơn đầu ra (Multi Input single output) có tích hợp bề mặt phản xạ thông thông minh IRS
Môi trường truyền thông là một hệ thống có sử dụng một mặt phẳng phản xạ thông minh IRS hỗ trợ hướng xuống cho hệ MISO đa người dùng Trạm phát (BS) được thiết kế với M anten liên lạc với K thiết bị người dùng cuối (user), thiết bị này là các thiết bị đơn anten Bề mặt phản xạ thông minh được cấu thành gồm N phần tử phản xạ, có thể tùy ý điều chỉnh góc lệch pha trong khoảng 0 đến 2π
Hình 3-1: Mơ tả trực quan bằng hình ảnh của mơ hình tốn
Từ đây có thể định nghĩa 𝐖 = [𝒘𝟏, 𝒘𝟐, … , 𝒘𝒌] ∈ ℂ𝑀×𝐾 là ma trận beamforming với 𝒘𝒌, 𝑘 = 1, … 𝐾 là vector beamforming cho user thứ k
Tiếp theo ta có thể định nghĩa 𝐆 ∈ ℂ𝑁×𝑀 và 𝚯 ≜ 𝑑𝑖𝑎𝑔(𝜽) ∈ ℂ𝑁×𝑁 lần lượt là ma trận kênh truyền từ BS đến IRS và ma trận độ lệch pha trên IRS
Gọi 𝒉𝒌𝒓 ∈ ℂ𝑵 và 𝒉𝒌𝒅 ∈ ℂ𝑴 lần lượt là vector độ lợi kênh truyền phản xạ từ IRS đến
Trang 4029 Khi đó tín hiệu nhận được trên user thứ 𝑘 là:
𝑦𝑘 = (𝒉𝒅,𝒌𝑯 + 𝒉𝒓,𝒌𝑯 𝚯𝐇𝐆)w𝑘𝑠𝑘+ ∑ (𝒉𝒅,𝒌𝑯 + 𝒉𝒓,𝒌𝑯 𝚯𝐇𝐆)w𝑗𝑠𝑗
𝐾
𝑗,𝑗≠𝑘
+ 𝑒𝑘 (3.1)
như vậy (𝒉𝒅,𝒌𝑯 + 𝒉𝒓,𝒌𝑯 𝚯𝐇𝐆)w𝑘𝑠𝑘 mô tả tín hiệu đến bên thu và ∑𝐾𝑗,𝑗≠𝑘(𝒉𝒅,𝒌𝑯 +𝒉𝒓,𝒌𝑯 𝚯𝐇𝐆)w𝑗𝑠𝑗 mô tả can nhiễu và 𝑒𝑘 mô tả nhiễu từ môi trường
Khi đó tỷ số SINR được tính theo cơng thức:
SINRk = |𝒘𝒌𝑯(𝐆𝚯𝒉𝒌𝒓 + 𝒉𝒌𝒅)|2
∑𝐾𝑗,𝑗≠𝑘|𝒘𝒋𝑯(𝐆𝚯𝒉𝒌𝒓 + 𝒉𝒌𝒅)|2+ 𝜎2 (3.2) Từ đây ta có, tốc độ của user thứ 𝑘 sẽ được định nghĩa là:
R
̂𝑘 = log2(1 + SINR𝑘) (3.3)
Ta có thể thay đổi cơ số để đơn giản hơn trong quá trình khai triển và áp dụng các mệnh đề như sau và vẫn không làm thay đổi bản chất của phép tốn, khi đó tốc độ của user thứ 𝑘 tính theo cơ số 𝑒 là:
R𝑘 = R̂𝑘 log(𝑒) = log(1 + SINR𝑘) (3.4) Từ đây ta có cơng thức tốn học như sau giúp mô tả vấn đề là:
maximize
W,𝚯 [𝑓SR(𝐖, 𝚯) = ∑ R𝑘
𝑘
] (3.5)
subject to 𝐖 ∈ 𝒲, 𝚯 ∈ 𝒞
trong đó, 𝒲 = {𝐖 | ||𝐖||𝐅𝟐 < 𝑃𝑚𝑎𝑥} là điều kiện công suất đối đa
𝒞 = {𝚯|𝚯 = diag(𝜽), 𝜽 ∈ ℂ𝑵, |[𝜽]𝒋| = 𝟏, ∀𝑗 = 1, … , 𝑁} là điều kiện cho 𝚯 với giả định khơng có suy giảm công suất tại bề mặt phản xạ thông minh
3.3 Phương án tiếp cận sử dụng lời giải toán tối ưu