1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật điện tử: Phân bổ công suất tối ưu cho mạng massive mimo ứng dụng học sâu tăng cường

91 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

HUỲNH VŨ HOÀNG PHÚC

PHÂN BỔ CÔNG SUẤT TỐI ƯU CHOMẠNG MASSIVE MIMO ỨNG DỤNG

HỌC SÂU TĂNG CƯỜNG

Chuyên ngành: Kỹ Thuật Điện TửMã số: 8520203

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH, tháng 07 năm 2023

Trang 2

Cán bộ hướng dẫn khoa học : PGS.TS Hà Hoàng KhaCán bộ chấm nhận xét 1 : PGS.TS Đỗ Hồng TuấnCán bộ chấm nhận xét 2 : TS Nguyễn Đình Long

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 06tháng 07 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1 Chủ tịch hội đồng: GS.TS Lê Tiến Thường

2 Thư ký hội đồng: TS Huỳnh Thế Thiện3 Phản biện 1: PGS.TS Đỗ Hồng Tuấn4 Phản biện 2: TS Nguyễn Đình Long5 Phản biện 3: TS Huỳnh Phú Minh Cường

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngànhsau khi luận văn đã được sửa chữa (nếu có).

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Huỳnh Vũ Hoàng Phúc MSHV: 2070149Ngày, tháng, năm sinh: 12/07/1997 Nơi sinh: Lâm Đồng

I TÊN ĐỀ TÀI:

Phân bổ công suất tối ưu cho mạng Massive MIMO ứng dụng học sâu tăng cường(Power allocation for Massive MIMO network using deep reinforcement learning)II NHIỆM VỤ VÀ NỘI DUNG:

• Nghiên cứu mô hình hệ thống thông tin di động Massive MIMO dùng trong mạngviễn thông 5G và 6G.

• Giới thiệu mô hình toán và lời giải cho bài toán tối ưu hóa vấn đề phân bổ côngsuất nhằm tối ưu hiệu suất phổ của kênh truyền tuyến xuống trong mạng MassiveMIMO dùng giải thuật học sâu tăng cường.

• Phát triển mô hình mô phỏng mạng Massive MIMO để huấn luyện và đánh giáhiệu quả giải thuật học sâu tăng cường được đề ra.

III NGÀY GIAO NHIỆM VỤ: 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023V CÁN BỘ HƯỚNG DẪN: PSG.TS.Hà Hoàng Kha

Tp HCM, tháng 06 năm 2022

TRƯỞNG KHOA ĐIỆN - ĐIỆN TỬ

Trang 4

Lời đầu tiên, em xin được phép gửi lời cảm ơn chân thành nhất đối với ThầyPGS TS Hà Hoàng Kha vì đã hướng dẫn tận tình giúp em hoàn thành luậnvăn này Trong suốt quá trình thực hiện luận văn, thầy đã kiên nhẫn giảnggiải, định hướng cho em tiếp cận các kiến thức mà em còn thiếu và giúp emcủng cố những kiến thức đã nắm để em có thể nghiên cứu đề tài một cách hoànchỉnh nhất Không dừng lại ở các kiến thức chuyên môn, thầy đã có nhữngchia sẻ, động viên và giúp em nhận thấy những thiếu sót của mình trong cuộcsống và cách làm việc, từ đó em có thể khắc phục theo thời gian và trở nênhoàn thiện hơn Ngoài ra, em cũng xin được cảm ơn các thầy, cô đang giảngdạy trong bộ môn Điện Tử và Viễn Thông, trường Đại Học Bách Khoa thànhphố Hồ Chí Minh Các thầy, cô đã truyền dạy các kiến thức và những bài họcbổ ích từ trải nghiệm của mình với sự tân tâm và đam mê hết mình Nhữngkiến thức, kinh nghiệm và kỹ năng từ các thầy, cô mà em đã may mắn tiếpxúc và tiếp thu được trong thời gian học tại trường đã giúp ích cho em rấtnhiều khi thực hiện luận văn này nói riêng và trong công việc cũng như cuộcsống nói chung.

Và trên hết, em xin gửi lời cảm ơn đến Gia Đình của em, những người đã luônđứng sau giúp đỡ, củng cố tinh thần và tạo điều kiện tốt nhất cho em để emcó thể tập trung hoàn thiện luận văn này.

Cuối cùng, em xin gửi lời cảm ơn đến bạn bè, các anh chị sinh viên đi trướcvà các anh chị đồng nghiệp đã luôn chia sẻ, góp ý, giúp đỡ và hỗ trợ em vềmặt tinh thần trong suốt quá trình thực hiện luận văn.

Tp Hồ Chí Minh, ngày 10 tháng 06 năm 2023

Huỳnh Vũ Hoàng Phúc

Trang 5

Với sự bùng nổ về số lượng thiết bị kết nối vào mạng di động và các ứng dụngđòi hỏi lưu lượng dữ liệu lớn với tốc độ truyền tải cao, thế hệ mạng viễn thôngthứ 5 (5G), thứ 6 (6G) và các thể hệ tiếp theo có rất nhiều tiềm năng đểnghiên cứu và phát triển Để đáp ứng yêu cầu về tốc độ cũng như mật độ kếtnối, mạng Massive MIMO là công nghệ chủ chốt cho 5G và các thế hệ mạngtrong tương lai Luận văn này đề xuất một mô hình máy học sử dụng phươngpháp học sâu tăng cường để thực hiện nhiệm vụ phân bổ công suất cho mạngMassive MIMO sao cho tổng hiệu suất phổ của toàn mạng đạt được giá trịtốt nhất dựa vào vị trí tương đối giữa các thiết bị người dùng (UEs) và trạmgốc (BSs) trong mạng Sau khi được huấn luyện thành công, mô hình học sâutăng cường sẽ được dùng để đưa ra chiến lược phân bổ công suất cho các vịtrí phân bố UEs mới và chưa biết, với độ tối ưu có thể được kiểm chứng thôngqua phương pháp giải tối ưu Việc sử dụng mô hình máy học được kỳ vọng sẽđưa ra lời giải cho bài toán phân bổ công suất trong thời gian ngắn hơn rấtnhiều so với các phương pháp tối ưu, từ đó có thể được sử dụng để phân bổcông suất cho các mạng Massive MIMO trong hệ thống 5G hoặc 6G.

Trang 6

With the outburst of number of wireless devices connecting to mobile neworksas well as the number of applications demanding massive ammount of dataat high speed, the 5th or the 6th generation of wireless mobile network andbeyond are lucrative fields of research, both in potential and ideas In order tomeet the requirements of dense connectivity, high data rate and low responsetime, Massive MIMO networks are considered a key technology that enables5G and beyond This thessis proposes a machine learning model utilizing deepreinforcement learning to provide power allocation schemes that maximize thespectral effciency of a Massive MIMO network based on the relative locationof user equipments (UEs) to the base stations (BSs) in the network Afterbeing successfully trained, the model will be used to devise a power allocationstrategy for new, unknown UEs locations, with the optimality degree beingverified by geometric programming By using machine leanrning models, it isexpected that the solution to accomplish the task of allocating power to reachhighest spectral efficiency possible will be identified faster as compared totraditional programming methods, hence this method can be used to providepower for real life Massive MIMO networks in 5G and 6G systems.

Trang 7

Em tên Huỳnh Vũ Hoàng Phúc, là học viên cao học chuyên ngành Kỹ thuậtĐiện tử, khóa 2020, tại Đại Học Quốc Gia TP.HCM - Trường Đại Học BáchKhoa Thành Phố Hồ Chí Minh Em xin cam đoan những nội dung sau đều làsự thật:

- Công trình nghiên cứu này hoàn toàn do chính em thực hiện trong suốtquá trình thực hiện đề tài dưới sự hướng dẫn của PGS.TS.Hà HoàngKha.

- Các tài liệu và các trích dẫn trong luận văn đều được tham khảo từ cácnguồn thực tế, uy tín và độ chính xác cao.

- Các số liệu và kết quả mô phỏng được thực hiện một cách độc lập vàhoàn toàn trung thực.

Tp Hồ Chí Minh, ngày 10 tháng 06 năm 2023

Huỳnh Vũ Hoàng Phúc

Trang 8

1.1.1 Xu hướng phát triển của truyền thông vô tuyến 1

1.1.2 Massive MIMO là kỹ thuật quan trọng đối với 5G-6G 5

1.1.3 Trí tuệ nhân tạo giúp giải quyết các bài toán viễn thông 8

1.2 Lý do thực hiện đề tài 9

1.3 Mục tiêu và nhiệm vụ của luận văn 10

1.4 Đối tượng và phạm vi nghiên cứu 10

1.4.1 Đối tượng nghiên cứu 10

1.4.2 Phạm vi nghiên cứu 11

1.5 Phương pháp nghiên cứu 12

1.6 Bố cục của luận văn 12

2 CƠ SỞ LÝ THUYẾT VỀ MẠNG MASSIVE MIMO 142.1 Định nghĩa mạng Massive MIMO 14

2.2 Kênh truyền trong mạng Massive MIMO 16

Trang 9

4 TỐI ƯU HIỆU SUẤT PHỔ CHO MẠNG MASSIVE MIMO ỨNG

4.1 Mô hình mạng Massive MIMO 37

4.1.1 Ước lượng kênh truyền 38

4.1.2 Hiệu suất phổ của mô hình mạng Massive MIMO fading Rayleigh 444.2 Xây dựng bài toán tối ưu hiệu suất phổ 47

4.3 Phương pháp tối ưu hiệu suất phổ dùng học sâu tăng cường 49

5.1.1 Mô phỏng mạng Massive MIMO 56

5.1.2 Mô hình tác nhân học sâu tăng cường 63

Trang 10

1.1 Xu hướng tăng trưởng số người đăng ký dịch vụ di động toàn cầu từ năm

2018 đến năm 2023 [4] 3

1.2 Xu hướng tăng trưởng về số lượng thiết bị kết nối với mạng di động từnăm 2018 đến năm 2023 [4] 3

1.3 Tốc độ trung bình của các loại thông tin di động toàn cầu [4] 4

1.4 Dự đoán về số lượng thuê bao di động toàn cầu của GSMA [5] 4

1.5 Xu hướng chuyển giao thị phần mạng di động theo vùng giữa năm 2022 và2030 [5] 5

1.6 Các dòng sản phẩm Massive MIMO thương mại của Erricson[11] 7

1.7 Khảo sát tình hình triển khai Massive MIMO ở 1 quốc gia Đông Á[11] 7

1.8 Mạng neuron 9

2.1 Ví dụ về mạng Massive MIMO 15

2.2 Kênh truyền rời rạc 20

3.1 Mô hình học tăng cường tổng quát 23

4.1 Mô hình mạng Massive MIMO chồng lập với L = 2, K = 5, N = 8 38

4.2 Mô hình ULA 39

4.3 Các loại tín hiệu trong một khối ổn định 41

4.4 Sơ đồ khối của một bước cập nhật mạng Actor và Critic trong quá trìnhhuấn luyện 52

4.5 Sơ đồ khối của mô hình phân bổ công suất để tối ưu hoá hiệu suất phổtuyến xuống của hệ thống Massive MIMO ứng dụng học sâu tăng cường 53

5.1 Sơ đồ giải thuật mô phỏng mạng Massive MIMO 57

5.2 Hàm kích hoạt của các lớp mạng trong mạng Actor 63

5.3 CDF của tổng hiệu suất phổ 66

5.4 Trung bình động của điểm thưởng nhận được mỗi 100 episodes 67

5.5 Trung bình tổng SE đạt được giữa mô hình học sâu tăng cường TD3 và lờigiải tối ưu khi thay đổi số antenna 68

Trang 11

5.6 CDF của tổng SE mô hình học sâu tăng cường TD3 đạt được khi thay đổisố antenna 685.7 Trung bình tổng SE đạt được giữa mô hình học sâu tăng cường TD3 và lời

giải tối ưu khi thay đổi công suất phát 695.8 CDF của tổng SE mô hình học sâu tăng cường TD3 đạt được khi thay đổi

công suất phát 69

Trang 12

1 Ước lượng hàm giá trị hành động theo kinh nghiệm E 28

2 Giải thuật Q-learning 29

3 Giải thuật DDPG 35

4 Giải thuật phân bổ công suất dùng mạng học sâu tăng cường TD3 54

5 Giải thuật phân bố BS và UE cho mạng Massive MIMO mô phỏng 59

6 Giải thuật phân bố BS và UE cho mạng Massive MIMO mô phỏng dùngma trận 61

7 Giải thuật xác định [Rjlk]x,y 62

Trang 13

1G First Generation (Thế hệ thứ 1)4G Fourth Generation (Thế hệ thứ 4)5G Fifth Generation (Thế hệ thứ 5)

AWGN Additive White Gaussian Noise(Nhiễu trắng cộng có phân bố Gauss)

LoS Line of Sight (Đường truyền thẳng)

Massive MIMO Massive Multiple-Input Multiple-Output (Đa ngõ vào đa ngõ ra sốlượng lớn)

MIMO Multiple-Input Multiple-Output (Đa ngõ vào đa ngõ ra)

MMSE Minimum Mean Square Error (Sai số trung bình bình phương tốithiểu)

MSE Mean Square Error (Sai số trung bình bình phương )

RMS Root Mean Square (Căn bậc hai của trung bình bình phương)RRU Remote Radio Unit (Thiết bị vô tuyến từ xa)

SDMA Space-division Multiple Access (Đa truy cập trong không gian)SE Spectral Efficiency (Hiệu suất phổ)

Trang 14

SINR Signal to Inteference and Noise Ratio (Tỉ số tín hiệu trên nhiễu vàcan nhiễu)

TDD Time Division Duplex (Kỹ thuật song công phân chia theo miềnthời gian)

UE User Equipment (Thiết bị người dùng)

ULA Uniform Linear Array (Mảng antenna tuyến tính cách đều)

Trang 15

MỞ ĐẦU

Chương này khảo sát xu hướng phát triển của truyền thông vô tuyến và nêu ra mộtsố công nghệ quan trọng cần có để đạt được những yêu cầu kỹ thuật của các thế hệ mạngviễn thông di động trong tương lai Kết quả khảo sát sẽ được sử dụng để luận văn đặtvấn đề, trình bày lý do, mục tiêu, nhiệm vụ, đối tượng, phạm vi và phương pháp nghiêncứu Ngoài ra, bố cục của luận văn cũng được trình bày ở cuối chương để giúp dễ theodõi luận văn hơn.

1.1Đặt vấn đề nghiên cứu

Kể từ khi nhà Vật Lý học người Ý Guglielmo Marconi thành công trong thí nghiệmtruyền tải thông tin trong khoảng cách xấp xỉ 3 km mà không cần dùng đến dây dẫnvào năm 1895 [1], lĩnh vực truyền thông vô tuyến đã phát triển và trở thành một phầnthiết yếu của xã hội hiện đại Bắt đầu từ truyền thông vô tuyến thông qua tín hiệu tươngtự (analog signal) ở thế hệ thứ nhất (1G), động lực để nghiên cứu và phát triển thế hệtiếp theo luôn là để giải quyết các nhược điểm xuất hiện khi nhu cầu sử dụng của conngười tăng lên Một số ví dụ điển hình cho luận điểm này có thể được tóm tắt ở Bảng1.1 Cũng theo xu hướng này, vào năm 2015, công trình [2] đã đề xuất các khái niệm vềmạng viễn thông thế hệ thứ 5 (5G) nhằm cải thiện chất lượng cho các dịch vụ truy cậpmạng Internet qua thiết bị di động và các ứng dụng IoT so với 4G Trong cùng khoảngthời gian này, công trình [3] đã nêu ra 8 yêu cầu cơ bản mà 5G phải đạt được so với 4G:• Kết nối với thiết bị đầu cuối trong lĩnh vực truyền thông vô tuyến đạt được tốc độ

1 Gbps đến 10 Gbps.• Độ trễ xấp xỉ 1 milli giây.

• Băng thông trên 1 đơn vị diện tích gấp 1000 lần.

Trang 16

• Số lượng thiết bị kết nối gấp 10 đến 100 lần.• Độ khả dụng đạt 99.99%

• Độ bao phủ đạt 100%

• Giảm được 90% năng lượng tiêu thụ.

• Hỗ trợ tuổi thọ pin đến 10 năm cho các thiết bị, máy móc tiêu thụ công suất thấp.

Bảng 1.1: Sự phát triển của các thế hệ truyền thông vô tuyến theo dịch vụ vào hiệu năng[3].

Dịch vụ cốt lõi Điểm khác biệtchính

Điểm yếu (được giải quyết ởthế hệ ngay sau đó)

1G Gọi điện qua tínhiệu tương tự

Khả năng diđộng

Hiệu suất phổ kém, gặp cácvấn đề nghiêm trọng về bảomật.

2G Gọi điện và nhắntin qua tín hiệusố

Bảo mật, đượcsử dụng rộng rãi

Tốc độ dữ liệu bị hạn chế,gây khó khăn cho việc hỗtrợ nhu cầu truy cập Inter-net hoặc email.

3G Gọi điện, nhắntin, dữ liệu In-ternet

Trải nghiệm ternet tốt hơn

In-Hiệu năng sử dụng trongthực tế không như mongđợi, không tạo được điểmtruy cập không dây (wire-less access point) để truycập vào Internet.

3.5G Gọi điện, nhắntin, dữ liệu In-ternet băng rộng

Internet băngrộng và các ứngdụng liên quan

Phụ thuộc vào các thế hệ cũ,cũng như các kiến trúc vàgiao thức di động nhất định4G

Mọi dịch vụ liênquan đến giaothức Internet(Internet proto-cols), bao gồmthư thoại, tinnhắn thoại, v.v

Internet băngrộng với tốc độnhanh hơn, độtrễ thấp hơn

Mật độ kết nối còn thấp.Tốc độ và độ trễ vẫn chưađáp ứng được yêu cầu kỹthuật của các công nghệtương lai.

Các yêu cầu này tuy được định nghĩa từ rất sớm, nhưng hoàn toàn trùng khớp với nhữngbáo cáo về xu hướng sử dụng mạng di động mà công ty Cisco thực hiện mỗi 5 năm trong

Trang 17

thời gian gần đây Lấy ví dụ về báo cáo trong giai đoạn từ năm 2018 đến 2023 [4], Ciscodự đoán số lượng người dùng mạng di động toàn cầu sẽ tăng từ 5.1 tỷ vào năm 2018 lên5.7 tỷ vào năm 2023, tương đương với tỉ lệ tăng trưởng kép rơi vào khoảng 2% (Hình1.1) Ngoài ra, do sự phát triển của các thiết bị thông minh và ngành công nghiệp IoT,số lượng thiết bị kết nối thông qua mạng di động được Cisco dự đoán có tỉ lệ tăng trưởngkép xấp xỉ 8%, cụ thể là từ 8.8 tỷ thiết bị vào năm 2018 lên 13.1 tỷ thiết bị vào năm 2023(Hình 1.2).

Hình 1.1: Xu hướng tăng trưởng số người đăng ký dịch vụ di động toàn cầu từ năm 2018đến năm 2023 [4].

Hình 1.2: Xu hướng tăng trưởng về số lượng thiết bị kết nối với mạng di động từ năm2018 đến năm 2023 [4].

Cũng theo [4], tốc độ truyền tải dữ liệu của mạng di động 5G sẽ nhanh gấp 13 lầnso với trung bình các kết nối di động khác vào năm 2023 Điều này hoàn toàn phù hợpvới nhu cầu sử dụng mạng băng rộng ở tốc độ cao để phụ vụ cho các dịch vụ trọng yếutrong xã hội hiện đại như điện toán đám mây (cloud computing), video streaming, cloudgaming, vận hành xe tự lái,

Vì số lượng thiết bị kết nối vào mạng và nhu cầu sử dụng mạng di động tốc độ cao dựkiến tăng trưởng nhanh, nhu cầu phát triển mạng 5G là vô cùng thiết yếu Những báo

Trang 18

Hình 1.3: Tốc độ trung bình của các loại thông tin di động toàn cầu [4].

cáo của tập đoàn viễn thông GSMA trong [5] đã phần nào chứng minh điều này, ví dụnhư dự đoán về số lượng thuê bao 5G vào năm 2030 đạt được 5,5 tỷ người dùng (Hình1.4) hay 5G sẽ chiếm 91% thị phần mạng di động ở Bắc Mỹ trong năm 2030 (Hình 1.5).

Hình 1.4: Dự đoán về số lượng thuê bao di động toàn cầu của GSMA [5].

Tuy đã được thương mại hoá và đạt được những thành công nhất định từ cuối năm2020, truyền thông di động thế hệ thứ 5 vẫn là 1 lĩnh vực nghiên cứu tiềm năng khi cònrất nhiều khía cạnh có thể tối ưu hoá để hoạt động hiệu quả hơn nữa Ngoài ra, việc tìmhiểu và làm quen với những công nghệ đã được phát triển cho 5G có thể giúp tăng tốc

Trang 19

Hình 1.5: Xu hướng chuyển giao thị phần mạng di động theo vùng giữa năm 2022 và 2030[5].

đáng kể cho những công trình nghiên cứu phát triển và thương mại hoá thế hệ truyềnthông di động tiếp theo, 6G Một số mục tiêu nổi bật của mạng viễn thông thế hệ thứ 6mà công trình [6] giới thiệu bao gồm:

• Tốc độ dữ liệu đỉnh gấp 10 lần so với 5G, tức là 1 Tbps 1 Tbps=103 Gbps• Độ trễ xấp xỉ từ 100 µs cho đến 10 µs

• Độ cơ động tốt hơn Trong 5G, tốc độ di chuyển tối đa của một trạm di động cóthể lên đến 500 km/h Con số được kỳ vọng cho 6G là 1000 km/h

• Số lượng thiết bị kết nối tăng 10 lần so với 5G• Tiết kiệm năng lượng tốt hơn 5G 10 đến 100 lần

Từ các số liệu và đặc tả kỹ thuật được cung cấp ở trên, có thể thấy các thế hệ mạngviễn thông trong tương lai cần phải đáp ứng được nhu cầu tăng theo cấp số mũ về mậtđộ kết nối, tốc độ truyền tải cũng như độ chính xác về dữ liệu Công trình [7] và [6] đãkhảo sát đã khảo sát một vài kỹ thuật giúp đạt được những mục tiêu này, trong đó nổitrội nhất có thể kể đến là kỹ thuật Massive MIMO.

Multi-input, Multi-output hay MIMO là một kỹ thuật phân tập sử dụng nhiều antenaở đầu phát và đầu thu để tăng tốc độ và độ tin cậy trong quá trình truyền tải thông tinvô tuyến Nhờ sử dụng nhiều antenna phát và thu, mạng MIMO có khả năng lọc tín hiệutrong không gian hay còn được gọi là beamforming MIMO là một kỹ thuật đã được ứngdụng rộng rãi trong mạng WIFI và LTE 4G ở thời điểm hiện tại Tuy nhiên, kỹ thuật

Trang 20

này vẫn tồn tại một số hạn chế, nổi bật nhất là khả năng khử can nhiễu kém và độ chínhxác của beamforming không cao [1].

Massive MIMO là phiên bản mở rộng của MIMO thông qua việc tăng cường đáng kểsố lượng antena thu phát, từ đó khắc phục hai điểm yếu kể trên của của mạng MIMO,đồng thời tăng mạnh tốc độ truyền tải Nhờ sử dụng số lượng lớn antena, Massive MIMOsở hữu 2 tính chất quan trọng là channel hardening và favorable propagation Tài liệu [8]nhận định rằng mạng Massive MIMO không bắt buộc hay phụ thuộc vào sự có mặt của2 tính chất này, tuy nhiên các mạng sở hữu 2 tính chất này có xu hướng đạt được hiệunăng cao hơn Channel hardening (cứng kênh) đại diện cho sự ổn định của hệ thống trướchiện tượng méo dạng của tín hiệu thu được do tín hiệu phát đi bị tán xạ và tạo thànhnhiều tín hiệu can nhiễu lên chính tín hiệu gốc ở đầu thu Sự méo dạng này được gọi làfading tầm hẹp và sẽ được trình bày rõ hơn ở chương sau Xét về ảnh hưởng lên kênhtruyền biến đổi theo thời gian, fading tầm hẹp tương ứng với hiệu ứng vi mô gây ra bởicác thay đổi nhỏ trong môi trường truyền phát như sự xê dịch của anten thu phát haycác vật cản, và được thể hiện qua các giá trị tức thời của biến ngẫu nhiên biểu diễn chođáp ứng kênh truyền tại một thời đỉểm Như vậy, khi kênh truyền ổn định trước fadingtầm hẹp, các tính toán sẽ không phụ thuộc vào giá trị tức thời của đáp ứng kênh truyềnvà chỉ phụ thuộc vào các đặc trưng thống kê như kỳ vọng hay ma trận hiệp phương saitheo [8] Chính nhờ tính chất này mà công nghệ Massive MIMO đã đơn giản hoá đáng kểquá trình xử lý tín hiệu và góp phần cải thiện độ chính xác của quá trình beamforming.Favorable propagation (kênh truyền thuận lợi) được định nghĩa là sự trực giao đồng thờivề hướng của các vector kênh truyền giữa antena phát và thu bất kỳ trong mạng MassiveMIMO Sự trực giao này cũng giúp đơn giản hoá quá trình xử lý dữ liệu, khi chỉ cần sửdụng các phép xử lý tuyến tính đơn giản để triệt tiêu nhiễu và can nhiễu khi truyền tuyếnlên hoặc sử dụng các kỹ thuật beamforming tuyến tính để truyền đồng thời tín hiệu đếnnhiều thiết bị thu mà không gây ra can nhiễu lẫn nhau [9] Khả năng truyền đồng thờicác luồn tín hiệu mà không chịu ảnh hưởng của can nhiễu này giúp tăng đáng kể tốc độtruyền dữ liệu.

Chính vì những lý do trên, Massive MIMO giành được rất nhiều sự quan tâm từ cácnhà sản xuất giải pháp viễn thông như Samsung, Erricson hay Huawei, Ngày càngcó nhiều sản phẩm thương mại ứng dụng Massive MIMO được phát triển và đưa vào sửdụng, nổi trội như dòng sản phẩm AIR 6428, AIR 3268, AIR 3219, của Erricson (Hình1.6) hay 64T64R Massive MIMO Radios và 32T32R Massive MIMO Radios của Samsung[10].

Hình 1.7 là kết quả khảo sát của Erricson về tình hình lắp đặt và sử dụng các thiết bịMassive MIMO của ba nhà cung cấp dịch vụ viễn thông ở một quốc gia Đông Á Có thểthấy, tổng số trạm phát sóng Massive MIMO ở quốc gia này đã tăng gấp 10 lần trong thờigian khảo sát, từ khoảng 30.000 trạm phát sóng vào tháng 3 năm 2019 đến hơn 300.000

Trang 21

Hình 1.6: Các dòng sản phẩm Massive MIMO thương mại của Erricson[11].

trạm phát sóng vào tháng 1 năm 2020 Ngoài ra, Massive MIMO cũng là công nghệ chiếmưu thế so với RRU ở cả 3 nhà cung cấp dịch vụ, với tỉ lệ sử dụng từ 63% đến 88% Cácsố liệu này đã một lần nữa chứng minh Massive MIMO là công nghệ không thể thiếu cho5G và các thế hệ di động tương lai.

Hình 1.7: Khảo sát tình hình triển khai Massive MIMO ở 1 quốc gia Đông Á[11].Hầu hết các sản phẩm thương mại sử dụng Massive MIMO được đề cập ở trên đều sửdụng tối đa 64 antenna phát và 64 antenna thu Tuy nhiên, khi kích thước mạng tăng vềsố lượng trạm phát sóng trong 1 khu vực, số lượng thiết bị người dùng mà mỗi trạm phátsóng phải cung cấp dịch vụ lẫn số lượng antenna được sử dụng trên 1 trạm phát sóng đểđáp ứng các yêu cầu kỹ thuật đã được đề cập của 5G và 6G, những lời giải hiện có củamạng Massive MIMO có thể trở nên cồng kềnh và tốn nhiều thời gian lẫn tài nguyên tínhtoán Đây chính là 1 trong 3 nguyên nhân chính mà [12] đã đề cập để chứng minh sự cần

Trang 22

thiết của việc ứng dụng những đột phá của công nghệ trí tuệ nhân tạo vào truyền thôngkhông dây 5G và các thế hệ sau đó.

Để có thể tự điều chỉnh lượng thông số mạng tăng nhanh đáng kể cũng như xây dựngcấu trúc mạng một cách tự động, đồng thời đạt được sự linh động cần thiết để vận hànhvà bảo trì, mô hình mạng viễn thông cần có khả năng quan sát được những biến đổi trongmôi trường truyền dẫn, học được những điều không chắc chắn trong qúa trình truyềnphát, đưa ra các hành động để phản ứng lại với sự thay đổi của môi trường và từ đó thayđổi cấu hình một cách hợp lý Những yêu cầu này khá tương đồng với mục tiêu mà cácmô hình trí tuệ nhân tạo hướng đến giải quyết, bao gồm việc học những biến động, phânloại vấn đề, dự đoán những thách thức trong tương lai hoặc đưa ra hướng giải quyết tiềmnăng thông qua sự tương tác với môi trường Vì vậy, công trình nghiên cứu [12] đã nhậnđịnh rằng các mạng viễn thông không dây hoàn toàn có thể sử dụng trí tuệ nhân tạo đểlàm giao diện tương tác với môi trường.

Ngày nay, thuật ngữ trí tuệ nhân tạo đã trở nên vô cùng phổ biến, với mục tiêu cơbản là cung cấp cho hệ thống máy tính khả năng mô phỏng các chức năng nhận thứccủa con người như học tập và giải quyết vấn đề Thông qua trí tuệ nhân tạo, một hệthống máy tính bất kỳ có thể sử dụng toán học và logic để mô phỏng khả năng suy luậncủa con người để học một điều gì đó từ thông tin mới và đưa ra quyết định Định nghĩa“học” trong ngành máy học thường được phát biểu như sau: “Một chương trình máy tínhđược xem là học từ kinh nghiệm E để thực thi một loại tác vụ T dựa theo hệ số đánhgiá hiệu quả P, nếu như khả năng thực thi tác vụ T, khi đánh giá thông qua P, được cảithiện theo kinh nghiệm E” [13] Học sâu là phương pháp được xem như là tối quan trọngtrong các nghiên cứu về máy học, khi nó giúp những giải thuật máy học được phát triểntrong suốt lịch sử của ngành khoa học này đạt được kết quả đủ thực tế để áp dụng vàođời sống Học sâu được hình thành và phát triển với mục tiêu mô phỏng hệ thần kinhcủa con người, nơi mà thông tin được tiếp nhận, xử lý và trao đổi giữa hàng vạn tế bàogọi là neuron Với mục tiêu đó, mô hình tổng quát được sử dụng trong học sâu được gọilà mạng neuron, với thành phần cơ bản nhất được gọi là neuron Mạng neuron ở dạngcơ bản nhất bao gồm ngõ vào, các lớp neuron ẩn và ngõ ra như Hình 1.8, trong đó, mỗineuron ở lớp liền trước sẽ được kết nối với tất cả các neuron ở lớp liền sau Định nghĩa“sâu” được phát biểu dựa trên số lớp ẩn có trong một mô hình mạng được trình bày ởtrên, tức là mạng càng sâu thì số lớp ẩn càng nhiều.

Có 3 hình thức học phổ biến trong học sâu nói riêng và máy học nói chung, đó là:• Học có giám sát

• Học không giám sát

Trang 23

Hình 1.8: Mạng neuron.• Học tăng cường

Trong học có giám sát, tập huấn luyện bao gồm các mẫu làm ngõ vào của mạng neuronvà các nhãn tương ứng cho từng mẫu Gọi x là 1 vector mẫu dùng để huấn luyện và y làđại lượng vô hướng đại diện cho nhãn của mẫu x, khi đó, mục tiêu của học có giám sátlà tạo ra mô hình ánh xạ từ x sang y, hay nói cách khác là dự đoán được y dựa vào x.Nếu huấn luyện thành công, các mẫu x′ cùng có nhãn y khi được đưa qua mạng neuronsẽ cho ra các giá trị gần với y nhất.

Khác với học có giám sát, tập huấn luyên dùng cho học không giám sát không baogồm các nhãn làm mục tiêu để huấn luyện Nhiệm vụ thông thường của các mô hình họckhông giám sát là tìm ra và nhóm các mẫu có tính chất giống nhau mà không cần sựtương tác từ bên ngoài.

Học tăng cường là một mô hình hoàn toàn khác với 2 loại học trên, khi mà ngõ vàohuấn luyện được tạo ra từ sự tương tác của tác nhân và môi trường chứ không phải là cácdữ liệu có sẵn Tác nhân tác động lên môi trường bằng cách thực thi hành động a nằmtrong tập hợp các hành động A được định nghĩa trước và làm môi trường chuyển trạngthái từ s sang s′ nằm trong tập hợp các trạng thái S có thể có của môi trường Ngượclại, môi trường thông báo độ tốt của hành động a mà tác nhân vừa thực thi bằng cáchđưa ra điểm thưởng r ∈R Tập hợp các thông số {s, a, r, s′

}t được tạo ra qua nhiều bướcthời gian t sẽ được dùng để huấn luyện mô hình học sâu sao cho điểm thưởng tích luỹ gtại từng bước thời gian là lớn nhất Công trình [14] đã khảo sát một số công trình nghiêncứu sử dụng 3 loại học sâu nêu trên để giải quyết các bài toán 5G, từ đó chứng minhđược tính khả thi của việc kết hợp 2 lĩnh vực này.

1.2Lý do thực hiện đề tài

Từ những thông tin được trình bày ở các mục trên, luận văn nhận thấy Massive MIMOvà trí tuệ nhân tạo là 2 công nghệ lõi cho các thế hệ di động của tương lai Các công trình

Trang 24

nghiên cứu kết hợp trí tuệ nhân tạo, mà cụ thể là các mô hình học sâu, vào giải quyếtcác bài toán 5G ngày càng thu hút sự chú ý của công chúng và giới khoa học công nghệ.Trong số các công trình này, có một số công trình tập trung giải quyết những hạn chế củamạng Massive MIMO khi tăng độ phức tạp của mạng Một số công trình tiêu biểu có thểkể đến như các công trình được khảo sát ở [15], hoặc công trình ở [16] Cụ thể, [16] giớithiệu phương án sử dụng học có giám sát để giải quyết bài toán phân bổ công suất nhằmtối ưu hoá hiệu suất phổ của mạng Tuy nhiên, [16] vẫn phải phụ thuộc vào các phươngpháp giải bài toán tối ưu để tìm ra bộ nhãn dán cho tập huấn luyện, vì vậy sẽ tiêu tốnkhá nhiều nguồn thời gian vào việc tạo ra tập huấn luyện này để huấn luyện mô hình họcsâu cho các mạng thực tế Nhận thấy điều này và sự khác biệt giữa học có giám sát vàhọc tăng cường, luận văn lựa chọn phát triển một mô hình học sâu dựa vào phương pháphọc tăng cường để giải quyết bài toán phân bổ công suất tương tự như côn trình [16].

Với định hướng như trên, luận văn được thực hiện sẽ có tên "PHÂN BỔ CÔNGSUẤT TỐI ƯU CHO MẠNG MASSIVE MIMO ỨNG DỤNG HỌC SÂUTĂNG CƯỜNG".

1.3Mục tiêu và nhiệm vụ của luận văn

Dựa vào định hướng được đề cập ở mục 1.2, mục tiêu và nhiệm vụ luận văn cần hoànthành bao gồm những điều sau:

• Nghiên cứu cơ sở lý thuyết nhằm xây dựng một mạng Massive MIMO giả lập tươngđối sát với thực tế làm môi trường để huấn luyện và đánh giá cho giải thuật tối ưuhóa hiệu suất phổ dùng học sâu tăng cường.

• Nghiên cứu cơ sở lý thuyết và lựa chọn giải thuật học sâu tăng cường phù hợp đểgiải bài toán tối ưu hiệu suất phổ cho mạng Massive MIMO, tương đương với bàitoán tìm ra chiến lược phân bổ công suất tối ưu cho mạng.

• Mô phỏng và đánh giá kết quả cũng như ưu điểm, nhược điểm của phương phápmà luận văn đề xuất so với lời giải dung các phương pháp quy hoạch (programmingmethods), đồng thời đề xuất một số phương hướng phát triển tiếp theo cho giảipháp của luận văn.

1.4Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn này bao gồm:

Trang 25

• Mạng Massive MIMO phục vụ nhiều UE.

• Vấn đề tối ưu hóa hiệu suất phổ cho mạng Massive MIMO.• Học sâu tăng cường với một số giải thuật tiêu biểu.

• Khả năng và giải thuật ứng dụng các phương pháp học sâu tăng cường vào giảiquyết bài toán tối ưu hiệu suất phổ cho mạng Massive MIMO.

Một mạng viễn thông trong thực tế luôn tồn tại đường truyền tuyến lên để UE kết nốivới BS và đường truyền tuyến xuống để giao tiếp theo hướng ngược lại; và mạng MassiveMIMO cũng tương tự như vậy Vì vậy, vấn đề tối ưu hóa hiệu suất phổ có thể tồn tại đốivới cả đường truyền tuyến lên lẫn tuyến xuống Bất kể tuyến truyền dữ liệu, hiệu suấtphổ của các mạng viễn thông nói chung và mạng Massive MIMO nói riêng phụ thuộc trựctiếp vào tỷ số tín hiệu trên nhiễu và can nhiễu của từng cặp UE-BS có trong mạng Đốivới mạng Massive MIMO, tỷ số tín hiệu trên nhiễu và can nhiễu trong kênh truyền tuyếnxuống nhìn chung phức tạp hơn so với kênh truyền tuyến lên do tín hiệu phát đi từ BSdùng để phục vụ đồng thời nhiều UE, dẫn đến vấn đề tối ưu hóa hiệu suất phổ cho kênhtruyền tuyến xuống cũng thách thức hơn Như vậy, nếu việc sử dụng các giải thuật tronglĩnh vực trí tuệ nhân tạo có thể tìm ra lời giải có độ phức tạp thấp hơn cho vấn đề tốiưu hiệu suất phổ cho kênh truyền tuyến xuống trong mạng Massive MIMO, giả thuật đóđược kỳ vọng cũng có khả năng đưa ra lời giải có độ phức tạp thấp hơn cho vấn đề tươngtự đối với hiệu suất phổ tuyến xuống.

Như đã đề cập ở mục 1.3 và 1.4, luận văn sẽ sử dụng họ giải thuật học sâu tăng cườngtrong lĩnh vực trí tuệ nhân tạo Tuy nhiên, họ giải thuật này cũng tương đối rộng và đượcphân loại thành nhiều nhóm, và vì vậy cần được giới hạn để cụ thể hóa hướng nghiêncứu cho luận văn Dựa vào các thành phần cơ bản của một mô hình học sâu tăng cườngđã được giới thiệu ở mục 1.1.3 và sẽ được làm rõ hơn ở các chương tiếp theo, các giảithuật học sâu tăng cường có thể được phân loại theo loại hành động mà tác nhân có thểtương tác với môi trường, cụ thể là hành động đó có giá trị rời rạc hay liên tục Sự tươngướng giữa bài toán tối ưu hiệu suất phổ và bài toán phân bổ công suất cho mạng MassiveMIMO đã được khảo sát ở đề cương luận văn và sẽ được trình bày lại ở các chương tiếptheo là động lực để luận văn lựa chọn tập trung vào các giải thuật học sâu tăng cườngmà hành động của tác nhân là hành động có giá trị liên tục, vì công suất của các BS làđại lượng có giá trị liên tục.

Như vậy, phạm vi nghiên cứu của luận văn có thể được tóm tắt như sau:

• Tối ưu hóa hiệu suất phổ cũng như tìm ra chiến lược phân bổ công suất cho mạngMassive MIMO trong kênh truyền tuyến xuống.

Trang 26

• Chiến lược phân bổ công suất tối ưu được xác định thông qua họ giải thuật học sâutăng cường mà tác nhân thực thi hành động có giá trị liên tục.

1.5Phương pháp nghiên cứu

Phương pháp nghiên cứu chính mà luận văn sử dụng là phương pháp khảo sát, tổnghợp, phân tích và đánh giá ưu nhược điểm của các công trình nghiên cứu đã được xuâtbản trước đây để vận dụng, kế thừa và kết hợp những thành tựu đột phá của lĩnh vựctrí tuệ nhân tạo vào giải quyết các vấn đề còn tồn tại đối với mạng Massive MIMO tronglĩnh vực viễn thông Do hạn chế về thời gian và chi phí, việc khảo sát kết quả của phươngpháp mà luận văn đề xuất trên hệ thống thực tế là bất khả thi Vì vậy, luận văn sẽ tiếnhành nghiên cứu, thử nghiệm và đánh giá kết quả thông qua chương trình mô phỏng trênmáy tính Phương pháp nghiên cứu của luận văn bao gồm các bước sau:

• Khảo sát các tài liệu liên quan đến mạng Massive MIMO và học tăng cường từ cáccơ sở dữ liệu online uy tín như IEEEXplore, arixiv, Wiley, hay công cụ học thuậtScholar.google.com.

• Tham khảo và tổng hợp nội dung chính của các đề tài đi trước, từ đó tìm ra mốiquan hệ giữa 2 lĩnh vực viễn thông và trí tuệ nhân tạo, cụ thể hơn là vấn đề tốiưu hóa hiệu suất phổ và phương pháp giải các bài toán bằng mô hình học sâu tăngcường.

• Phân tích và đánh giá các giải thuật học tăng cường có thể áp dụng vào giải bàitoán tối ưu hiệu suất phổ dựa vào những kết quả ở bước 2, từ đó lựa ra giải thuậtphù hợp nhất để đạt được mục tiêu luận văn đề ra.

• Tiến hành lập trình mô hình mô phỏng, huấn luyện và thu thập các kết quả trênmạng mô phỏng, từ đó so sánh ưu và nhược điểm của học tăng cường so với cácphương pháp quy hoạch tối ưu.

• Viết báo cáo về quy trình và kết quả, đồng thời rút ra nhận xét, kết luận và nêu lênmột số phương hướng phát triển tiếp theo từ phương pháp được luận văn đề xuất.

1.6Bố cục của luận văn

Nội dung của luận văn sẽ được trình bày theo từng chương để đảm bảo bố cục mạchlạc và logic, qua đó giúp người đọc dễ dàng tiếp cận hơn đến các vấn đề mà luận văntrình bày Cụ thể, luận văn sẽ gồm các chương với nội dung chính như sau:

Trang 27

• Chương 1 là chương mở đầu sẽ trình bày về cách đặt vấn đề nghiên cứu của luậnvăn, lý do lựa chọn đề tài, phạm vi, đối tượng, nhiệm vụ, mục tiêu và phương phápnghiên cứu cho luận văn.

• Chương 2 sẽ trình bày cơ sở lý thuyết về mạng Massive MIMO, bao gồm định nghĩa,tính chất kênh truyền, các phương pháp ước lượng kênh truyền và mô hình toánhọc của hiệu suất phổ tuyến lên và tuyến xuống của mạng Massive MIMO Từ cáckiến thức đó, luận văn sẽ giới thiệu mô hình toán học của bài toán tối ưu hiệu suấtphổ cho kênh truyền tuyến xuống của mạng Massive MIMO và liên hệ với bài toánphân bổ công suất tối ưu ở cuối chương 2.

• Chương 3 sẽ trình bày cơ sở lý thuyết của lĩnh vực học tăng cường và học sâu tăngcường, giúp người đọc phân biệt được hai khái niệm và trình bày các giải thuật nềntảng của ngành học này Chương này cũng đánh giá ưu nhược điểm của các giảithuật mà luận văn trình bày để tìm ra giải thuật phù hợp nhất giúp luận văn giảiquyết bài toán phân bổ công suất tối ưu cho mạng Massive MIMO ứng dụng họcsâu tăng cường.

• Chương 4 đầu tiên sẽ trình bày phương pháp mô phỏng mạng Massive MIMO đểlàm môi trường huấn luyện và đánh giá kết quả cho giải thuật học sâu tăng cườngmà luận văn lựa chọn sử dụng ở Chương 3 Sau đó, chương này sẽ trình bày phươngpháp ứng dụng giải thuật học sâu tăng cường và đánh giá các kết quả mà luận vănđạt được.

• Chương 5 sẽ đưa ra kết luận cho những kết quả nghiên cứu của luận văn và đề xuấtmột số ý tưởng để tiếp tục phát triển đề tài.

Trong xuyên suốt luận văn, các đại lượng vô hướng sẽ được biểu diễn dưới dạng chữin nghiêng như k, l, m, n, Kích thước của tập hợp hay ngưỡng của một đại lượng vậtlý bất kỳ cũng là đại lượng vô hướng và sẽ được phân biệt bằng chữ in nghiêng viếthoa như K, L, M, N, Các vector sẽ được biểu diễn dưới dạng chữ thường in đậm nhưx, y, h, và cuối cùng, các ma trận hoặc tensor sẽ được biểu diễn dưới dạng chữ in đậmviết hoa như X, Y, H,

Trang 28

CƠ SỞ LÝ THUYẾT VỀ MẠNGMASSIVE MIMO

Chương này sẽ trình bày khái quát cơ sở lý thuyết về mạng Massive MIMO, hiệntượng fading và ảnh hưởng của hiện tượng này lên các hệ thống truyền thông vô tuyến,từ đó làm rõ nguyên nhân mạng Massive MIMO chủ yếu sử dụng giao thức TDD ứngdụng phương pháp điều chế đa sóng mang để khắc phục ảnh hưởng này Sau đó, luận vănsẽ sơ lược về mô hình toán học của kênh truyền trong mạng Massive MIMO và mô hìnhtín hiệu thu được và phát đi tại BS bất kỳ trong mạng Cuối cùng, định nghĩa về hiệusuất phổ sẽ được luận văn đề cập và diễn giải dựa trên lý thuyết thông tin và dung lượngkênh truyền.

2.1Định nghĩa mạng Massive MIMO

Mạng Massive MIMO là mạng viễn thông bao gồm L cells hoạt động theo giao thứcsong công phân chia thời gian (TDD) có tín hiệu tuyến lên và tuyến xuống được truyềnđi ở các khe thời gian kế cận nhau trong cùng một dải tần số Mỗi cell trong mạng đượctrang bị một BS gồm M ≫ 1 antenna nhằm tạo khả năng giao tiếp với đồng thời vớiK UE, giả sử rằng mỗi UE chỉ được trang bị một attenna để thu phát tín hiệu Các BStrong mạng hoạt động độc lập và không ảnh hưởng đến nhau nhờ sử dụng các kỹ thuậtnhư kết hợp thu tuyến tính (linear receive combining) để xử lý tín hiệu thu được từ cácUE và kỹ thuật tiền mã hoá tuyến tính (linear precoding) để định hướng phát tín hiệuđến UE mong muốn trong không gian.

Việc tích hợp nhiều antenna trên một BS sao cho M ≫ K là giải pháp ứng dụng giaothức SDMA để xử lý can nhiễu giữa các UE trong cùng 1 cell với nhau, mà cụ thể làthông qua 2 tính chất cứng kênh (channel hardening) và kênh truyền thuận lợi (favorablepropagation) Cứng kênh là tính chất giúp độ lợi của kênh truyền thay đổi ngẫu nhiên

Trang 29

(hlk)H hliq

Trang 30

can nhiễu liên ký tự trong từng kênh truyền con Băng thông của các kênh truyền con,hay băng con, thường được xác định dựa trên băng thông ổn định BC của kênh truyền(Coherence Bandwidth) sao cho tổng của nhiều băng con sẽ tương ứng với BC Việc xácđịnh băng con theo BC vừa giúp hạn chế can nhiễu liên ký tự nhờ quan hệ tuyến tính giữabăng thông ổn định BC và nghịch đảo của trải trễ của kênh truyền (BC ≈ 1

TM [1]), vừagiúp giảm đáng kể số lần thực hiện ước lượng kênh truyền do đáp ứng của kênh truyềngần như là hằng số trong BC, từ đó thông tin trạng thái kênh (CSI) ước lượng được trong1 băng con có thể được tái sử dụng cho tất cả các băng con còn lại cùng tổng hợp thànhBC.

2.2Kênh truyền trong mạng Massive MIMO

Theo định nghĩa, mạng Massive MIMO dùng M antenna trên 1 BS nên sẽ có M kênhtruyền giữa 1 cặp BS-UE bất kỳ Nhờ sử dụng các phương pháp điều chế đa sóng mangnhư OFDM, FBMC, , các kênh truyền gần như là hằng số và chịu ảnh hưởng của hiệntượng fading phẳng như đã đề cập, vì vậy đáp ứng của 1 kênh truyền bất kỳ h(t, τ ) cóthể được xấp xỉ thành kênh truyền h(t) Như vậy, kênh truyền giữa 1 cặp BS-UE sẽ là 1vector gồm M phần tử Để tường minh, luận văn quy ước đáp ứng kênh truyền giữa BStrong cell thứ j và UE thứ k trong cell thứ l là hjlk ∈ CM Đáp ứng kênh truyền trongmột khối ổn định là không thay đổi như đã lập luận ở mục 2.1, vì vậy luận văn sử dụngký hiệu hjlk để biểu diễn kênh truyền tuyến lên, và hjlkH để biểu diễn kênh truyền tuyếnxuống Theo [8], việc quy ước đáp ứng kênh truyền tuyến xuống là vector chuyển vị liênhợp phức của đáp ứng kênh truyền tuyến lên không ảnh hưởng đến các biểu thức đánhgiá hiệu năng của mạng Massive MIMO nhưng có tác dụng đơn giản hóa các biểu thứctính toán Vì hjlk ∈ CM, hjlk có thể được đặc trưng qua độ lớn và hướng của nó trongkhông gian vector Cả 2 đại lượng này đều là các đại lượng ngẫu nhiên đối với kênh truyềnfading, và thường có mối quan hệ tương quan với nhau trong thực tế Về mặt định nghĩa,nếu kênh truyền fading hjlk ∈ CM có độ lợi kênh truyền ||hjlk||2 và hướng h

||hjlk|| là cácbiến ngẫu nhiên phụ thuộc vào nhau thì hjlk được gọi là kênh truyền tương quan trongmiền không gian (spatially correlated) Một mô hình kênh truyền fading tương quan trongmiền không gian nổi bật là mô hình kênh truyền fading tương quan Rayleigh (CorrelatedRayleigh fading), trong đó đáp ứng kênh truyền tuân theo phân bố Gauss đa biến chuẩn,tức là

hjlk ∼NC(0, Rjlk), (2.3)với Rjlk ∈ CM ×M thỏa Rjlk ≽ 0 là ma trận tương quan trong không gian, và cũng là matrận hiệp phương sai của vector đáp ứng kênh truyền hjlk do Ehjlk = 0 Khi kênh truyền

Trang 31

có phân bố Gauss đa biến chuẩn như (2.3), biên độ ||hjlk|| của nó sẽ tuân theo phânbố Rayleigh, vì vậy kênh truyền (2.3) mới được gọi là kênh truyền fading tương quanRayleigh Giá trị của các biến ngẫu nhiên trong hjlk tại mỗi khối ổn định đặc trưng cho sựthay đổi vi mô của kênh truyền gây ra bởi fading Ngược lại, ma trận tương quan trongkhông gian Rjlk đặc trưng cho các đặc tính lan truyền vĩ mô như độ lợi của các antennahoặc đặc tính bức xạ điện từ tại bộ phát và bộ thu Đường chéo chính chuẩn hóa của matrận này có dạng

βlkj = 1Mtr R

được dùng để xác định độ lợi kênh truyền trung bình của BS thứ j đến UE thứ k trongnhân tử thứ l Thông số βlkj còn được gọi là hệ số fading vĩ mô của kênh truyền và đượcxác định thông qua độ lợi trung vị của kênh truyền tham chiếu có khoảng cách thu phát1km Υ, khoảng cách thu phát thực tế djlk,và suy hao đường truyền α

βlkj (dB) = Υ − 10αlog10 d

Trong (2.5), ngoài các thông số Υ, djlk và α có thể xác định được dựa vào mô hình kênhtruyền, Flkj là đại lượng ngẫu nhiên duy nhất và được dùng để đặc trưng cho hiện tượngfading che khuất (shadow fading), tức những biến dạng trong tín hiệu thu gây ra bởi vậtcản vật lý chắn giữa đường thu phát Flkj có phân bố Gauss chuẩn, Flkj ∼N(0, σ2

sf), trongđó phương sai σ2

sf đại diện cho độ lớn của loại biến thiên ngẫu nhiên này Tuy nhiên, βlkjchỉ là đường chéo chính của ma trận tương quan về không gian Rjlk của đáp ứng kênhtruyền hjlk giữa BS trong cell thứ j và UE thứ k trong cell thứ l.

Với đáp ứng kênh truyền (2.3), tín hiệu BS thứ j thu được tại mỗi khe thời gian khitruyền tuyến lên sẽ có dạng

yj =

Tín hiệu mong muốn

trong đó, nj ∼NC(0M, σ2U LIM) là nhiễu AWG có phương sai thành phần là σU L2

Khi truyền tuyến xuống, nhờ sử dụng M antenna, BS thứ j bất kỳ có thể định hướngtruyền tín hiệu trong không gian và phát đi tín hiệu xj đến đồng thời K UE trong vùngphủ sóng của BS này Gọi tín hiệu ζjk ∼NC(0, ρjk) là tín hiệu BS thứ j cần truyền đếnUE thứ k, với ρjk là công suất của tín hiệu Khi đó, tín hiệu được BS thứ j mã hoá và

Trang 32

(2.8)

Tương tự như khi truyền tuyến lên, njk ∼ NC(0, σ2

DL) là nhiễu trắng tác động lên kênhtruyền từ BS thứ j đến UE thứ k đang xét.

2.3Hiệu suất phổ

Một trong các thông số được sử dụng thường xuyên để đánh giá chất lượng của quátrình trao đổi tín hiệu trong một mạng viễn thông là hiệu suất phổ (Spectral Efficiency).Dựa vào tài liệu [8], hiệu suất phổ được xem là số bit trung bình đại diện cho thông tincó trong một mẫu dữ liệu giá trị phức có thể truyền không lỗi qua kênh truyền đang xét.Mục này sẽ chỉ trình bày biểu thức cơ bản của hiệu suất phổ dựa trên lý thuyết thôngtin để tạo tiền đề cho việc tính toán thông số này mạng Massive MIMO cụ thể hơn ở cácchương sau.

Trong lý thuyết thông tin, ngõ ra của các hệ thống thông tin nói chung và thông tinvô tuyến nói riêng đa phần có dạng chuỗi bit Vì 1 bit có thể nhận giá trị 0 hoặc 1, và vìkhông phải toàn bộ các bit trong chuỗi bit thu được đều giống với chuỗi bit được phát đi,nên có thể nói với mỗi bit thu được ở bộ thu, mức độ không chắc chắn về thông tin cầntruyền tải được giảm đi 2 lần Như vậy, một chuỗi dữ liệu gồm n bit với xác suất mỗi bitmang giá trị 0 hoặc 1 là p0 = p1 = 12 sẽ làm giảm mức độ không chắc chắn của hệ thốngđi một lượng 2n Tuy nhiên, xác suất nhận giá trị 0 hoặc 1 của mỗi bit trong 1 chuỗi bitđại diện cho tín hiệu y thường không bằng nhau và không biết trước, mà thông thườngta chỉ biết được hàm mật độ phân bố xác suất f (y) đối với y liên tục hoặc hàm khối xácsuất P (Y = y) đối với y rời rạc Cả 2 hàm f (y) và P (Y = y) đều có thể được dùng đểxác định độ giảm về mức độ không chắc chắn của hệ thống khi thu được một giá trị tức

Trang 33

thời của y, trong đó độ giảm sẽ là f (y)1 trong trường hợp liên tục và P (Y =y)1 trong trườnghợp rời rạc Dựa vào mối quan hệ giữa độ dài bit n, xác suất của mỗi bit và độ giảm vềmức độ không chắc chắn, có thể suy ra được độ dài chuỗi bit cần dùng để biểu diễn tínhiệu y (trong trường hợp liên tục)là

n = log2( 1

f (y)) = − log2(f (y)) , (2.9)với độ giảm về mức độ không chắc chắn là f (y)1 Vậy, số bit trung bình cần dùng để biễudiễn tín hiệu y trong không gian mẫuY là

E [n] =Z

−f (y)ndy =Z

−f (y) log2(f (y)) dy (2.10)Số bit trung bình ở (2.10) còn có thể được hiểu là lượng thông tin trung bình của tínhiệu y thu được vì nó đặc trưng cho sự không chắc chắn của bộ thu đối với y, và đượcgọi là Entropy của y

Áp dụng (2.11) và (2.12) vào mô hình kênh truyền rời rạc mà tại mỗi thời điểm chỉcó một ký tự x ∈ C được truyền đi và bộ thu chỉ thu được một ký tự y ∈ C (Hình 2.2),sao cho

với n ∼ NC(0, σ2) là nhiễu độc lập so với x, h ∈ C là giá trị đáp ứng kênh truyền tứcthời của kênh truyền ngẫu nhiên H và v ∈ C là can nhiễu ngẫu nhiên phụ thuộc vàobiến ngẫu nhiên U sao cho trung bình có điều kiện E [v|H = h, U = u] = 0 và phương saicó điều kiện pv(H = h, U = u) = E [|v|2|h, u] ∈ R không tương quan với tín hiệu x, hayE [x∗v|h, u] = E [xv∗|h, u] = 0 Theo [17], dung lượng của mô hình kênh truyền được môtả ở (2.13) là độ chênh lệch tối đa giữa lượng thông tin của mẫu tín hiệu x, tức làH(x),so với lượng thông tin trung bình của mẫu tín hiệu này khi biết được giá trị tức thời củamẫu tín hiệu thu y và các biến ngẫu nhiên H, U

C = max

Trang 34

Hình 2.2: Kênh truyền rời rạc.

Vì phân bố Gauss có thể không phải là phân bố xác suất tối ưu cho kênh truyền đangxét, ngõ vào x ∼N(0, px) sẽ là giới hạn dưới của dung lượng kênh truyền, tức là

C ≥H(x) − Eh,u[H(x|y, h, u)] , x ∼ N(0, px) (2.15)Giả sử x được ước lượng bởi bộ ước lượng trung bình bình phương tối thiểu tuyến tínhcủa lỗi (Linear minimum mean squared error) thông qua y, với ràng buộc về giá trị tứcthời của kênh truyền H = h và đại lượng ảnh hưởng đến can nhiễu U = u

E|y|2|h, u = pxE|h|2|h, u + pv(h, u) + σ2 (2.18)Phương sai hay trung bình bình phương sai số của phép ước lượng là

σx−ˆ2 x = E|x|h, u|2 − |E [xy∗|h, u]|2

E [|y|2|h, u] = px−

px|h|2+ pv(h, u) + σ2 (2.19)Vì ˆx là hằng số khi biết y, mức độ không chắc chắn của kênh truyền về x và x − ˆx khi thuđược y là như nhau Nếu loại bỏ thông tin về tín hiệu thu được y, độ không chắc chắncủa kênh truyền về x − ˆx chắc chắn sẽ không giảm, tức là

H (x|y, h, u) = H ((x − ˆx) |y, h, u) ≤ H (x − ˆx|h, u) ≤ log2 eπσx−ˆ2 x (2.20)

Trang 35

Từ (2.15) và (2.20) cùng với các điều kiện về Entropy đối với phân bố Gauss, ta cóC ≥ log2(eπpx) − Eh,ulog2 eπσ2x−ˆx

= Eh,u

− log2

2.4Kết luận chương

Chương này đã trình bày định nghĩa về mạng Massive MIMO cùng hai tính chấtquan trọng có được khi mỗi BS trong mạng được trang bị số lượng lớn antenna là tínhcứng kênh và kênh truyền thuận lợi Chương này cũng đã giải thích được lý do giao thứctruyền thông mà mạng Massive MIMO thường sử dụng là giao thức TDD kết hợp với kỹthuật điều chế đa sóng mang Ở phần cuối chương, luận văn đã giới thiệu sơ qua mô hìnhkênh truyền thường được sử dụng trong các nghiên cứu về Massive MIMO là kênh truyềnfading Rayleigh và biểu thức hiệu suất phổ của một kênh truyền rời rạc chịu ảnh hưởngcủa nhiễu và can nhiễu ngẫu nhiên.

Trang 36

LÝ THUYẾT VỀ HỌC SÂU TĂNGCƯỜNG

Học sâu tăng cường (Deep Reinforcement Learning) là một kỹ thuật học máy mà môhình cần được huấn luyện và triển khai được gọi là tác nhân (agent) tương tác với môitrường để thực hiện một tác vụ nhất định Tuy đã tồn tại từ những năm 80 của thế kỷXIX [18], các phương pháp học tăng cường chỉ bắt đầu thu hút sự chú ý từ cộng đồngnghiên cứu trí tuệ nhân tạo nhờ vào kết quả đột phá của công trình [19] được công bốgần đây Chương này sẽ sơ lược các kiến thức trọng tâm cuả lý thuyết học tăng cường vàsự kết hợp giữa học sâu và học tăng cường.

3.1Lý thuyết học tăng cường

Một mô hình học tăng cường có thể có 1 hoặc nhiều tác nhân tương tác với môi trườnghọc theo thời gian với mục tiêu đưa môi trường về 1 trạng thái nhất định Tại mỗi bướcthời gian t, tác nhân cần xác định hành động At mà nó có thể thực hiện trong tập cáchành động khả thiA và thực thi hành động đó Tập các hành động khả thi A tại mỗi thờiđiểm t khác nhau có thể không giống nhau, và phụ thuộc vào trạng thái của môi trườngSt ∈ S, tức A ≜ A (St) với S là tập hợp tất cả các trạng thái có thể có của môi trường.Khi áp dụng học tăng cường vào các mô hình Viễn Thông, trạng thái của môi trường cóthể là cấu trúc mạng, vị trí hay công suất phát giữa BS và các UE ; tác nhân thườnglà BS hoặc UE có khả năng thay đổi một thông số nhất định như công suất, tốc đô dichuyển, hướng di chuyển, , nhằm cải thiện tốc độ, độ bảo mật hay một tính chất cụthể nào đó Sau khi tác nhân tương tác với môi trường qua hành động At, môi trường sẽchuyển sang trạng thái tiếp theo St+1 ∈ S, và môi trường hồi tiếp về tác nhân một giátrị Rt+1 được định nghĩa là điểm thưởng giúp đánh giá chất lượng của hành động mà tácnhân đưa ra Sự tương tác qua lại giữa môi trường và tác nhân tạo thành một vòng lặptheo thời gian, và tuỳ vào bài toán mà vòng lặp này có thể là hữu hạn hoặc vô hạn (Hình

Trang 37

Hình 3.1: Mô hình học tăng cường tổng quát.

Bất kể giới hạn về thời gian tương tác giữa tác nhân và môi trường, mục tiêu của tácnhân trong lĩnh vực học tăng cường là tối đa hoá lượng điểm thưởng Rt mà tác nhân tíchluỹ được sau khi tác động hành động At∈A (St) lên môi trường qua mỗi bước thời giant trong toàn bộ quá trình tương tác Như vậy, nếu chuỗi điểm thưởng sau thời điểm t màtác nhân nhận được là Rt+1, Rt+2, Rt+3, thì giá trị

Gt= Rt+1+ Rt+2+ Rt+3+ , (3.1)có thể được sử dụng để mô tả hàm mục tiêu của tác nhân Điều này đúng trong trườnghợp tác nhân và môi trường tương tác với nhau trong thời gian hữu hạn, và thời gian nàyđược gọi là 1 episode với T bước thời gian Tuy nhiên, nếu thời gian tương tác là vô hạn,hay T = ∞, có thể thấy lim

T →∞Gt → ∞ và hàm mục tiêu (3.1) không còn đúng nữa Vìvậy, để tổng quát cho cả 2 trường hợp, hàm mục tiêu cần tối ưu của tác nhân phải có sựsuy hao

Gt= Rt+1+ γRt+2+ γ2Rt+3+

= Rt+1+ γ Rt+2+ γRt+3+ γ2Rt+4+ = Rt+1+ γGt+1.

Như đã đề cập ở trên, tại mỗi thời điểm t, tác nhân cần xác định hành động At∈A (St)và thực thi hành động đó nhằm chuyển môi trường sang trạng thái kế tiếp Để xác địnhhành động nên thực thi, tác nhân dựa vào chiến lược π là ánh xạ của trạng thái môitrường sang hành động có thể thực thi tại trạng thái đó

Trang 38

πt: St→ At ∀St∈S, At∈A (St) (3.4)Tuỳ thuộc vào đặc trưng thống kê của St ∈ S và At ∈ A (St), chiến lược π có thể đượcphân loại thành chiến lược xác định hay chiến lược ngẫu nhiên Trong trường hợp St vàAt là các giá trị xác định, π(S) là chính xách xác định sao cho

Z ∞−∞

Để đánh giá độ "tốt"của một chiến lược, người ta thường dựa vào hàm giá trị trạngthái vπ hoặc hàm giá trị hành động qπ Hàm giá trị trạng thái đánh giá độ tốt của việc tácnhân đưa ra hành động dựa trên chiến lược π khi môi trường ở trạng thái St = s thôngqua kỳ vọng của giá trị trả về được xác định bởi (3.3), dưới điều kiện tác nhân luôn tácđộng lên môi trường theo chiến lược π kể từ thời điểm t

Hàm giá trị hành động cũng có định nghĩa tương tự với hàm giá trị trạng thái, chỉ khácở điểm hành động của tác nhân tại trạng thái St= s không được xác định dựa trên chiếnlược π mà là một hành động At = a cụ thể nào đó.

qπ(St = s, At= a) = Eπ[Gt|St = s, At= a]= Eπ

" ∞

γkRt+k+1|St = s, At = a#

Dựa vào hàm giá trị trạng thái vπ(s) và hàm giá trị hành động qπ(s, a), ta có thể so sánhgiữa 2 chiến lược π và π′ bất kỳ, chiến lược nào sẽ là chiến lược phù hợp hơn để tác nhânđạt được mục tiêu khi lựa chọn hành động dựa theo chiến lược đó Chiến lược π đượcxem là tốt hơn chiến lược π′ nếu

vπ(St= s) ≥ vπ′ (St = s) ∀s ∈ S, (3.10)

Trang 39

qπ(St= s, At = a) ≥ qπ′(St= s, At= a) ∀s ∈S, a ∈ A(St = s) (3.11)Như vậy, trong một bài toán học tăng cường bất kỳ bất kỳ, luôn có ít nhất một chiếnlược π∗ tốt hơn hoặc tốt ngang tất cả các chiến lược khác, gọi là chiến lược tối ưu Mặcdù có thể có nhiều hơn 1 chiến lược tối ưu, tất cả các chiến lược tối ưu có thể có cùngmột giá trị trạng thái

vπ∗(s) = max

Do giá trị trả về Gt có tính hồi quy, hàm giá trị trạng thái và hàm giá trị hành động cũngcó tính chất này Cụ thể, xét hàm giá trị hành động

qπ(St= s, At= a) = Eπ[Gt|St= s, At= a]

= Eπ[Rt+1+ γGt+1|St= s, At= a]

= Eπ[Rt+1|St = s, At= a] + γEπ[Eπ[Gt+1|St+1 = s′] |St = s, At= a]= Eπ[Rt+1|St = s, At= a] + γEπ[vπ(St+1 = s′) |St= s, At= a] ,

(3.15)trong đó, đẳng thức ở hàng thứ 3 được suy ra từ định luật kỳ vọng toàn thể E[X] =E [E [X|Y ]] với X, Y là các biến ngẫu nhiên có cùng không gian mẫu Kết hợp tính hồiquy của hàm giá trị hành động ở (3.15) và liên hệ giữa hàm giá trị hành động và hàm giátrị trạng thái tối ưu ở (3.14), ta có

qπ∗(s, a) = Eπ∗[Rt+1|St = s, At = a] + γEπ∗

a′∈A(St+1)qπ∗(St+1, a′) |St = s, At= a

.(3.16)Phương trình (3.16) được gọi là phương trình Bellman của hàm giá trị hành động theochiến lược tối ưu, hay gọi tắt là phương trình Bellman tối ưu Trong lý thuyết học tăngcường, các giải thuật giúp xác định giá trị của (3.8) hay (3.9) khi biết biểu thức của chiếnlược π được phân loại thành họ giải thuật đánh giá chiến lược (Policy Evaluation) Songsong đó, các giải thuật giúp xác định chiến lược tối ưu π∗ được phân loại thành họ giảithuật kiểm soát chiến lược (Policy Control), và họ giải thuật này thường dựa vào phương

Trang 40

trình (3.16) làm điều kiện dừng Vì (3.16) phụ thuộc vào qπ∗, trong thực tế, cần phải phốihợp giữa họ giải thuật đánh giá và kiểm soát chiến lược để tìm ra chiến lược tối ưu chomột bài toán học tăng cường Nguyên lý cơ bản của các họ giải thuật này là tính hồi quycủa hàm giá trị trả về (3.3) hoặc của các hàm giá trị trạng thái như (3.15) Cụ thể, nếugọi ˆqkπ(s, a) là bộ ước lượng cho qπ(s, a) ở lần ước lượng thứ k, dựa vào (3.15), ta có biểuthức xác định vòng lặp

qk+1π (St= s, At= a) ← EπRt+1 = r + γ ˆqπk(St+1 = s′, At+1 = a′ ∼ π(s′, a′)) , (3.17)với bản chất

qπ(St+1 = s′, At+1= a′ ∼ π(s′, a′)) ≡ vπ(St+1= s′) (3.18)Vì đẳng thức (3.15) chắc chắn xảy ra đối với giá trị cần ước lượng là qπ(s, a), bộ ước lượngˆ

qπk+1(s, a) cũng sẽ hội tụ khi đẳng thức xảy ra Điều này đồng nghĩa với việc ˆqπ(s, a) ướclượng chính xác qπ(s, a) nếu

π (St= s, At= a) = EπRt+1= r + γ ˆqk

π(St+1 = s′, At+1= a′ ∼ π(s′, a′))ˆ

qπk+1(St= s, At= a) = EπRt+1= r + γ ˆqπk(St+1 = s′, At+1= a′ ∼ π(s′, a′))∆ = ˆqk+1

Eπ[r(St= s, At= a) + γqπ(St+1= s′, At+1a′)] = Eπ[Gt|St= s, At= a] ≈ 1Ns

Gt,i,(3.21)Phương trình (3.21) có thể được viết lại dưới dạng đệ quy như sau

qiπ(s, a) = 1Ni

= ˆqi−1π (s, a) + 1

Ni Gt,Ni − ˆqπi−1(s, a)

(3.22)

Ngày đăng: 30/07/2024, 16:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN