Lý do thực hiện đề tài
Luận văn nhận thấy rằng Massive MIMO và trí tuệ nhân tạo là hai công nghệ cốt lõi cho các thế hệ di động tương lai, đặc biệt là trong việc giải quyết các bài toán 5G Nhiều nghiên cứu hiện nay kết hợp trí tuệ nhân tạo, đặc biệt là các mô hình học sâu, để vượt qua những hạn chế của mạng Massive MIMO khi độ phức tạp gia tăng Một trong những nghiên cứu tiêu biểu là công trình [16], nơi áp dụng học có giám sát để tối ưu hóa phân bổ công suất, tuy nhiên, phương pháp này vẫn phụ thuộc vào giải thuật tối ưu, dẫn đến việc tiêu tốn thời gian trong việc tạo tập huấn luyện Nhận thấy sự khác biệt giữa học có giám sát và học tăng cường, luận văn quyết định phát triển một mô hình học sâu dựa trên học tăng cường để giải quyết bài toán phân bổ công suất Từ đó, luận văn sẽ được thực hiện với tiêu đề "PHÂN BỔ CÔNG SUẤT TỐI ƯU CHO MẠNG MASSIVE MIMO ỨNG DỤNG HỌC SÂU TĂNG CƯỜNG".
Mục tiêu và nhiệm vụ của luận văn
Dựa vào định hướng được đề cập ở mục 1.2, mục tiêu và nhiệm vụ luận văn cần hoàn thành bao gồm những điều sau:
Nghiên cứu cơ sở lý thuyết nhằm xây dựng mạng Massive MIMO giả lập gần gũi với thực tế, tạo môi trường huấn luyện và đánh giá cho các thuật toán tối ưu hóa hiệu suất sử dụng học sâu tăng cường.
Nghiên cứu lý thuyết và lựa chọn thuật toán học sâu tăng cường là rất quan trọng để tối ưu hóa hiệu suất phổ cho mạng Massive MIMO Điều này tương đương với việc tìm ra chiến lược phân bổ công suất tối ưu cho mạng, nhằm nâng cao hiệu quả hoạt động và khả năng truyền tải dữ liệu.
Bài viết này sẽ mô phỏng và đánh giá kết quả, cũng như phân tích ưu điểm và nhược điểm của phương pháp được đề xuất trong luận văn so với các phương pháp quy hoạch hiện có Đồng thời, chúng tôi cũng sẽ đề xuất một số hướng phát triển tiếp theo cho giải pháp này nhằm nâng cao hiệu quả và ứng dụng trong thực tiễn.
Phương pháp nghiên cứu
Luận văn sử dụng phương pháp nghiên cứu khảo sát, tổng hợp, phân tích và đánh giá các công trình nghiên cứu trước đây để áp dụng và kết hợp những thành tựu đột phá của trí tuệ nhân tạo vào giải quyết các vấn đề tồn tại của mạng Massive MIMO trong viễn thông Do hạn chế về thời gian và chi phí, việc khảo sát thực tế không khả thi, vì vậy nghiên cứu sẽ được thực hiện qua mô phỏng trên máy tính Các bước trong phương pháp nghiên cứu bao gồm:
Khảo sát tài liệu về mạng Massive MIMO và học tăng cường từ các cơ sở dữ liệu trực tuyến uy tín như IEEEXplore, arXiv, Wiley, cùng với công cụ tìm kiếm học thuật Google Scholar.
Nội dung bài viết tập trung vào việc nghiên cứu và tổng hợp các đề tài trước đó để xác định mối liên hệ giữa lĩnh vực viễn thông và trí tuệ nhân tạo Cụ thể, bài viết đề cập đến việc tối ưu hóa hiệu suất phổ và áp dụng các phương pháp giải quyết bài toán thông qua mô hình học sâu tăng cường.
Phân tích và đánh giá các giải thuật học tăng cường nhằm tối ưu hóa hiệu suất phổ là bước quan trọng trong việc lựa chọn giải thuật phù hợp nhất Dựa vào kết quả từ bước 2, chúng ta có thể xác định giải thuật nào có khả năng đạt được mục tiêu của luận văn Việc áp dụng các giải thuật này sẽ giúp nâng cao hiệu quả trong việc giải quyết bài toán tối ưu hóa.
Tiến hành lập trình mô hình mô phỏng và huấn luyện để thu thập kết quả trên mạng mô phỏng, từ đó phân tích và so sánh những ưu điểm và nhược điểm của học tăng cường với các phương pháp quy hoạch tối ưu.
Báo cáo này trình bày quy trình và kết quả nghiên cứu, đồng thời đưa ra những nhận xét và kết luận quan trọng Ngoài ra, bài viết cũng đề xuất một số phương hướng phát triển tiếp theo dựa trên phương pháp được nêu trong luận văn.
Bố cục của luận văn
Luận văn sẽ được cấu trúc thành từng chương để đảm bảo tính mạch lạc và logic, giúp người đọc dễ dàng tiếp cận các vấn đề được trình bày Cụ thể, nội dung chính của luận văn sẽ bao gồm các chương như sau:
Chương 1 của luận văn sẽ giới thiệu cách thức đặt vấn đề nghiên cứu, lý do chọn đề tài, phạm vi và đối tượng nghiên cứu, cũng như nhiệm vụ, mục tiêu và phương pháp nghiên cứu được áp dụng.
Chương 2 sẽ trình bày cơ sở lý thuyết về mạng Massive MIMO, bao gồm định nghĩa và tính chất kênh truyền Bài viết sẽ đề cập đến các phương pháp ước lượng kênh truyền và mô hình toán học của hiệu suất phổ tuyến lên và tuyến xuống Dựa trên những kiến thức này, luận văn sẽ giới thiệu mô hình toán học cho bài toán tối ưu hiệu suất phổ trong kênh truyền tuyến xuống của mạng Massive MIMO, đồng thời liên hệ với bài toán phân bổ công suất tối ưu ở cuối chương.
Chương 3 sẽ cung cấp cơ sở lý thuyết về học tăng cường và học sâu tăng cường, giúp người đọc phân biệt hai khái niệm này Ngoài ra, chương cũng trình bày các giải thuật nền tảng của lĩnh vực, đồng thời đánh giá ưu nhược điểm của các giải thuật được đề cập Mục tiêu cuối cùng là tìm ra giải thuật phù hợp nhất để giải quyết bài toán phân bổ công suất tối ưu cho mạng Massive MIMO ứng dụng học sâu tăng cường.
Chương 4 sẽ giới thiệu phương pháp mô phỏng mạng Massive MIMO, tạo ra môi trường huấn luyện và đánh giá cho giải thuật học sâu tăng cường được lựa chọn trong Chương 3 Tiếp theo, chương này sẽ trình bày cách ứng dụng giải thuật học sâu tăng cường và đánh giá kết quả đạt được trong luận văn.
• Chương 5 sẽ đưa ra kết luận cho những kết quả nghiên cứu của luận văn và đề xuất một số ý tưởng để tiếp tục phát triển đề tài.
Trong bài viết này, các đại lượng vô hướng sẽ được biểu diễn bằng chữ in nghiêng như k, l, m, n, Kích thước của tập hợp hay ngưỡng của một đại lượng vật lý sẽ được phân biệt bằng chữ in nghiêng viết hoa như K, L, M, N, Các vector sẽ được thể hiện bằng chữ thường in đậm như x, y, h, , trong khi đó, các ma trận hoặc tensor sẽ được biểu diễn bằng chữ in đậm viết hoa như X, Y, H,
CƠ SỞ LÝ THUYẾT VỀ MẠNG
Chương này sẽ trình bày tổng quan về lý thuyết mạng Massive MIMO và hiện tượng fading, cùng với tác động của nó đối với các hệ thống truyền thông vô tuyến Đặc biệt, sẽ làm rõ lý do mạng Massive MIMO chủ yếu áp dụng giao thức TDD và phương pháp điều chế đa sóng mang để giảm thiểu ảnh hưởng của fading Tiếp theo, luận văn sẽ giới thiệu mô hình toán học của kênh truyền trong mạng Massive MIMO và mô hình tín hiệu thu phát tại bất kỳ trạm phát sóng (BS) nào trong mạng Cuối cùng, hiệu suất phổ sẽ được định nghĩa và giải thích dựa trên lý thuyết thông tin và dung lượng kênh truyền.
Định nghĩa mạng Massive MIMO
Mạng Massive MIMO là một hệ thống viễn thông bao gồm L cell, sử dụng giao thức song công phân chia thời gian (TDD) để truyền tín hiệu lên và xuống trong các khe thời gian liên tiếp trên cùng một dải tần số Mỗi cell được trang bị một trạm phát sóng (BS) với M ≫ 1 ăng-ten, cho phép giao tiếp đồng thời với nhiều người dùng.
Trong mạng K UE, mỗi UE chỉ được trang bị một anten để thu phát tín hiệu Các BS hoạt động độc lập mà không gây ảnh hưởng lẫn nhau nhờ áp dụng các kỹ thuật như kết hợp thu tuyến tính để xử lý tín hiệu thu được.
UE và kỹ thuật tiền mã hoá tuyến tính (linear precoding) để định hướng phát tín hiệu đến UE mong muốn trong không gian.
Việc tích hợp nhiều anten trên một trạm phát sóng (BS) với M ≫ K là giải pháp hiệu quả cho việc ứng dụng giao thức SDMA, nhằm xử lý can nhiễu giữa các thiết bị người dùng (UE) trong cùng một ô Điều này dựa trên hai đặc tính quan trọng: cứng kênh (channel hardening) và kênh truyền thuận lợi (favorable propagation) Cứng kênh giúp cải thiện độ lợi của kênh truyền bằng cách giảm thiểu sự biến động ngẫu nhiên, từ đó nâng cao hiệu suất truyền dẫn.
Hình 2.1: Ví dụ về mạng Massive MIMO. theo thời gian tiệm cận với giá trị kỳ vọng của nó, tức là
Vector vớih ∈C M chứa giá trị đáp ứng kênh truyền tức thời từ M antena trên một BS đến một UE bất kỳ Kênh truyền thuận lợi được quan sát khi hướng của vector kênh truyền hlk giữa BS thứ l và UE thứ k gần như trực giao với hướng của vector kênh truyền h lj giữa BS thứ l và UE thứ i (i̸=k).
Theo tài liệu [8], sự tiệm cận ở (2.1) và (2.2) gần như chắc chắn xảy ra với điều kiện
Mạng Massive MIMO không chỉ phải đối mặt với can nhiễu giữa các UE mà còn cần giảm thiểu ảnh hưởng của can nhiễu liên ký tự do tốc độ truyền tải thông tin nhanh hơn trải trễ của kênh truyền T M Để giải quyết vấn đề này, kênh truyền có băng thông lớn được chia thành nhiều kênh truyền có băng thông nhỏ hơn, cho phép truyền nhận thông tin đồng thời mà không làm giảm đáng kể lượng thông tin truyền tải trong một đơn vị thời gian Phương pháp này giúp hạn chế phần lớn ảnh hưởng của can nhiễu liên ký tự trong từng kênh truyền con Băng thông của các kênh truyền con thường được xác định dựa trên băng thông ổn định B C của kênh truyền, đảm bảo tổng băng con tương ứng với B C, từ đó giảm thiểu can nhiễu liên ký tự nhờ vào mối quan hệ tuyến tính giữa băng thông ổn định BC và nghịch đảo của trải trễ của kênh truyền.
M [1] đã giúp giảm đáng kể số lần thực hiện ước lượng kênh truyền, nhờ vào việc đáp ứng của kênh truyền gần như hằng số trong B C Điều này cho phép ước lượng thông tin trạng thái kênh (CSI) một cách hiệu quả hơn.
1 băng con có thể được tái sử dụng cho tất cả các băng con còn lại cùng tổng hợp thành
Kênh truyền trong mạng Massive MIMO
Mạng Massive MIMO sử dụng M antenna trên một BS, tạo ra M kênh truyền giữa một cặp BS-UE Nhờ vào các phương pháp điều chế đa sóng mang như OFDM và FBMC, các kênh truyền gần như hằng số và chịu ảnh hưởng của hiện tượng fading phẳng, cho phép xấp xỉ đáp ứng kênh truyền h(t, τ) thành h(t) Kênh truyền giữa một cặp BS-UE được biểu diễn dưới dạng vector M phần tử, với h j lk ∈ C M là đáp ứng kênh truyền giữa BS trong cell thứ j và UE thứ k trong cell thứ l Đáp ứng kênh truyền trong một khối ổn định không thay đổi, do đó h j lk được sử dụng để biểu diễn kênh truyền tuyến lên và h j lk H cho kênh truyền tuyến xuống Việc quy ước này không ảnh hưởng đến các biểu thức đánh giá hiệu năng của mạng Massive MIMO, nhưng giúp đơn giản hóa các phép toán Kênh truyền fading h j lk ∈ C M có thể được đặc trưng qua độ lớn và hướng, cả hai đều là đại lượng ngẫu nhiên và có mối quan hệ tương quan trong thực tế.
Các biến ngẫu nhiên h j lk phụ thuộc vào nhau được gọi là kênh truyền tương quan trong miền không gian Một mô hình nổi bật của kênh truyền fading tương quan trong miền không gian là mô hình fading Rayleigh, trong đó đáp ứng kênh truyền tuân theo phân bố Gauss đa biến chuẩn, ký hiệu là h j lk ∼NC(0,R j lk ) Ma trận R j lk ∈ C M×M thỏa mãn điều kiện R j lk ≽ 0, đại diện cho ma trận tương quan trong không gian và cũng là ma trận hiệp phương sai của vector đáp ứng kênh truyền h j lk.
Khi kênh truyền có phân bố Gauss đa biến chuẩn, biên độ ||h j lk || của nó tuân theo phân bố Rayleigh, dẫn đến việc gọi đây là kênh truyền fading tương quan Rayleigh Các biến ngẫu nhiên trong h j lk tại mỗi khối ổn định phản ánh sự thay đổi vi mô của kênh truyền do fading Ngược lại, ma trận tương quan trong không gian R j lk thể hiện các đặc tính lan truyền vĩ mô như độ lợi của anten và đặc tính bức xạ điện từ tại bộ phát và bộ thu Đường chéo chính chuẩn hóa của ma trận này có dạng β lk j = 1.
Thông số (2.4) được sử dụng để xác định độ lợi kênh truyền trung bình từ BS thứ j đến UE thứ k trong nhân tử thứ l Hệ số β lk j, hay còn gọi là hệ số fading vĩ mô của kênh truyền, được xác định dựa trên độ lợi trung vị của kênh truyền tham chiếu với khoảng cách thu phát 1 km, khoảng cách thu phát thực tế d j lk, và suy hao đường truyền được tính bằng công thức α β lk j (dB) = Υ−10αlog 10 d j lk.
Trong mô hình kênh truyền, các thông số như Υ, d j lk và α có thể xác định được, trong khi F lk j là đại lượng ngẫu nhiên duy nhất đại diện cho hiện tượng fading che khuất (shadow fading) F lk j có phân bố Gauss chuẩn, F lk j ∼N(0, σ 2 sf), với phương sai σ 2 sf phản ánh độ lớn của biến thiên ngẫu nhiên này Đáng chú ý, β lk j chỉ là đường chéo chính của ma trận tương quan không gian R j lk giữa BS trong cell thứ j và UE thứ k trong cell thứ l.
Với đáp ứng kênh truyền (2.3), tín hiệu BS thứ j thu được tại mỗi khe thời gian khi truyền tuyến lên sẽ có dạng y j L
, (2.6) trong đó, nj ∼NC(0M, σ 2 U L IM)là nhiễu AWG có phương sai thành phần là σ U L 2
Khi truyền tín hiệu từ trạm gốc (BS), việc sử dụng ăng-ten M cho phép định hướng tín hiệu một cách hiệu quả trong không gian Điều này giúp BS có khả năng phát tín hiệu đến đồng thời K thiết bị người dùng (UE) trong khu vực phủ sóng Tín hiệu ζ jk được mô tả bằng phân phối chuẩn với trung bình 0 và phương sai ρ jk, là tín hiệu mà BS thứ j cần gửi đến.
UE thứ k, với ρ jk là công suất của tín hiệu Khi đó, tín hiệu được BS thứ j mã hoá và phát đi có dạng x j K
Trong (2.7), w jk ∈ C M được gọi là vector tiền mã hoá với ràng buộc E
Kỹ thuật tiền mã hoá (2.7) được gọi là kỹ thuật Beamforming Tín hiệu phát từ trạm phát BS thứ j là x j, kết hợp với L−1 tín hiệu từ các trạm phát khác trong mạng Massive MIMO, giúp UE thứ k trong cell thứ j nhận được tín hiệu y jk.
Tương tự như khi truyền tuyến lên, n jk ∼ NC(0, σ 2 DL ) là nhiễu trắng tác động lên kênh truyền từ BS thứ j đến UE thứ k đang xét.
Hiệu suất phổ
Hiệu suất phổ (Spectral Efficiency) là một trong những chỉ số quan trọng để đánh giá chất lượng trao đổi tín hiệu trong mạng viễn thông Theo tài liệu [8], hiệu suất phổ được định nghĩa là số bit trung bình đại diện cho thông tin trong một mẫu dữ liệu phức có thể truyền đạt mà không gặp lỗi qua kênh truyền Phần này sẽ trình bày biểu thức cơ bản của hiệu suất phổ dựa trên lý thuyết thông tin, tạo nền tảng cho việc tính toán thông số này trong mạng Massive MIMO ở các chương sau.
Trong lý thuyết thông tin, ngõ ra của hệ thống thông tin thường là chuỗi bit, với mỗi bit có thể nhận giá trị 0 hoặc 1 Mỗi bit thu được giúp giảm mức độ không chắc chắn về thông tin cần truyền tải Đối với chuỗi dữ liệu n bit, nếu xác suất mỗi bit là 0.5, mức độ không chắc chắn giảm đi 2^n Tuy nhiên, xác suất nhận giá trị của từng bit không phải lúc nào cũng bằng nhau và thường chỉ biết hàm mật độ phân bố xác suất f(y) cho trường hợp liên tục hoặc hàm khối xác suất P(Y = y) cho trường hợp rời rạc Cả hai hàm này đều giúp xác định độ giảm mức độ không chắc chắn khi thu được giá trị tức thời của y Từ mối quan hệ giữa độ dài bit n, xác suất của mỗi bit và độ giảm không chắc chắn, ta có thể suy ra độ dài chuỗi bit cần thiết để biểu diễn tín hiệu y trong trường hợp liên tục là n = -log2(f(y)) Số bit trung bình cần dùng để biểu diễn tín hiệu y trong không gian mẫu Y được xác định từ công thức này.
Số bit trung bình được đề cập trong (2.10) thể hiện lượng thông tin trung bình của tín hiệu y, phản ánh mức độ không chắc chắn của bộ thu đối với y Khái niệm này được gọi là Entropy của y.
Y f(y) log 2 (f(y))dy (2.11) Tương tự, entropy của tín hiệu y khi biết x có dạng
Có thể dễ dàng tính đượcH(y) = log 2 (eπq)vớiy∼NC(0, q)vàH(z)≤log 2 (eπq)∀z ∈
Trong mô hình kênh truyền rời rạc, tại mỗi thời điểm chỉ có một ký tự x ∈ C được truyền đi, và bộ thu chỉ nhận được một ký tự y ∈ C Mối quan hệ giữa y, x và các yếu tố nhiễu được mô tả bởi phương trình y = hx + v + n, trong đó n ∼ NC(0, σ²) là nhiễu độc lập với x, h ∈ C là giá trị đáp ứng kênh truyền tức thời, và v ∈ C là can nhiễu ngẫu nhiên phụ thuộc vào biến ngẫu nhiên U Điều kiện trung bình của can nhiễu v là E[v|H=h,U=u] = 0, và phương sai có điều kiện p v (H = h,U = u) = E[|v|²|h, u] ∈ R không tương quan với tín hiệu x.
E[x ∗ v|h, u] = E[xv ∗ |h, u] = 0 Theo [17], dung lượng của mô hình kênh truyền được mô tả ở (2.13) là độ chênh lệch tối đa giữa lượng thông tin của mẫu tín hiệu x, tức là H(x), so với lượng thông tin trung bình của mẫu tín hiệu này khi biết được giá trị tức thời của mẫu tín hiệu thu y và các biến ngẫu nhiên H, U.
Hình 2.2: Kênh truyền rời rạc.
Phân bố Gauss có thể không phải là phân bố xác suất tối ưu cho kênh truyền cụ thể, và ngõ vào x∼N(0, p x) sẽ xác định giới hạn dưới của dung lượng kênh truyền.
Giả sử x được ước lượng bằng bộ ước lượng trung bình bình phương tối thiểu tuyến tính của lỗi thông qua y, với ràng buộc về giá trị tức thời của kênh truyền H=h và ảnh hưởng của can nhiễu U=u Kết quả ước lượng được biểu diễn dưới dạng ˆ x= E[xy ∗ |h, u].
E[xy ∗ |h, u] =E[xx ∗ h ∗ |h, u] +E[xv ∗ |h, u] +E[xn ∗ |h, u] =E[p x h ∗ |h, u] =p x h ∗ , (2.17) do nhiễun độc lập so vớix và can nhiễu v không tương quan có điều kiện với x Tương tự,
+p v (h, u) +σ 2 (2.18) Phương sai hay trung bình bình phương sai số của phép ước lượng là σ x−ˆ 2 x =E
Hằng số Vìxˆ thể hiện rằng mức độ không chắc chắn của kênh truyền về x và x−xˆ là tương đương khi nhận được tín hiệu y Nếu thông tin về tín hiệu y bị loại bỏ, độ không chắc chắn của kênh truyền về x−xˆ sẽ không giảm.
Từ (2.15) và (2.20) cùng với các điều kiện về Entropy đối với phân bố Gauss, ta có
Tài liệu [8] chỉ ra rằng hiệu suất tối đa của kênh truyền rời rạc, như thể hiện trong Hình 2.2, có thể đạt được dung lượng kênh truyền theo phương trình (2.21) trong mô hình kênh truyền được mô tả bởi phương trình (2.13).
Lý thuyết học tăng cường
Mô hình học tăng cường bao gồm một hoặc nhiều tác nhân tương tác với môi trường theo thời gian, nhằm đưa môi trường về một trạng thái nhất định Tại mỗi thời điểm t, tác nhân phải xác định hành động A_t từ tập hợp các hành động khả thi A, và thực hiện hành động đó Tập các hành động khả thi A tại mỗi thời điểm t có thể khác nhau, phụ thuộc vào trạng thái hiện tại của môi trường.
Trong học tăng cường, trạng thái của môi trường được định nghĩa là S t ∈ S, trong đó S là tập hợp tất cả các trạng thái có thể Khi áp dụng vào mô hình Viễn Thông, trạng thái có thể bao gồm cấu trúc mạng, vị trí hoặc công suất phát giữa các trạm phát sóng (BS) và các thiết bị người dùng (UE) Tác nhân, thường là BS hoặc UE, có khả năng điều chỉnh các thông số như công suất, tốc độ di chuyển và hướng di chuyển để cải thiện tốc độ, độ bảo mật hoặc các đặc tính khác Sau khi thực hiện hành động A t, môi trường chuyển sang trạng thái tiếp theo S t+1 ∈ S và cung cấp cho tác nhân một giá trị R t+1, được gọi là điểm thưởng, để đánh giá chất lượng hành động đó Quá trình tương tác giữa tác nhân và môi trường tạo thành một vòng lặp theo thời gian, có thể là hữu hạn hoặc vô hạn tùy thuộc vào bài toán cụ thể.
Hình 3.1: Mô hình học tăng cường tổng quát.
Trong lĩnh vực học tăng cường, mục tiêu của tác nhân là tối đa hóa số điểm thưởng R t mà nó tích lũy được sau khi thực hiện hành động A t ∈ A(S t) lên môi trường qua từng bước thời gian t Điều này có nghĩa là chuỗi điểm thưởng mà tác nhân nhận được sau thời điểm t, bao gồm R t+1, R t+2, R t+3, và tiếp tục như vậy, sẽ quyết định giá trị tổng thể của quá trình tương tác.
Hàm mục tiêu của tác nhân có thể được mô tả bằng công thức G t = R t+1 + R t+2 + R t+3 + (3.1), trong đó tác nhân và môi trường tương tác trong một khoảng thời gian hữu hạn, gọi là một episode với T bước thời gian Tuy nhiên, trong trường hợp thời gian tương tác là vô hạn (T = ∞), ta có thể thấy giới hạn của hàm này.
Khi T tiến tới vô cùng, Gt cũng tiến tới vô cùng và hàm mục tiêu (3.1) không còn chính xác Do đó, để tổng quát cho cả hai trường hợp, hàm mục tiêu cần tối ưu của tác nhân phải phản ánh sự suy hao.
Giá trị trả về G_t được định nghĩa bởi công thức X k=0 γ k R t+k+1, với 0 < γ ≤ 1 là tỷ lệ suy hao nhằm giảm thiểu ảnh hưởng của điểm thưởng mà tác nhân nhận được trong tương lai sau khi thực hiện hành động A_t tại thời điểm t hiện tại Do đó, G_t vẫn có giá trị hữu hạn ngay cả khi T = ∞ G_t có tính chất hồi quy ngược, cho thấy mối quan hệ giữa các điểm thưởng trong quá khứ và tương lai.
Tại mỗi thời điểm, tác nhân cần xác định hành động A t ∈ A(S t ) và thực thi hành động đó để chuyển môi trường sang trạng thái tiếp theo Để xác định hành động phù hợp, tác nhân dựa vào chiến lược π, là ánh xạ giữa trạng thái môi trường và các hành động có thể thực thi tại trạng thái đó, được biểu diễn bởi π t : S t → A t ∀ S t ∈ S, A t ∈ A(S t ).
Tùy thuộc vào đặc trưng thống kê của S t ∈ S và A t ∈ A(S t ), chiến lược π có thể được phân loại thành hai loại: chiến lược xác định và chiến lược ngẫu nhiên.
A t là các giá trị xác định, π(S) là chính xách xác định sao cho
Ngược lại, nếuS t và A t là các biến ngẫu nhiên rời rạc thì π(a|s)là hàm khối xác suất có điều kiện để A t =a khiS t =s π(a|s) =P r(A t =a|S t =s) (3.6)
Chiến lược π(a|s) cũng có thể là hàm mật độ xác suất có điều kiện nếu St và At là các biến ngẫu nhiên liên tục
Để đánh giá độ "tốt" của một chiến lược, người ta thường sử dụng hàm giá trị trạng thái π hoặc hàm giá trị hành động q π Hàm giá trị trạng thái cho biết mức độ hiệu quả của hành động của tác nhân dựa trên chiến lược π khi môi trường ở trạng thái S t =s, thông qua kỳ vọng của giá trị trả về được xác định theo công thức (3.3) Điều này được thực hiện dưới điều kiện tác nhân luôn tuân theo chiến lược π kể từ thời điểm t, với v π (S t =s) =Eπ[G t |S t =s] =Eπ.
Hàm giá trị hành động được định nghĩa tương tự như hàm giá trị trạng thái, nhưng khác biệt ở chỗ hành động của tác nhân tại trạng thái St = s không được xác định theo chiến lược π mà là một hành động At = a cụ thể Công thức của hàm giá trị hành động là qπ(St = s, At = a) = E π [Gt|St = s, At = a].
Dựa vào hàm giá trị trạng thái \( v_\pi(s) \) và hàm giá trị hành động \( q_\pi(s, a) \), chúng ta có thể so sánh hai chiến lược bất kỳ \( \pi \) và \( \pi' \) Chiến lược \( \pi \) được coi là ưu việt hơn nếu \( v_\pi(S_t = s) \geq v_{\pi'}(S_t = s) \) cho mọi trạng thái \( s \in S \), hoặc \( q_\pi(S_t = s, A_t = a) \geq q_{\pi'}(S_t = s, A_t = a) \) cho mọi trạng thái \( s \in S \) và hành động \( a \in A(S_t = s) \).
Trong bài toán học tăng cường, luôn tồn tại ít nhất một chiến lược tối ưu π ∗, tốt hơn hoặc ngang bằng với tất cả các chiến lược khác Mặc dù có thể có nhiều chiến lược tối ưu, nhưng tất cả đều có cùng giá trị trạng thái v π ∗ (s) = max π v π (s) cho mọi trạng thái s∈S hoặc cùng giá trị hành động q π ∗ (s, a) = max π q π (s, a) cho mọi trạng thái s∈S và hành động a∈A(s).
Ngoài ra, các chiến lược tối ưu còn có tính chất đặc biệt về hàm giá trị hành động và hàm giá trị trạng thái như sau v π ∗ (s) = max a∈ A (s)q π ∗ (s, a) (3.14)
Giá trị trả về G t có tính hồi quy, và điều này cũng áp dụng cho hàm giá trị trạng thái cũng như hàm giá trị hành động Cụ thể, hàm giá trị hành động được xác định bởi q π (S t =s, A t =a) =Eπ[G t |S t =s, A t =a].
Trong đoạn (3.15), đẳng thức ở hàng thứ 3 được suy ra từ định luật kỳ vọng toàn thể E[X] và E[E[X|Y]], với X và Y là các biến ngẫu nhiên có cùng không gian mẫu Kết hợp tính hồi quy của hàm giá trị hành động và mối liên hệ giữa hàm giá trị hành động với hàm giá trị trạng thái tối ưu ở (3.14), ta có công thức q π ∗ (s, a) = Eπ ∗ [R t+1 |S t =s, A t =a] + γEπ ∗ max a ′ ∈ A (S t+1 )q π ∗ (S t+1 , a ′ )|S t =s, A t =a.
Phương trình Bellman tối ưu (3.16) là công cụ quan trọng trong lý thuyết học tăng cường, giúp xác định giá trị của các chiến lược thông qua các giải thuật đánh giá chiến lược (Policy Evaluation) và kiểm soát chiến lược (Policy Control) Để tìm ra chiến lược tối ưu π ∗, cần phối hợp giữa hai nhóm giải thuật này, với (3.16) làm điều kiện dừng Nguyên lý cơ bản của các giải thuật này dựa vào tính hồi quy của hàm giá trị trả về (3.3) hoặc các hàm giá trị trạng thái như (3.15) Cụ thể, qˆ k π (s, a) là bộ ước lượng cho qπ(s, a) ở lần ước lượng thứ k, và theo (3.15), ta có biểu thức xác định vòng lặp ˆ q k+1 π (St=s, At=a)←E π.
Học sâu tăng cường
Đối với bài toán có không gian hành động ở mỗi trạng thái A(s)∀s thoả điều kiện
Khi số lượng trạng thái s ∈ S tăng vô hạn, hành động a ∈ A(s) và trạng thái s ∈ S trở thành các biến liên tục, với chiến lược π(a|s) có thể được đặc trưng bởi các công thức đã đề cập Việc xác định bộ trọng số ϕ là rất quan trọng để mô phỏng chiến lược của tác nhân và tìm ra chiến lược tối ưu thông qua các thuật toán tương tự như thuật toán 2 Thuật toán Gradient-Descent là phương pháp phổ biến nhất trong việc ước lượng hàm số dựa vào bộ trọng số ϕ, đặc biệt trong lĩnh vực máy học Thuật toán này sử dụng một hàm mục tiêu J(ϕ) để cập nhật ϕ theo thời gian nhằm tối ưu hóa giá trị của hàm mục tiêu Theo nguyên lý vật lý của trường vector, giá trị của hàm J(ϕ) sẽ tăng nếu di chuyển theo hướng gradient ∇J(ϕ) và giảm nếu ngược lại Do đó, ϕ được khởi tạo ngẫu nhiên và cập nhật theo công thức ϕ_t = ϕ_{t-1} - α∇J(ϕ), với α là tốc độ học, giúp hàm mục tiêu hội tụ về giá trị cực tiểu khi t tiến tới vô hạn Ứng dụng trong bài toán học tăng cường, hàm mục tiêu cần được tối thiểu hóa sẽ là hàm
Bộ trọng số ϕ được xác định qua thuật toán Gradient-Descent sẽ là ước lượng cho chiến lược tối ưu π ∗ (a|s) theo công thức (3.10) Bài toán Gradient-Descent trong (3.28) tương đương với bài toán Gradient-Ascent, với hàm mục tiêu cụ thể.
Dựa vào định nghĩa của hàm giá trị trạng thái và hàm giá trị hành động, khi a là biến ngẫu nhiên liên tục, ta có thể suy ra mối quan hệ giữa hàm giá trị trạng thái và hàm giá trị hành động Cụ thể, công thức v π ϕ (s) = ∫ a∈ A (s) π ϕ (a|s)q π ϕ (s, a)da thể hiện rõ mối liên hệ này.
Hàm mật độ xác suất chuyển trạng thái được định nghĩa là p(S t = s ′ |S t = s, A t = a), thể hiện xác suất của biến cố S t+1 = s ′ khi biết trạng thái hiện tại S t = s và hành động A t = a.
da.(3.32)Như vậy, nếu tiếp tục khai triển ∇ ϕ v π ϕ (s ′ ), ∇ ϕ v π ϕ (s ′′ ), , ta sẽ thu được gradient của hàm giá trị trạng thái có dạng
Hàm mật độ xác suất ρ π ϕ (s ′ ) mô tả trạng thái môi trường suy hao với giá trị γ Tại bước thời gian đầu tiên của một episode, hàm phân bố xác suất của biến cố S 0 = s được biểu diễn bằng p 0 (s) Sự chuyển dịch từ trạng thái S 0 = s sang trạng thái S k = s ′ sau k bước thời gian, do tác nhân tương tác theo chiến lược π, được xác định bởi hàm p(s→s ′ , k, π).
Định lý gradient chiến lược, được trình bày trong biểu thức gradient của hàm mục tiêu ở (3.33), chỉ ra rằng gradient của hàm giá trị trạng thái hay hàm mục tiêu để tìm chiến lược tối ưu ∇ ϕ J(ϕ) không phụ thuộc vào gradient của hàm phân bố trạng thái ∇ ϕ ρ π ϕ (s) Điều này có nghĩa là hướng cập nhật trong số ϕ chỉ thay đổi chiến lược mà không ảnh hưởng đến hàm phân bố trạng thái Tuy nhiên, để tính toán ∇ ϕ J(ϕ) theo (3.33), cần xem xét toàn bộ các hành động có thể thực hiện tại trạng thái s bất kỳ Để ∇ ϕ J(ϕ) chỉ phụ thuộc vào một hành động cụ thể mà tác nhân lựa chọn, cần thực hiện một phép biến đổi thích hợp.
Dựa vào định lý gradient chiến lược, các giải thuật học sâu tăng cường như REINFORCE và Actor-Critic đã được phát triển, trong đó Actor-Critic nổi bật nhờ vào việc đơn giản hóa tính toán hàm giá trị hành động q π ϕ (s, a) bằng cách sử dụng hai bộ ước lượng Cụ thể, giải thuật này sử dụng bộ ước lượng ϕ cho Actor, quyết định hành động của tác nhân, và bộ ước lượng θ để ước lượng chiến lược và hàm giá trị trạng thái tương ứng.
(3.26),ϕ có thể được cập nhật theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ π ϕ ,a∼π ϕ (a|s)
Bộ trọng số còn lại, được gọi là Critic, có vai trò quan trọng trong việc ước lượng hàm đánh giá chất lượng hành động mà Actor thực hiện, cụ thể là q θ (s, a)∼q π ϕ (s, a).
Việc thay thế giá trị thực củaqπ ϕ (s, a)bằng giá trị ước lượng qθ(s, a)nhìn chung sẽ làm Actor trở thành một bộ ước lượng chệch (biased estimator), tức là
Nghiên cứu của [18] đã chỉ ra rằng giải thuật Actor-Critic vẫn có thể hoạt động hiệu quả, với điều kiện Actor có thể trở thành bộ ước lượng không chệch nếu Critic là bộ ước lượng tương thích Để đạt được điều này, bộ ước lượng θ cần phải là bộ ước lượng tuyến tính, sử dụng gradient của chiến lược cần ước lượng theo công thức qθ(s, a) = [∇ϕlnπϕ(a|s)] T θ(s, a).
Hai là, q θ (s, a) là hàm ước lượng làm tối thiểu hóa sai số trung bình bình phương giữa chính nó và mục tiêu cần ước lượng,qπ ϕ θ = arg min θ Es∼ρ π ϕ (s),a∼π ϕ (a|s) h q θ (s, a)−q π ϕ (s, a)2i
Khi đó, gradient của hàm mục tiêu có thể được ước lượng thông qua biểu thức
∇ ϕ J(ϕ)≈Es∼ρ π ϕ (s),a∼π ϕ (a|s)[∇ ϕ lnπ ϕ (a|s)q θ (s, a)], (3.41) và bộ ước lượng Actor sẽ được cập nhật theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ π ϕ ,a∼π ϕ (a|s)[∇ ϕ lnπ ϕ (a|s)q θ (s, a)] (3.42)
Trên thực tế, điều kiện thứ 2 thường được thả lỏng nếu sử dụng các phương pháp ước lượng Critic theo giải thuật Q-learning ở giải thuật 2 hay tương tự.
Định lý gradient chiến lược đã được mở rộng và chứng minh có thể áp dụng cho chiến lược xác định à ϕ (s) = à(s,ϕ) :S→A, với điều kiện tồn tại ∇ ϕ à ϕ (s) và ∇ a q à (s, a) với a=à ϕ (s) Hệ quả là định lý gradient chiến lược sẽ có dạng xác định rõ ràng.
, (3.44) và bộ ước lượng Actor được cập nhật tuần tự theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ à ϕ (s) h∇ ϕ à ϕ (s)∇ a q à (s, a) a=à θ (s) i
Các bộ trọng số ϕ dùng để ước lượng chiến lược tối ưu và θ để ước lượng hàm giá trị hành động trong các mạng Neuron sâu tạo thành các mô hình học sâu tăng cường Tuy nhiên, việc sử dụng mạng Neuron cho Actor và Critic gặp phải vấn đề về tính độc lập và phân bố đều của trạng thái môi trường và hành động trong học tăng cường Khi sử dụng các mẫu liên tục của trạng thái và hành động, trạng thái môi trường trở thành các biến ngẫu nhiên không độc lập và phân bố không đều, dẫn đến hiện tượng overfitting Để khắc phục điều này, các mô hình máy học cần học từ một tập con dữ liệu (mini-batch) thay vì toàn bộ dữ liệu Do đó, một bộ nhớ lặp đã được sử dụng để chứa dữ liệu huấn luyện cho các vấn đề học tăng cường Các mạng Neuron trong học sâu tăng cường, đặc biệt là thuật toán Actor-Critic, thường nhận đầu vào là trạng thái môi trường và cặp trạng thái-hành động, từ tập kinh nghiệm E, với bộ nhớ lặp có dung lượng C chứa các mẫu kinh nghiệm cho đến khi bộ nhớ đầy.
Các trải nghiệm E0, E1, sẽ được thay thế bằng EC, EC +1, và quá trình này sẽ tiếp diễn Trong quá trình huấn luyện, một tập con với kích thước D sẽ được chọn ngẫu nhiên từ D trải nghiệm E trong bộ nhớ lặp, nhằm loại bỏ sự không độc lập của đầu vào Hơn nữa, do mạng θ được sử dụng làm mục tiêu tối ưu cho mạng ϕ theo công thức cập nhật (3.45), việc cập nhật θ theo phương trình Bellman tại (3.16) có thể không hội tụ.
Công trình này đã giải quyết thành công vấn đề bằng cách giới thiệu mạng Neuron mục tiêu θ ′ để ước lượng giá trị q θ ′ (s, a) Giá trị này được sử dụng làm mục tiêu để cập nhật trọng số, theo công thức θ k+1 ←θ k +β∇ θ r+γmax a ′ q θ ′ (s ′ , a ′ )−q θ k (s, a).
Sau một khoảng thời gian tùy ý, trọng số của mạng mục tiêu sẽ được cập nhật bằng cách thay thế toàn bộ trọng số bằng trọng số của mạng Neuron đang học giá trị của q(s, a) Dựa trên những kết quả đột phá từ các nghiên cứu trước, thuật toán Deep Deterministic Policy Gradient đã được phát triển và được tóm tắt trong bảng thuật toán 3.
Khởi tạo mạng Neuronϕ nhằm ước lượng chiến lược tối ưu ϕ (s) và mạng Neuron θ để ước lượng hàm giá trị hành động q à (s, a), với a = ϕ (s) được xác định ngẫu nhiên.
2: Khởi tạo mạng Neuron ϕ ′ và mạng Neuron θ ′ là các mạng mục tiêu có ngõ ra lần lược là à ′ (s) vàq ′ (s, a), sao cho tại thời điểm ban đầu, ϕ ′ ←ϕ và θ ′ ←θ
3: Khởi tạo bộ nhớ lặp R có dung lượng C
4: Khởi tạo hệ số suy hao 0< γ ≤1
5: Khởi tạo hệ số cập nhật 0< η ≤1
6: Khởi tạo bước cập nhật mạng mục tiêu τ
8: Khởi tạo một hàm nhiễu N bất kỳ để mô phỏng quá trình khám phá
14: Lưu kinh nghiệm Et= (s t+1 , r t+1 , s t , a t )vào bộ nhớ lặp R
15: if |R| ≥D với D là độ lớn của tập con dùng để huấn luyện then
16: Chọn ngẫu nhiên Dmẫu Ei ∈R∀i
18: Cập nhật Critic θ←arg minθ D 1 P i
20: Cập nhật Actor theo định lý Gradient chiến lược xác định
Mô hình mạng Massive MIMO
Ước lượng kênh truyền
Như đã đề cập ở Chương 2, kênh truyền giữa bác sĩ thứ j và người dùng thứ k trong ô thứ l được mô hình hóa bằng một vector ngẫu nhiên có phân bố Gauss đa biến chuẩn, với kỳ vọng băng thông nhất định.
Trong Chương 2, luận văn đã trình bày phương pháp xác định giá trị các phần tử trên đường chéo chính của ma trận tương quan R j lk dựa trên độ lợi trung vị Υ, suy hao đường truyền α và khoảng cách giữa BS và UEd j lk Các phần tử còn lại trong ma trận cũng được xem xét để đảm bảo tính chính xác trong phân tích.
R j lk phụ thuộc vào cách phân bố M antenna trên BS, như phân bố theo mảng cách đều, mạng lưới hoặc hình trụ Để xác định các phần tử khác của R j lk, luận văn lựa chọn phân tích theo mô hình với M antenna được phân bố theo dãy phân cách đều (ULA), trong đó khoảng cách giữa hai antenna liên tiếp là d H và thành phần đa đường thứ n có góc tới ϕ¯ n so với dãy antenna.
Gọi g_n ∈ C là đáp ứng của kênh truyền giữa thành phần đa đường thứ n và anten đầu tiên của dãy ULA Đáp ứng của toàn bộ dãy được biểu diễn bởi công thức a_n ∈ C, với a_n = g_n h.
(4.2) và đáp ứng của toàn bộ kênh truyền đối với N thành phần đa đường chồng lấp lên nhau là h j lk N
Khi N → ∞, định lý giới hạn trung tâm làm cho (4.3) tuân theo (2.3), với R j lk E hPN n a n a H n i
Xét phần tử(x, y) của R j lk
Thông số PN n E[|g n | 2 ] đại diện cho độ lợi trung bình của kênh truyền từ BS thứ j đến UE thứ k trong nhân tử thứ l, do đó có thể viết lại là PN n E[|g n | 2 ] =β lk j theo (2.4).
Ma trận R j lk phụ thuộc vào khoảng cách (x−y) thay vì từng giá trị x, y, do đó nó được xác định là một ma trận Toeplitz Trong môi trường có ít vật cản phản xạ hoặc tán xạ gần BS, các thành phần đa đường được giả định xuất phát từ cụm vật thể gần UE Giả thiết này dẫn đến ϕ¯ n =ϕ+δ, với ϕ là góc tới giữa UE và BS, và δ là độ biến thiên với độ lệch chuẩn σ δ Trong trường hợp đơn giản nhất, δ tuân theo phân phối chuẩn N(0, σ ϕ^2) với σ ϕ < 15°.
(4.5) trong đúà= 2πjσ 2 ϕ dH(x−y) cos(ϕ) và R∞
Việc xác định các phần tử trong ma trận tương quan R j lk là rất quan trọng trong mô hình Massive MIMO, đặc biệt cho việc ước lượng kênh truyền Thông tin về kênh truyền h j lk giữa UE thứ k trong cell l và BS thứ j không thể được xác định chính xác trong quá trình truyền tải dữ liệu Hệ thống Massive MIMO sử dụng giao thức TDD, cho phép tái sử dụng thông tin kênh truyền ước lượng từ quá trình truyền tuyến lên để phân tích tín hiệu khi truyền tuyến xuống Ước lượng kênh truyền được ưu tiên thực hiện ở giai đoạn truyền tuyến lên, khi dữ liệu có thể được kiểm soát tốt hơn Việc sử dụng nhiều antenna giúp kênh truyền tiệm cận với hiện tượng thuận lợi, từ đó tín hiệu ở đầu thu dễ dàng được lọc và so sánh với tín hiệu gốc Cần lưu ý rằng việc ước lượng kênh truyền cần được thực hiện lại ở các khối ổn định khác nhau.
Số mẫu tín hiệu có thể truyền trong một khối ổn định được tính bằng công thức n coh = B C T C, trong đó B C là băng thông ổn định và T C là thời gian ổn định Cụ thể, trong số mẫu tín hiệu này, τ p mẫu được sử dụng để ước lượng kênh truyền, τ u mẫu dành cho truyền tín hiệu từ UE đến BS, và τ d mẫu còn lại dùng cho truyền tín hiệu tuyến xuống.
Việc ước lượng kênh truyền chỉ cần thực hiện tại một băng con trong khối ổn định, thường là vào thời điểm bắt đầu truyền tuyến lên Thông tin ước lượng kênh truyền này sẽ được áp dụng cho các băng con khác trong cùng khối ổn định và trong chiều truyền tuyến xuống của giao thức TDD Chuỗi dữ liệu gồm τp ký tự dùng để ước lượng kênh truyền h j.k giữa UE thứ k từ cell bất kỳ đến BS thứ j được gọi là chuỗi pilot, ký hiệu là Φ jk ∈C τp.
Hình 4.3: Các loại tín hiệu trong một khối ổn định. công suất cố định, các phần tử của Φ jk cần phải thoả
Khi tín hiệu được truyền đến trạm phát (BS), biên độ của chuỗi tín hiệu Φjk được điều chỉnh theo tỷ lệ với √pjk, đặc trưng cho công suất phát của sóng mang Tín hiệu tổng hợp nhận được tại BS thứ j được biểu diễn dưới dạng ma trận Yj ∈ C M × τp, trong đó mỗi hàng của ma trận này là tín hiệu tổng hợp từ L×K UE gửi đến một anten trong mảng gồm M anten thuộc BS thứ j, và tuân theo phương trình (2.6).
Trong quá trình ước lượng kênh truyền của mạng Massive MIMO với L trạm phát (BS), tín hiệu thu được được mô tả bởi công thức √p li h j li Φ T li +N j , trong đó N j là ma trận nhiễu trắng độc lập có kích thước C M×τ p Mỗi phần tử của N j tuân theo phân bố Gauss chuẩn với phương sai σ 2 U L, tạo thành một tập hợp đa chiều của các tín hiệu.
Số hạng đầu tiên trong biểu thức Yj ở (4.8) đại diện cho chuỗi tín hiệu mà trạm gốc thứ j nhận được từ K j chuỗi tín hiệu phát ra từ K j thiết bị đầu cuối trong khu vực phủ sóng của trạm gốc đó, và có thể được diễn đạt một cách tường minh.
√pjkh j jk Φ T jk =√ pj1h j j1 Φ T j1 +ã ã ã+√ pjK jh j jK jΦ T jK j
Tín hiệu mà UE thứ k mong muốn từ BS thứ j được biểu thị bởi p jk h j jk Φ T jk, trong khi các thành phần khác trong biểu thức đại diện cho can nhiễu từ các UE khác cũng kết nối với BS thứ j Hạng mục thứ hai trong biểu thức Y j ở (4.8) phản ánh can nhiễu từ các UE trong các cell khác khi thực hiện truyền lên hoặc ước lượng kênh truyền cho các UE đó Do khoảng cách giữa các UE, can nhiễu có thể ảnh hưởng đến chất lượng tín hiệu nhận được.
Trong môi trường BS tương đối xa, các can nhiễu thường không có tác động mạnh đến tín hiệu thu mong muốn Điều này khác với các can nhiễu xảy ra trong cùng một cell, nơi mà tín hiệu PK j i=1,i̸=k có thể bị ảnh hưởng nhiều hơn.
Trong một tình huống lý tưởng, mục tiêu là cô lập tín hiệu thu mong muốn khỏi tất cả các can nhiễu Điều này có thể đạt được nếu chuỗi tín hiệu pilot dành riêng cho kênh truyền giữa UE thứ k trong cell j gửi lên BS thứ j, tức Φ jk, phải trực giao với tất cả các chuỗi pilot khác, đảm bảo rằng Φ jk Φ T li =0∀l̸=j, i̸=k.
Hiệu suất phổ của mô hình mạng Massive MIMO fading Rayleigh 44
Mô hình kênh truyền tuyến lên và tuyến xuống được đề cập trong luận văn tại các mục (2.6) và (2.8) trong Chương 2 Trong kênh truyền tuyến lên, dữ liệu ngẫu nhiên từ UE thứ k ở cell thứ j được ký hiệu là s_jk ~ NC(0, p_jk) với j = 1, , L và k = 1, , K_j Để thu nhận tín hiệu, BS thứ j cần chọn vector kết hợp v_jk ∈ C^M phù hợp nhằm lọc tín hiệu mong muốn tại đầu thu Tín hiệu sau khi được lọc tại BS có dạng v_Hjk y_j = v_Hjk ĥ_jjk s_jk +.
(4.23) với y j tuân theo (2.6) Có thể đưa (4.23) về dạng kênh truyền rời rạc như (2.13) bằng cách đặt
x=s jk u=n hˆ j li o y =v H jk y j h=v H jk hˆ j jk v =v H jk h˜ j jk s jk +PK j i=1,i̸=kv H jk h j ji s ji +PL l=1,l̸=j
PK l i=1v H jk h j li s li +v jk H n j n = 0, trong đó việc chọn n = 0 thay vì n = v jk H nj là do v H jk nj không nhất thiết có phân bố Gauss, mà phụ thuộc vào cách điều chế v jk Điều này cho phép xác định được các yếu tố ảnh hưởng đến phân bố.
Nếu E[v|h, u] = 0, thì E[x ∗ v|h, u] cũng bằng 0, từ đó đáp ứng tất cả các điều kiện cần thiết để dung lượng kênh truyền theo công thức (2.21) Bằng cách thay thế (4.25) vào (2.21), ta có thể xác định tỷ số tín hiệu trên nhiễu.
SINR U L jk = p jk |v H jk ˆ h j jk | 2
, (4.26) hiệu suất phổ tuyến lên của kênh truyền giữa BS thứj và UE thứ k cùng trong cellj của mạng Massive MIMO có dạng
SE U L jk = τ u n coh E{ h ˆ j li} log 2 1 +SINR U L jk
Trong công thức tỷ số tín hiệu trên nhiễu (4.26), vjk là yếu tố duy nhất mà BS thứ j có khả năng kiểm soát và điều chỉnh nhằm tối đa hóa SINR U L jk, từ đó nâng cao SE U L jk Điều này cho thấy rằng việc tối đa hóa vjk là điều cần thiết.
SINR U L jk = |v H jk a jk | 2 v H jk B jk v jk = |v jk H A jk A −1 jk H a jk | 2 v H jk A H jk A jk v jk = |¯v H jk A −1 jk H a jk | 2
∥¯v∥ 2 (4.29) Theo bất đẳng thức Cauchy-Schwarz, ta có
|¯v H jk A −1 jk H a jk | 2 ≤ ∥¯v H jk ∥ 2 ∥ A −1 jk H a jk ∥ 2 , (4.30) và tìm ra được v jk =√ p jk a jk a H jk −1 a jk
Mạng Massive MIMO có khả năng tối đa hóa hiệu suất phổ trong đường truyền tuyến lên khi áp dụng vector kết hợp v jk được xác định theo công thức (4.31).
Tín hiệu UE thứ k trong cell thứ j, nhận từ các BS qua kênh truyền tuyến xuống, có thể được biểu diễn lại theo dạng (2.13) bằng cách áp dụng định nghĩa trong (2.8).
x=ζjk, n=n jk , y=y jk , h=E h h j jk H w jk i , v PL l=1
Sử dụng các bước phân tích như kênh truyền tuyến lên, hiệu suất phổ của kênh truyền tuyến xuống được xác định bởi
SE DL jk = τ d n coh log 2 1 +SINR DL jk
Tỷ số tín hiệu trên nhiễu tuyến xuống không chỉ phụ thuộc vào vector tiền mã hoá wjk của kênh truyền (j, k) mà còn vào vector tiền mã hoá của các kênh truyền can nhiễu khác Điều này khiến việc thiết kế tập vector tiền mã hoá {wli} trở nên quan trọng để nâng cao hiệu suất phổ tuyến xuống Phương pháp thiết kế {wli} thường dựa vào vector kết hợp đã được xác định ở kênh truyền tuyến lên, với wjk = vjk.
Biểu thức (4.34) được suy ra từ tính chất đối ngẫu giữa kênh truyền tuyến lên và tuyến xuống, như đã trình bày ở [8] Phương pháp này cho phép tái sử dụng các đặc trưng không gian để điều chế vector kết hợp v jk ở kênh truyền tuyến lên, vì đáp ứng kênh truyền tuyến xuống gần như không thay đổi trong một khối ổn định Mục đích của việc điều chế v jk theo (4.31) là giúp BS j thu tín hiệu từ UE k từ một hướng nhất định trong không gian, đồng thời cân bằng giữa cường độ tín hiệu và can nhiễu Khi BS j phát tín hiệu đến UE k, w jk ở (4.34) đảm bảo tín hiệu lan truyền theo hướng thu trước đó Dựa vào các biểu thức (4.5), (4.20), (4.22), có thể thấy v jk là một vector xác định.
=∥vjk∥ 2 , (4.35) và vì vậy w jk = v jk
Xây dựng bài toán tối ưu hiệu suất phổ
Các biểu thức hiệu suất phổ tuyến lên và tuyến xuống trong mạng Massive MIMO thể hiện hiệu suất kênh truyền giữa BS và UE Mạng này có L cell và K UE trong mỗi cell, dẫn đến L×K thông số SE để đánh giá kênh truyền Để đánh giá chất lượng toàn mạng, cần định nghĩa hàm số U với đầu vào là hiệu suất phổ của từng kênh và đầu ra là một đại lượng vô hướng, cho thấy hiệu năng mạng tăng khi giá trị U lớn Việc tối ưu hóa hiệu suất phổ tuyến lên đã được thực hiện thông qua việc điều chế vector kết hợp, trong khi hiệu suất tuyến xuống có thể được tối ưu hóa bằng cách điều chỉnh công suất phát để nâng cao giá trị SINR DL Do đó, bài toán tối ưu hiệu suất phổ đã được giới hạn thành bài toán tối ưu cho kênh truyền tuyến xuống, và ký hiệu SE sẽ được dùng thay cho SE DL để làm rõ các biểu thức.
Hiệu suất phổ tuyến xuống ở (4.32) có thể được viết lại dưới dạng
Có thể thấy, hiệu suất phổ của kênh truyền giữa BS thứ j và UE thứ k trong mạng
Massive MIMO là một công nghệ quan trọng trong truyền thông không dây, trong đó công suất phát tuyến xuống được phân bổ cho từng kênh truyền, ảnh hưởng tích cực đến hiệu suất của kênh Tuy nhiên, công suất được cấp cho các kênh truyền đến các người dùng (UE) còn lại lại có tác động tiêu cực Do đó, trong cùng một cell, hiệu suất phổ của kênh truyền đến các UE cần được tối ưu hóa để đạt được hiệu quả tốt nhất trong việc sử dụng tài nguyên tần số.
2 người dùng bất kỳ sẽ có mối quan hệ tương phản với nhau, không chỉ do can nhiễu mà
Hai UE này tương tác với nhau không chỉ do sự giới hạn về công suất mà một BS có thể phân bổ Quan hệ này cũng có thể được áp dụng cho các UE giữa các cell, tuy nhiên, mối quan hệ này thường yếu hơn do khoảng cách giữa các UE khác cell thường xa hơn, dẫn đến can nhiễu ít hơn Ngoài ra, chiến lược phân bổ công suất giữa hai BS khác nhau có thể khác nhau Do đó, bài toán tối ưu hiệu suất phổ cho hệ thống Massive MIMO được định nghĩa dưới dạng tối đa hóa ρ jk cho tất cả j,kU(SE 11 , ,SE LK L ) với các điều kiện ràng buộc tương ứng.
Tùy thuộc vào mục tiêu của nhà thiết kế, có thể xác định nhiều hàm chức năng khả thi U(SE 11 , ,SE LK L) Chẳng hạn, để cải thiện liên tục hiệu suất phổ cho UE với giá trị SE nhỏ nhất, có thể lựa chọn U(SE 11 , ,SE LK L) một cách phù hợp.
Mặt khác, nếu mong muốn tổng hiệu suất phổ trên toàn mạng là lớn nhất, có thể chọn
Hàm U(SE 11 , ,SE LK L ) trong (4.42) là hàm không lõm, dẫn đến bài toán tối ưu (4.40) trở thành bài toán không lồi, khó đạt được nghiệm tối ưu toàn cục Tuy nhiên, có các giải thuật như xấp xỉ tuần tự và MAPEL giúp tìm điểm tối ưu cục bộ, mặc dù không đáp ứng yêu cầu độ trễ siêu thấp của mạng 5G và 6G Các nghiên cứu gần đây đang chuyển hướng ứng dụng trí tuệ nhân tạo, ví dụ như công trình [16] cho kết quả khả quan nhưng vẫn phụ thuộc vào giải thuật quy hoạch hình học để tạo dữ liệu huấn luyện Mặc dù không ảnh hưởng đến thời gian tìm chiến lược phân bổ công suất tối ưu, sự phụ thuộc này có thể làm chậm quá trình huấn luyện, đặc biệt trong mạng Massive MIMO thực tế.
Nhận diện nhược điểm giữa BS và UE, luận văn đề xuất một mô hình học không giám sát nhằm giải quyết bài toán (4.40), cụ thể là áp dụng mô hình học sâu tăng cường.
Phương pháp tối ưu hiệu suất phổ dùng học sâu tăng cường
Trạng thái
Trong môi trường huấn luyện, trạng thái thay đổi theo từng episode và các bước thời gian, do đó cần lựa chọn các thông số trong mạng Massive MIMO phù hợp để đưa vào tập trạng thái Các phần tử trong biểu thức hiệu suất có thể biến đổi theo từng episode, với điều kiện rằng vị trí của các UE chỉ thay đổi khi bắt đầu một episode mới Để đạt được mục tiêu tối ưu hóa, công suất giữa BS và UE cần được điều chỉnh theo từng bước thời gian, đảm bảo sự tồn tại đủ lâu của mỗi episode Tập trạng thái của môi trường sẽ bao gồm những yếu tố này.
• Độ lợi kênh truyền mong muốn a jk E h h j jk H w jk i
Trong mạng Massive MIMO, vector độ lợi kênh truyền gây can nhiễu cho mỗi cặp trạm gốc (BS) thứ j và thiết bị người dùng (UE) thứ k được biểu diễn bằng các thành phần b jk, b 00jk, b 01jk, đến b(L−1)K−1jk Với L trạm gốc và K thiết bị người dùng, mỗi trạng thái môi trường tương ứng sẽ tạo thành một vector có số chiều tương ứng.
Hành động
Tác nhân tương tác với môi trường qua các bước thời gian của một episode, và hành động tối ưu để tương tác phải liên quan đến công suất ρjk mà BS thứ j cung cấp cho kênh truyền đến UE thứ k trong vùng phủ sóng Luận văn phát triển mô hình học sâu tăng cường, trong đó tác nhân thực hiện hành động trong không gian liên tục Tập hành động được chọn là các mức hiệu chỉnh công suất mà BS thứ j áp dụng lên UE thứ k trong khoảng động [-∆ρ; ∆ρ] Do đó, tập hợp hành động của tác nhân tại mỗi bước thời gian được biểu diễn là A t ∈ R LK × 1.
Điểm thưởng
Luận văn tập trung vào việc tối đa hóa tổng hiệu suất phổ trên toàn mạng, với hàm chức năng cần tối ưu là hàm tổng (4.42) Để đảm bảo tính hiệu quả, cần thiết lập các điểm thưởng cụ thể cho tác nhân khi mô hình được đưa vào các trạng thái môi trường biên, đặc biệt là những trạng thái không thực tế trong mạng Massive MIMO, chẳng hạn như công suất ρjk < 0 hoặc khi tất cả các BS không cung cấp công suất phát cho kênh truyền đến các UE Do đó, hàm thưởng được định nghĩa một cách tổng quát.
R t+1 ,Các trường hợp còn lại
, với R t+1 là điểm thưởng nhận được tại các trạng thái môi trường khả thi Dựa trên hàm chức năng(4.42), luận văn sử dụng hàm điểm thưởng có dạng
Trạng thái kế tiếp
Vìa jk vàb jk sẽ không thay đổi trong một episode để mô phỏng tốc độ di chuyển của
UE chậm hơn so với sự thay đổi của các thông số mạng Massive MIMO Trạng thái tiếp theo cho môi trường, khi chỉ xem xét một cặp BS-UE (j, k), sẽ là
• Công suất ρ t+1 jk =ρ t jk + ∆ρ t jk ,
• Độ lợi kênh truyền mong muốn a jk
• Vector độ lợi kênh truyền gây can nhiễu b jk b 00jk , b 01jk , , b(L−1)K−1jk ,
Huấn luyện và triển khai mô hình học sâu tăng cường
Trong mô hình học tăng cường, mạng Critic với các neuron được biểu diễn bởi vector w chỉ được sử dụng trong quá trình huấn luyện Mỗi bước cập nhật bao gồm hai lần lan truyền thuận (forward pass) của mạng Critic Lần đầu, mạng nhận ngõ vào là cặp hành động và trạng thái (s t, a t) để tính toán hàm giá trị q(s t, a t) Giá trị này sau đó được lấy gradient theo tham số của mạng Actor, θ, nhằm tối đa hóa hàm giá trị Lần lan truyền thứ hai, mạng Critic nhận cặp (s t+1, a t+1) và tính toán giá trị q(s t+1, a t+1), trong đó s t+1 là trạng thái tiếp theo từ s t khi Actor thực hiện hành động a t Giá trị q(s t+1, a t+1) kết hợp với phần thưởng R t+1 từ môi trường sẽ được sử dụng để cập nhật mạng Critic Quá trình huấn luyện được tóm tắt qua sơ đồ khối ở Hình 4.4.
Trong quá trình triển khai, mạng Actor đã qua huấn luyện sẽ lựa chọn hành động tại mỗi trạng thái môi trường cho đến khi hàm đánh giá bão hòa, số bước thời gian vượt quá giới hạn cho phép, hoặc khi trạng thái môi trường trở thành trạng thái kết thúc Giá trị của hàm mục tiêu cho bài toán tối ưu sẽ được xác định dựa vào trạng thái cuối của môi trường trước khi chuyển sang trạng thái kết thúc, với kỳ vọng giá trị này sẽ tiệm cận giá trị tối đa xác định bằng phương pháp quy hoạch hình học Quá trình này được tóm tắt trong Hình 4.5.
Luận văn sẽ áp dụng giải thuật cải tiến từ DDPG, như đã nêu trong bảng giải thuật 3 của Chương 3, dựa trên các sơ đồ khối đã trình bày.
[24] đã chứng minh bản thân việc ước lượng hàm giá trị hành động theo chiến lược ước lượng sẽ gây ra hiện tượng ước lượng vọt lố, tức là
Sơ đồ khối của bước cập nhật mạng Actor và Critic trong quá trình huấn luyện được mô tả trong Hình 4.4, trong đó đề xuất giải pháp cho việc phát hiện này bằng cách sử dụng hai mạng Critic để đánh giá mạng Actor Ngoài ra, nghiên cứu cũng giải quyết ảnh hưởng của phương sai trong quá trình ước lượng bằng cách thêm hệ số tổng quát hóa (regularization coefficient) ϵ vào mục tiêu cập nhật Critic, cụ thể là yi ← ri + γq ′(si + 1, à ′(si + 1) + ˜ϵ) Nhiễu hành động ˜ϵ có phân bố Gauss chuẩn với độ lệch chuẩn ˜σ, được chắn dưới bởi giá trị -c và chắn trên bởi giá trị c nhỏ.
Mô hình phân bổ công suất nhằm tối ưu hoá hiệu suất phổ tuyến xuống trong hệ thống Massive MIMO ứng dụng học sâu tăng cường được thể hiện qua sơ đồ khối Cải tiến này sử dụng giải thuật DDPG, được gọi là TD3, để giải quyết bài toán phân bổ công suất tối ưu trong mạng Massive MIMO Các hyperparameter trong mạng học sâu TD3 được tóm tắt trong bảng 4.1.
Algorithm 4 Giải thuật phân bổ công suất dùng mạng học sâu tăng cường TD3.
1: Khởi tạo cặp critic (q w 1 ;q w 2 )và actor à θ là cỏc mạng neuron cú tham số ngẫu nhiờn lần lượt là w 1 ,w 2 và θ
2: Khởi tạo cặp critic mục tiờu (q w ′ 1 ;q w ′ 2 ) và actor mục tiờu àθ ′ với cỏc tham số w 1 ′ ,w ′ 2 và θ ′ ban đầu trùng với w1,w2 và θ; w 1 ′ ←w1; w 2 ′ ←w2; θ ′ ←θ
3: Khởi tạo bộ lưu trữ kinh nghiệm B với dung lượng HB có thể chứa tối đaHB mảng kinh nghiệm E t tương ứng với H B bước thời gian
6: Khởi tạo trạng thái bắt đầu của môi trường s 1
7: while st+1̸=Trạng thái kết thúc do
8: Lựa chọn mức thay đổi cụng suất mà L BS ỏp dụng lờn K UE a t = à θ (s t ) +ϵ với ϵ∼N(0, σ) là nhiễu đại diện cho quá trình khám phá.
9: Tác động hành độngat lên môi trường và quan sát trạng thái kế tiếp st+1 cùng phần thưởng nhận đượcr t
10: Lưu kinh nghiệm E t = (s t+1 , r t ,s t ,a t ) vào bộ nhớ B
Bảng 4.1: Hyperparameter của mạng TD3. Đại lượng Ký hiệu
Kích thước mạng critic size(wi) =size(w ′ i )
Kích thước mạng actor size(θ) =sizeθ ′
Tốc độ học của mạng critic β
Tốc độ học của mạng actor α
Dung lượng của bộ lưu trữ kinh nghiệm HB
Dung lượng đã sử dụng của bộ lưu trữ kinh nghiệm Hvalid
Số mẫu cho 1 lần huấn luyện N
Số tập huấn luyện tối đa e max
Số bước thời gian tối đa trong 1 tập t max
Số tập giữa các lần cập nhật actor và các mạng mục tiêu d
Hệ số cập nhật mạng mục tiêu τ Độ lệch chuẩn của sai số khám phá σ Độ lệch chuẩn của hệ số regularization σ˜
Giá trị tối đa của hệ số regularization c
Chương trình mô phỏng
Mô phỏng mạng Massive MIMO
Mạng Massive MIMO trong luận văn này hoạt động trong môi trường học sâu tăng cường, với các đại lượng d j lk, ϕ j lk và ρ j jk đại diện cho khoảng cách, góc xác định từ tọa độ của UE thứ k trong cell thứ l đến tọa độ của BS thứ j gần nhất, cùng với công suất mà BS thứ j cung cấp cho kênh truyền đến UE thứ k Dựa vào các thông số này, đầu ra của mạng sẽ là các giá trị SINR được xác định theo công thức (4.33) và giá trị SE theo công thức (4.32).
SINR jk ρ jk E h h j jk H w jk i
, với a jk và b lijk là các giá trị kỳ vọng được địnhg nghĩa bởi (4.38) và (4.39), đó là a jk E h h j jk H w jk i
Quá trình mô phỏng mạng Massive MIMO trong luận văn được thực hiện qua các bước chính theo sơ đồ giải thuật Để phân bổ K UE vào cell thứ l bất kỳ, luận văn đã áp dụng các phương pháp và kỹ thuật phù hợp nhằm tối ưu hóa hiệu suất mạng.
Sơ đồ giải thuật mô phỏng mạng Massive MIMO sử dụng hệ tọa độ Descartes với giá trị phức và độ dài cạnh hình vuông của vùng phủ sóng Cụ thể, tọa độ (x_k, y_k) của người dùng thứ k so với tọa độ của trạm gốc thứ l được xác định bởi x_k ∼ U.
Trong hệ tọa độ Descartes, với cạnh của vùng bao của một cell là a_cell và tổng L = ˜L × L˜ cell, các chỉ số BS thứ l sẽ có tọa độ x = l_x ≤ L˜ theo phương x và y = l_y ≤ L˜ theo phương y, dẫn đến tọa độ lx + a_cell.
Trong nghiên cứu này, số lượng cell trên mỗi phương được ký hiệu là L˜, với tổng số phiên bản sao chép của mạng gốc được cố định ở N = 8 Điều này có nghĩa là trong mô hình chồng lặp được xem xét, sẽ luôn có tổng cộng 9 phiên bản của mạng gồm L cell Với giới hạn này, việc xác định tọa độ của các trạm phát sóng (BS) và người dùng (UE) trong từng vùng phủ sóng của các BS được tóm tắt trong bảng giải thuật 5.
Vòng lặp từ dòng 17 đến 28 trong bảng giải thuật (5) gây ra độ phức tạp O(n²) cho giải thuật với kích thước L cell của mạng mô phỏng Để khắc phục nhược điểm này, luận văn áp dụng phép tính toán ma trận, cụ thể là sử dụng phép nhân Kronecker giữa ma trận U∈C m×n và ma trận V∈C p×q.
(5.3) với ký hiệu{.} dùng để mô tả việc xếpP hàng và Qcột của ma trận u ij VvàoP hàng và
Trong ma trận kết quả U⊗V, các cột kế cận nhau có ý nghĩa quan trọng trong việc áp dụng thuật toán phân bổ BS và UE Ma trận BS orig ∈C L× ˜ L ˜ chứa tọa độ phức của các BS trong mạng Massive MIMO, với L= ˜L×L˜ cell Ma trận đơn vị I∈R 3×3 được sử dụng để quy ước phần tử ở hàng n, từ đó hỗ trợ trong việc tối ưu hóa phân bổ tài nguyên mạng.
Algorithm 5 Giải thuật phân bố BS và UE cho mạng Massive MIMO mô phỏng.
1: Ngõ vào: Độ dài 1 cạnh của cell a cell , tổng số cell L, tổng số UE trong 1 cellK, bán kính tối thiểu R min
3: Khởi tạo ma trận BS∈C 3 ˜ L×3 ˜ L để chứa giá trị toạ độ của các BS trong mạng chồng lặp, bao gồm mạng gốc và 8 phiên bản sao chép
4: Khởi tạo tensor UE∈C K× L× ˜ L ˜ để chứa các giá trị toạ độ tương đối so với BS của K
5: Khởi tạo tensor UEˆ ∈ C K×3 ˜ L×3 ˜ L để chứa các giá trị toạ độ của K UE trong mạng chồng lặp, bao gồm mạng gốc và 8 phiên bản sao chép
9: Khởi tạo số UE đã được định vịk ←0
23: BS[ˆn,m]ˆ ←(x offset +jy offset ) +BS pos
31: Ngõ ra: BS, UEˆ cộtm của BS orig là[BS orig ] n,m =x m +jy n Khi đó, dựa vào phép nhân Kronecker , ta có
Mỗi phiên bản của mạng Massive MIMO gốc có khoảng cách theo phương x, y so với phiên bản kế cận là a = ˜La cell Do đó, chúng ta có thể áp dụng mặt nạ A ∈ C 3×3 với cấu trúc cụ thể.
(5.5) và lợi dụng phép nhân Kronecker để suy ra
(−a−ja) +BS orig (−ja) +BS orig (a−ja) +BS orig (−a) +BS orig BS orig a+BS orig (−a+ja) +BS orig ja+BS orig (a+ja) +BS orig
Với kết quả này, giải thuật 5 có thể được rút gọn thành giải thuật 6
Dựa vào sơ đồ giải thuật Hình 5.1, sau khi xác định tọa độ của các BS và UE trong mạng chồng lặp, cần xác định ma trận tương quan cho kênh truyền giữa UE thứ k trong cell thứ l đến BS thứ j.
Trong mỗi kênh truyền (l, k, j), BS thứ j có M antenna, và ma trận R j lk là ma trận Toeplitz với kích thước M×M Tensor R chứa ma trận tương quan không gian của tất cả các kênh truyền có kích thước M ×M ×K×L×L Các phần tử của ma trận R j lk phụ thuộc vào khoảng cách d H giữa hai antena kế cận và độ lợi trung bình β lk j của kênh truyền (l, k, j), cũng như khoảng cách d j lk theo công thức (2.5) Trong mạng mô phỏng, d j lk được xác định là khoảng cách ngắn nhất giữa người dùng thứ k trong cell thứ l và 9 phiên bản của BS thứ j, bao gồm N = 8 bản sao và bản gốc, với d j lk = min n=1,n≤9d j lk n.
Algorithm 6 Giải thuật phân bố BS và UE cho mạng Massive MIMO mô phỏng dùng ma trận.
1: Ngõ vào: Độ dài 1 cạnh của cell a cell , tổng số cell L, tổng số UE trong 1 cellK, bán kính tối thiểu R min , ma trận đơn vị I∈R 3×3
4: Khởi tạo mặt nạ A theo (5.5)
5: Khởi tạo ma trận BS∈C L× ˜ L ˜ để chứa giá trị toạ độ của các BS gốc
6: Khởi tạo ma trận BSˆ ∈C 3 ˜ L×3 ˜ L để chứa giá trị toạ độ của các BS trong mạng chồng lặp, bao gồm mạng gốc và 8 phiên bản sao chép
7: Khởi tạo tensor UE∈C K× L× ˜ L ˜ để chứa các giá trị toạ độ tương đối so với BS của K
8: Khởi tạo tensor UEˆ ∈ C K×3 ˜ L×3 ˜ L để chứa các giá trị toạ độ của K UE trong mạng chồng lặp, bao gồm mạng gốc và 8 phiên bản sao chép
12: Khởi tạo số UE đã được định vịk ←0
Như vậy, giải thuật xác định phần tử[R j lk ] x,y có thể được tóm tắt bởi bảng giải thuật sau
Algorithm 7 Giải thuật xác định [R j lk ] x,y
1: Ngõ vào: Độ lợi trung vị Υ, suy hao kênh truyền α, khoảng cách giữa 2 antena d H , độ lệch chuẩn của góc tới σ ϕ
2: Ngõ vào: Ma trận tọa độ của các BS BSˆ ∈ C 3 ˜ L×3 ˜ L và tensor tọa độ của các UE
UEˆ ∈ C K×3 ˜ L×3 ˜ L trong mạng Massive MIMO chồng lặp L˜ đã được định nghĩa trong giải thuật 5 và 6.
3: Ngõ vào: Giá trị k xác định UE thứ k trong mạng gốc.
4: Ngõ vào: Tọa độ (y j , x j )xác định vị trí của BS thứ j trong mạng gốc, vớiy j dùng để xác định hàng và x j dùng để xác định cột.
5: Ngõ vào: Tọa độ (y l , x l ) xác định vị trí của cell thứl trong mạng gốc, vớiy l dùng để xác định hàng và x l dùng để xác định cột.
6: Khởi tạo mảng BS˜ ∈C 9 chứa tọa độ phức của 9 phiên bản của BS thứ j
12: Tính β lk j theo (2.5), bỏ qua ảnh hưởng của shadow fading β lk j = 10 10 Υ −α log 1 0d j lk /1km
13: Xây dựng ma trận Toeplitz R j lk ∈C M×M với các phần tử được xác định theo (4.5) β lk j e 2πjd H (x−y)sin(ϕ j lk ) e − σ 2 ϕ
14: Ngõ ra: ma trận R j lk
Khi xác định tensor R ∈ C M × M × K × L × L chứa ma trận tương quan không gian của vector đáp ứng kênh truyền h j lk ∀l ∈ L, k ∈ K, j ∈ L, các bước lấy mẫu giá trị tức thời, ước lượng kênh truyền và xác định vector tiền mã hoá có thể được thực hiện dễ dàng thông qua các phương trình trong chương tiếp theo.
2 Nếu số lượng mẫu giá trị tức thời của đáp ứng kênh truyềnN h đủ lớn để đảm bảo tính Ergodic, các giá trị kỳ vọnga jk vàb lijk có thể được ước lượng bằng trung bình đại số, tức là a j k
Luận văn đã xây dựng môi trường giả lập tương tác với tác nhân học sâu tăng cường thông qua mạng mô phỏng sử dụng giải thuật 6, 7 và các công thức liên quan Trong mạng mô phỏng này, ngõ vào được xác định là mảng ρ∈ R K×L, chứa K×L công suất ρ j lk tại thời điểm bắt đầu, cùng với ma trận tọa độ phức của các yếu tố liên quan.
BS BSˆ và tensor tọa độ phức của các UE UEˆ được xác định qua giải thuật 6 Kết quả của mạng mô phỏng là mảng SINR ∈ R K×L, chứa K × L giá trị SINR cho kênh truyền tuyến xuống giữa BS thứ j và K UE trong vùng phủ sóng của nó ∀j ∈ L Các giá trị SINR này có thể được sử dụng để tính toán hiệu suất phổ SE theo công thức (4.32) nếu cần thiết.
Mô hình tác nhân học sâu tăng cường
Luận văn sử dụng các hyperparameter được xác định trong bảng 4.1 và không thay đổi hàm kích hoạt cho các lớp mạng trong mô hình học sâu tăng cường Cụ thể, trong mạng Actor, hàm kích hoạt ReLU được áp dụng cho các lớp mạng ẩn, trong khi hàm kích hoạt Tanh được sử dụng cho lớp mạng ngõ ra Lựa chọn hàm kích hoạt ReLU dựa trên kinh nghiệm về tính ổn định của nó trong các mô hình mạng Neuron, trong khi hàm Tanh được chọn để đảm bảo rằng hành động hay mức thay đổi công suất của tác nhân có thể tăng và giảm Đối với mạng Critic, các
(a) Hàm kích hoạt ReLU (b) Hàm kích hoạt Tanh.
Trong mạng Actor, lớp mạng ẩn sử dụng hàm kích hoạt ReLU, trong khi lớp ngõ ra chỉ là tổ hợp tuyến tính của các neuron mà không áp dụng hàm kích hoạt Các trọng số trong mạng Critic và Actor được cập nhật theo quy trình cụ thể.
Bảng 5.1: Thông số mạng Massive MIMO mô phỏng. Đại lượng Ký hiệu Gía trị
Số cell hay số BS L 4
Chiều dài đường bao dcell 500 m
Khoảng cách UE-BS tối thiểu R min 35m
Băng thông tín hiệu B 20Mhz
Công suất truyền tuyến lên pjk 100 mW/UE Tổng độ dài chuỗi tín hiệu τ c 200 ký tự
Hệ số pathloss α 3.76 Độ lợi kênh tham chiếu Υ −148 dB
Khoảng cách giữa các anten là d = λ/2, với độ lệch chuẩn góc σ = 10° Giải thuật Adam, được công bố bởi [25], có ưu điểm là giảm dần tốc độ học theo thời gian thông qua tỷ số giữa giá trị tích lũy có suy hao của gradient hàm mục tiêu và giá trị tích lũy có suy hao của vector từ bình phương mọi phần tử trong gradient Cụ thể, trong mạng Actor, các trọng số của mạng θ được cập nhật tại lần thứ t theo biểu thức θ_t = θ_{t-1} - α_t.
Trong nghiên cứu này, các hệ số suy hao được chọn là γ 1 = 0.9 và γ 2 = 0.99, phù hợp với các giá trị khuyên dùng trong tài liệu tham khảo [25] Ngoài ra, L đại diện cho hàm mục tiêu của mạng Actor, như đã được trình bày trong Chương 3, và ϵ = 10 −7 là một hệ số rất nhỏ được thêm vào để đảm bảo biểu thức dưới căn không bằng 0.
Mô hình học sâu tăng cường được huấn luyện để giải bài toán tối ưu (4.40) dựa trên các thành phần cơ bản là mạng Actor và mạng Critic, với các lưu đồ và giải thuật được trình bày chi tiết trong Chương 4.
Kết quả mô phỏng
Để đánh giá khả năng phân bổ công suất cho mạng Massive MIMO, luận văn đã huấn luyện tác nhân theo giải thuật 4 để tương tác với môi trường mô phỏng mạng Massive MIMO được mô tả ở mục 4.1 Các thuật toán được lập trình theo các giải thuật ở mục 5.1.1, và các thông số của mạng Massive MIMO chồng lặp trong chương trình mô phỏng được tóm tắt ở Bảng 5.1 Mục tiêu của việc huấn luyện tác nhân là tối đa hóa tổng SE của mạng, với điểm thưởng được trả về sau mỗi lần tương tác theo biểu thức (4.44).
Mô hình này được huấn luyện qua 40.000 episodes, trong đó các trọng số của mạng nơ-ron và trạng thái của mạng Massive MIMIO được lưu trữ sau mỗi 100 episodes.
Trong bài viết này, mô hình học tăng cường sẽ được thử nghiệm qua 1000 phiên, trong đó thực hiện phân bổ công suất cho mạng mô phỏng với 2000 lần phân bổ vị trí của UEs đã xác định Sau mỗi lần thử nghiệm, tổng hiệu suất phổ của kênh truyền tuyến xuống sẽ được tính toán và so sánh với hiệu suất đạt được từ chiến lược tối ưu dựa trên phương pháp quy hoạch hình học Việc triển khai thử nghiệm cho phép theo dõi quá trình huấn luyện và điều chỉnh các hyperparameter kịp thời Sau nhiều lần thử nghiệm, luận văn đã xác định được bộ hyperparameter phù hợp, giúp mô hình học sâu tăng cường đưa ra chiến lược phân bổ công suất gần giống với chiến lược tối ưu đã đề cập Giá trị của các hyperparameter cho mô hình này được tóm tắt trong Bảng 5.2.
Bảng 5.2: Giá trị của các Hyperparameter. Đại lượng Giá trị size(w i )
N 400 e max 40000 d 3 σ start 20 σ end 10 −3 Đại lượng Giá trị size(θ)
Sau 40.000 tập huấn luyện, tác nhân đã được triển khai thử nghiệm cuối cùng theo quy trình đã mô tả Hàm phân phối tích lũy của tổng hiệu suất phổ kênh truyền tuyến trong mạng Massive MIMO được đạt được thông qua thuật toán học sâu tăng cường TD3, với phương pháp giải tối ưu được minh họa trong Hình 5.3 Trung bình, tổng hiệu suất phổ của thuật toán đề xuất trong luận văn qua 2.000 tập đánh giá đạt 56,27 bps/Hz, tương đương 93,66% so với lời giải tối ưu là 60,08 bps/Hz.
Hình 5.3: CDF của tổng hiệu suất phổ.
Trung bình động của điểm thưởng tác nhân nhận được sau mỗi 100 tập phim đã được phân tích để kiểm chứng khả năng học của tác nhân, cho thấy xu hướng tăng theo thời gian huấn luyện và giảm độ dao động, chứng tỏ các bộ ước lượng Actor và Critic trong mô hình học sâu tăng cường đang dần hội tụ Khi điểm thưởng trung bình đạt trạng thái bão hòa, luận văn quyết định kết thúc quá trình huấn luyện và tiến hành khảo sát tiếp theo Để tăng cường độ tin cậy, luận văn so sánh hiệu suất phổ của phương pháp đề xuất với giải pháp tối ưu khi thay đổi số lượng antenna trên dãy ULA của mỗi BS, với các số lượng 50, 75, 100 và 150, nhằm tìm tổng hiệu suất phổ của 2000 môi trường mô phỏng, được thể hiện trong bảng 5.3.
Bảng 5.3: Trung bình hiệu suất phổ với số lượng antenna thay đổi.
Trung bình SE theo lời giải TD3 (bps/Hz) 39.33 48.07 56.27 66.63 Trung bình SE theo lời giải tối ưu (bps/Hz) 44.59 53.25 60.079 69.53
Hình 5.4: Trung bình động của điểm thưởng nhận được mỗi 100 episodes.
Hình 5.5 minh họa kết quả khảo sát, cho thấy rằng phương pháp luận văn đề xuất đạt hiệu suất phổ trung bình trên 90% so với giải pháp tối ưu Ngoài ra, khảo sát cũng chỉ ra rằng việc tăng số lượng antenna trên trạm phát (BS) sẽ nâng cao hiệu suất phổ của mạng, như thể hiện trong Hình 5.6.
Luận văn khảo sát mối quan hệ giữa công suất truyền tuyến xuống và tổng SE của mạng Massive MIMO Bốn môi trường với các thông số giống nhau về số BS, UE và số lượng antenna M trên mỗi BS, chỉ khác biệt ở công suất tối đa mà mỗi BS có thể cấp phát, đã được sử dụng để huấn luyện bốn tác nhân TD3 nhằm phân bổ công suất, tối đa hóa tổng hiệu suất phổ Kết quả trung bình của tổng hiệu suất phổ thu được từ phương pháp khảo sát này được trình bày trong bảng 5.4 và minh họa qua Hình 5.7 và Hình 5.8.
Bảng 5.4: Trung bình hiệu suất phổ với công suất phát tuyến xuống thay đổi.
Trung bình SE theo lời giải TD3 (bps/Hz) 55.61 60.25 63.34 64.40 Trung bình SE theo lời giải tối ưu (bps/Hz) 60.08 63.99 66.81 68.63
Để nâng cao tổng hiệu suất phổ cho mạng Massive MIMO, việc tăng số lượng anten sẽ hiệu quả hơn so với việc tăng công suất phát Điều này được chứng minh qua khoảng cách giữa các đường CDF của tổng hiệu suất phổ.
Hình 5.5: Trung bình tổng SE đạt được giữa mô hình học sâu tăng cường TD3 và lời giải tối ưu khi thay đổi số antenna.
Hình 5.6 cho thấy CDF của tổng SE trong mô hình học sâu tăng cường TD3, được xác định khi thay đổi số lượng antenna Kết quả này phản ánh hiệu suất của mô hình học sâu trong hai khảo sát đã thực hiện.
Hình 5.7: Trung bình tổng SE đạt được giữa mô hình học sâu tăng cường TD3 và lời giải tối ưu khi thay đổi công suất phát.
Hình 5.8: CDF của tổng SE mô hình học sâu tăng cường TD3 đạt được khi thay đổi công suất phát.
Hướng phát triển
Trong quá trình nghiên cứu và mô phỏng, luận văn đã áp dụng một số giả thuyết nhằm đơn giản hóa quá trình tính toán, đảm bảo hoàn thành đúng thời hạn Các giả thuyết này được lựa chọn cẩn thận để tối ưu hóa hiệu quả nghiên cứu.
Trong mạng Massive MIMO, tương quan không gian giữa các kênh truyền tuân theo phân bố Rayleigh, cho thấy rằng các kênh truyền này được phân bố theo hàm mật độ xác suất Gauss đa biến chuẩn.
Phương pháp lắp đặt anten trên mỗi trạm phát sóng (BS) sử dụng cấu trúc ULA, cho phép tạo ra ma trận hiệp phương sai của vector M kênh truyền từ bất kỳ trạm phát nào dưới dạng ma trận Toeplitz.
• Số lượng UE trong mỗi cell của mạng Massive MIMO là đồng đều, tức là mỗi cell đều có cùng số lượng UE là K UE.
Một hướng phát triển rõ ràng cho các công trình nghiên cứu tiếp theo là loại bỏ các giả thuyết đã đề cập và áp dụng các mô hình mạng phức tạp hơn, như mô hình kênh truyền 3GPP 3D MIMO, hoặc các mô hình mạng với anten được sắp xếp theo dạng lưới (Mesh) hoặc hình trụ (Cylindrical).
Hướng phát triển tiếp theo của luận văn là áp dụng giải thuật học sâu tăng cường để giải quyết các bài toán viễn thông, với một tác nhân duy nhất điều chỉnh công suất cho tất cả các node trong mạng Nghiên cứu tiếp theo có thể mở rộng bằng cách sử dụng các mô hình học sâu đa tác nhân, giúp đạt được mục tiêu đề ra và giải quyết các vấn đề viễn thông khác Mặc dù việc sử dụng đa tác nhân mang lại thách thức trong giai đoạn huấn luyện, nhưng nó sẽ cải thiện đáng kể tốc độ tìm ra giải pháp tối ưu, đáp ứng yêu cầu về độ trễ siêu thấp của các thế hệ mạng 5G, 6G và tương lai.
[1] A Goldsmith,Wireless Communications Cambridge: Cambridge University Press,
[2] IMT-2020 (5G) Promotion Group, “White Paper on 5G Concept,” 2 2015 [Online]. Available: http://www.imt2020.org.cn/en/documents/ 1
[3] G Intelligence, “Understanding 5G: Perspectives on fu- ture technological advancements in mobile,” 2014 [Online]. Available: https://www.gsma.com/futurenetworks/wp-content/uploads/2015/01/ 2014-12-08-c88a32b3c59a11944a9c4e544fee7770.pdf 1, 2
[4] CISCO, “Annual Internet Report (2018-2023),” 2020 [Online] Avail- able: https://www.cisco.com/c/en/us/solutions/collateral/executive-perspectives/ annual-internet-report/white-paper-c11-741490.html viii, 3, 4
[5] G Intelligence, “The Mobile Economy 2023,” 2023 [Online]. Available: https://www.gsma.com/mobileeconomy/wp-content/uploads/2023/03/ 270223-The-Mobile-Economy-2023.pdf viii, 4, 5
[6] W Jiang, B Han, M Habibi, and H Schotten, “The road towards 6G: A comprehen- sive survey,” IEEE Open Journal of the Communications Society, vol 2, pp 334–366,
[7] A Gupta and R Jha, “A survey of 5G network: Architecture and Emerging Tech- nologies,” IEEE Access, vol 3, pp 1206–1232, 2015 5
[8] E Bjornson, J Hoydis, and L Sanguinetti, Massive MIMO Networks: Spectral, En- ergy, and Hardware Efficiency Now Foundations and Trends, 2017 6, 15, 16, 18,
[9] H Q Ngo, E G Larsson, and T L Marzetta, “Aspects of Favorable Propagation inMassive MIMO,” 2014 6
[10] Samsung, “Samsung Massive MIMO products,” 2022 [Online] Avail- able: https://www.samsung.com/global/business/networks/products/radio-access/ massive-mimo-radio/ 6
[11] Erricson, “Massive MIMO handbook,” 2022 [Online] Available: https://foryou. ericsson.com/Massive-MIMO-handbook-extended-version-download.html viii, 7
[12] R Li, “Intelligent 5G: When Cellular Networks Meet Artificial Intelligence,” IEEE Wireless Communications, vol 24, no 5, pp 175–183, 2017 7, 8
[13] T M Mitchell, Machine Learning, 1st ed McGraw-hill New York, 1997 [Online] Available: https://www.cs.ubbcluj.ro/~gabis/ml/ml-books/ McGrawHill-MachineLearning-TomMitchell.pdf 8
[14] M E Morocho Cayamcela and W Lim, “Artificial Intelligence in 5G Technology:
A Survey,” in 2018 International Conference on Information and Communication Technology Convergence (ICTC), Jeju, Korea (South), 2018, pp 860–865 9
[15] B Rajarajeswarie and R Sandanalakshmi, “A Short Survey: Applications of Artificial Intelligence in Massive MIMO,” in2020 International Conference on Communication and Signal Processing (ICCSP), Bangalore, India, 2020, pp 1096–1100 10
[16] L Sanguinetti, A Zappone, and M Debbah, “Deep learning power allocation in Massive MIMO,” in52nd Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA, USA, 2018, pp 1257–1261 10, 48, 65
[17] Shannon, “A mathematical theory of communication,” The Bell System Technical Journal, vol 27, pp 379–423, 1948 19, 21
[18] R Sutton and A Barto, Reinforcement Learning, 2nd ed The MIT Press, 2018.
[19] K K V Mnih, A G D Silver, I Antonoglou, D Wierstra, and M.Riedmiller, “Play- ing Atari with Deep Reinforcement Learning,” in arXiv preprint arXiv:1312.5602,
[20] J H T Lillicrap, N H A Pritzel, Y T T Erez, and D W D Silver, “Continuous control with Deep Reinforcement Learning,” inarXiv preprint arXiv:1509.02971 33, 35
[21] P Weeraddana, M Codreanu, M Latva-aho, A Ephremides, and C Fischione,Weighted Sum-Rate Maximization in Wireless Networks: A Review Now Foun- dations and Trends, 2012 48
[22] Y Z L Quian and J Huang, “Mapel: Achieving global optimality for a non-convex wireless power control problem,” IEEE Transactions on Wireless Communications, vol 8, no 3, pp 1553–1563, 2009 48
[23] Y Zhang, C Kang, T Ma, Y Teng, and D Guo, “Power Allocation in Multi-Cell Networks using Deep Reinforcement Learning,” in 2018 IEEE 88th Vehicular Tech- nology Conference (VTC-Fall), 2018, pp 1–6 49
[24] S Fujimoto, H Hoof, and D.Meger, “Addressing Function Approximation Error in Actor-Critic methods,” inarXiv preprint arXiv:1802.09477, 2018 51, 52
[25] D P Kingma and J Ba, “Adam: A method for stochastic optimization,” in arXiv preprint arXiv:1412.6980, 2014 64