1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật điện tử: Phân bổ công suất tối ưu cho mạng massive mimo ứng dụng học sâu tăng cường

91 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân bổ công suất tối ưu cho mạng Massive MIMO ứng dụng học sâu tăng cường
Tác giả Huỳnh Vũ Hoàng Phúc
Người hướng dẫn PGS.TS. Hà Hoàng Kha
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 91
Dung lượng 2,02 MB

Cấu trúc

  • 1.1 Đặt vấn đề nghiên cứu (15)
    • 1.1.1 Xu hướng phát triển của truyền thông vô tuyến (15)
    • 1.1.2 Massive MIMO là kỹ thuật quan trọng đối với 5G-6G (19)
    • 1.1.3 Trí tuệ nhân tạo giúp giải quyết các bài toán viễn thông (22)
  • 1.2 Lý do thực hiện đề tài (23)
  • 1.3 Mục tiêu và nhiệm vụ của luận văn (24)
  • 1.4 Đối tượng và phạm vi nghiên cứu (24)
    • 1.4.1 Đối tượng nghiên cứu (24)
    • 1.4.2 Phạm vi nghiên cứu (25)
  • 1.5 Phương pháp nghiên cứu (26)
  • 1.6 Bố cục của luận văn (26)
  • 2.1 Định nghĩa mạng Massive MIMO (28)
  • 2.2 Kênh truyền trong mạng Massive MIMO (30)
  • 2.3 Hiệu suất phổ (32)
  • 2.4 Kết luận chương (35)
  • 3.1 Lý thuyết học tăng cường (36)
  • 3.2 Học sâu tăng cường (44)
  • 3.3 Kết luận chương (50)
  • 4.1 Mô hình mạng Massive MIMO (51)
    • 4.1.1 Ước lượng kênh truyền (52)
    • 4.1.2 Hiệu suất phổ của mô hình mạng Massive MIMO fading Rayleigh . 44 (58)
  • 4.2 Xây dựng bài toán tối ưu hiệu suất phổ (61)
  • 4.3 Phương pháp tối ưu hiệu suất phổ dùng học sâu tăng cường (63)
    • 4.3.1 Trạng thái (63)
    • 4.3.2 Hành động (64)
    • 4.3.3 Điểm thưởng (64)
    • 4.3.4 Trạng thái kế tiếp (65)
    • 4.3.5 Huấn luyện và triển khai mô hình học sâu tăng cường (65)
  • 4.4 Kết luận chương (69)
  • 5.1 Chương trình mô phỏng (70)
    • 5.1.1 Mô phỏng mạng Massive MIMO (70)
    • 5.1.2 Mô hình tác nhân học sâu tăng cường (77)
  • 5.2 Kết quả mô phỏng (78)
  • 5.3 Kết luận chương (84)
  • 6.1 Kết luận (85)
  • 6.2 Hướng phát triển (86)
  • 1.2 Xu hướng tăng trưởng về số lượng thiết bị kết nối với mạng di động từ năm 2018 đến năm 2023 [4] (0)
  • 1.3 Tốc độ trung bình của các loại thông tin di động toàn cầu [4] (0)
  • 1.4 Dự đoán về số lượng thuê bao di động toàn cầu của GSMA [5] (0)
  • 1.5 Xu hướng chuyển giao thị phần mạng di động theo vùng giữa năm 2022 và (0)
  • 1.6 Các dòng sản phẩm Massive MIMO thương mại của Erricson[11] (0)
  • 1.7 Khảo sát tình hình triển khai Massive MIMO ở 1 quốc gia Đông Á[11] (0)
  • 1.8 Mạng neuron (0)
  • 2.1 Ví dụ về mạng Massive MIMO (0)
  • 2.2 Kênh truyền rời rạc (0)
  • 3.1 Mô hình học tăng cường tổng quát (0)
  • 4.1 Mô hình mạng Massive MIMO chồng lập với L = 2, K = 5, N = 8 (0)
  • 4.2 Mô hình ULA (0)
  • 4.3 Các loại tín hiệu trong một khối ổn định (0)
  • 4.4 Sơ đồ khối của một bước cập nhật mạng Actor và Critic trong quá trình huấn luyện (0)
  • 4.5 Sơ đồ khối của mô hình phân bổ công suất để tối ưu hoá hiệu suất phổ tuyến xuống của hệ thống Massive MIMO ứng dụng học sâu tăng cường (0)
  • 5.1 Sơ đồ giải thuật mô phỏng mạng Massive MIMO (0)
  • 5.2 Hàm kích hoạt của các lớp mạng trong mạng Actor (0)
  • 5.3 CDF của tổng hiệu suất phổ (0)
  • 5.4 Trung bình động của điểm thưởng nhận được mỗi 100 episodes (0)
  • 5.5 Trung bình tổng SE đạt được giữa mô hình học sâu tăng cường TD3 và lời giải tối ưu khi thay đổi số antenna (0)

Nội dung

Lý do thực hiện đề tài

Từ những thông tin được trình bày ở các mục trên, luận văn nhận thấy Massive MIMO và trí tuệ nhân tạo là 2 công nghệ lõi cho các thế hệ di động của tương lai Các công trình nghiên cứu kết hợp trí tuệ nhân tạo, mà cụ thể là các mô hình học sâu, vào giải quyết các bài toán 5G ngày càng thu hút sự chú ý của công chúng và giới khoa học công nghệ. Trong số các công trình này, có một số công trình tập trung giải quyết những hạn chế của mạng Massive MIMO khi tăng độ phức tạp của mạng Một số công trình tiêu biểu có thể kể đến như các công trình được khảo sát ở [15], hoặc công trình ở [16] Cụ thể, [16] giới thiệu phương án sử dụng học có giám sát để giải quyết bài toán phân bổ công suất nhằm tối ưu hoá hiệu suất phổ của mạng Tuy nhiên, [16] vẫn phải phụ thuộc vào các phương pháp giải bài toán tối ưu để tìm ra bộ nhãn dán cho tập huấn luyện, vì vậy sẽ tiêu tốn khá nhiều nguồn thời gian vào việc tạo ra tập huấn luyện này để huấn luyện mô hình học sâu cho các mạng thực tế Nhận thấy điều này và sự khác biệt giữa học có giám sát và học tăng cường, luận văn lựa chọn phát triển một mô hình học sâu dựa vào phương pháp học tăng cường để giải quyết bài toán phân bổ công suất tương tự như côn trình [16].Với định hướng như trên, luận văn được thực hiện sẽ có tên "PHÂN BỔ CÔNGSUẤT TỐI ƯU CHO MẠNG MASSIVE MIMO ỨNG DỤNG HỌC SÂUTĂNG CƯỜNG".

Mục tiêu và nhiệm vụ của luận văn

Dựa vào định hướng được đề cập ở mục 1.2, mục tiêu và nhiệm vụ luận văn cần hoàn thành bao gồm những điều sau:

• Nghiên cứu cơ sở lý thuyết nhằm xây dựng một mạng Massive MIMO giả lập tương đối sát với thực tế làm môi trường để huấn luyện và đánh giá cho giải thuật tối ưu hóa hiệu suất phổ dùng học sâu tăng cường.

• Nghiên cứu cơ sở lý thuyết và lựa chọn giải thuật học sâu tăng cường phù hợp để giải bài toán tối ưu hiệu suất phổ cho mạng Massive MIMO, tương đương với bài toán tìm ra chiến lược phân bổ công suất tối ưu cho mạng.

• Mô phỏng và đánh giá kết quả cũng như ưu điểm, nhược điểm của phương pháp mà luận văn đề xuất so với lời giải dung các phương pháp quy hoạch (programming methods), đồng thời đề xuất một số phương hướng phát triển tiếp theo cho giải pháp của luận văn.

Phương pháp nghiên cứu

Phương pháp nghiên cứu chính mà luận văn sử dụng là phương pháp khảo sát, tổng hợp, phân tích và đánh giá ưu nhược điểm của các công trình nghiên cứu đã được xuât bản trước đây để vận dụng, kế thừa và kết hợp những thành tựu đột phá của lĩnh vực trí tuệ nhân tạo vào giải quyết các vấn đề còn tồn tại đối với mạng Massive MIMO trong lĩnh vực viễn thông Do hạn chế về thời gian và chi phí, việc khảo sát kết quả của phương pháp mà luận văn đề xuất trên hệ thống thực tế là bất khả thi Vì vậy, luận văn sẽ tiến hành nghiên cứu, thử nghiệm và đánh giá kết quả thông qua chương trình mô phỏng trên máy tính Phương pháp nghiên cứu của luận văn bao gồm các bước sau:

• Khảo sát các tài liệu liên quan đến mạng Massive MIMO và học tăng cường từ các cơ sở dữ liệu online uy tín như IEEEXplore, arixiv, Wiley, hay công cụ học thuật Scholar.google.com.

• Tham khảo và tổng hợp nội dung chính của các đề tài đi trước, từ đó tìm ra mối quan hệ giữa 2 lĩnh vực viễn thông và trí tuệ nhân tạo, cụ thể hơn là vấn đề tối ưu hóa hiệu suất phổ và phương pháp giải các bài toán bằng mô hình học sâu tăng cường.

• Phân tích và đánh giá các giải thuật học tăng cường có thể áp dụng vào giải bài toán tối ưu hiệu suất phổ dựa vào những kết quả ở bước 2, từ đó lựa ra giải thuật phù hợp nhất để đạt được mục tiêu luận văn đề ra.

• Tiến hành lập trình mô hình mô phỏng, huấn luyện và thu thập các kết quả trên mạng mô phỏng, từ đó so sánh ưu và nhược điểm của học tăng cường so với các phương pháp quy hoạch tối ưu.

• Viết báo cáo về quy trình và kết quả, đồng thời rút ra nhận xét, kết luận và nêu lên một số phương hướng phát triển tiếp theo từ phương pháp được luận văn đề xuất.

Bố cục của luận văn

Nội dung của luận văn sẽ được trình bày theo từng chương để đảm bảo bố cục mạch lạc và logic, qua đó giúp người đọc dễ dàng tiếp cận hơn đến các vấn đề mà luận văn trình bày Cụ thể, luận văn sẽ gồm các chương với nội dung chính như sau:

• Chương 1 là chương mở đầu sẽ trình bày về cách đặt vấn đề nghiên cứu của luận văn, lý do lựa chọn đề tài, phạm vi, đối tượng, nhiệm vụ, mục tiêu và phương pháp nghiên cứu cho luận văn.

• Chương 2 sẽ trình bày cơ sở lý thuyết về mạng Massive MIMO, bao gồm định nghĩa, tính chất kênh truyền, các phương pháp ước lượng kênh truyền và mô hình toán học của hiệu suất phổ tuyến lên và tuyến xuống của mạng Massive MIMO Từ các kiến thức đó, luận văn sẽ giới thiệu mô hình toán học của bài toán tối ưu hiệu suất phổ cho kênh truyền tuyến xuống của mạng Massive MIMO và liên hệ với bài toán phân bổ công suất tối ưu ở cuối chương 2.

• Chương 3 sẽ trình bày cơ sở lý thuyết của lĩnh vực học tăng cường và học sâu tăng cường, giúp người đọc phân biệt được hai khái niệm và trình bày các giải thuật nền tảng của ngành học này Chương này cũng đánh giá ưu nhược điểm của các giải thuật mà luận văn trình bày để tìm ra giải thuật phù hợp nhất giúp luận văn giải quyết bài toán phân bổ công suất tối ưu cho mạng Massive MIMO ứng dụng học sâu tăng cường.

• Chương 4 đầu tiên sẽ trình bày phương pháp mô phỏng mạng Massive MIMO để làm môi trường huấn luyện và đánh giá kết quả cho giải thuật học sâu tăng cường mà luận văn lựa chọn sử dụng ở Chương 3 Sau đó, chương này sẽ trình bày phương pháp ứng dụng giải thuật học sâu tăng cường và đánh giá các kết quả mà luận văn đạt được.

• Chương 5 sẽ đưa ra kết luận cho những kết quả nghiên cứu của luận văn và đề xuất một số ý tưởng để tiếp tục phát triển đề tài.

Trong xuyên suốt luận văn, các đại lượng vô hướng sẽ được biểu diễn dưới dạng chữ in nghiêng như k, l, m, n, Kích thước của tập hợp hay ngưỡng của một đại lượng vật lý bất kỳ cũng là đại lượng vô hướng và sẽ được phân biệt bằng chữ in nghiêng viết hoa nhưK, L, M, N, Các vector sẽ được biểu diễn dưới dạng chữ thường in đậm như x,y,h, và cuối cùng, các ma trận hoặc tensor sẽ được biểu diễn dưới dạng chữ in đậm viết hoa nhưX,Y,H,

CƠ SỞ LÝ THUYẾT VỀ MẠNG

Chương này sẽ trình bày khái quát cơ sở lý thuyết về mạng Massive MIMO, hiện tượng fading và ảnh hưởng của hiện tượng này lên các hệ thống truyền thông vô tuyến, từ đó làm rõ nguyên nhân mạng Massive MIMO chủ yếu sử dụng giao thức TDD ứng dụng phương pháp điều chế đa sóng mang để khắc phục ảnh hưởng này Sau đó, luận văn sẽ sơ lược về mô hình toán học của kênh truyền trong mạng Massive MIMO và mô hình tín hiệu thu được và phát đi tại BS bất kỳ trong mạng Cuối cùng, định nghĩa về hiệu suất phổ sẽ được luận văn đề cập và diễn giải dựa trên lý thuyết thông tin và dung lượng kênh truyền.

Định nghĩa mạng Massive MIMO

Mạng Massive MIMO là mạng viễn thông bao gồm L cells hoạt động theo giao thức song công phân chia thời gian (TDD) có tín hiệu tuyến lên và tuyến xuống được truyền đi ở các khe thời gian kế cận nhau trong cùng một dải tần số Mỗi cell trong mạng được trang bị một BS gồm M ≫ 1 antenna nhằm tạo khả năng giao tiếp với đồng thời với

K UE, giả sử rằng mỗi UE chỉ được trang bị một attenna để thu phát tín hiệu Các BS trong mạng hoạt động độc lập và không ảnh hưởng đến nhau nhờ sử dụng các kỹ thuật như kết hợp thu tuyến tính (linear receive combining) để xử lý tín hiệu thu được từ các

UE và kỹ thuật tiền mã hoá tuyến tính (linear precoding) để định hướng phát tín hiệu đến UE mong muốn trong không gian.

Việc tích hợp nhiều antenna trên một BS sao cho M ≫K là giải pháp ứng dụng giao thức SDMA để xử lý can nhiễu giữa các UE trong cùng 1 cell với nhau, mà cụ thể là thông qua 2 tính chất cứng kênh (channel hardening) và kênh truyền thuận lợi (favorable propagation) Cứng kênh là tính chất giúp độ lợi của kênh truyền thay đổi ngẫu nhiên

Hình 2.1: Ví dụ về mạng Massive MIMO. theo thời gian tiệm cận với giá trị kỳ vọng của nó, tức là

∥h∥ 2 →1, (2.1) vớih ∈C M là vector chứa giá trị đáp ứng kênh truyền tức thời củaM kênh truyền từ M antena trên 1 BS đến 1 UE bất kỳ Trong khi đó, kênh truyền thuận lợi là tính chất quan sát được khi hướng của vector kênh truyền hlk giữa BS thứ l bất kỳ trong mạng và UE thứ k gần như trực giao với hướng của vector kênh truyền h lj giữa BS thứ l và UE thứ i̸=k

Theo tài liệu [8], sự tiệm cận ở (2.1) và (2.2) gần như chắc chắn xảy ra với điều kiện

Ngoài can nhiễu giữa các UE, mạng Massive MIMO còn phải hạn chế sự ảnh hưởng của can nhiễu liên ký tự xảy ra do tốc độ truyền tải thông tin là tương đối nhanh so với trải trễ của kênh truyền T M , làm cho tín hiệu thu được ở một thời điểm là kết quả của sự chồng lập nhiều tín hiệu phát đi ở các thời điểm khác nhau Để khắc phục các tác động không mong muốn này, người ta chia kênh truyền có băng thông lớn (tương ứng với tốc độ truyền nhanh) thành nhiều kênh truyền có băng thông nhỏ hơn (và vì vậy tốc độ truyền trên từng kênh truyền thành phần sẽ thấp hơn) để truyền nhận thông tin đồng thời Phương pháp này giúp lượng thông tin truyền tải được trong một đơn vị thời gian không bị giảm đi đáng kể mà vẫn hạn chế được phần lớn ảnh hưởng của hiện tượng can nhiễu liên ký tự trong từng kênh truyền con Băng thông của các kênh truyền con, hay băng con, thường được xác định dựa trên băng thông ổn định B C của kênh truyền (Coherence Bandwidth) sao cho tổng của nhiều băng con sẽ tương ứng với B C Việc xác định băng con theoB C vừa giúp hạn chế can nhiễu liên ký tự nhờ quan hệ tuyến tính giữa băng thông ổn định BC và nghịch đảo của trải trễ của kênh truyền (BC ≈ T 1

M [1]), vừa giúp giảm đáng kể số lần thực hiện ước lượng kênh truyền do đáp ứng của kênh truyền gần như là hằng số trongB C , từ đó thông tin trạng thái kênh (CSI) ước lượng được trong

1 băng con có thể được tái sử dụng cho tất cả các băng con còn lại cùng tổng hợp thành

Kênh truyền trong mạng Massive MIMO

Theo định nghĩa, mạng Massive MIMO dùngM antenna trên 1 BS nên sẽ có M kênh truyền giữa 1 cặp BS-UE bất kỳ Nhờ sử dụng các phương pháp điều chế đa sóng mang như OFDM, FBMC, , các kênh truyền gần như là hằng số và chịu ảnh hưởng của hiện tượng fading phẳng như đã đề cập, vì vậy đáp ứng của 1 kênh truyền bất kỳ h(t, τ) có thể được xấp xỉ thành kênh truyền h(t) Như vậy, kênh truyền giữa 1 cặp BS-UE sẽ là 1 vector gồm M phần tử Để tường minh, luận văn quy ước đáp ứng kênh truyền giữa BS trong cell thứ j và UE thứ k trong cell thứ l là h j lk ∈ C M Đáp ứng kênh truyền trong một khối ổn định là không thay đổi như đã lập luận ở mục 2.1, vì vậy luận văn sử dụng ký hiệuh j lk để biểu diễn kênh truyền tuyến lên, và h j lk H để biểu diễn kênh truyền tuyến xuống Theo [8], việc quy ước đáp ứng kênh truyền tuyến xuống là vector chuyển vị liên hợp phức của đáp ứng kênh truyền tuyến lên không ảnh hưởng đến các biểu thức đánh giá hiệu năng của mạng Massive MIMO nhưng có tác dụng đơn giản hóa các biểu thức tính toán Vì h j lk ∈ C M , h j lk có thể được đặc trưng qua độ lớn và hướng của nó trong không gian vector Cả 2 đại lượng này đều là các đại lượng ngẫu nhiên đối với kênh truyền fading, và thường có mối quan hệ tương quan với nhau trong thực tế Về mặt định nghĩa, nếu kênh truyền fading h j lk ∈ C M có độ lợi kênh truyền ||h j lk || 2 và hướng h j lk

||h j lk || là các biến ngẫu nhiên phụ thuộc vào nhau thì h j lk được gọi là kênh truyền tương quan trong miền không gian (spatially correlated) Một mô hình kênh truyền fading tương quan trong miền không gian nổi bật là mô hình kênh truyền fading tương quan Rayleigh (Correlated Rayleigh fading), trong đó đáp ứng kênh truyền tuân theo phân bố Gauss đa biến chuẩn, tức là h j lk ∼NC(0,R j lk ), (2.3) với R j lk ∈ C M×M thỏa R j lk ≽ 0 là ma trận tương quan trong không gian, và cũng là ma trận hiệp phương sai của vector đáp ứng kênh truyềnh j lk doE h j lk

= 0 Khi kênh truyền có phân bố Gauss đa biến chuẩn như (2.3), biên độ ||h j lk || của nó sẽ tuân theo phân bố Rayleigh, vì vậy kênh truyền (2.3) mới được gọi là kênh truyền fading tương quan Rayleigh Giá trị của các biến ngẫu nhiên trongh j lk tại mỗi khối ổn định đặc trưng cho sự thay đổi vi mô của kênh truyền gây ra bởi fading Ngược lại, ma trận tương quan trong không gianR j lk đặc trưng cho các đặc tính lan truyền vĩ mô như độ lợi của các antenna hoặc đặc tính bức xạ điện từ tại bộ phát và bộ thu Đường chéo chính chuẩn hóa của ma trận này có dạng β lk j = 1

, (2.4) được dùng để xác định độ lợi kênh truyền trung bình của BS thứj đến UE thứ k trong nhân tử thứl Thông số β lk j còn được gọi là hệ số fading vĩ mô của kênh truyền và được xác định thông qua độ lợi trung vị của kênh truyền tham chiếu có khoảng cách thu phát 1kmΥ, khoảng cách thu phát thực tế d j lk ,và suy hao đường truyền α β lk j (dB) = Υ−10αlog 10 d j lk

Trong (2.5), ngoài các thông số Υ, d j lk và α có thể xác định được dựa vào mô hình kênh truyền,F lk j là đại lượng ngẫu nhiên duy nhất và được dùng để đặc trưng cho hiện tượng fading che khuất (shadow fading), tức những biến dạng trong tín hiệu thu gây ra bởi vật cản vật lý chắn giữa đường thu phát.F lk j có phân bố Gauss chuẩn, F lk j ∼N(0, σ 2 sf ), trong đó phương sai σ 2 sf đại diện cho độ lớn của loại biến thiên ngẫu nhiên này Tuy nhiên, β lk j chỉ là đường chéo chính của ma trận tương quan về không gian R j lk của đáp ứng kênh truyềnh j lk giữa BS trong cell thứ j và UE thứ k trong cell thứ l.

Với đáp ứng kênh truyền (2.3), tín hiệu BS thứ j thu được tại mỗi khe thời gian khi truyền tuyến lên sẽ có dạng y j L

, (2.6) trong đó, nj ∼NC(0M, σ 2 U L IM)là nhiễu AWG có phương sai thành phần là σ U L 2

Khi truyền tuyến xuống, nhờ sử dụng M antenna, BS thứj bất kỳ có thể định hướng truyền tín hiệu trong không gian và phát đi tín hiệux j đến đồng thời K UE trong vùng phủ sóng của BS này Gọi tín hiệu ζ jk ∼NC(0, ρ jk ) là tín hiệu BS thứ j cần truyền đến

UE thứ k, với ρ jk là công suất của tín hiệu Khi đó, tín hiệu được BS thứ j mã hoá và phát đi có dạng x j K

Trong (2.7), w jk ∈ C M được gọi là vector tiền mã hoá với ràng buộc E

= ρ jk Kỹ thuật tiền mã hoá như (2.7) được gọi chung là kỹ thuật Beamforming Với tín hiệu phát đi từ BS thứ j là x j cùng với L−1 tín hiệu từ các BS còn lại trong mạng Massive MIMO, UE thứ k trong cell thứ j sẽ thu được tín hiệu y jk L

Tương tự như khi truyền tuyến lên, n jk ∼ NC(0, σ 2 DL ) là nhiễu trắng tác động lên kênh truyền từ BS thứ j đến UE thứ k đang xét.

Hiệu suất phổ

Một trong các thông số được sử dụng thường xuyên để đánh giá chất lượng của quá trình trao đổi tín hiệu trong một mạng viễn thông là hiệu suất phổ (Spectral Efficiency). Dựa vào tài liệu [8], hiệu suất phổ được xem là số bit trung bình đại diện cho thông tin có trong một mẫu dữ liệu giá trị phức có thể truyền không lỗi qua kênh truyền đang xét. Mục này sẽ chỉ trình bày biểu thức cơ bản của hiệu suất phổ dựa trên lý thuyết thông tin để tạo tiền đề cho việc tính toán thông số này mạng Massive MIMO cụ thể hơn ở các chương sau.

Trong lý thuyết thông tin, ngõ ra của các hệ thống thông tin nói chung và thông tin vô tuyến nói riêng đa phần có dạng chuỗi bit Vì 1 bit có thể nhận giá trị 0 hoặc 1, và vì không phải toàn bộ các bit trong chuỗi bit thu được đều giống với chuỗi bit được phát đi, nên có thể nói với mỗi bit thu được ở bộ thu, mức độ không chắc chắn về thông tin cần truyền tải được giảm đi2lần Như vậy, một chuỗi dữ liệu gồm n bit với xác suất mỗi bit mang giá trị 0 hoặc 1 làp 0 =p 1 = 1 2 sẽ làm giảm mức độ không chắc chắn của hệ thống đi một lượng2 n Tuy nhiên, xác suất nhận giá trị 0 hoặc 1 của mỗi bit trong 1 chuỗi bit đại diện cho tín hiệu y thường không bằng nhau và không biết trước, mà thông thường ta chỉ biết được hàm mật độ phân bố xác suấtf(y)đối với y liên tục hoặc hàm khối xác suất P(Y = y) đối với y rời rạc Cả 2 hàm f(y) và P(Y =y) đều có thể được dùng để xác định độ giảm về mức độ không chắc chắn của hệ thống khi thu được một giá trị tức thời củay, trong đó độ giảm sẽ là f(y) 1 trong trường hợp liên tục và P (Y 1 =y) trong trường hợp rời rạc Dựa vào mối quan hệ giữa độ dài bitn, xác suất của mỗi bit và độ giảm về mức độ không chắc chắn, có thể suy ra được độ dài chuỗi bit cần dùng để biểu diễn tín hiệu y (trong trường hợp liên tục)là n = log 2 ( 1 f(y)) =−log 2 (f(y)), (2.9) với độ giảm về mức độ không chắc chắn là f(y) 1 Vậy, số bit trung bình cần dùng để biễu diễn tín hiệuy trong không gian mẫu Y là

Số bit trung bình ở (2.10) còn có thể được hiểu là lượng thông tin trung bình của tín hiệu y thu được vì nó đặc trưng cho sự không chắc chắn của bộ thu đối với y, và được gọi là Entropy của y

Y f(y) log 2 (f(y))dy (2.11) Tương tự, entropy của tín hiệu y khi biết x có dạng

Có thể dễ dàng tính đượcH(y) = log 2 (eπq)vớiy∼NC(0, q)vàH(z)≤log 2 (eπq)∀z ∈

C:E[|z| 2 ] =q [8]. Áp dụng (2.11) và (2.12) vào mô hình kênh truyền rời rạc mà tại mỗi thời điểm chỉ có một ký tự x∈ C được truyền đi và bộ thu chỉ thu được một ký tự y ∈C (Hình 2.2), sao cho y =hx+v+n, (2.13) với n ∼ NC(0, σ 2 ) là nhiễu độc lập so với x, h ∈ C là giá trị đáp ứng kênh truyền tức thời của kênh truyền ngẫu nhiên H và v ∈ C là can nhiễu ngẫu nhiên phụ thuộc vào biến ngẫu nhiênU sao cho trung bình có điều kiện E[v|H=h,U=u] = 0 và phương sai có điều kiện p v (H = h,U = u) =E[|v| 2 |h, u] ∈ R không tương quan với tín hiệu x, hay

E[x ∗ v|h, u] =E[xv ∗ |h, u] = 0 Theo [17], dung lượng của mô hình kênh truyền được mô tả ở (2.13) là độ chênh lệch tối đa giữa lượng thông tin của mẫu tín hiệux, tức là H(x), so với lượng thông tin trung bình của mẫu tín hiệu này khi biết được giá trị tức thời của mẫu tín hiệu thu y và các biến ngẫu nhiên H,U

Hình 2.2: Kênh truyền rời rạc.

Vì phân bố Gauss có thể không phải là phân bố xác suất tối ưu cho kênh truyền đang xét, ngõ vàox∼N(0, p x ) sẽ là giới hạn dưới của dung lượng kênh truyền, tức là

Giả sửx được ước lượng bởi bộ ước lượng trung bình bình phương tối thiểu tuyến tính của lỗi (Linear minimum mean squared error) thông qua y, với ràng buộc về giá trị tức thời của kênh truyềnH=h và đại lượng ảnh hưởng đến can nhiễu U=u ˆ x= E[xy ∗ |h, u]

E[xy ∗ |h, u] =E[xx ∗ h ∗ |h, u] +E[xv ∗ |h, u] +E[xn ∗ |h, u] =E[p x h ∗ |h, u] =p x h ∗ , (2.17) do nhiễun độc lập so vớix và can nhiễu v không tương quan có điều kiện với x Tương tự,

+p v (h, u) +σ 2 (2.18) Phương sai hay trung bình bình phương sai số của phép ước lượng là σ x−ˆ 2 x =E

Vìxˆlà hằng số khi biếty, mức độ không chắc chắn của kênh truyền về xvàx−xˆkhi thu được y là như nhau Nếu loại bỏ thông tin về tín hiệu thu được y, độ không chắc chắn của kênh truyền về x−xˆchắc chắn sẽ không giảm, tức là

Từ (2.15) và (2.20) cùng với các điều kiện về Entropy đối với phân bố Gauss, ta có

Tài liệu [8] đã nhận định dựa trên [17] rằng, hiệu suất phổ tối đa mà kênh truyền rời rạc đang xét ở Hình 2.2 với mô hình kênh truyền được biểu diễn qua phương trình (2.13) có thể đạt được chính là dung lượng kênh truyền xác định bởi biểu thức (2.21).

Lý thuyết học tăng cường

Một mô hình học tăng cường có thể có 1 hoặc nhiều tác nhân tương tác với môi trường học theo thời gian với mục tiêu đưa môi trường về 1 trạng thái nhất định Tại mỗi bước thời gian t, tác nhân cần xác định hành động A t mà nó có thể thực hiện trong tập các hành động khả thiAvà thực thi hành động đó Tập các hành động khả thiAtại mỗi thời điểm t khác nhau có thể không giống nhau, và phụ thuộc vào trạng thái của môi trường

S t ∈ S, tức A≜ A(S t ) với S là tập hợp tất cả các trạng thái có thể có của môi trường. Khi áp dụng học tăng cường vào các mô hình Viễn Thông, trạng thái của môi trường có thể là cấu trúc mạng, vị trí hay công suất phát giữa BS và các UE ; tác nhân thường là BS hoặc UE có khả năng thay đổi một thông số nhất định như công suất, tốc đô di chuyển, hướng di chuyển, , nhằm cải thiện tốc độ, độ bảo mật hay một tính chất cụ thể nào đó Sau khi tác nhân tương tác với môi trường qua hành động A t , môi trường sẽ chuyển sang trạng thái tiếp theo S t+1 ∈ S, và môi trường hồi tiếp về tác nhân một giá trịR t+1 được định nghĩa là điểm thưởng giúp đánh giá chất lượng của hành động mà tác nhân đưa ra Sự tương tác qua lại giữa môi trường và tác nhân tạo thành một vòng lặp theo thời gian, và tuỳ vào bài toán mà vòng lặp này có thể là hữu hạn hoặc vô hạn (Hình

Hình 3.1: Mô hình học tăng cường tổng quát.

Bất kể giới hạn về thời gian tương tác giữa tác nhân và môi trường, mục tiêu của tác nhân trong lĩnh vực học tăng cường là tối đa hoá lượng điểm thưởngR t mà tác nhân tích luỹ được sau khi tác động hành động A t ∈A(S t )lên môi trường qua mỗi bước thời gian ttrong toàn bộ quá trình tương tác Như vậy, nếu chuỗi điểm thưởng sau thời điểm tmà tác nhân nhận được là R t+1 , R t+2 , R t+3 , thì giá trị

G t =R t+1 +R t+2 +R t+3 + , (3.1) có thể được sử dụng để mô tả hàm mục tiêu của tác nhân Điều này đúng trong trường hợp tác nhân và môi trường tương tác với nhau trong thời gian hữu hạn, và thời gian này được gọi là 1 episode vớiT bước thời gian Tuy nhiên, nếu thời gian tương tác là vô hạn, hay T = ∞, có thể thấy lim

T →∞Gt → ∞ và hàm mục tiêu (3.1) không còn đúng nữa Vì vậy, để tổng quát cho cả 2 trường hợp, hàm mục tiêu cần tối ưu của tác nhân phải có sự suy hao

X k=0 γ k R t+k+1 , (3.2) trong đó 0 < γ ≤ 1 là tỷ lệ suy hao được thêm vào để làm giảm ảnh hưởng của điểm thưởng tác nhân nhận được trong tương lai kể từ khi thực thi hành động A t ở thời điểm t trong hiện tại, và vì vậyG t vẫn có giá trị hữu hạn trong trường hợp T =∞.G t ở (3.2) được gọi là giá trị trả về, vàG t có tính hồi quy ngược vì

Như đã đề cập ở trên, tại mỗi thời điểmt, tác nhân cần xác định hành độngA t ∈A(S t ) và thực thi hành động đó nhằm chuyển môi trường sang trạng thái kế tiếp Để xác định hành động nên thực thi, tác nhân dựa vào chiến lược π là ánh xạ của trạng thái môi trường sang hành động có thể thực thi tại trạng thái đó π t :S t →A t ∀S t ∈S, A t ∈A(S t ) (3.4)

Tuỳ thuộc vào đặc trưng thống kê của S t ∈ S và A t ∈ A(S t ), chiến lược π có thể được phân loại thành chiến lược xác định hay chiến lược ngẫu nhiên Trong trường hợpS t và

A t là các giá trị xác định, π(S) là chính xách xác định sao cho

Ngược lại, nếuS t và A t là các biến ngẫu nhiên rời rạc thì π(a|s)là hàm khối xác suất có điều kiện để A t =a khiS t =s π(a|s) =P r(A t =a|S t =s) (3.6)

Chiến lược π(a|s) cũng có thể là hàm mật độ xác suất có điều kiện nếu St và At là các biến ngẫu nhiên liên tục

−∞ π(a|s)da = 1 (3.7) Để đánh giá độ "tốt"của một chiến lược, người ta thường dựa vào hàm giá trị trạng tháiv π hoặc hàm giá trị hành độngq π Hàm giá trị trạng thái đánh giá độ tốt của việc tác nhân đưa ra hành động dựa trên chiến lượcπ khi môi trường ở trạng thái S t =s thông qua kỳ vọng của giá trị trả về được xác định bởi (3.3), dưới điều kiện tác nhân luôn tác động lên môi trường theo chiến lượcπ kể từ thời điểm t v π (S t =s) =Eπ[G t |S t =s] =Eπ

Hàm giá trị hành động cũng có định nghĩa tương tự với hàm giá trị trạng thái, chỉ khác ở điểm hành động của tác nhân tại trạng tháiS t =skhông được xác định dựa trên chiến lượcπ mà là một hành độngAt =a cụ thể nào đó. qπ(St =s, At=a) =E π [Gt|St =s, At=a]

Dựa vào hàm giá trị trạng tháivπ(s) và hàm giá trị hành độngqπ(s, a), ta có thể so sánh giữa 2 chiến lượcπ vàπ ′ bất kỳ, chiến lược nào sẽ là chiến lược phù hợp hơn để tác nhân đạt được mục tiêu khi lựa chọn hành động dựa theo chiến lược đó Chiến lược π được xem là tốt hơn chiến lượcπ ′ nếu v π (S t =s)≥v π ′ (S t =s) ∀s ∈S, (3.10) hoặc q π (S t =s, A t =a)≥q π ′ (S t =s, A t =a) ∀s∈S, a∈A(S t =s) (3.11)

Như vậy, trong một bài toán học tăng cường bất kỳ bất kỳ, luôn có ít nhất một chiến lượcπ ∗ tốt hơn hoặc tốt ngang tất cả các chiến lược khác, gọi là chiến lược tối ưu Mặc dù có thể có nhiều hơn 1 chiến lược tối ưu, tất cả các chiến lược tối ưu có thể có cùng một giá trị trạng thái v π ∗ (s) = max π v π (s) ∀s∈S, (3.12) hoặc cùng giá trị hành động q π ∗ (s, a) = max π q π (s, a) ∀s∈S, a∈A(s) (3.13)

Ngoài ra, các chiến lược tối ưu còn có tính chất đặc biệt về hàm giá trị hành động và hàm giá trị trạng thái như sau v π ∗ (s) = max a∈ A (s)q π ∗ (s, a) (3.14)

Do giá trị trả vềG t có tính hồi quy, hàm giá trị trạng thái và hàm giá trị hành động cũng có tính chất này Cụ thể, xét hàm giá trị hành động q π (S t =s, A t =a) =Eπ[G t |S t =s, A t =a]

(3.15) trong đó, đẳng thức ở hàng thứ 3 được suy ra từ định luật kỳ vọng toàn thể E[X] E[E[X|Y]] với X, Y là các biến ngẫu nhiên có cùng không gian mẫu Kết hợp tính hồi quy của hàm giá trị hành động ở (3.15) và liên hệ giữa hàm giá trị hành động và hàm giá trị trạng thái tối ưu ở (3.14), ta có q π ∗ (s, a) = Eπ ∗ [R t+1 |S t =s, A t =a] +γEπ ∗ max a ′ ∈ A (S t+1 )q π ∗ (S t+1 , a ′ )|S t =s, A t =a

.(3.16)Phương trình (3.16) được gọi là phương trình Bellman của hàm giá trị hành động theo chiến lược tối ưu, hay gọi tắt là phương trình Bellman tối ưu Trong lý thuyết học tăng cường, các giải thuật giúp xác định giá trị của (3.8) hay (3.9) khi biết biểu thức của chiến lượcπ được phân loại thành họ giải thuật đánh giá chiến lược (Policy Evaluation) Song song đó, các giải thuật giúp xác định chiến lược tối ưu π ∗ được phân loại thành họ giải thuật kiểm soát chiến lược (Policy Control), và họ giải thuật này thường dựa vào phương trình (3.16) làm điều kiện dừng Vì (3.16) phụ thuộc vàoq π ∗ , trong thực tế, cần phải phối hợp giữa họ giải thuật đánh giá và kiểm soát chiến lược để tìm ra chiến lược tối ưu cho một bài toán học tăng cường Nguyên lý cơ bản của các họ giải thuật này là tính hồi quy của hàm giá trị trả về (3.3) hoặc của các hàm giá trị trạng thái như (3.15) Cụ thể, nếu gọi qˆ k π (s, a) là bộ ước lượng cho qπ(s, a) ở lần ước lượng thứ k, dựa vào (3.15), ta có biểu thức xác định vòng lặp ˆ q k+1 π (St=s, At=a)←E π

Học sâu tăng cường

Đối với bài toán có không gian hành động ở mỗi trạng thái A(s)∀s thoả điều kiện

|A(s)| → ∞, số lượng trạng thái s∈Scũng sẽ có tính chất|S→ ∞| Khi đó, có thể xem hành động a∈ A(s)và trạng thái s ∈S là các biến liên tục, và chiến lược π(a|s) bất kỳ có thể được đặc trưng bởi (3.24) và (3.25) như đã giới thiệu ở trên Trong cả 2 trường hợp, việc tìm ra bộ trọng số ϕ nắm vai trò quan trọng để có thể mô phỏng chiến lược mà tác nhân đang sử dụng, từ đó giúp tìm ra chiến lược tối ưu dựa vào các giải thuật tương tự như giải thuật2 Trong các giải thuật ước lượng hàm số dựa vào bộ trọng sốϕ bất kỳ, giải thuật Gradient-Descent là giải thuật cơ bản được sử dụng rộng rãi nhất, đặc biệt là trong các bài toán của lĩnh vực máy học Trong giải thuật này, một hàm mục tiêu thích hợp J(ϕ) sẽ được dùng làm cơ sở để cập nhật ϕ theo thời gian, sao cho ϕ hội tụ tại giá trị tối thiểu của hàm mục tiêu Dựa vào ý nghĩa vật lý của trường vector, giá trị của 1 hàm số bất kỳ, trong trường hợp đang xét là J(ϕ), sẽ tăng nếu đi theo hướng của gradient của hàm số đó theoϕ, tức∇J(ϕ), và ngược lại sẽ giảm Vì vậy, vớiϕđược khởi tạo ngẫu nhiên,ϕ có thể được cập nhật tại thời điểmt để làm giảm giá trị của hàm mục tiêu J theo biểu thức ϕ t =ϕt−1−α∇J(ϕ), (3.26) trong đó α thường được gọi là tốc độ học và dấu "−"để biểu diễn việc cập nhật theo hướng ngược lại so với hướng của gradient ∇J(ϕ) Với tốc độ học α được lựa chọn phù hợp, hàm mục tiêu hoàn toàn có thể hội tụ tại giá trị cực tiểu của nó t→∞lim J(ϕ t ) = minJ(ϕ) (3.27) Ứng dụng vào bài toán học tăng cường, nếu chọn hàm mục tiêu cần được tối thiểu hoá là hàm

J(ϕ) =−vπ ϕ (s), (3.28) thì bộ trọng sốϕ thu được qua giải thuật Gradient-Descent sẽ là bộ trọng số ước lượng cho chiến lược tối ưuπ ∗ (a|s)theo (3.10) Bài toán Gradient-Descent ở (3.28) tương đương với bài toán Gradient-Ascent có hàm mục tiêu là

Dựa vào định nghĩa của hàm giá trị trạng thái và hàm giá trị hành động, trong trường hợp a là biến ngẫu nhiên liên tục, ta có thể suy ra mối quan hệ v π ϕ (s) Z a∈ A (s) π ϕ (a|s)q π ϕ (s, a)da, (3.30) vì vậy

Gọi hàm mật độ xác suất chuyển trạng thái là hàm mật độ xác suất của biến cốS t+1 =s ′ dưới điều kiện S t =s và A t =a là p(S t = s ′ |S t = s, A t = a), (3.31) có thể được viết lại dưới dạng

da.(3.32)Như vậy, nếu tiếp tục khai triển ∇ ϕ v π ϕ (s ′ ), ∇ ϕ v π ϕ (s ′′ ), , ta sẽ thu được gradient của hàm giá trị trạng thái có dạng

(∇ ϕ π ϕ (a|s))q π ϕ (s, a)dads, (3.33) với ρ π ϕ (s ′ )là hàm mật độ xác suất của trạng thái môi trường suy hao bởi giá trị γ Nếu tại bước thời gian bắt đầu của 1 episode, hàm phân bố xác suất của biến cố S 0 = s là biểu thức p 0 (s), và hàm phân bố xác suất của sự chuyển dịch từ trạng thái S 0 = s sang trạng tháiS k =s ′ sau k bước thời gian do tác nhân tương tác theo chiến lược π là p(s→s ′ , k, π) thì ρ π ϕ (s ′ ) Z

Biểu thức gradient của hàm mục tiêu thu được ở (3.33) được gọi là định lý gradient chiến lược Định lý gradient chiến lược cho thấy gradient của hàm giá trị trạng thái hay hàm mục tiêu để tìm ra chiến lược tối ưu∇ ϕ J(ϕ)không phụ thuộc vào gradient của hàm phân bố trạng thái∇ ϕ ρ π ϕ (s), tức là hướng cập nhật trong số ϕlà hướng chỉ làm thay đổi chiến lược, không bao gồm hướng làm thay đổi hàm phân bố trạng thái Tuy nhiên, nếu sử dụng (3.33), lượng biến thiên∇ ϕ J(ϕ) cần phải được tính toán thông qua toàn bộ các hành động có thể thực thi được tại trạng thái s bất kỳ Để ∇ ϕ J(ϕ) chỉ phụ thuộc vào 1 hành độnganhất định mà tác nhân lựa chọn để tương tác với môi trường, cần thực hiện phép biến đổi

Dựa vào dạng rút gọn của định lý gradient chiến lược, các giải thuật kinh điển của học sâu tăng cường như REINFORCE [18], Actor-Critic, đã được phát triển Trong đó, giải thuật Actor-Critic tương đối nổi trội hơn cả vì giải thuật này đơn giản hóa việc tính toán hàm giá trị hành động q π ϕ (s, a) trong (3.35) bằng cách sử dụng thêm một bộ ước lượng để ước lượng giá trị này Cụ thể, trong giải thuật Actor-Critic, người ta sử dụng 2 bộ ước lượngϕvàθ để lần lược ước lượng chiến lược cần tìm và hàm giá trị trạng thái của chiến lược đó Bộ trọng số ϕ đại diện cho Actor, vì hành động mà tác nhân đưa ra sẽ được quyết định thông qua bộ trọng số này Tương tự như giải thuật Gradient-Ascent trong

(3.26),ϕ có thể được cập nhật theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ π ϕ ,a∼π ϕ (a|s)

Bộ trọng số còn lại đại diện cho Critic, vì bộ trọng số này dùng để ước lượng hàm đánh giá chất lượng của hành động mà Actor đưa ra, tức là q θ (s, a)∼q π ϕ (s, a) (3.37)

Việc thay thế giá trị thực củaqπ ϕ (s, a)bằng giá trị ước lượng qθ(s, a)nhìn chung sẽ làm Actor trở thành một bộ ước lượng chệch (biased estimator), tức là

Tuy nhiên, [18] đã chứng minh giải thuật Actor-Critic vẫn khả thi, và Actor có thể là bộ ước lượng không chệch nếu Critic là bộ ước lượng tương thích được giới hạn bởi hai điều kiện Một là, bộ ước lượngθ phải là bộ ước lượng tuyến tính với ngõ vào là gradient của chiến lược cần ước lượng theoϕ qθ(s, a) = [∇ϕlnπϕ(a|s)] T θ(s, a) (3.39)

Hai là, q θ (s, a) là hàm ước lượng làm tối thiểu hóa sai số trung bình bình phương giữa chính nó và mục tiêu cần ước lượng,qπ ϕ θ = arg min θ Es∼ρ π ϕ (s),a∼π ϕ (a|s) h q θ (s, a)−q π ϕ (s, a)2i

Khi đó, gradient của hàm mục tiêu có thể được ước lượng thông qua biểu thức

∇ ϕ J(ϕ)≈Es∼ρ π ϕ (s),a∼π ϕ (a|s)[∇ ϕ lnπ ϕ (a|s)q θ (s, a)], (3.41) và bộ ước lượng Actor sẽ được cập nhật theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ π ϕ ,a∼π ϕ (a|s)[∇ ϕ lnπ ϕ (a|s)q θ (s, a)] (3.42)

Trên thực tế, điều kiện thứ 2 thường được thả lỏng nếu sử dụng các phương pháp ước lượng Critic theo giải thuật Q-learning ở giải thuật 2 hay tương tự.

[20] đã mở rộng và chứng minh định lý gradient chiến lược cũng có thể được áp dụng cho chiến lược xác định à ϕ (s) = à(s,ϕ) :S→A, (3.43) với điều kiện ∃∇ ϕ à ϕ (s) và ∃∇ a q à (s, a) a=à ϕ (s) Định lý gradient chiến lược xỏc định khi đó có dạng

, (3.44) và bộ ước lượng Actor được cập nhật tuần tự theo biểu thức ϕ t+1 =ϕ t +αEs∼ρ à ϕ (s) h∇ ϕ à ϕ (s)∇ a q à (s, a) a=à θ (s) i

Nếu các bộ trọng số ϕ dùng để ước lượng chiến lược tối ưu theo (3.28) và θ dùng để ước lượng hàm giá trị hành động theo chiến lược được ước lượng từ ϕ là các mạng Neuron sâu (Deep Neuron Networks) thì các mô hình như (3.42) và (3.45) được xem là các mô hình học sâu tăng cường Vấn đề gặp phải khi sử dụng mạng Neuron để ước lượng Actor và Critic là tính chất về sự độc lập và phân bố đều của trạng thái môi trườngs∈S và a∈ A(s) của bài toán học tăng cường Nếu sử dụng các mẫu liên tục của trạng thái, tứcS t , S t+1 , S t+2 , và hành độngA t , A t+1 , A t+2 , , trạng thái của môi trường dùng để huấn luyện mạng Neuron sẽ là các biến ngẫu nhiên không độc lập và phân bố không đều, gây ra hiện tượng overfitting cho mô hình máy học Ngoài ra, để hoạt động hiệu quả, các mô hình máy học cần được học dùng một tập con (mini-batch) của dữ liệu ngõ vào thay vì mọi điểm dữ liệu Chính vì những lý do này, [19] đã sử dụng một bộ nhớ lặp để chứa dữ liệu dùng để huấn luyện mạng Neuron cho các vấn đề học tăng cường Cụ thể, các mạng Neuron trong học sâu tăng cường nói chung và giả thuật Actor-Critic nói riêng thường có ngõ vào là trạng thái của môi trường và cặp trạng thái-hành động, là những thành phần con của tập kinh nghiệmE được đề cập ở giải thuật 1 Vì vậy, bộ nhớ lặp có dung lượng C bất kỳ sẽ chứa các mẫu kinh nghiệm E0,E1, cho đến khi bộ nhớ tràn,

E0,E1, sẽ được thay thế bằng EC,EC +1, , và cứ tiếp tục như vậy Khi huấn luyện, tập huấn luyện con với kích thước D nhất định sẽ được lựa chọn ngẫu nhiên từ D kinh nghiệm E trong bộ nhớ lặp, từ đó loại bỏ sự không độc lập của ngõ vào dùng để huấn luyện Ngoài ra, vì mạng θ được dùng làm mục tiêu tối ưu của mạng ϕ theo công thức cập nhật (3.45), việc cập nhậtθ theo phương trình Bellman ở (3.16) có thể không hội tụ. [19] cũng là công trình nền móng giải quyết thành công vấn đề này khi giới thiệu thêm mạng Neuron mục tiêu θ ′ dùng để ước lượng giá trị q θ ′ (s, a) và sử dụng q θ ′ (s, a) để làm mục tiêu để cập nhật trọng số cho θ θ k+1 ←θ k +β∇ θ r+γmax a ′ q θ ′ (s ′ , a ′ )−q θ k (s, a)

, (3.46) và sauτ bước thời gian tùy ý, θ ′ sẽ được cập nhật bằng cách thay toàn bộ các trọng số của mạng mục tiêu bằng toàn bộ trọng số của mạng Neuron đang học giá trị của q ( s, a) θ t=τ ′ =θ t=τ (3.47) Áp dụng các kết quả đột phá từ công trình nghiên cứu [19], [20] đã phát triển giải thuật học sâu Gradient chiến lược xác định (Deep Deterministic Policy Gradient) được tóm tắt ở bảng giải thuật 3

1: Khởi tạo mạng Neuronϕdựng để ước lượng chiến lược tối ưu xỏc địnhà ϕ (s)và mạng Neuron θ dựng để ước lượng hàm giỏ trị hành động q à (s, a) với a =à ϕ (s) một cỏch ngẫu nhiên

2: Khởi tạo mạng Neuron ϕ ′ và mạng Neuron θ ′ là các mạng mục tiêu có ngõ ra lần lược là à ′ (s) vàq ′ (s, a), sao cho tại thời điểm ban đầu, ϕ ′ ←ϕ và θ ′ ←θ

3: Khởi tạo bộ nhớ lặp R có dung lượng C

4: Khởi tạo hệ số suy hao 0< γ ≤1

5: Khởi tạo hệ số cập nhật 0< η ≤1

6: Khởi tạo bước cập nhật mạng mục tiêu τ

8: Khởi tạo một hàm nhiễu N bất kỳ để mô phỏng quá trình khám phá

14: Lưu kinh nghiệm Et= (s t+1 , r t+1 , s t , a t )vào bộ nhớ lặp R

15: if |R| ≥D với D là độ lớn của tập con dùng để huấn luyện then

16: Chọn ngẫu nhiên Dmẫu Ei ∈R∀i

18: Cập nhật Critic θ←arg minθ D 1 P i

20: Cập nhật Actor theo định lý Gradient chiến lược xác định

Mô hình mạng Massive MIMO

Ước lượng kênh truyền

Như đã trình bày ở Chương 2, đáp ứng kênh truyền giữa BS thứ j và UE thứk trong cell thứ l là vector ngẫu nhiên có phân bố Gauss đa biến chuẩn, tức là có kỳ vọng băng

0 và ma trận tương quan R j lk (2.3) Ở Chương 2, luận văn đã đề cập đến phương pháp xác định giá trị các phần tử trên đường chéo chính của R j lk theo độ lợi trung vị Υ, suy hao đường truyềnαvà khoảng cách giữa BS và UEd j lk ở (2.5) Các phần tử còn lại trong

R j lk phụ thuộc vào cách phân bố M antenna trên BS, như phân bố theo mảng cách đều, phân bố mạng lưới, hình trụ, Để xác định các phần tử khác củaR j lk , luận văn lựa chọn phân tích theo mô hình màM antenna được phân bố theo dãy phân cách đều (ULA), với khoảng cách giữa 2 antenna liên tiếp là d H và thành phần đa đường thứ n có góc tới ϕ¯ n so với dãy antenna (Hình 4.2).

Gọi g n ∈C là đáp ứng của kênh truyền giữa thành phần đa đường thứ n và attenna đầu tiên của dãy ULA Khi đó, đáp ứng của toàn bộ dãy là an ∈C M a n =g n h

(4.2) và đáp ứng của toàn bộ kênh truyền đối với N thành phần đa đường chồng lấp lên nhau là h j lk N

Khi N → ∞, định lý giới hạn trung tâm làm cho (4.3) tuân theo (2.3), với R j lk E hPN n a n a H n i

Xét phần tử(x, y) của R j lk

(4.4) có thể thấy, thông sốPN n E[|g n | 2 ] là độ lợi trung bình của độ lợi kênh truyền trung bình của BS thứ j đến UE thứ k trong nhân tử thứ l, vì vậy PN n E[|g n | 2 ] =β lk j ở (2.4) Ngoài ra,

R j lk x,y không phụ thuộc vào từng giá trị x, y mà chỉ phụ thuộc vào khoảng cách (x−y), nên có thể kết luận R j lk là một ma trận Toeplitz Giả sử trong môi trường không có hoặc có rất ít vật cản phản xạ hay tán xạ ở gần BS, dẫn tới các thành phần đa đường được giả sử là cùng xuất phát từ cụm các vật thể tán xạ ở gần UE Giả thiết này làm choϕ¯ n =ϕ+δ với ϕ là góc tới xác định giữa UE và BS, δ là độ biến thiên so với ϕ có độ lệch chuẩnσ δ Trong trường hợp đơn giản nhất, δ ∼N 0, σ ϕ 2 với σ ϕ

Ngày đăng: 30/07/2024, 16:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN