1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật viễn thông: Phân bổ công suất hệ thống cell-free massive mimo bằng phương pháp học sâu

112 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân bổ công suất hệ thống cell-free massive MIMO bằng phương pháp học sâu
Tác giả Phạm Thế Linh
Người hướng dẫn PGS. TS. Hà Hoàng Kha
Trường học Trường Đại học Bách Khoa - ĐHQG-HCM
Chuyên ngành KỸ THUẬT VIỄN THÔNG
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 112
Dung lượng 1,9 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN (16)
    • 1.1. Tổng quan và xu hướng phát triển của thông tin vô tuyến (16)
    • 1.2. Lý do chọn đề tài (21)
    • 1.3. Mục tiêu và nhiệm vụ của luận văn (22)
    • 1.4. Đối tượng và phạm vi nghiên cứu (22)
    • 1.5. Phương pháp nghiên cứu (23)
    • 1.6. Bố cục luận văn (23)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ KÊNH TRUYỀN, HỆ THỐNG CELL- (25)
    • 2.1. Lý thuyết cơ bản về mô hình kênh truyền cơ bản (25)
    • 2.2. Tổng quan về mạng tế bào (29)
    • 2.3. Kỹ thuật MIMO (32)
    • 2.4. Mạng massive MIMO (33)
    • 2.5. Mạng cell-free massive MIMO (35)
    • 2.6. Lý thuyết cơ bản về toán tối ưu (37)
      • 2.6.1. Bài toán tối ưu lồi (39)
      • 2.6.2. Thuật toán block coordinate descent (41)
    • 2.7. Kết luận chương (42)
  • CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VỀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG (44)
    • 3.1. Giới thiệu tổng quan về khái niệm cơ bản trong học tăng cường (44)
    • 3.2. Thuật toán học tăng cường (46)
      • 3.2.1. Quá trình quyết định Markov (48)
      • 3.2.2. Phương trình Bellman (53)
      • 3.2.3. Phương pháp tối ưu chiến thuật (55)
    • 3.3. Thuật toán học tăng cường sâu deep Q-learning (59)
    • 3.4. Phương pháp học tăng cường nhiều agent (63)
    • 3.5. Kết luận chương (65)
  • CHƯƠNG 4: PHÂN BỔ CÔNG SUẤT ĐƯỜNG UPLINK TRONG HỆ THỐNG CELL-FREE MASSIVE MIMO (66)
    • 4.1. Mô hình hệ thống cell-free massive MIMO (66)
      • 4.1.1. Pha huấn luyện đường uplink (67)
      • 4.1.2. Đường truyền uplink (69)
    • 4.2. Phân tích tốc độ dữ liệu có thể đạt được trên đường uplink (70)
    • 4.3. Phân bổ công suất trên đường uplink bằng thuật toán block coordinate descent (76)
    • 4.4. Thuật toán học tăng cường trong phân bổ công suất trong hệ thống cell-free (83)
      • 4.4.1. Phân tích bài toán (83)
      • 4.4.2. Thuật toán huấn luyện (86)
      • 4.4.3. Trạng thái (87)
      • 4.4.4. Hành động (90)
      • 4.4.5. Phần thưởng (90)
    • 4.5. Kết luận chương (91)
  • CHƯƠNG 5: KẾT QUẢ VÀ PHÂN TÍCH (92)
    • 5.1. Mô phỏng mô hình hệ thống cell-free massive MIMO (92)
    • 5.2. Kết quả mô phỏng (96)
    • 5.3. Kết luận chương (107)
  • CHƯƠNG 6: KẾT LUẬN CHUNG VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO . 93 6.1. Kết luận (108)
    • 6.2. Hướng phát triển (109)
  • TÀI LIỆU THAM KHẢO (110)

Nội dung

GIỚI THIỆU TỔNG QUAN

Tổng quan và xu hướng phát triển của thông tin vô tuyến

Hệ thống thông tin vô tuyến được ra đời chỉ trong vài thập kỉ trở lại đây, nhưng đã đạt được nhiều thành tựu to lớn Đầu những năm 1980, hệ thống thông tin 1G ra đời và được áp dụng đầu tiên tại Mĩ Mặc dù hệ thống 1G còn nhiều khuyết điểm như tốc độ dữ liệu thấp, chỉ nằm vào khoảng 2 Kbps, độ phủ sóng nhỏ, chất lượng cuộc gọi thấp, nhưng hệ thống thông tin 1G đã đánh dấu những bước đầu tiên trong công cuộc nghiên cứu và phát triển hệ thống thông tin Sau dó khoảng một thập kỉ, hệ thống thông tin 2G ra đời và đã áp dụng của kĩ thuật mới đa truy cập phân chia theo thời gian (TDMA) và hệ thống thông tin di động toàn cầu (GSM) Nhờ đó mà hệ thống thông tin 2G đạt được nhiều kết quả tốt như tốc độ dữ liệu được cải thiện lên 10 Kbps, chất lượng cuộc gọi tốt hơn, độ bảo mật cao hơn, băng thông được sử dụng hiệu quả hơn khi so với hệ thống thông tin 1G và cho phép nhiều người dùng trên cùng một kênh truyền Ngoài ra, hệ thống thông tin 2G cung cấp thêm dịch vụ mới, như tin nhắn và email Tuy nhiên, hệ thống 2G còn tồn tại những khuyết điểm như hỗ trợ dữ liệu phức tạp (như phim, ảnh) không tốt và độ phủ sóng không cao Những khuyết điểm này đã được khắc phục khi hệ thống thông tin 3G ra đời Hệ thống thông tin 3G hỗ trợ tốc độ dữ liệu tăng gấp nhiều lần, lên đến 2 Mbps, cho cả trường hợp người dùng di chuyển và hỗ trợ thêm chuyển vùng dữ liệu quốc tế Tuy nhiên, đổi lại những ưu điểm trên thì băng thông của hệ thống thông tin 3G rộng hơn và tiêu tốn nhiều năng lượng hơn hệ thống thông tin 2G Nhiều năm sau, hệ thống thông tin 4G được tạo ra và được áp dụng kĩ thuật mới là đa truy cập phân chia theo tần số trực giao (OFDMA), kết hợp giữa đa truy cập phân chia theo mã (CDMA) và IS-95 Nhờ vậy, hệ thống có thể chia kênh thành nhiều băng hẹp để truyền dữ liệu hiệu quả hơn Hệ thống thông tin 4G cung cấp tốc độ dữ liệu lên đến 1 Gbps đối với

LUẬN VĂN THẠC SĨ 2 Linh Pham người dùng đang đứng yên và 1-100 Mbps cho người dùng đang di chuyển Đồng thời cho phép chạy các ứng dụng phức tạp như cuộc gọi video, dịch vụ nhắn tin đa phương tiện, Dù vậy, hệ thống thông tin 4G vẫn còn những khuyết điểm như gặp nhiều lỗi trong quản lý vị trí, quản lý chuyển vùng và đảm bảo độ bảo mật Những năm gần đây, hệ thống thông tin 5G đã ra đời và bắt đầu được áp dụng rộng rãi trên thế giới Hệ thống thông tin 5G hỗ trợ tốc độ dữ liệu gấp mười lần hệ thống thông tin 4G, độ trễ giữa thiết bị đầu cuối giảm, đạt hiệu suất cao hơn Tuy nhiên, dựa trên những báo cáo số liệu gần đây thì hệ thống thông tin 5G có thể sẽ không đáp ứng nổi nhu cầu dữ liệu của người dùng trong tương lai

Theo báo cáo của Ericsson [1] vào quý thứ ba năm 2021, lưu lượng dữ liệu di động trong quý 3 năm 2021 tăng 42% so với quý 3 năm 2020 Tổng lưu lượng dữ liệu trong quý 3 năm 2021 đạt đến 78 Exabyte Sự tăng trưởng lưu lượng dữ liệu di động tăng nhanh như vậy chủ yếu là do số lượng điện thoại thông minh đang ngày càng tăng, khối lượng dữ liệu dịch vụ trung bình trên mỗi thuê bao tăng và nhu cầu xem nhiều nội dung có dữ liệu nặng như nội dung hình ảnh, video

Hình 1.1: Thống kê lưu lượng dữ liệu di động theo quý trong năm 2014-2021 [1] Theo những dự đoán trong bài báo [2] về ước lượng xu hướng phát triển thuê bao của hệ thống thông tin di động từ những năm 2020-2030, tổng lưu lượng toàn cầu đạt

607 Exabyte/tháng vào năm 2025 và 5016 Exabyte/tháng vào năm 2030 Đối với trên từng thuê bao, lưu lượng thuê bao trên mỗi đăng kí thuê bao có thể đạt mức 39.4

LUẬN VĂN THẠC SĨ 3 Linh Pham

GB/tháng vào năm 2025 và 257.1 GB/tháng vào năm 2030 Từ những số liệu, ta thấy rằng lưu lượng dữ liệu có thể được xem như tăng theo hàm mũ Do vậy, nếu như lưu lượng dữ liệu vẫn giữ nguyên mức tăng hằng năm như vậy thì hệ thống thông tin 5G sẽ không đáp ứng kịp tốc độ tăng trưởng lưu lượng này a) Tổng lưu lượng toàn cầu b) Lưu lượng dữ liệu trên một thuê bao

Hình 1.2: Dự đoán xu hướng phát triển của kết nối di động toàn cầu 2020-2030 [2] Vậy nên, hệ thống thông tin 6G đã được nghiên cứu và phát triển với các tiêu chí như khả năng mạnh mẽ, vượt trội hơn hệ thống thông tin 5G Tốc độ dữ liệu của hệ

LUẬN VĂN THẠC SĨ 4 Linh Pham thống thông tin 6G đạt đến cao nhất là 1 Tbps với độ trễ thiết bị đầu cuối thấp hơn 1 ms

Hệ thống thông tin 6G có thể cho phép cung cấp tốc độ Gbps ở mọi nơi, kể cả trong những khu vực như bầu trời (10000 km) và đại dương (20 dặm hải lý) Hiệu suất phổ của hệ thống cũng được cải thiện và đạt đến 100 bps/Hz Đồng thời, hệ thống thông tin 6G tiết kiệm năng lượng hơn và cho phép thiết bị di động không cần đến các bộ sạc riêng nhờ vào công nghệ pin tiên tiến Hệ thống thông tin 6G còn được tích hợp thêm các chức năng vệ tinh, trí tuệ nhân tạo, thực tế ảo,

Bảng 1.1 Bảng so sánh yêu cầu dành cho hệ thống 4G, 5G, 6G [2]

Tốc độ dữ liệu cao nhất 1 Gbps 10 Gbps 1 Tbps Độ trễ đầu cuối 100 ms 10 ms 1 ms

Hiệu suất phổ cao nhất 15 bps/Hz 30 bps/Hz 100 bps/Hz

Hỗ trợ di động > 350 km/h > 500 km/h > 1000 km/h

Tích hợp vệ tinh Không Không Toàn bộ

Tích hợp AI Không Một phần Toàn bộ

Tích hợp cho xe tự hành Không Một phần Toàn bộ

Thực tế ảo Không Một phần Toàn bộ

Giao thức Thz Không Bị giới hạn Mở rộng

Dịch vụ hỗ trợ Video VR, AR Tương tác ảo

Kiến trúc MIMO massive MIMO Bề mặt thông minh

Tần số tối đa 6 GHz 90 GHz 10 THz

Những yêu cầu của hệ thống 6G, ngoài việc phục vụ tốc độ dữ liệu cao, độ trễ thấp cho các thiết bị di động, được nhắm đến để phục vụ cho các thiết bị thông minh và ứng dụng thông minh Như trong [3], hệ thống 6G sẽ được áp dụng trong thực tế ảo mở rộng, cho phép bắt chuyển động, tương tác của người dùng với tốc độ truyền dữ liệu cao Hay như trong tự động hóa công nghiệp, các sản phẩm được sản xuất với độ chính xác cao, độ tin cậy cao, độ trễ thấp, hoạt động trong thời gian thực với độ lệch tính bằng micro giây Trong ứng dụng xe tự hành, hệ thống 6G cho phép các phương tiện giao thông hoạt động thông minh với độ trễ thấp, phạm vi hoạt động rộng

LUẬN VĂN THẠC SĨ 5 Linh Pham

Với những yêu cầu như vậy, nhiều công nghệ hiện đại đã được áp dụng Bảng 1.2 sẽ trình bày những công nghệ đặc trưng đang được tiến hành nghiên cứu nhằm mục tiêu xây dựng hệ thống thông tin 6G:

Bảng 1.2: Bảng công nghệ áp dụng cho hệ thống thông tin 6G dựa trên [2] và [4]

Kết nối ở tần số terahertz

Công nghệ này sẽ sử dụng dải băng tần terahertz Do đó, công nghệ sẽ cung cấp dải băng rộng hơn và cho phép độ lợi được khuếch đại và triển khai với số lượng lớn antenna Đa truy cập không trực giao (NOMA)

NOMA sẽ cho phép chia sẻ phổ giữa người dùng Hiệu suất phổ lớn của NOMA đạt được bằng cách tận dụng các điều kiện kênh khác nhau của người dùng hoặc sự khác biệt giữa yêu cầu chất lượng của từng dịch vụ

Hệ thống cell-free massive MIMO là một hệ thống được xây dựng dựa trên hệ thống massive MIMO nhưng không phân chia thành các khu vực tế bào Mạng cell-free massive MIMO kế thừa ưu điểm của hệ thống massive MIMO, đồng thời không chịu ảnh hưởng bởi địa hình

Kết nối và chia sẽ phổ động và thông minh

Hệ thống trí tuệ thông minh nhân tạo được sử dụng để giải quyết độ phức tạp lớn trong tính toán khi triển khai hệ thống 6G Bằng cách để hệ thống học thông tin từ kênh truyền, hệ thống tự động đề ra các giao thức phù hợp

Truy cập không dây và kết nối mạng không dây dựa trên chuỗi khối

Chuỗi khối là một chuỗi các khối thông tin được kết nối bằng con trỏ băm để ghi và lưu trữ cơ sở dữ liệu, được chia sẽ công khai Chuỗi khối sẽ được tích hợp và chia sẻ các tài nguyên khác nhau giữa các bên khác nhau trong mạng không dây như mạng kết nối điện từ chuỗi khối (B-RAN),

Vô tuyến dựa trên quang tử

Kỹ thuật trộn hỗn hợp quang được áp dụng vào phương pháp tạo tần số terahertz Kỹ thuật này khắc phục giới hạn băng thông của phần cứng, có hiệu suất năng lượng cao, băng thông rộng và phạm vi điều chỉnh lớn

LUẬN VĂN THẠC SĨ 6 Linh Pham

Phạm vi nghiên cứu của luận văn sẽ chỉ tập trung vào phân tích hệ thống cell-free massive MIMO.

Lý do chọn đề tài

Hệ thống cell-free massive MIMO là một trong những công nghệ được nghiên cứu để áp dụng trong hệ thống 6G Hệ thống không giới hạn điểm đặt của các điểm truy cập, cho phép các điểm truy cập gần với thiết bị người dùng và đảm bảo hiệu suất phổ cao Tuy nhiên, để đạt được hiệu suất phổ cao, hệ thống cell-free massive MIMO yêu cầu một chiến lược tối ưu để phân bổ công suất Chính vì vậy, nhiệm vụ trong luận văn sẽ hướng tới phân bổ công suất trong hệ thống thông tin cell-free massive MIMO Luận văn sẽ hướng tới những điểm chính sau :

- Hệ thống thông tin cell-free massive MIMO là hệ thống được phát triển từ hệ thống massive MIMO Hệ thống này kế thừa những ưu điểm của hệ thống massive MIMO, đồng thời cải thiện hiệu suất phổ, không gặp trở ngại về mặt địa lý Hệ thống cell-free massive MIMO hứa hẹn có thể đáp ứng được nhiều tiêu chí của hệ thống thông 6G

- Vấn đề phân bổ công suất là vấn đề được chú trọng trong một hệ thông tin Hai cách thức tối ưu thường được sử dụng là tổng hiệu suất phổ và công bằng tỉ lệ hiệu suất phổ Luận văn sẽ chỉ hướng tới phân bổ công suất tối ưu hóa tổng hiệu suất phổ Khi có một hệ thống lớn mà mỗi thiết bị người dùng chỉ gây can nhiễu cho một tập con nhỏ của các thiết bị người dùng Như vậy, hệ thống sẽ tồn tại khả năng các thiết bị người dùng có thể đạt được hiệu suất phổ lớn hơn đáng kể nhưng thiết bị người dùng này sẽ không làm ảnh hưởng đến các thiết bị khác có trạng thái kênh truyền xấu

- Phương pháp học tăng cường là phương pháp học máy đang được ứng dụng trên nhiều lĩnh vực Phương pháp cho phép mạng huấn luyện thay đổi, đưa ra quyết định dựa trên các trạng thái của môi trường, từ đó tìm ra một chiến thuật tối ưu nhất Ưu điểm của mạng này là học trực tiếp từ môi trường nên có thể thích nghi sự thay đổi liên tục của kênh truyền

LUẬN VĂN THẠC SĨ 7 Linh Pham

Từ những định hướng trên, luận văn được đặt tên là: “PHÂN BỔ CÔNG SUẤT

HỆ THỐNG CELL-FREE MASSIVE MIMO BẰNG PHƯƠNG PHÁP HỌC SÂU”

Mục tiêu và nhiệm vụ của luận văn

Dựa trên các định hướng nêu ở mục trước, luận văn sẽ hướng đến những kiến thức và kết quả sau đây:

- Nghiên cứu và trình bày lý thuyết về hệ thống thông tin cell-free massive MIMO

- Mô hình hóa, phân tích tín hiệu, hiệu suất phổ trên đường uplink của hệ thống cell-free massive MIMO Giải bài toán phân bổ công suất tối đa tổng hiệu suất phổ bằng thuật toán block coordinate descent

- Ứng dụng mạng học tăng cường để giải quyết bài toán phân bổ công suất để đạt được cực đại hóa tổng hiệu suất phổ trong hệ thống cell-free massive MIMO

- Mô phỏng, đánh giá, so sánh kết quả của chiến thuật học tăng cường.

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn bao gồm:

- Hệ thống cell-free massive MIMO và vấn đề phân bổ công suất cực đại tổng hiệu suất phổ trên đường uplink

- Kỹ thuật học tăng cường được ứng dụng để giải quyết bài phân bổ công suất cực đại tổng hiệu suất phổ trên đường uplink

Luận văn sẽ tập trung nghiên cứu vào phân bổ công suất trong hệ thống cell-free massive MIMO Do đó, các nghiên cứu được giới hạn trong phạm vi sau đây:

- Kênh truyền trong hệ thống cell-free Massive MIMO được mô hình hóa bằng large-scale fading và small-scall fading Trong đó, hệ số large-scale fading được xây dựng dựa trên mô hình suy hao đường đi Còn hệ số small-scale fading độc lập và tuân theo phân phối đồng nhất 𝑁(0,1)

- Dữ liệu thông tin trạng thái kênh truyền sẽ được chia sẽ giữa các điểm truy cập và đơn vị xử lý trung tâm (kết nối với tất cả điểm truy cập) Quá trình chia sẽ dữ liệu xem như không tiêu tốn năng lượng

- Điểm truy cập ước lượng kênh truyền dựa trên đặc tính thống kê

LUẬN VĂN THẠC SĨ 8 Linh Pham

- Các giải thuật được đề cập trong luận văn được xem như là được thực hiện ở đơn vị xử lý trung tâm và kết quả được trả về cho các điểm truy cập.

Phương pháp nghiên cứu

Phương pháp nghiên cứu được trình bày qua các bước sau:

• Thu thập các tài liệu và công trình nghiên cứu liên quan đến phân bổ công suất trong hệ thống cell-free massive MIMO và nghiên cứu, ứng dụng mạng học tăng cường trong lĩnh vực viễn thông Tài liệu sẽ được lấy từ các nguồn uy tín như IEEEXplore, scholar.google.com,

• Dựa trên các công trình khoa học trước đó mà mô phỏng hệ thống cell-free massive MIMO

• Tiến hành phân tích bài toán phân bổ công suất trên đường uplink trong hệ thống cell-free massive MIMO Từ đó, ứng dụng phương pháp học tăng cường để giải quyết bài toán

• Viết chương trình mô phỏng hệ thống cell-free massive MIMO và tiến hành chạy thử nghiệm phân bổ công suất bằng phương pháp học tăng cường Thu thập kết quả trên các phần mềm Python, Matlab Phân tích, so sánh và nhận xét các kết quả thu được của phương pháp học tăng cường

• Viết báo cáo về quá trình thực hiện, các phân tích rút ra được từ kết quả thu được, cuối cùng là đưa ra kết luận và hướng phát triển tiếp theo cho tương lai.

Bố cục luận văn

Luận văn sẽ được trình bày thành 6 chương chính như sau:

- Chương 1 sẽ giới thiệu tổng quan về xu hướng phát triển của hệ thống thông tin di động Từ đó, luận văn sẽ dẫn tới lý do chọn đề tài và chọn đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu

- Chương 2 sẽ trình bày cơ sở lý thuyết cơ bản kênh truyền, mạng tế bào, massive MIMO và hệ thống cell-free massive MIMO và cung cấp lý thuyết về toán tối ưu và thuật toán ứng dụng ở những chương sau

- Chương 3 sẽ trình bày cơ sở lý thuyết về phương pháp học tăng cường và các dạng mở rộng của phương pháp này

LUẬN VĂN THẠC SĨ 9 Linh Pham

- Chương 4 sẽ mô hình hóa hệ thống cell-free massive MIMO và tiến hành phân tích tín hiệu, hiệu suất phổ, phương pháp tối ưu hóa tổng hiệu suất phổ trên đường uplink Phương pháp học tăng cường, mà luận văn đề xuất, sẽ được trình bày tại chương này

- Chương 5 mô phỏng hệ thống cell-free massive MIMO đã trình bày ở Chương 4 và trình bày kết quả sau khi ứng dụng phương pháp học tăng cường

- Chương 6 tóm tắt tắt lại kết quả luận văn đồng thời đề xuất các hướng phát triển tiếp theo

LUẬN VĂN THẠC SĨ 10 Linh Pham

CƠ SỞ LÝ THUYẾT VỀ KÊNH TRUYỀN, HỆ THỐNG CELL-

Lý thuyết cơ bản về mô hình kênh truyền cơ bản

Trong một mạng viễn thông, phương pháp truyền thông tin được chia thành hai loại cơ bản là phương pháp truyền dẫn hữu tuyến và phương pháp truyền dẫn vô tuyến Phương pháp truyền dẫn hữu tuyến là phương pháp truyền dẫn thông tin thông qua các dây dẫn như dây cáp đồng, cáp quang, Các dây dẫn cung cấp một môi trường hoàn hảo cho truyền dẫn thông tin nên mạng hữu tuyến thường hoạt động ổn định, có tốc độ truyền cao, phân tích dễ dàng dữ liệu truyền Nhưng mạng hữu tuyến chỉ có thể được lắp đặt cố định nên độ linh động của mạng thấp Ngược lại, phương pháp truyền dẫn thông tin vô tuyến không sử dụng dây dẫn mà truyền dẫn thông tin qua môi trường xung quanh

Do đó, mạng vô tuyến có độ linh động cao Tuy nhiên, tín hiệu lan truyền trong môi trường thường bị sai lệch do sự cản trở của các vật thể như nhà cửa, xe cộ, cây cối, …

Do đó, tín hiệu thu được tại máy thu được đặt tại những vị trí khác nhau sẽ có dạng khác nhau Việc phân tích tín hiệu thu được trở nên khó khăn hơn so với tín hiệu trong mạng hữu tuyến

Nhằm phân tích sự lan truyền của tín hiệu trong môi trường, tín hiệu phát và tín hiệu thu sẽ được mô hình hóa Tất cả tín hiệu thu và phát được xem như đều có dạng số thực do các bộ điều chế sử dụng oscillators tạo tín hiệu thực hình sin Tuy nhiên, để đơn giản hóa quá trình phân tích tín hiệu, mô hình kênh truyền có đáp ứng kênh là đáp ứng tần số phức Giả định này xuất phát từ việc kênh truyền chỉ thay đổi biên độ và pha của tín hiệu phát tại từng tần số nên tín hiệu thu cũng có dạng số thực Như vậy, phần thực của tín hiệu phức tương ứng với phần thực của tín hiệu điều chế và giải điều chế Tín hiệu phát được mô hình hóa như sau [5]:

LUẬN VĂN THẠC SĨ 11 Linh Pham

(2.1) trong đó, 𝑢(𝑡) = 𝑥(𝑡) + 𝑦(𝑡) là một tín hiệu băng gốc, dạng phức với thành phần đồng pha 𝑥(𝑡) = Re{𝑢(𝑡)}, thành phần vuông pha 𝑦(𝑡) = Im{𝑢(𝑡)} và tần số 𝑓 𝑐 là tần số sóng mang

Tín hiệu thu được mô hình hóa tương tự như sau:

𝑟(𝑡) = Re{𝑣(𝑡)𝑒 𝑗2𝜋𝑓 𝑐 𝑡 } + 𝑛(𝑡) (2.2) trong đó, tín hiệu 𝑣(𝑡) phụ thuộc vào kênh mà 𝑠(𝑡) truyền qua và 𝑛(𝑡) là nhiễu Nếu 𝑠(𝑡) được truyền qua kênh truyền không thay đổi trong miền thời gian thì 𝑣(𝑡) = 𝑢(𝑡) ∗ ℎ(𝑡) với ℎ(𝑡) là đáp ứng xung của kênh truyền Thành phần Re{𝑣(𝑡)𝑒 𝑗2𝜋𝑓 𝑐 𝑡 } tương ứng với tín hiệu phát sau khi được lan truyền trong kênh truyền

Giả sử tín hiệu phát 𝑠(𝑡) với công suất phát 𝑃 𝑠 được truyền qua một kênh truyền cho trước, với tín hiệu nhận được tương ứng 𝑟(𝑡) với công suất thu 𝑃 𝑟 Định nghĩa suy hao đường truyền tuyến tính của kênh là tỉ lệ giữa công suất phát trên công suất thu:

Nếu tính toán suy hao đường truyền theo đơn vị dB:

Xem xét mô hình hóa môi trường giữa bên phát và bên thu, kênh truyền là môi trường kết nối giữa máy phát và máy thu nhằm phục vụ cho việc trao đổi thông tin Trong đó, truyền dẫn thông tin dựa máy phát và máy thu hoạt động dựa trên cơ chế lan truyền của sóng điện từ Sóng điện từ có khả năng lan truyền qua các môi trường khác nhau như rắn, lỏng, khí và chân không Cơ chế lan truyền có thể được chia thành ba quy luật, bao gồm phản xạ, nhiễu xạ và tán xạ Để đặc tả chi tiết cơ chế lan truyền sóng điện từ trong môi trường, phương trình Maxwell đã được áp dụng với điều kiện biên tương ứng với các vật thể chắn đường trong môi trường Tuy nhiên, bài toán giải phương trình Maxwell có độ phức tạp lớn Điều này đã gây khó khăn trong quá trình phân tích môi trường Vậy nên các mô hình mô phỏng lại cơ chế lan truyền sóng điện từ trong kênh truyền đã được ra đời Dựa trên mục tiêu dự đoán của mô hình, mô hình lan truyền được

LUẬN VĂN THẠC SĨ 12 Linh Pham chia thành hai loại, là mô hình lan truyền large-scale và mô hình lan truyền small-scale

Mô hình large-scale dùng để dự đoán cường độ tín hiệu thu trung bình ở một khoảng cách vĩ mô so với bên phát (hàng trăm hoặc hàng ngàn mét) Còn mô hình small-scale sẽ dự đoán biến thiên cường độ tín hiệu trong khoảng thời ngắn hoặc trong khoảng cách ngắn Phạm vi của luận văn sẽ chỉ tập trung vào mô hình large-scale fading Để mô hình hóa lan truyền large-scale fading, một số mô hình dựa trên đường truyền tín hiệu ra đời Ví dụ như mô hình không gian tự do cho phép dự đoán cường độ tín hiệu thu được khi không có vật cản giữa bên phát và bên thu Hay mô hình ray- tracing cho phép mô phỏng hóa tín hiệu thu được là tổng của tín hiệu phát khi lan truyền trong môi trường có nhiều vật cản Tuy nhiên, trong thực tế, hệ thống thông tin di động thường hoạt động trong môi trường lan truyền phức tạp mà không thể mô hình hóa chính xác bằng các mô hình kể trên Do đó, mô hình thực nghiệm đã được lựa chọn để dự đoán biến động trong môi trường thực tế như thành phố, khu đô thị, Luận văn sẽ chỉ giới thiệu mô hình Hata-COST231 được phát triển từ mô hình Hata Đây là mô hình ước lượng suy hao đường truyền, và hoạt động trong dải tần số lên đến 2 GHz Mô hình Hata-COST231 được công thức hóa như sau [5]:

+ (44.9 − 6.55 log 10 ℎ 𝐴𝑃 ) log 10 𝑑 + 𝐶 𝑚 (2.5) trong đó, 𝑎(ℎ 𝑈𝐸 ) là hệ số điều chỉnh, 𝑓 𝑐 là tần số sóng mang (MHz), ℎ 𝐴𝑃 là chiều cao của antenna thuộc điểm truy cập (m), ℎ 𝑈𝐸 là chiều cao antenna của người dùng (m), 𝑑 là khoảng cách giữa điểm truy cập và người dùng (km) 𝐶 𝑚 là độ đời (dB) Điều kiện ràng buộc của mô hình như sau: 1.5 GHz < 𝑓 𝑐 < 2 GHz, 30 m < ℎ 𝐴𝑃 < 200 m, 1 m 0 mà thõa mãn 𝑓(𝑥 ∗ ) ≤ 𝑓(𝑥) cho tất cả biến 𝑥 với |𝑥 − 𝑥 ∗ | < 𝛿 Trong trường hợp nhiều biến, thì tồn tại một 𝛿 > 0 mà thõa mãn 𝑓(𝐱 ∗ ) ≤ 𝑓(𝐱) cho tất cả biến 𝐱 với

2.6.1 Bài toán tối ưu lồi

Mục này của luận văn sẽ giới thiệu về bài toán tối ưu lồi [11], một dạng đặc biệt của bài toán tối ưu Bài toán tối ưu lồi có ưu điểm là dễ dàng phân tích và kiểm tra độ khả thi của thuật toán hơn Trong thực tế, một bài toán bất kì thường sẽ không tồn tại dạng tối ưu lồi

Nếu xét về mặt hình học, một tập được xem như là lồi nếu như đoạn thằng nối giữa hai điểm bất kì cũng nằm trong tập đó Như Hình 2.6a, đoạn thẳng nối giữa hai điểm bất kì 𝑥 1 , 𝑥 2 cũng nằm trong không gian tập hợp Trong khi đó, Hình 2.6b thì đoạn thẳng nối giữa hai điểm gặp vật cản là hai cạnh của không gian tập hợp

LUẬN VĂN THẠC SĨ 25 Linh Pham

Hình 2.6: Minh họa về một tập lồi Giả sử bất kì điểm 𝑥 1 , 𝑥 2 ∈ 𝐑 và bất kì hệ số 𝜆 với 𝜆 ∈ [0,1] thõa mãn:

𝜆𝑥 1 + (1 − 𝜆)𝑥 2 ∈ 𝐑 (2.15) được gọi là một tập lồi Một điểm có dạng như sau:

𝜆 1 𝑥 1 + ⋯ + 𝜆 𝐾 𝑥 𝐾 𝑣ớ𝑖 𝜆 1 + ⋯ + 𝜆 𝐾 = 1 𝑣à 𝜆 𝑖 ≥ 0, 𝑖 = 1, … , 𝐾 (2.16) là một tổ hợp lồi của các điểm 𝑥 1 , … , 𝑥 𝐾 Như vậy một tập được gọi là lồi khi và chỉ khi tập đó chứa mọi tổ hợp lồi của các điểm nằm trong tập

Bao lồi của một tập 𝑅 được kí hiệu là 𝐜𝐨𝐧𝐯(𝑅), là tập chứa tất cả tổ hợp lồi trong tập 𝑅:

𝑖 = 1, … , 𝑘 ; 𝛼 1 + ⋯ + 𝛼 𝑘 = 1} (2.17) Bao lồi 𝐜𝐨𝐧𝐯 𝑅 luôn luôn lồi Bao lồi là tập lồi nhỏ nhất chứa 𝑅 Hay nói một cách khác nếu như một tập lồi 𝐴 chứa tập 𝑅 thì bao lồi 𝐜𝐨𝐧𝐯 𝑅 là tập con của tập 𝐴

Một phương trình 𝑓: 𝐑 𝑛 → 𝐑 𝑚 có tập 𝐑 𝑚 là tập giá trị phương trình với đầu vào là tập 𝐑 𝑛 Tập xác định của phương trình là tập đầu vào có thể có của phương trình, được kí hiệu là 𝐝𝐨𝐦(𝑓) Một phương trình 𝑓: 𝐑 𝑛 → 𝐑 được coi là lồi nếu như tập xác định của nó là một tập lồi hay nói cách khác với mọi 𝑥, 𝑦 ∈ 𝐝𝐨𝐦(𝑓) và 0 ≤ 𝜆 ≤ 1:

𝑓(𝜆𝑥 + (1 − 𝜆)𝑦) ≤ 𝜆𝑓(𝑥) + (1 − 𝜆)𝑓(𝑦) (2.18) Nếu xét về mặt hình học, bất đẳng thức này có nghĩa là đoạn thẳng nối giữa hai điểm (𝑥, 𝑓(𝑥)) và (𝑦, 𝑓(𝑥)) nằm phía trên hoặc nằm trên đồ thị hàm 𝑓 Một phương trình 𝑓 được coi là lồi mạnh nếu như bất đẳng thức trên thõa mãn khi 𝑥 ≠ 𝑦 và 0 < 𝜆 < 1 Như

LUẬN VĂN THẠC SĨ 26 Linh Pham vậy, một phương trình được coi là lõm nếu như −𝑓 là hàm lồi và lõm mạnh nếu như −𝑓 là lồi mạnh

Một phương trình được coi là lồi nếu vả chỉ nếu mọi 𝑥 ∈ 𝐝𝐨𝐦(𝑓) và mọi 𝑣, phương trình 𝑔(𝑡) = 𝑓(𝑥 + 𝑡𝑣) là lồi trên tập xác định của chúng {𝑡|𝑥 + 𝑡𝑣 ∈ 𝐝𝐨𝐦(𝑓)} Đặc tính này cho phép kiểm tra một hàm được gọi lồi

Tổng của hai hàm lồi là một hàm lồi, tập xác định là giao của hai tập xác định Nếu 𝑓(𝑥) và 𝑔(𝑥) là hai hàm lồi thì 𝑓(𝑥) + 𝑔(𝑥) là hàm lồi và tập xác định 𝐝𝐨𝐦(𝑓(𝑥) + 𝑔(𝑥)) = 𝐝𝐨𝐦(𝑓(𝑥)) ∩ 𝐝𝐨𝐦(𝑔(𝑥))

Nếu các hàm số 𝑓 1 , 𝑓 2 , … , 𝑓 𝑚 là một hàm lồi thì:

𝑓(𝑥) = max(𝑓 1 (𝑥), 𝑓 2 (𝑥), … , 𝑓 𝑚 (𝑥)) (2.19) là một hàm lồi trên tập xác định là giao của tất cả tập xác định của tất cả hàm số trên

Một bài toán tối ưu lồi có biến tối ưu𝑥 ∈ 𝐑 𝑛 và hàm mục tiêu 𝑓 0 : 𝐑 𝑛 → 𝐑 có dạng như sau [11]: min 𝑓 0 (𝑥) st 𝑓 𝑖 (𝑥) ≤ 𝑎 𝑖 , 𝑖 = 1, … , 𝑚 (2.20) trong đó, phương trình 𝑓 1 , … , 𝑓 𝑚 : 𝐑 𝑛 → 𝐑 là lồi, thõa mãn:

𝑓 𝑖 (𝜆𝑥 + (1 − 𝜆)𝑦) ≤ 𝜆𝑓 𝑖 (𝑥) + (1 − 𝜆)𝑓 𝑖 (𝑦) (2.21) với mọi 𝑥, 𝑦 ∈ 𝐑 𝑛 và mọi 𝜆 ∈ 𝐑 với 𝜆 ≥ 0

2.6.2 Thuật toán block coordinate descent

Kết luận chương

Chương 2 đã đi vào chi tiết của từng hệ thống MIMO, massive MIMO và cell-free Massive MIMO Những kiến thức cơ bản này sẽ được dùng làm nền tảng để mô phỏng

LUẬN VĂN THẠC SĨ 28 Linh Pham hóa hệ thống cell-free massive MIMO Ở phần lý thuyết toán tối ưu, luận văn đã tâp trung vào thuật toán block coordinate descent Đây là thuật toán sẽ được sử dụng để giải bài toán phân bổ công suất trong hệ thống cell-free massive MIMO

LUẬN VĂN THẠC SĨ 29 Linh Pham

CƠ SỞ LÝ THUYẾT VỀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG

Giới thiệu tổng quan về khái niệm cơ bản trong học tăng cường

Mục này sẽ giới thiệu và đưa ra những khái niệm cơ bản, thường được sử dụng một mạng học sâu tăng cường [13] Đầu tiên, đó là những khái niệm chủ thể (agent), môi trường (environment), hành động (action), trạng thái (state), phần thường (reward), chiến thuật (policy) Những khái niệm này là cốt lõi chính để xây dựng một mạng học tăng cường

Agent là đại diện cho một chủ thể mà mạng đang xem xét, có thể là con người, một sự vật, sự việc, mối liên kết, Môi trường là đại diện không gian xung quanh agent và là nơi mà agent tồn tại và tương tác bằng việc thực hiện tác vụ Những tác vụ tồn tại giữa agent với môi trường được định nghĩa bằng hành động Một hành động khi được agent thực hiện sẽ dẫn tới môi trường xung quanh agent thay đổi Như vậy, để định lượng được sự thay đổi của môi trường, định nghĩa trạng thái là những gì được quan sát và được định lượng để đại diện cho môi trường tại một bước thời gian nhất định Như vậy, khi agent thực hiện hành động trong mội trường thì môi trường phản ứng lại bằng cách chuyển dịch từ trạng thái này sang trạng thái khác Đồng thời, những phản hồi của môi trường được coi là thước đo kết quả trả về khi một agent hành động Những phản hồi của môi trường sẽ được gọi là phần thưởng Dựa trên phần thưởng cao hay thấp mà agent sẽ xác định được đâu là hành động đúng đắn nhất Thông thường, một agent sẽ phải tương tác nhiều lần với môi trường và tạo nên nhiều kết quả khác nhau Những cách thức mà một agent tương tác với môi trường được gọi là chiến thuật Một chiến thuật có thể là một hàm hoặc một bảng tra cứu Chiến thuật đóng vai trò quan trọng

LUẬN VĂN THẠC SĨ 30 Linh Pham trong việc xác định cách mà một agent hành động đối với môi trường tại một bước thời gian Do đó, mục tiêu của mạng học tăng cường là tạo ra một chiến thuật phù hợp cho agent nhằm mục tiêu đạt được phần thưởng cao nhất khi tương tác với môi trường tại từng bước thời gian

Hình 3.1: Quá trình tương tác của agent đối với môi trường

Xem xét tại một bước thời gian 𝑡 bất kì, một agent sẽ quan sát trạng thái hiện tại

𝑆 𝑡 của môi trường và phần thưởng 𝑅 𝑡 Sau đó, agent sử dụng chiến thuật của mình để xác định hành động 𝐴 𝑡 dựa trên trạng thái hiện tại 𝑆 𝑡 và phần thưởng 𝑅 𝑡 Agent sẽ thực hiện hành động 𝐴 𝑡 dẫn tới môi trường sẽ chuyển dịch sang trạng thái tiếp theo 𝑆 𝑡+1 Agent lúc này sẽ nhận được những thông tin phản hồi lại từ môi trường là trạng thái tiếp theo 𝑆 𝑡+1 và phần thưởng 𝑅 𝑡+1 Quá trình này sẽ xảy ra liên tục và tạo thành chuỗi một vòng lặp vô hạn hoặc kết thúc khi agent nhận được trạng thái kết thúc Một chuỗi trạng thái, hành động và phần thưởng sẽ được sinh ra:

𝜍 = (𝑆 0 , 𝐴 0 , 𝑅 0 , 𝑆 1 , 𝐴 1 , 𝑅 1 , … ) (3.1) Một chuỗi như thế này được gọi là một episode và lưu trữ cách thức mà agent tương tác lên môi trường Trong trường hợp số lượng trạng thái hữu hạn, một episode sẽ là một chuỗi từ trạng thái bắt đầu đến trạng thái kết thúc Chuyển dịch từ một trạng thái tới trạng thái tiếp theo sẽ tuân theo một trong hai quy tắc chuyển dịch xác định hoặc quy tắc chuyển dịch ngẫu nhiên Đối với quy tắc chuyển dịch xác định, trạng thái tiếp theo

𝑆 𝑡+1 tuân theo một quy luật nhất định, hoặc có thể được biễu diễn dưới dạng một hàm xác định:

LUẬN VĂN THẠC SĨ 31 Linh Pham

Do đó, sẽ chỉ có duy nhất một trạng thái tiếp theo được sinh ra từ trạng thái hiện tại 𝑆 𝑡 và hành động 𝐴 𝑡 Còn đối với quy tắc chuyển dịch ngẫu nhiên, trạng thái tiếp theo 𝑆 𝑡+1 sẽ dựa trên một xác suất chuyển dịch trạng thái và có thể mô hình hóa dưới dạng phân phối xác suất:

𝑆 𝑡+1 ~𝑝(𝑆 𝑡+1 |𝑆 𝑡 , 𝐴 𝑡 ) (3.3) Như vậy, sẽ tồn tại nhiều hơn một trạng thái tiếp theo khi agent ở trạng thái hiện tại 𝑆 𝑡 và thực hiện hành động 𝐴 𝑡

Thuật toán học tăng cường

Thuật toán học tăng cường là thuật toán cho phép một agent học từ tình huống hiện tại và đưa ra một hành động nhằm tối đa phần thưởng sinh ra Dựa theo [13], hai định nghĩa cần được chú ý trong học tăng cường đó là khai thác và khám phá Khai thác là khả năng tối đa hóa hiệu suất của agent bằng cách sử dụng kinh nghiệm sẵn có và hiệu suất thường được đánh giá bằng phần thưởng mong đợi Hay nói cách khác, agent tập trung thực hiện hành động hướng đến phần thưởng mong đợi cao nhất dựa trên thông tin hiện tại, thay vì thực hiện các hành động ngẫu nhiên khác có nguy cơ sẽ làm giảm đi phần thưởng mong đợi Còn khám phá nghĩa là tăng cường kinh nghiệm đã có bằng cách cho agent thực hiện hành động ngẫu nhiên nhằm tìm hiểu thêm về môi trường Những hành động ngẫu nhiên sẽ tiềm tàng những lợi ích lớn nhưng đồng thời cũng ẩn chứa nhiều rủi ro như làm giảm đi phần thưởng mong đợi, gây ra nguy hiểm cho hệ thống, Tuy nhiên, với số lượng khảm phá đủ lớn thì agent có khả năng đạt được càng nhiều lợi ích hơn về lâu dài hơn khi chỉ tập trung vào khai thác những gì sẵn có Cần phải có sự cân bằng đánh đổi giữa khám phá – khai thác để có thể đạt được hiệu suất cao

Xem xét một bài toán, một agent sẽ tương tác với môi trường đang ở trạng thái 𝑠 bằng cách thực hiện một hành động 𝑎 và nhận được phản hồi từ môi trường là một phần thưởng 𝑟 Agent sẽ chọn một hành động dựa trên một tập hành động, quy định tất cả các hành động có thể có của một agent Phần thưởng 𝑟 sẽ phụ thuộc vào hành động 𝑎 và trạng thái hiện tại 𝑠 Ban đầu, agent không có thông tin gì về phần thưởng đạt được Do đó, agent phải tương tác với môi trường và thông qua các lần thử và sai để đạt được kinh nghiệm Xét tại mỗi bước thời gian 𝑡, hành động 𝑎 của agent được chọn và phần thưởng

LUẬN VĂN THẠC SĨ 32 Linh Pham được sinh ra sau khi hành động được thực hiện Giá trị hành động mong muốn sẽ được tối đa hóa và có dạng như sau:

𝑞(𝑠, 𝑎) = 𝔼[𝑅 𝑡 |𝑆 𝑡 = 𝑠, 𝐴 𝑡 = 𝑎] (3.4) Bằng cách lựa chọn hành động 𝑎 có giá trị 𝑞(𝑠, 𝑎) lớn nhất thì bài toán sẽ được giải Tuy nhiên, trong thực tế, giá trị hành động 𝑞(𝑠, 𝑎) thường phải được ước lượng Gọi 𝑄(𝑠, 𝑎) là giá trị ước lượng, có giá trị gần nhất với 𝑞(𝑠, 𝑎) Khi ước lượng giá trị 𝑞(𝑠, 𝑎), sẽ có đánh đổi giữa khai thác – khám phá Giả sử giá trị 𝑄(𝑠, 𝑎) đã được biết trước, nếu agent luôn luôn thực hiện hành động có giá trị 𝑄(𝑠, 𝑎) lớn nhất, thì agent đang trở nên tham lam hơn, hay nói cách khác agent đang khai thác những gì có sẵn trong hàm giá trị 𝑄 Chiến thuật này được gọi là chiến thuật tham lam:

Tuy nhiên, nếu agent thực hiện các hành động khác thì agent được xem như đang khám phá những lựa chọn khác Để khai thác – khám phá được thực hiện đồng thời nhằm cải thiện chiến thuật, thuật toán 𝜖 – tham lam đã được áp dụng:

Thuật toán 3.1: Thuật toán 𝜖 – tham lam

1 Khởi tạo: Khởi tạo số xác suất 𝜖

2 for bước thời gian 𝑡 = 0, … do

3 Tạo số xác suất ngẫu nhiên 𝜗

5 Lựa chọn hành động ngẫu nhiên

7 Chọn hành động có giá trị 𝑄 lớn nhất

Thuật toán cho phép khai thác bằng cách chọn hành động ngẫu nhiên với xác suất 𝜖 và xác suất 1 − 𝜖 sẽ sử dụng chiến thuật tham lam để chọn hành động Xác suất 𝜖 sẽ được

LUẬN VĂN THẠC SĨ 33 Linh Pham lựa chọn phù hợp để khi số lượng bước thời gian tiến đến vô cùng thì 𝑄 𝑡 (𝑎) được đảm bảo sẽ hội tụ về 𝑞(𝑎)

3.2.1.Quá trình quyết định Markov

Quá trình quyết định Markov là một quá trình dùng để mô phỏng lại quá trình quyết định thực hiện tác vụ trong các tình huống nhất định Do đó, quá trình quyết định Markov thường được dùng để mô hình hóa lại môi trường, trạng thái và hành động trong thuật toán học tăng cường

Quá trình Markov là quá trình ngẫu nhiên rời rạc nhằm mục tiêu đơn giản hóa các mô phỏng ngẫu nhiên trong miền không gian liên tục Một quá trình Markov sẽ được định nghĩa bằng bộ số < 𝑺, 𝑷 >, trong đó 𝑺 = [𝑠 0 , 𝑠 1 , 𝑠 2 , … ] là tập trạng thái 𝑷 là ma trận xác suất chuyển dịch trạng thái với 𝑷 𝑖𝑗 là xác suất chuyển từ trạng thái hiện tại 𝑆 𝑖 tới trạng thái kế tiếp 𝑆 𝑗 Ma trận xác suất 𝑷 là một ma trận vuông và tổng của tất cả phần tử trong 𝑷 bằng 1 Trong trường hợp tập trạng thái 𝑺 là tập trạng thái liên tục hoặc vô hạn thì ma trận xác suất 𝑷 sẽ không thể biểu diễn được theo tập trạng thái, vậy nên gọi trạng thái hiện tại là 𝑠, trạng thái tiếp theo là 𝑠 ′ thì xác suất chuyển dịch trạng thái được đại điện bởi 𝑝(𝑠 ′ |𝑠) Mô hình quá trình Markov có thể được biễu diễn dưới dạng đơn giản như sau:

Hình 3.2: Mô tả mô hình quá trình Markov

Trong mô hình quá trình Markov, mỗi trạng thái, mỗi tình huống sẽ được đại diện bởi một vòng tròn và biến 𝑆 𝑡 nằm trong vòng tròn Một trạng thái chuyển dịch sang một trạng thái khác sẽ được đại diện bởi một mũi tên có hướng Tuy nhiên, trong thực tế, một trạng thái 𝑆 𝑡 có thể chuyển dịch sang nhiều hơn một trạng thái khác, cho nên mỗi mũi tên sẽ có một xác suất đại diện cho tỉ lệ chuyển trạng thái, được kí hiệu là 𝑝(𝑆 𝑡+1 |𝑆 𝑡 ) với 𝑆 𝑡+1 là trạng thái tiếp theo Tập hợp một chuỗi trạng thái liên tục như vậy sẽ được gọi là một chuỗi Markov Chuỗi Markov sẽ cung cấp một mô hình đơn giản hóa của chuyển dịch trạng thái, cho phép dễ hình dung hơn về cách thức hoạt động chuyển dịch trạng thái của môi trường Chuỗi Markov sẽ cung cấp một đặc tính hữu dụng được gọi

LUẬN VĂN THẠC SĨ 34 Linh Pham là đặc tính đồng nhất theo thời gian Đầu tiên, nếu trạng thái tiếp theo 𝑆 𝑡+1 chỉ phụ thuộc vào trạng thái hiện tại 𝑆 𝑡 thì xác suất chuyển dịch trạng thái hiện tại 𝑆 𝑡 sang 𝑆 𝑡+1 có thể được biểu diễn bằng chuỗi xác suất chuyển dịch của tất cả trạng thái trước đó hay:

𝑝(𝑆 𝑡+1 |𝑆 𝑡 ) = 𝑝(𝑆 𝑡+1 |𝑆 0 , 𝑆 1 , 𝑆 2 , … , 𝑆 𝑡 ) (3.6) Nếu như tại bất cứ bước thời gian 𝑡 nào và ở bất cứ trạng thái có thể có mà:

𝑝(𝑆 𝑡+2 = 𝑠 ′ |𝑆 𝑡+1 = 𝑠) = 𝑝(𝑆 𝑡+1 = 𝑠 ′ |𝑆 𝑡 = 𝑠) (3.7) thì phân phối chuyển dịch trạng thái là một hàm không đổi theo thời gian Tuy nhiên, trong thực tế, đặc tính đồng nhất theo thời gian sẽ không được bảo toàn do môi trường không ổn định hoặc xem xét nhiều agent hoạt động trong môi trường Để đánh giá kết quả của việc thực hiện một chuyển dịch trạng thái, thì các phản hồi từ môi trường, còn được gọi là phần thưởng, cần được đánh giá Tuy nhiên, quá trình Markov chỉ mô hình hóa chuyển dịch trạng thái Do dó, quá trình Markov đã được mở rộng thành quá trình phần thưởng Markov và chuyển đổi bộ giá trị đánh giá từ < 𝑺, 𝑷 > thành < 𝑺, 𝑷, 𝑅, 𝛾 > Trong đó, 𝑅 đại diện cho hàm phần thưởng nhận được khi chuyển dịch trạng thái, 𝛾 là hệ số chiết khấu phần thưởng Trong thực tế, các hành động được thực hiện liên tục, dẫn tới phần thưởng mới được sinh ra và phần thưởng cũ sẽ bị mất đi Vậy nên, việc đánh giá mỗi phần thưởng mới không đem lại nhiều ý nghĩa cho bài toán mà yêu cầu phải thực hiện nhiều hành động Vì vậy, để đánh giá khi một agent thực hiện nhiều hành động, thay vì sử dụng phần thưởng mới, chồng chất của giá trị phần thưởng trong một episode sẽ được sử dụng để đánh giá Chồng chất phần thưởng trong một episode được mô hình hóa như sau:

(3.8) trong đó, 𝑅 𝑡 = 𝑅(𝑆 𝑡 ) là phần thưởng nhận tại bước thời gian 𝑡 và 𝑇 đại diện cho bước thời gian ở trạng thái cuối cùng hoặc tổng số bước thời gian trong một episode hữu hạn Trong một bài toán, tồn tại trường hợp chồng chất phần thưởng trả về bằng nhau nhưng số lượng bước thời gian khác nhau Và khi số lượng bước thời gian càng ngắn mà cho các kết quả càng tốt sẽ được mong đợi Do đó, giá trị bước thời gian càng nhỏ thì giá trị phần thưởng phải càng lớn Để mô hình hóa những đặc trưng này, định nghĩa chiết khấu trả về là trọng số giảm phần thưởng, được kí hiệu là 𝛾 Mô hình hóa chồng chất phần thưởng khi có chiết khấu trả về như sau:

LUẬN VĂN THẠC SĨ 35 Linh Pham

(3.9) trong đó hệ số chiết khấu phần thường 𝛾 ∈ [0,1] Như vậy, khi bước thời gian tăng lên, thì phần thưởng trả về càng giảm Như vậy, thì mạng có thể vừa hướng tới tổng phần thưởng cao nhất vừa có số lượng bước thời gian ngắn nhất Tuy nhiên, trong trường hợp số lượng bước thời gian là vô hạn thì cần phải tránh trường hợp chiết khấu trả về tiến về vô cùng

Quá trình phần thưởng Markov chỉ thu được phần thưởng dựa trên trạng thái hiện tại Trong khi đó, một phần thưởng có thể phụ thuộc vào hành động nào được thực hiện tại bước thời gian đó Do đó, quá trình quyết định Markov đã được tạo ra nhằm mô hình hóa phần thưởng sinh ra từ trạng thái và hành động Quá trình quyết định Markov sẽ mở rộng bộ giá trị < 𝑺, 𝑷, 𝑅, 𝛾 > của quá trình phần thưởng Markov thành bộ giá trị Trong đó, tập 𝑨 = [𝑎 1 , 𝑎 2 , … ] là tập hành động, bao gồm tất cả hành động có thể có Như vậy, xác suất chuyển dịch trạng thái, ngoài phụ thuộc vào trạng thái, sẽ phụ thuộc thêm vào hành động thực hiện:

Hình 3.3: Mô tả mô hình đồ thị phân phối của quá trình quyết định Markov

LUẬN VĂN THẠC SĨ 36 Linh Pham

Thuật toán học tăng cường sâu deep Q-learning

Thuật toán Q-learning cho phép học tập trong các bước thời gian làm cho thực hiện thuật toán nhanh hơn và chỉ yêu cầu một số lượng đủ lớn episode để huấn luyện Tuy nhiên, thuật toán Q-learning có điểm bất cập là sử dụng một bảng giá trị trạng thái – hành động Q-table với đầu vào là trạng thái và hành động rời rạc Khi số lượng biến trạng thái, hành động trở nên quá lớn hoặc trạng thái, hành động liên tục, việc sử dụng bảng trở

LUẬN VĂN THẠC SĨ 45 Linh Pham nên khó khăn và không hiệu quả Do đó, thuật toán deep Q-learning (DQN) ra đời thuật toán deep Q-learning là thuật toán áp dụng neural network nhằm xấp xỉ hàm Q-function, thay thế cho dạng bảng Q-table của thuật toán Q-learning

Trong Q-learning, quy luật cập nhật được biểu diễn như sau:

𝑎 𝑄(𝑆 𝑡+1 , 𝑎) − 𝑄(𝑆 𝑡 , 𝐴 𝑡 )] trong đó, hàm mục tiêu của thuật toán Q-learning tại bước thời gian 𝑡 là 𝑅 𝑡+1 +

𝑎 𝑄(𝑆 𝑡+1 , 𝑎) Gọi 𝑠 ′ và 𝑟 ′ lần lượt là dạng chung của trạng thái và phần thưởng tiếp theo của trạng thái 𝑠 và phần thưởng 𝑟 Như vậy, dạng chung của hàm mục tiêu tại bước thời gian 𝑡 là:

𝑎 𝑄(𝑠 ′ , 𝑎) (3.31) Như vậy, ước lượng lỗi của thuật toán sẽ có dạng 𝑦 − 𝑄(𝑠, 𝑎) Tương ứng với hàm mất mát sử dụng lỗi bình phương trung bình là:

𝐿 = (𝑦(𝑟 ′ , 𝑠 ′ ) = 𝑟 ′ − 𝑄(𝑠, 𝑎)) 2 (3.32) Xem xét xấp xỉ hàm trong Q-learning với trọng số 𝜽 Bộ xấp xỉ là mạng neural network Mục tiêu của mạng neural network là tối thiểu hóa hàm mất mát Như vậy, hàm mất mát có thể được viết lại với trọng số 𝜽 như sau:

Và quy luật cập nhật trọng số 𝜽 dựa trên giá trị nhỏ nhất của hàm mất mát tại bước thời gian 𝑡:

Không những kết hợp giữa mạng học sâu và mạng học tăng cường, nhiều ý tưởng nhằm cải thiện mạng ra đời Đầu tiên là bộ nhớ phát lại có cơ chế được lấy ý tưởng từ bộ nhớ sinh học của con người, cho phép phát lại những trải nghiệm đã có Tại mỗi bước thời gian 𝑡, mạng sẽ lưu trữ kinh nghiệm của agent (𝑆 𝑡 , 𝐴 𝑡 , 𝑅 𝑡 , 𝑆 𝑡+1 ) đạt được khi tương tác với môi trường vào trong bộ nhớ phát lại Sau đó, mỗi khi huấn luyện mạng neural network thì một lô mẫu sẽ được tạo ngẫu nhiên, có kích thước 𝐷, theo phân phối đều Hàm mất mát sẽ có dạng:

LUẬN VĂN THẠC SĨ 46 Linh Pham

Bộ nhớ phát lại đem lại nhiều lợi ích Lợi ích thứ nhất là kinh nghiệm tại mỗi bước lặp có thể được sử dụng lại để học Q-function, cho phép khai thác dữ liệu hiệu quả hơn Thứ hai, nếu không có bộ nhớ phát lại thì các lô mẫu được thu thập liên tiếp Do đó, chúng sẽ có độ tương quan lẫn nhau lớn, điều này làm tăng phương sai của mỗi lần cập nhật mạng Thứ ba, kinh nghiệm phát lại tránh tình trạng mà mẫu được sử dụng để huấn luyện đã được xác định bởi các tham số trước đó Điều này làm trơn việc học và giảm giao động hoặc phân kì trong tham số

Hình 3.4: Mô tả mô hình thực hiện thuật toán deep Q-learning Ý tưởng thứ hai là nhắm đến cải thiện độ ổn định với neural network Deep Q- learning sử dụng thêm một mạng mục tiêu nhằm tạo ra kinh nghiệm thay vì sử dụng chung với mạng mong muốn Như vậy, mạng neural network sẽ được chia thành hai mạng riêng rẽ, một mạng mục tiêu được dùng để tạo ra kinh nghiệm mới, một mạng huấn luyện được dùng để học hỏi từ các kinh nghiệm sinh ra từ mạng mục tiêu Cứ mỗi một số lượng cố định bước thời gian, mạng mục tiêu sẽ được cập nhật trọng số từ mạng huấn luyện Như vậy, mạng mục tiêu sẽ có một độ trễ cập nhật trọng số Do đó, kinh nghiệm sẽ được tạo từ mạng mục tiêu với các tham số cũ Điều này làm giảm phân kì

LUẬN VĂN THẠC SĨ 47 Linh Pham và sai lệch trong dữ liệu từ bộ nhớ phát lại Gọi mạng huấn luyện là 𝑄 𝑡𝑟𝑎𝑖𝑛 với trọng số huấn luyện 𝜽 𝑡𝑟𝑎𝑖𝑛 và mạng mục tiêu là 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 với trọng số huấn luyện 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 Do chia làm hai mạng và mỗi mạng đảm nhiệm một chức năng khác nhau nên hàm mục tiêu và hàm mất mát sẽ được viết lại như sau:

Thuật toán 3.4: Thuật toán deep Q-learning [13]

1 Khởi tạo: mạng 𝑄 𝑡𝑟𝑎𝑖𝑛 với trọng số 𝜽 𝑡𝑟𝑎𝑖𝑛 và 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 với trọng số 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 với bộ nhớ phát lại có kích thước 𝐷 𝑚

3 Khởi tạo môi trường vả các thông tin trạng thái ban đầu

4 for bước thời gian 𝑡 = 0, … , 𝑇 do

5 Dự đoán hành động 𝐴 𝑡 bằng mạng 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 và thuật toán 𝜖 – tham lam

6 Thực hiện hành động 𝐴 𝑡 và nhận được phản hồi từ môi trường trạng thái tiếp theo 𝑆 𝑡+1 và phần thưởng 𝑅 𝑡+1

7 Lưu trữ kinh nghiệm trước đó vào bộ nhớ phát (𝑆 𝑡 , 𝐴 𝑡 , 𝑅 𝑡+1 , 𝑆 𝑡+1 )

9 Tạo mini-batch gồm 𝐵 mẫu ngẫu nghiên (𝑠 𝑗 , 𝑎 𝑗 , 𝑟 𝑗+1 , 𝑠 𝑗+1 ) từ bộ nhớ phát lại

10 Tiến hành tối ưu hóa hàm loss để cập nhật trọng số 𝜃 của mạng 𝑄 𝑡𝑟𝑎𝑖𝑛

11 if (cập nhật trọng số) then

12 Cập nhật trọng số mạng 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 : 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 = 𝜽 𝑡𝑟𝑎𝑖𝑛

LUẬN VĂN THẠC SĨ 48 Linh Pham

Phương pháp học tăng cường nhiều agent

Học tăng cường mạnh mẽ trong việc tăng cường cho một agent làm sao để đạt được kết quả dựa trên phần thưởng được trả về từ môi trường Tuy nhiên, trong nhiều ứng dụng, môi trường thường là môi trường vĩ mô và tác vụ trong môi trường phức tạp hơn và nhiều agent có thể kết nối với nhau, tương tác lẫn nhau và đưa ra những lựa chọn phù hợp trong từng bước thời gian Do đó, phương pháp học tăng cường nhiều agent ra đời Ở mục này sẽ tìm hiểu và phân tích về phương pháp học tăng cường nhiều agent

Các thành phần cơ bản của học tăng cường nhiều agent là agent, chiến thuật, độ lợi Đầu tiên là agent, mỗi agent được xem như là một thực thể chủ động, có thể tương tác độc lập với môi trường và thực hiện chiến thuật của nó dựa trên quan sát môi trường hoặc hành vi của các agent khác, nhắm đến đạt được kết quả tối đa hoặc tối thiếu hóa mất mát của bản thân Trong học tăng cường nhiều agent, sẽ tồn tại nhiều hơn một agent Nếu số lượng agent mà bằng một thì phương pháp học tăng cường nhiều agent sẽ tương đương với trường hợp học tăng cường thông thường Tiếp theo là chiến thuật Mỗi agent sẽ theo đuổi một chiến thuật của riêng chúng trong học tăng cường nhiều agent Chiến thuật thường được thiết kế để tối đa hóa kết quả mong muốn và tối thiểu hóa cái giá của agent mà agent đó phải chịu từ môi trường và chiến thuật của các agent khác Cuối cùng là độ lợi Mỗi agent có một độ lợi duy nhất, để xem xét những yêu cầu và độ phụ thuộc với môi trường và các agent khác Độ lợi được được định nghĩa như là phần thưởng nhận được trừ đi cái giá phải trả của agent dựa trên mục tiêu của từng agent Trong trường hợp học tăng cường nhiều agent, mỗi agent sẽ nhắm đến tối đa hóa độ hữu ích của chính bản thân thông qua việc học hỏi từ môi trường và các agent khác Như vậy, mỗi một agent trong học tăng cường nhiều agent sẽ được chỉ định một hàm độ lợi Thông qua quan sát và kinh nghiệm từ các lần tương tác, mỗi agent thực hiện chiến thuật học tập riêng và nhằm đến tối ưu hóa giá trị độ lợi mà không cần phải quan tâm đến giá trị độ lợi cúa agent khác Tuy nhiên, mối quan hệ giữa các agent có thể tồn tại đối đầu hoặc phối hợp Dựa trên cách thức tương tác giữa các agent, phân tích lý thuyết trò chơi được áp dụng và phân bài toàn thành các dạng sau:

- Trò chơi tĩnh: là dạng đơn giản nhất để mô hình hóa tương tác của các agent Trong trò chơi này, sẽ yêu cầu một lựa chọn hành động từ mỗi agent Như vậy,

LUẬN VĂN THẠC SĨ 49 Linh Pham mỗi agent chỉ lựa chọn một lần nên gian lận hay phản bội trong trò chơi tĩnh mang lại nhiều lợi ích Do đó, mỗi agent được yêu cầu cẩn thận dự đoán chiến thuật của các agent khác một cách thông minh để đạt được độ lợi cao nhất

- Trò chơi lặp lại: là đại diện cho trường hợp tất cả các agent có thể thực hiện hành động lặp lại dựa trên cùng trạng thái cho nhiều lần lặp Tổng độ lợi của mỗi agent là tổng của độ lợi chiết khấu cho mỗi lần lặp trong trò chơi Do tính chất lặp hành động của tất cả agent, gian lận và phản bội trong quá trình tương tác có thể gây ra hàm phạt hoặc trả thù từ các agent khác trong các vòng lặp kế tiếp Do đó, trò chơi lặp lại cần tránh các hành vi gian lận của các agent và cải thiện độ lợi của tất cả agent

- Trò chơi ngẫu nhiên: được xem như là quá trình quyết định Markov với nhiều agent hoặc nhiều trò chơi lặp lại với nhiều trạng thái Trò chơi mô hình hóa tương tác lặp lại của nhiều agent trong nhiều trường hợp Trong mỗi vòng lặp, mỗi agent sẽ ở những trạng thái khác nhau và cố gắng đạt được độ lợi dựa trên mẫu quan sát và dự đoán của các agent khác

Dựa trên cách thức hoạt động và tương tác lẫn nhau của các agent trong môi trường [15] mà chiến thuật áp dụng trong học tăng cường nhiều agent có thể được chia thành hai loại chiến thuật, là chiến thuật độc lập và chiến thuật chia sẽ Dựa trên [16], thì chiến thuật độc lập còn được gọi là mạng huấn luyện phân tán và thực thi không tập trung Trong chiến thuật độc lập, mỗi agent sẽ sỡ hữu chiến thuật riêng của mình Các chiến thuật của mỗi agent có thể giống hoặc khác nhau tùy vào mục đích của từng agent

Dữ liệu tương tác môi trường của mỗi agent chỉ được dùng để cải thiện chiến thuật cho chính agent đó

Hình 3.5: Mô tả mô hình thực hiện chiến thuật độc lập

LUẬN VĂN THẠC SĨ 50 Linh Pham

Dựa trên [16], chiến thuật chia sẽ còn được gọi là mạng huấn luyện tập trung và thực thi không tập trung Trong đó, các agent vẫn tương tác độc lập với nhau Nhưng dữ liệu tương tác môi trường của tất cả agent, thay vì được dùng để huấn luyện chiến thuật riêng cho mình, sẽ được gửi đến một bộ điều khiển trung tâm Bộ điều khiển trung tâm sẽ đóng vai trò huấn luyện chiến thuật cho tất cả agent Như vậy, do dữ liệu từ các agent được tập trung tại một nơi nên các dữ liệu này sẽ có thể được trao đổi, liên kết giữa các agent Sau khi sử dụng dữ liệu mạng thì bộ điều khiển trung tâm sẽ gửi dữ liệu trọng số huấn luyện cho tất cả agent

Hình 3.6: Mô tả mô hình thực hiện chiến thuật chia sẽ.

Kết luận chương

Ở chương này, luận văn đã đi vào chi tiết về lý thuyết của một mạng học tăng cường, mạng học tăng cường sâu và mạng học tăng cường nhiều agent Dựa trên những kiến thức này, luận văn sẽ đề xuất chiến thuật học tăng cường để giải bài toán phân bổ công suất trong hệ thống cell-free massive MIMO Chiến thuật học tăng cường này sẽ được trình bày ở Chương 4

LUẬN VĂN THẠC SĨ 51 Linh Pham

PHÂN BỔ CÔNG SUẤT ĐƯỜNG UPLINK TRONG HỆ THỐNG CELL-FREE MASSIVE MIMO

Mô hình hệ thống cell-free massive MIMO

Mô hình một hệ thống cell-free massive MIMO được sử dụng sẽ được dựa trên [17] Hệ thống bao gồm 𝑀 điểm truy cập và 𝐾 thiết bị người dùng Mỗi điểm truy cập và mỗi thiết bị người dùng chỉ trang bị một antenna đơn Trong mạng này, vị trí của điểm truy cập và thiết bị người dùng sẽ được phân bố ngẫu nhiên trong một khu vực có kích thước là 𝐷 × 𝐷 km 2 Tất cả thiết bị người dùng đều gây can nhiễu lẫn nhau trong khu vực này Tất cả các điểm truy cập này đều được kết nối đến một đơn vị xử lý trung tâm và đều tham gia đồng thời để phục vụ cho tất cả thiết bị người dùng Đường truyền giữa thiết bị người dùng và điểm truy cập đều tuân theo giao thức ghép kênh song công phân chia theo thời gian (TDD)

Kênh truyền được giả định như trong [17] Mô hình kênh truyền sẽ chịu tác động của hai hiệu ứng small-scale fading và large-scale fading Trong đó, hiệu ứng small- scale không thay đổi trong khoảng thời gian đồng bộ và sẽ thay đổi độc lập khi chuyển từ khoảng thời gian đồng bộ này sang khoảng thời gian đồng bộ khác Còn hiệu ứng large-scale fading sẽ thay đổi chậm và gần như không đổi trong một vài khoảng thời gian đồng bộ Hệ số kênh truyền giữa người dùng thứ 𝑘 và điểm truy cập thứ 𝑚 được kí hiệu là ℎ 𝑚𝑘 và được mô hình hóa như sau:

LUẬN VĂN THẠC SĨ 52 Linh Pham với 𝛽 𝑚𝑘 và ℎ̃ 𝑚𝑘 lần lượt là hệ số large-scale fading và small-scale fading Hệ số small- scale fading được giả định độc lập và có phân phối đồng nhất 𝑁(0,1) Hệ số large-scale fading được tính toán dựa trên mô hình suy hao đường đi và mô hình shadowing

Hình 4.1: Minh họa hệ thống cell-free massive MIMO

Mô hình kênh truyền có tất cả các điểm truy cập đều phục vụ đồng thời tất cả người dùng trong cùng một tài nguyên thời gian - tần số Áp dụng giao thức ghép kênh song công phân chia theo thời gian, mỗi khoảng đồng bộ sẽ được chia làm ba pha:

- Pha huấn luyện đường uplink

- Pha đường truyền dữ liệu downlink

- Pha đường truyền dữ liệu uplink

Pha huẩn luyện đường uplink được sử dụng để ước lượng kênh truyền của tất cả người dùng dựa trên chuỗi pilot mà người dùng gửi đến các điểm truy cập Kênh truyền ước lượng sẽ được sử dụng để tiền mã hóa tín hiệu phát từ điểm truy cập trong pha truyền trả dữ liệu downlink và để dự đoán tín hiệu từ thiết bị người dùng trong pha truyền trả dữ liệu uplink Luận văn chỉ tập trung vào xem xét hai pha là pha huấn luyện đường uplink và pha truyền dữ liệu uplink

4.1.1 Pha huấn luyện đường uplink

Kênh truyền được giả định không đổi trong một khoảng thời gian đồng bộ và khoảng tần số đồng bộ Do đó, độ dài của một khoảng đồng bộ được kí hiệu là 𝜏 𝑐 , bằng tích của

LUẬN VĂN THẠC SĨ 53 Linh Pham khoảng thời gian đồng bộ và khoảng tần số đồng bộ Khoảng đồng bộ cho pha huấn luyện đường uplink trên từng khoảng đồng bộ được kí hiệu là 𝜏 𝑝 với 𝜏 𝑝 < 𝜏 𝑐 Trong pha huấn luyện, tất cả thiết bị người dùng đồng thời gửi chuỗi tín hiệu pilot với độ dài là 𝜏 𝑝 mẫu tới tất cả các điểm truy cập Chuỗi pilot được gửi đi bởi thiết bị người dùng thứ 𝑘 được mô hình hóa như sau √𝜏𝑝𝛗 𝑘 ∈ ℂ 𝜏 𝑝 ×1 , với ‖𝛗 𝑘 ‖ 2 = 1 Như vậy, tín hiệu pilot được thu tại điểm truy cập thứ 𝑚, được kí hiệu 𝐲 𝑝,𝑚 là chồng chất của các tín hiệu thu được từ 𝐾 thiết bị người dùng Bằng cách kí hiệu 𝜌 𝑝 là tỉ số tín hiệu trên nhiễu chuẩn hóa của từng kí tự pilot và 𝐧 𝑝,𝑚 là nhiễu được thêm vào tại điểm truy cập thứ 𝑚, tín hiệu pilot 𝐲 𝑝,𝑚 tại điểm truy cập thứ 𝑚 được công thức hóa như sau:

(4.2) với nhiễu 𝐧 𝑝,𝑚 độc lập và tuân theo phân phối chuẩn 𝑁(0,1) Kênh truyền ℎ 𝑚𝑘 được ước lượng bằng cách nhân tương quan giữa tín hiệu pilot thu được 𝐲 𝑝,𝑚 và chuỗi pilot

𝛗 𝑘 Tín hiệu pilot ước lượng 𝑦̂ 𝑝,𝑚𝑘 sẽ có dạng như sau:

(4.3) với 𝛗 𝑘 𝐻 𝛗 𝑘 = ‖𝛗 𝑘 ‖ 2 = 1 Dựa trên công thức (4.3), chỉ trong trường hợp hai chuỗi 𝛗 𝑘 𝐻 và 𝛗 𝑘′ là hai chuỗi pilot trực giao 𝛗 𝑘 𝐻 𝛗 𝑘′ = 0 và ‖𝛗 𝑘 ‖ 2 = 1 với ∀𝑘 thì mới đạt được kênh truyền ℎ 𝑚𝑘 Do đó, bộ ước lượng sai số bình phương trung bình cực tiểu (MMSE) được sử dụng để ước lượng kênh truyền ℎ 𝑚𝑘 :

LUẬN VĂN THẠC SĨ 54 Linh Pham

𝜏 𝑝 𝜌 𝑝 ∑ 𝐾 𝑘 ′ =1𝛽 𝑚𝑘 ′ |𝛗 𝑘 𝐻 𝛗 𝑘 ′ | 2 + 1 (4.5) Phương sai của ước lượng MMSE sẽ có dạng:

Trong đường truyền uplink, tất cả thiết bị người dùng đều gửi dữ liệu đồng thời tới các điểm truy cập Kí tự mà thiết bị người dùng thứ 𝑘 gửi, được kí hiệu là 𝑠 𝑘 với 𝔼{|𝑠 𝑘 | 2 } 1 Hệ số điều khiển công suất được kí hiệu là 𝑝 𝑘 , 0 ≤ 𝑝 𝑘 ≤ 1 Với 𝜌 𝑢 là tỉ số tín hiệu trên nhiễu uplink chuẩn hóa và 𝑛 𝑚 ~𝑁(0,1) là nhiễu được thêm vào tại điểm truy cập thứ 𝑚, tín hiệu thu được tại điểm truy cập thứ 𝑚 được mô hình hóa như sau:

Kí tự 𝑠 𝑘 , được truyền từ thiết bị người dùng thứ 𝑘 tới điểm truy cập thứ 𝑚, được dự đoán bằng cách nhân lượng liên hiệp tín hiệu thu được 𝑦 𝑚 với ước lượng kênh truyền ℎ̂ 𝑚𝑘 Tín hiệu thu được sẽ có dạng như sau 𝑦̂ 𝑚𝑘 = ℎ̂ 𝑚𝑘 ∗ 𝑦 𝑚 Tín hiệu 𝑦̂ 𝑚𝑘 tại điểm truy cập 𝑚 được gửi về đơn vị xử lý trung tâm Do đó, tín hiệu 𝑦̂ 𝑘 được thu tại đơn vị xử lý trung tâm là chồng chất của tất cả tín hiệu nhận được từ phép nhân liên hiệp của tất cả điểm truy cập Sau đó, kí tự 𝑠 𝑘 sẽ được dự đoán từ tín hiệu 𝑦̂ 𝑘 Như vậy, tín hiệu 𝑦̂ 𝑘 tại đơn vị xử lý trung tâm có dạng như sau:

LUẬN VĂN THẠC SĨ 55 Linh Pham

Phân tích tốc độ dữ liệu có thể đạt được trên đường uplink

Ở mục này, luận văn sẽ phân tích tốc độ dữ liệu của người dùng và vấn đề tối ưu hóa tốc độ dữ liệu tối đa Dữ liệu thông tin kênh truyền được gửi về và xử lý tại CPU nên tốc độ dữ liệu được phân tích dựa trên đặc tính kênh truyền Đầu tiên, tín hiệu, thu được tại đơn vị xử lý trung tâm của người dùng thứ 𝑘, được phân tích như sau:

SINR của người dùng thứ 𝑘 có thể được công thức hóa như sau:

𝔼{|𝐵 𝑘 | 2 } + ∑ 𝐾 𝑘 ′ ≠𝑘𝔼{|𝐼 𝑘𝑘 ′ | 2 }+ 𝔼{|𝑁 𝑘 | 2 } (4.9) với các thành phần được công thức hóa như sau:

- Thành phần tín hiệu mong muốn của người dùng thứ 𝑘:

Gọi 𝜀 𝑚𝑘 ≜ ℎ 𝑚𝑘 − ℎ̂ 𝑚𝑘 là lỗi ước lượng kênh truyền Dựa trên đặc tính của bộ ước lượng MMSE thì 𝜀 𝑚𝑘 và ℎ̂ 𝑚𝑘 độc lập, do đó:

= 𝔼 {|ℎ̂ 𝑚𝑘 | 2 } = 𝛾 𝑚𝑘 Thay vào công thức (4.10), thành phần tín hiệu mong muốn sẽ được rút gọn lại

- Thành phần tín hiệu không xác định của người dùng thứ 𝑘:

LUẬN VĂN THẠC SĨ 56 Linh Pham

(4.12) Thành phần tín hiệu không xác định 𝔼{|𝐵 𝑘 | 2 } được phân tích như sau:

Dựa trên công thức 𝔼{|𝑥 − 𝔼{𝑥}| 2 } = 𝔼{|𝑥| 2 } − |𝔼{𝑥}| 2 , thành phần 𝔼{|𝐵 𝑘 | 2 } sẽ có dạng:

Xét thành phần thứ nhất trong công thức trên:

Do đó, thành phần 𝔼{|𝐵 𝑘 | 2 } sẽ được viết lại như sau:

LUẬN VĂN THẠC SĨ 57 Linh Pham

- Thành phần can nhiễu của người dùng thứ 𝑘 ′ gây lên người dùng thứ 𝑘:

(4.14) Đặt 𝐧 𝑚𝑘 = 𝛗 𝑘 𝐻 𝐧 𝑝,𝑚 ~ 𝒩(0,1) Vì ℎ 𝑚𝑘 ′ và 𝐧̃ 𝑚𝑘 độc lập nhau nên:

= 𝑇 1 + 𝑇 2 Thành phần 𝑇 1 được phân tích như sau:

Thành phần 𝑇 2 được phân tích như sau:

LUẬN VĂN THẠC SĨ 58 Linh Pham

Thành phần 𝑇 3 được phân tích như sau:

Thành phần 𝑇 4 được phân tích như sau:

LUẬN VĂN THẠC SĨ 59 Linh Pham

Thay thế 𝑇 1 , 𝑇 2 , 𝑇 3 , 𝑇 4 vào công thức ban đầu, thành phần 𝔼{|𝐼 𝑘 ′ 𝑘 | 2 } sẽ được viết lại như sau:

Gọi thành phần 𝑇 5 có dạng như sau:

Gọi thành phần 𝑇 6 có dạng như sau:

LUẬN VĂN THẠC SĨ 60 Linh Pham

= 𝛽 𝑚𝑘 √𝜏 p 𝜌 p − 𝜇 𝑚𝑘 Như vậy, thành phần 𝑇 6 có thể được viết lại như sau:

) Áp dụng 𝑇 5 , 𝑇 6 , thành phần 𝔼{|𝐼 𝑘 ′ 𝑘 | 2 } có thể được viết lại như sau:

LUẬN VĂN THẠC SĨ 61 Linh Pham

- Thành phần gây nhiễu thêm vào tại điểm truy cập thứ 𝑚:

Thành phần nhiễu thêm 𝔼{|𝑁 𝑘 | 2 } vào được phân tích như sau:

Tỉ số tín hiệu trên can nhiễu của người dùng thứ 𝑘 có thể được công thức hóa như sau:

Như vậy, tốc độ dữ liệu tối đa có thể đạt được của thiết bị người dùng thứ 𝑘 sẽ được tính như sau:

Phân bổ công suất trên đường uplink bằng thuật toán block coordinate descent

Hiệu suất phổ là số bit thông tin có thể được truyền đáng tin cậy trên một đơn vị tần số Trong một thiết kế hệ thống phát thu, hiệu suất phổ đạt được càng lớn thì càng tốt Kí hiệu 𝑝 𝑘 là mức công suất của thiết bị người dùng thứ 𝑘, 𝑅 𝑘 là tốc độ dữ liệu tối đa của người dùng thứ 𝑘 có thể đạt được, bài toán phân bổ công suất trên đường uplink để tối ưu hóa tổng hiệu suất phổ có dạng như sau:

LUẬN VĂN THẠC SĨ 62 Linh Pham max ∑ 𝑅 𝑘

(4.20) Điều kiện ràng buộc cho mức công suất vào khoảng [0,1] Điều kiện này nhằm cho công suất truyền không âm và không vượt quá công suất truyền tối đa mà hệ thống cho phép Mục tiêu của bài toán là tổng tốc độ tối đa đạt được lớn nhất Bài toán trên không lồi, phương pháp trọng số MMSE sẽ được áp dụng nhằm tìm điểm tối ưu cục bộ trong [8] và [18] với các giả định dựa trên trường hợp SISO chung như thành phần tín hiệu không xác định có trung bình bằng không, các kí tự được truyền có trung bình bằng không, phương sai bằng một và độc lập Bộ thu có thể tính toán ước lượng kí tự mong muốn 𝑠 𝑘 như sau 𝑠̂ 𝑘 = 𝑞 𝑘 ∗ 𝑦̂ 𝑘 với 𝑞 𝑘 là hệ số điều chỉnh có thể tăng biên độ và xoay pha Ước lượng lỗi bình phương trung bình MSE giữa kí tự ước lượng 𝑠̂ 𝑘 và kí tự mong muốn 𝑠 𝑘 sẽ có dạng như sau:

Như vậy, ước lượng lỗi này được xem như là một hàm lồi của 𝑞 𝑘 Do đó, ước lượng lỗi bình phương trung bình MSE nhỏ nhất cho thiết bị người dùng thứ 𝑘 sẽ được tìm như sau:

LUẬN VĂN THẠC SĨ 63 Linh Pham

|𝐷 𝑘 | 2 + 𝔼{|𝐵 𝑘 | 2 } + ∑ 𝐾 𝑘 ′ ≠𝑘𝔼{|𝐼 𝑘 ′ 𝑘 | 2 }+ 𝔼{|𝑁 𝑘 | 2 } Ứng với trường hợp nhỏ nhất thì 𝑞 𝑘 có giá trị như sau:

|𝐷 𝑘 | 2 + 𝔼{|𝐵 𝑘 | 2 } + ∑ 𝐾 𝑘 ′ ≠𝑘𝔼{|𝐼 𝑘 ′ 𝑘 | 2 }+ 𝔼{|𝑁 𝑘 | 2 } (4.22) Như vậy, ước lượng lỗi tương ứng là:

(4.23) Áp dụng phương pháp ước lượng lỗi bình phương trung bình nhỏ nhất trọng số hóa MMSE trong [8] và [18], sử dụng một biến số 𝑑 𝑘 ≥ 0 cho ước lượng lỗi bình phương trung bình MSE 𝑒 𝑘 thì bài toán tối ưu, tương đương với bài toán tối ưu tổng hiệu suất phổ ban đầu, sẽ có dạng:

LUẬN VĂN THẠC SĨ 64 Linh Pham min ∑(𝑑 𝑘 𝑒 𝑘 − ln(𝑑 𝑘 ))

Bài toán trên xem 𝑑 𝑘 như là một biến số cho một ước lượng lỗi MSE 𝑒 𝑘 , nên giá trị tối ưu của bài toán có thể đạt được bằng cách đạo hàm 𝑑 𝑘 𝑒 𝑘 − ln(𝑑 𝑘 ) theo 𝑑 𝑘 :

Do điểm tối ưu hóa 𝑑 𝑘 là 1/𝑒 𝑘 , tương ứng với 1 + SINR 𝑘 nên hai bài toán được xem như tương đương nhau Do đó, giá trị tối ưu hóa tổng hiệu suất phổ lớn nhất sẽ đạt được với cùng một điều kiện ràng buộc Như vậy, bài toán tối ưu mới ta có thể giải được bằng cách tối ưu từng phần của ba thành phần của biến 𝑞 𝑘 , 𝑑 𝑘 và 𝜂 𝑘 Thuật toán block coordinate descent áp dụng được trình bày như sau:

Thuật toán 4.1: Bái toán tối ưu tối đa tổng hiệu suất phổ được giải bằng thuật toán block coordinate descent [8]

1 Khởi tạo: o Đặt độ chính xác 𝜀 > 0 và chọn mức công suất bất kì 𝐩 o Gọi 𝑡 là thời điểm hiện tại o Gọi hàm mục tiêu tại thời điểm 𝑡 là

Mức cải thiện thuật toán 𝛿 = √|𝑓 𝑡 (𝐩 𝑡 , 𝑞 𝑘 𝑡 , 𝑑 𝑘 𝑡 ) − 𝑓 𝑡−1 (𝐩 𝑡−1 , 𝑞 𝑘 𝑡−1 , 𝑑 𝑘 𝑡−1 )| 2

3 Tính toán hệ số điều chỉnh 𝑞 𝑘 𝑡 để cho ước lượng lỗi MSE 𝑒 𝑘 𝑡 đạt nhỏ nhất

4 Tính toán ước lượng lỗi nhỏ nhất tương ứng 𝑞 𝑘 𝑡 :

LUẬN VĂN THẠC SĨ 65 Linh Pham

5 Giải bài toán tối ưu sau nhằm tìm trọng số 𝑑 𝑘 𝑡 với ước lượng lỗi 𝑒 𝑘 𝑡 : min ∑(𝑑 𝑘 𝑒 𝑘 𝑡 − ln(𝑑 𝑘 ))

{𝑑 𝑘 } st 0 ≤ 𝑝 𝑘 ≤ 1, 𝑘 = 1, … , 𝐾 Kết quả bài toán tối ưu trên là:

6 Giải bái toán tối ưu với sau với giá trị 𝑞 𝑘 𝑡 và 𝑑 𝑘 𝑡 vừa có được Trong đó, ước lượng lỗi 𝑒 𝑘 thay đổi theo hệ số công suất 𝐩: min ∑ 𝑑 𝑘 𝑡 𝑒 𝑘 (𝐩, 𝑞 𝑘 𝑡 )

7 Cập nhật giá trị hệ số công suất 𝐩 𝑡

10 Đầu ra: Hệ số công suất 𝑝 𝑘 với 𝑘 = 1, … , 𝐾

Xem xét giải bài toán tối ưu ở bước số 6 của Thuật toán 4.1, để đơn giản hóa các phép tính toán, SINR 𝑘 sẽ được biến đổi như sau:

LUẬN VĂN THẠC SĨ 66 Linh Pham

Như vậy, hàm mục tiêu sẽ được biến đổi như sau:

Tách tổng trên thành từng phần theo 𝑝 𝑘 :

− 𝑝 𝑘 𝐼 𝑘𝑘 𝑑 𝑘 𝑞 𝑘 2 − 2𝑑 𝑘 𝑞 𝑘 √𝑝 𝑘 𝑋 + ⋯ Gọi hàm 𝑇 𝑘 được biễu diễn theo biến 𝑝 𝑘 có dạng như sau:

− 𝑝 𝑘 𝐼 𝑘𝑘 𝑑 𝑘 𝑞 𝑘 2 − 2𝑑 𝑘 𝑞 𝑘 √𝑝 𝑘 𝑋 Giá trị nhỏ nhất của 𝑇 𝑘 đạt được bằng phương pháp nghiệm kép theo biến √𝑝 𝑘 :

LUẬN VĂN THẠC SĨ 67 Linh Pham

LUẬN VĂN THẠC SĨ 68 Linh Pham

Thuật toán học tăng cường trong phân bổ công suất trong hệ thống cell-free

Các thuật toán học sâu được áp dụng nhằm mục tiêu tạo ra một mô hình mạng thay thế cho các thuật toán phức tạp như block coordinate descent Quá trình huấn luyện cho một mô hình mạng thường thì sẽ mất rất nhiều thời gian nhưng đổi lại quá trình dự đoán của mô hình mạng học sâu sẽ tốn rất ít thời gian nhờ vào sử dụng các trọng số huấn luyện trong mô hình mạng Để áp dụng được thuật toán thì thuật toán học sâu yêu cầu thu thập dữ liệu trong môi trường Thông thường, tất cả thông tin dữ liệu đều không thể được thu thấp hoàn hảo nên dữ liệu được thu thập để tạo thành một tập dữ liệu đại diện đủ lớn được gọi là tập huấn luyện Quá trình này sẽ tiêu tốn nhiều thời gian để thực hiện Không những thế, sự thay đổi trong môi trường luôn diễn ra liên tục, vậy nên có thể dẫn tới tập huấn luyện được sử dụng sẽ tạo ra một mô hình mạng không phù hợp Do đó, cách thức thường được sử dụng để khắc phục là thực hiện huấn luyện lại từ đầu, nói cách khác, thuật toán yêu cầu tiếp tục thu thập dữ liệu và tiếp tục huấn luyện cho mạng Do đó, để khắc phục mô hình không phù hợp do thay đổi của môi trường, luận văn sẽ áp dụng phương pháp học tăng cường Phương pháp khác biệt ở điểm thay vì phải thu thập dữ liệu rồi mới huấn luyện thì việc huấn luyện được thực hiện dựa trên hành động và phần thưởng phản hồi từ môi trường Phương pháp này sẽ thực hiện trên chính mẫu vừa thu thập được Vậy nên khi môi trường thay đổi, mạng học tăng cường cũng thay đổi để thích nghi

Trong mạng cell-free massive MIMO, tất cả điểm truy cập đều tham gia vào truyền tải thông tin trong cả đường uplink và đường downlink Trong đường uplink, tín hiệu mà điểm truy cập thu được từ các thiết bị người dùng, thay vì được xử lý tại chính điểm truy cập đó, thì chúng được gửi đến đơn vị xử lý trung tâm Và tại đơn vị xử lý trung tâm, tín hiệu được tổng hợp lại từ tất cả điểm truy cập sẽ được dùng để dự đoán kí tự mà thiết bị người dùng gửi Đây là một đặc điểm quan trọng được nhắm đến để có thể có áp dụng học tăng cường Đầu tiên, mạng học tăng cường có thể tự do sử dụng luồng dữ liệu được thu được từ môi trường tại đơn vị xử lý trung tâm Điều này cũng cho phép chia sẽ dữ liệu giữa các agent Thứ hai, tốc độ xử lý tín hiệu của đơn vị xử lý trung tâm rất lớn nên tốc độ học của mạng học tăng cường có thể được tăng cao Thứ

LUẬN VĂN THẠC SĨ 69 Linh Pham ba, tất cả các điểm truy cập đều kết nối với đơn vị xử lý trung tâm Điều này cho phép cập nhật thông tin trọng số mạng học tăng cường từ đơn vị xử lý trung tâm đến điểm truy cập, đến thiết bị người dùng

Giả sử coi như tất cả thiết bị người dùng là một agent, thì một hành động tương ứng chọn mức công suất cho tất cả thiết bị người dùng Nếu số mức công suất trong mạng là 100 mức, tổng số hành động tương ứng có thể chọn là 100 𝐾 Như vậy, tổng số hành động tăng theo hàm số mũ, với số mũ tương ứng số thiết bị người dùng Vậy nên, một mạng học tăng cường với một agent trở nên không hiệu quả khi số lượng thiết bị người dùng tăng lên Thay vào đó, mạng học tăng cường nhiều agent được áp dụng, tương ứng với mỗi agent là một thiết bị người dùng Tập hành động của mỗi agent sẽ tương ứng với các mức công suất Tuy nhiên, nếu số mức công suất tăng lên thì việc lập bảng giá trị hành động trở nên khó khăn do số lượng nhiều trạng thái – hành động có thể đạt được cũng tăng theo số mức công suất Cho nên, mạng neural network sẽ được sử dụng để mô hình hóa lại bảng giá trị trạng thái – hành động Một hàm Q-function sẽ được sử dụng để thay thể bảng trạng thái – hàng động Hàm Q-function sẽ có dạng như sau 𝑞(𝑠, 𝑎, 𝜽) Trong đó, 𝑠 và 𝑎 lần lượt là trạng thái và hành động đang xem xét Còn

𝜽 là trọng số được sinh ra từ mạng neural network, và là đại diện cho kết quả huấn luyện của mạng

Thuật toán học tăng cường sâu nhiều agent được xây dựng dựa trên [19] và [20] Trong đó, quá trình thực hiện học tăng cường sẽ được chia làm hai bước Bước một là thu thập dữ liệu tương tác của agent với môi trường tại mỗi bước thời gian và lưu trữ chúng lại trong bộ nhớ phát lại Bước thứ hai là sử dụng dữ liệu ngẫu nhiên trong bộ nhớ phát lại để huấn luyện mạng Do đó, hai mạng deep Q-learning được sử dụng Mạng deep Q-learning dùng để huấn luyện được kí hiệu là 𝐷𝑄𝑁 𝑡𝑟𝑎𝑖𝑛 và mạng deep Q-learning được dùng để thu thập dữ liệu được gọi là 𝐷𝑄𝑁 𝑡𝑎𝑟𝑔𝑒𝑡 Gọi dữ liệu thu thập tại bước thời gian 𝑡 là (𝑠, 𝑎, 𝑟 ′ , 𝑠 ′ ), được lưu trữ trong bộ nhớ phát lại 𝐷 Mạng 𝐷𝑄𝑁 𝑡𝑟𝑎𝑖𝑛 với trọng số 𝜽 𝑡𝑟𝑎𝑖𝑛 𝑡 tại bước thời gian 𝑡 sẽ được dùng để huấn luyện các dữ liệu ngẫu nhiên trong bộ nhớ phát lại Mạng 𝐷𝑄𝑁 𝑡𝑎𝑟𝑔𝑒𝑡 tương ứng với trọng số 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 𝑡 sẽ được các agent sử dụng để tương tác với môi trường Gọi lô mẫu ngẫu nhiên có kích thước 𝐷 lấy trong bộ nhớ phát lại, mạng 𝐷𝑄𝑁 𝑡𝑟𝑎𝑖𝑛 sẽ huấn luyện trọng số dựa trên hàm mất mát

LUẬN VĂN THẠC SĨ 70 Linh Pham

(4.27) và hàm mục tiêu tại bước thời gian 𝑡:

Cứ một khoảng thời gian cho trước, trọng số 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 𝑡 sẽ được cập nhật bằng trọng số

Hình 4.2: Minh họa thuật toán học tăng cường nhiều agent đề xuất

Mục tiêu của bài toán là tối đa hóa tổng tốc độ dữ liệu cao nhất có thể đạt được của tất cả thiết bị người dùng Vậy nên khi áp dụng mạng học tăng cường thì mỗi thiết bị người dùng sẽ chọn một mức công suất phù hợp để tổng hiệu suất phổ là cao nhất Mỗi agent sẽ tập trung vào làm tăng độ lợi của bản thân nó Tốc độ dữ liệu của thiết bị

LUẬN VĂN THẠC SĨ 71 Linh Pham người dùng sẽ được chọn làm phần thưởng Tuy nhiên, nếu thiết bị người dùng tăng công suất thì thiết bị người dùng khác sẽ phải chịu can nhiễu từ thiết bị đang xét Điều này có thể dẫn tới tổng tốc độ suy giảm Cho nên một hàm phạt sẽ được thêm vào Hàm phạt đó là tổng hiệu của tốc độ dữ liệu từ các thiết bị người dùng khác khi không chịu can nhiễu và chịu can nhiễu từ thiết bị người dùng đang xét

Chiến thuật trong mạng học tăng cường nhiều agent được chia làm hai loại là chiến thuật độc lập và chiến thuật chia sẽ Trong mạng cell-free massive MIMO, tất cả dữ liệu được gửi về một đơn vị xử lý trung tâm nên các agent có thể chia sẽ dữ liệu cho nhau Chiến thuật được áp dụng là chiến thuật chia sẽ Đồng thời, các agent độc lập nhưng đều có chung một tập hành động và một hàm phần thưởng và nếu như vị trí của hai agent đổi cho nhau thì kênh truyền không thay đổi Do đó, chiến thuật được đề xuất sẽ chỉ sử dụng một mạng 𝐷𝑄𝑁 𝑡𝑟𝑎𝑖𝑛 để huấn luyện Sau khi được huấn luyện, trọng số

𝜽 𝑡𝑟𝑎𝑖𝑛 𝑡 sẽ được gửi cho tất cả thiết bị người dùng

Thuật toán 4.2: Bái toán tối ưu tối đa tổng hiệu suất phổ bằng thuật toán học tăng cường nhiều agent

1 Khởi tạo: mạng 𝑄 𝑡𝑟𝑎𝑖𝑛 với trọng số 𝜽 𝑡𝑟𝑎𝑖𝑛 và 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 với trọng số 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 với bộ nhớ phát lại 𝐷 có kích thước 𝑁 𝐷

3 Phân bố vị trí người dùng và phân bổ công suất ngẫu nhiên

4 Tính toán hệ số large-scale fading và pilot assignment

7 Tính toán trạng thái hiện tại 𝑠 𝑘 𝑡

8 Dự đoán hành động 𝑎 𝑘 𝑡 bằng mạng 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 và thuật toán 𝜖 – tham lam: if (khai thác) then:

Dự đoán hành động bằng mạng 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 else (khám phá):

LUẬN VĂN THẠC SĨ 72 Linh Pham

Lựa chọn hành động ngẫu nhiên trong tập hành động end if

10 Lưu trữ kinh nghiệm trước đó vào bộ nhớ phát (𝑠 𝑘 𝑡−1 , 𝑎 𝑘 𝑡−1 , 𝑟 𝑘 𝑡 , 𝑠 𝑘 𝑡 )

12 Tạo mini-batch gồm 𝐵 mẫu ngẫu nghiên (𝑠 𝑗 , 𝑎 𝑗 , 𝑟 𝑗+1 , 𝑠 𝑗+1 ) từ bộ nhớ phát lại

13 Tiến hành tối ưu hóa hàm loss để cập nhật trọng số 𝜃 của mạng 𝑄 𝑡𝑟𝑎𝑖𝑛

14 if (cập nhật trọng số) then

15 Cập nhật trọng số mạng 𝑄 𝑡𝑎𝑟𝑔𝑒𝑡 : 𝜽 𝑡𝑎𝑟𝑔𝑒𝑡 = 𝜽 𝑡𝑟𝑎𝑖𝑛

Tập trạng thái của agent thứ 𝑘 sẽ được xây dựng dựa trên công thức tính toán tốc độ dữ liệu kênh truyền ở công thức (4.18):

Để hạn chế lại số lượng biến tham gia vào huấn luyện, số lượng của tập agent gây can nhiễu lên agent thứ 𝑘 và số lượng của tập agent chịu can nhiễu từ agent thứ 𝑘 bằng nhau và bằng 𝑁 𝑛𝑒𝑖𝑔𝑏𝑜𝑟𝑠 Tại mỗi bước thời gian 𝑡, agent thứ 𝑘 sẽ nhận được trạng thái 𝑠 𝑘 𝑡 Trạng thái 𝑠 𝑘 𝑡 sẽ bao gồm ba thành phần chính:

- Thông tin đặc tính ảnh hưởng đến tốc độ dữ liệu từ agent thứ 𝑘

- Thông tin can nhiễu từ tập agent gây can nhiễu lên agent thứ 𝑘

- Thông tin can nhiễu từ tập agent chịu can nhiễu từ agent thứ 𝑘

LUẬN VĂN THẠC SĨ 73 Linh Pham a) Thông tin đặc tính ảnh hưởng đến tốc độ dữ liệu từ agent thứ 𝑘

Khi xem xét phần tử số của SINR k , thì các thành phần ảnh hưởng làm tăng lên tốc độ dữ liệu bao gồm hai thành phần chính là mức công suất 𝑝 𝑘 và thành phần Γ 𝑘 được công thức hóa như sau: Γ 𝑘 = 𝜌 𝑢 ( ∑ 𝛾 𝑚𝑘

Mức công suất được lựa chọn từ tập hành động Vậy nên, thành phần Γ 𝑘 sẽ được chọn làm trạng thái Thành phần này sẽ được lấy ở bước thời gian 𝑡 và 𝑡 − 1 Phần mẫu số của SINR 𝑘 là tổng thành phần sóng không xác định, can nhiễu và nhiễu thêm vào Khi thành phần sóng không xác định và can nhiễu tăng lên, SINR 𝑘 có thể giảm Vậy nên, tổng của các thành phần này được lựa chọn làm trạng thái, và được kí hiệu là 𝑆𝐼 𝑘 với:

Trong công thức trên, tổng này chịu ảnh hưởng trực tiếp từ mức công suất được lựa chọn tại bước thời gian 𝑡 Do đó, thành phần này sẽ được lấy từ bước thời gian 𝑡 − 1 và 𝑡 −

2 Trạng thái tiếp theo là tốc độ dữ liệu của agent thứ 𝑘 tại bước thời gian 𝑡 − 1 Như vậy, thông tin ảnh hưởng đến tốc độ từ agent thứ 𝑘 tại bước thời gian 𝑡 sẽ bao gồm:

- Tốc độ dữ liệu 𝑅 𝑘 𝑡−1 với: Γ 𝑘 𝑡 = ∑ 𝛾 𝑚𝑘 𝑡

LUẬN VĂN THẠC SĨ 74 Linh Pham

Như vậy, tổng số trạng thái dành cho thông tin đặc tính ảnh hưởng đến tốc độ dữ liệu từ agent thứ 𝑘 là 5 trạng thái b) Thông tin can nhiễu từ tập agent gây can nhiễu lên agent thứ 𝑘

Tại phần thông tin này, dữ liệu can nhiễu mà agent thứ 𝑖 gây lên cho agent thứ 𝑘 được xem xét Trạng thái phần này sẽ bao gồm hai đặc tính là giá trị can nhiễu của agent thứ

𝑖 gây lên agent thứ 𝑘 là 𝔼{|𝐼 𝑖𝑘 | 2 } và tốc độ dữ liệu của agent thứ 𝑖 tại hai bước thời gian

𝑡 − 1 và 𝑡 − 2 Như vậy, các trạng thái sẽ bao gồm:

- Tốc độ dữ liệu 𝑅 𝑖 𝑡−2 với

Kết luận chương

Ở chương này, giải thuật block coordiante descent đã được áp dụng để giải quyết bài toán phân bổ công suất tối đa hóa tổng hiệu suất phổ đường uplink của hệ thống cell- free massive MIMO Tuy nhiên, giải thuật này yêu cầu phải thực hiện nhiều lần vòng lặp qua các tập biến để có thể đạt được tối ưu Điều này làm gia tăng tài nguyên sử dụng cho tính toán Do đó, luận văn sẽ đề xuất một chiến thuật học tăng cường nhằm giải quyết bài toán tối ưu Kết quả của chiến thuật tối ưu sẽ được trình bày ở phần sau

LUẬN VĂN THẠC SĨ 77 Linh Pham

KẾT QUẢ VÀ PHÂN TÍCH

Mô phỏng mô hình hệ thống cell-free massive MIMO

Mô hình một hệ thống cell-free massive MIMO [17] được mô phỏng bao gồm 𝑀 điểm truy cập và 𝐾 thiết bị người dùng Vị trí của điểm truy cập và thiết bị người dùng được phân bố ngẫu nhiên trong khu vực có kích thước 𝐷 × 𝐷 km 2 Hình 5.1 minh họa vị trí của 20 điểm truy cập và 8 thiết bị người dùng trong khu vực có kích thước 0.5 × 0.5 km 2

Hình 5.1: Minh họa mô phỏng hệ thống cell-free massive MIMO

LUẬN VĂN THẠC SĨ 78 Linh Pham

Hệ số kênh truyền giữa người dùng thứ 𝒌 và điểm truy cập thứ 𝒎 được kí hiệu là 𝒉 𝒎𝒌 và được mô hình hóa như sau:

ℎ 𝑚𝑘 = 𝛽 𝑚𝑘 1/2 ℎ̃ 𝑚𝑘 (5.1) với 𝛽 𝑚𝑘 và ℎ̃ 𝑚𝑘 lần lượt là hệ số large-scale fading và small-scale fading Hệ số small- scale fading được giả định độc lập và tuân theo phân phối đồng nhất 𝑁(0,1) Hệ số large-scale fading được tính toán dựa trên mô hình suy hao đường đi và mô hình shadowing

Mô hình suy hao đường truyền được dựa trên mô hình ba dốc [17] Đặt khoảng cách giữa điểm truy cập thứ 𝑚 và thiết bị người dùng thứ 𝑘 là 𝑑 𝑚𝑘 Dựa trên mô hình lan truyền Hata-COST231, mô hình suy hao đường truyền với đơn vị dB sẽ có dạng như sau:

− (1.1 log 10 𝑓 − 0.7)ℎ 𝑢 + (1.56 log 10 𝑓 − 0.8) (5.3) với 𝑓(MHz) là tần số sóng mang, ℎ 𝐴𝑃 (m) là chiều cao của antenna tại điểm truy cập và

ℎ 𝑢 (m) là chiều cao antenna của người dùng Như vậy, mô hình suy hao đường truyền

PL 𝑚𝑘 được xem là một hàm liên tục theo khoảng cách 𝑑 𝑚𝑘

Mô hình hóa hệ số shadowing fading có dạng:

𝑧 𝑚𝑘 = √𝛿𝑎 𝑚 + √1 − 𝛿𝑏 𝑘 , 𝑚 = 1, … , 𝑀, 𝑘 = 1, … , 𝐾 (5.4) trong đó, 𝑎 𝑚 ~𝑁(0,1) và 𝑏 𝑚 ~𝑁(0,1) là biến độc lập ngẫu nhiên Hệ số 𝛿 là một tham số với 0 ≤ 𝛿 ≤ 1 Biến ngẫu nhiên 𝑎 𝑚 sẽ mô hình hóa shadow fading được sinh ra từ các vật cản trở ở gần kề điểm truy cập thứ 𝑚, và xem như các vật cản gần điểm truy cập thứ 𝑚 gây ảnh hưởng giống nhau đến tất cả thiết bị người dùng Biến ngẫu nhiên 𝑏 𝑘 sẽ mô hình hóa shadowing fading sinh ra từ các vật cản ở gần thiết bị người dùng thứ 𝑘 và xem như các vật cản ở gần thiết bị người dùng gây ảnh hưởng giống nhau lên các điểm truy cập Khi 𝛿 = 0, shadow fading từ một thiết bị người dùng đến tất cả điểm truy cập bằng nhau Tuy nhiên, những thiết bị người dùng khác nhau sẽ gây tác động shadow fading khác nhau lên các điểm truy cập Tương tự như khi 𝛿 = 1, thì shadowing fading

LUẬN VĂN THẠC SĨ 79 Linh Pham sinh ra từ một điểm truy cập đến các thiết bị người dùng bằng nhau, nhưng các điểm truy cập khác nhau sẽ gây ảnh hưởng lên thiết bị người dùng khác nhau Phương trình hiệp phương sai của 𝑎 𝑚 và 𝑏 𝑘 được tính như sau:

𝑑 𝑑𝑒𝑐𝑜𝑟𝑟 (5.5) trong đó, 𝑑 𝑎 (𝑚, 𝑚 ′ ) là khoảng cách giữa hai điểm truy cập thứ 𝑚 và 𝑚 ′ 𝑑 𝑏 (𝑘, 𝑘 ′ ) là khoảng cách giữa hai thiết bị người dùng thứ 𝑘 và 𝑘 ′ Và 𝑑 𝑑𝑒𝑐𝑜𝑟𝑟 là khoảng cách không tương quan và phụ thuộc vào môi trường

Như vậy, có thế mô hình hóa large-scale fading như sau:

𝛽 𝑚𝑘 = PL 𝑚𝑘 10 𝜎 𝑠ℎ 10 𝑧 𝑚𝑘 (5.6) Bảng 5.1 trình bày tham số được sử dụng để mô phỏng mạng cell-free massive MIMO

Bảng 5.1: Tham số hệ thống cell-free massive MIMO

Số thiết bị người dùng 𝐾

Diện tích khu vực bao phủ 𝐷 × 𝐷 km 2

Công suất đường uplink tối đa 𝑝 𝑢

Tần số sóng mang 𝑓 = 1.9 MHz

Hệ số nhiễu ảnh 9 dB Độ cao antenna tại điểm truy cập 15 m Độ cao antenna của thiết bị người dùng 1.65 m

Hệ số shadow fading 8 dB

Hệ số chiều dài độ dốc 3 đường trong mô hình Hata 𝑑 1 = 50 m, 𝑑 2 = 10 m

Vận tốc tối đa của người dùng 𝑣 𝑚𝑎𝑥 = 2.5 m/s

Gia tốc tối đa của người dùng 𝑎 𝑚𝑎𝑥 = 5 m 2 /s Độ lệch góc di chuyển ngẫu nhiên Δ𝛼 𝑚 = 0.175 rad

Số bước thời gian thay đổi gia tốc và hướng di chuyển của người dùng 𝑇 𝑚 = 10

LUẬN VĂN THẠC SĨ 80 Linh Pham

Xem xét chuỗi pilot được sử dụng trong pha huấn luyện đường uplink Trong trường hợp chuỗi pilot có độ dài 𝜏 𝑝 > 𝐾 thiết bị người dùng thì chuỗi pilot trực giao được chỉ định có độ dài bằng 𝐾 cho 𝐾 thiết bị người dùng Trong trường hợp mà 𝜏 𝑝

Ngày đăng: 31/07/2024, 09:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] “Ericsson Mobility Report.” Ericsson (Nov. 2021), sec. Forecasts, pp. 19 Sách, tạp chí
Tiêu đề: Ericsson Mobility Report.” "Ericsson
[2] M. Z. Chowdhury et al., "6G Wireless Communication Systems: Applications, Requirements, Technologies, Challenges, and Research Directions ," IEEE Open Journal of the Communications Society, vol. 1, pp. 957-975, 2020 Sách, tạp chí
Tiêu đề: 6G Wireless Communication Systems: Applications, Requirements, Technologies, Challenges, and Research Directions
[4] X. You et al., “Towards 6G Wireless Communication Networks: Vision, Enabling Technologies, and New Paradigm Shifts ," Science China Information Sciences, vol. 64, 2021 Sách, tạp chí
Tiêu đề: Towards 6G Wireless Communication Networks: Vision, Enabling Technologies, and New Paradigm Shifts
[5] A. Golsmith, Wirelesss Communication. Cambridge: Cambridge University Press, 2005 Sách, tạp chí
Tiêu đề: Wirelesss Communication
[6] E. Bjửrnson et al., “Massive MIMO Networks: Spectral, Energy, and Hardware Efficiency," Foundations and Trends® in Signal Processing, vol. 11, pp.154-655, 2017 Sách, tạp chí
Tiêu đề: Massive MIMO Networks: Spectral, Energy, and Hardware Efficiency
[7] T. L. Marzetta et al., Fundamentals of Massive MIMO. Cambridge: Cambridge University Press, 2016 Sách, tạp chí
Tiêu đề: et al., Fundamentals of Massive MIMO
[8] ệ. T. Demir et al., “Foundations of User-centric Cell-free Massive MIMO ,” Foundations and Trends® in Signal Processing, vol. 14, no. 3-4, pp 162-472, 2020 Sách, tạp chí
Tiêu đề: et al.", “Foundations of User-centric Cell-free Massive MIMO,” "Foundations and Trends® in Signal Processing
[9] E. Dahlman et al., 4G LTE-Advanced Pro and The Road to 5G. Cambridge, San Diego, Kidlington, London EC2Y 5AS: Academic Press, 2016 Sách, tạp chí
Tiêu đề: et al., 4G LTE-Advanced Pro and The Road to 5G
[10] M. J. Kochenderfer and T. A. Wheeler, Algorithms for Optimization. Cambridge: MIT Press, 2019 Sách, tạp chí
Tiêu đề: Algorithms for Optimization
[11] S. Boyd and L. Vandenberghe, Convex Optimization. Cambridge: Cambridge University Press, 2009 Sách, tạp chí
Tiêu đề: Convex Optimization. "Cambridge: Cambridge University Press
[12] D. P. Bertsekas, Nonlinear Programming. Belmont: Athena Scientific, 1997 Sách, tạp chí
Tiêu đề: Nonlinear Programming
[13] H. Dong et al., Deep Reinforcement Learning Fundamentals, Research and Applications. Singapore: Springer Nature Singapore, 2020 Sách, tạp chí
Tiêu đề: et al., Deep Reinforcement Learning Fundamentals, Research and Applications
[15] I. Park and T. Moh, “Multi-Agent Deep Reinforcement Learning for Walkers Systems ," 20 th IEEE International Conference on Machine Learning and Applications, pp. 490-495, 2021 Sách, tạp chí
Tiêu đề: Multi-Agent Deep Reinforcement Learning for Walkers Systems
[16] S. Gronauer and K. Diepold, “Multi‑agent deep reinforcement learning: a survey," Artificial Intelligence Review, vol. 55, pp. 895-943, 2022 Sách, tạp chí
Tiêu đề: Multi‑agent deep reinforcement learning: a survey
[17] H. Q. Ngo et al., “Cell-free Massive MIMO versus Small Cells," IEEE Transactions on Wireless Communications, vol. 16, pp. 1834-1850, 2017 Sách, tạp chí
Tiêu đề: Cell-free Massive MIMO versus Small Cells
[18] Q. Shi et al., “An Iteratively Weighted MMSE Approach to Distributed Sum- Utility Maximization for a MIMO Interfering Broadcast Channel ," IEEE Transactions on Signal Processing, vol. 59, no. 9, pp. 4331-4340, Sept. 2011 Sách, tạp chí
Tiêu đề: An Iteratively Weighted MMSE Approach to Distributed Sum-Utility Maximization for a MIMO Interfering Broadcast Channel
[19] Y. S. Nasir and D. Guo, “Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks ," IEEE Journal on Selected Areas in Communications, vol. 37, no. 10, pp. 2239-2250, Oct. 2019 Sách, tạp chí
Tiêu đề: Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks
[20] Y. S. Nasir and D. Guo, “Deep Actor-Critic Learning for Distributed Power Control in Wireless Mobile Networks," arXiv preprint arXiv:2009.06681, 2020 Sách, tạp chí
Tiêu đề: Deep Actor-Critic Learning for Distributed Power Control in Wireless Mobile Networks
[3] N. Rajatheva et al., ‘‘White Paper on Broadband Connectivity in 6G ," 6G Research Visions, n o. 10, June 2020 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w