Trị chơi khi được áp dụng thuật toán Bellman Equat- 123docz.net

Hàm 𝑚𝑎𝑥 giúp 𝑎𝑔𝑒𝑛𝑡 có thể tìm được chuỗi hành động tối ưu trong đó discount factor 𝛾 giúp thơng báo cho 𝑎𝑔𝑒𝑛𝑡 cịn cách đích đến bao xa. Tuy nhiên, trong nhiều trường hợp phải đưa ra quyết định giữa nhiều lựa chọn, Bellman Equation vẫn có một tỉ lệ nhỏ khiến agent bị rối loạn. Vấn đề ở đây là quá trình đưa ra quyết định vừa ngẫu nhiên vừa trong tầm kiểm sốt. Trong tầm kiểm sốt vì 𝑎𝑔𝑒𝑛𝑡 vẫn tuân thủ những chiến lược chúng ta đã đặt ra tuy nhiên lại ngẫu nhiên vì chúng ta khơng biết khi nào thì 𝑎𝑔𝑒𝑛𝑡 sẽ rối loạn. Thế nhưng chúng ta có thể đưa concept này vào trong Bellman Equation với một số chỉnh sửa nhỏ:

𝑉(𝑠) = 𝑚𝑎𝑥

𝑎 (𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′))𝑠′ (1.2)

• 𝑃(𝑠, 𝑎, 𝑠′): xác suất di chuyển từ trạng thái 𝑠 sang 𝑠′ với hành động 𝑎.

Quá trình này được biết đến với cái tên Markov's Decision Process (MDP).

2.2. Thuật toán Q – learning

Mơ hình Q-Learning cũng gần giống với quá trình đã được đề cập ở trên. Tuy nhiên, thay vì dựa trên giá trị của các state V(s) mà đưa ra quyết định về hành động thì Q- Learning tập trung hơn vào việc đánh giá chất lượng của một hành động 𝑄(𝑠, 𝑎). Vậy chúng ta làm như nào để đánh giá được các hành động này? Từ bên trên chúng ta có

Đỗ Minh Tồn - D17CQVT07-B 13 công thức: 𝑉(𝑠) = 𝑚𝑎𝑥 𝑎 (𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)) 𝑠′ (1.3) Trong công thức này chúng ta đang quan tâm đến tất cả các state và tất cả các action khả thi. Vậy khi bỏ hàm 𝑚𝑎𝑥, chúng ta sẽ được công thức 𝑅(𝑠, 𝑎) +

𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)𝑠′ và hãy nghĩ nó như là giá trị của một state được tạo ra cho chỉ một hành động khả thi. Chúng ta sẽ lấy phương trình này làm phương trình đánh giá hành động 𝑄(𝑠, 𝑎) như sau:

𝑄(𝑠, 𝑎) = 𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)

𝑠′

(1.4)

Hình 1. 9: Minh họa thuật toán q-learning

Để giảm thiểu các cơng việc tính tốn đồng thời để tạo nên sự đồng nhất, chúng ta có thể tiến hành cải tiến cơng thức thêm một bước nữa:

𝑄(𝑠, 𝑎) = 𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑚𝑎𝑥

𝑎 𝑄(𝑠′, 𝑎′)

𝑠′

(1.5)

Đồ án tốt nghiệp Đại học Chương 1: Tổng quan về ML và RL

Đỗ Minh Toàn - D17CQVT07-B 14

một state được tính bằng giá trị lớn nhất có thể của 𝑄(𝑠, 𝑎). Giá trị được tính tốn từ công thức này được gọi là Q-values và agent sẽ học cách tự tính tốn Q-values và đưa ra hành động dựa trên các giá trị này. Ở trên chúng ta đã hiểu agent đưa ra lựa chọn dựa trên Q-values như thế nào, vậy giờ hãy cùng đến với một phần cuối đó là cách để agent có thể tự tính tốn Q-values.

Temporal Difference (TD)

Chúng ta đã biết môi trường không phải bất biến mà sẽ thay đổi theo thời gian, vậy phải làm như nào để nắm bắt được sự thay đổi của mơi trường? Đó chính là tính lại Q- values mới sử dụng công thức vừa xây dựng ở trên sau đó trừ đi Q-values đã biết.

𝑇𝐷(𝑎, 𝑠) = 𝑅(𝑠, 𝑎) + 𝛾∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑚𝑎𝑥

𝑎 𝑄(𝑠′, 𝑎′)− 𝑄(𝑠, 𝑎)

𝑠′

(1.6) Phương trình trên cho thấy một sự thay đổi tạm thời của môi trường dựa theo Q- values. Vậy việc chúng ta cần làm là update các Q-values mới sử dụng công thức:

𝑄𝑡(𝑠, 𝑎) = 𝑄𝑡−1(𝑠, 𝑎) + 𝛼𝑇𝐷𝑡(𝑠, 𝑎) (1.7)

Trong đó,

• 𝛼: là tốc độ học (learning rate) tượng trưng cho việc agent thích nghi nhanh

chóng như thế nào với sự thay đổi của mơi trường.

• 𝑄𝑡(𝑠, 𝑎): là Q-value hiện tại.

• 𝑄𝑡−1(𝑠, 𝑎)): là Q-value trước đó.

2.3. Mạng hồi quy LSTM 2.3.1. Mạng RNNs 2.3.1. Mạng RNNs

Con người không bắt đầu suy nghĩ của họ từ đầu tại tất cả các thời điểm. Cũng như chúng ta đang đọc một bài viết, chúng ta hiểu mỗi chữ ở bài viết dựa vào từ chúng ta đã hiểu các chữ trước đó chứ khơng phải là đọc tới đâu quên tới đó, rồi lại bắt đầu suy nghĩ lại từ đầu tới chữ chúng ta đang đọc. Tức là tư duy đã có một bộ nhớ để lưu lại những gì diễn ra trước đó [5].

Tuy nhiên các mơ hình mạng nơ-ron truyền thống thì khơng thể làm được việc đó, đó có thể coi là một khuyết điểm chính của mạng nơ-ron truyền thống. Ví dụ, chúng ta muốn phân loại các bối cảnh xảy ra ở tất cả các thời điểm trong một bộ phim, thì đúng là khơng rõ làm thế nào để có thể hiểu được một tình huống trong phim mà lại phụ thuộc vào các tình huống trước đó nếusử dụng các mạng nơ-ron truyền thống.

Mạng nơ-ron hồi quy (Recurrent Neural Network) sinh ra để giải quyết vấn đề đó. Mạng này chứa các vịng lặp bên trong cho phép thơng tin có thể lưu lại được.

Đỗ Minh Tồn - D17CQVT07-B 15 Hình 1. 10: Recurrent Neural Network có các vịng lặp [5]

Hình 1.7 mơ tả một đoạn của mạng nơ-ron hồi quy 𝐴 với đầu vào là 𝑥𝑡và đầu ra là ℎ𝑡. Một vòng lặp cho phép thơng tin có thể được truyền từ bước này qua bước này qua bước khác của mạng nơ-ron.

Hình 1. 11: Recurrent Neural Network chưa được lặp [5]

Chuỗi lặp lại các mạng này chính là phân giải của mạng nơ-ron hồi quy, các vòng lặp khiến chúng tạo thành một chuỗi danh sách các mạng sao chép nhau. Chúng ta có thể thấy nó khơng khác gì một mạng nơ-ron thuần. Các nút của mạng vẫn nhận đầu vào và có đầu ra hệt như mạng nơ-ron thuần.

Vấn đề phụ thuộc xa

Một điểm nổi bật của RNN chính là ý tưởng kết nối các thơng tin phía trước để dự đốn cho hiện tại. Việc này tương tự như ta sử dụng các cảnh trước của bộ phim để hiểu được cảnh hiện thời. Nếu mà RNN có thể làm được việc đó thì chúng sẽ cực kì hữu dụng, tuy nhiên với khoảng cách càng lớn dần thì RNN bắt đầu khơng thể nhớ và học được nữa.

2.3.2. Mạng LSTM

Mạng bộ nhớ dài-ngắn hạn (Long Short Term Memory networks), thường được gọi là LSTM - là một dạng đặc biệt của RNN, nó có khả năng học được các phụ thuộc xa. LSTM được giới thiệu bởi Hochreiter & Schmidhuber (1997), và sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành. Chúng hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần đã trở nên phổ biến như hiện nay [5].

LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term dependency). Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta không

Đồ án tốt nghiệp Đại học Chương 1: Tổng quan về ML và RL

Đỗ Minh Toàn - D17CQVT07-B 16

cần phải huấn luyện nó để có thể nhớ được. Tức là ngay nội tại của nó đã có thể ghi nhớ được mà khơng cần bất kì can thiệp nào.

Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặp lại của mạng nơ- ron. Với mạng RNN chuẩn, các mơ-dun này có cấu trúc rất đơn giản, thường là một tầng 𝑡𝑎𝑛ℎ.

Hình 1. 12: Mơ-đun lặp lại trong RNN tiêu chuẩn chứa một lớp duy nhất

LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các mơ-đun trong nó có cấu trúc khác với mạng RNN chuẩn. Thay vì chỉ có một tầng mạng nơ-ron, chúng có tới 4 tầng tương tác với nhau một cách rất đặc biệt.

Hình 1. 13: Mơ-đun lặp lại trong một LSTM chứa bốn lớp tương tác

Hình 1. 14: Các ký hiệu của mạng RNN

Ở sơ đồ trên, mỗi một đường mang một véc-tơ từ đầu ra của một nút tới đầu vào Hoạt động theo chiều kim Lớp mạng thần kinh Sao chép Kết hợp Chuyển vector

Đỗ Minh Toàn - D17CQVT07-B 17

của một nút khác. Các hình trong màu hồng biểu diễn các phép toán như phép cộng véc- tơ chẳng hạn, cịn các ơ màu vàng được sử dụng để học trong các từng mạng nơ-ron. Các đường hợp nhau kí hiệu việc kết hợp, cịn các đường rẽ nhánh ám chỉ nội dung của nó được sao chép và chuyển tới các nơi khác nhau.

2.3.3. Ý tưởng cốt lõi của LSTM

Chìa khóa của LSTM là trạng thái tế bào (cell state) - chính đường chạy thơng ngang phía trên của sơ đồ hình vẽ.

Trạng thái tế bào là một dạng giống như băng truyền. Nó chạy xuyên suốt tất cả các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đơi chút. Vì vậy mà các thơng tin có thể dễ dàng truyền đi thơng suốt mà khơng sợ bị thay đổi.

Hình 1. 15: Băng truyền của trạng thái tế bào

LSTM có khả năng bỏ đi hoặc thêm vào các thơng tin cần thiết cho trạng thái tế bào, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate).

Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng sigmoid và một phép nhân.

Hình 1. 16: Các cổng sàng lọc thơng tin

Tầng sigmoid sẽ cho đầu ra là một số trong khoảng [0,1], mơ tả có bao nhiêu thơng tin có thể được thơng qua. Khi đầu ra là 0 thì có nghĩa là khơng cho thơng tin nào qua cả, cịn khi là 1 thì có nghĩa là cho tất cả các thơng tin đi qua nó.

Đồ án tốt nghiệp Đại học Chương 1: Tổng quan về ML và RL

Đỗ Minh Toàn - D17CQVT07-B 18

Một LSTM gồm có 3 cổng như vậy để duy trì và điều hành trạng thái của tế bào.

2.3.4. Bên trong LSTM

Bước đầu tiên của LSTM là quyết định xem thông tin nào cần bỏ đi từ trạng thái tế bào. Quyết định này được đưa ra bởi tầng sigmoid - gọi là “tầng cổng quên” (forget gate layer). Nó sẽ lấy đầu vào là ℎ𝑡−1 và 𝑥𝑡 rồi đưa ra kết quả là một số trong khoảng [0,1] cho mỗi số trong trạng thái tế bào 𝐶𝑡−1. Đầu ra là 1 thể hiện rằng nó giữ tồn bộ thơng tin lại, cịn 0 chỉ rằng tồn bộ thơng tin sẽ bị bỏ đi.

Quay trở lại với ví dụ mơ hình ngơn ngữ dự đốn từ tiếp theo dựa trên tất cả các từ trước đó, với những bài tốn như vậy, thì trạng thái tế bào có thể sẽ mang thơng tin về giới tính của một nhân vật nào đó giúp ta sử dụng được đại từ nhân xưng chuẩn xác. Tuy nhiên, khi đề cập tới một người khác thì ta sẽ khơng muốn nhớ tới giới tính của nhân vật nữa, vì nó khơng cịn tác dụng gì với chủ thế mới này.

Hình 1. 17: LSTM Lọc thơng tin cần loại bỏ

Bước tiếp theo là quyết định xem thông tin mới nào ta sẽ lưu vào trạng thái tế bào. Việc này gồm 2 phần. Đầu tiên là sử dụng một tầng sigmoid được gọi là “tầng cổng vào” (input gate layer) để quyết định giá trị nào ta sẽ cập nhập. Tiếp theo là một tầng 𝑡𝑎𝑛ℎ tạo ra một véc-tơ cho giá trị mới 𝑐̃𝑡 nhằm thêm vào cho trạng thái. Trong bước tiếp theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái.

Chẳng hạn với ví dụ mơ hình ngơn ngữ của ta, ta sẽ muốn thêm giới tính của nhân vật mới này vào trạng thái tế bào và thay thế giới tính của nhân vật trước đó.

Đỗ Minh Tồn - D17CQVT07-B 19 Hình 1. 18: LSTM Quyết định thông tin mới được lưu

Giờ là lúc cập nhập trạng thái tế bào cũ 𝐶𝑡−1 thành trạng thái mới 𝐶𝑡. Ở các bước trước đó đã quyết định những việc cần làm, nên giờ ta chỉ cần thực hiện là xong.

Ta sẽ nhân trạng thái cũ với 𝑓𝑡 để bỏ đi những thông tin ta quyết định quên lúc trước. Sau đó cộng thêm 𝑖𝑡 ∗ 𝐶̃𝑡. Trạng thái mơi thu được này phụ thuộc vào việc ta quyết định cập nhập mỗi giá trị trạng thái ra sao.

Với bài tốn mơ hình ngơn ngữ, chính là việc ta bỏ đi thơng tin về giới tính của nhân vật cũ, và thêm thơng tin về giới tính của nhân vật mới như ta đã quyết định ở các bước trước đó.

Hình 1. 19: LSTM cập nhật trạng thái

Cuối cùng, ta cần quyết định xem ta muốn đầu ra là gì. Giá trị đầu ra sẽ dựa vào trạng thái tế bào, nhưng sẽ được tiếp tục sàng lọc. Đầu tiên, ta chạy một tầng sigmoid để quyết định phần nào của trạng thái tế bào ta muốn xuất ra. Sau đó, ta đưa nó trạng thái tế bảo qua một hàm 𝑡𝑎𝑛ℎ để co giá trị nó về khoảng [−1,1], và nhân nó với đầu ra của cổng sigmoid để được giá trị đầu ra ta mong muốn.

Với ví dụ về mơ hình ngơn ngữ, chỉ cần xem chủ thể mà ta có thể đưa ra thơng tin về một trạng từ đi sau đó. Ví dụ, nếu đầu ra của chủ thể là số ít hoặc số nhiều thì ta có thể biết được dạng của trạng từ đi theo sau nó phải như thế nào.

Đồ án tốt nghiệp Đại học Chương 1: Tổng quan về ML và RL

Đỗ Minh Toàn - D17CQVT07-B 20

3. Kết luận chương 1

Chương 1 đã đề cập đến lịch sử phát triển và quá trình hình thành của Machine Learning cũng như các khái niệm về Reinforcement Learning. Đi sâu vào Machine Learning và Reinforcement Learning là cấu trúc, cách thức hoạt động các thuật toán K- mean, DBSCAN, Q-learning và mạng LSTM. Các thuật tốn này là các thuật tốn chính để áp dụng cho hệ thống quản lý búp sóng và tài nguyên vô tuyến trong mạng di động 5G.

Đỗ Minh Toàn - D17CQVT07-B 21

CHƯƠNG 2: TỔNG QUAN VỀ MẠNG 5G 1. Thực trạng triển khai mạng 5G trên thế giới và tại Việt Nam 1. Thực trạng triển khai mạng 5G trên thế giới và tại Việt Nam

Nếu mạng 2G tập trung hỗ trợ việc gửi tin nhắn giữa các thuê bao, 3G là kỷ nguyên bùng nổ các ứng dụng điện thoại, 4G cho chúng ta kết nối Internet nhanh hơn để có thể dùng các ứng dụng dữ liệu lớn như gọi xe cơng nghệ hay dịch vụ thoại có kèm hình ảnh như FaceTime hoặc Video Call trên Zalo thì 5G có ưu điểm là nhanh hơn nhiều lần so với 4G [6].

Với tốc độ cao, độ trễ thấp, khả năng phủ sóng rộng, cơng nghệ 5G đang hiện thực hóa những điều mà trước nay thường chỉ thấy trong các bộ phim khoa học viễn tưởng. Kết nối 5G có thể nhanh gấp 10 lần kết nối 4G, cho phép tải một bộ phim với chất lượng hình ảnh Full HD chỉ mất có vài giây.

Tuy nhiên, đó là trong điều kiện hồn hảo. Trên thực tế, nếu có nhiều người sử dụng cùng một lúc, tốc độ 5G sẽ rơi vào khoảng 100 Megabits/giây (Mbps), cao hơn từ 3 - 5 lần so với chuẩn 4G LTE hiện tại.

1.1. Thực trạng triển khai mạng 5G trên thế giới

Theo báo cáo về tốc độ mạng 5G trên toàn cầu trong quý III/2020 của Open Signal - cơng ty chun phân tích và đánh giá về thị trường mạng di động và không dây tại Anh, Mỹ là quốc gia có tốc độ mạng 5G thấp nhất trong tất cả các quốc gia được khảo sát. Tốc độ trung bình mạng 5G của quốc gia này chỉ đạt 52 Mbps, nhỉnh hơn đôi chút tốc độ mạng 4G (trung bình đạt khoảng 28,9 Mbps).

Hình 2. 1: So sánh tốc độ mạng 4G và 5G tại các quốc gia và vùng lãnh thổ trên thế giới [6]

Đồ án tốt nghiệp Đại học Chương 2: Tổng quan về mạng 5G

Đỗ Minh Tồn - D17CQVT07-B 22

Dù có tốc độ mạng 5G bị đánh giá chậm nhất thế giới, Mỹ lại là một trong những quốc gia có mức độ phủ sóng mạng 5G lớn nhất thế giới. Đa số các nhà mạng tại Mỹ sử dụng mạng 5G với tần số thấp. Điều này khiến cho tốc độ mạng không được cao nhưng lại có mức độ phủ sóng lớn hơn.

Trong khi đó, Saudi Arabia là quốc gia có tốc độ mạng 5G nhanh nhất thế giới với tốc độ trung bình đạt 377,2 Mbps, nhanh gấp 12,5 lần so với tốc độ mạng 4G tại quốc gia này (trung bình đạt 30,1 Mbps). Các quốc gia xếp tiếp theo trong danh sách mạng 5G nhanh nhất thế giới do Open Signal công bố bao gồm Hàn Quốc (336,1 Mbps),

Trị chơi khi được áp dụng thuật toán Bellman Equation

Băng truyền của trạng thái tế bào