VÀ KỸ THUẬT HỌC TĂNG CƯỜNG SÂU 1.1.Các vấn đề lý luận cơ bản về Học sâu và Mạng Neuron:
1.1.1.Khái niệm Học sâu:
Có lẽ Học sâu đã là một thuật ngữ quá quen thuộc đối với tất cả chúng ta:
“Deep Learning (hay Học sâu) là một lĩnh vực trong Machine Learning, nơi máy tính học và cải thiện thông qua các thuật toán phức tạp hơn. Nó tập trung vào việc sử dụng mạng neuron nhân tạo để mô phỏng khả năng tư duy và suy nghĩ của con người”.
Mặc dù các khái niệm liên quan đến mạng neuron nhân tạo và Deep Learning
đã được phát triển từ những năm 1960, nhưng sự phát triển của nó đã bị hạn chế do thiếu dữ liệu và khả năng tính toán.
Trong những năm gần đây, với tiến bộ trong việc phân tích Big data, chúng ta
đã có cơ hội tận dụng hết khả năng của mạng neuron nhân tạo. Deep Learning dựa trên mạng neuron sâu (DNN - Deep Neural Networks), gồm nhiều lớp tế bào thần kinh khác nhau, có khả năng thực hiện các tính toán phức tạp. Nó đang phát triển nhanh chóng và được coi là một trong những tiến bước đột phá quan trọng nhất trong Machine Learning.
1.1.2.Cách thức hoạt động của mô hình Học sâu:
Mạng thần kinh nhân tạo trong Deep Learning được xây dựng để mô phỏng khả năng tư duy của bộ não con người. Các đặc điểm cơ bản của Mạng neuron trong Deep Learning bao gồm:
1) Mạng neuron được tổ chức thành nhiều lớp, mỗi lớp bao gồm các nút (node)
và các kết nối giữa các nút.
2) Mỗi kết nối giữa các nút có một trọng số tương ứng, ảnh hưởng đến sự truyền thông tin và tính toán trong mạng.
3) Mỗi nút trong mạng có một hàm kích hoạt, có tác dụng chuẩn hóa đầu ra từ nút
đó.
Copies for internal use only in Phenikaa University
4) Dữ liệu được đưa vào mạng và truyền qua các lớp, cho đến khi đạt được kết quả cuối cùng tại lớp đầu ra.
5) Quá trình đào tạo Mạng neuron bao gồm việc điều chỉnh các trọng số của kết nối để tối ưu hóa kết quả dự đoán.
Deep Learning đòi hỏi phần cứng mạnh để xử lý lượng lớn dữ liệu và tính toán phức tạp. Các mô hình Deep Learning thường yêu cầu thời gian lâu để huấn luyện trên phần cứng tiên tiến nhất hiện nay.
1.1.3.Mạng Neuron:
Hai cụm từ “Mạng neuron” và “Học sâu” luôn được đi kèm với nhau như một phần tất yếu. Mạng neuron là một phương thức trong lĩnh vực Trí tuệ nhân tạo, được
sử dụng để dạy máy tính xử lý dữ liệu theo cách được lấy cảm hứng từ bộ não con người. Đây là một loại quy trình máy học, được gọi là Deep Learning, sử dụng các nút hoặc neuron liên kết với nhau trong một cấu trúc phân lớp tương tự như bộ não con người. Phương thức này tạo ra một hệ thống thích ứng được máy tính sử dụng để học hỏi từ sai lầm của chúng và liên tục cải thiện.
Bộ não con người đã trở thành nguồn cảm hứng cho kiến trúc Mạng neuron. Các tế bào não, hay còn gọi là neuron, trong não con người tạo thành một mạng lưới phức tạp, với tính liên kết cao và khả năng truyền tín hiệu điện để xử lý thông tin. Tương tự, mạng Neuron nhân tạo được tạo ra từ các tế bào neuron nhân tạo, hoạt động cùng nhau để giải quyết các vấn đề. Các neuron nhân tạo là các thành phần phần mềm, được gọi là Node (các nút), và Mạng neuron nhân tạo là các chương trình phần mềm hoặc thuật toán, sử dụng hệ thống máy tính để thực hiện các phép toán.
Copies for internal use only in Phenikaa University
Hình 1.1: Mô hình mạng Neuron
Về cơ bản kiến trúc Mạng neuron gồm 3 phần, đó là: Lớp đầu vào (Input), Lớp
ẩn (Hidden) và Lớp đầu ra (Output), cụ thể như sau:
1) Lớp đầu vào: Có nhiệm vụ tiếp nhận dữ liệu đầu vào, phân loại lượng dữ liệu
này và chuyển tiếp tới lớp ẩn.
2) Lớp ẩn: Số lượng lớp ẩn được thiết lập tùy theo độ phức tạp của dữ liệu cần xử
lý. Các lớp này có nhiệm vụ xử lý dữ liệu rồi chuyển tiếp qua lớp tiếp theo.
3) Lớp đầu ra: Lớp này hiển thị kết quả sau quá trình tính toán. Số lượng note sẽ
tùy thuộc vào yêu cầu đầu ra của bài toán cần xử lý. Ví dụ bài toán cần trả lời câu hỏi đúng hay sai, số lượng note sẽ là 2 trả về theo dạng nhị phân 0 hoặc 1.
1.2.Các vấn đề lý luận cơ bản về Học tăng cường sâu:
1.2.1.Khái niệm:
“Học Tăng cường Sâu (Deep Reinforcement Learning - DRL) là một kỹ thuật học máy tiên tiến kết hợp giữa học tăng cường và mạng neuron sâu nhằm thực hiện quyết định thông minh trong môi trường phức tạp. DRL cung cấp một khung thể hiện
Copies for internal use only in Phenikaa University
mạnh mẽ để huấn luyện các đại lý tương tác với môi trường, học các chính sách tối
ưu và đạt được mục tiêu cụ thể”.
1.2.2.Đặc điểm:
Hình 1.2: Cách thức hoạt động của Học tăng cường sâu DRL
Ở cốt lõi của DRL, có một định lý đó là học thông qua thử, bằng cách thực hiện hành động trong môi trường và nhận phản hồi dưới dạng phần thưởng hoặc phạt. Đại lý nhằm tối đa hóa tổng phần thưởng tích lũy qua thời gian bằng cách khám phá các chiến lược hiệu quả và điều chỉnh hành vi của mình. Điểm đặc biệt của DRL là sử dụng Mạng neuron sâu để xấp xỉ hàm giá trị hoặc hàm chính sách. Các Mạng neuron sâu này cung cấp khả năng xử lý không gian đầu vào có số chiều lớn, học các mô hình phức tạp và tổng quát hoá tốt cho những tình huống chưa từng gặp. Chúng có thể được huấn luyện bằng các thuật toán khác nhau, trong đó Q-Learning và các biến thể của
nó là các lựa chọn nổi bật.
DRL đã thu hút sự quan tâm lớn và chứng tỏ khả năng ấn tượng trong nhiều lĩnh vực, bao gồm robot học, lái xe tự động, chơi game và quản lý tài nguyên. Nó đã thành công trong việc huấn luyện các đại lý chơi các trò chơi phức tạp như Go và cờ vua ở mức độ siêu nhiên, điều hướng trong môi trường phức tạp và tối ưu hóa phân
Copies for internal use only in Phenikaa University
bổ tài nguyên. Tuy nhiên, DRL cũng đặt ra những thách thức. Huấn luyện các mô hình DRL có thể đòi hỏi nhiều tài nguyên tính toán và lượng dữ liệu lớn. Cân bằng giữa khám phá và khai thác để tìm ra các chính sách tối ưu có thể phức tạp. Ngoài ra, đảm bảo sự ổn định trong quá tr ình huấn luyện và xử lý phần thưởng thưa thớt là các lĩnh vực nghiên cứu tiếp tục.
Các tiến bộ trong DRL đã mang lại những đột phá trong nhiều lĩnh vực, với các ứng dụng từ chăm sóc sức khỏe và tài chính đến năng lượng và giao thông vận tải. Khả năng học trực tiếp từ đầu vào cảm biến thô làm cho DRL đặc biệt phù hợp với các tình huống thực tế nơi dữ liệu phong phú. Tóm lại, DRL kết hợp Học tăng cường và Mạng neuron sâu để cho phép các đại lý học cách đưa ra quyết định tối ưu trong môi trường phức tạp. Nó có tiềm năng thay đổi nhiều ngành công nghiệp và thúc đẩy sự tiến bộ trong Trí tuệ nhân tạo. Nghiên cứu và đổi mới liên tục mở ra tiềm năng toàn diện của DRL và mở đường cho các hệ thống thông minh có khả năng tự học và ra quyết định tự động. Đối với hệ thống phân bổ tài nguyên trong mô hình Federated Learning, DRL là một giải pháp hoàn toàn phù hợp.
1.3.Mối quan hệ giữa Học tăng cường và Học tăng cường sâu:
Học tăng cường là một phương pháp học bằng cách tương tác với môi trường,
và nó xuất phát từ cách chúng ta học khi còn trẻ nhỏ. Việc tương tác với môi trường cung cấp kiến thức quan trọng về môi trường và bản thân trong cuộc sống của chúng
ta. Học từ sự tương tác là cơ sở cho hầu hết các lý thuyết học tập và là nền tảng của học tăng cường. Phương pháp Học tăng cường tập trung vào việc học từ tương tác để đạt được mục tiêu, không chỉ đơn thuần là việc thực hiện các hành động đã được cho trước. Thực thể học tập phải tự khám phá ra những hành động nào mang lại phần thưởng lớn nhất thông qua quá trình thử và sai. Hơn nữa, những hành động này có thể ảnh hưởng đến phần thưởng trong tương lai, gọi là phần thưởng bị trì hoãn, vì chúng quyết định tình huống trong tương lai. Điều này tương tự như cách chúng ta học trong cuộc sống thực. Hai đặc điểm quan trọng của Học tăng cường là quá trình tìm kiếm thông qua thử và sai và ảnh hưởng của hành động hiện tại đến phần thưởng trong
Copies for internal use only in Phenikaa University
tương lai. Đối với Học tăng cường sâu ta vẫn tuân theo hai điểm quan trọng kể trên, tuy nhiên Mạng neuron được áp dụng vào nhằm giải quyết vấn đề đưa ra quyết định tối ưu. Điều này cải thiện cả về tốc độ lẫn kết quả đạt được. Trong đề tài này em đề xuất sử dụng Học tăng cường sâu vì khả năng tự học và tự đưa ra quyết định của nó. Bên cạnh đó còn là tốc độ xử lý cũng như kết quả tối ưu. Trong phần tiếp theo, chúng
ta tìm hiểu về thuật toán sử dụng trong học tăng cường sâu.
Copies for internal use only in Phenikaa University