Các loại xấp xỉ hàm sử dụng NN [1] được trình bày trong Phụ lục A là cơ sở để thiết kế giải thuật RL dựa vào xấp xỉ hàm, trong đó cấu trúc và luật cập nhật trọng số cho các loại xấp xỉ hàm khác nhau được giới thiệu, bao gồm nhóm xấp xỉ hàm truyền thẳng nhiều lớp MLP (Multi-Layer Perceptron), nhóm xấp xỉ hàm cơ sở xuyên tâm RBF (Radial Basis Function) với các phiên bản khác nhau như: RBF chuẩn hóa NRBF (Normalized Radial Basis Function), RBF cấp phát tài nguyên động RARBF (Resource Allocating Radial Basis Function) và RBF thích nghi chuẩn hóa (Adaptive NANRBF Normalized Radial Basis Function), và cuối cùng là nhóm xấp xỉ hàm mô phỏng theo mô hình tiểu não CMAC (Cerebellar Model Articulation Controller).
Trong Phụ lục A, khả năng xấp xỉ của mỗi nhóm xấp xỉ hàm được so sánh theo các tiêu chí: sai số, tốc độ hội tụ, tài nguyên lưu trữ và chi phí tính toán nhằm tìm ra loại xấp xỉ hàm phù hợp cho nghiên cứu tiếp theo. Kết quả so sánh cho thấy rằng xấp xỉ hàm MLP mặc dù chậm hội tụ nhưng cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất nhỏ so với các xấp xỉ hàm còn lại. Đó là lý do tại sao, hầu hết các giải thuật RL gần đây đều sử dụng loại xấp xỉ hàm này, đặc biệt là NN truyền thẳng sử dụng cấu trúc một lớp thể hiện trên H. A.2 [43], [67], [84], [123], nhằm tránh sử dụng giải thuật lan truyền ngược không hiệu quả về tốc độ hội tụ. Cốt lõi của vấn đề là luật cập nhật off-line của xấp xỉ hàm này không còn phù hợp để điều khiển online. Vì vậy, bài toán thiết kế mới luật cập trọng số online được đặt ra.
Một số thuộc tính cần thiết của xấp xỉ hàm truyền thẳng một lớp được trình bày sau đây nhằm phục vụ cho việc thiết kế giải thuật online ở những chương tiếp theo.