Trí tuệ nhân tạo (Artificial Intelligence) hay tạo cho máy móc khả năng suy luận, phán đoán và cảm nhận như con người là một trong những tham vọng to lớn của loài người. Tham vọng này đã có từ lâu và cùng với sự ra đời của máy tính, con người từng bước đưa kiến thức của mình vào máy, biến chúng trở thành những công cụ thực sự có trí tuệ. Mạng nơron nhân tạo là một bộ phận của ngành khoa học trí tuệ nhân tạo, là lĩnh vực tin học nghiên cứu ứng dụng máy tính điện tử thông minh hoạt động theo cơ chế mô phỏng tư duy của con người. Mạng nơron nhân tạo có cấu trúc tương tự như bộ não tuy nhiên số nơron trong mạng nơron nhân tạo là hữu hạn tuỳ thuộc vào nhu cầu thực tế của bài toán, còn đối với bộ não con người số nơron lên tới xấp xỉ 15 tỉ nơron. Mạng nơron có khả năng
học và tái tạo lại những gì đã được dạy, chính vì đặc điểm này mà mạng nơron
đang được phát triển rất mạnh mẽ và đang được ứng dụng rất nhiều trong thực tế, đặc biệt là trong lĩnh vực dự báo, nhận dạng, điều khiển... Con người bắt đầu nghiên cứu mạng nơron vào cuối thập niên 1800 khi người ta cố gắng mô tả hoạt đông của trí tuệ con người, ý tưởng này bắt đầu được áp dụng cho các mô hình tính toán từ mạng Perceptron.
Đầu thập niên 1950 Friedrich Hayek là người đầu tiên khẳng định ý tưởng về trật tự tự phát trong não xuất phát từ các mạng phân tán gồm các đơn vị đơn giản (nơron). Cuối thập niên 1940, Donnald Hebb đưa ra giả thuyết đầu tiên về một cơ chế thần kinh mềm dẻo (neural plasticity). Hebbian learning được coi là một quy tắc 'điển hình' của học không có giám sát. Nó (và các biến thể) là mô hình thời kỳ đầu của việc tạo tiềm lực dài hạn.
Perceptron là môt bộ phân loại tuyến tính dành cho việc phân loại dữ liệu
x∈ Rn xác định bằng các tham số w ∈ Rn, b ∈ Rn và một hàm đầu ra g = w'x + b.
Các tham số của nó được thích nghi với môt quy tắc tùy biến (ad- hoc) tương tự với xuống dốc ngẫu nhiên (stochastic steepest gradient descent). Perceptron chỉ có thể phân loại hoàn hảo môt tập dữ liệu mà các lớp khác nhau là (linearly
- 26 -
separable) trong không gian đầu vào. Nó thường thất bại hoàn toàn đối với dữ liệu không chia tách được. Sự phát triển của thuật toán này ban đầu đã tạo ra môt số hứng khởi, phần vì mối quan hệ của nó đối với các cơ chế sinh học. Sau này, phát hiện về điểm yếu này đã làm cho các mô hình Perceptron bị bỏ mặc cho đến khi các mô hình phi tuyến được đưa ra.
Cognitron (1975) là môt mạng nơron đa tầng thời kỳ đầu với môt thuật toán huấn luyện. Các chiến lược thần kinh khác nhau sẽ khác nhau về cấu trúc thực sự của mạng và các phương pháp thiết lập trọng số cho các kết nối. Mỗi dạng có các ưu điểm và nhược điểm riêng. Mạng có thể lan truyền thông tin chỉ theo môt hướng, hoặc thông tin có thể được đẩy đi đẩy lại cho đến khi tại môt nút xuất hiện sự tự kích hoạt và mạng sẽ dừng tại môt trạng thái kết thúc.
Mạng nơron nhiều lớp lan truyền ngược sai số đã được Rosenblatt và một số tác giả khác mô tả từ những năm 50, nhưng họ chủ yếu chỉ nghiên cứu sâu về mạng Perceptron một lớp. Sở dĩ như vậy là do không tìm được cách thay đổi trọng số liên kết tại các lớp ẩn. Ngay cả khi đã biết được sai số tại các đầu ra, nhưng người ta vẫn chưa hình dung được các sai số đó được phân bố như thế nào tại các nơron ẩn. Minsky và Papert đã chỉ ra rằng khó có thể tổng quát hoá luật học đối với mạng một lớp sang mạng nhiều lớp, có hai lý giải chính cho vấn đề này. Thứ nhất, thuật giải học của mạng nhiều lớp có thể không hiệu quả, hoặc không hội tụ về điểm cực trị tổng thể trong không gian véctơ trọng số. Mặt khác, các nghiên cứu trong lý thuyết tính toán đã chỉ ra rằng trong trường hợp tồi nhất quá trình học các hàm tổng quát từ mẫu học không phải lúc nào cũng giải quyết được. Các nguyên tắc cơ bản trong luật học đối với mạng nhiều lớp đã được Bryson và Ho đề xuất từ năm 1969, nhưng phải tới giữa năm 1980 vấn đề này mới được quan tâm trở lại bởi công trình nghiên cứu của Rumelhart năm 1986.
Mạng truyền ngược (backpropagation) có lẽ đã là nguyên nhân chính của sự tái xuất của mạng nơron từ khi công trình "Learning Internal Representations by Error Propagation" (học các biểu diễn bên trong bằng cách lan truyền lỗi) được xuất bản năm 1986. Mạng truyền ngược ban đầu sử dụng nhiều tầng, mỗi tầng
- 27 -
gồm các đơn vị tổng trọng số có dạng g = f(w'x + b), trong đó f là một hàm sigmoid. Huấn luyện được thực hiện theo kiểu xuống dốc ngẫu nhiên. Việc sử dụng quy tắc tính nguyên hàm cho hàm hợp (chain rule) khi tính toán các thay đổi thích hợp cho các tham số dẫn đến một thuật toán có vẻ truyền ngược lỗi, đó là nguồn gốc của thuật ngữ truyền ngược. Tuy nhiên, về bản chất đây chỉ là một dạng xuống dốc, việc xác định các tham số tối ưu cho một mô hình thuộc dạng này không đơn giản, không thể dựa vào các phương pháp xuống dốc để có được lời giải tốt mà không cần một xuất phát điểm tốt. Ngày nay, các mạng có cùng kiến trúc với mạng truyền ngược được gọi là các mạng Perceptron đa tầng. Thuật ngữ này không hàm ý bất cứ giới hạn nào đối với loại thuật toán dùng cho việc học.
Mạng truyền ngược đã tạo ra nhiều hứng khởi và đã có nhiều tranh cãi về quy trình học đó có thể được thực hiện trong bộ não hay không. Một phần vì khi đó chưa tìm ra cơ chế truyền tín hiệu ngược. Nhưng lý do quan trọng nhất là chưa có một nguồn tín hiệu 'dạy' hay tín hiệu 'đích' đáng tin cậy.