Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo. Wiener là người đã sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận : kiến trúc phẳng (khơng sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn) [Wiener et al, 1995]
Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mơ hình vector của một văn bản vào một chủ đề cụ thể.
Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấn luyện mạng nơron.
Ý tưởng của phương pháp này là mơ hình mạng neural gồm cĩ ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật tốn tìm kiếm (search algorithm). Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs).
Kiến trúc phẳng (flat architecture): Mạng phân loại đơn giản nhất (cịn gọi là mạng logic) cĩ một đơn vị xuất là kích hoạt kết quả (logistic activation) và khơng cĩ lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mơ hình hồi quy logic. Thuật tốn tìm kiếm chia nhỏ mơ hình mạng để thích hợp với việc điều chỉnh mơ hình ứng với tập huấn luyện. Ví dụ, chúng ta cĩ thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng khơng gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật tốn interated-reweighted least squares là thuật tốn truyền thống trong hồi quy (logistic regression).
Kiến trúc mơ dun (modular architecture): Việc sử dụng một hay nhiều lớp ẩn của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối
quan hệ giữa những biến nhập và biến xuất. Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước.
Trong cơng trình của Wiener et al (1995) dựa theo khung của mơ hình hồi quy, liên quan từ đặc trưng đầu vào cho đến kết quả gán chủ đề tương ứng được học từ tập dữ liệu. Do vậy, để phân tích một cách tuyến tính, tác giả dùng hàm sigmoid sau làm hàm truyền trong mạng neural:
P = 𝟏
𝟏+𝒆𝒏 (2.7)
Trong đĩ, η = βΤx là sự kết hợp của những đặc trưng đầu vào và p phải
thỏa