Mạng hồi quy

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 43 - 46)

2 Kiến thức nền tảng

2.4.2Mạng hồi quy

Trên thực tế rất nhiều dạng dữ liệu không phải chỉ cần một thời điểm cụ thể của nó ta có thể phân tích được đặc trưng và hiểu được thơng tin nó mang lại, mà phải cần một chuỗi các dữ liệu liên tiếp của đối tượng ta mới có thể đánh giá được. Các loại dữ liệu mà ảnh hưởng với nhau liên tiếp,

hoặc mang theo tính chất thời gian được gọi là các dữ liệu dạng chuỗi. Một số dữ liệu dạng chuỗi như video các hình ảnh liên tục thay đổi theo thời gian, dữ liệu về tim mạch, hay chỉ đơn giản là dữ liệu từ một câu nói, một câu viết.

Để xử lý các loại dữ liệu đó, CNN khơng thể cho biết được việc ảnh hưởng bởi các dữ liệu liên tiếp nhau, nhưng một mơ hình truyền thống mà ta đã biết thì có thể, đó là HMM. Nhưng HMM chỉ sử dụng xác suất liên tục để đưa ra kết quả cuối cùng, khơng thể sử dụng tốt các tính chất đặc trưng của đối tượng cần xử lý. Từ đó ý tưởng mạng hồi quy (recurrent neural network) ra đời.

Hình 2.8: Hình ảnh minh họa về RNN (nguồn [22])

Hình 2.8 ta có mạng RNN gồm các thuộc tính quan trọng sau: • x là dữ liệu đầu vào dạng chuỗi, hoặc dữ liệu theo thời gian • o là giá trị đầu ra, ot là giá trị đầu ra tại thời điểm t

V biểu diễn q trình trao đổi thơng tin giữa các thời gian liên tiếp nhau theo một trình tự

h là các khối chính của RNN, chứa các hệ số và các hàm kích hoạt của mạng. Sẽ sinh ra hai giá trị là giá trị đầu ra ot ứng với khối ht tại thời điểm t và một giá trị đầu ra được truyền tiếp tục thông qua đường

giao tiếp V để trở thành giá trị đầu vào cùng với x tại thời điểm kế tiếp.

Ứng với những bài toán khác nhau ta sẽ có những loại RNN khác nhau: • Bài tốn một-một: là các bài toán thường được giải quyết bởi các

mạng nơ-ron truyền thống, và CNN với một giá trị đầu vào ta ln nhận được một giá trị đầu ra.

Bài toán một-nhiều: với một giá trị đầu vào ta có nhiều hơn một giá trị đầu ra. Ví dụ như bài tốn đánh chú thích cho hình ảnh, chuyển đổi giọng nói thành văn bản.

Bài tốn nhiều-một:bài tốn nổi bật là phân loại hành động từ một video.

Bài tốn nhiều-nhiều: với nhiều giá trị đầu vào ta cũng nhận được nhiều giá trị đầu ra, bài tốn thường thấy là trong lĩnh vực xử lý ngơn ngữ tự nhiên về vấn đề dịch ngơn ngữ.

Hình 2.9: Hình ảnh một khối tại thời điểm t của RNN (nguồn [23])

Hình 2.9 mơ tả cấu tạo bên trong của một khối RNN cơ bản là hàm tanh của giá trị tổng hợp giữa giá trị đầu vào xt và kết quả của khối RNN trước đó ht−1.

Với Hình 2.8 và 2.9 ta có        h0 =0 ht =f(U ∗xt+Wht−1), Với t≥1 và f(x) = tanh(x). Khi đó ∂ht ∂ht−1 = W ∗(1−tanh2(U ∗xt+Wht−1)) = W ∗(1−h2t). Với ∂ht ∂hi = t−1 Y j=i ∂hj+1 ∂hj = t−1 Y j=i h Wj+1∗(1−h2j+1)i và 1−h2j+1 <1, ta thấy được khi W <1 các trạng thái càng xa nhau càng khó ảnh hưởng đến nhau, dẫn đến việc giảm về 0 của gradient.

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 43 - 46)