A.1 Định nghĩa
Học sâu là một tập con của học máy, học máy là tập con của trí tuệ nhân tạo. Trí tuệ nhân tạo để chỉ những kĩ thuật giúp máy tính mô phỏng và bắt chước hành vi con người và học máy là tập hợp các thuật toán được huấn luyện trên các bộ dữ liệu để hiện thực hóa điều này.
Học sâu được xây dụng để mô phỏng bộ não con người bao gồm các lớp và các nơ ron liên kết với nhau. Vì vậy trong học sâu sử dụng thuật ngữ mạng nơ ron nhân tạo. Mạng nơ ron cho phép ta thực hiện các công việc như phân cụm, phân loại hay hồi quy. Với mạng nơ ron, ta có thể gom nhóm và sắp xếp các dữ liệu dù được gán nhãn hay chưa gán nhãn dựa vào các đặc điểm và thuộc tính tương đồng giữa các dữ liệu.
A.2 Mạng nơ ron
Mạng nơ ron là mạng tập hợp các nơ ron liên kết với nhau, được phân theo các lớp. Các nơ ron được biểu diễn dưới dạng hình tròn và các đường thẳng thể hiện sự liên kết giữa các nơ ron.
Hình 18 Mạng nơ ron nhân tạo.
Mạng nơ ron được phân thành ba nhóm lớp: Lớp đầu vào (Input Layer), lớp ẩn (Hidden Layer), lớp đầu ra (Output Layer). Phương pháp học sâu được gọi là “sâu” vì một mạng nơ ron bao gồm nhiều lớp ẩn. Trong Hình 18, ta có một lớp đầu vào với 3 nơ ron, một lớp đầu ra với 2 nơ ron và hai lớp ẩn, mỗi lớp có 5 nơ ron.
Lớp đầu vào nhận dữ liệu để huấn luyện. Sau đó dữ liệu đầu vào đó được chuyển qua lớp ẩn đầu tiên. Lớp đầu ra đưa ra kết quả cuối cùng dưới dạng một vector, đây chính là kết quả chúng ta cần tìm. Để có đầu ra mong muốn, cần có các phép toán được thực hiện trong những lớp giữa hai lớp đầu ra này. Các lớp này chính là các lớp ẩn, được thể hiện trong Hình 19 dưới đây.
Mỗi kết nối giữa các nơ ron được biểu diễn bởi một trọng số (weight). Các trọng số này nhằm xác định khả năng học của mạng nơ ron, thể hiện độ quan trọng của giá trị đầu vào. Trọng số được khởi tạo ngẫu nhiên tùy theo người dùng.
Hình 19 Liên kết giữa các lớp trong mạng nơ ron.
Xét trong Hình 19 phía trên, ta có lớp ẩn thứ nhất với 2 nơ ron và lớp ẩn thứ hai với 3 nơ ron. Liên kết giữa các nơ ron được biểu diễn bởi một trọng số w khác nhau và được đánh chỉ số khác nhau trong đó chỉ số thứ nhất thể hiện thứ tự nơ ron trong của lớp trước, chỉ số thứ hai thể hiện đích đến của liên kết – thứ tự nơ ron của lớp sau. Các trọng số giữa hai lớp này được biểu diễn dưới dạng ma trận, gọi là ma trận trọng số.
Ma trận trọng số có số hàng ngang tương ứng với số nơ ron của lớp trước, số hàng dọc tương ứng với số nơ ron của lớp sau.
A.3 Huấn luyện mạng nơ ron
Trong Hình 18, ta biểu diễn là vector đầu vào, là vector biểu diễn kết quả cuối cùng, , lần lượt là kết quả của lớp ẩn thứ nhất và thứ hai sau khi thực hiện các phép toán nhân ma trận. Công thức được trình bày dưới đây:
Công thức 6 Kết quả đầu ra của một mạng nơ ron nhân tạo. Trong đó:
• lần lượt là các ma trận trọng số giữa các lớp (theo Công thức 5).
• là một hàm activation – hàm phi tuyến tính – giúp chuẩn hóa kết quả đầu ra.
Để huấn luyện sử dụng một mạng nơ ron sâu, ta cần một bộ dữ liệu lớn và máy tính có hiệu suất cao. Nhờ sự phát triển máy tính hiện nay và thời đại thông tin giúp cho phương pháp học sâu thể hiện những ưu điểm vượt trội của mình trong mọi lĩnh vực đời sống.
A.4 Hàm mất mát
Sau khi có kết quả dự đoán từ mạng nơ ron nhân tạo, ta so sánh kết quả đã dự đoán được với giá trị thực tế. Một ví dụ của một hàm mất mát là trong đó là giá trị dự đoán, là giá trị thực tế. và chênh nhau nhiều thì hàm mất mát càng lớn và độ chính xác của mô hình càng thấp. Mục tiêu của mạng nơ ron là tối ưu hàm này sao cho độ chênh lệch giữa giá trị dự đoán và giá trị thực tế sát nhau nhất. Để tìm được cực tiểu của hàm mất mát, ta có thể sử dụng phương pháp đạo hàm, tuy nhiên trong thực tế, rất nhiều hàm phức tạp ta không thể tìm được biến sao cho đạo hàm tại điểm đó bằng 0 hoặc việc tính toán mất thời gian. Vì vậy một kĩ thuật được sử dụng phổ biến là Gradient Descent.
Gradient Descent là một kĩ thuật cho phép tìm cực tiểu của một hàm. Nó hoạt động bằng việc thay đổi các trọng số dần dần sau mỗi lần học bộ dữ liệu đầu vào. Phương pháp tiếp cận là khởi tạo một trọng số bất kì, sau đó dựa vào Gradient, hướng mà hàm mất mát có xu hướng tăng lớn nhất, ta sẽ biết được hướng tiến tới điểm cực tiểu hay điểm khiến cho hàm mất mát là nhỏ nhất, từ đó ta điều chỉnh trọng số tương ứng. Ngoài ra, ta còn dùng tỷ lệ
học (learning rate) để điều chỉnh sự chênh lệch khi biến đổi trọng số cũ thành một trọng số mới. Leanring rate càng cao thì trọng số mới thay đổi càng nhiều và ngược lại.