tương ứng�={�1,�2,…��} trong đó��,�� là các vec tơ Cặp dữ liệu biết
trước(��,��) ∈�×� được gọi là dữ liệu huấn luyện (training data) Từ tập dữ liệu huấn luyện, chúng ta cần tạo ra (xấp xỉ) một hàm số ánh xạ mỗi phần tử từ tập� sang một phần tử tương ứng thuộc tập�:
��≈�(��)∀�=1,2,…�
Mục đích là xấp xỉ hàm số hàm f tốt nhất để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn tương ứng của nó�=�(�)
Học không giám sát (Unsupervised Learning): Học không giám sát là khi
chúng ta chỉ có dữ liệu vào� mà không biết nhãn�tương ứng
Học bán giám sát (Semi-Supervised Learning) Các phương pháp học trong
trường hợp khi có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi học bán giám sát Thực tế cho thấy rất nhiều các bài toán học máy thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao, phân tích ảnh y tế là một ví dụ, trong đó cần phải có chuyên gia mới gán nhãn được dữ liệu, ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ hệ thống PACS
- Mạng nơ ron tích chập
Kiến trúc và mô hình học sâu nền tảng của các ứng dụng thị giác máy tính là: Mạng nơ-ron tích chập (Convolutional Neural Network- CNN) [41] Mỗi
mạng nơ-ron tích chập gồm 3 loại lớp chính: các lớp tích chập (convolutional layers), các lớp hợp nhất (pooling layers) và lớp kết nối đầy đủ (fully
connected layers) Mỗi loại lớp đóng vai trò khác nhau trong mạng Kiến trúc của các mạng CNN thực hiện 3 ý tưởng cơ bản là: các trường tiếp nhận cục bộ (local receptive fields), rằng buộc trọng số (tied weights) và giảm chiều không gian (spatial subsampling) [22] Sự thành công của các mạng học sâu trong lĩnh vực thị giác máy có phần đóng góp đáng kể của các mạng CNN tiêu biểu như AlexNet [40], VGG[68], Inception (GoogleLeNet) [75], ResNet [25], MobileNet [63] , và EfficientNet [80] Các mạng CNN này là các mạng phân loại ảnh, được các nhóm nghiên cứu thiết kế và được huấn luyện trên một số bộ dữ liệu ảnh tổng quát lớn như ImageNet, chúng được gọi là các mô hình huấn luyện sẵn (pretrained model) Các mô hình huấn luyện sẵn này thường được sử dụng làm được làm bộ trích rút đặc trưng cho các mô hình học sâu để giải quyết các bài toán thị giác máy tính
- Các thuật toán tối ưu
Các thuật toán tối ưu chính là các nền tảng cơ sở để xây dựng các mô hình mạng nơ-ron với mục tiêu là “học” được các đặc trưng (features/patterns) từ dữ liệu đầu vào, từ đó có thể tìm một tập các các trọng số (weights) W và tham số nội tại của mô hình (internal model parameters) hay bias b để tối ưu độ chính xác của mô hình, tức là cực tiểu giá trị hàm mất mát (loss function) của mô hình Đối với một mô hình học sâu, đầu tiên chúng ta thường định nghĩa hàm mất mát (loss function), sau đó sử dụng một thuật toán tối ưu nhằm cực tiểu hóa hàm mất mát đó
Các mạng nơ-ron tích chập đều được hỗ trợ bởi một thuật toán tối ưu rất quan trọng là thuật toán hạ gradient, gọi tắt là thuật toán GD (GD- Gradient Descent) [60] GD là một thuật toán tối ưu lặp (iterative optimization algorithm) với mục tiêu là tìm một tập các biến nội tại (internal parameters) cho việc tối ưu các mô hình Công thức cập nhật cho GD có thể được viết là:
�←�−η∇��(�) (1 1) ,với� là tập các biến cần cập nhật, η là tốc độ học (learning rate),∇��(�) là Gradient của hàm mất mát� theo tập trọng số w
Tốc độ học η có thể được thiết lập khi thiết kế thuật toán Chọn tốc độ học
η “vừa đủ” rất khó Nếu chọn giá trị quá nhỏ, ta sẽ không có tiến triển Nếu chọn giá trị quá lớn, nghiệm sẽ dao động và trong trường hợp tệ nhất, thậm chí sẽ phân kỳ
- Thuật toán Adam [38] là một thuật toán tối ưu dựa trên GD, kết hợp tất
cả các cải tiến của các thuật toán đã nêu thành một thuật toán học hiệu quả Đây là một trong những thuật toán tối ưu mạnh mẽ và hiệu quả được sử dụng phổ biến trong học sâu hiện nay
Một trong những thành phần chính của Adam là các trung bình động trọng số mũ (hay còn được gọi là trung bình rò rỉ) để ước lượng cả động lượng và mô-men bậc hai của gradient Cụ thể, nó sử dụng các biến trạng thái:
��←�1��−1+(1−�1)��
��←�2��−1+(1−�2)��2 (1 2) Với�1,�2 là các tham số trọng số không âm, thường được đặt là�1=09
và�2=0999 điều này có nghĩa là cần chọn ước lượng phương sai di chuyển chậm hơn nhiều so với số hạng động lượng Nếu khởi tạo�0=0 và��=0 thì thuật toán có độ lệch ban đầu đáng kể về các giá trị nhỏ hơn, do đó ta sử dụng
∑��=0��=
hóa lại là:
1− � �
1−� để chuẩn hóa lại các số hạng Các biến trạng thái sau khi chuẩn
�̂�= ��
1−�1� và�̂�= ��
1−�2� (1 3)
Giá trị gradient được điều chỉnh lại:
��′= ��̂�
√��+̂ � (1 4)
Trong công thức trên thông thường�=10−6 Tổng hợp các công thức lại ta có công thức cập nhật cho trọng số trong các bước lặp là:
��=��−1−��′ (1 5)