MỤC LỤC
Ngày nay Học sâu đã trở thành một trong những lĩnh vực phổ biến và dễ thấy nhất của học máy nhờ thành công của nó trong nhiều ứng dụng, chẳng hạn như thị giác máy tính, xử lý ngôn ngữ tự nhiên và Học tăng cường. Mạng lưới nơron học cách đưa ra dự đoán dựa trên chi phí hoặc lỗi xuất phát từ sự khác biệt giữa mục tiêu được dự đoán và mục tiêu thực tế, quá trình này được gọi là lan truyền ngược. Các thuật toán học sâu như Mạng nơron tích chập, Mạng nơron tái phát được sử dụng cho nhiều tác vụ được giám sát như phân loại và nhận dạng hình ảnh, phân tích tình cảm, dịch ngôn ngữ, v.v.
- Học máy không giám sát: Học máy không giám sát là kỹ thuật học máy trong đó mạng lưới nơron học cách khám phá các mẫu hoặc phân cụm tập dữ liệu dựa trên các tập dữ liệu không được gắn nhãn. Các thuật toán học tăng cường sâu như mạng Deep Q và Độ dốc chính sách xác định sâu (DDPG) được sử dụng để củng cố các nhiệm vụ như robot và chơi trò chơi, v.v. Mạng lưới nơron nhân tạo được xây dựng dựa trên nguyên tắc cấu trúc và hoạt động của các tế bào nơron của con người. Nó còn được gọi là mạng lưới nơron hoặc mạng lưới nơron. Lớp đầu vào của mạng nơron nhân tạo, là lớp đầu tiên, nhận đầu vào từ các nguồn bên ngoài và chuyển nó đến lớp ẩn, là lớp thứ hai. Mỗi nơron trong lớp ẩn nhận thông tin từ các nơron ở lớp trước, tính tổng trọng số và sau đó chuyển nó đến các nơron ở lớp tiếp theo. Các kết nối này được tính trọng số, có nghĩa là tác động của các đầu vào từ lớp trước ít nhiều được tối ưu hóa bằng cách gán cho mỗi đầu vào một trọng số riêng biệt. Các trọng số này sau đó được điều chỉnh trong quá trình huấn luyện để nâng cao hiệu suất của mô hình. https://www.geeksforgeeks.org/artificial-neural-networks-and-its-application) Tế bào nơron nhân tạo, còn được gọi là đơn vị, được tìm thấy trong mạng lưới nơron nhân tạo. Các mô hình Học sâu có thể tự động tìm hiểu các tính năng từ dữ liệu, điều này khiến chúng rất phù hợp cho các tác vụ như nhận dạng hình ảnh, nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên.
- Phát hiện và nhận dạng đối tượng: Mô hình học sâu có thể được sử dụng để xác định và định vị các đối tượng trong hình ảnh và video, giúp máy móc có thể thực hiện các nhiệm vụ như xe tự lái, giám sát và robot. - Nhận dạng giọng nói: Các mô hình học sâu có thể nhận dạng và phiên âm các từ được nói, giúp thực hiện các tác vụ như chuyển đổi giọng nói thành văn bản, tìm kiếm bằng giọng nói và các thiết bị điều khiển bằng giọng nói.
- Yêu cầu lượng lớn dữ liệu được dán nhãn: Các mô hình Học sâu thường yêu cầu một lượng lớn dữ liệu được dán nhãn để đào tạo, việc thu thập có thể tốn kém và mất thời gian. - Trang bị quá mức: Các mô hình Học sâu đôi khi có thể khớp quá mức với dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới và chưa được nhìn thấy. Khi điều này xảy ra, cấu trúc của CNN có thể trở thành phân cấp vì các lớp sau có thể nhìn thấy các điểm ảnh trong trường tiếp nhận của các lớp trước.
Mỗi bộ phận riêng lẻ của chiếc xe đạp tạo thành một mẫu cấp thấp hơn trong mạng lưới nơron và sự kết hợp các bộ phận của nó thể hiện một mẫu cấp cao hơn, tạo ra một hệ thống phân cấp tính năng trong CNN. Tế bào nơron nhân tạo là sự mô phỏng thô của các tế bào nơron sinh học của chúng, là các hàm toán học tính toán tổng trọng số của nhiều đầu vào và đưa ra giá trị kích hoạt. Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo (AI) cho phép máy tính và hệ thống lấy được thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào trực quan khác và dựa trên những đầu vào đó, nó có thể thực hiện hành động.
- Tiếp thị: Các nền tảng truyền thông xã hội cung cấp gợi ý về những người có thể có mặt trong bức ảnh đã được đăng trên hồ sơ, giúp việc gắn thẻ bạn bè trong album ảnh trở nên dễ dàng hơn. - Ô tô: Trong khi thời đại của ô tô không người lái vẫn chưa xuất hiện, công nghệ cơ bản đã bắt đầu được áp dụng vào ô tô, cải thiện sự an toàn cho người lái và hành khách thông qua các tính năng như phát hiện làn đường.
- Bán lẻ: Tìm kiếm trực quan đã được tích hợp vào một số nền tảng thương mại điện tử, cho phép các thương hiệu đề xuất các món đồ bổ sung cho tủ quần áo hiện có. Như trường hợp của các ứng dụng NLP nói chung, chúng ta bắt đầu bằng cách biến mỗi từ đầu vào thành một vectơ bằng thuật toán nhúng. Ở đây chúng ta bắt đầu thấy một thuộc tính chính của Transformer, đó là từ ở mỗi vị trí sẽ đi qua đường dẫn riêng của nó trong bộ mã hóa.
Tuy nhiên, lớp chuyển tiếp nguồn cấp dữ liệu không có các phụ thuộc đó và do đó, các đường dẫn khác nhau có thể được thực thi song song trong khi truyền qua lớp chuyển tiếp nguồn cấp dữ liệu. Bước đầu tiên trong việc tính toán mức độ tự chú ý là tạo ba vectơ từ mỗi vectơ đầu vào của bộ mã hóa (trong trường hợp này là việc nhúng từng từ). Bước thứ ba và thứ tư là chia điểm cho 8 (căn bậc hai của kích thước của các vectơ chính được sử dụng trong bài báo - 64. Điều này dẫn đến có độ dốc ổn định hơn. Có thể có các giá trị khác có thể có ở đây, nhưng đây là mặc định), sau đó chuyển kết quả thông qua thao tác softmax [16].
Rừ ràng từ ở vị trớ này sẽ cú điểm softmax cao nhất, nhưng đụi khi việc chỳ ý đến một từ khác có liên quan đến từ hiện tại sẽ rất hữu ích. Trực giác ở đây là giữ nguyên giá trị của (các) từ mà chúng ta muốn tập trung vào và loại bỏ các từ không liên quan (ví dụ: bằng cách nhân chúng với các số nhỏ như 0,001).
Trong quá trình huấn luyện mô hình trí tuệ nhân tạo, việc thu thập dữ liệu đóng vai trò quan trọng để đảm bảo rằng mô hình được đào tạo trên một bộ dữ liệu đủ và đa dạng. Kết quả thử nghiệm chứng minh rằng phương pháp của nhóm tác giả vượt trội đáng kể so với các mạng dựa trên CNN và ViT trên một số bộ dữ liệu phân đoạn theo ngữ nghĩa và đạt được sự cân bằng tốt giữa độ chính xác và độ trễ. Trong bài viết này, nhóm tác giả mong muốn thiết kế một Vision Transformer gọn nhẹ có thể hoạt động tốt hơn MobileNets với độ trễ thấp hơn cho nhiệm vụ phân đoạn.
Để tăng cường trình bày tính năng, nhóm tác giả đề xuất Mô-đun kết hợp chú ý thống nhất (UAFM), tận dụng sự chú ý về không gian và kênh để tạo ra trọng số và sau đó kết hợp các tính năng đầu vào với trọng số. Tuy nhiên, nguyên tắc của nó trong việc thêm một đường dẫn phụ để mã hóa thông tin không gian là tốn thời gian, và các nền tảng được mượn từ các nhiệm vụ được huấn luyện trước, chẳng hạn như phân loại hình ảnh, có thể không hiệu quả cho việc phân đoạn hình ảnh do thiếu thiết kế cụ thể cho nhiệm vụ. Các thử nghiệm mở rộng trên tập dữ liệu Cityscapes và CamVid chứng minh hiệu quả của phương pháp của nhóm tác giả thông qua việc đạt được sự cân đối hứa hẹn giữa độ chính xác của phân đoạn và tốc độ suy luận.
Trong bài báo này, nhóm tác giả mô tả một kiến trúc di động mới, MobileNetV2, cải thiện hiệu suất tối ưu của các mô hình di động trên nhiều nhiệm vụ và bài kiểm tra cũng như qua một loạt các kích thước mô hình khác nhau. Tuy nhiên xuất hiện những hình ảnh mà dữ liệu gán nhãn chưa được chính xác, nên cần chỉnh sửa hoặc loại bỏ đi để tránh gây sai, nhiễu trong quá trình huấn luyện mô hình. Bên cạnh đó, để đa dạng hoá dữ liệu hiện có, học viên áp dụng các phương pháp biến đổi hình ảnh như tinh chỉnh kích thước, cắt ảnh ngẫu nhiên, lật ảnh theo chiều dọc, biến dạng ngẫu nhiên và chuẩn hoá hình ảnh.
Bên cạnh đó, để điều chỉnh chỉ số learning rate, học viên sử dụng phương pháp learning rate scheduler, cụ thể là phương pháp Polynomial Decay [32] với learning rate ban đầu khởi tạo là 0.01.