Phát hiện vết nứt công trình giao thông dựa trên học máy từ ảnh thiết bị bay không người lái

MỤC LỤC

GIẢI PHÁP XÁC ĐNNH VẾT NỨT TỪ ẢNH UAV Các phương pháp truyền thống về mạng nơron tích chập thường phụ

TRÍ TUỆ NHÂN TẠO

Tuy nhiên, sự sẵn có của điện toán đám mây và sự phát triển của phần cứng chuyên dụng, chẳng hạn như Bộ xử lý đồ họa, đã giúp việc đào tạo mạng lưới nơron sâu trở nên dễ dàng hơn. Ngày nay Học sâu đã trở thành một trong những lĩnh vực phổ biến và dễ thấy nhất của học máy nhờ thành công của nó trong nhiều ứng dụng, chẳng hạn như thị giác máy tính, xử lý ngôn ngữ tự nhiên và Học tăng cường. - Học máy được giám sát: Học máy có giám sát là kỹ thuật học máy trong đó mạng lưới nơron học cách đưa ra dự đoán hoặc phân loại dữ liệu dựa trên các bộ dữ liệu được gắn nhãn.

Các thuật toán học sâu như Mạng nơron tích chập, Mạng nơron tái phát được sử dụng cho nhiều tác vụ được giám sát như phân loại và nhận dạng hình ảnh, phân tích tình cảm, dịch ngôn ngữ, v.v. -Học máy không giám sát: Học máy không giám sát là kỹ thuật học máy trong đó mạng lưới nơron học cách khám phá các mẫu hoặc phân cụm tập dữ liệu dựa trên các tập dữ liệu không được gắn nhãn. Các thuật toán học tăng cường sâu như mạng Deep Q và Độ dốc chính sách xác định sâu (DDPG) được sử dụng để củng cố các nhiệm vụ như robot và chơi trò chơi, v.v. Mạng lưới nơron nhân tạo được xây dựng dựa trên nguyên tắc cấu trúc và hoạt động của các tế bào nơron của con người. Nó còn được gọi là mạng lưới nơron hoặc mạng lưới nơron. Lớp đầu vào của mạng nơron nhân tạo, là lớp đầu tiên, nhận đầu vào từ các nguồn bên ngoài và chuyển nó đến lớp ẩn, là lớp thứ hai. Mỗi nơron trong lớp ẩn nhận thông tin từ các nơron ở lớp trước, tính tổng trọng số và sau đó chuyển nó đến các nơron ở lớp tiếp theo. Các kết nối này được tính trọng số, có nghĩa là tác động của các đầu vào từ lớp trước ít nhiều được tối ưu hóa bằng cách gán cho mỗi đầu vào một trọng số riêng biệt. Các trọng số này sau đó được điều chỉnh trong quá trình huấn luyện để nâng cao hiệu suất của mô hình. https://www.geeksforgeeks.org/artificial-neural-networks-and-its-application) Tế bào nơron nhân tạo, còn được gọi là đơn vị, được tìm thấy trong mạng lưới nơron nhân tạo.

Các mô hình Học sâu có thể tự động tìm hiểu các tính năng từ dữ liệu, điều này khiến chúng rất phù hợp cho các tác vụ như nhận dạng hình ảnh, nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên. - Phát hiện và nhận dạng đối tượng: Mô hình học sâu có thể được sử dụng để xác định và định vị các đối tượng trong hình ảnh và video, giúp máy móc có thể thực hiện các nhiệm vụ như xe tự lái, giám sát và robot. - Tạo văn bản tự động – Mô hình học sâu có thể tìm hiểu kho văn bản và văn bản mới như tóm tắt, bài tiểu luận có thể được tạo tự động bằng cách sử dụng các mô hình được đào tạo này.

- Nhận dạng giọng nói: Các mô hình học sâu có thể nhận dạng và phiên âm các từ được nói, giúp thực hiện các tác vụ như chuyển đổi giọng nói thành văn bản, tìm kiếm bằng giọng nói và các thiết bị điều khiển bằng giọng nói. - Hệ thống điều khiển: Các mô hình học tăng cường sâu có thể được sử dụng để điều khiển các hệ thống phức tạp như lưới điện, quản lý lưu lượng và tối ưu hóa chuỗi cung ứng. - Tính linh hoạt: Các mô hình Học sâu có thể được áp dụng cho nhiều tác vụ khác nhau và có thể xử lý nhiều loại dữ liệu khác nhau, chẳng hạn như hình ảnh, văn bản và giọng nói.

Tế bào nơron nhân tạo là sự mô phỏng thô của các tế bào nơron sinh học của chúng, là các hàm toán học tính toán tổng trọng số của nhiều đầu vào và đưa ra giá trị kích hoạt. Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo (AI) cho phép máy tính và hệ thống lấy được thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào trực quan khác và dựa trên những đầu vào đó, nó có thể thực hiện hành động. Bước thứ ba và thứ tư là chia điểm cho 8 (căn bậc hai của kích thước của các vectơ chính được sử dụng trong bài báo - 64. Điều này dẫn đến có độ dốc ổn định hơn. Có thể có các giá trị khác có thể có ở đây, nhưng đây là mặc định), sau đó chuyển kết quả thông qua thao tác softmax [16].

Thay vì sử dụng những mạng nơron tích chập thông thường, cơ chế chú ý trong mạng học sâu Transformer là cơ sở hiện đại, tiết kiệm chi phí, thời gian cho việc thu thập và làm giàu dữ liệu.

Hình 2.1 Tương quan giữa trí tuệ nhân tạo, học máy và học sâu (Nguồn:

THỬ NGHIỆM VÀ ĐÁNH GIÁ

THU THẬP DỮ LIỆU HUẤN LUYỆN MÔ HÌNH

Trong quá trình huấn luyện mô hình trí tuệ nhân tạo, việc thu thập dữ liệu đóng vai trò quan trọng để đảm bảo rằng mô hình được đào tạo trên một bộ dữ liệu đủ và đa dạng. Vì mô hình AI được tích hợp vào mạch jetson nano nên các mô hình sử dụng tiến hành nghiên cứu dựa trên tiêu chí nhanh và thời gian thực thi là tương. Kết quả thử nghiệm chứng minh rằng phương pháp của nhóm tác giả vượt trội đáng kể so với các mạng dựa trên CNN và ViT trên một số bộ dữ liệu phân đoạn theo ngữ nghĩa và đạt được sự cân bằng tốt giữa độ chính xác và độ trễ.

Trên tập dữ liệu ADE20K [19], TopFormer đạt được độ chính xác về mIoU cao hơn 5% so với MobileNetV3 [20] với độ trễ thấp hơn trên thiết bị di động dựa trên ARM. Trong bài viết này, nhóm tác giả mong muốn thiết kế một Vision Transformer gọn nhẹ có thể hoạt động tốt hơn MobileNets với độ trễ thấp hơn cho nhiệm vụ phân đoạn. Để tăng cường trình bày tính năng, nhóm tác giả đề xuất Mô-đun kết hợp chú ý thống nhất (UAFM), tận dụng sự chú ý về không gian và kênh để tạo ra trọng số và sau đó kết hợp các tính năng đầu vào với trọng số.

Tuy nhiên, nguyên tắc của nó trong việc thêm một đường dẫn phụ để mã hóa thông tin không gian là tốn thời gian, và các nền tảng được mượn từ các nhiệm vụ được huấn luyện trước, chẳng hạn như phân loại hình ảnh, có thể không hiệu quả cho việc phân đoạn hình ảnh do thiếu thiết kế cụ thể cho nhiệm vụ. Cụ thể, nhóm tác giả dần dần giảm chiều của bản đồ đặc trưng và sử dụng sự tập hợp của chúng cho việc biểu diễn hình ảnh, tạo thành mô-đun cơ bản của mạng STDC. Trong bộ giải mã, nhóm tác giả đề xuất một mô-đun Tập hợp Chi tiết bằng cách tích hợp việc học thông tin không gian vào các lớp cấp thấp theo cách đơn luồng.

Các thử nghiệm mở rộng trên tập dữ liệu Cityscapes và CamVid chứng minh hiệu quả của phương pháp của nhóm tác giả thông qua việc đạt được sự cân đối hứa hẹn giữa độ chính xác của phân đoạn và tốc độ suy luận. Trong bài báo này, nhóm tác giả mô tả một kiến trúc di động mới, MobileNetV2, cải thiện hiệu suất tối ưu của các mô hình di động trên nhiều nhiệm vụ và bài kiểm tra cũng như qua một loạt các kích thước mô hình khác nhau. Tuy nhiên xuất hiện những hình ảnh mà dữ liệu gán nhãn chưa được chính xác, nên cần chỉnh sửa hoặc loại bỏ đi để tránh gây sai, nhiễu trong quá trình huấn luyện mô hình.

Bên cạnh đó, để đa dạng hoá dữ liệu hiện có, học viên áp dụng các phương pháp biến đổi hình ảnh như tinh chỉnh kích thước, cắt ảnh ngẫu nhiên, lật ảnh theo chiều dọc, biến dạng ngẫu nhiên và chuẩn hoá hình ảnh. Bên cạnh đó, để điều chỉnh chỉ số learning rate, học viên sử dụng phương pháp learning rate scheduler, cụ thể là phương pháp Polynomial Decay [32] với learning rate ban đầu khởi tạo là 0.01. Cụ thể, chương 3 chỉ ra về cách thức thực hiện, thu thập dữ liệu, thiết kế hệ thống phần cứng, phần mềm và trọng tâm vào quá trình thử nghiệm các mô hình.

Dựa vào kết quả so sánh mô hình, chọn ra được một mô hình ưu việt, mạnh mẽ để có thể đáp ứng được yêu cầu áp dụng vào thực tế và phù hợp với phần cứng đề xuất.

Hình 3.4 Mô hình TopFormer (Nguồn: [34])