1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Quản lý xây dựng: Ứng dụng thuật toán yolov5 trong quản lý chi phí duy tu bảo dưỡng hạ tầng giao thông đường bộ

98 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng thuật toán Yolov5 trong quản lý chi phí duy tu bảo dưỡng hạ tầng giao thông đường bộ
Tác giả Trần Lê Hoàng Phúc
Người hướng dẫn PGS.TS Phạm Vũ Hồng Sơn, TS. Chu Việt Cường
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Quản lý Xây dựng
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 98
Dung lượng 2,35 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU CHUNG (17)
    • 1.1 Đặt vấn đề (17)
    • 1.2 Lựa chọn đề tài (19)
    • 1.3 Mục tiêu nghiên cứu (21)
    • 1.4 Đóng góp học thuật (22)
    • 1.5 Đóng góp thực tiễn (22)
    • 1.6 Đối tượng và phạm vi nghiên cứu (23)
    • 1.7 Quy trình nghiên cứu – Phương pháp nghiên cứu (23)
    • 1.8 Công cụ nghiên cứu (25)
    • 1.9 Cấu trúc luận văn (26)
  • CHƯƠNG 2: TỔNG QUAN CÁC NGHIÊN CƯÚ VỀ NHẬN DIỆN HƯ HỎNG MẶT ĐƯỜNG (27)
    • 2.1 Tổng quan tình hình nghiên cứu công nghệ nhận biết hư hỏng mặt đường ở Việt Nam và thế giới. 11 (27)
    • 2.2 Tổng quan tình hình nghiên cứu công nghệ Yolov5 ở Việt Nam và thế giới (29)
    • 2.3 Các nghiên cứu trong và ngoài nước về phương pháp nhận biết hư hỏng mặt đường (30)
    • 2.4 Các nghiên cứu trong và ngoài nước ứng dụng Yolov5 (31)
    • 2.5 Phân tích các nghiên cứu và ưu nhược điểm của các nghiên cứu về nhận biết hư hỏng mặt đường 16 (32)
    • 2.6 Phân tích các nghiên cứu và ưu nhược điểm của các nghiên cứu ứng dụng Yolov5 (36)
  • CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU NHẬN DIỆN ĐỐI TƯỢNG. 26 (42)
    • 3.1 Giới thiệu về Deep Learning (42)
    • 3.2 Mạng neural nhân tạo (ANN) (43)
    • 3.3 Mô hình mạng neural nhân tạo (ANN) (44)
    • 3.4 Các hàm kích hoạt trong mạng Neutral (45)
    • 3.5 Convolution Neutral Network (CNN) (46)
      • 3.5.1 Tìm hiểu về CNN (46)
      • 3.5.2 Convolution layer (lớp tích chập) (47)
      • 3.5.3 Pooling layer (48)
      • 3.5.4 Fully connected layer (50)
      • 3.5.5 Mô hình mạng neural tích chập 2 chiều (51)
    • 3.6 Các mô hình phát hiện đối tượng (52)
      • 3.6.1 Tổng quan các mô hình nhận diện hư hỏng mặt đường hiện nay (53)
      • 3.6.2 Mô hình hai giai đoạn (mô hình phổ biến và tiến tiến Faster R-CNN) (54)
      • 3.6.3 Mô hình một giai đoạn (SSD - Single Shot Multi-Box Detection) (57)
      • 3.6.4 Các kiến trúc cơ bản của Deep learning (58)
  • CHƯƠNG 4: MÔ HÌNH NHẬN DIỆN YOLOV5 (62)
    • 4.1 Giới thiệu mô hình kiến trúc mạng Yolov5 (62)
    • 4.2 Cách hoạt động của mô hình Yolo (65)
      • 4.2.1 Input (65)
      • 4.2.2 Feature map (66)
      • 4.2.3 Anchor box (67)
      • 4.2.4 Dự đoán bounding box (68)
      • 4.2.5 Non-max suppresion (lại bỏ bounding box thừa) (69)
      • 4.2.6 Hàm mất mác (71)
    • 4.3 Những cải tiến của mô hình phát hiện Yolov5 (72)
      • 4.3.1 Đầu vào (Input) (73)
      • 4.3.2 Phương pháp Mosaic (73)
      • 4.3.3 Backbone (74)
      • 4.3.4 Neck (77)
      • 4.3.5 Bag of Freebies (77)
    • 4.4 Tiêu chí đánh giá hiệu suất của mô hình (78)
  • CHƯƠNG 5: ỨNG DỤNG MÔ HÌNH YOLOV5 ĐỂ NHẬN DIỆN HƯ HỎNG MẶT ĐƯỜNG (80)
    • 5.1 Thuật toán huấn luyện đối tượng của Yolov5 (80)
    • 5.2 Quy trình huấn luyện đối tượng của YOLO V5 (81)
      • 5.2.1 Chuẩn bị dữ liệu (81)
      • 5.2.2 Huấn luyện dữ liệu (83)
      • 5.2.3 Kết quả huấn luyện và phát hiện đối tượng hư hỏng mặt đường (88)
    • 5.3 Hiệu suất của mô hình Yolov5 nghiên cứu (91)
  • CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI (94)
    • 6.1 Kết luận (94)
    • 6.2 Hướng nghiên cứu trong tương lai (94)

Nội dung

GIỚI THIỆU CHUNG

Đặt vấn đề

Đường bộ là tài sản công quan trọng mang lại lợi ích hữu hình, lâu dài cho xã hội vì chúng là công cụ để kết nối hàng hóa và con người Trên đường bộ có hai hình thức vận chuyển chính là xe cơ giới và tàu hỏa nhưng xe cơ giới trở nên phổ biến hơn do tính tiện lợi của nó

Hình 1.1: Các phương tiện giao thông vận tải

Vì thế giao thông vận tải có vai trò quan trọng vì nó là cách để kết nối việc sản suất, kinh doanh, trao đổi Do đó sẽ giúp tăng trưởng kinh tế và phát triển xã hội Ngoài ra giao thông vận tải còn đóng góp thuế cho nhà nước và tạo ra nhiều việc làm cho người lao động

Sau hơn 37 năm đất nước mở cửa, hệ thống hạ tầng giao thông đã phát triển vược bậc Nhiều tuyến đường cao tốc đã được xây dựng và đưa vào khai thác, kết nối các thành phố lớn và vùng kinh tế trọng điểm Điều này đã giúp cắt giảm thời gian di chuyển giữa các thành phố Đất nước ngày nay đã tích lũy đủ tiềm lực để phát triển kinh tế một cách mạnh mẽ

Kinh tế tăng trưởng thì nhu cầu di chuyển càng nhiều, do đó số lượng phương tiện cơ giới lưu thông trên đường cũng nhiều dẫn đến việc hư hỏng mặt đường là điều khó tránh khỏi Điều kiện đường kém gây ra nhiều vấn đề, bao gồm tạo vấn đề điều hướng đường bộ và gây nguy hiểm cho người giao thông, tăng chi phí sửa chữa xe cộ, và cuối cùng là chi phí sửa chữa đường cao hơn do khi phát hiện trễ thì đường xuống cấp nghiêm trọng không thể phục hồi bề mặt

Do đó ngoài việc phát triển nhanh chóng mạng lưới đường, việc khai thác vận hành và bảo trì để giữ cho hầu hết các tuyến đường luôn trong trạng thái tốt cũng là việc rất cần thiết Việc vận hành duy tu bảo dưỡng đường bộ là một thách thức Cần thiết phải có kế hoạch rõ ràng, phân công nhiệm vụ, và tính toán ngân sách hợp lý để tiết kiệm được chi phí

Tuy nhiên tại Việt Nam hiện nay thì phương pháp nhận biết hư hỏng để bảo trì đường bộ vẫn còn chưa hiệu quả Việc tiến hành phát hiện hư hỏng mặt đường vẫn còn phải sử dụng nhân công để kiểm tra bằng mắt và chụp ảnh thủ công Do đó việc nhận định mức độ hư hỏng mắt đường còn mang yếu tố cảm quan của con người và việc phát hiện hư hỏng khi nó vừa mới xuất hiện tùy thuộc vào tần suất của người đi quan sát Do đó dẫn tới hai bất cập Một là có những đoạn đường mới bắt đầu hư nhưng không phát hiện được, tới lúc người đi quan sát phát hiện thì đã hư hỏng nặng hơn Hai là những tuyến đường đã hư hỏng nặng nhưng chưa tới lượt đi kiểm tra của người quan sát, trong khi những tuyến đường chưa hư hoặc mới hư hỏng nhẹ tới lượt đi kiểm tra của người quan sát thì được sửa trước Do đó dẫn đến việc tăng chi phí nhưng không hiệu quả khi duy tu bảo dưỡng các con đường

Do đó để thay đổi các phương pháp kiểm tra thủ công thì việc áp dụng công nghệ để nhận diện tự động hư hỏng mặt đường là cần thiết, dự đoán các vấn đề tiềm ẩn và quyết định thứ tự bảo trì định kỳ là hết sức cần thiết

Hình 1.2 Quy trình xây dựng – khai thác – bảo trì một tuyến đường

Lựa chọn đề tài

Việt Nam hiện có hơn mười bảy ngàn km đường bộ Do đó ngân sách hằng năm để duy tu bảo dưỡng là rất lớn Việc tiết kiệm được tối đa ngân sách này là mong muốn tác giả thực hiện trong nghiên cứu này Ouma và Hahn [1] và Gavil´ an, Balcones, Marcos, Llorca, Sotelo, Parra, Ocana, Aliseda, Yarza và Amírola [2] đã chỉ ra rằng việc bảo trì đường bộ được thực hiện kịp thời và đúng cách có thể cắt giảm 20% chi phí hoặc thấp hơn chi phí bảo trì được thực hiện sau khi xuống cấp nghiêm trọng Điều này giúp cho cho các cơ quan quản lý tiết kiệm lớn chi phí Việc xây dựng là điều kiện cần, trong khi duy tu bảo trì mới điều kiện đủ, đối với bất kỳ một tuyến đường nào, để mang lại sự an toàn khi tham gia giao thông Duy trì đường tối ưu điều kiện là sự khó khăn với các cơ quan quản lý do số lượng km đường bộ lớn Để đảm bảo an toàn cho mỗi chuyến xe khi di chuyển trên đường, công tác tuần tra, quản lý và bảo trì rất quan trọng Đặt biệt, bất kì một vết nứt hay hư hỏng mặt đường đều có thể gây các nguy cơ nguy hiểm cho người tham gia giao thông Koch, Jog và Brilakis [3] và Radopoulou và Brilakis [4] lưu ý rằng phương pháp này rất kém hiệu quả do các quy trình tốn nhiều thời gian để tiến hành đo lường, ghi lại thông tin, xử lý dữ liệu và yêu cầu nguồn lao động cao cần thiết để thực hiện kiểm tra hiện trường theo cách thủ công Hơn nữa, cách tiếp cận này dễ bị ảnh hưởng bởi tính chủ quan, thiên vị của các kỹ thuật viên khi làm việc Do đó, các kỹ thuật phát hiện hư hỏng đường bộ tự động đã được các cơ quan quản lý chú ý tới Việc phát hiện mục tiêu các hư hỏng trên các tuyến đường một cách tự động là rất quan trọng để quản lý giao thông thông minh và giám sát an toàn

Hiện nay công nghệ thông tin phát triển rất nhanh và đóng góp to lớn Các đề tài ứng dụng công nghệ thông tin Tiềm năng của công nghệ thông tin là lớn nhưng việc ứng dụng trong quản lý bảo trì đường bộ còn khá ít Trong đó các ứng dụng để nhận hiện đối tượng nhanh đã và đang đóng góp khá nhiều cho xã hội Việc có một phần mềm phát hiện nhanh chóng hư hỏng mặt đường sẽ giúp cho các nhà quản lý sửa chữa kịp thời qua đó tiết kiệm được chi phí

Dữ liệu camera hành trình chưa phát huy hết những vai trò và tiền năng khai thác mà nó đang có Dữ liệu của camera hành trình hiện nay nhằm mục đích an ninh và để cung cấp cho công an khi có tai nạn xảy ra Tuy nhiện việc tận dụng đươc dữ liệu từ camera hành trình giúp cung cấp các hình ảnh để máy học cũng như nhận diện được các đối tượng mà ta mong muốn

Hiện nay có rất nhiều mô hình có thể giúp phát hiện hư hỏng nhưng chưa được lập trình để ứng dụng vào cuộc sống Từ việc xử lý hình ảnh đơn thuần như Deformable Part-based Model (DPM), Histogram of Oriented Gradients (HOG) đến sử dụng các mạng neural tính chập như: You look only one (YOLO), Single shot multibox detector (SSD), RetinaNet, RCNN, SPPNet, Fast RCNN, Pyramid Networks

Trong các mô hình trên thì YOLOv5 có thể được sử dụng vì tốc độ nhận diện và hiệu quả Cộng đồng sử dụng YOLO rất nhiều, thêm vào đó nhà phát triển nhiệt tình hỗ trợ trên toàn thế giới Vì vậy nếu gặp các vấn đề thì có thể nhận hỗ trợ nhanh chóng từ cộng đồng hoặc nhà phát triển.Nghiên cứu này hướng tới việc sử dụng thuật tioán YOLOv5 để xây dựng mô hình “Nhận diện tự động các hư hỏng mặt đường thông qua hình ảnh từ các camera hành trình được gắn trên các phương tiện giao thông để quản lý cơ sở hạ tầng giao thông ” Nghiên cứu sẽ đóng góp cho các nhà quản lý một phương thức đáng xem xét để nhanh chóng phát hiện hư hỏng mặt đường, giảm thiểu tối đa chi phí vận hành, duy tu bảo dưỡng

Hình 1.3 – Đặt vấn đề nghiên cứu nhận diện tự động hư hỏng mặt đường

Mục tiêu nghiên cứu

Mục tiêu là có thể tạo ra một công cụ nhận diện tự động hư hỏng nhanh chóng Một hư hỏng nhỏ trên đường nếu không được phát hiện sớm thì khi bảo trì có thể tăng chi phí do hư hỏng đã lan rộng chưa kể vấn đề an toàn của phương tiện giao thông Kể từ năm

2006, sự trỗi dậy của Deap Learning đã cho phép công nghệ Camera thông minh phát triển các tính năng nhận diện đối tượng đạt đến độ chính xác và thông minh cao Phát hiện các hư hỏng mặt đường bằng cách giám sát các video có thể cải thiện hiệu quả trong việc vận hành và bảo trì các tuyến đường bộ Nghiên cứu này hướng đến việc sử dụng mô hình YOLOv5 để nhận diện tự động các hư hỏng mặt đường thông qua hình ảnh trên các camera hành trình gắn lên các phương tiện giao thông

Hiện tại mô hình YOLOv5 có thể nhận diện với tốc độ suy luận cao, đặc biệt là các các đối tượng nhỏ và ở xa Vì vậy, cộng đồng sử dụng YOLO rất nhiều nên việc hỗ trợ từ các người dùng cũng hiệu quả hôn Đây cũng chính là mô hình mà nghiên cứu này hướng đến để tận dụng và phát huy sự hiệu quả của YOLOv5 để tiết kiệm chi phí duy tu bảo dưỡng hạ tầng giao thông đường bộ

Mục tiêu của nghiên cứu này là xây dựng ứng dụng mô hình YOLOv5 để nhận diện hư hỏng trên mặt đường ở thời gian thực qua camera hành trình của các phương tiện tham gia giao thông Với việc phát hiện kịp thời các hư hỏng thì việc bảo trì đường bộ sẽ đơn giản hơn qua đó giảm tối đa được chi phí phát sinh.

Đóng góp học thuật

Việc sáng tạo phần mềm sẽ góp thêm một phương thức nghiên cứu mới khi quản lý xây dựng Sau khi thực hiện thành công và đem vào ứng dụng thực tế thì nghiên cứu sẽ đóng góp học thuật:

- Sáng tạo và áp dụng công nghệ vào quản lý hạ tầng giao thông để tiết kiệm chi phí;

- Phát triển được phần mềm tin học ứng dụng trong quản lý cở sở hạ tầng giao thông;

- Tạo cơ sở để phát triển mô hình YOLOv5 trong quản lý cơ sở hạ tầng;

- Ứng dụng công nghệ 4.0 để xây dựng nên ứng dụng nhận biết hư hỏng mặt đường qua camera qua đó giúp giảm chi phí trong quản lý cơ sở hạ tầng;

- Phát huy ứng dụng công nghệ thông tin, công nghệ viễn thông để quản lý công việc của nhiều lĩnh vực trong cuộc sống.

Đóng góp thực tiễn

Khi vận hành các tuyến đường thì các cơ quan quản lý tốn khá nhiều chi phí do phương pháp quản lý còn thủ công, thô sơ Việc xây dựng hệ thống nhận diện hư hỏng mặt đường tự động trong quản lý đường bộ giúp làm giảm nguy cơ tai nạn, tiết kiệm chi phí khi nhận biết nhanh hư hỏng và mang đến cho người tham gia giao thông những ý nghĩa nhân văn và thiết thực:

- Giúp người quản lý kiểm soát được hư hỏng mặt đường và biện pháp sửa chữa ngay lập tức;

- Tăng tính hiệu quả trong việc kiểm soát thiệt hại ở các tuyến đường;

- Từ đó giảm rủi ro tai nạn giao thông.

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu chính của đề tài này gồm 5 nhiệm vụ nghiên cứu chính:

- Nghiên cứu tổng quan các công nghệ hiện có trong quản lý hạ tầng giao thông

- Nghiên cứu về deep learning để nắm rõ các thuật toán cũng như cách phát triển của các mô hình nhận diện đối tượng hiện nay

- Nghiên cứu các đề tài sử dụng mô hình nhận diện đã và đang được phát triển cũng như những nghiên cứu đang được sử dụng trong cuộc sống hàng ngày

- Nghiên cứu các mô hình có tiềm năng như: RCNN, YOLO, SSD, SPPNet, Fast RCNN, Pyramid Networks để hiểu rõ từng mô hình và chọn ra mô hình phù hợp

- Nghiên cứu mô hình YOLOv5 là nghiên cứu quá trình suy luận của YOLO, các thuật toán để phát hiện đối tượng trong ảnh, tăng độ suy luận chính xác của mạng neural mà không làm ảnh hướng đến tốc độ suy luận.

Quy trình nghiên cứu – Phương pháp nghiên cứu

Quy trình nghiên cứu là toàn bộ quá trình lựa chọn phương hướng, thực hiện ý tưởng thông qua việc áp dựng những công nghệ hiện có để phục vụ cho việc nghiên cứu Lưu đồ cụ thể được trình bày dưới bảng sau:

Hình 1.4 - Quy trình nghiên cứu của đề tài

Với việc nghiên cứu các đề tài trong việc quản lý vận hành và duy tu bảo dưỡng hạ tầng giao thông hiện nay tại Việt Nam cũng như trên thế giới, thông qua sự hỗ trợ tài liệu từ các nghiên cứu trước đó hay các tạp chí khoa học công nghệ, cập nhật các xu hướng giúp các nhà quản lý các tuyến đường để làm nền tảng để phát triển hệ thống quản lý vừa phát triển những ưu điểm hiện có và cải thiện được những hạn chế còn tồn đọng

Cập nhật các nền tảng công nghệ thông tin giúp chúng ta có những giải pháp để giải quyết các vấn đề một cách hiệu quả trong mọi công việc Từ đó giúp nghiên cứu tìm ra được giải pháp tối ưu để tạo nên một hệ thống quản lý hiệu quả.

Công cụ nghiên cứu

Từ quy trình đã đề cập ở 1.7, các công cụ dưới đây sẽ hổ trợ cho việc nghiên cứu

Nghiên cứu cơ sở lý thuyết Các bài báo nghiên cứu về nhận diện trong lĩnh vực phát hiện hư hỏng mặt đường

Các báo cáo, nghiên cứu về hạ tầng giao thông thuộc lĩnh vực quản lý xây dựng trong và ngoài nước

Nghiên cứu các mô hình nhận diện hiện nay

Deformable Part-based Model (DPM), Histogram of Oriented Gradients (HOG), You look only one (YOLO), Single shot multibox detector (SSD), RetinaNet, RCNN, SPPNet, Fast RCNN, Pyramid Networks

Nghiên cứu mô hình YOLOv5 Deep learning, mạng neural, CNN, convolution layer (tính chập), Kiến trúc mạng YOLO, chuyển dữ liệu đầu vào về dạng vector, feature map, anchor box, bounding box, công thức IOU, Non-max suppresion, các phương pháp giúp tăng suy luận nhưng không làm giảm tốc độ suy luận, những nâng cấp của YOLOv5 so với các phiên bản tiền nhiệm.

Cấu trúc luận văn

Bố cục khóa luận gồm 6 chương như sau:

- Chương 1: Giới thiệu chung về vấn đề nghiên cứu, động lực, lý do chọn hướng nghiên cứu của đề tài, mục tiêu, phạm vi nghiên cứu và bố cục của khóa luận

- Chương 2: Tổng quan về một số nghiên cứu liên quan đến việc nhận diện hư hỏng mặt đường và các nghiên cứu ứng dụng thuật toán Yolov5

- Chương 3: Trình bày về cơ sở lý thuyết và phương pháp nghiên cứu nhận diện đối tượng

- Chương 4: Trình bày về mô hình nhận diện Yolov5

- Chương 5: Trình bày về ứng dụng thuật toán Yolov5 để nhận biết hư hỏng mặt đường

- Chương 6: Trình bày về kết luận và hướng nghiên cứu trong tương lai.

TỔNG QUAN CÁC NGHIÊN CƯÚ VỀ NHẬN DIỆN HƯ HỎNG MẶT ĐƯỜNG

Tổng quan tình hình nghiên cứu công nghệ nhận biết hư hỏng mặt đường ở Việt Nam và thế giới 11

Ngày nay các quốc gia đã thực hiện nhiều để nhận biết hư hỏng mặt đường Các công nghệ được ứng dụng như sau:

1 Sử dụng hình ảnh và video từ xe cộ di chuyển: Nghiên cứu này sử dụng hình ảnh và video được ghi lại từ phương tiện giao thông để phát hiện các vết nứt, lún, hay hư hỏng khác trên mặt đường Phương pháp này sử dụng các thuật toán phân loại và xử lý hình ảnh để tự động phát hiện những thay đổi trong mặt đường

2 Mạng cảm biến không dây: Các cảm biến không dây có thể được đặt trên mặt đường để thu thập dữ liệu về tình trạng của nó Những cảm biến này có thể đo những biến đổi như độ phẳng, biến dạng, hay thậm chí là đo lường tải trọng của xe cộ di chuyển trên mặt đường Dữ liệu này sau đó có thể được phân tích để nhận biết các dấu hiệu của hư hỏng

3 Phân tích dữ liệu từ GPS và hệ thống định vị: Thông qua việc phân tích dữ liệu từ hệ thống định vị như GPS của các phương tiện di chuyển, có thể theo dõi và ghi nhận các chấn thương, xói mòn, hay biến dạng của mặt đường Các dấu hiệu như tốc độ giảm sút đột ngột hoặc lệch hướng di chuyển có thể cho thấy mặt đường có vấn đề

4 Kỹ thuật điện trở: Phương pháp này dựa trên việc sử dụng điện trở để đo độ dẫn điện của mặt đường Nếu có vết nứt hay hư hỏng, khả năng dẫn điện sẽ thay đổi Các cảm biến điện trở có thể được sử dụng để ghi nhận sự thay đổi này và từ đó nhận biết hư hỏng

Trong các công nghệ trên thì các công nghệ thứ hai, ba bốn đòi hỏi thiết bị và công nghệ cao nên chi phí khá tốn kém Hiện này nguồn tài nguyên dữ liệu là các clip được quay bởi camera hành trình của các phương tiện giao thông khi di chuyển trên đường hầu hết sẽ bị xóa bỏ trước khi được khai thác hết công năng do dung lượng lưu trữ lớn

Dữ liệu hình ảnh từ các camera hành trình chưa phát huy được hết các vai trò và tiềm năng mà nó đang có Do dữ liệu từ các clip hành trình này lại có thể ghi nhận chính xác các hư hỏng mặt đường giao thông mà các phương tiện giao thông này đi qua và hều hết các ôtô trên đường hiện nay đều có gắng Camera hành trình nên phương pháp Sử dụng dữ liệu từ video thu thập từ Camera hành trình trên các phương tiện giao thông để qua đó phát hiện sớm các hư hỏng mặt đường giúp chi phí sửa chữa, bảo dưỡng ít hơn Để tiến hành phương pháp nhận biết hư hỏng mặt đường thông qua dữ liệu hình ảnh và video từ xe cộ di chuyển thì các nghiên cứu hầu hết tiến hành theo các bước như sau :

1 Thu thập dữ liệu: Phương tiện giao thông được trang bị với các thiết bị ghi hình ảnh hoặc video

2 Ghi lại hình ảnh và video: Trong quá trình di chuyển, các camera ghi lại hình ảnh hoặc video của mặt đường và xung quanh Dữ liệu này có thể được lưu trữ lâu dài

3 Xử lý hình ảnh và video: Tại trung tâm xử lý, dữ liệu hình ảnh và video được xử lý bằng các thuật toán phân tích hình ảnh và máy học Những thuật toán này có thể nhận biết các đặc điểm của hư hỏng như vết nứt, lún, hay lỗ trên mặt đường

4 Phát hiện hư hỏng: Sau khi xử lý, hệ thống sẽ nhận diện các dấu hiệu của hư hỏng mặt đường Điều này có thể dựa trên sự thay đổi trong màu sắc, hình dạng hoặc cấu trúc của mặt đường so với trạng thái bình thường

5 Báo cáo và quản lý: Khi phát hiện hư hỏng, hệ thống sẽ tự động tạo báo cáo hoặc thông báo cho các nhà quản lý đường bộ để sửa chữa

Các nghiên cứu này phải kết hợp giữa kỹ thuật công nghệ để tạo ra hiệu quả cho cơ quan quản lý hạ tầng đường bộ giới.

Tổng quan tình hình nghiên cứu công nghệ Yolov5 ở Việt Nam và thế giới

YOLOv5 là một phiên bản nâng cấp của mạng nơ-ron chập (CNN) YOLO (You Only Look Once), được phát triển để thực hiện nhận dạng đối tượng hình ảnh nhanh chóng và hiệu quả YOLOv5 là phiên bản thứ 5 của nhóm YOLO Nó sử dụng một kiến trúc mạng nơ-ron CNN hiện đại để thực hiện việc nhận dạng và phân loại đối tượng trong thời gian thực

Các ứng dụng của YOLOv5 rất nhiều

1 Nhận dạng đối tượng giao thông: YOLOv5 dùng để nhận dạng và phân loại các loại đối tượng trong hình ảnh hoặc video từ camera giao thông Điều này có thể giúp trong việc theo dõi giao thông và cải thiện an ninh đường bộ

2 Giám sát môi trường và thiên tai: YOLOv5 được dùng để nhận dạng các sự kiện tự nhiên như lũ lụt, cháy rừng, và các biểu hiện môi trường khác bằng việc sử dụng hình ảnh và video từ các nguồn như camera quan sát

3 Nhận dạng y tế: YOLOv5 được dùng để nhận diện bệnh lý và biểu hiện y tế trên hình ảnh khi chụp X-quang, nội soi hoặc siêu âm

4 Quản lý tài sản: YOLOv5 được dùng để theo dõi và quản lý tài sản trong môi trường công nghiệp hoặc kho lưu trữ giúp tối ưu hóa quá trình kiểm tra và quản lý hàng tồn kho

5 Phân loại sản phẩm: YOLOv5 được dùng để phân loại sản phẩm trên kệ hàng Điều này có thể giúp cải thiện trải nghiệm mua sắm

6 An ninh và giám sát: YOLOv5 dùng để phát hiện và nhận dạng các hành vi nghi ngờ hoặc nguy hiểm ở nơi công cộng

7 Phát hiện đối tượng trong video giải trí: YOLOv5 được dùng để phát hiện người trong video âm nhạc đám đông đến phân loại vật phẩm trong trò chơi video.

Các nghiên cứu trong và ngoài nước về phương pháp nhận biết hư hỏng mặt đường

STT Tác giả Năm Mô tả

2017 Xử lý tín hiệu rung xe để giám sát mặt đường

2 X Yu, E Salari 2011 Phát hiện ổ gà trên mặt đường và đo lường mức độ nghiêm trọng bằng hình ảnh laser

2014 Thuật toán phát hiện vết nứt kín sử dụng phương pháp phân ngưỡng heuristic

2017 Tự động phát hiện vết nứt mặt đường ở cấp pixel trên bề mặt nhựa đường 3D bằng mạng học sâu

2017 Phát hiện thiệt hại vết nứt dựa trên phương pháp học sâu

2017 R-CNN nhanh hơn: hướng tới phát hiện đối tượng theo thời gian thực với các mạng đề xuất khu vực

2017 MobileNets, mạng thần kinh tích chập hiệu quả cho ứng dụng tầm nhìn di động

2018 Nhận diện, phân loại hư hỏng đường bằng việc sử dụng mạng lưới thần kinh sâu với hình ảnh điện thoại thông minh.

Các nghiên cứu trong và ngoài nước ứng dụng Yolov5

STT Tác giả Năm Mô tả

1 Jia Yao, Jiaming Qi, Jie

Zhang, Hongmin Shao, Jia Yang and Xin Li

2021 Thuật toán phát hiện thời gian thực cho các khuyết tật của quả Kiwi dựa trên YOLOv5

Shuchang Lyu, Xu Wang, Qi Zhao

2021 YOLOv5 được cải tiến dựa trên Đầu dự đoán biến áp để phát hiện đối tượng trên các tình huống được chụp bằng máy bay không người lái An toàn cho người đi bộ bị khiếm thị tại Giao lộ Zebra

Wu, Yiyan Lin, Chuyu Li, Siyu Chen, Zhineng Yuan, Shiwei Chen and Xiangjun Zou

2022 Mô hình nhận dạng bệnh cây dựa trên

2021 Phát hiện mũ bảo hiểm dựa trên

Xiaoyan, Zhijie Liu and Fuzeng Yang

2021 Phương pháp phát hiện mục tiêu theo thời gian thực của Apple dành cho rô- bốt chọn dựa trên YOLOv5 được cải tiến

Qujiang Lei; Xiuhao Li; Guangchao Gui;

2020 Hệ thống nhận dạng khẩu trang với

YOLOV5 dựa trên nhận dạng hình ảnh

2021 Sử dụng YOLOv5 để nhận dạng ngôn ngữ ký hiệu của Mỹ.

Phân tích các nghiên cứu và ưu nhược điểm của các nghiên cứu về nhận biết hư hỏng mặt đường 16

STT Tên đề tài Tác giả, năm Ưu điểm Hạn chế Ghi chú

Thay thế phương pháp thủ công

Thay thế con người để kiểm tra nhưng Kết processing for road surface monitoring

Gopi (2017) quả không ổ định với độ chính xác thấp

2 Pavement pothole detection and severity measureme nt using laser

Thiết bị cồng kềnh, chi phí cao, gây tắc nghẽn giao thông khi vận hành

3 Sealed- crack detection algorithm using heuristic thresholdin g approach

Khả năng phát hiện vết nứt vẫn sai do nhiều thứ, bao gồm cả việc thiếu ánh sáng và kết cấu không đồng nhất của cốt liệu mặt đường

4 Automated pixel-level pavement crack detection on 3D

Cải thiện độ chính xác

Nhưng chỉ phát hiện một loại hư hỏng và có tỷ lệ lỗi cao trong điều kiện thiếu ánh sáng, biến asphalt surfaces using a deep- learning network

Chen (2017) dạng và 'nhiễu' dữ liệu khác

5 Deep learning- based crack damage detection using convolutio nal neural networks

Büyükoztü rk (2017) Đang là phương pháp hiệu quả nhất, là trọng tâm chính để nghiên cứu

CNN: towards real-time object detection with region proposal networks

Cải thiện độ chính xác

Tốc độ phát hiện chậm nên khi phương tiện duy chuyển nhanh hơn đặt biệt là trên các cao tốc thì các vị trí hư hỏng đã không được phát hiện

Tăng cường hơn nữa tốc độ phát nal neural networks for mobile vision application s

Adam(201 7) hiện và hiệu suất

8 Road damage detection and classificati on using deep neural networks with smartphone images

Hạn chế là tương đối ít trong số những hình ảnh này chứa các ví dụ về ổ gà, tự nhiên cản trở hiệu suất của các mô hình đã phát triển trong việc phát hiện ổ gà và cuối cùng là ảnh hưởng đến đánh giá chung về khả năng ứng dụng thực tiễn.

Phân tích các nghiên cứu và ưu nhược điểm của các nghiên cứu ứng dụng Yolov5

STT Tên đề tài Tác giả, năm Ưu điểm Hạn chế Ghi chú

Kiwifruit Defects Based on YOLOv5

Jia Yao, Jiaming Qi, Jie Zhang, Hongmin Shao, Jia Yang and Xin Li (2021)

Bằng cách thêm một lớp phát hiện mục tiêu nhỏ, khả năng phát hiện các hư hỏng nhỏ được cải thiện Lớp này được nhúng để nâng cao các tính năng hữu ích và loại bỏ các tính năng ít quan trọng hơn CIoU được sử dụng làm hàm mất mát để làm cho hồi quy ổn định hơn

Phương pháp này khó áp dụng vào thực tế, vì mục tiêu của nghiên cứu là muốn thay thế cách kiểm tra truyền thống nhưng mô hình chỉ nhìn được vào 1 mặt của trái Kiwi và cần phải có người xoay trái để có thể nhận diện được bên còn lại

Mô hình gốc đã có nhiều thay đổi nên độ chính xác đã cao hơn mô hình này

Improved YOLOv5 Based on Transforme

Xingkui Zhu, Shuchang Lyu, Xu Wang, Qi

Công nghệ thêm vào YOLOv5 một lớp TPH, giảm hiệu ứng nhòe khi nhận diện bằng máy

Nghiên cứu chỉ kỹ thuật cải thiện nhận diện như CBAM, TPH- YOLOv5 bằng máy bay không

Hướng nghiên cứu tuy đạt hiệu quả về mặt nghiên cứu và cải thiện r Prediction Head for Object Detection on Drone- Captured Scenarios Visually Impaired Pedestrian Safety at Zebra Crossings

Zhao (2021) bay không người lái, mang lại phương thức mới cũng như các cải thiện của hô hình khi sử dụng thiết bị bay từ trên cao người lái để cải tiến mô hình nhưng lại chưa đưa ra được cách ứng dụng trong cuộc sống nhận diện từ trên không nhưng chưa đưa ra phương pháp để áp dụng vào thực tế

Disease Recognitio n Model Based on Improved YOLOv5

Zhaoyi Chen, Ruhui Wu, Yiyan Lin, Chuyu Li, Siyu Chen, Zhineng Yuan, Shiwei Chen and Xiangjun Zou (2022)

Nghiên cứu thêm các module mới như

InvolutionBottle neck, SE để giảm số lượng tham số cũng như phép tính và cải thiện độ nhạy của tính năng kênh Cuối cùng là thay đổi thuật toán Loss function từ GioU Độ chính xác của bệnh thán thử giảm 5,2%, tuy nhiên độ chính xác trung bình vẫn tăng

Hướng nghiên cứu giúp cho nông dân một cách để phát hiện mầm bệnh của cây nhưng cần cải thiện độ chính xác sang EioU để cải thiện nhận diện

Helmet Detection Based on YOLOv5

Fangbo Zhou, Huailin Zhao, Zhen Nie (2021)

Mô hình cho ra một sản phẩm nhận diện công nhân có đội mũ bảo hộ hay không để tạo ra một công cụ cho người quản lý để giám sát cũng như giảm thiểu số vụ tai nạn không đáng có Để nhận diện người công nhân có đội mũ hay không thì phải thông qua camera để nhận diện, dẫn đến không thể kiểm soát tốt được công nhân ở những nơi khuất tầm nhìn hoặc không có camera Đặt nhiều camera giám sát cũng làm tăng chi phí

Phần mềm sử dụng và sửa chữa trên tập dữ liệu COCO thay vào đó có thể tự tạo bộ dữ liệu riêng

Hướng nghiên cứu đạt hiệu quả về mặt nhận diện trong an toàn lao động nhưng chưa thể áp dụng vào thực tế vì chỉ nhận diện thôi là chưa đủ

Time Apple Targets Detection Method for Picking Robot Based on Improved YOLOv5

Bin Yan, Pan Fan, Xiaoyan, Zhijie Liu and Fuzeng Yang (2021)

Cải tiến nhẹ BottleneckCSP để làm giảm số lượng tham số trong module, thay đổi kích thước của các anchor box cho phù hợp để xác định được khoảng cách các quả táo ở xa nhằm xác định tốt mục tiêu hái cho robot hái táo

Vì robot hái táo hoạt động ban đêm Tuy nhiên, thuật toán được đề xuất trong nghiên cứu được thiết kế chỉ để nhận dạng trái cây vào ban ngày nên đây là một hạn chế của nghiên cứu

Ngoài ra, đối tượng nhận dạng của bài báo là quả táo đỏ được trồng rộng rãi

Tuy nhiên, nhìn chung có một số lượng lớn cây táo xanh được trồng trong cùng một vườn táo, nhưng thuật toán đề xuất trong bài báo không thể

Nghiên cứu này cần có thêm nhiều thời gian để áp dụng thực tiễn nhận dạng được táo xanh

YOLOV5 Based on Image Recognitio n

Xử lý hình ảnh đầu vào tốt bằng việc làm mịn ảnh bằng mean filtering, median filtering,

Gaussian filtering để giảm nhiễu hình ảnh và trích xuất các thông tin hữu ích, nghiên cứu giúp cho việc quản lý an ninh nơi công cộng

Cách nhận biết này chỉ để nhận dạng khẩu trang, nên vài trường hợp khách hàng dùng tay che một phần mặt thì sẽ không nhận dạng thành công

Nghiên cứu cần cải thiện tình trạng không thể nhận ra mặt nạ che bằng tay hoặc các vật che chắn khác, giúp mọi người vào trung tâm mua sắm thuận tiện hơn trong môi trường đặc biệt và hệ thống nhận dạng sẽ thông minh hơn

Nghiên cứu giúp người không sử

Mô hình không chỉ ra sự khác

Eleas Ahmed (2021) dụng ngôn ngữ ký hiệu có thể hiểu được người khác đang nói gì có thể phát hiện và phân loại cử chỉ khá nhanh và chính xác Sử dụng YOLOv5 vì kích thước mô hình nhỏ nên có thể sử dụng được với điện thoại nhau giữa chữ cái gần giống nhau (tức là “0” và

“W”) và cũng không thể nhận ra tất cả các cử chỉ trong thời gian phát hiện (“P” Và “J”)

Nghiên cứu có đề cập đến sử dụng camera điện thoại để nhận diện nhưng chưa đưa ra phương pháp cụ thể cần có thêm nhiều thời gian để áp dụng thực tiễn.

CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU NHẬN DIỆN ĐỐI TƯỢNG 26

Giới thiệu về Deep Learning

Deep learning là mốt phần nhỏ trong trí tuệ nhân tạo (AI) mà mô hình máy học được xây dựng dựa trên các mạng nơ-ron sâu (deep neural networks) Nó nằm trong họ các thuật toán máy học, nơi mà mô hình học từ dữ liệu để thực hiện các nhiệm vụ cụ thể mà không cần phải được lập trình cụ thể cho từng nhiệm vụ đó

Mỗi tầng của mạng nơ-ron, gọi là tầng ẩn, có thể học các đặc trưng ngày càng phức tạp từ dữ liệu đầu vào Các mô hình deep learning thường có ít nhất ba tầng: tầng đầu vào, tầng ẩn và tầng đầu ra

Deep learning có khá nhiều ứng dụng đặc biệt là ứng dụng để nhận biết hình ảnh

Deep learning là một công cụ quan trọng để giải quyết nhiều vấn đề phức tạp trong nghiên cứu khoa học và ứng dụng vào thực tiễn

Hình 3.1 : Mối quan hệ giữa AI, Machine Learning và Deep Learning

Mạng neural nhân tạo (ANN)

Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hình toán học để mô phỏng giống hệ thống thần kinh của não người hoạt động Mục tiêu của mạng neural nhân tạo là học từ dữ liệu và thực hiện các nhiệm vụ như phân loại, dự đoán và nhận dạng

Một ANN bao gồm các đơn vị cơ bản gọi là nơ-ron nhân tạo Các nơ-ron này tổ chức thành các tầng, bao gồm ít nhất một tầng đầu vào (input layer), một hoặc nhiều tầng ẩn (hidden layer) và một tầng đầu ra (output layor) Mỗi nơ-ron trong tầng liên kết nơ-ron ở tầng tiếp theo thông qua các trọng số, và mỗi kết nối có một giá trị trọng số tương ứng Quá trình học của mạng neural nhân tạo thường dựa trên thuật toán lan truyền ngược (backpropagation) Trong quá trình này, mô hình học từ dữ liệu bằng cách điều chỉnh các trọng số của các kết nối giữa các nơ-ron để giảm sai số giữa kết quả dự đoán và kết quả thực tế

Các mạng neural nhân tạo có thể có cấu trúc đơn giản với một vài tầng hoặc có thể là mạng nơ-ron sâu (deep neural networks - DNN) với nhiều tầng ẩn, giúp chúng có khả năng học và biểu diễn các đặc trưng phức tạp từ dữ liệu

ANN được sử dụng rộng rãi trong nhiều lĩnh vực như thị giác máy tính, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, dự đoán chuỗi thời gian, và nhiều ứng dụng khác

Hình 3.2: Tế bào neuron thần kinh

Mô hình mạng neural nhân tạo (ANN)

ANN bao gồm input layer ở đầu, hidden layer ở giữa và output layer ở cuối

Hình 3.3: Mô hình neural nhân tạo

Các hàm kích hoạt trong mạng Neutral

Hàm kích hoạt (activation function) là một thành phần quan trọng trong mạng neural, và trong các tầng ẩn của mô hình Hàm này giúp đưa ra đầu ra của mỗi nơ-ron dựa trên tổng trọng số của các đầu vào

Hình 3.4: Mô tả các hàm trong mạng neutral nhân tạo

Các hàm tính năng thường gặp:

- Sigmoid: Hàm này chuyển đổi giá trị đầu vào thành khoảng (0, 1), thường được sử dụng trong các tác vụ phân loại như đầu ra của các mô hình logistic regression

- Tang: Tương tự như hàm sigmoid, nhưng chuyển đổi giá trị đầu vào thành khoảng (-1, 1), giúp giảm vấn đề về "vanishing gradient" (đạo hàm tiệm cận 0) so với sigmoid

Công thức hàm Tang tan h(x) = 𝑒 𝑥 − 𝑒 −𝑥

- ReLU: Hàm ReLU đang được sử dụng rất nhiều để huấn luyện các mạng neural Hàm này giữ giá trị dương của đầu vào và đặt giá trị âm bằng 0 ReLU thường được sử dụng trong các tầng ẩn của mạng neural sâu (DNN) do tính đơn giản và hiệu suất tốt trong nhiều trường hợp Có nhiều biến thể của ReLU ra đời để khắc phục nhược điểm này như Reaky ReLU, GLU, SiLU

Công thức hàm SiLU: f (x) = max (0 , x) Ở phiên bản hiện tại thì YOLOv5 khuyến khích người dùng sử dụng SiLU.

Convolution Neutral Network (CNN)

CNN là viết tắt của "Convolutional Neural Network" (Mạng Nơ-ron Tích chập) Đây là một loại mô hình mạng neural được thiết kế đặc biệt cho xử lý và phân tích dữ liệu có cấu trúc ruồi, như hình ảnh và video CNN đã đạt được sự nổi tiếng lớn trong lĩnh vực thị giác máy tính và các ứng dụng liên quan đến xử lý hình ảnh

Các đặc điểm quan trọng của CNN bao gồm:

Tích chập (Convolution): CNN sử dụng phép tích chập để áp dụng bộ lọc (kernel) lên dữ liệu đầu vào, giúp trích xuất các đặc trưng cục bộ và giảm kích thước dữ liệu Tính chập là một phép toán rất quan trọng nhằm biến đổi thông tin đầu vào thông qua phép tính chập và một Kernel để trả về một đầu ra được giữ lại những đặc trưng chính và loại bỏ đi những đặc trưng mà bộ lọc không quan tâm

Kiến trúc mạng neural tính chập được cấu thành bởi các lớp sau:

 Convolution layer (lớp tính chập)

 Activation layer (lớp kích hoạt)

 Fully connected layer (lớp kết nối đầy đủ)

3.5.2 Convolution layer (lớp tích chập)

Lớp tích chập (Convolutional Layer), hay còn gọi là tầng tích chập, là một thành phần chính của mạng neural tích chập (CNN) Tầng này đóng vai trò quan trọng trong việc trích xuất các đặc trưng từ dữ liệu không gian, như hình ảnh

Các đặc điểm chính của lớp tích chập bao gồm:

Bộ lọc (Filter/Kernel): Đây là ma trận nhỏ được di chuyển qua toàn bộ đầu vào (hình ảnh) để thực hiện phép tích chập Bộ lọc giúp trích xuất các cạnh, góc, hoặc các đặc điểm cụ thể của dữ liệu không gian

Phép Tích Chập (Convolution Operation): Bộ lọc di chuyển qua đầu vào, và ở mỗi vị trí, nhân từng phần tử của bộ lọc với các giá trị tương ứng trong vùng ảnh hiện tại và tính tổng Quá trình này tạo ra một bản đồ đặc trưng (feature map) mới

Dấu Stride: Stride là khoảng cách giữa các vị trí mà bộ lọc được áp dụng Stride lớn có thể giảm kích thước của feature map đầu ra

Padding: Để giữ kích thước của feature map, thường sử dụng padding bằng cách thêm các giá trị 0 xung quanh đầu vào trước khi thực hiện phép tích chập

Công dụng của lớp tích chập là trích xuất đặc trưng cục bộ từ dữ liệu không gian, giúp mô hình học được các biểu diễn sâu sắc và không gian của đối tượng trong hình ảnh Khi sử dụng nhiều tầng tích chập và tầng pooling xen kẽ nhau, mô hình học được đặc trưng ngày càng khó và tổng hợp các thông tin được lấy từ dữ liệu đầu vào

Hình 3.5: Phép nhân tích chập

Tầng Pooling (Pooling Layer) là một thành phần quan trọng của mạng neural tích chập (CNN) Chức năng chính của tầng này là giảm kích thước không gian của đầu vào (feature map) thông qua việc lấy giá trị đại diện từ các vùng nhỏ của feature map

Các loại pooling phổ biến bao gồm:

 Max Pooling: Lấy giá trị lớn nhất từ mỗi vùng không chồng lấn trên feature map Giảm kích thước feature map bằng cách giữ lại giá trị lớn nhất

 Average Pooling: Lấy giá trị trung bình từ mỗi vùng không chồng lấn trên feature map

Giảm kích thước feature map bằng cách thay thế các giá trị bằng giá trị trung bình

Global Average Pooling (GAP): Là một dạng của average pooling được thực hiện trên toàn bộ feature map Giảm kích thước feature map thành một giá trị trung bình duy nhất cho mỗi kênh (channel)

Các lợi ích của tầng Pooling:

Giảm Kích Thước: Giúp giảm số lượng tham số trong mô hình, giảm bộ nhớ và tăng tốc độ tính toán

Tính Tổng Quát: Tăng khả năng tổng quát hóa của mô hình bằng cách giữ lại thông tin quan trọng và loại bỏ thông tin không quan trọng

Trích Xuất Đặc Trưng: Lấy thông tin quan trọng và lấy đặc trưng cấp cao từ dữ liệu

Các tầng Pooling thường được sử dụng xen kẽ với các tầng tích chập trong CNN, tạo thành các khối xây dựng cơ bản trong xử lý ảnh và dữ liệu không gian

Hình 3.6: max pooling và average pooling

Hình 3.7: Mô tả max pooling từ lớp convolution

Tầng Kết Nối Đầy Đủ (Fully Connected Layer) là một loại tầng trong mạng neural, trong đó mỗi nơ-ron ở tầng này kết nối với tất cả các nơ-ron ở tầng trước đó và sau đó Tầng này còn được gọi là tầng đầu ra hoặc tầng kích hoạt cuối cùng của mô hình

Các đặc điểm quan trọng của tầng kết nối đầy đủ:

Kết nối đầy đủ: Mỗi nơ-ron ở tầng này kết nối với mọi nơ-ron ở tầng trước đó và sau đó Điều này tạo ra một mạng đầy đủ các liên kết giữa các nơ-ron

Hàm Kích Hoạt: Thường thì sau tầng kết nối đầy đủ sẽ áp dụng một hàm kích hoạt như ReLU, sigmoid, hoặc tang để đưa ra đầu ra phi tuyến tính từ các giá trị tổ hợp tuyến tính từ các nơ-ron ở tầng trước đó

Số Lượng Nơ-ron: Số lượng nơ-ron trong tầng này thường phụ thuộc vào đặc tính của nhiệm vụ cụ thể và cấu trúc mô hình Trong mô hình lớn, số lượng nơ-ron thường lớn

Trọng Số và Bias: Mỗi liên kết giữa các nơ-ron được trang bị một trọng số, và mỗi nơ- ron có một giá trị bias riêng Trọng số và bias này là các tham số mà mô hình học từ dữ liệu

Tầng kết nối đầy đủ thường được sử dụng trong các mô hình sâu như mạng neural đa lớp (MLP) và mạng neural tích chập (CNN) ở tầng cuối cùng để tạo ra đầu ra của mô hình Các tầng trước đó thường bao gồm các tầng tích chập và tầng pooling để trích xuất và giảm chiều dữ liệu

3.5.5 Mô hình mạng neural tích chập 2 chiều

Thiết kế một mạng neural 2 chiều:

SiLU: Lớp biến đổi thông qua hàm SiLU để kích hoạt phi tuyến tính

FC: Lớp kết nối hoàn toàn

J, K, L : Là số lần lặp lại của của quá trình đó

Như vậy mạng neural tính chập có 3 bước:

• Quá trình trích xuất đặc trưng: thông qua các tính chập giữa các ma trận đầu vào và các Kernel để tạo ra các ma trận mới

Các mô hình phát hiện đối tượng

Bài toán phát hiện đối tượng là tìm vị trí của đối tượng mình cần tìm trong ảnh

Hình 3.10: Ví dụ cho bài toán phân loại ảnh

Việc nhận diện đối tượng Gồm 2 bước:

 Đối tượng cần nhận diện thì khoanh vùng bouding box để tìm

 Với mỗi bouding box ta sẽ cho ra tỉ lệ xác suất nhận ra đối tượng

Những bài toán nhiều đối tượng thì R-CNN (regional convolutional neural network) hiệu quả hơn CNN Truyền thống

3.6.1 Tổng quan các mô hình nhận diện hư hỏng mặt đường hiện nay

Nghiên cứu sẽ trình bày hai thành phần chính của một phần mềm nhận diện đối tượng gồm: mô hình nhận diện đối tượng và các kiến trúc cơ bản của deep learning để nhận diện hình ảnh Đầu tiên, tôi sẽ giới thiệu hai mô hình nhận diện đối tượng: Faster RCNN (mô hình hai giai đoạn) và mô hình SSD (Single Shot Multi-Box Detection) (mô hình một giai đoạn) Sau đó, giới thiệu bốn (04) kiến trúc cơ bản của deep learning để trích xuất đặc trưng, bao gồm MobileNet, Inception, ResNet và Inception ResNet Cuối cùng, sẽ có tám (08) mô hình nhận diện được tạo ra khi ta kết hợp mô hình nhận diện đối tượng và các kiến trúc cơ bản để nhận diện đối tượng trong hình ảnh

Hình 3.11: Các phương pháp hình thành 8 mô hình phát hiện

3.6.2 Mô hình hai giai đoạn (mô hình phổ biến và tiến tiến Faster R-CNN) Ý tưởng của mô hình hai giai đoạn

- Bước 1: ta dùng thuật toán tìm kiếm để tìm ra các hình chữ nhật có khả năng chứa đối tượng

- Bước 2: Với mỗi hình chữ nhật ta xác định các đối tượng trong đó

Faster RCNN là mô hình hoạt động theo hai giai đoạn phổ biến và tiên tiến Nó là sự nâng cấp của mô hình R-CNN và Fast R-CNN R-CNN nhanh hơn đã được áp dụng và nghiên từ năm 2015 Kể từ tháng 11 năm 2016, hệ thống Faster R-CNN đã được nghiên cứu Giai đoạn đầu tiên là tạo ra các vùng đề xuất sử dụng mạng RPN và giai đoạn thứ hai là phân loại và cải thiện vị trí

Faster R-CNN khác ở chỗ ở bước 1 thay vì dùng thuật toán để kiếm các hình chữ nhật thì nó thêm một mạng CNN là Region Proposal Network (RPN) để kiếm các hình chữ nhật

Quy trình hoạt động của Faster R-CNN (Faster Region-based Convolutional Neural Network) bao gồm hai mô-đun chính: Mạng đề xuất khu vực (RPN) và R-CNN (Region- based Convolutional Neural Network)

Hình 3.12: Quy trình hoạt động của Faster RCNN

Hình 3.13: Minh họa việc thêm mạng CNN là RPN mới để tạo ra mô hình Faster

 RPN là một mạng nơ-ron tích chập được sử dụng để đề xuất các vùng ứng viên có khả năng chứa đối tượng trong hình ảnh RPN dự đoán các hộp giới hạn (bounding boxes) ứng viên và tính toán điểm tự tin (confidence scores) cho từng hộp Các hộp có điểm tự tin cao được đề xuất làm các khu vực ứng viên để chứa đối tượng RPN sử dụng các hàm mất mát (loss functions) để tối ưu hóa việc dự đoán hộp giới hạn chính xác và đảm bảo tính đa dạng của các khu vực ứng viên

 R-CNN (Region-based Convolutional Neural Network): R-CNN là một mạng nơ- ron tích chập sử dụng để phân loại và chính xác dự đoán vị trí của các đối tượng trong từng khu vực ứng viên đã được đề xuất bởi RPN R-CNN trích xuất các đặc trưng từ từng khu vực ứng viên và đưa chúng qua các lớp fully connected để phân loại đối tượng và điều chỉnh vị trí của các hộp giới hạn R-CNN cũng sử dụng các hàm mất mát để tối ưu hóa việc phân loại và dự đoán vị trí

Kết hợp cả hai mô-đun này, Faster R-CNN có thể phát hiện nhanh chóng và chính xác đối tượng trong ảnh RPN đề xuất các khu vực ứng viên chứa đối tượng và sau đó R-CNN phân loại và dự đoán vị trí của các đối tượng này, tạo ra kết quả phát hiện cuối cùng

 Bước 1: Mạng CNN tiền xử lý (preprocessing): Ảnh đầu vào được đưa qua một mạng CNN để trích xuất các đặc trưng

 Bước 2: Mạng RPN (Region Proposal Network): Mạng RPN được áp dụng lên các feature map được trích xuất từ bước trước đó Mạng RPN tạo ra một tập các vùng đề xuất (region proposals) có khả năng chứa các đối tượng Mỗi vùng đề xuất được đưa vào một giai đoạn tiếp theo để phân loại và cải thiện vị trí

 Bước 3: Mạng ROI Pooling: Các vùng đề xuất (region proposals) được coarsely aligned với các feature map tương ứng Mạng ROI Pooling biến đổi các vùng đề xuất thành các feature vector có kích thước cố định

 Bước 4: Mạng Fully Connected (FC) layers: Các feature vector của các vùng đề xuất được đưa qua các lớp fully connected để phân loại đối tượng và điều chỉnh vị trí

3.6.3 Mô hình một giai đoạn (SSD - Single Shot Multi-Box Detection)

Mô hình Phát hiện một giai đoạn (SSD), được đề xuất lần đầu bởi Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C Y., & Berg, A C (2016), là một mô hình nhanh được đánh giá cao với độ chính xác tương đối tốt Quy trình hoạt động của SSD (Single Shot Multi-Box Detection)

Hình 3.14: Mô hình phát hiện một giai đoạn

Mô hình Phát hiện một giai đoạn (SSD - Single Shot Multibox Detector) là một mô hình phát hiện đối tượng trong thị giác máy tính Điểm nổi bật của SSD là việc phát hiện đối tượng nhanh chóng và hiệu quả

SSD sử dụng mạng nơ-ron tích chập (CNN) để thực hiện cả hai nhiệm vụ chính: phát hiện đối tượng (object detection) và dự đoán hộp giới hạn (bounding boxes) chứa các đối tượng Mô hình này thực hiện cả hai nhiệm vụ này chỉ trong một lần truyền qua mạng (single shot), làm cho quá trình phát hiện nhanh và hiệu quả SSD sử dụng các lớp tích chập và lớp phát hiện (detection layers) để dự đoán vị trí và lớp của các đối tượng trong hình ảnh Nó tạo ra một tập các hộp giới hạn và dự đoán xác suất thuộc về mỗi lớp cho từng hộp giới hạn này Sau đó, các hộp giới hạn có xác suất đáng tin cậy được chọn làm các vùng đề xuất chứa đối tượng, cụ thể:

 Bước 1: Mạng CNN tiền xử lý: Ảnh đầu vào được truyền qua mạng CNN để tạo ra các feature map

 Bước 2: Mạng phân loại và dự báo bouding box (classification and bounding box prediction): Các feature map được chia thành các ô lưới (grid cells) có kích thước nhất định Mỗi ô lưới dự đoán các bounding box và xác suất của các lớp đối tượng khác nhau

 Bước 3: Tạo ra các đề xuất (proposals): Dựa trên dự báo bounding box và xác suất, các đề xuất đối tượng được tạo ra bằng cách kết hợp các bounding box dự báo từ các ô lưới và thực hiện non-maximum suppression để loại bỏ các bounding box trùng lắp

MÔ HÌNH NHẬN DIỆN YOLOV5

Giới thiệu mô hình kiến trúc mạng Yolov5

You look only one hay còn được gọi là YOLO, là một mô hình CNN dùng để nhận diện và phân loại các đối tượng Ưu điểm của YOLO là có độ chính xác cao và tốc độ nhanh hơn các mô hình cũ nên giúp cho việc nhận diện trong thời gian thực tốt hơn Yolo v5 là phiên bản thế hệ thứ năm (05) của Yolo, được phát triển bởi Ultralytics Yolov5 có một số đặt điểm nổi bật như:

 Single Shot Detection: Yolov5 là một mô hình nhận diện đối tượng một giai đoạn, có khả năng phát hiện và phân loại đối tượng trong một lần chạy duy nhất trên toàn bộ ảnh, mà không cần giai đoạn tạo ra các vùng đề xuất trước như các mô hình hai giai đoạn

 Backbone Architecture: Yolov5 sử dụng một kiến trúc mạng convolutional neural network (CNN) làm "backbone" để trích xuất đặc trưng Phiên bản Yolo V5 sử dụng kiến trúc EfficientNet làm backbone, giúp mô hình có khả năng học được các đặc trưng phức tạp và đạt hiệu suất tốt

 Scale Variants: Yolov5 được thiết kế với các phiên bản khác nhau (s, m, l, x), tương ứng với các kích thước mô hình nhỏ, trung bình, lớn và cực lớn Việc có nhiều phiên bản cho phép người dùng tuỳ chỉnh kích thước mô hình để đáp ứng yêu cầu về tốc độ và độ chính xác

 Multi-scale Inference: Yolov5 hỗ trợ việc áp dụng các mức tỷ lệ khác nhau cho ảnh đầu vào trong quá trình dự đoán Điều này giúp mô hình có khả năng phát hiện các đối tượng ở các tỷ lệ kích thước khác nhau và đạt hiệu suất cao hơn trên các đối tượng nhỏ hoặc lớn

 Hỗ trợ nền tảng: Yolov5 hỗ trợ nhiều nền tảng, bao gồm PyTorch và ONNX, giúp người dùng dễ dàng triển khai và tích hợp vào dự án của mình

Yolov5 đã có hiệu quả cao và tốc độ nhanh khi phát hiện ra đối tượng trên ảnh và video, và nó đã được xài nhiều trong xe tự hành, lĩnh vực an ninh và xây dựng

Yolo được tạo ra từ việc kết hợp giữa các convolution layer và fully connected layer Trong đó các convolution sẽ trích xuất các đặc trưng và fully connected layer sẽ thực hiện dự đoán xác suất và tọa độ của đối tượng

Hình 4.1: Sơ đồ kiến trúc mạng YOLO

Trong kiến trúc mạng YOLO, thành phần DarkNet Architecture có tác dụng trích xuất đặc trưng

Trong YOLOv5, áp dụng một feature extractor là CSPDarkNet53 thay thế cho DarkNet53 của YOLOv3

Hình 4.2: DarkNet53 của YOLOv3 và CSPDarkNet53 của YOLOv5

Mạng gồm 53 convolution layer kết nối liên tiếp, mỗi layer theo sau bởi một activation SiLU Down sample được dùng để giảm thiểu tham số trong mô hình

Các bức ảnh khi đưa vào mô hình sẽ được điều chỉnh để về chung một kích thước phù hợp với mô hình, sau đó được gôm thành từng batch để đưa đi huấn luyện

Sau khi đi qua các convolution layer thì ta có feature map Đầu vào là 640x640 thì kích thước là 80x80, 40x40, 20x20

Output của YOLO là một vector bao gồm:

Hình 4.3: Công thức output của Yolo

Pc: là xác suất dự báo đối tượng

tx, ty, tw, th: tx, ty giúp tìm tọa độ của tâm và tw, th là chiều dài và rộng của hình chữ

c1, c2, …, cn: là các đối tượng xuất hiện trong hình chữ nhật đó.

Cách hoạt động của mô hình Yolo

4.2.1 Input Đầu tiên ta sẽ tạo truth bounding box cho đối tượng

Hình 4.4: Minh họa cho việc nạp dữ liệu đầu vào truth bounding box cho đối tượng là loại hư hỏng mặt đường Đầu ra của mạng neural là 1 vector nên ta sẽ chuyển về dạng số, có 1 đối tượng mà ta muốn xác định là ổ gà

Lúc này ta sẽ có 1 vector

Với S: là đối tượng nhận diện, vì nghiên cứu này chỉ có 1 đối tượng vì vậy S = 0

Bx, By: là tọa độ của chấm vàng (chấm vàng để sác định tâm của truth bounding

Bw, Bh: là rộng và cao của truth bounding box

Ta lấy ảnh và label để cho máy học (x_train là tấm ảnh, y_train là label)

Tương tự như các phiên bản trước YOLOv5 dự đoán trên nhiều feature map Với mỗi kích thước đầu vào của một ảnh sẽ cho ra feature map khác nhau Nếu ảnh đầu vào có kích thước 640 x 640 thì ta sẽ có 3 feature map với công thức tính là 640/8, 640/16, 640/32 lần lượt là 80x80, 40x40, 20x20 cho các đối tượng nhỏ, vừa và lớn

Hình 4.5 : Các feature map cho đối tượng hình ảnh về các hư hỏng mặt đường

YOLO sẽ sử dụng anchox box làm cơ sở để ước lượng bounding box cho đối tượng Anchor box sẽ có trước quanh đối tượng, anchor box chính là các bounding box được tạo sẵn Với mỗi feature map, anchor box sẽ khác nhau về mặt kích thước

Dùng 3 anchor box để dự đoán 1 bounding box Vì thế nếu có 3 feature map thì sẽ có 9 anchor box

Nếu ảnh đầu vào là 640 x 640 thì anchor box ở mỗi feature map sẽ là

Hình 4.6: Các kích thước Anchor box của YOLOv5

Một feature map hình vuông S x S mô hình YOLO thì công thức tính anchor box là S x S x 3 Do đó với bức ảnh 640x640 thì số lượng bounding box lớn nên huấn luyện Yolo sẽ lâu

Mỗi đối tượng trong hình ảnh huấn luyện sẽ được đưa về một anchor box Ta dùng công thức IOU để tìm anchor box có IOU sát nhất với truth bounding box nhất thì giữ lại và loại bỏ những anchor box kia

Hình 4.7: Hình minh họa tìm Anchor box cho học đặc điểm của đối tượng

Trong quá trình đào tạo sẽ thay đổi x, y, w, h cho đến khi học được các đặc điểm của đối tượng

Cho một anchor box với kích thước (Pw, Ph) tại cell nằm trên feature map với kích thước là (Cx, Cy), mô hình dự đoán có 4 tham số (tx, ty, tw, th) và với các tham số vừa được nêu ra sẽ tìm được bounding box dự đoán có tâm là (bx, by) kích thước là (bw, bh) qua công thức:

Hình 4.8: dự đoán bounding box

4.2.5 Non-max suppresion (lại bỏ bounding box thừa)

Một đối tượng có thể bị dự đoán nhiều lần nên YOLO đã xài non-max suppresion để tìm bounding box tốt nhất Vì thuật toán IOU có liên quan đến non-max suppresion nên ta sẽ đề cập IOU trước

IoU được dùng để đánh giá sự trùng khớp của bounding box với đối tượng thật Công thức IoU sử dụng trong thuật toán:

Hình 4.9: Công thức tính IoU

• Giá trị của IoU nằm từ 0 đến 1

• Khi IoU càng gần 1 thì giá trị dự đoán càng khớp

Thuật toán non-max suppresion

 Với S: chính là bounding box

 P: tập các box đầu vào

 Thresh_IoU: ngưỡng IoU để loại bỏ các box thừa

 Keep: box cuối cùng sau khi loại bỏ các box thừa được lưu ở đây Thuật toán như sau:

 Bước 1: Cho box có điểm dự đoán cao nhất từ tập P vào tập S và loại bỏ box đó khỏi tập P

 Bước 2: Thực hiện tính toán IoU giữa S và P, nếu box nào trong P có kết quả IoU với box S đang xét lớn hơn thresh_IoU thì loại bỏ box đó khỏi P

 Bước 3: lặp lại bước 1 cho đến khi P rỗng

Khi dữ liệu được dán nhãn và học htam số thì ta sẽ tính toán hàm mất mác

Loss function hay còn gọi là hàm mất mát thể hiện mối quan hệ của 𝑦̂ (là kết quả dự đoán của mô hình) và y (là giá trị thực tế) Hàm loss funtion mục đích để tối ưu mô hình của mình sao cho tốt nhất hoặc dùng để đánh giá độ tốt của mô hình, 𝑦̂ càng gần y thì càng tốt, có nghĩa là kết quả dự đoán của mô hình càng gần giá trị thực tế thì mô hình đó càng tốt Với bài toán nhận diện cần tính toán 2 hàm mất mát như sau:

Hình 4.11: Công thức tính hàm mất mác

𝑓 𝑙𝑜𝑐 (Localization Loss Function): Sử dụng để tính toán độ sai số giữa các bounding box dự đoán với các anchor box, cải thiện 𝑓 𝑙𝑜𝑐 sẽ giúp dự đoán vật thể chính xác hơn

𝑓 𝑐𝑙𝑠 (Confidence Loss Function): Thể sai số giữa dự đoán của bounding box với nhãn thực tế

Hàm mất mát tổng quát sẽ bằng tổng 2 hàm mất mát phía trên:

Những cải tiến của mô hình phát hiện Yolov5

Cấu trúc của Yolo gồm bốn phần chính: Input, Backbone, Neck và Head

Hình 4.12: Sơ đồ cấu trúc của Yolov5

Input: Là phần đầu vào Yolo và có nhiệm vụ xử lý đầu vào Thông thường, ảnh đầu vào sẽ được chia thành các khối (grid) và chuyển đổi thành tensor để được đưa vào mạng neural network

Backbone: Phần này quan trọng nhất vì nó thực hiện trích xuất đặc trưng từ ảnh thông qua một kiến trúc mạng neural network Trong Yolo V5, kiến trúc EfficientNet thường được làm backbone để học các đặc trưng phức tạp từ ảnh

Neck: Neck (cổ) là phần giữa của mô hình và có nhiệm vụ kết hợp các đặc trưng từ các lớp trước đó để tạo ra các đặc trưng chung, giúp cải thiện khả năng nhận diện và localize các đối tượng Trong Yolo, neck thường không được xài, và các đặc trưng được truyền trực tiếp từ backbone đến phần tiếp theo

Head: Đây là phần cuối cùng của mô hình và thực hiện dự đoán đối tượng trên ảnh Head bao gồm hai thành phần chính là Dense Prediction (dự đoán mật độ) và Sparse Prediction (dự đoán thưa thớt), cụ thể:

Dense Prediction: Dense Prediction dự đoán chi tiết về vị trí và kích thước và lớp của các đối tượng trong từng grid cell của ảnh Thông qua một số lớp convolutional và kỹ thuật up-sampling, nó tạo ra các dự đoán chi tiết và có mật độ cao

Sparse Prediction: Sparse Prediction sử dụng các lớp convolutional có kernel lớn hơn để tạo ra các dự đoán thưa thớt cho các vùng lớn hơn trong ảnh Các dự đoán này giúp phát hiện các đối tượng lớn hơn mà có thể trải qua nhiều grid cells

Kết hợp cả Dense Prediction và Sparse Prediction, Yolo V5 có khả năng tìm đối tượng nhanh và chính xác

YOLOv5 thêm phương pháp tăng dữ liệu Mosaic vào hình ảnh đào tạo, thông qua việc chia tỷ lệ ngẫu nhiên, cắt ngẫu nhiên và bố cục ngẫu nhiên Ta sẽ có 4 bức tranh khác nhau được trộn vào 1 bức tranh, bằng cách này việc huấn luyện sẽ trở nên phong phú và tốt hơn, rất có lợi cho những mục tiêu nhỏ

Phương pháp Mosaic làm cho mô hình đào tạo không bị quá khớp với dữ liệu đào tạo có thể dẫn đến việc dự đoán nhầm và làm giảm chất lượng mô hình Phương pháp sẽ tập hợp 4 hình ảnh khác nhau, những hình ảnh này sẽ chọn ngẫu nhiên từ tập dữ liệu và ta sẽ kết hợp 4 hình ảnh này thành 1 Mosaic, sau đây là các bước tạo thành 1 Mosaic

Hình 4.13: Bước 1 phương pháp Mosaic

Bước 2: lúc này phương pháp Mosaic sẽ cắt ngẫu nhiên từ tâm và đó là hình ảnh thu được sau cùng

Hình 4.14: Bước 2 phương pháp Mosaic

C3 đến C5 là các lớp đầu ra, Với stride = 2 ** C, ví dụ với C3 stride = 2**3 = 8 và với hình ảnh là 640 x 640 sẽ trở thành 80x80 (640/8) feature map ở stride bằng 8 Lúc này Backbone sẽ thu được các feature map và sau đó kết hợp các đối tượng này thông qua mạng kết hợp Neck để tạo ra feature map P3, P4, P5 (trong YOLOv5, các kích thước được thể hiện với kích thước 80x80, 40x40 và 20x20) để phát hiện các đối tượng nhỏ, vừa và lớn

Hình 4.16: Cấu trúc của backbone

YOLOv5 cải tiến CSPResBlock của YOLOv4 thành C3 module (hình 17) với việc bỏ đi một lớp convolution việc bỏ 1 lớp này giúp cho mô hình nhẹ hơn nên việc YOLOv5 giảm tính toán nhưng hiệu suất lại được tăng lên

Hình 4.17: Cải tiến CSPResBlock thành C3 module

SPPF: YOLOv5 áp dụng module giống với module SPP [5] nhưng nhanh hơn, với tên gọi là SPPF (SPP-Fast), SPPF được đặt ở cuối Backbone giúp cải thiện hiệu suất feature extration (trích xuất đặc trưng), thay vì sử dụng MaxPooling song song (hình34) ở phiên bản mới YOLO sử dụng MaxPooling tuần tự (hình 33) và kernal size sẽ thay đổi từ (1x1,3x3,9x9 và 13x13) sang 5x5 cho mỗi lần MaxPooling và stride = 1

4.3.4 Neck Ở phiên bản YOLOv5 neck được kết hợp giữa PAN [6] và FPN[7], với FPN sẽ đưa thông tin từ layer trên xuống layer dưới (C3, C4 và C5) nhưng ở FPN không thể đưa thông tin layer từ dưới lên trên Vì vậy, YOLOv5 tạo ra thêm 1 nhánh phụ tên là PAN, có thể đưa layer từ dưới lên (P3, P4, P5) giúp tăng việc chuẩn xác cho các đối tượng có tỉ lệ khác nhau

Bag of Freebies: là cách giúp tăng hiệu quả suy luận nhưng không ảnh hưởng đến tốc độ suy luận

Cosine annealing scheduler: learning rate lớn giúp train nhanh hơn nhưng nhược điểm là giảm độ chính xác vì vậy YOLOv5 sẽ giảm từ từ learning rate theo Cosine

Tiêu chí đánh giá hiệu suất của mô hình

 Đánh giá hiệu suất mô hình về mặt giá trị mAP: Độ chính xác của mô hình đo lường khả năng phân loại và nhận diện đối tượng chính xác Đây là một tiêu chí quan trọng để đánh giá hiệu suất của các mô hình nhận diện hình ảnh hư hỏng mặt đường (mAP) là một số liệu đánh giá được sử dụng để phát hiện đối tượng (khoanh vùng và phân loại) Khoanh vùng nhằm xác định vị trí của đối tượng như là bounding box và phân loại cho biết đối tượng đó là gì (ví dụ: ổ gà, hư hỏng trên mặt đường)

 Để tính được AP(Average Precision) ta phải tính được Precision và recall o Precision: 𝑇𝑃

TP (True positive): Model nhận diện nó là pothole và đúng thật bức ảnh đó là pothole

FP (False positive): Model nhận diện nó là pothole nhưng nhãn thực tế (label) không phải là pothole (có thể là biển số xe)

TN (True negative): Model nhận diện nó không phải là pothole và đúng thật là bức ảnh đó không phải là pothole (xe ô tô, nắp cống, đèn giao thông)

FN (False negative): Model nhận diện nó không phải là pothole nhưng thực tế nó pothole

Cách tính TP, TN, FP, FN sẽ sử dụng một thông số tên là IoU(Intersection over union) là tỉ lệ diện tích trùng lặp của 2 bounding box trên diện tích hợp của 2 boungding box Nếu ngưỡng IoU là 0,5 và giá trị IoU cho một dự đoán là 0,7, thì ta phân loại dự đoán là chính xác (TP) Mặt khác, nếu IoU là 0.3, ta phân loại nó là dự đoán sai (FP)

 Giá trị AP là giá trị phía dưới đường biểu diễn mối quan hệ của precision và recall được tính toán từ phát hiện đầu ra của mô hình, ngưỡng này xác định những gì

𝑟 :𝑟 ≥ 𝑟 được tính là TP(True positive) do mô hình dự đoán của lớp AP được tính trung bình trên tất cả các hạng mục Độ chính xác trung bình hoặc điểm mAP được tính bằng cách lấy

AP trung bình trên tất cả các lớp hoặc ngưỡng IoU tổng thể

 𝜌𝑖𝑛𝑡𝑒𝑟𝑝(𝑟) = max𝜌(𝑟 ) trong đó 𝜌(𝑟 ) là pricision ở recall 𝑟 với 𝑟 ≥ r Trong đó:

Api là giá trị độ chính xác trung bình cho 𝑖 𝑡ℎ lớp Ta sẽ chia recall từ 0 – 1 thành 11 đoạn cách đều nhau [0, 0.1, 0.2, 1] và lấy trung bình precision ở 11 điểm này (m trong nghiên cứu này)

Giá trị Recall và Precision tìm đượccó thể vẽ được đường cong (PR curve) cho mỗi class riêng biệt AP (average precision) chính là diện tích phía dưới đường cong PR curve Nếu phần diện tích này càng lớn đồng nghĩa với việc precision và recall càng cao, cũng đồng nghĩa với model có chất lượng tốt

 Tốc độ (Speed): Tốc độ xử lý của mô hình đo lường được khả năng thực hiện nhận diện đối tượng nhanh chóng trên ảnh hoặc video Đối với các ứng dụng thời gian thực, tốc độ là một yếu tố quan trọng

Trong nghiên cứu này, (mAP) đã được áp dụng để đánh giá hiệu suất của các mô hình Yolo.

ỨNG DỤNG MÔ HÌNH YOLOV5 ĐỂ NHẬN DIỆN HƯ HỎNG MẶT ĐƯỜNG

Thuật toán huấn luyện đối tượng của Yolov5

Quá trình huấn luyện đối tượng của YOLO V5 cần dữ liệu đầu vào đủ lớn để huấn luyện một mô hình có hiệu suất tốt Thuật toán huấn luyện đối tượng của YOLO V5 bao gồm:

 Chuẩn bị dữ liệu: Đầu tiên, cần chuẩn bị dữ liệu huấn luyện Dữ liệu huấn luyện phải chứa ảnh đầu vào và các bounding box (hộp giới hạn) chứa đối tượng cần nhận diện Các bounding box này được chứa trong các file nhãn tương ứng với mỗi ảnh

 Xây dựng tệp cấu hình: Tiếp theo, cần tạo một tệp cấu hình để cấu hình các thông số huấn luyện Tệp cấu hình sẽ xác định kiến trúc mô hình, các thông số huấn luyện như tốc độ học (learning rate), số lần lặp (epochs), kích thước khối (batch size), và các tham số khác

 Tiến hành huấn luyện: Dựa trên dữ liệu và tệp cấu hình, ta tiến hành huấn luyện mô hình YOLO V5 Quá trình huấn luyện bao gồm việc truyền các ảnh và bounding box tương ứng qua mạng neural network, tính toán các dự đoán của mô hình, so sánh với nhãn thực tế và tính toán độ lỗi (loss) Quá trình này sẽ được lặp lại qua nhiều epochs để cải thiện hiệu suất của mô hình

 Đánh giá và điều chỉnh: Sau khi huấn luyện, mô hình cần được đánh giá để đo lường hiệu suất Điều này thường được thực hiện bằng cách đo các độ đo như độ chính xác (accuracy), độ phủ (recall), và độ đo F1 Dựa trên kết quả đánh giá, ta có thể điều chỉnh các thông số huấn luyện để cải thiện hiệu suất của mô hình

 Kiểm tra và triển khai: Cuối cùng, mô hình được kiểm tra trên dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát và độ chính xác Sau đó, mô hình có thể được triển khai và sử dụng trong các ứng dụng thực tế.

Quy trình huấn luyện đối tượng của YOLO V5

Tương tự quá trình huấn luyện máy học để tự động nhận diện đối tượng trong mô hình dựa trên nển tảng khác Mô hình huấn luyện Yolov5 trong nghiên cứu cũng được xây dựng dựa theo sơ đồ trình tự các bướt trình tự quy trình từ khi tiếp nhận dữ liệu đầu vào đến quá trình máy học và hoàn thiện mô hình để phát hiện đối tượng là các hư hỏng mặt đường trên tập Test Sơ đồ huấn luyện dữ liệu của mô hình Yolov5 được trình bày như hình bên dưới

Hình 5.1: Sơ đồ huấn luyện của Yolo V5 để phát hiện đối tượng là các hư hỏng đường bộ

5.2.1 Chuẩn bị dữ liệu Để thực hiện quá trình gán nhãn và huấn luyện, ta cần chuẩn bị tập dữ liệu khoảng

450 ảnh về các hư hỏng trên mặt đường, với mỗi hình sẽ có 1 file gán nhãn đi kèm

Hình 5.2: Minh họa ảnh đầu vào

Thực hiện phương pháp Mosaic cho dữ liệu trên trang https://app.roboflow.com/ và nhân 3 lần biến thể (varient) nhằm đa dạng hóa tệp dữ liệu để giúp quá trình huấn luyện được tốt hơn

Với 1200 hình ảnh được cho vào tập train, 93 validation images, 57 testing image, lúc này dữ liệu thu được là 1350 ảnh Sau khi thực hiện Mosaic ta sẽ có được những hình ảnh như bên dưới

Hình 5.3: hình ảnh thu được sau khi Mosaic

Chỉnh sửa name trong file data thành pothole, để khi nhận diện sẽ hiện tên của vật thể mong muốn

Sử dụng mô hình YOLOv5 để huấn luyện Đầu tiên ta clone model YOLOv5 về colab

Tải các thư viện cần thiết để hổ trợ mô hình

Sau đó, tiếp tục tải bộ dữ liệu đã chuẩn bị lên google colab

Hình 5.7: Tải dữ liệu lên Google Colab

Chọn vào thư mục content và tiến hành giải nén file dữ liệu

Tải thư viện Yaml và tiến hành đọc file data.yaml sau đó lưu giá trị nc vào num_classes Vì chỉ có một đối tượng tên là pothole nên nc sẽ bằng 1

Hình 5.9: Đọc file data.yaml

Xem qua model của YOLOv5 để điều chỉnh cho phù hợp với dữ liệu vừa tạo Lúc này ta sẽ thấy nc tương ứng với 80 đối tượng ở model mẫu, bước tiếp theo ta sẽ thay đổi nc để phù hợp

Tạo một file custom_yolov5s trong file models với nc sẽ đọc giá trị của num_classes =1 và giữ lại anchor, backbone và head

Hình 5.11: chỉnh sửa model cho phù hợp với dữ liệu

Tiến hành huấn luyện dữ liệu, với kích thước ảnh là 416x416, chạy qua 1000 epoches Lấy dữ liệu ở file data.yaml (trong file data có đường dẫn đến file train) và sử dụng model đã được chỉnh sửa custom_yolov5s.yaml

Hình 5.12: Huấn luận dữ liệu

Lần train tốt nhất (best) và lần train cuối cùng(last) sẽ được lưu ở run/train/yolov5s_results

Hình 5.13: Kết quả sau khi huấn luyện

5.2.3 Kết quả huấn luyện và phát hiện đối tượng hư hỏng mặt đường

 Sử dụng lần train tốt nhất (best.pt) để phát hiện đối tượng trên tập test

Hình 5.14: Phát hiện đối tượng ở file test bằng best.pt

Hình 5.15: Kết quả thu được ở file test

 Phát hiện đối tượng trên video

Tải video lên google colab và thực hiện lệnh sau

Kết quả thu được: video2.mp3

Hình 5.16: Phát hiện đối tượng qua video

 Phát hiện đối tượng trên camera Đầu tiên ta sẽ tải model YOLOv5 về, sửa đổi dòng 215 trong file detect từ yolov5.pt thành best.pt để detect đối tượng ở lần train tốt nhất

Cho file best vừa thu được vào model YOLOv5 và điều chỉnh file detect

Hình 5.17: Điều chỉnh file detect

Chạy model YOLOv5 bằng cmd và thực hiện lệnh detect

Hình 5.20: Phát hiện đối tượng qua webcam

Hiệu suất của mô hình Yolov5 nghiên cứu

 Chỉ số mAP_0.5 (mean average precision): Độ chính xác trung bình ở mức IOU = 0.5 đạt độ chính xác trung bình cao nhất ở bước 694

 mAP_0.5:0.95 là giá trị trung bình trên nhiều IOU (từ IOU 0.5 đến 0.95 mỗi lần tăng 0.05)

 Precision: Phần trăm dự đoán đúng

Ngày đăng: 30/07/2024, 16:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Y.O. Ouma and M. Hahn, “Wavelet-morphology based detection of incipient linear cracks in asphalt pavements from RGB camera imagery and classification using circular Radon transform,” Advanced Engineeing Informatics, vol. 30, no. 3, pp.481–499, Aug. 2016 Sách, tạp chí
Tiêu đề: Wavelet-morphology based detection of incipient linear cracks in asphalt pavements from RGB camera imagery and classification using circular Radon transform,” "Advanced Engineeing Informatics
[2] M. Gavil´ et al, “Adaptive road crack detection system by pavement classification,” Sensors 11, vol. 11, no. 10, pp. 9628–9657, Oct. 2011 Sách, tạp chí
Tiêu đề: et al", “Adaptive road crack detection system by pavement classification,” "Sensors 11
[3] C. Koch, G.M and Jog, I. Brilakis, ”Automated pothole distress assessment using asphalt pavement video data,” Journal of Computing in Civil Engineering, vol. 27, no. 4, pp. 370–378, Jul. 2013 Sách, tạp chí
Tiêu đề: Journal of Computing in Civil Engineering
[4] S.C. Radopoulou and I. Brilakis, “Automated detection of multiple pavement defects,” Journal of Computing in Civil Engineering, vol. 31, no. 2, Feb. 2017 Sách, tạp chí
Tiêu đề: Automated detection of multiple pavement defects,” "Journal of Computing in Civil Engineering
[5] H. Maeda et al “Road damage detection and classification using deep neural networks with smartphone images,” Computer-Aided Civil and Infrastructure Engineering, vol. 33, no. 12, pp. 1127–1141, Jun. 2018 Sách, tạp chí
Tiêu đề: et al" “Road damage detection and classification using deep neural networks with smartphone images,” "Computer-Aided Civil and Infrastructure Engineering
[6] D. Arya et al, “RDD2020: An annotated image dataset for automatic road damage detection using deep learning,” Data in Brief, vol. 36, no. 1, May. 2021 Sách, tạp chí
Tiêu đề: et al", “RDD2020: An annotated image dataset for automatic road damage detection using deep learning,” "Data in Brief
[7] C. M. Tu et al, “Survey on performance of deep learning models for detecting road damages using multiple dashcam image resources,” Advanced Engineering Informatics, vol 46, Oct. 2020 Sách, tạp chí
Tiêu đề: et al", “Survey on performance of deep learning models for detecting road damages using multiple dashcam image resources,” "Advanced Engineering Informatics
[8] J. Redmon et al. “You only look once: Unified, real-time object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 779– 788 Sách, tạp chí
Tiêu đề: et al". “You only look once: Unified, real-time object detection,” in" Proceedings of the IEEE conference on computer vision and pattern recognition
[9] Y. Zhang et al, “Real-Time Vehicle Detection Based on Improved Yolo V5,” Sustainability, vol 14, no. 19, Sep 2022 Sách, tạp chí
Tiêu đề: et al", “Real-Time Vehicle Detection Based on Improved Yolo V5,” "Sustainability

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w