Huấn luyện mô hình Quá trình huấn luyện mô hình đã điễn ra trong môi trường có cấu hình như sau

Một phần của tài liệu tiểu luận vấn đáp học phần xử lý ảnh trong công nghiệp đề tài nhận diện động vật ứng dụng xử lý ảnh (Trang 22 - 26)

mô hình đã được pre-train trên Yolov8 sử dụng weight là yolov8n.pt được tải về từ mã nguồn open-souree. Mô hình được huấn luyện trong gần 4 tiếng, sử dụng 7 card đồ họa huấn luyện. Việc sử dụng nhiều GPU cùng lúc giúp tăng tốc độ huấn luyện và cho phép xử lý lượng đữ liệu lớn một cách hiệu quá. Kết quá là mô hình có thể học và cải thiện khả năng dự đoán bounding box một cách chính xác và nhanh chóng.

Cấu hình huấn luyện chi tiết:

— Weight: yolov8n.pt.

— Kích thước hinh anh: 640x640 cho tap train va 640x640 cho tap val.

— 86 luong epoch: 50 epoch.

— GPU huấn luyén: NVIDIA GeForce RTX 2080 TH.

— Số lớp đữ liệu huấn luyện: 80 class(lớp) động vật.

— Optimizer: SGD (Stochastic Gradient Descent), voi tốc độ học khởi tao 14 0.01va momentum là 0.9.

18

Sau khi mô hình huấn luyện xong được lưu trữ thành 2 weight để str dung dé thir nghiệm là best.pt và last.pt, trong đó best.pt là weight có kết quả tốt nhất của mô hình huấn luyện trong khi last.pt là kết quá của epoch cuối cùng huấn luyện mô hình.

3.3. Kết quả thực nghiệm 3.3.1. Kết quả quá trình huấn luyện

a. Về độ đo F1-score:

Quá trình huấn luyện và thử nghiệm mô hình đều cho thấy các giá trị loss giảm dân, điều này chứng tỏ mô hình đang học tốt và tối ưu hóa các tham số. Trong suốt quá trình huấn luyện, ba giá trị loss quan trọng bao gồm loss tổng, loss phân loại, và loss định vị đều có xu hướng giảm, cho thấy sự cái thiện rõ rệt trong khả năng dự đoán của mô hình. Kết quả về các chỉ số metrie/precision và metrie/recall cũng đạt khoảng 60%, điều này cho thay mô hình đã đạt được mức độ nhận điện ôn định đối với các đối tượng động vật.

Việc đạt được preeision và recall ở mức 60% là một kết quả khá tốt, đặc biệt trong bối cảnh các bải toán nhận diện vật thể thường gặp nhiều thách thức về độ phức tạp và đa dạng của dữ liệu. Preeision đạt 60% nghĩa là trong số các đối tượng được mô hình dự đoán là động vật, 60% là chính xác, trong khi recall đạt 60% nghĩa là mô hình có thé phát hiện ra 60% tổng số động vật thực sự có trong ảnh. Mặc đù vẫn còn không gian để cái thiện, kết quả nảy cho thấy mô hình đã có nền táng vững chắc và có thê được cải thiện thêm qua việc tỉnh chỉnh và tăng cường đữ liệu huấn luyện.

° N train/cls_loss train/dfi_loss _metries/precision(®) —

: | = “if

0.9 0.8 0.7

0.6

val/box_loss 20 40 val/cls_loss 0 val/dfl_Ioss 20 40 0 metrics/mAP50(B) 20 40 ° metrics/mAP50-95(B) 20 40

| 9.6 0

14 2.0

3.0 05 huy

1.2 251 À 183 9.4 os

1.64 03

1.0 2.0 SE

143 0.2

08 1.5 0.1

r v + : + r 124, r + 0.1 + + + + %

9 20 40 0 20 4o ° 20 40 0 20 40 ° 20 40

Hình 3.3. Kết quả của quá trình huấn luyện.

19

b. Về kết quả khi vẽ trực quan bằng ma trận nhằm lấn:

Ma trận nhằm lẫn chuẩn hóa (Confusion Matrix Normalized) la mét céng cy danh giá hiệu suất của các mô hình phân loại trong học máy, tương tự như ma trận nhằm lẫn thông thường, nhưng các giá trị trong ma trận này đã được chuẩn hóa để phản ánh tý lệ phan trăm thay vì số lượng mẫu tuyệt đối. Ma trận nhằm lẫn chuẩn hóa hiển thị tỷ lệ đự đoán chính xác và sai lệch cho từng lớp, giúp chúng ta đễ đàng so sánh hiệu suất của mô hình trên các lớp khác nhau, đặc biệt là khi dữ liệu không cân bằng. Vị dụ, trong một ma trận nhằm lẫn chuẩn hóa, mỗi ô sẽ biểu điễn tỷ lệ của số lượng dự đoán trong một lớp so với tổng số mẫu thực sự của lớp đó.

Hình 3.4. Ma trận nhâm lần chuẩn hóa trong quá trình huấn luyện mô hình.

Nhìn vào biểu đồ ma trận nhằm lẫn chuẩn hóa, chúng ta có thê nhận thấy rằng một 36 lớp động vật vẫn đang chịu sự nhằm lẫn trong quá trình dự đoán. Mặc dù tỷ lệ dự đoán sai này có thê là nhỏ, nhưng sự xuất hiện của các điểm màu xung quanh đường chéo chính (từ góc trên bên trái đến góc đưới bên phải) vẫn làm nổi bật sự không hoàn hảo trong mô hình.

Tuy nhiên, nếu các châm này rất nhỏ và giá trị của chúng gần bằng 0, điều này cho thay rằng số lượng các dự đoán sai là rất ít và mô hình vẫn hoạt động một cách ổn định.

Sự giống nhau vẫn có ở các lớp tương tự nhau, chẳng hạn như giữa các loài chim hoặc các loài mẻo, nhưng 36 lượng dự đoán chính xác vẫn khá cao. Điều này cho thay mô hình có khả năng phân loại tốt, mặc dù vẫn còn một số nhằm lẫn giữa các lớp. Việc nhận diện và giải quyết các nhằm lẫn này là một phần quan trọng trong việc cải thiện hiệu suất của mô hình. Có thể yêu cầu sự can thiệp bổ sung từ các chuyên gia hoặc thậm chí

20

cần phải tỉnh chỉnh lại quá trình huấn luyện hoặc kiến trúc mạng để giảm thiểu các sai sót. Tuy nhiên, sự tổn tại của các lớp có tỷ lệ nhằm lẫn nhỏ này vẫn là một dâu hiệu tích

cực, chỉ ra rằng mô hình đang hoạt động một cách khá ổn định và hiệu quả.

Hình 3.5. Kết quả sau khi đã train xong ở đối tượng chủ yếu là vet

3.3.2. Kết quả quá trình thực nghiệm aca eam Hình 3.6. Thứ nghiệm VỚI mot con

vật (loài cá xứu và loài buém)

21

Ế Aamal Detetor Leadimage| Load Video| tt]

Một phần của tài liệu tiểu luận vấn đáp học phần xử lý ảnh trong công nghiệp đề tài nhận diện động vật ứng dụng xử lý ảnh (Trang 22 - 26)

Tải bản đầy đủ (PDF)

(32 trang)