NGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ THIẾT BN BAY KHÔNG NGƯỜI LÁINGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ THIẾT BN BAY KHÔNG NGƯỜI LÁINGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ THIẾT BN BAY KHÔNG NGƯỜI LÁINGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ THIẾT BN BAY KHÔNG NGƯỜI LÁI
Trang 1ĐÀO LÊ HUY
NGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ
THIẾT BN BAY KHÔNG NGƯỜI LÁI
Trang 2LỜI CAM ĐOAN
Học viên là Đào Lê Huy, học viên cao học lớp Cao học hệ thống thông tin khóa 12 Học viên cam đoan rằng đề án thạc sĩ mang tựa đề “Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết
bị bay không người lái” được trình bày dưới đây là công trình nghiên cứu của chính học viên dưới sự hướng dẫn của TS Phạm Văn Hà Các nội dung nghiên cứu và kết quả trong đề tài này là trung thực và chưa từng được ai công bố trong bất cứ công trình nghiên cứu nào trước đây
Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính học viên thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham khảo Học viên cam đoan rằng không có bất kỳ vi phạm nào đối với các quy định đạo đức nghiên cứu khoa học trong quá trình thực hiện luận án Các tài liệu tham khảo được trích dẫn đúng nguồn gốc và được sử dụng một cách hợp lý
Học viên hiểu rõ rằng nếu phát hiện bất kỳ sai sót, vi phạm hoặc gian lận nào trong đề án của mình, học viên sẽ chịu trách nhiệm trước pháp luật và có thể bị xem xét lại về bằng cấp đã đạt được Học viên viết cam đoan này và học viên hoàn toàn chịu trách nhiệm về tính chính xác và trung thực của công trình nghiên cứu của mình
Hà Nội, ngày 17 tháng 05 năm 2024
Tác giả
Đào Lê Huy
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT iv
DANH MỤC CÁC HÌNH VẼ vi
DANH MỤC CÁC BẢNG BIỂU viii
MỞ ĐẦU 1
Lý do chọn đề tài 1
Tổng quan nghiên cứu 2
Mục tiêu của đề tài 2
Phương pháp nghiên cứu 2
Nội dung nghiên cứu 3
CHƯƠNG 1: TỔNG QUAN BÀI TOÁN 5
1.1 Tổng quan về thị giác máy tính 5
1.1.1 Giới thiệu thị giác máy tính 5
1.1.2 Các kỹ thuật xử lý ảnh 7
1.2 Vấn đề xác định vết nứt từ ảnh UAV 19
1.2.1 Tình hình nghiên cứu trong nước 19
1.2.2 Tình hình nghiên cứu ở nước ngoài 22
1.3 Kết luận chương 24
CHƯƠNG 2: GIẢI PHÁP XÁC ĐNNH VẾT NỨT TỪ ẢNH UAV 25
2.1 Trí tuệ nhân tạo 25
2.2 Mạng nơron tích chập 36
2.3 Mạng Transformer 42
2.4 Kết luận chương 47
Trang 4CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 48
3.1 Thiết kế môi trường 48
3.2 Mô hình thu nhận hình ảnh từ thiết bị bay 48
3.3 Thu thập dữ liệu huấn luyện mô hình 51
3.4 Xây dựng mô hình và đánh giá 52
3.4.1 Mô hình thuật toán 52
3.4.2 Quá trình thực nghiệm 59
3.4.3 Đánh giá kết quả 69
3.5 Kết luận chương 70
KẾT LUẬN 71
DANH MỤC TÀI LIỆU THAM KHẢO 72
Trang 5DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT
UAV Unmanned Aerial Vehicle Phương tiện bay không
người lái
IoU Intersection over union Giao nhau trên hợp nhất
ANN Artificial Neural Networks Mạng nơron nhân tạo
SVM Support Vector Machine Máy vectơ hỗ trợ
VGG Visual Geometry Group Nhóm hình học trực
quan
CMYK Cyan, magenta, yellow, key Lục lam, đỏ tươi, vàng,
chìa khóa
Trang 6HSL Hue, saturation, lightness Màu sắc, độ bão hòa, độ
sáng
CPU Central processing unit Bộ xử lý trung tâm GPU Graphic processing unit Bộ xử lý đồ hoạ
TPU Tensor processing unit Bộ xử lý Tensor
NLP Natural language processing Xử lý ngôn ngữ tự nhiên
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa điểm ảnh trong ảnh kỹ thuật số 6
Hình 1.2 Mô tả phương pháp Wavelet –Random transform 21
Hình 1.3 Minh họa phương pháp trích chọn đặc trưng dựa vào DWT-SMF 21
Hình 1.4 Quá trình huấn luyện và kiểm tra của mô hình CNN trong hệ thống phân loại các khuyết tật mặt đường 22
Hình 1.5 Kết quả phân lớp dựa trên các phương pháp VGG-16, RF, SVM của lần lượt của bộ dữ liệu 1, 2, 3 22
Hình 2.1 Tương quan giữa trí tuệ nhân tạo, học máy và học sâu 28
Hình 2.2 Mạng nơron nhân tạo 30
Hình 2.3 Mạng nơron tích chập 37
Hình 2.4 Biểu diễn ảnh kỹ thuật số với biểu diễn RGB 37
Hình 2.5 Mô phỏng tính toán tích chập 38
Hình 2.6 Kiến trúc mạng Transformers 43
Hình 2.7 Cách thức hoạt động Query, Key và Value của Transformers 45
Hình 3.1 Mô hình thiết bị bay không người lái 49
Hình 3.2 Luồng hoạt động của hệ thống 50
Hình 3.3 Hình ảnh dữ liệu thu thập 51
Hình 3.4 Mô hình TopFormer 54
Hình 3.5 So sánh độ chính xác và độ trễ của mô hình TopFormer với các mô hình khác 55
Hình 3.6 So sánh tốc độ và độ chính xác mIoU của PPLiteSeg và các mô hình khác trên GTX1080TI 56
Trang 8Hình 3.7 So sánh tốc độ và độ chính xác của mô hình STDC với các mô hình
khác 58
Hình 3.8 Tổng quan về mô hình STDC 58
Hình 3.9 Ảnh gốc và hình ảnh được gán nhãn 60
Hình 3.10 Cấu trúc thư mục lưu trữ dữ liệu 61
Hình 3.11 Kết quả mIoU trên tập dữ liệu đánh giá của mô hình PPLiteSeg theo thời gian huấn luyện 63
Hình 3.12 Kết quả Loss ghi nhận trong quá trình huấn luyện mô hình PPLiteSeg theo thời gian huấn luyện 63
Hình 3.13 Kết quả mIoU trên tập đánh giá của MobileNetV2 theo thời gian huấn luyện 64
Hình 3.14 Kết quả Loss trong quá trình huấn luyện của MobileNetV2 theo thời gian huấn luyện 65
Hình 3.15 Kết quả mIoU trên tập dữ liệu đánh giá của mô hình STDCSeg theo thời gian huấn luyện 66
Hình 3.16 Kết quả Loss trong quá trình huấn luyện mô hình STDCSeg theo thời gian huấn luyện 66
Hình 3.17 Kết quả mIoU trên tập đánh giá của mô hình TopFormer theo thời gian huấn luyện 67
Hình 3.18 Kết quả Loss trong quá trình huấn luyện của mô hình TopFomer theo thời gian huấn luyện 68
Hình 3.19 Kết quả mIoU của 4 mô hình TopFormer, PPLiteSeg, STDCSeg và MobileNetV2 theo thời gian huấn luyện 69
Hình 3.20 Kết quả khi ứng dụng mô hình PPLiteSeg 70
Trang 9DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Bảng so sánh học máy và học sâu 31
Bảng 3.1 Kết quả thu thập trong quá trình huấn luyện mô hình PPLiteSeg 64
Bảng 3.2 Kết quả thu thập trong quá trình huấn luyện MobileNetV2 65
Bảng 3.3 Kết quả thu thập trong quá trình huấn luyện STDCSeg 67
Bảng 3.4 Kết quả thu thập trong quá trình huấn luyện TopFormer 68
Trang 10MỞ ĐẦU
LÝ DO CHỌN ĐỀ TÀI
Với sự phát triển không ngừng nghỉ của công nghệ trên toàn cầu, việc ứng dụng các thiết bị điện tử, thiết bị thông minh, tự động hoá trong các lĩnh vực đời sống là vô cùng cấp thiết và tối ưu Các thiết bị bay không người lái đang đóng góp vai trò quan trọng trong việc giảm thiểu và gia tăng hiệu quả công việc mà con người đang phải nắm giữ Đề tài "Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái" là một chủ đề hứa hẹn và có tính cấp thiết trong nhiều khía cạnh Các thiết bị bay không người lái được trang bị công nghệ thông minh và camera có vai trò quan trọng trong an giao thông Việc sớm phát hiện và xử lý các vết nứt, tổn thương trên cơ sở hạ tầng giúp ngăn chặn sự cố giao thông và giảm nguy cơ tai nạn Sử dụng học máy để phát hiện vết nứt từ ảnh thu được từ thiết bị bay không người lái có thể giúp tiết kiệm chi phí và thời gian so với các phương pháp truyền thống như kiểm tra thủ công hoặc sử dụng các thiết bị đo đạc chuyên nghiệp Vấn đề của việc phát hiện vết nứt trên cơ sở hạ tầng giao thông là phổ biến toàn cầu, nên nghiên cứu của chúng ta có thể mang lại giải pháp có ảnh hưởng rộng lớn
Thiết bị bay không người lái có khả năng thu thập dữ liệu lớn và chi tiết
từ các khu vực khó tiếp cận Học máy có thể giúp quản lý và phân tích số lượng lớn ảnh một cách hiệu quả, hỗ trợ quyết định và dự báo tình trạng cơ sở hạ tầng Kết hợp giữa học máy và thiết bị bay không người lái là sự kết hợp của hai công nghệ tiên tiến, mở ra nhiều cơ hội mới cho việc nghiên cứu và phát triển trong lĩnh vực này
Với những lý do trên, học viên quyết định chọn đề tài “Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết
Trang 11bị bay không người lái” cho đề án tốt nghiệp của mình Tính cấp thiết của đề tài này đặt ra từ sự kết hợp của nhu cầu thực tế trong quản lý an toàn giao thông, khả năng tiết kiệm chi phí và thời gian, và tiềm năng đóng góp vào sự phát triển của cả hai lĩnh vực công nghệ và xây dựng
TỔNG QUAN NGHIÊN CỨU
Đầu tiên, nhận thấy đây là đề tài mang tính thực tiễn, do vậy việc tiên quyết cần thực hiện đó là khảo sát trong các vết nứt ở các cơ sở hạ tầng giao thông Bên cạnh đó cần đánh giá các vết nứt liên quan đến độ bền và an toàn của cơ sở hạ tầng Ngoài ra, việc tìm hiểu về các thiết bị bay không người lái
để hiểu hơn về cơ chế hoạt động, các ứng dụng và sự sáng tạo khi ứng dụng thiết bị vào thực tiễn đời sống
Kết quả đạt được mong đợi là xây dựng được giải pháp phát hiện được các vết nứt trên cơ sở hạ tầng để cảnh báo đến các nhân viên giám sát Việc này
sẽ hỗ trợ nhân viên giám sát quyết định bảo dưỡng, bảo trì hay cảnh bảo với các phương tiện giao thông đang lưu thông
MỤC TIÊU CỦA ĐỀ TÀI
Mục tiêu của đề tài là xây dựng giải pháp sử dụng học máy để tự động phát hiện và đánh giá vết nứt trong cơ sở hạ tầng giao thông, sử dụng dữ liệu ảnh thu được từ thiết bị bay không người lái Điều này nhằm cải thiện khả năng giám sát, dự báo và duy trì an toàn của cơ sở hạ tầng đó
PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp nghiên cứu được chia thành các nội dung chính sau:
- Tóm lược tài liệu, nghiên cứu trong và ngoài nước Tìm ra phương hướng xử lý cho bài toán tham khảo từ các nghiên cứu trước đây
Trang 12- Tìm ra phương pháp tối ưu, phù hợp với bài toán đặt ra Với mong muốn có thể ứng dụng với sự đa dạng của cơ sở vật chất và điều kiện
tự nhiên nên đề tài này quyết định sử dụng các phương pháp học máy, học sâu để làm công nghệ lõi Nghiên cứu xoay quanh việc nghiên cứu, triển khai các mô hình học máy, học sâu và tiến hành tích hợp mô hình vào thực tiễn
- Đánh giá ưu nhược điểm của phương pháp sử dụng để nâng cao hiệu quả của bài toán hướng đến
NỘI DUNG NGHIÊN CỨU
Đề tài được tiếp cận theo các bước sau:
Bước 1: Thu thập dữ liệu
− Xác định vị trí thu thập dữ liệu trên cơ sở hạ tầng giao thông
− Sử dụng UAV để thu thập ảnh chất lượng cao từ các góc độ khác nhau
− Gán nhãn cho ảnh để phân loại vết nứt theo độ nghiêm trọng và loại hình
Bước 2: Chuẩn bị dữ liệu
− Tiền xử lý dữ liệu để loại bỏ nhiễu và cải thiện chất lượng ảnh
− Chia dữ liệu thành tập huấn luyện và tập kiểm thử
− Chuẩn bị dữ liệu cho quá trình huấn luyện mô hình, bao gồm cả định dạng và đồng nhất hóa
Bước 3: Chọn và triển khai mô hình học máy
− Lựa chọn mô hình học máy phù hợp với bài toán nhận diện vết nứt
− Huấn luyện mô hình trên tập dữ liệu đã chuẩn bị
− Đánh giá hiệu suất của mô hình trên tập kiểm thử
Trang 13Bước 4: Tối ưu hóa và điều chỉnh
− Tối ưu hóa tham số của mô hình để cải thiện độ chính xác
− Kiểm tra và điều chỉnh mô hình để giảm học kém hoặc học vẹt
Bước 5: Kiểm thử và đánh giá
− Kiểm thử mô hình trên dữ liệu thực tế để đảm bảo khả năng tổng quát
− Đánh giá hiệu suất sử dụng các độ đo như độ chính xác, độ nhạy, độ chính xác, và các ma trận lỗi
Bước 6: So sánh, đánh giá các mô hình với nhau
Trang 14CHƯƠNG 1: TỔNG QUAN BÀI TOÁN
Nội dung chương 1 trình bày tổng quan về thị giác máy tính, các nghiên cứu trong nước và quốc tế tham khảo trong quá trình nghiên cứu về phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái
1.1 TỔNG QUAN VỀ THN GIÁC MÁY TÍNH
1.1.1 Giới thiệu thị giác máy tính
Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo huấn luyện máy tính diễn giải và hiểu thế giới thị giác Máy móc có thể xác định và định vị chính xác các vật thể, sau đó phản ứng với những gì chúng “nhìn thấy” bằng cách sử dụng hình ảnh kỹ thuật số từ máy ảnh, video và mô hình học sâu [1]
Bắt đầu từ cuối những năm 1950 và đầu những năm 1960, mục tiêu của phân tích hình ảnh là bắt chước hệ thống thị giác của con người và hỏi máy tính xem chúng nhìn thấy gì Trước đó, việc phân tích hình ảnh đã được hoàn thành thủ công bằng cách sử dụng tia X hoặc chụp ảnh không gian độ phân giải cao Bản đồ mặt trăng của Nasa dẫn đầu về xử lý hình ảnh kỹ thuật số nhưng không được chấp nhận hoàn toàn cho đến năm 1969
Khi thị giác máy tính phát triển, các thuật toán lập trình được tạo ra để giải quyết các thách thức riêng lẻ Máy móc trở nên tốt hơn trong việc thực hiện công việc nhận dạng tầm nhìn bằng cách lặp đi lặp lại Trong những năm qua,
đã có sự cải tiến vượt bậc về kỹ thuật và công nghệ học sâu Giờ đây chúng ta
có khả năng lập trình cho các siêu máy tính để tự đào tạo, tự hoàn thiện theo thời gian và cung cấp khả năng cho doanh nghiệp dưới dạng ứng dụng trực tuyến
Hình ảnh được chia thành các điểm ảnh, được coi là các thành phần của hình ảnh hoặc đơn vị thông tin nhỏ nhất tạo nên hình ảnh
Trang 15Hình 1.1 Minh hoạ điểm ảnh trong hình ảnh Thị giác máy tính không chỉ là chuyển đổi hình ảnh thành điểm ảnh và sau
đó cố gắng hiểu nội dung trong hình ảnh thông qua các điểm ảnh đó Chúng ta phải hiểu bức tranh toàn cảnh hơn về cách trích xuất thông tin từ các điểm ảnh
đó và diễn giải những gì chúng thể hiện
Một trong những thư viện thị giác máy tính hàng đầu trên thị trường hiện nay là OpenCV [2] Nó là một thư viện đa nền tảng, nơi nó có thể phát triển các ứng dụng thị giác máy tính theo thời gian thực
Thị giác máy tính sử dụng các khái niệm hoặc kỹ thuật xử lý hình ảnh để
xử lý trước hình ảnh và chuyển đổi hình ảnh này thành dữ liệu thích hợp hơn
để phân tích thêm Xử lý hình ảnh thường là bước đầu tiên trong hầu hết các hệ thống thị giác máy tính
Hầu hết các ứng dụng sử dụng thị giác máy tính chủ yếu dựa vào thuật toán xử lý hình ảnh
Các kỹ thuật xử lý ảnh phổ biến:
- Chỉnh sửa phơi sáng
- Giảm nhiễu hình ảnh
Trang 16- Làm thẳng hoặc xoay hình ảnh
- Tăng độ sắc nét
Rất nhiều kỹ thuật xử lý hình ảnh đang được sử dụng trong thị giác máy tính như lọc tuyến tính và phi tuyến tính, biến đổi Fourier [3], kim tự tháp hình ảnh [4] và sóng con, biến đổi hình học và tối ưu hóa toàn cầu
1.1.2 Các kỹ thuật xử lý ảnh
1.1.2.1 Không gian màu
Trong xử lý ảnh, không gian màu được sử dụng để thể hiện màu sắc dưới dạng các giá trị số có thể được thao tác và xử lý Không gian màu là một mô hình toán học xác định một phạm vi màu cụ thể có thể được hiển thị hoặc in Mỗi không gian màu có một tập hợp màu cơ bản cụ thể, được sử dụng để tạo
ra tất cả các màu khác trong không gian
Các không gian màu phổ biến nhất trong xử lý hình ảnh là RGB, CMYK
Trang 17- Không gian màu HSL là mô hình màu được sử dụng để xác định màu dựa trên màu sắc, độ bão hòa và độ sáng của chúng Hue là màu thực
tế của vật thể, độ bão hòa là cường độ của màu và độ sáng là màu sáng hay tối Trong không gian màu HSL, màu sắc được biểu thị bằng giá trị độ từ 0 đến 360, độ bão hòa được biểu thị bằng giá trị phần trăm từ 0% đến 100% và độ sáng được biểu thị bằng giá trị phần trăm
từ 0% đến 100%
Trong xử lý ảnh, người ta thường phải chuyển đổi màu sắc giữa các không gian màu khác nhau Ví dụ: một hình ảnh có thể được chụp trong không gian màu RGB, nhưng nó có thể cần được in bằng không gian màu CMYK Chuyển đổi không gian màu là quá trình chuyển đổi màu từ không gian màu này sang không gian màu khác
Có một số thuật toán và kỹ thuật có thể được sử dụng để chuyển đổi không gian màu, bao gồm bảng nhân ma trận và bảng tra cứu Khi chuyển đổi màu giữa các không gian màu, điều quan trọng là phải xem xét các yếu tố như độ chính xác của màu và gam màu
Không gian màu có nhiều ưu điểm trong xử lý ảnh, bao gồm:
- Tiêu chuẩn hóa: Không gian màu cung cấp một cách tiêu chuẩn hóa
để thể hiện màu sắc, đảm bảo tính nhất quán trên các thiết bị và ứng dụng khác nhau
- Độ chính xác: Các không gian màu khác nhau được tối ưu hóa cho các ứng dụng khác nhau, cho phép thể hiện màu sắc chính xác hơn trong các ngữ cảnh cụ thể
- Khả năng tương thích: Chuyển đổi hình ảnh giữa các không gian màu khác nhau là một quá trình đơn giản, giúp bạn dễ dàng làm việc với hình ảnh từ nhiều nguồn khác nhau
Trang 18- Tính linh hoạt: Bằng cách chuyển đổi hình ảnh giữa các không gian màu khác nhau, bạn có thể đạt được các hiệu ứng khác nhau và xử lý màu sắc theo nhiều cách khác nhau
Có nhiều loại không gian màu khác nhau, mỗi loại có đặc tính và cách sử dụng riêng Một số không gian màu được sử dụng phổ biến nhất là:
- RGB: Đây là không gian màu được sử dụng rộng rãi nhất cho hình ảnh kỹ thuật số Đây là mô hình màu bổ sung, trong đó ba màu cơ bản được kết hợp để tạo ra tất cả các màu khác
- CMYK: Đây là không gian màu được sử dụng rộng rãi nhất để in Đây là mô hình màu trừ, trong đó ba màu cơ bản được trừ khỏi màu trắng để tạo ra tất cả các màu khác
- HSL: Những không gian màu này được thiết kế để mang lại trực quan hơn cho con người vì chúng tương ứng chặt chẽ hơn với cách chúng
ta cảm nhận màu sắc Chúng thường được sử dụng để xử lý hình ảnh
và ứng dụng thị giác máy tính
Không gian màu cũng có thể được phân loại thành các họ khác nhau dựa trên các đặc tính toán học của chúng, chẳng hạn như mô hình màu cộng hoặc trừ, các phép biến đổi tuyến tính hoặc phi tuyến tính, v.v Mỗi họ không gian màu có những đặc điểm và ưu điểm riêng, khiến chúng phù hợp với các ứng dụng khác nhau
1.1.2.2 Xử lý độ sáng và tương phản
Độ sáng là một thuật ngữ tương đối Nó phụ thuộc vào nhận thức trực quan của mỗi người Vì độ sáng là một thuật ngữ tương đối nên độ sáng có thể được định nghĩa là lượng năng lượng phát ra bởi một nguồn ánh sáng so với nguồn mà chúng ta đang so sánh Trong một số trường hợp, chúng ta có thể dễ dàng nói rằng hình ảnh sáng và trong một số trường hợp, nó không dễ nhận biết
Trang 19Chức năng Độ tương phản và Độ sáng tăng cường sự xuất hiện của dữ liệu raster bằng cách sửa đổi độ sáng và độ tương phản trong hình ảnh Độ sáng làm tăng độ sáng tổng thể của hình ảnh Ví dụ: làm cho màu tối trở nên sáng hơn
và màu sáng trở nên trắng hơn Trong khi đó, độ tương phản điều chỉnh sự khác biệt giữa màu tối nhất và màu sáng nhất
Độ sáng là nhận thức trực quan trong đó một nguồn dường như đang phản chiếu ánh sáng Độ sáng là thuộc tính chủ quan của vật thể đang được quan sát Màn hình màu sử dụng ba màu, tức là sơ đồ RGB, độ sáng của màn hình phụ thuộc vào tổng biên độ của các điểm ảnh màu đỏ lục và xanh lam và được chia cho 3
Nhận thức về độ sáng phụ thuộc vào ảo ảnh quang học để trông sáng hơn hoặc tối hơn Khi độ sáng giảm, màu sắc có vẻ xỉn và khi độ sáng tăng, màu sắc rõ hơn
Trên thiết bị di động, khi cài đặt độ sáng cao, pin của thiết bị sẽ cạn kiệt nhanh so với cài đặt độ sáng thấp
Độ tương phản là màu sắc giúp phân biệt một vật thể Có thể nói độ tương phản được quyết định bởi màu sắc và độ sáng của vật thể Độ tương phản là sự khác biệt giữa cường độ điểm ảnh tối đa và tối thiểu của hình ảnh
Dưới đây là công thức tính độ tương phản:
𝑡ươ𝑛𝑔 𝑝ℎả𝑛 = 𝑐ườ𝑛𝑔 độ 𝑝𝑖𝑥𝑒𝑙 𝑙ớ𝑛 𝑛ℎấ𝑡 − 𝑐ườ𝑛𝑔 độ 𝑝𝑖𝑥𝑒𝑙 𝑛ℎỏ 𝑛ℎấ𝑡 (1.1)
1.1.2.3 Xử lý biểu đồ
Chúng ta có thể định nghĩa biểu đồ của hình ảnh là biểu đồ thanh 2D Trục ngang biểu thị cường độ điểm ảnh Trục dọc biểu thị tần số của từng cường độ Trong trường hợp hình ảnh thang độ xám, ma trận này sẽ được tạo từ các
số từ 0 đến 255 Đối với hình ảnh RGB, chúng ta sẽ có ba ma trận, mỗi ma trận một kênh màu
Trang 20Để xác định biểu đồ của một hình ảnh, chúng ta cần đếm xem có bao nhiêu trường hợp của mỗi cường độ Vì vậy, biểu đồ sẽ cho phép chúng ta biết tần suất xảy ra của mỗi cường độ
Chúng ta có thể sử dụng biểu đồ để xác định ngưỡng phân đoạn hình ảnh nhằm tách nền khỏi đối tượng
Ví dụ: nếu muốn một tách bông hồng ra khỏi nền của nó, chúng ta có thể bắt đầu bằng cách phân tích biểu đồ Bằng cách này, chúng ta giả sử có thể thấy rằng hầu hết các điểm ảnh nền đều có màu trắng hoặc hơi trắng Điều này có nghĩa là hầu hết các điểm ảnh nền gần bằng 255 Nếu chúng ta xác định ngưỡng của mình là 156 và lấy mọi điểm ảnh > 156 làm nền, chúng ta sẽ có được một hình ảnh nhị phân trong đó hoa hồng được phân tách rõ ràng
Vì hình ảnh được phân đoạn là nhị phân (điểm ảnh là một phần của hoa hồng hoặc nền), biểu đồ mới chỉ có hai giá trị có thể Sử dụng các ngưỡng khác nhau sẽ dẫn đến các phân đoạn khác nhau
Trong nhiếp ảnh, chúng ta sử dụng biểu đồ để cải thiện hình ảnh bằng cách thay đổi một số thuộc tính của chúng Điều này có thể giúp chúng ta có được những bức ảnh rõ ràng hơn hoặc thậm chí là những bức ảnh đẹp hơn
Chúng ta cũng có thể thực hiện cân bằng biểu đồ trong ảnh màu Trong trường hợp đó, cách tiếp cận đơn giản nhất là cân bằng riêng từng kênh RGB Sau đó, chúng học viên hợp nhất các kênh và biểu đồ Một lần nữa, cân bằng mang lại hình ảnh chất lượng cao hơn
1.1.2.4 Xử lý ảnh nhị phân
Trong xử lý ảnh số, ngưỡng là phương pháp phân đoạn ảnh đơn giản nhất
Nó đóng một vai trò quan trọng trong xử lý hình ảnh vì nó cho phép phân đoạn
và trích xuất thông tin quan trọng từ hình ảnh Bằng cách chia hình ảnh thành các vùng riêng biệt dựa trên cường độ điểm ảnh hoặc giá trị điểm ảnh, ngưỡng giúp phân biệt các đối tượng hoặc đặc điểm quan tâm với nền Kỹ thuật này
Trang 21được sử dụng rộng rãi trong các ứng dụng khác nhau như phát hiện đối tượng, phân đoạn hình ảnh và nhận dạng ký tự, cho phép phân tích và giải thích hình ảnh kỹ thuật số một cách hiệu quả Ngoài ra, ngưỡng hình ảnh có thể nâng cao chất lượng hình ảnh bằng cách giảm nhiễu và cải thiện độ rõ nét tổng thể của hình ảnh
Việc lựa chọn kỹ thuật xác định ngưỡng là quyết định quan trọng về tính chính xác và hiệu quả của việc phân tích hình ảnh Các kỹ thuật ngưỡng khác nhau đều có điểm mạnh và hạn chế riêng Việc lựa chọn kỹ thuật thích hợp phụ thuộc vào các yếu tố như độ phức tạp của hình ảnh, mức độ nhiễu và kết quả mong muốn Vì vậy, điều cần thiết là phải cân nhắc kỹ lưỡng trong việc lựa chọn và tiến hành thử nghiệm để đảm bảo kết quả tối ưu trong các tác vụ xử lý ảnh
Ngưỡng hình ảnh bao gồm việc chia hình ảnh thành hai hoặc nhiều vùng dựa trên mức cường độ, cho phép dễ dàng phân tích và trích xuất các đặc điểm mong muốn Bằng cách đặt giá trị ngưỡng, các điểm ảnh có cường độ trên hoặc dưới ngưỡng có thể được phân loại tương ứng Kỹ thuật này hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn và nâng cao hình ảnh
Ngưỡng hình ảnh là một kỹ thuật đơn giản hóa hình ảnh thang độ xám thành hình ảnh nhị phân bằng cách phân loại từng giá trị điểm ảnh là đen hoặc trắng dựa trên mức cường độ hoặc mức xám của nó so với giá trị ngưỡng Kỹ thuật này làm giảm hình ảnh xuống chỉ còn hai mức cường độ, giúp xác định
và tách biệt các đối tượng quan tâm dễ dàng hơn Chuyển đổi hình ảnh nhị phân cho phép xử lý và phân tích hình ảnh hiệu quả, cho phép các ứng dụng thị giác máy tính khác nhau như phát hiện cạnh và nhận dạng mẫu
Trong các thuật toán xử lý ảnh, nguyên tắc phân loại điểm ảnh dựa trên ngưỡng cường độ được sử dụng rộng rãi Bằng cách đặt một giá trị ngưỡng cụ thể, các điểm ảnh có mức cường độ trên ngưỡng được phân loại là màu trắng,
Trang 22trong khi các điểm ảnh dưới ngưỡng được phân loại là màu đen Nguyên tắc này tạo nền tảng cho các kỹ thuật nâng cao hình ảnh khác nhau giúp trích xuất các đặc điểm quan trọng từ hình ảnh để phân tích sâu hơn
Trong khoa học dữ liệu và xử lý hình ảnh, cách tiếp cận ngưỡng hình ảnh dựa trên độ hỗn loạn được sử dụng để tối ưu hóa quá trình phân đoạn các loại hình ảnh cụ thể, thường là những loại có kết cấu phức tạp hoặc mẫu đa dạng Bằng cách phân tích độ hỗn loạn, đo lường tính ngẫu nhiên của thông tin, kỹ thuật này tìm cách tìm ra giá trị ngưỡng tối ưu giúp tối đa hóa thông tin thu được khi chuyển đổi hình ảnh sang dạng nhị phân thông qua ngưỡng Cách tiếp cận này đặc biệt có lợi cho những hình ảnh có nền phức tạp hoặc điều kiện ánh sáng khác nhau Thông qua kỹ thuật này, quy trình phân ngưỡng nhị phân trở nên được tinh chỉnh, dẫn đến phân đoạn chính xác hơn và trích xuất tính năng nâng cao, điều này rất quan trọng đối với các ứng dụng trong phân tích hình ảnh và nhiệm vụ thị giác máy tính
Chúng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như hình ảnh y tế, thị giác máy tính và viễn thám Những kỹ thuật này rất cần thiết để xử
lý và giải thích hình ảnh chính xác Chúng giúp chuyển đổi hình ảnh thang độ xám hoặc màu thành hình ảnh nhị phân, tách nền trước khỏi nền, cho phép phân đoạn và trích xuất các đặc điểm từ hình ảnh tốt hơn, điều này rất quan trọng đối với các ứng dụng khác nhau trong thị giác máy tính và nhận dạng mẫu
- Ngưỡng toàn cục: Ngưỡng toàn cầu là một kỹ thuật được sử dụng rộng rãi trong đó một giá trị ngưỡng duy nhất được áp dụng cho toàn
bộ hình ảnh Tuy nhiên, kỹ thuật này có thể không phù hợp với ảnh
có điều kiện ánh sáng khác nhau hoặc nền phức tạp Để khắc phục hạn chế này, các kỹ thuật ngưỡng thích ứng có thể được sử dụng, điều chỉnh giá trị ngưỡng cục bộ dựa trên các đặc điểm của vùng lân cận của từng điểm ảnh Những kỹ thuật này đặc biệt hữu ích trong
Trang 23các tình huống có sự thay đổi đáng kể về độ chiếu sáng giữa các vùng khác nhau của hình ảnh
o Ngưỡng đơn giản là một kỹ thuật cơ bản gán giá trị nhị phân cho mỗi điểm ảnh dựa trên giá trị ngưỡng chung Nó có hiệu quả khi hình ảnh có điều kiện ánh sáng nhất quán và sự tách biệt
rõ ràng giữa tiền cảnh và hậu cảnh Tuy nhiên, khi hình ảnh có điều kiện ánh sáng hoặc nền phức tạp khác nhau thì kỹ thuật ngưỡng thích ứng sẽ phù hợp hơn Các kỹ thuật này tự động điều chỉnh giá trị ngưỡng cho từng điểm ảnh dựa trên vùng lân cận cục bộ của nó, cho phép phân đoạn tốt hơn và phát hiện đối tượng chính xác
o Phương pháp xác định ngưỡng tự động của Otsu là một kỹ thuật được sử dụng rộng rãi để tự động xác định giá trị ngưỡng tối ưu trong phân đoạn hình ảnh Nó tính toán ngưỡng bằng cách tối
đa hóa phương sai giữa các lớp của giá trị điểm ảnh, giúp phân tách hiệu quả các vùng nền trước và vùng nền Phương pháp này đặc biệt hữu ích khi xử lý các hình ảnh có phân bố cường độ hai phương thức hoặc đa phương thức, vì nó có thể xác định chính xác ngưỡng phân tách tốt nhất các đối tượng hoặc vùng khác nhau trong ảnh
- Ngưỡng cục bộ: Ngưỡng cục bộ giải quyết các hạn chế của ngưỡng toàn cục bằng cách xem xét các vùng nhỏ hơn trong ảnh Nó tính toán giá trị ngưỡng cho từng vùng dựa trên các đặc điểm cục bộ của nó, chẳng hạn như cường độ trung bình hoặc trung bình Cách tiếp cận này cho phép khả năng thích ứng tốt hơn với các điều kiện ánh sáng khác nhau và sự phân bố cường độ phức tạp, dẫn đến việc phân chia các đối tượng hoặc vùng có giá trị cường độ chồng chéo chính xác
Trang 24hơn Tuy nhiên, ngưỡng cục bộ có thể yêu cầu nhiều tài nguyên tính toán hơn và có thể nhạy cảm với nhiễu hoặc ánh sáng không đồng đều trong ảnh, điều này có thể ảnh hưởng đến hiệu suất tổng thể của thuật toán phân đoạn
o Ngưỡng thích ứng trung bình tính toán giá trị ngưỡng cho từng tiểu vùng bằng cách lấy cường độ trung bình của tất cả các điểm ảnh trong vùng đó
o Ngưỡng thích ứng Gaussian [5] sử dụng cường độ điểm ảnh trung bình có trọng số, mang lại tầm quan trọng cao hơn cho các điểm ảnh gần trung tâm của tiểu vùng Các phương pháp này có hiệu quả trong việc nâng cao chất lượng hình ảnh và cải thiện
độ chính xác trong các tác vụ như phát hiện hoặc phân đoạn đối tượng
1.1.2.5 Kỹ thuật biến đổi hình học
Biến đổi hình học là một kỹ thuật cơ bản được sử dụng trong xử lý hình ảnh liên quan đến việc điều khiển sự sắp xếp không gian của các điểm ảnh trong hình ảnh Nó được sử dụng để sửa đổi các thuộc tính hình học của hình ảnh, chẳng hạn như kích thước, hình dạng, vị trí và hướng của nó Sau đây là một
số khái niệm cơ bản về biến đổi hình học trong xử lý ảnh:
- Hàm biến đổi: Hàm biến đổi là các hàm toán học được sử dụng để sửa đổi các thuộc tính hình học của hình ảnh Các hàm này ánh xạ tọa độ của từng điểm ảnh trong ảnh sang tọa độ mới dựa trên quy tắc chuyển đổi được chỉ định Một số hàm biến đổi thường được sử dụng bao gồm chia tỷ lệ, xoay, dịch và cắt
- Hệ tọa độ: Hệ tọa độ là hệ quy chiếu được sử dụng để xác định vị trí không gian của các điểm ảnh trong ảnh Trong xử lý ảnh kỹ thuật số,
hệ tọa độ được sử dụng phổ biến nhất là hệ tọa độ Cartesian, sử dụng hai trục vuông góc (x và y) để biểu thị vị trí ngang và dọc của điểm ảnh trong ảnh
Trang 25- Nội suy: Nội suy là quá trình ước tính giá trị điểm ảnh của hình ảnh tại các vị trí không được xác định rõ ràng Điều này là cần thiết khi chuyển đổi hình ảnh vì tọa độ mới có thể không trùng với vị trí điểm ảnh ban đầu Các thuật toán nội suy được sử dụng để ước tính giá trị điểm ảnh tại các vị trí mới dựa trên các giá trị điểm ảnh xung quanh Dưới đây là một số thao tác biến đổi hình học của hình ảnh:
- Xoay hình ảnh liên quan đến việc xoay hình ảnh theo một góc nhất định Kỹ thuật này thường được sử dụng để điều chỉnh hướng hình ảnh, căn chỉnh đối tượng hoặc tạo hiệu ứng hấp dẫn trực quan
- Chia tỷ lệ hình ảnh liên quan đến việc thay đổi kích thước hình ảnh thành kích thước mong muốn Kỹ thuật này hữu ích cho việc chuẩn hóa kích thước hình ảnh, giảm mức tiêu thụ bộ nhớ hoặc chuẩn bị hình ảnh cho các ứng dụng cụ thể Đây là một phương pháp thường được sử dụng trong lĩnh vực xử lý hình ảnh và thị giác máy tính, nơi chúng ta cố gắng thay đổi kích thước hình ảnh theo yêu cầu
- Dịch hình ảnh liên quan đến việc dịch chuyển các điểm ảnh của hình ảnh theo hướng ngang và dọc Kỹ thuật này rất hữu ích để khắc phục các vấn đề về căn chỉnh, tạo ảnh ghép hoặc mô phỏng chuyển động của máy ảnh
Bằng cách hiểu và thực hiện các kỹ thuật chuyển đổi hình ảnh này, chúng
ta có thể thao tác và sửa đổi hình ảnh cho phù hợp với nhu cầu cụ thể của mình Cho dù đang sửa hướng hình ảnh, chuẩn hóa kích thước hay mô phỏng chuyển động của máy ảnh, những kỹ thuật này đều cung cấp nền tảng vững chắc để làm việc với hình ảnh trong thị giác máy tính, đồ họa và các lĩnh vực liên quan
Trang 261.1.2.6 Bộ lọc
Mục tiêu của việc sử dụng các bộ lọc là sửa đổi hoặc nâng cao các thuộc tính của hình ảnh hoặc trích xuất thông tin có giá trị từ hình ảnh như các cạnh, góc và các đốm màu
Hai bộ lọc được triển khai phổ biến là bộ lọc trung bình di chuyển và bộ lọc phân đoạn hình ảnh
Bộ lọc trung bình di chuyển thay thế mỗi điểm ảnh bằng giá trị điểm ảnh trung bình của nó và một cửa sổ lân cận của các điểm ảnh liền kề Hiệu ứng là hình ảnh mượt mà hơn với các tính năng sắc nét được loại bỏ
Toán học cho nhiều bộ lọc có thể được thể hiện một cách cơ bản bằng cách sử dụng phép tích chập 2D, chẳng hạn như làm mịn và làm sắc nét hình ảnh cũng như phát hiện các cạnh Tích chập trong 2D hoạt động trên hai hình ảnh, trong đó một hình ảnh có chức năng là hình ảnh đầu vào và hình ảnh còn lại, được gọi là hạt nhân, đóng vai trò là bộ lọc Nó biểu thị mức độ chồng chéo của một hàm khi nó được dịch chuyển sang một hàm khác, vì hình ảnh đầu ra được tạo ra bằng cách trượt hạt nhân lên trên hình ảnh đầu vào
Bộ lọc làm sắc nét có thể được chia thành hai bước: Lấy một hình ảnh đã được làm mịn, trừ nó khỏi ảnh gốc để thu được "chi tiết" của hình ảnh và thêm
"chi tiết" vào ảnh gốc
Trong khi tích chập là một hoạt động lọc, thì mối tương quan đo lường sự giống nhau của hai tín hiệu, so sánh chúng khi chúng bị dịch chuyển lẫn nhau Khi hai tín hiệu khớp nhau, kết quả tương quan được tối đa hóa
Trong thị giác máy tính, các cạnh là những điểm gián đoạn đột ngột trong một hình ảnh, có thể phát sinh từ bề mặt bình thường, màu sắc bề mặt, độ sâu,
độ chiếu sáng hoặc những điểm gián đoạn khác Các cạnh rất quan trọng vì hai
lý do chính:
Trang 27- Hầu hết thông tin về ngữ nghĩa và hình dạng có thể được suy ra từ chúng, vì vậy chúng ta có thể thực hiện nhận dạng đối tượng và phân tích phối cảnh cũng như hình học của hình ảnh
- Chúng là một biểu diễn nhỏ gọn hơn điểm ảnh
Chúng ta có thể xác định chính xác vị trí các cạnh xuất hiện từ cấu hình cường độ của hình ảnh dọc theo một hàng hoặc cột của hình ảnh Bất cứ nơi nào có sự thay đổi nhanh chóng trong hàm cường độ sẽ biểu thị một cạnh, như
đã thấy khi đạo hàm bậc nhất của hàm có cực trị cục bộ
Phép biến đổi Hough là một phương pháp tách các đặc điểm của một hình dạng nhất định bên trong một bức ảnh Biến đổi Hough cổ điển thường được
sử dụng nhiều nhất để phát hiện các đường cong thông thường như đường thẳng, hình tròn, hình elip, v.v Nó cần cung cấp các tính năng cần thiết ở một
số dạng tham số Biến đổi Hough tổng quát có thể được sử dụng khi không thể đạt được mô tả phân tích ngắn gọn về một tính năng Bất chấp những hạn chế
về miền, phép biến đổi Hough cổ điển có nhiều ứng dụng Hầu hết các bộ phận được sản xuất (cũng như nhiều bộ phận giải phẫu được nghiên cứu trong hình ảnh y tế) đều có ranh giới đặc điểm mà các đường cong tiêu chuẩn có thể mô
tả Lợi ích thực sự của phương pháp biến đổi Hough là nó không bị ảnh hưởng bởi nhiễu hình ảnh và có khả năng chấp nhận các khoảng trống trong mô tả ranh giới đối tượng
Trang 28Biến đổi Hough là một kỹ thuật thị giác máy tính để phát hiện các hình dạng như đường thẳng và vòng tròn trong hình ảnh Nó chuyển đổi những hình dạng này thành các biểu diễn toán học trong không gian tham số, giúp việc xác định chúng dễ dàng hơn ngay cả khi chúng bị hỏng hoặc bị che khuất Phương pháp này có giá trị để phân tích hình ảnh, nhận dạng mẫu và phát hiện đối tượng
Cách tiếp cận Hough có hiệu quả để tính toán mô tả tổng thể về các tính năng từ (có khả năng gây nhiễu) trong đó số lượng lớp giải pháp không cần phải được cung cấp trước đó
1.2 VẤN ĐỀ XÁC ĐNNH VẾT NỨT TỪ ẢNH UAV
1.2.1 Tình hình nghiên cứu trong nước
Hiện nay nghiên cứu trong nước nổi bật với bài báo: MÔ HÌNH TOÁN HỌC CHO BÀI TOÁN PHÂN LOẠI CÁC KHUYẾT TẬT MẶT ĐƯỜNG Bài báo được phát triển bởi nhóm tác giả đến từ Đại học Công nghệ thông tin
và Truyền thông – Thái Nguyên và Đại học Thuỷ Lợi
Bài báo đã có sự phân tích đưa ra những phương pháp và các kết quả thử nghiệm cho bài toán phân loại các khuyết tật mặt đường
Một nhược điểm lớn của biến đổi Fourier là nó thu thập thông tin tần số tổng thể, nghĩa là tần số tồn tại trên toàn bộ tín hiệu Kiểu phân hủy tín hiệu này có thể không phục vụ tốt cho tất cả các ứng dụng Một cách tiếp cận khác
là Biến đổi Wavelet, phân tách một hàm thành một tập hợp các wavelet Biến đổi Wavelet [7] là một công cụ toán học được sử dụng rộng rãi để trích xuất dữ liệu Các tín hiệu không cố định có thể được phân tích dễ dàng bằng phép biến đổi wavelet vì tính linh hoạt của nó trong việc biểu diễn tần số thời gian của tín hiệu
Trang 29Wavelet là các hàm toán học giúp phân biệt dữ liệu thành các thành phần tần số khác nhau với thời lượng giới hạn, rất hữu ích trong việc nghiên cứu tín hiệu ở miền tần số cũng như miền thời gian Nó có lợi thế hơn phương pháp biến đổi Fourier truyền thống trong việc phân tích các tình huống vật lý trong
đó tín hiệu chứa các đột biến và gián đoạn sắc nét Ngoài ra, biến đổi Fourier chỉ minh họa các nội dung tần số khác nhau, loại bỏ thông tin về thời điểm tần
số đó xảy ra Phép biến đổi Fourier ngắn hạn sau đó đã được giới thiệu để khắc phục vấn đề mà biến đổi Fourier gặp phải bằng cách chia tín hiệu thành các khoảng thời gian liên tiếp và sau đó áp dụng biến đổi Fourier Điều này dẫn đến
độ phân giải thời gian cao hơn nhưng đồng thời dẫn đến độ phân giải tần số thấp hơn Phép biến đổi Wavelet khắc phục được những vấn đề này
Biến đổi sóng con liên tục được định nghĩa là tích chập của tín hiệu x(t) là:
(1.2)
Trong đó w(S, t) biểu thị hệ số wavelet tương ứng với tần số có thang đo
S và thời gian t Biến đổi sóng con liên tục (CWT) giống như khớp mẫu để tạo mối tương quan giữa tín hiệu và dạng sóng được xác định trước, như trong trường hợp bộ lọc khớp Ưu điểm của CWT là tính chất đặc biệt của phép biến đổi sóng con giúp phân tách tín hiệu ở cả miền tần số và miền thời gian Phép biến đổi wavelet liên tục gây ra nhiều sự phức tạp và dư thừa vì nó phân tích tín hiệu ở số tần số rất cao Để giải quyết vấn đề này, phép biến đổi wavelet rời rạc được đưa ra để phân tích và phân tách tín hiệu chỉ ở một số giá trị rời rạc nhất định
Trang 30Hình 1.2 Mô tả phương pháp Wavelet –Random transform (Nguồn: [8])
Hình 1.3 Minh họa phương pháp trích chọn đặc trưng dựa vào
DWT-SMF (Nguồn: [8])
Trang 31Đồng thời trong bài báo cũng nêu ra thử nghiệm và phân tích khi sử dụng mạng trí tuệ nhân tạo VGG16
Hình 1.4 Quá trình huấn luyện và kiểm tra của mô hình CNN trong hệ
thống phân loại các khuyết tật mặt đường (Nguồn: [8])
Hình 1.5 Kết quả phân lớp dựa trên các phương pháp VGG-16, RF,
SVM của lần lượt của bộ dữ liệu 1, 2, 3 (Nguồn: [8])
1.2.2 Tình hình nghiên cứu ở nước ngoài
1.2.2.1 SSDNet: Real-time Crack Segmentation
Bài viết này báo cáo sự phát triển của một phương pháp học sâu thuần túy
để phân đoạn các vết nứt bê tông trong hình ảnh Mục tiêu là đạt được hiệu suất thời gian thực đồng thời loại bỏ hiệu quả nhiều loại nền phức tạp khác nhau và các tính năng giống như vết nứt Để đạt được các mục tiêu, một mạng lưới
Trang 32nơron tích chập ban đầu được đề xuất Mô hình này bao gồm các tích chập tiêu chuẩn, các mô-đun tích chập có thể phân tách được kết nối dày đặc (DenSep), một mô-đun tổng hợp kim tự tháp không gian tâm nhĩ được sửa đổi (ASPP) và một mô-đun giải mã SDDNet được đào tạo trên tập dữ liệu crack được tạo thủ công và mạng được đào tạo ghi lại giao điểm trung bình (mIoU) là 0,846 trên
bộ kiểm tra Mỗi hình ảnh thử nghiệm được phân tích và kết quả phân đoạn đại diện được trình bày Kết quả cho thấy các phân đoạn SDDNet bẻ khóa hiệu quả trừ khi các tính năng quá mờ Mô hình đề xuất cũng được so sánh với các mô hình gần đây nhất, cho thấy nó trả về các số liệu đánh giá tốt hơn mặc dù số lượng tham số của nó ít hơn 88 lần so với các mô hình được so sánh Ngoài ra,
mô hình này xử lý hình ảnh thời gian thực (36 FPS) ở 1025×512 điểm ảnh, nhanh hơn 46 lần so với tác phẩm gần đây
Trong tiểu mục này, các kết quả phân đoạn đại diện được trình bày bằng hình ảnh trực quan toàn diện Các hình ảnh hiển thị trong hình tuân theo quy tắc minh họa: hình ảnh thô và hình ảnh hiển thị kết quả phân đoạn được ký hiệu lần lượt là “Thô” và “Phân đoạn” Trong kết quả phân đoạn, các điểm ảnh dương tính thực, âm tính giả và dương tính giả lần lượt có màu đỏ, xanh lục và xanh lam Sự kết hợp của các điểm ảnh TP và FN được hiểu là sự thật cơ bản
và của TP và FP là các điểm ảnh được mô hình được đào tạo dự đoán là các điểm ảnh bị nứt Chú thích của mỗi hình bao gồm các giá trị mIoU tương ứng
và kích thước của hình ảnh cũng được cung cấp trong ngoặc bên cạnh các giá trị mIoU Trong các hình, một số vùng trong hình ảnh phân đoạn bị tắc nghẽn trong đó các đặc điểm vết nứt nhỏ hơn nhiều so với hình ảnh và một số vết nứt hầu như không đáng chú ý Do đó, mỗi khu vực được đánh dấu là khu vực quan tâm và được mở rộng để trình bày đầy đủ nhất có thể các đặc điểm của khu vực được đề xuất
Trang 331.2.2.2 Automated pavement crack segmentation using u-net-based convolutional neural network
Việc phân đoạn hình ảnh vết nứt mặt đường tự động gặp nhiều thách thức
do các mẫu hình không đều, điều kiện ánh sáng và nhiễu trong hình ảnh Các phương pháp tiếp cận thông thường đòi hỏi một lượng đáng kể kỹ thuật tính năng để phân biệt các vùng có vết nứt với các vùng không bị ảnh hưởng Trong bài báo này, nhóm tác giả đề xuất một kỹ thuật học sâu dựa trên mạng nơ ron tích chập để thực hiện các nhiệm vụ phân đoạn trên hình ảnh vết nứt mặt đường Cách tiếp cận của nhóm tác giả yêu cầu kỹ thuật tính năng tối thiểu so với các
kỹ thuật học máy khác Nhóm tác giả đề xuất kiến trúc mạng dựa trên U-Net, trong đó nhóm tác giả thay thế bộ mã hóa bằng mạng nơron ResNet-34 đã được huấn luyện trước Nhóm tác giả sử dụng lịch trình đào tạo '' một chu kỳ '' dựa trên tốc độ học tập theo chu kỳ để tăng tốc độ hội tụ Phương pháp của nhóm tác giả đạt được điểm F1 là 96% trên tập dữ liệu CFD [13] và 73% trên tập dữ liệu Crack500 [14], vượt trội so với các thuật toán khác được thử nghiệm trên các tập dữ liệu này Nhóm tác giả thực hiện các nghiên cứu cắt bỏ trên các kỹ thuật khác nhau giúp nhóm tác giả tăng hiệu suất cận biên, tức là bổ sung các mô-đun kích thích và nén kênh (SCSE), đào tạo với kích thước hình ảnh tăng dần và đào tạo các lớp mạng nơron khác nhau với tốc độ học tập khác nhau
1.3 KẾT LUẬN CHƯƠNG
Chương 1 trình bày tổng quan về bài toán vĩ mô cần phải giải quyết Bên cạnh đó là những tổng quan nghiên cứu dựa trên các bài báo thu thập ở trong nước và quốc tế Điều này góp phần củng cố cơ sở khoa học mà đề tài đang hướng tới
Trang 34CHƯƠNG 2: GIẢI PHÁP XÁC ĐNNH VẾT NỨT TỪ ẢNH UAV
Các phương pháp truyền thống về mạng nơron tích chập thường phụ thuộc vào lượng dữ liệu lớn để đạt được độ chính xác cao Bên cạnh đó, Transformer
là phương pháp mới hiện nay, có sự yêu cầu lớn về dự liệu cần thu thập, tuy nhiên nhược điểm là nếu chỉ áp dụng Transformer sơ khai thì lại gây tiêu tốn tài nguyên và kích thước mô hình thường lớn, do vậy khó đáp ứng được yêu cầu tích hợp vào thiết bị bay không người lái vì những hạn chế về phần cứng
Do vậy chương 2 chỉ ra những lý thuyết cấu thành nên mô hình (có thể kết hợp được hai phương pháp nêu trên) Từ đó, nghiên cứu và thử nghiệm được mô hình có tốc độ xử lý nhanh và không có yêu cầu quá lớn về lượng dữ liệu huấn luyện
2.1 TRÍ TUỆ NHÂN TẠO
Trí tuệ nhân tạo (AI) luôn đi đầu trong tiến bộ công nghệ, định hình bối cảnh của các ngành công nghiệp, xã hội và đời sống con người Nó đại diện cho đỉnh cao của nhiều thập kỷ nghiên cứu, đổi mới và trí tưởng tượng, có nguồn gốc từ những ngày đầu của máy tính Trong bài luận này, chúng ta sẽ khám phá sự phát triển của AI, khả năng hiện tại, ứng dụng của nó trên nhiều lĩnh vực khác nhau, những cân nhắc về đạo đức và tác động tiềm tàng của nó đối với tương lai của nhân loại
Những tiến bộ gần đây trong AI, đặc biệt được thúc đẩy bởi những đột phá trong học máy và học sâu, đã đẩy lĩnh vực này lên những tầm cao chưa từng thấy Các thuật toán học máy, cho phép máy tính học từ dữ liệu, đã cách mạng hóa các ứng dụng AI trên nhiều lĩnh vực khác nhau
Một trong những thành tựu đáng chú ý nhất của AI hiện đại là khả năng nhận dạng mẫu và phân tích dự đoán Các mô hình học sâu, lấy cảm hứng từ cấu trúc và chức năng của bộ não con người, đã vượt qua hiệu suất của con
Trang 35người trong các nhiệm vụ như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói Những khả năng này đã thúc đẩy sự phát triển của trợ lý
ảo, hệ thống khuyến nghị và phương tiện tự lái, cùng với các ứng dụng khác Tác động của AI trải rộng trên hầu hết mọi lĩnh vực của xã hội, cách mạng hóa các ngành công nghiệp, tối ưu hóa quy trình và nâng cao khả năng ra quyết định Trong lĩnh vực chăm sóc sức khỏe, AI đang thúc đẩy những đổi mới trong chẩn đoán bệnh, phát triển thuốc và y học cá nhân hóa Trong tài chính, các thuật toán do AI cung cấp được sử dụng để phát hiện gian lận, giao dịch bằng thuật toán và quản lý rủi ro
Học sâu là một nhánh của học máy dựa trên mạng lưới nơron nhân tạo
Nó có khả năng học các mẫu và mối quan hệ phức tạp trong dữ liệu Trong học sâu, chúng ta không cần lập trình rõ ràng mọi thứ Nó ngày càng trở nên phổ biến trong những năm gần đây do những tiến bộ về sức mạnh xử lý và sự sẵn
có của các bộ dữ liệu lớn Bởi vì nó dựa trên mạng nơron nhân tạo (ANN) còn được gọi là mạng nơron sâu (DNN) Các mạng lưới nơron này được lấy cảm hứng từ cấu trúc và chức năng của các tế bào nơron sinh học trong não con người và chúng được thiết kế để học từ lượng lớn dữ liệu
Học sâu là một lĩnh vực con của Machine Learning liên quan đến việc sử dụng mạng lưới nơron để mô hình hóa và giải quyết các vấn đề phức tạp Mạng lưới nơron được mô hình hóa theo cấu trúc và chức năng của bộ não con người
và bao gồm các lớp nút được kết nối với nhau để xử lý và chuyển đổi dữ liệu Đặc điểm chính của Học sâu là sử dụng mạng lưới nơron sâu, có nhiều lớp nút được kết nối với nhau Các mạng này có thể tìm hiểu các cách biểu diễn dữ liệu phức tạp bằng cách khám phá các mẫu và tính năng phân cấp trong dữ liệu Các thuật toán Học sâu có thể tự động học hỏi và cải thiện từ dữ liệu mà không cần kỹ thuật tính năng thủ công
Trang 36Học sâu đã đạt được thành công đáng kể trong nhiều lĩnh vực khác nhau, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói và
hệ thống đề xuất Một số kiến trúc Học sâu phổ biến bao gồm Mạng nơron tích chập, Mạng nơron tái phát (RNN) và Mạng niềm tin sâu sắc (DBN)
Việc đào tạo mạng lưới nơron sâu thường đòi hỏi một lượng lớn dữ liệu
và tài nguyên tính toán Tuy nhiên, sự sẵn có của điện toán đám mây và sự phát triển của phần cứng chuyên dụng, chẳng hạn như Bộ xử lý đồ họa, đã giúp việc đào tạo mạng lưới nơron sâu trở nên dễ dàng hơn
Học sâu là một nhánh của học máy dựa trên kiến trúc mạng lưới nơron nhân tạo Mạng nơron nhân tạo sử dụng các lớp nút được kết nối với nhau gọi
là nơron hoạt động cùng nhau để xử lý và học hỏi từ dữ liệu đầu vào
Trong mạng nơron sâu được kết nối đầy đủ, có một lớp đầu vào và một hoặc nhiều lớp ẩn được kết nối lần lượt với nhau Mỗi nơron nhận đầu vào từ các nơron lớp trước hoặc lớp đầu vào Đầu ra của một nơron trở thành đầu vào của các nơron khác trong lớp tiếp theo của mạng và quá trình này tiếp tục cho đến khi lớp cuối cùng tạo ra đầu ra của mạng Các lớp của mạng nơron biến đổi
dữ liệu đầu vào thông qua một loạt các phép biến đổi phi tuyến, cho phép mạng tìm hiểu các cách biểu diễn phức tạp của dữ liệu đầu vào
Trang 37Hình 2.1 Tương quan giữa trí tuệ nhân tạo, học máy và học sâu (Nguồn: https://www.javatpoint.com/deep-learning-vs-machine-learning-vs-artificial-
intelligence)Ngày nay Học sâu đã trở thành một trong những lĩnh vực phổ biến và dễ thấy nhất của học máy nhờ thành công của nó trong nhiều ứng dụng, chẳng hạn như thị giác máy tính, xử lý ngôn ngữ tự nhiên và Học tăng cường
Học sâu có thể được sử dụng cho học máy có giám sát, không giám sát cũng như học máy tăng cường nó sử dụng nhiều cách khác nhau để xử lý những thứ này
- Học máy được giám sát: Học máy có giám sát là kỹ thuật học máy trong
đó mạng lưới nơron học cách đưa ra dự đoán hoặc phân loại dữ liệu dựa trên các bộ dữ liệu được gắn nhãn Mạng lưới nơron học cách đưa ra dự đoán dựa trên chi phí hoặc lỗi xuất phát từ sự khác biệt giữa mục tiêu được
dự đoán và mục tiêu thực tế, quá trình này được gọi là lan truyền ngược Các thuật toán học sâu như Mạng nơron tích chập, Mạng nơron tái phát được sử dụng cho nhiều tác vụ được giám sát như phân loại và nhận dạng hình ảnh, phân tích tình cảm, dịch ngôn ngữ, v.v
Trang 38- Học máy không giám sát: Học máy không giám sát là kỹ thuật học máy trong đó mạng lưới nơron học cách khám phá các mẫu hoặc phân cụm tập
dữ liệu dựa trên các tập dữ liệu không được gắn nhãn Ở đây không có biến mục tiêu trong khi máy phải tự xác định các mẫu hoặc mối quan hệ
ẩn trong bộ dữ liệu Các thuật toán học sâu như bộ mã hóa tự động và mô hình tổng quát được sử dụng cho các tác vụ không được giám sát như phân cụm, giảm kích thước và phát hiện bất thường
- Học máy tăng cường: Học máy tăng cường là kỹ thuật học máy trong đó tác nhân học cách đưa ra quyết định trong môi trường để tối đa hóa tín hiệu khen thưởng Tác nhân tương tác với môi trường bằng cách thực hiện hành động và quan sát phần thưởng thu được Học sâu có thể được sử dụng
để tìm hiểu các chính sách hoặc một tập hợp hành động nhằm tối đa hóa phần thưởng tích lũy theo thời gian Các thuật toán học tăng cường sâu như mạng Deep Q và Độ dốc chính sách xác định sâu (DDPG) được sử dụng để củng cố các nhiệm vụ như robot và chơi trò chơi, v.v
Mạng lưới nơron nhân tạo được xây dựng dựa trên nguyên tắc cấu trúc và hoạt động của các tế bào nơron của con người Nó còn được gọi là mạng lưới nơron hoặc mạng lưới nơron Lớp đầu vào của mạng nơron nhân tạo, là lớp đầu tiên, nhận đầu vào từ các nguồn bên ngoài và chuyển nó đến lớp ẩn, là lớp thứ hai Mỗi nơron trong lớp ẩn nhận thông tin từ các nơron ở lớp trước, tính tổng trọng số và sau đó chuyển nó đến các nơron ở lớp tiếp theo Các kết nối này được tính trọng số, có nghĩa là tác động của các đầu vào từ lớp trước ít nhiều được tối ưu hóa bằng cách gán cho mỗi đầu vào một trọng số riêng biệt Các trọng số này sau đó được điều chỉnh trong quá trình huấn luyện để nâng cao hiệu suất của mô hình
Trang 39Hình 2.2 Mạng nơron nhân tạo (Nguồn:
https://www.geeksforgeeks.org/artificial-neural-networks-and-its-application)
Tế bào nơron nhân tạo, còn được gọi là đơn vị, được tìm thấy trong mạng lưới nơron nhân tạo Toàn bộ Mạng nơron nhân tạo bao gồm các nơron nhân tạo này, được sắp xếp thành một loạt các lớp Độ phức tạp của mạng nơron sẽ phụ thuộc vào độ phức tạp của các mẫu cơ bản trong tập dữ liệu cho dù một lớp
có hàng chục đơn vị hay hàng triệu đơn vị Thông thường, Mạng nơron nhân tạo có lớp đầu vào, lớp đầu ra cũng như các lớp ẩn Lớp đầu vào nhận dữ liệu
từ thế giới bên ngoài mà mạng lưới nơron cần phân tích hoặc tìm hiểu
Trong mạng nơ ron nhân tạo được kết nối đầy đủ, có một lớp đầu vào và một hoặc nhiều lớp ẩn được kết nối lần lượt với nhau Mỗi nơron nhận đầu vào
từ các nơron lớp trước hoặc lớp đầu vào Đầu ra của một nơron trở thành đầu vào của các nơron khác trong lớp tiếp theo của mạng và quá trình này tiếp tục cho đến khi lớp cuối cùng tạo ra đầu ra của mạng Sau đó, sau khi đi qua một hoặc nhiều lớp ẩn, dữ liệu này sẽ được chuyển thành dữ liệu có giá trị cho lớp
Trang 40đầu ra Cuối cùng, lớp đầu ra cung cấp đầu ra dưới dạng phản hồi của mạng nơron nhân tạo đối với dữ liệu đi vào
Các đơn vị được liên kết với nhau từ lớp này sang lớp khác trong phần lớn các mạng lưới nơron Mỗi liên kết này có trọng số kiểm soát mức độ ảnh hưởng của đơn vị này đến đơn vị khác Mạng nơron ngày càng tìm hiểu nhiều hơn về
dữ liệu khi nó di chuyển từ đơn vị này sang đơn vị khác, cuối cùng tạo ra đầu
Áp dụng các thuật toán thống kê để
tìm hiểu các mẫu và mối quan hệ ẩn
xử lý hình ảnh, xử lý ngôn ngữ tự nhiên, v.v
Mất ít thời gian hơn để đào tạo mô
hình
Mất nhiều thời gian hơn để đào tạo
mô hình