Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám

ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám HỒ TRỌNG ÁNH Anh.HT211306M@sis.hust.edu.vn Chuyên ngành : Toán Tin Giảng viên hướng dẫn Bộ môn Viện : : : TS Trần Ngọc ăng Toán Tin Toán Ứng Dụng Và Tin Học Hà Nội, 3-2023 Chữ ký GVHD Lời cảm ơn Kính gửi thầy cơ, gia đình, đồng nghiệp, bạn bè Em xin tỏ lòng biết ơn sâu sắc tới tất người giúp đỡ hỗ trợ em q trình nghiên cứu hồn thành luận văn thạc sĩ Đầu tiên, em xin gửi lời cảm ơn đến thầy hướng dẫn giảng viên Tiến Sĩ Trần Ngọc Thăng Những lời dẫn, gợi ý hướng dẫn quý báu thầy giúp em vượt qua khó khăn q trình nghiên cứu hồn thành luận văn em cách tốt Em muốn gửi lời cảm ơn tới gia đình Những lời động viên, quan tâm hỗ trợ giúp em vượt qua thời điểm trở ngại trình nghiên cứu đối mặt với khó khăn Em xin gửi lời cảm ơn tới đồng nghiệp bạn bè Sự hỗ trợ chia sẻ kinh nghiệm bạn giúp có nhiều ý tưởng thơng tin bổ ích Và cuối lời cảm ơn đến Nhà trường cung cấp cho em môi trường học tập nghiên cứu chuyên nghiệp Các giảng viên nhân viên Nhà trường hỗ trợ em nhiều trình thực luận văn Trân trọng, Hồ Trọng Ánh i Giảng viên hướng dẫn : TS Trần Ngọc Thăng Hồ Trọng Ánh Tóm tắt luận văn Luận văn “Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám” tập trung vào việc nghiên cứu cải tiến số mô hình học máy để cải thiện độ xác việc nhận dạng đối tượng ảnh viễn thám Trong luận văn, sử dụng phương pháp tiền xử lý liệu để cải thiện chất lượng liệu ảnh Sau đó, chúng tơi tiến hành nghiên cứu đánh giá mơ hình học máy Mạng nơ ron tích chập (CNN), Unet, U2-Net, Mask R-CNN, tập liệu ảnh viễn thám Sau đánh giá so sánh hiệu mơ hình, chúng tơi đề xuất số cải tiến để tăng độ xác mơ hình nhận dạng đối tượng Chúng đề xuất sử dụng kết hợp đa mơ hình (Multi-Model) để cải thiện kết trích xuất móng nhà, kết cơng bố tạp chí hội nghị ICISN 2022 [2] Tiếp theo, luận văn này, có thêm đề xuất sử dụng mơ hình tăng cường độ phân giải kết hợp với học đa nhiệm (Multi-Task Learning) để áp dụng cho vùng liệu móng nhà khó ảnh có chất lượng độ phân giải quy hoạch chưa tốt cộng với mật độ dày đặc khu nhà ổ chuột Từ kết đó, chúng tơi hướng đến mục tiêu mở rộng để áp dụng cho toán khác tốn phát ranh giới nơng trang ảnh độ phân giải thấp (Sentinel 10m) cách chỉnh sửa, cải tiến mơ hình tăng cường độ phân giải Real-ESRGAN từ lần (4X) lên đến lần (8X) Để chứng minh cho tính hiệu đề xuất trên, chúng tơi thực thí nghiệm để kiểm chứng thấy cải tiến đưa cải thiện đáng kể độ xác mơ hình giúp nâng cao khả nhận dạng đối tượng ảnh viễn thám giúp mở hướng giúp ứng dụng hiệu nguồn liệu mở thường có chất lượng liệu thấp cho toán thực tế ii Mục lục Tóm tắt ii Danh sách hình ảnh v Danh sách bảng Giới thiệu chung toán nhận dạng đối tượng ảnh viễn thám 1.1 Các lớp toán thường gặp nhận dạng đối tượng ảnh viễn thám 1.1.1 Bài toán phân đoạn ảnh 1.1.2 1.1.3 Bài toán phân loại ảnh Bài toán nhận dạng cạnh 1.1.4 Bài toán nhận diện đối tượng Một số toán đề cập nghiên cứu 1.2.1 Bài tốn trích xuất móng nhà 1.2.2 Bài toán trích xuất ranh giới nơng trang 1.2 vii Cơ sở lý thuyết 10 2.1 Mạng nơ ron 10 2.1.1 Nơ ron 12 2.1.2 2.1.3 Lớp tích chập Hàm kích hoạt 14 17 2.1.4 Pooling 19 2.1.5 Các số đánh giá 20 2.1.6 Hàm mát 23 2.1.7 Lan truyền ngược 24 2.1.8 Các thuật tốn tối ưu hóa 25 2.1.9 Chuẩn hóa theo lô 28 2.1.10 Tăng cường liệu Viễn Thám 29 30 2.2 iii Ảnh vệ tinh 30 2.2.2 Ảnh hàng không 31 2.2.3 Các số quang phổ 32 2.2.4 Cấu trúc liệu ảnh viễn thám shapefile 33 2.2.5 Tính liên kết hình học hệ thống thơng tin địa lý 35 Một số mô hình học máy trình nghiên cứu 37 3.1 Mơ hình U-Net 37 3.1.1 3.1.2 Thông tin mô hình Hàm mát tiêu chí đánh giá 37 40 3.1.3 Xử lý liệu vào 40 3.1.4 Huấn luyện mơ hình 43 3.1.5 Đánh giá ưu, nhược điểm 43 Mơ hình U2-net 44 3.2.1 Thơng tin mơ hình 44 3.2.2 3.2.3 Hàm mát tiêu chí đánh giá Đánh giá ưu, nhược điểm 46 47 Mơ hình Mask-RCNN 47 3.3.1 Thông tin mơ hình 47 3.3.2 Hàm mát tiêu chí đánh giá 50 3.3.3 Xử lý liệu vào 51 3.3.4 Đánh giá ưu, nhược điểm 52 Mơ hình Real-ESRGAN 53 3.4.1 3.4.2 Ý tưởng cho việc tăng cường độ phân giải ảnh Thông tin mơ hình 53 54 3.4.3 Hàm mát tiêu chí đánh giá 56 3.2 3.3 3.4 2.2.1 Nghiên cứu đề xuất số phương pháp giúp nâng cao kết nhận diện ảnh viễn thám 59 4.1 Phát biểu toán 59 4.2 Phương pháp kết hợp đa mơ hình 60 4.2.1 Giới thiệu đa mơ hình 60 4.2.2 Các vùng liệu 61 4.2.3 Tiêu chí đánh giá 62 4.2.4 4.2.5 Kết đạt Đánh giá ưu nhược điểm kết hợp đa mơ hình 62 64 Phương pháp học đa nhiệm 65 4.3.1 65 4.3 Giới thiệu học đa nhiệm iv 4.4 4.5 4.3.2 Ứng dụng học đa nhiệm cho toán trích xuất móng nhà 66 4.3.3 Mơ hình mạng phân đoạn đa nhiệm 66 4.3.4 Mơ hình Frame Field Learning 67 4.3.5 Triển khai mơ hình Frame Field Learning 69 4.3.6 Kết thử nghiệm Frame Field Learning 69 Ứng dụng cải tiến mô hình Real-ESRGAN giúp nâng cao chất lượng liệu 72 4.4.1 Thử nghiệm mô hình Real-ESRGAN 4X 72 4.4.2 Nâng cấp mơ hình Real-ESRGAN lên 8X 78 4.4.3 Triển khai huấn luyện mơ hình REAL-ESRGAN 8X 79 4.4.4 Ứng dụng nâng cao hiệu sử dụng nguồn liệu mở 81 Mơ hình tổng hợp sử dụng cho nhận dạng ảnh chất lượng thấp mật độ đối tượng dày đặc 4.5.1 Nguồn liệu 85 86 4.5.2 Triển khai thử nghiệm 86 4.5.3 Kết thử nghiệm 88 Kết luận 91 Tài liệu tham khảo 94 v Danh sách hình vẽ 2.1.1 Nơ ron sinh học nhân tạo 12 2.1.2 Multilayer perceptron (MLP) 13 2.1.3 2.1.4 Tích chập N tích chập 15 15 2.1.5 Padding and stride 16 2.1.6 Dilation 17 2.1.7 Tích chập chuyển vị 17 2.1.8 Max pooling 20 2.2.1 Phép chiếu từ ảnh viễn thám 34 3.1.1 Kiến trúc mơ hình U-Net 39 3.1.2 Hình ảnh tạo mask từ shapefile 41 3.1.3 Phép trượt trình xử lý ảnh viễn thám 42 3.2.1 Kiến trúc mơ hình U-2net 45 3.2.2 Cấu tạo khối RSU 46 3.3.1 Kiến trúc mơ hình Mask-RCNN 48 3.3.2 3.4.1 ROI Align Mạng sinh mơ hình Real-ESRGAN 49 55 3.4.2 Mạng phân biệt U-Net Real-ESRGAN 55 3.4.3 Q trình hạ cấp mơ hình Real-ESRGAN 56 4.2.1 Kết hợp đa mơ hình 61 4.2.2 Kết số đa mơ hình 63 4.2.3 4.3.1 So sánh kết móng nhà sử dụng đa mơ hình Sơ đồ ứng dụng mơ hình mạng phân đoạn đa nhiệm giúp cải thiện kết 64 nắn chỉnh [13] 67 4.3.2 Cấu trúc mơ hình Frame Field Learning 68 4.3.3 Đồ thị số đánh giá mơ hình Frame Fields Learning 70 4.3.4 Ảnh kết mơ hình Frame Fields Learning Tập VN UAV 71 vi 4.4.1 Hình ảnh số ảnh mức độ phân giải khác 73 4.4.2 Tạo ảnh đa tỉ lệ 74 4.4.3 File index chứa tất đường dẫn đến ảnh thư mục 74 4.4.4 Hình ảnh lúc khởi tạo training mơ hình Real-ESRGAN 75 4.4.5 Một số kết tăng cường độ phân giải 76 4.4.6 4.4.7 Mơ hình 4X để tăng độ phân giải ảnh sentinel Hình ảnh summary input output mơ hình Real-ESRGAN 8X 77 78 4.4.8 Tham số hạ cấp liệu 78 4.4.9 Kết mơ hình 8X để tăng độ phân giải ảnh sentinel 80 4.4.10 Quy trình trích xuất liệu ranh giới nông trang 82 4.4.11 Trích xuất nông trang ảnh Sentinel 83 4.4.12 Đối chiếu kết trích xuất nơng trang ảnh Sentinel Google 4.5.1 Maps Dữ liệu ảnh có chất lượng thấp mật độ cao 84 85 4.5.2 Dữ liệu ảnh vùng ổ chuột Mumbai 86 4.5.3 Ví dụ tăng độ phân giải cho Mumbai 87 4.5.4 Đồ thị đánh giá mô hình tổng hợp 89 4.5.5 Kết trích xuất mơ hình tổng hợp cho ảnh Mumbai 90 vii Danh sách bảng 2.2.1 Thông tin ảnh Sentinel 31 4.2.1 Kết đa mơ hình 62 4.3.1 Kết số mơ hình Frame Fields Learning 69 4.5.1 Kết mơ hình tổng hợp 88 viii Chương Giới thiệu chung toán nhận dạng đối tượng ảnh viễn thám Viễn thám (Remote sensing) hiểu việc thu thập thông tin đối tượng, khu vực tượng thông qua việc phân tích tư liệu thu nhận phương tiện mà không tiếp xúc trực tiếp với đối tượng, khu vực tượng nghiên cứu Phương tiện thường sử dụng sóng điện từ để chuyển tải thơng tin từ vật cần nghiên cứu tới thiết bị thu nhận thông tin Cụ thể hơn, viễn thám việc nghiên cứu đối tượng giải đốn tách lọc thơng tin từ liệu ảnh chụp từ xa, chẳng hạn ảnh hàng không ảnh vệ tinh Viễn thám sử dụng nhiều lĩnh vực, bao gồm địa lý, khảo sát đất đai hầu hết ngành Khoa học Trái đất Thuật ngữ viễn thám (Remote sensing) - điều tra từ xa, xuất từ năm 1960 nhà địa lý người Mỹ E.Pruit đặt (Thomas, 1999) Ngày kỹ thuật viễn thám phát triển ứng dụng nhanh hiệu nhiều lĩnh vực Như viễn thám thông qua kỹ thuật đại không tiếp cận với đối tượng mà xác định qua thơng tin ảnh chụp từ xa khơng Để sử dụng liệu viễn thám ta phải có khả tách thơng tin có ý nghĩa từ ảnh Đó nhiệm vụ việc xử lý ảnh viễn thám Nói cách khác phải diễn giải phân tích ảnh viễn thám Phân tích ảnh viễn thám thực nhận biết, đo đối tượng khác ảnh để tách thơng tin hữu ích chúng Xử lý ảnh số viễn thám thực loạt thủ tục bao gồm lập khuôn mẫu, hiệu chỉnh liệu, nâng cao chất lượng để dễ dàng giải đoán hay phân lớp tự động đối tượng máy tính Để xử lý số (a) Vùng sentinel2 10m (b) Vùng ảnh 1.25m tăng cường (c) Vùng Google Maps (d) Vùng sentinel2 10m (e) Vùng ảnh 1.25m tăng cường (f) Vùng Google Maps Hình 4.4.9: Kết mơ hình 8X để tăng độ phân giải ảnh sentinel Nhận xét: Nhìn vào kết ta thấy mơ hình Real-ESRGAN 8X tăng cường tốt thành phần mặt nước, cối, vùng ranh giới ruộng đường xá 80 ảnh Sentinel 2, nhiên thành phần cơng trình xây dựng cho kết chưa sát với thực tế, nên tổng thể chưa ứng dụng cho tốn phát móng nhà, ứng dụng cho tốn khoanh vùng khu dân cư 4.4.4 Ứng dụng nâng cao hiệu sử dụng nguồn liệu mở Kết tốn tăng cường liệu, khơng giúp mở nhiều tốn nguồn liệu có chất lượng cao hơn, mà cịn giúp tăng cường sử dụng hiệu nguồn liệu mở, phục vụ cho ứng dụng nhu cầu nghiên cứu khác Phần trình bày ứng dụng sử dụng hiệu nguồn liệu ảnh mở, tốn trích xuất ranh giới nơng trang tốn phát ranh giới ruộng Ở trình bày số kết nhận diện trích xuất ranh giới nông trang ảnh tăng cường Sentinel Ứng dụng cho tốn trích xuất ranh giới nơng trang xử lý mơ hình trích xuất ranh giới nơng trang bao gồm bước sau xem hình 4.4.10: • Ảnh lớn chia thành nhiều ảnh nhỏ • Đưa ảnh nhỏ qua mơ hình nhận diện cạnh đẻ phát ranh giới ruộng • Khơi phục hợp kêt dự đoán để có kết cuối ảnh lớn • Chuyển kết ảnh raster thành liệu vector đường • Sử dụng phương pháp hiệu chỉnh hình học sau chuyển kết đường thành dạng đa giác kín giữ ngun tính tồn vẹn tính chung ranh giới đa giác 81 Hình 4.4.10: Quy trình trích xuất liệu ranh giới nơng trang Mơ hình sử dụng cho mục đích nhận diện cạnh cho tốn trích xuất ranh giới nơng trang mơ hình U2-Net nhắc đến 3.2 luyện cho liệu Google Maps Và sau số kết chạy trích xuất ranh giới nơng trang ảnh Sentinel tăng cường: 82 (a) Vùng sentinel2 10m (b) Vùng ảnh 1.25m tăng cường (c) Vùng Google Maps (d) Vùng sentinel2 10m (e) Vùng ảnh 1.25m tăng cường (f) Vùng Google Maps Hình 4.4.11: Kết chạy mơ hình trích xuất ranh giới nơng trang ảnh 8X sentinel Hình ảnh đối chiếu số kết ảnh Sentinel tăng cường với kết chạy ảnh Google Maps: 83 (a) Kết ảnh tăng cường (b) Kết ảnh Google Maps (c) Kết ảnh tăng cường (d) Kết ảnh Google Maps Hình 4.4.12: Một số kết ảnh tăng cường phân giải ảnh Google Maps Kết luận: Trên phần trình bày ứng dụng ảnh Sentinel tăng cường độ phân giải để ứng dụng cho tốn trích xuất ranh giới nơng trang nhiên để đánh giá so sánh kết với kết sử dụng Google Maps chưa thể tìm tiêu chí đánh giá phù hợp nhiều yếu tố độ lệch ảnh tiêu chí để so sánh Vì nghiên cứu bỏ ngỏ phần đánh giá Tuy nhiên với kết nhìn thấy đưa đến cho nhiều hướng phát triển tương lai để áp dụng mơ hình tăng cường chất lượng ảnh vào thực tế, đặc biệt toán nhận diện đường hay giám sát không gian xanh, giám sát phát triển thị 84 4.5 Mơ hình tổng hợp sử dụng cho nhận dạng ảnh chất lượng thấp mật độ đối tượng dày đặc Trong q trình nghiên cứu thực tế cho tốn trích xuất móng nhà, đơi chúng tơi gặp loại liệu khó chất lượng độ phân giải ảnh thấp, mật độ tịa nhà dày đặc khơng rõ ràng khiến cho phương pháp trích xuất móng nhà trước nhận dạng cạnh hay phát đối tượng phân đoạn gặp nhiều khó khăn, xem hình 4.5.1 Hình 4.5.1: Dữ liệu ảnh có chất lượng phân giải thấp mật độ nhà dày đặc Để giải vấn đề nêu trên, sử dụng phương pháp tổng hợp để bao gồm kết hợp mô hình tăng chất lượng độ phân giải Real-ESRGAN mơ hình Frame Fields Learning Mơ hình tăng chất lượng phân giải giúp giải vấn đề độ phân giải ảnh thấp, giúp làm rõ cạnh đối tượng mơ hình Frame Fields Learning theo hướng tiếp cận nhận diện mặt nạ, nhận diện cạnh giúp phân chia mặt nạ thành mặt nạ đối tượng riêng biệt sau kết hợp hướng vec tơ tiếp tuyến pháp tuyến trích xuất dự đốn để điều chỉnh cạnh Ưu điểm mơ hình Frame Fields Learning tốn giúp đảm bảo tính liên kết hình học cho đối tượng móng nhà liền kề sử dụng hướng tiếp cận nhận diện cạnh dễ dàng đảm bảo tính liên kết có cạnh chung Ngồi giúp khắc phục vấn đề nhận diện sai thiếu so với mơ hình phát đối tượng hộp giới hạn bị mức chồng lấn cao có nhiều 85 đối tượng liền kề san sát 4.5.1 Nguồn liệu Dữ liệu thử nghiệm vùng liệu khu nhà ổ chuột Mumbai, Ấn độ Ảnh gốc có độ phân giải 0.3m đặc điểm cấu trúc khu ổ chuột có kích thước nhà bé mật độ cao Số lượng móng nhà ước tính gần 15.000 ngơi nhà diện tích 1.1 triệu m2 hình 4.5.2 ảnh chụp vùng liệu sử dụng 4.5.2 Hình 4.5.2: Dữ liệu ảnh vùng ổ chuột Mumbai 4.5.2 Triển khai thử nghiệm Chúng thử nghiệm theo ba cách tiếp cận khác Sử dụng mơ hình Frame Fields Leaning cho liệu thường liệu sau tăng chất lượng phân giải, sử dụng đa mơ hình phần 4.2 cho liệu sau tăng độ phân giải sau so sánh kết chúng với nhãn thực tế Hình 4.5.3 ảnh trước sau tăng độ phân giải Dùng tiêu chí đánh đề cập phần 4.2 86 (a) Ảnh gốc (b) Ảnh tăng chất lượng Hình 4.5.3: Ảnh trước sau tăng chất lượng phân giải 87 4.5.3 Kết thử nghiệm Bảng 4.5.1 hiển thị kết đánh giá máy trạm HP-Z800 với cấu hình: 02 CPU Intel Xeon Processor X5650, RAM 32GB, GPU Nvidia GTX 1080 Ti 11GB Bảng 4.5.1: Kết cách tiếp cận khác khoảng IoU [0.55:0.05:0.95] AR, AP với ngưỡng IoU > 0.5 IoU > 0.7 Model mAP mAR MRCNN-U2Net + SR data 0.321 0.185 Frame Fields + ORG data 0.267 0.242 Frame Fields + SR data 0.345 0.389 APIoU>0.5 ARIoU>0.5 APIoU>0.7 ARIoU>0.7 0.619 0.437 0.558 0.356 0.396 0.629 0.392 318 0.415 0.225 288 0.468 Hình ảnh 4.5.4 đồ thị so sánh đánh giá theo hai số AP AR kết hợp mơ hình Frame Fields Learning với liệu tăng độ phân giải với cách tiếp cận khác Nhìn vào đồ thị nhận thấy sử dụng mơ hình Frame Fields Learning kết hợp với tăng độ phân giải cho kết tốt rõ rệt với đánh giá số mAR mAP Với ngưỡng IoU thấp (0.5) đa mơ hình cho ngưỡng AP cao nhiên điều khơng tốt ngưỡng AR thấp Ngun nhân đa mơ hình cố gắng nhận diện nhiều đối tượng có thể, độ xác đối tượng chưa cao 88 (a) Đồ thị đánh giá theo số AP (b) Đồ thị đánh giá theo số AR Hình 4.5.4: Đánh giá dựa số AP AR tổng hợp với cách tiếp cận khác Hình 4.5.5 ảnh minh họa liệu trước sau tăng chất lượng kết thử nghiệm theo hướng đề cập 89 (a) Ảnh gốc (ORG) (b) Ảnh tăng độ phân giải (SR) (c) Frame Fields Learning + ORG (d) Frame Fields Learning + SR (e) Đa mơ hình (f) Nhãn thực tế Hình 4.5.5: Kết phát móng nhà mơ hình mẫu thực tế Nhận xét Nhìn vào đánh giá kết hình ảnh thấy, tăng cường độ phân giải giúp cho hình khối cạnh tòa nhà rõ ràng so với ảnh ban đầu Vì , triển khai ảnh sau tăng độ phân giải, khả phân tách tòa nhà tăng lên Ngồi ra, nhìn vào hình 4.5.5 nhận thấy, sử dụng mơ hình Frame Fields Learning cho kết tốt dễ chấp nhận so với kết trích xuất bị chồng lấn đa mơ hình kết đảm bảo tính liên kết hình học (topology) đối tượng địa lý 90 Kết luận Trong luận văn “Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám”, nghiên cứu đưa đóng góp nhằm nâng cao kết nhận dạng đối tượng ảnh viễn thám sau Đầu tiên, luận văn đưa nhìn tổng quan việc nghiên cứu đánh giá mơ hình học máy để nhận dạng đối tượng ảnh viễn thám mơ hình U-Net, U2-Net, Mask-RCNN Luận văn tập trung vào phân tích để hiểu rõ ưu nhược điểm mơ hình từ đưa hướng cải tiến hiệu Sau phát ưu nhược điểm mơ hình, luận văn đề xuất cải tiến để cải thiện độ xác, cải tiến bao gồm: đề xuất mơ hình kết hợp đa mơ hình (Multi-Model) giúp tăng độ xác cho tốn trích xuất móng nhà, đề xuất kết hợp mơ hình tăng độ phân giải học đa nhiệm để trích xuất móng nhà vùng ảnh chất lượng thấp có mật độ nhà cao, chỉnh sửa mơ hình tăng cường độ phân giải Real-ESRGAN 4X thành Real-ESRGAN 8X giúp tăng độ phân giải từ lần lên lần để áp dụng cho tốn trích xuất ranh giới nơng trang ảnh Sentinel Cuối cùng, luận văn thực thí nghiệm để kiểm tra hiệu đề xuất kết cho thấy cải tiến giúp cải thiện đáng kể độ xác mơ hình nhận dạng đối tượng trích xuất móng nhà, trích xuất ranh giới nơng trang, Một phần kết luận văn đăng kỷ yếu hội nghị International Conference on Intelligent Systems and Networks (ICISN 2022) thuộc danh mục SCOPUS Với kết đạt được, luận văn thêm đóng góp thiết thực cho lĩnh nhận dạng đối tượng ảnh viễn thám nói chung Ngồi đóng góp cịn có tính thực tiễn cao áp dụng tốn nhận dạng cho liệu chất lượng vùng chưa quy hoạch tốt số nước Châu Á tăng tăng tính ứng dụng trích xuất thêm số đối loại tượng cách tăng cường chất lượng phân giải ảnh cho nguồn liệu mở ảnh Sentinel Do lượng thời gian có hạn, có nhiều thử nghiệm chưa triển khai nhiều kiến thức chưa trình bày đầy đủ luận văn mong muốn cầu thị nhận góp ý để luận văn có nội dung hồn chỉnh Xin chân thành cảm ơn 91 Tài liệu tham khảo [1] Abien Fred Agarap Deep learning using rectified linear units (relu) arXiv preprint arXiv:1803.08375, 2018 [2] Ho Trong Anh, Tran Anh Tuan, Hoang Phi Long, Le Hai Ha, and Tran Ngoc Thang Multi deep learning model forbuilding footprint extraction fromhigh resolution remote sensing image In Ngoc Le Anh, Seok-Joo Koh, Thi Dieu Linh Nguyen, Jaime Lloret, and Thanh Tung Nguyen, editors, Intelligent Systems and Networks, pages 246–252, Singapore, 2022 Springer Nature Singapore ISBN 978-981-19-3394-3 [3] Eliseo Clementini and Paolino Di Felice Topology in object-oriented gis 01 1994 [4] Vincent Dumoulin and Francesco Visin A guide to convolution arithmetic for deep learning, 2018 [5] Nicolas Girard, Dmitriy Smirnov, Justin Solomon, and Yuliya Tarabalka Polygonal building segmentation by frame field learning, 2021 [6] Ian Goodfellow, Yoshua Bengio, and Aaron Courville Deep Learning MIT Press, 2016 http://www.deeplearningbook.org [7] Jun Han and Claudio Moraga The influence of the sigmoid function parameters on the speed of backpropagation learning In José Mira and Francisco Sandoval, editors, From Natural to Artificial Neural Computation, pages 195–201, Berlin, Heidelberg, 1995 Springer Berlin Heidelberg ISBN 978-3-540-49288-7 [8] K He, G Gkioxari, P Dollar, and R Girshick Mask r-cnn In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980–2988, 2017 doi: 10.1109/ICCV.2017.322 [9] Long P Hoang, Dung D Le, Tran Anh Tuan, and Tran Ngoc Thang Improving pareto front learning via multi-sample hypernetworks, 2023 [10] Justin Johnson, Alexandre Alahi, and Li Fei-Fei Perceptual losses for real-time style transfer and super-resolution CoRR, abs/1603.08155, 2016 URL http://arxiv org/abs/1603.08155 [11] Kaggle 2018 data science bowl 2018 URL https://www.kaggle.com/ competitions/data-science-bowl- 2018/overview/evaluation (visited on 2018-12-02) 92 [12] Diederik P Kingma and Jimmy Ba Adam: A method for stochastic optimization, 2017 [13] Weijia Li, Wenqian Zhao, Huaping Zhong, Conghui He, and Dahua Lin Joint semantic-geometric learning for polygonal building segmentation Proceedings of the AAAI Conference on Artificial Intelligence, 35, 05 2021 doi: 10.1609/aaai.v35i3 16291 [14] Shijie Looi Rotated mask r-cnn: From bounding boxes to rotated bounding boxes https://github.com/mrlooi/rotated_maskrcnn, 2019 [15] Microsoft Understanding scale and resolution https://learn.microsoft.com/en-us/bingmaps/articles/ understanding-scale-and-resolution (visited on 2023-03-30) 2023 URL [16] Herbei Mihai Valentin Topology of spatial data 06 2011 doi: 10.5593/SGEM2015/ B22/S11.146 [17] Anish Mittal, Rajiv Soundararajan, and Alan C Bovik Making a “completely blind” image quality analyzer IEEE Signal Processing Letters, 20(3):209–212, 2013 doi: 10.1109/LSP.2012.2227726 [18] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida Spectral normalization for generative adversarial networks CoRR, abs/1802.05957, 2018 URL http://arxiv.org/abs/1802.05957 [19] Chigozie Nwankpa, Winifred Ijomah, Anthony Gachagan, and Stephen Marshall Activation functions: Comparison of trends in practice and research for deep learning CoRR, abs/1811.03378, 2018 URL http://arxiv.org/abs/1811.03378 [20] OSM Sunnyvale uav labels 2022 https://www.openstreetmap.org/ [21] Daniele Panozzo, Enrico Puppo, Marco Tarini, and Olga Sorkine-Hornung Frame fields: Anisotropic and non-orthogonal cross fields ACM Transactions on Graphics, 33(4), 2014 ISSN 0730-0301 doi: 10.1145/2601097.2601179 [22] Michael Plotke 2d image-kernel convolution animation 2023 URL https:// commons.wikimedia.org/wiki/File:2D_Convolution_Animation.gif [Online; accessed 30-April-2023] [23] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and Martin Jagersand U2-net: Going deeper with nested u-structure for salient object detection Pattern Recognition, 106:107404, Oct 2020 ISSN 0031-3203 doi: 10.1016/j.patcog.2020.107404 URL http://dx.doi.org/10.1016/j.patcog.2020 107404 [24] Seyed Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian D Reid, and Silvio Savarese Generalized intersection over union: A metric and A loss for bounding box regression CoRR, abs/1902.09630, 2019 URL http://arxiv org/abs/1902.09630 93 [25] Olaf Ronneberger, Philipp Fischer, and Thomas Brox U-net: Convolutional networks for biomedical image segmentation, 2015 [26] Frank Rosenblatt The perceptron: a probabilistic model for information storage and organization in the brain Psychological review, 65 6:386–408, 1958 [27] Sebastian Ruder An overview of gradient descent optimization algorithms arXiv preprint arXiv:1609.04747, 2016 [28] USGS Sunnyvale uav images 2018 https://earthexplorer.usgs.gov/ [29] Amir Vaxman, Marcel Campen, Olga Diamanti, David Bommes, Klaus Hildebrandt, Mirela Ben-Chen, and Daniele Panozzo Directional field synthesis, design, and processing ACM SIGGRAPH 2017 Courses, 2017 [30] Xintao Wang, Liangbin Xie, Chao Dong, and Ying Shan Real-esrgan: Training realworld blind super-resolution with pure synthetic data In International Conference on Computer Vision Workshops (ICCVW), 2021 94

Tiêu đề	Nghiên Cứu Cải Tiến Một Số Mô Hình Học Máy Trong Nhận Dạng Đối Tượng Trên Ảnh Viễn Thám
Tác giả	Hồ Trọng Ánh
Người hướng dẫn	TS. Trần Ngọc Thăng
Trường học	Đại Học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	103
Dung lượng	28,37 MB