Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám

ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám HỒ TRỌNG ÁNH Anh.HT211306M@sis.hust.edu.vn Chuyên ngành : Toán Tin Giảng viên hướng dẫn : TS Trần Ngọc Thăng Chữ ký GVHD Bộ mơn Viện : : Tốn Tin Tốn Ứng Dụng Và Tin Học Hà Nội, 3-2023 Lời cảm ơn Kính gửi thầy cơ, gia đình, đồng nghiệp, bạn bè Em xin tỏ lòng biết ơn sâu sắc tới tất người giúp đỡ hỗ trợ em q trình nghiên cứu hồn thành luận văn thạc sĩ Đầu tiên, em xin gửi lời cảm ơn đến thầy hướng dẫn giảng viên Tiến Sĩ Trần Ngọc Thăng Những lời dẫn, gợi ý hướng dẫn quý báu thầy giúp em vượt qua khó khăn q trình nghiên cứu hồn thành luận văn em cách tốt Em muốn gửi lời cảm ơn tới gia đình Những lời động viên, quan tâm hỗ trợ giúp em vượt qua thời điểm trở ngại trình nghiên cứu đối mặt với khó khăn Em xin gửi lời cảm ơn tới đồng nghiệp bạn bè Sự hỗ trợ chia sẻ kinh nghiệm bạn giúp có nhiều ý tưởng thơng tin bổ ích Và cuối lời cảm ơn đến Nhà trường cung cấp cho em môi trường học tập nghiên cứu chuyên nghiệp Các giảng viên nhân viên Nhà trường hỗ trợ em nhiều trình thực luận văn Trân trọng, Hồ Trọng Ánh i Giảng viên hướng dẫn : TS Trần Ngọc Thăng Hồ Trọng Ánh Tóm tắt luận văn Luận văn “Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám” tập trung vào việc nghiên cứu cải tiến số mô hình học máy để cải thiện độ xác việc nhận dạng đối tượng ảnh viễn thám Trong luận văn, sử dụng phương pháp tiền xử lý liệu để cải thiện chất lượng liệu ảnh Sau đó, chúng tơi tiến hành nghiên cứu đánh giá mơ hình học máy Mạng nơ ron tích chập (CNN), Unet, U2-Net, Mask R-CNN, tập liệu ảnh viễn thám Sau đánh giá so sánh hiệu mơ hình, chúng tơi đề xuất số cải tiến để tăng độ xác mơ hình nhận dạng đối tượng Chúng đề xuất sử dụng kết hợp đa mơ hình (Multi-Model) để cải thiện kết trích xuất móng nhà, kết cơng bố tạp chí hội nghị ICISN 2022 [2] Tiếp theo, luận văn này, có thêm đề xuất sử dụng mơ hình tăng cường độ phân giải kết hợp với học đa nhiệm (Multi-Task Learning) để áp dụng cho vùng liệu móng nhà khó ảnh có chất lượng độ phân giải quy hoạch chưa tốt cộng với mật độ dày đặc khu nhà ổ chuột Từ kết đó, chúng tơi hướng đến mục tiêu mở rộng để áp dụng cho toán khác tốn phát ranh giới nơng trang ảnh độ phân giải thấp (Sentinel 10m) cách chỉnh sửa, cải tiến mơ hình tăng cường độ phân giải Real-ESRGAN từ lần (4X) lên đến lần (8X) Để chứng minh cho tính hiệu đề xuất trên, chúng tơi thực thí nghiệm để kiểm chứng thấy cải tiến đưa cải thiện đáng kể độ xác mơ hình giúp nâng cao khả nhận dạng đối tượng ảnh viễn thám giúp mở hướng giúp ứng dụng hiệu nguồn liệu mở thường có chất lượng liệu thấp cho toán thực tế ii Mục lục Tóm tắt ii Danh sách hình ảnh v Danh sách bảng vii Giới thiệu chung toán nhận dạng đối tượng ảnh viễn thám 1.1 Các lớp toán thường gặp nhận dạng đối tượng ảnh viễn thám 1.1.1 Bài toán phân đoạn ảnh 1.1.2 Bài toán phân loại ảnh 1.1.3 Bài toán nhận dạng cạnh 1.1.4 Bài toán nhận diện đối tượng 1.2 Một số toán đề cập nghiên cứu 1.2.1 Bài tốn trích xuất móng nhà 1.2.2 Bài toán trích xuất ranh giới nơng trang Cơ sở lý thuyết 2.1 Mạng nơ ron 2.1.1 Nơ ron 2.1.2 Lớp tích chập 2.1.3 Hàm kích hoạt 2.1.4 Pooling 2.1.5 Các số đánh giá 2.1.6 Hàm mát 2.1.7 Lan truyền ngược 2.1.8 Các thuật tốn tối ưu hóa 2.1.9 Chuẩn hóa theo lơ 2.1.10 Tăng cường liệu 2.2 Viễn Thám iii 2 7 10 10 12 14 17 19 20 23 24 25 28 29 30 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 Ảnh vệ tinh Ảnh hàng không Các số quang phổ Cấu trúc liệu ảnh viễn thám shapefile Tính liên kết hình học hệ thống thông tin địa lý 30 31 32 33 35 37 37 37 40 40 43 43 44 44 46 47 47 47 50 51 52 53 53 54 56 Nghiên cứu đề xuất số phương pháp giúp nâng cao kết nhận diện ảnh viễn thám 4.1 Phát biểu toán 4.2 Phương pháp kết hợp đa mơ hình 4.2.1 Giới thiệu đa mơ hình 4.2.2 Các vùng liệu 4.2.3 Tiêu chí đánh giá 4.2.4 Kết đạt 4.2.5 Đánh giá ưu nhược điểm kết hợp đa mơ hình 4.3 Phương pháp học đa nhiệm 4.3.1 Giới thiệu học đa nhiệm 59 59 60 60 61 62 62 64 65 65 Một số mơ hình học máy q trình nghiên cứu 3.1 Mơ hình U-Net 3.1.1 Thơng tin mơ hình 3.1.2 Hàm mát tiêu chí đánh giá 3.1.3 Xử lý liệu vào 3.1.4 Huấn luyện mơ hình 3.1.5 Đánh giá ưu, nhược điểm 3.2 Mơ hình U2-net 3.2.1 Thơng tin mơ hình 3.2.2 Hàm mát tiêu chí đánh giá 3.2.3 Đánh giá ưu, nhược điểm 3.3 Mơ hình Mask-RCNN 3.3.1 Thơng tin mơ hình 3.3.2 Hàm mát tiêu chí đánh giá 3.3.3 Xử lý liệu vào 3.3.4 Đánh giá ưu, nhược điểm 3.4 Mơ hình Real-ESRGAN 3.4.1 Ý tưởng cho việc tăng cường độ phân giải ảnh 3.4.2 Thơng tin mơ hình 3.4.3 Hàm mát tiêu chí đánh giá iv 4.4 4.5 4.3.2 Ứng dụng học đa nhiệm cho toán trích xuất móng nhà 4.3.3 Mơ hình mạng phân đoạn đa nhiệm 4.3.4 Mơ hình Frame Field Learning 4.3.5 Triển khai mơ hình Frame Field Learning 4.3.6 Kết thử nghiệm Frame Field Learning Ứng dụng cải tiến mơ hình Real-ESRGAN giúp nâng cao chất lượng liệu 4.4.1 Thử nghiệm mơ hình Real-ESRGAN 4X 4.4.2 Nâng cấp mơ hình Real-ESRGAN lên 8X 4.4.3 Triển khai huấn luyện mơ hình REAL-ESRGAN 8X 4.4.4 Ứng dụng nâng cao hiệu sử dụng nguồn liệu mở Mơ hình tổng hợp sử dụng cho nhận dạng ảnh chất lượng thấp mật độ đối tượng dày đặc 4.5.1 Nguồn liệu 4.5.2 Triển khai thử nghiệm 4.5.3 Kết thử nghiệm 66 66 67 69 69 72 72 78 79 81 85 86 86 88 Kết luận 91 Tài liệu tham khảo 94 v Danh sách hình vẽ 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 2.2.1 Nơ ron sinh học nhân tạo Multilayer perceptron (MLP) Tích chập N tích chập Padding and stride Dilation Tích chập chuyển vị Max pooling Phép chiếu từ ảnh viễn thám 12 13 15 15 16 17 17 20 34 3.1.1 3.1.2 3.1.3 3.2.1 3.2.2 3.3.1 3.3.2 3.4.1 3.4.2 3.4.3 Kiến trúc mô hình U-Net Hình ảnh tạo mask từ shapefile Phép trượt q trình xử lý ảnh viễn thám Kiến trúc mơ hình U-2net Cấu tạo khối RSU Kiến trúc mơ hình Mask-RCNN ROI Align Mạng sinh mô hình Real-ESRGAN Mạng phân biệt U-Net Real-ESRGAN Q trình hạ cấp mơ hình Real-ESRGAN 39 41 42 45 46 48 49 55 55 56 4.2.1 4.2.2 4.2.3 4.3.1 Kết hợp đa mơ hình Kết số đa mơ hình So sánh kết móng nhà sử dụng đa mơ hình Sơ đồ ứng dụng mô hình mạng phân đoạn đa nhiệm giúp cải thiện kết nắn chỉnh [13] Cấu trúc mơ hình Frame Field Learning Đồ thị số đánh giá mơ hình Frame Fields Learning Ảnh kết mơ hình Frame Fields Learning Tập VN UAV 61 63 64 4.3.2 4.3.3 4.3.4 vi 67 68 70 71 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5 4.4.6 4.4.7 4.4.8 4.4.9 4.4.10 4.4.11 4.4.12 4.5.1 4.5.2 4.5.3 4.5.4 4.5.5 Hình ảnh số ảnh mức độ phân giải khác Tạo ảnh đa tỉ lệ File index chứa tất đường dẫn đến ảnh thư mục Hình ảnh lúc khởi tạo training mơ hình Real-ESRGAN Một số kết tăng cường độ phân giải Mơ hình 4X để tăng độ phân giải ảnh sentinel Hình ảnh summary input output mơ hình Real-ESRGAN 8X Tham số hạ cấp liệu Kết mơ hình 8X để tăng độ phân giải ảnh sentinel Quy trình trích xuất liệu ranh giới nông trang Trích xuất nơng trang ảnh Sentinel Đối chiếu kết trích xuất nông trang ảnh Sentinel Maps Dữ liệu ảnh có chất lượng thấp mật độ cao Dữ liệu ảnh vùng ổ chuột Mumbai Ví dụ tăng độ phân giải cho Mumbai Đồ thị đánh giá mô hình tổng hợp Kết trích xuất mơ hình tổng hợp cho ảnh Mumbai vii Google 73 74 74 75 76 77 78 78 80 82 83 84 85 86 87 89 90 Danh sách bảng 2.2.1 Thông tin ảnh Sentinel 31 4.2.1 Kết đa mơ hình 4.3.1 Kết số mơ hình Frame Fields Learning 4.5.1 Kết mơ hình tổng hợp 62 69 88 viii Chương Giới thiệu chung toán nhận dạng đối tượng ảnh viễn thám Viễn thám (Remote sensing) hiểu việc thu thập thông tin đối tượng, khu vực tượng thông qua việc phân tích tư liệu thu nhận phương tiện mà không tiếp xúc trực tiếp với đối tượng, khu vực tượng nghiên cứu Phương tiện thường sử dụng sóng điện từ để chuyển tải thơng tin từ vật cần nghiên cứu tới thiết bị thu nhận thông tin Cụ thể hơn, viễn thám việc nghiên cứu đối tượng giải đốn tách lọc thơng tin từ liệu ảnh chụp từ xa, chẳng hạn ảnh hàng không ảnh vệ tinh Viễn thám sử dụng nhiều lĩnh vực, bao gồm địa lý, khảo sát đất đai hầu hết ngành Khoa học Trái đất Thuật ngữ viễn thám (Remote sensing) - điều tra từ xa, xuất từ năm 1960 nhà địa lý người Mỹ E.Pruit đặt (Thomas, 1999) Ngày kỹ thuật viễn thám phát triển ứng dụng nhanh hiệu nhiều lĩnh vực Như viễn thám thông qua kỹ thuật đại không tiếp cận với đối tượng mà xác định qua thơng tin ảnh chụp từ xa khơng Để sử dụng liệu viễn thám ta phải có khả tách thơng tin có ý nghĩa từ ảnh Đó nhiệm vụ việc xử lý ảnh viễn thám Nói cách khác phải diễn giải phân tích ảnh viễn thám Phân tích ảnh viễn thám thực nhận biết, đo đối tượng khác ảnh để tách thơng tin hữu ích chúng Xử lý ảnh số viễn thám thực loạt thủ tục bao gồm lập khuôn mẫu, hiệu chỉnh liệu, nâng cao chất lượng để dễ dàng giải đoán hay phân lớp tự động đối tượng máy tính Để xử lý số (a) Vùng sentinel2 10m (b) Vùng ảnh 1.25m tăng cường (c) Vùng Google Maps (d) Vùng sentinel2 10m (e) Vùng ảnh 1.25m tăng cường (f) Vùng Google Maps Hình 4.4.9: Kết mơ hình 8X để tăng độ phân giải ảnh sentinel Nhận xét: Nhìn vào kết ta thấy mơ hình Real-ESRGAN 8X tăng cường tốt thành phần mặt nước, cối, vùng ranh giới ruộng đường xá 80 ảnh Sentinel 2, nhiên thành phần cơng trình xây dựng cho kết chưa sát với thực tế, nên tổng thể chưa ứng dụng cho tốn phát móng nhà, ứng dụng cho tốn khoanh vùng khu dân cư 4.4.4 Ứng dụng nâng cao hiệu sử dụng nguồn liệu mở Kết tốn tăng cường liệu, khơng giúp mở nhiều tốn nguồn liệu có chất lượng cao hơn, mà cịn giúp tăng cường sử dụng hiệu nguồn liệu mở, phục vụ cho ứng dụng nhu cầu nghiên cứu khác Phần trình bày ứng dụng sử dụng hiệu nguồn liệu ảnh mở, tốn trích xuất ranh giới nơng trang tốn phát ranh giới ruộng Ở trình bày số kết nhận diện trích xuất ranh giới nông trang ảnh tăng cường Sentinel Ứng dụng cho tốn trích xuất ranh giới nơng trang xử lý mơ hình trích xuất ranh giới nơng trang bao gồm bước sau xem hình 4.4.10: • Ảnh lớn chia thành nhiều ảnh nhỏ • Đưa ảnh nhỏ qua mơ hình nhận diện cạnh đẻ phát ranh giới ruộng • Khơi phục hợp kêt dự đoán để có kết cuối ảnh lớn • Chuyển kết ảnh raster thành liệu vector đường • Sử dụng phương pháp hiệu chỉnh hình học sau chuyển kết đường thành dạng đa giác kín giữ ngun tính tồn vẹn tính chung ranh giới đa giác 81 Hình 4.4.10: Quy trình trích xuất liệu ranh giới nơng trang Mơ hình sử dụng cho mục đích nhận diện cạnh cho tốn trích xuất ranh giới nơng trang mơ hình U2-Net nhắc đến 3.2 luyện cho liệu Google Maps Và sau số kết chạy trích xuất ranh giới nơng trang ảnh Sentinel tăng cường: 82 (a) Vùng sentinel2 10m (b) Vùng ảnh 1.25m tăng cường (c) Vùng Google Maps (d) Vùng sentinel2 10m (e) Vùng ảnh 1.25m tăng cường (f) Vùng Google Maps Hình 4.4.11: Kết chạy mơ hình trích xuất ranh giới nơng trang ảnh 8X sentinel Hình ảnh đối chiếu số kết ảnh Sentinel tăng cường với kết chạy ảnh Google Maps: 83 (a) Kết ảnh tăng cường (b) Kết ảnh Google Maps (c) Kết ảnh tăng cường (d) Kết ảnh Google Maps Hình 4.4.12: Một số kết ảnh tăng cường phân giải ảnh Google Maps Kết luận: Trên phần trình bày ứng dụng ảnh Sentinel tăng cường độ phân giải để ứng dụng cho tốn trích xuất ranh giới nơng trang nhiên để đánh giá so sánh kết với kết sử dụng Google Maps chưa thể tìm tiêu chí đánh giá phù hợp nhiều yếu tố độ lệch ảnh tiêu chí để so sánh Vì nghiên cứu bỏ ngỏ phần đánh giá Tuy nhiên với kết nhìn thấy đưa đến cho nhiều hướng phát triển tương lai để áp dụng mơ hình tăng cường chất lượng ảnh vào thực tế, đặc biệt toán nhận diện đường hay giám sát không gian xanh, giám sát phát triển thị 84 4.5 Mơ hình tổng hợp sử dụng cho nhận dạng ảnh chất lượng thấp mật độ đối tượng dày đặc Trong q trình nghiên cứu thực tế cho tốn trích xuất móng nhà, đơi chúng tơi gặp loại liệu khó chất lượng độ phân giải ảnh thấp, mật độ tịa nhà dày đặc khơng rõ ràng khiến cho phương pháp trích xuất móng nhà trước nhận dạng cạnh hay phát đối tượng phân đoạn gặp nhiều khó khăn, xem hình 4.5.1 Hình 4.5.1: Dữ liệu ảnh có chất lượng phân giải thấp mật độ nhà dày đặc Để giải vấn đề nêu trên, sử dụng phương pháp tổng hợp để bao gồm kết hợp mô hình tăng chất lượng độ phân giải Real-ESRGAN mơ hình Frame Fields Learning Mơ hình tăng chất lượng phân giải giúp giải vấn đề độ phân giải ảnh thấp, giúp làm rõ cạnh đối tượng mơ hình Frame Fields Learning theo hướng tiếp cận nhận diện mặt nạ, nhận diện cạnh giúp phân chia mặt nạ thành mặt nạ đối tượng riêng biệt sau kết hợp hướng vec tơ tiếp tuyến pháp tuyến trích xuất dự đốn để điều chỉnh cạnh Ưu điểm mơ hình Frame Fields Learning tốn giúp đảm bảo tính liên kết hình học cho đối tượng móng nhà liền kề sử dụng hướng tiếp cận nhận diện cạnh dễ dàng đảm bảo tính liên kết có cạnh chung Ngồi giúp khắc phục vấn đề nhận diện sai thiếu so với mơ hình phát đối tượng hộp giới hạn bị mức chồng lấn cao có nhiều 85 đối tượng liền kề san sát 4.5.1 Nguồn liệu Dữ liệu thử nghiệm vùng liệu khu nhà ổ chuột Mumbai, Ấn độ Ảnh gốc có độ phân giải 0.3m đặc điểm cấu trúc khu ổ chuột có kích thước nhà bé mật độ cao Số lượng móng nhà ước tính gần 15.000 ngơi nhà diện tích 1.1 triệu m2 hình 4.5.2 ảnh chụp vùng liệu sử dụng 4.5.2 Hình 4.5.2: Dữ liệu ảnh vùng ổ chuột Mumbai 4.5.2 Triển khai thử nghiệm Chúng thử nghiệm theo ba cách tiếp cận khác Sử dụng mơ hình Frame Fields Leaning cho liệu thường liệu sau tăng chất lượng phân giải, sử dụng đa mơ hình phần 4.2 cho liệu sau tăng độ phân giải sau so sánh kết chúng với nhãn thực tế Hình 4.5.3 ảnh trước sau tăng độ phân giải Dùng tiêu chí đánh đề cập phần 4.2 86 (a) Ảnh gốc (b) Ảnh tăng chất lượng Hình 4.5.3: Ảnh trước sau tăng chất lượng phân giải 87 4.5.3 Kết thử nghiệm Bảng 4.5.1 hiển thị kết đánh giá máy trạm HP-Z800 với cấu hình: 02 CPU Intel Xeon Processor X5650, RAM 32GB, GPU Nvidia GTX 1080 Ti 11GB Bảng 4.5.1: Kết cách tiếp cận khác khoảng IoU [0.55:0.05:0.95] AR, AP với ngưỡng IoU > 0.5 IoU > 0.7 Model MRCNN-U2Net + SR data Frame Fields + ORG data Frame Fields + SR data mAP mAR 0.321 0.185 0.267 0.242 0.345 0.389 APIoU>0.5 ARIoU>0.5 APIoU>0.7 ARIoU>0.7 0.619 0.437 0.558 0.356 0.396 0.629 0.392 318 0.415 0.225 288 0.468 Hình ảnh 4.5.4 đồ thị so sánh đánh giá theo hai số AP AR kết hợp mơ hình Frame Fields Learning với liệu tăng độ phân giải với cách tiếp cận khác Nhìn vào đồ thị nhận thấy sử dụng mơ hình Frame Fields Learning kết hợp với tăng độ phân giải cho kết tốt rõ rệt với đánh giá số mAR mAP Với ngưỡng IoU thấp (0.5) đa mơ hình cho ngưỡng AP cao nhiên điều khơng tốt ngưỡng AR thấp Ngun nhân đa mơ hình cố gắng nhận diện nhiều đối tượng có thể, độ xác đối tượng chưa cao 88 (a) Đồ thị đánh giá theo số AP (b) Đồ thị đánh giá theo số AR Hình 4.5.4: Đánh giá dựa số AP AR tổng hợp với cách tiếp cận khác Hình 4.5.5 ảnh minh họa liệu trước sau tăng chất lượng kết thử nghiệm theo hướng đề cập 89 (a) Ảnh gốc (ORG) (b) Ảnh tăng độ phân giải (SR) (c) Frame Fields Learning + ORG (d) Frame Fields Learning + SR (e) Đa mơ hình (f) Nhãn thực tế Hình 4.5.5: Kết phát móng nhà mơ hình mẫu thực tế Nhận xét Nhìn vào đánh giá kết hình ảnh thấy, tăng cường độ phân giải giúp cho hình khối cạnh tòa nhà rõ ràng so với ảnh ban đầu Vì , triển khai ảnh sau tăng độ phân giải, khả phân tách tòa nhà tăng lên Ngồi ra, nhìn vào hình 4.5.5 nhận thấy, sử dụng mơ hình Frame Fields Learning cho kết tốt dễ chấp nhận so với kết trích xuất bị chồng lấn đa mơ hình kết đảm bảo tính liên kết hình học (topology) đối tượng địa lý 90 Kết luận Trong luận văn “Nghiên cứu cải tiến số mơ hình học máy nhận dạng đối tượng ảnh viễn thám”, nghiên cứu đưa đóng góp nhằm nâng cao kết nhận dạng đối tượng ảnh viễn thám sau Đầu tiên, luận văn đưa nhìn tổng quan việc nghiên cứu đánh giá mơ hình học máy để nhận dạng đối tượng ảnh viễn thám mơ hình U-Net, U2-Net, Mask-RCNN Luận văn tập trung vào phân tích để hiểu rõ ưu nhược điểm mơ hình từ đưa hướng cải tiến hiệu Sau phát ưu nhược điểm mơ hình, luận văn đề xuất cải tiến để cải thiện độ xác, cải tiến bao gồm: đề xuất mơ hình kết hợp đa mơ hình (Multi-Model) giúp tăng độ xác cho tốn trích xuất móng nhà, đề xuất kết hợp mơ hình tăng độ phân giải học đa nhiệm để trích xuất móng nhà vùng ảnh chất lượng thấp có mật độ nhà cao, chỉnh sửa mơ hình tăng cường độ phân giải Real-ESRGAN 4X thành Real-ESRGAN 8X giúp tăng độ phân giải từ lần lên lần để áp dụng cho tốn trích xuất ranh giới nơng trang ảnh Sentinel Cuối cùng, luận văn thực thí nghiệm để kiểm tra hiệu đề xuất kết cho thấy cải tiến giúp cải thiện đáng kể độ xác mơ hình nhận dạng đối tượng trích xuất móng nhà, trích xuất ranh giới nơng trang, Một phần kết luận văn đăng kỷ yếu hội nghị International Conference on Intelligent Systems and Networks (ICISN 2022) thuộc danh mục SCOPUS Với kết đạt được, luận văn thêm đóng góp thiết thực cho lĩnh nhận dạng đối tượng ảnh viễn thám nói chung Ngồi đóng góp cịn có tính thực tiễn cao áp dụng tốn nhận dạng cho liệu chất lượng vùng chưa quy hoạch tốt số nước Châu Á tăng tăng tính ứng dụng trích xuất thêm số đối loại tượng cách tăng cường chất lượng phân giải ảnh cho nguồn liệu mở ảnh Sentinel Do lượng thời gian có hạn, có nhiều thử nghiệm chưa triển khai nhiều kiến thức chưa trình bày đầy đủ luận văn mong muốn cầu thị nhận góp ý để luận văn có nội dung hồn chỉnh Xin chân thành cảm ơn 91 Tài liệu tham khảo [1] Abien Fred Agarap Deep learning using rectified linear units (relu) arXiv preprint arXiv:1803.08375, 2018 [2] Ho Trong Anh, Tran Anh Tuan, Hoang Phi Long, Le Hai Ha, and Tran Ngoc Thang Multi deep learning model for building footprint extraction from high resolution remote sensing image In Ngoc Le Anh, Seok-Joo Koh, Thi Dieu Linh Nguyen, Jaime Lloret, and Thanh Tung Nguyen, editors, Intelligent Systems and Networks, pages 246–252, Singapore, 2022 Springer Nature Singapore ISBN 978-981-19-3394-3 [3] Eliseo Clementini and Paolino Di Felice Topology in object-oriented gis 01 1994 [4] Vincent Dumoulin and Francesco Visin A guide to convolution arithmetic for deep learning, 2018 [5] Nicolas Girard, Dmitriy Smirnov, Justin Solomon, and Yuliya Tarabalka Polygonal building segmentation by frame field learning, 2021 [6] Ian Goodfellow, Yoshua Bengio, and Aaron Courville Deep Learning MIT Press, 2016 http://www.deeplearningbook.org [7] Jun Han and Claudio Moraga The influence of the sigmoid function parameters on the speed of backpropagation learning In José Mira and Francisco Sandoval, editors, From Natural to Artificial Neural Computation, pages 195–201, Berlin, Heidelberg, 1995 Springer Berlin Heidelberg ISBN 978-3-540-49288-7 [8] K He, G Gkioxari, P Dollar, and R Girshick Mask r-cnn In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980–2988, 2017 doi: 10.1109/ICCV.2017.322 [9] Long P Hoang, Dung D Le, Tran Anh Tuan, and Tran Ngoc Thang Improving pareto front learning via multi-sample hypernetworks, 2023 [10] Justin Johnson, Alexandre Alahi, and Li Fei-Fei Perceptual losses for real-time style transfer and super-resolution CoRR, abs/1603.08155, 2016 URL http://arxiv org/abs/1603.08155 [11] Kaggle 2018 data science bowl 2018 URL https://www.kaggle.com/ competitions/data-science-bowl- 2018/overview/evaluation (visited on 2018-12-02) 92 [12] Diederik P Kingma and Jimmy Ba Adam: A method for stochastic optimization, 2017 [13] Weijia Li, Wenqian Zhao, Huaping Zhong, Conghui He, and Dahua Lin Joint semantic-geometric learning for polygonal building segmentation Proceedings of the AAAI Conference on Artificial Intelligence, 35, 05 2021 doi: 10.1609/aaai.v35i3 16291 [14] Shijie Looi Rotated mask r-cnn: From bounding boxes to rotated bounding boxes https://github.com/mrlooi/rotated_maskrcnn, 2019 [15] Microsoft Understanding scale and resolution 2023 https://learn.microsoft.com/en-us/bingmaps/articles/ understanding-scale-and-resolution (visited on 2023-03-30) URL [16] Herbei Mihai Valentin Topology of spatial data 06 2011 doi: 10.5593/SGEM2015/ B22/S11.146 [17] Anish Mittal, Rajiv Soundararajan, and Alan C Bovik Making a “completely blind” image quality analyzer IEEE Signal Processing Letters, 20(3):209–212, 2013 doi: 10.1109/LSP.2012.2227726 [18] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida Spectral normalization for generative adversarial networks CoRR, abs/1802.05957, 2018 URL http://arxiv.org/abs/1802.05957 [19] Chigozie Nwankpa, Winifred Ijomah, Anthony Gachagan, and Stephen Marshall Activation functions: Comparison of trends in practice and research for deep learning CoRR, abs/1811.03378, 2018 URL http://arxiv.org/abs/1811.03378 [20] OSM Sunnyvale uav labels 2022 https://www.openstreetmap.org/ [21] Daniele Panozzo, Enrico Puppo, Marco Tarini, and Olga Sorkine-Hornung Frame fields: Anisotropic and non-orthogonal cross fields ACM Transactions on Graphics, 33(4), 2014 ISSN 0730-0301 doi: 10.1145/2601097.2601179 [22] Michael Plotke 2d image-kernel convolution animation 2023 URL https:// commons.wikimedia.org/wiki/File:2D_Convolution_Animation.gif [Online; accessed 30-April-2023] [23] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and Martin Jagersand U2-net: Going deeper with nested u-structure for salient object detection Pattern Recognition, 106:107404, Oct 2020 ISSN 0031-3203 doi: 10.1016/j.patcog.2020.107404 URL http://dx.doi.org/10.1016/j.patcog.2020 107404 [24] Seyed Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian D Reid, and Silvio Savarese Generalized intersection over union: A metric and A loss for bounding box regression CoRR, abs/1902.09630, 2019 URL http://arxiv org/abs/1902.09630 93 [25] Olaf Ronneberger, Philipp Fischer, and Thomas Brox U-net: Convolutional networks for biomedical image segmentation, 2015 [26] Frank Rosenblatt The perceptron: a probabilistic model for information storage and organization in the brain Psychological review, 65 6:386–408, 1958 [27] Sebastian Ruder An overview of gradient descent optimization algorithms arXiv preprint arXiv:1609.04747, 2016 [28] USGS Sunnyvale uav images 2018 https://earthexplorer.usgs.gov/ [29] Amir Vaxman, Marcel Campen, Olga Diamanti, David Bommes, Klaus Hildebrandt, Mirela Ben-Chen, and Daniele Panozzo Directional field synthesis, design, and processing ACM SIGGRAPH 2017 Courses, 2017 [30] Xintao Wang, Liangbin Xie, Chao Dong, and Ying Shan Real-esrgan: Training realworld blind super-resolution with pure synthetic data In International Conference on Computer Vision Workshops (ICCVW), 2021 94

Định dạng
Số trang	103
Dung lượng	2,19 MB