CHƯƠNG 1 TỔNG QUAN
3.2. MÔ HÌNH MẠNG NƠ-RON THẦN KINH NHÂN TẠO ĐƯỢC ĐỀ
XUẤT ĐỂ NHẬN DẠNG BỀ MẶT XÂY DỰNG TỰ ĐỘNG
Mô hình đề xuất là sự tích hợp của phân tích kết cấu hình ảnh, nhận dạng mẫu dựa trên mạng nơ ron thần kinh và tối ưu hóa nâng cao được sử dụng cho đào tạo mạng thần kinh. Cấu trúc chung của mô hình mới phát triển được trình bày trong Hình 3.2. Mô hình tính toán được đề xuất sử dụng để nhận dạng bề mặt xây dựng đã được phát triển trong môi trường Visual C # .NET (Khung 4.6.2) và được thực hiện với ASUS FX705GE - EW165T (Core i7 8750H, Ram 8GB, ổ cứng SSD 256 GB)
Hình 3.2. Mô hình mạng nơ-ron thần kinh nhân tạo được đề xuất để phát hiện bề mặt xây dựng
Hoạt động mô hình có thể được chia thành ba bước: (i) Lấy mẫu dữ liệu hình ảnh
(ii) Tính toán kết cấu hình ảnh
(iii) Dự đoán và đào tạo mô hình mạng nơ-ron thần kinh nhân tạo
3.2.1. Lấy mẫu dữ liệu hình ảnh
Để thiết lập mô hình mạng thần kinh để nhận dạng diện tích bề mặt xây dựng tự động, cần phải chuẩn bị một bộ dữ liệu huấn luyện với các nhãn sự thật mặt đất được chỉ định. Nghiên cứu này đã lấy mẫu các khu vực phổ biến và công trình trong bản đồ của khu vực nghiên cứu. Dữ liệu hình ảnh thu được từ Sentinel 2 vào ngày 13 tháng 3 năm 2020. Các dải 4 (đỏ), 3 (xanh lá cây) và 2 (xanh lam) với độ phân giải không gian 10 m được chọn để tạo thành hình ảnh của khu vực nghiên cứu. Các dải này đã được mở trong gói phần mềm Sentinel Application Platform (SNAP) (ESA 2020). Mỗi mẫu có kích thước 100x100 pixel được sử dụng để tạo các bản vá hình ảnh không chồng lấp với kích thước 10 x 10 pixel. Tổng cộng, có 3000 bản vá hình ảnh được tạo ra từ các mẫu hình ảnh. Để đảm bảo dữ liệu cân bằng, số lượng mẫu âm tính (bề mặt phổ biến) và mẫu dương tính (bề mặt xây dựng) đều là 1500. Dựa trên các bản vá hình ảnh này, có thể thực hiện các phương pháp tính toán kết cấu hình ảnh để trích xuất tính năng hữu ích cho giai đoạn nhận dạng mẫu.
(a)
(b)
Hình 3.3. Trình diễn các mẫu hình ảnh thu thập được: (a) Lớp phổ biến và (b) Lớp xây dựng
3.2.2. Tính toán kết cấu hình ảnh
Sử dụng các mẫu hình ảnh được tạo từ bước trước, có thể thực hiện các phương pháp phân tích kết cấu bằng các phép đo thống kê của các kênh màu và BGC. Các phép đo thống kê của ba kênh màu bao gồm giá trị trung bình, độ lệch chuẩn, độ lệch, độ nhiễu, entropy và chỉ số phạm vi. Vì số lượng các dải được sử dụng thu được từ Sentinel 2 là 3; có 6x3 = 18 tính năng đạt được từ các phép đo thống kê của các kênh màu.
Ngoài ra, BGC được thực hiện với ba phiên bản đơn (BGC1), đôi (BGC2) và vòng lặp ba (BGC3). Mỗi phiên bản tạo ra một biểu đồ mô tả thông tin kết cấu của các mẫu hình ảnh. Nghiên cứu này tính toán các phép đo trung bình, độ lệch chuẩn, độ lệch, độ nhiễu và entropy từ mỗi biểu đồ. Do đó, các mô tả kết cấu BGC mang lại 5x3 = 15 tính năng.
Do đó, tổng số tính năng được trích xuất từ các mô tả kết cấu được sử dụng là 33. Ngoài ra, để tạo điều kiện cho việc phân loại dữ liệu dựa trên mô hình mạng nơ-ron thần kinh nhân tạo được sử dụng, các tính năng dựa trên kết cấu đã được chuẩn hóa theo phương trình điểm Z:
o X ZN X X m X s (15) Trong đó Xo và XZN lần lượt biểu thị tính năng gốc và tiêu chuẩn hóa. mX
và SX tương ứng là giá trị trung bình và độ lệch chuẩn của tính năng gốc.
3.2.3. Đào tạo và dự đoán mô hình mạng nơ-ron thần kinh nhân tạo
Như đã trình bày, một bộ dữ liệu bao gồm 3000 trường hợp và 33 tính năng đã được chuẩn bị để đào tạo và xác minh phương pháp tính toán được sử dụng để nhận dạng bề mặt xây dựng. Mỗi phiên bản của tập dữ liệu có nhãn lớp là phổ biến (ký hiệu là 0) hoặc xây dựng (ký hiệu là 1). Mô hình mạng nơ- ron thần kinh được sử dụng để khái quát một ranh giới quyết định có thể phân biệt các trường hợp dữ liệu của hai loại bề mặt phổ biến và công trình. Theo
đó, bộ dữ liệu ban đầu đã được chia ngẫu nhiên thành hai bộ loại trừ lẫn nhau: bộ đào tạo (70%) và bộ thử nghiệm (30%). Bộ đầu tiên được sử dụng để xây dựng mô hình. Bộ thứ hai được sử dụng để đánh giá khả năng dự đoán mô hình.
Quá trình đào tạo của mô hình mạng nơ-ron thần kinh nhân tạo nhằm mục đích điều chỉnh hai ma trận của WL0L1 và WL1L2 chỉ định cấu trúc mô hình. Kích thước của ma trận đầu tiên, là trọng số kết nối giữa đầu vào và lớp ẩn, là ma trận M x (NI + 1). Trong đó M và NI tương ứng là số lượng tế bào thần kinh trong lớp ẩn và số lượng tính năng đầu vào. Ở đây, NI = 33 bằng với số lượng các tính năng được trích xuất từ các mô tả kết cấu được sử dụng. Dựa trên khuyến nghị của Heaton (2008), giá trị của M được đặt xấp xỉ là trong đó N0 = 2 biểu thị số lượng các lớp đầu ra. Kích thước của WL1L2, lưu trữ trọng lượng kết nối giữa lớp ẩn và lớp đầu ra là N0 x (M + 1). Do đó, tổng số biến cần được xác định bởi các trình tối ưu hóa được sử dụng là NR x NI + NO x NR + 2. Trong nghiên cứu này, thuật toán đào tạo của GDM được sử dụng để tìm kiếm các giá trị phù hợp nhất của hai ma trận của WL0L1 và WL1L2.