Đồ án tốt nghiệp: Cảm biến phổ trong vô tuyến nhận thức thông qua phát triển mô hình học sâu dùng cho phân đoạn tín hiệu LTE - 5G

Để xác định vùng phổ của tín hiệu 5G và LTE cùng tồn tại trên một hình ảnhphổ, tôi đề xuất cải tiến kiến trúc DeepLabV3+, một mạng mã hóa – giải mã sâu chophân đoạn ngữ nghĩa, thông qua

GIỚI THIỆU

Sự ra đời của mạng vô tuyến nhận thức đã trở thành nguồn động lực chính thúc đẩy việc xây dựng các mô hình tự động phát hiện tín hiệu Khả năng phân loại và xác định chính xác các loại tín hiệu là tiền đề quan trọng để xử lý các bài toán tối ưu hóa mạng, chẳng hạn như theo dõi tín hiệu, phát hiện nhiễu và quản lý phổ Vì lý do đó, nhận dạng tín hiệu trở thành một nhiệm vụ cơ bản được đặc biệt chú trọng, góp phần giải quyết các vấn đề trong truyền thông không dây, hệ thống radar dùng trong trinh sát và các ứng dụng viễn thám [1] Trong những năm gần đây, nhiều nhà nghiên cứu đã nỗ lực mở rộng và phát triển các mô hình, thuật toán hiệu quả hơn cho việc nhận dạng tín hiệu điều chế. Các công trình này có thể được phân loại thành hai nhóm chính: một là các phương pháp truyền thống dựa trên kiến thức chuyên môn về việc trích xuất thủ công các đặc trưng của tín hiệu kết hợp với học máy (machine learning – ML), hai là các phương pháp xây dựng mô hình học sâu (deep learning – DL) giúp tự động học các đặc trưng và đưa ra những phân loại chính xác.

Các phương pháp nhận dạng truyền thống thường dựa phần lớn vào sự am hiểu về đặc trưng của tín hiệu trong miền thời gian và tần số [2] Điều này có thể dẫn đến khó khăn trong việc phổ cập các mô hình này nhằm thúc đẩy các hướng nghiên cứu phục vụ cho sự tối ưu hóa do sự yêu cầu độ am hiểu chuyên môn rất cao Mặt khác, việc rút trích đặc trưng một cách thủ công gặp nhiều thách thức khi phân tích các mẫu sóng mang rắc rối cũng như giải mã các mối quan hệ phức tạp giữa tín hiệu điều chế và các tác động từ môi trường truyền nhận, đặc biệt là trong bối cảnh tín hiệu bị ảnh hưởng bởi nhiễu từ nhiều tác nhân khác nhau Thực tế cho thấy, chỉ dựa vào việc phân tích tín hiệu thủ công dựa trên sự am hiểu về đặc trưng của tín hiệu là chưa đủ để đạt được hiệu suất nhận dạng mong muốn Ví dụ, trong [3], nhóm tác giả đã đề xuất phương pháp nhận dạng điều chế tự động dựa trên đặc trưng thống kê trong miền thời gian của biên độ bao và pha tức thời, đồng thời kết hợp với một mạng DL cơ bản để đạt được hiệu suất nhận dạng cao hơn các phương pháp thông thường.

Nối tiếp thành công trong việc ứng dụng DL trong xử lý tín hiệu, ngày càng có nhiều công trình nghiên cứu tập trung khai thác tiềm năng của phương pháp này [4].Thông qua tận dụng sức mạnh của các tác vụ học có giám sát, các mẫu và đặc điểm phức tạp được tự động trích xuất, thậm chí DL còn cho phép xây dựng các thuật toán cho phép học trực tiếp từ dữ liệu tín hiệu thô có kèm nhiễu Điều này góp phần giải quyết các khó khăn của các phương pháp truyền thống, cho phép các nhà nghiên cứu phát triển các hệ thống nhận dạng tín hiệu toàn diện, có khả năng giải quyết các tín hiệu điều chế phức tạp và đa dạng trong các mạng không dây thế hệ tiếp theo Mặt khác, để củng cố thêm sức mạnh của phương pháp này, nhiều nghiên cứu cũng đã vận dụng linh hoạt các kỹ thuật DL vào vấn đề nhận dạng tín hiệu và đạt được hiệu suất vượt trội cả về tăng cường độ chính xác và hạn chế độ phức tạp so với các phương pháp truyền thống, có thể kể đến như các mạng tích chập ba chiều [5], RaComNet [6].

Bên cạnh đó, một hướng nghiên cứu khác khám phá ra rằng việc tiền xử lý tín hiệu điều chế thông qua một số thuật toán cơ bản sẽ tăng cường hiệu suất nhận dạng của các mô hình DL đã có Ví dụ, việc áp dụng biến đổi Fourier (Fourier transform – FT) nhằm chuyển đổi sóng tín hiệu sang hình ảnh phổ sẽ giúp kế thừa thành công của DL trong lĩnh vực thị giác máy tính, từ đó nâng cao khả năng nhận dạng tín hiệu chính xác [7]. Ngoài ra, trong [8], nhóm tác giả đề xuất việc sử dụng một mạng DL hồi quy cơ bản để khử nhiễu của phổ tín hiệu, giúp hình ảnh phổ trở nên rõ ràng và trực quan hơn trước khi sử dụng làm đầu vào cho các mô hình DL, làm tiền đề cho các công việc xử lý và nhận dạng dữ liệu dựa trên phổ sau này.

Nhằm kế thừa sự thành công có được từ các phương pháp tăng cường hiệu suất nhận dạng tín hiệu trước đây, đề tài này trình bày một phương pháp đổi mới và hiệu quả cho việc nhận dạng tín hiệu bằng cách kết hợp tiền xử lý tín hiệu điều chế phức tạp và phân đoạn vùng tần số của các tín hiệu cùng tồn tại trong một hình ảnh phổ bằng DL. Để làm được điều này, tác giả đề xuất xây dựng một mô hình tự động thông qua bốn giai đoạn Đầu tiên, tác giả tận dụng FT, cụ thể là biến đổi Fourier nhanh (fast Fourier transform – FFT), để biến đổi các tín hiệu ở dạng sóng mang khó phân tích thành ảnh phổ trực quan hơn, ghi lại các đặc trưng của tín hiệu cả về miền thời gian lẫn tần số, đồng thời áp dụng một số phương pháp chuẩn hóa và tăng cường dữ liệu hình ảnh để thuận tiện cho việc huấn luyện mô hình DL sau này Tiếp theo, tác giả sử dụng các hình ảnh phổ thu được để làm dữ liệu đầu vào cho mô hình DeepLabV3+ [9, 10], là một trong những kiến trúc phân đoạn ngữ nghĩa tiên tiến trong lĩnh vực thị giác máy tính Tuy nhiên, nhằm khắc phục những hạn chế của DeepLabV3+, tác giả đề xuất tích hợp một số cải tiến mang tính chiến lược thông qua việc điều chỉnh kiến trúc và kết hợp cơ chế tự chú ý để đạt được hiệu suất phân đoạn cao hơn Sau đó, phương pháp cắt giảm số lượng trọng số của mô hình mạng phân đoạn được áp dụng nhằm giúp mô hình nhẹ hơn, phù hợp với các ứng dụng nhận dạng tín hiệu đòi hỏi tính đáp ứng thời gian thực Cuối cùng,các thử nghiệm sẽ được tiến hành trên một bộ dữ liệu bao gồm các tín hiệu được mô phỏng lại dưới các tác động trong môi trường truyền nhận tương tự ngoài thực tế, nhằm đánh giá tính hiệu quả của mô hình đề xuất so với kiến trúc cơ sở cũng như các mô hình học sâu phân đoạn khác Kết quả thu được phần nào chứng minh sự vượt trội của mô hình ở bài toán phân đoạn tín hiệu viễn thông nói chung và tín hiệu 5G và LTE nói riêng thông qua sự cải thiện đáng kể giá trị của các chỉ số đo lường độ chính xác cũng như độ phức tạp.

MỤC TIÊU

Mục tiêu của đề tài này là thiết kế và phát triển một hệ thống cảm biến phổ thông minh dựa trên DL để phân đoạn tín hiệu 5G và LTE Lấy cảm hứng từ những tiến bộ của mạng học sâu trong xử lý hình ảnh hoặc thị giác máy tính, đặc biệt là phân đoạn ngữ nghĩa, tác giả tạo ra hình ảnh phổ bằng cách áp dụng một phép FFT trên tín hiệu thu được tại máy thu và dùng nó làm đầu vào cho mô hình phân đoạn ngữ nghĩa Mặt khác,kiến trúc DL dành cho phân đoạn ngữ nghĩa hiện có được tinh chỉnh bằng một số đề xuất điều chỉnh kiến trúc mạng phức tạp nhằm nâng cao độ chính xác tổng thể của phân đoạn tín hiệu Cụ thể hơn, từ những tiến bộ của mô hình DeepLabV3+ trong phân đoạn ngữ nghĩa, tác giả tận dụng mô hình mã hóa – giải mã của DeepLabV3+ và đề xuất một khối ASPP thích ứng và một cơ chế tự chú ý để cải thiện hiệu quả phân đoạn của các vùng tín hiệu 5G và LTE trong hình ảnh phổ Cuối cùng, thuật toán cắt giảm số lượng trọng số học tập để giảm độ phức tạp của mô hình được áp dụng để tối ưu hóa phương pháp đề xuất Tóm lại, mục tiêu của đề tài là thiết kế một hệ thống tự động nhận dạng tín hiệu bao gồm hai mô-đun: biểu diễn phổ bằng FFT và phân đoạn phổ tín hiệu bằngDeepLabV3+ cải tiến.

PHƯƠNG PHÁP NGHIÊN CỨU

Để đạt được mục tiêu đề ra, đề tài có sử dụng các phương pháp thu thập số liệu, thực nghiệm và phân tích tổng kết kinh nghiệm.

• Phương pháp thu thập số liệu:

– Sử dụng phương pháp quan sát: Tác giả tiến hành quan sát trực tiếp các phổ tín hiệu để tìm kiếm các đặc trưng cụ thể nhằm phát triển định hướng xây dựng mô hình phân đoạn.

– Thực hiện cuộc khảo sát: Tác giả tiến hành khảo sát các đặc điểm của tín hiệu 5G – LTE trong quá trình điều chế và truyền đi trong môi trường không khí thông qua tài liệu và ý kiến của các giảng viên có chuyên môn.

– Thiết kế và triển khai hệ thống: Tác giả tiến hành thiết kế và triển khai một hệ thống cảm biến phổ thông minh dựa trên DL nhằm phân biệt tín hiệu 5G –

– Tiến hành thử nghiệm: Tác giả thử nghiệm nhiều mô hình mạng và các kiến trúc tiên tiến khác nhau để tìm ra phương hướng cải tiến mô hình nhằm thu được kết quả tốt nhất.

• Phương pháp phân tích tổng kết kinh nghiệm:

– Đánh giá hiệu quả: Tác giả tiến hành đánh giá hiệu quả phương pháp đề xuất dựa trên những chỉ số đánh giá phổ biến và được sử dụng rộng rãi.

– Phân tích dữ liệu: Tác giả phân tích dữ liệu tín hiệu ở nhiều mức SNR (signal- to-noise ratio) khác nhau để đánh giá tổng quát mô hình.

– Tổng kết: Dựa trên kết quả phân tích, tác giả tổng kết hiệu suất của mô hình khi áp dụng vào bài toán phân đoạn tín hiệu.

GIỚI HẠN NGHIÊN CỨU

Đề tài này tập trung vào việc xác định dải tần số của tín hiệu 5G NR và LTE có trong phổ, tuy nhiên, đề tài vẫn tồn tại một số giới hạn nhất định Dưới đây là những giới hạn cơ bản của đề tài này:

Dữ liệu đầu vào: Phương pháp này giả định rằng dữ liệu đầu vào là các tín hiệu thô được mô phỏng lại giống thực tế dựa trên việc cài đặt các tham số kèm theo đáng tin cậy.

Các công cụ tiền xử lý dữ liệu: Đề tài sử dụng phép biến đổi Fourier nhanh để chuyển đổi tín hiệu thô từ miền thời gian sang miền tần số, từ đó áp dụng các thành tựu của học sâu trong lĩnh vực thị giác máy tính để đạt được những thành tựu to lớn.

Kiến trúc mạng học sâu: Đề tài tập trung vào việc cải tiến mạng học sâu phân đoạn ảnh DeepLabV3+, mô hình mã hóa giải mã tiên tiến trong lĩnh vực thị giác máy tính.

Các phương pháp đánh giá: Phương pháp đánh giá tính hiệu quả của mô hình cải tiến được đề xuất dựa trên những phép đo phổ biến và được sử dụng rộng rãi trong phân đoạn ảnh, từ đó so sánh hiệu năng của mạng cải tiến so với mạng cơ sở Ngoài ra, các thử nghiệm chỉ dừng lại ở việc so sánh hiệu suất của mô hình cải tiến với các giải pháp

DL hiện có, các giải pháp truyền thống sẽ không được đem vào so sánh vì sự hạn chế đã được chứng minh trong các công trình nghiên cứu trước của nó.

CƠ SỞ LÝ THUYẾT 6

LÝ THUYẾT VỀ TÍN HIỆU 5G – LTE

2.1.1 Truyền nhận tín hiệu trong truyền thông không dây

Trong truyền thông không dây, tín hiệu nói chung và tín hiệu 5G – LTE nói riêng được truyền và nhận trong không khí từ thiết bị phát (trạm cơ sở hoặc tháp di động) đến thiết bị nhận (điện thoại di động, máy tính bảng hoặc các thiết bị khác) Quá trình truyền nhận tín hiệu qua kênh không dây có thể được biểu diễn toán học bằng phương trình sau: y(t) =x(t)×h(t) +n(t), (2.1) trong đót đại diện cho thời gian, x chỉ định các tín hiệu ban đầu được tạo ra tại thiết bị phát, y chỉ định các tín hiệu nhận được ở thiết bị thu, h chỉ định hệ số kênh truyền, đặc trưng cho một số loại kênh tham chiếu nhất định, và nchỉ định nhiễu cộng hưởng được thêm vào khi tín hiệu đi qua kênh truyền ở các trạm phát sóng Các mô hình suy giảm kênh truyền khác nhau có thể kể đến như mô hình kênh truyền đường trễ cụm (clustered delay line – CDL) hoặc mô hình kênh truyền Rayleigh Nhiễu cộng hưởng có thể bao gồm nhiều loại, có thể kể đến như nhiễu Gaussian trắng cộng hưởng (additive white gaussian noise – AWGN), nhiễu nhiệt độ (thermal noise – TN), nhiễu mờ đa đường (multipath fading noise – MFN), nhiễu xung (impulsive noise – IN).

Hơn nữa, một số hiện tượng thực tế trong truyền thông không dây như hiệu ứng phân tán đa đường, phân tán thời gian và hiệu ứng Doppler (xuất phát từ sự chuyển động tương đối giữa bộ phát và bộ thu), có thể gây suy giảm chất lượng tín hiệu và cần được xem xét Hiệu ứng phân tán đa đường xảy ra khi tín hiệu truyền tới thiết bị nhận qua nhiều con đường khác nhau, gây ra sự chồng chéo tín hiệu Hiệu ứng phân tán thời gian xảy ra khi tín hiệu được phân mảnh trước khi truyền và các phần khác nhau của tín hiệu được thu lại được tại các thời điểm khác nhau, dẫn đến sự biến dạng của tín hiệu Hiệu ứng Doppler, do sự di chuyển của các thiết bị, làm thay đổi tần số của tín hiệu nhận được Những yếu tố này đều ảnh hưởng đến hiệu suất tổng thể của hệ thống truyền thông không dây Đặc biệt, trong ngữ cảnh vô tuyến nhận thức, khi mà các hệ thống truyền nhận được thiết kế thông minh để phát hiện một khoảng phổ đang sử dụng hay không, và nhảy (hoặc thoát khỏi nếu cần thiết) rất nhanh qua một khoảng phổ tạm thời không sử dụng khác, nhằm không gây nhiễu cho các hệ thống được cấp phép khác, các tác nhân này đặc biệt gây khó khăn cho các nhà quản lý dịch vụ mạng khi không thể xác định thủ

Hình 2.1: Mô hình mạng không dây cho truyền nhận tín hiệu 5G – LTE Đường gạch đứt màu đen đại diện cho các mặt phẳng điều khiển (control planes) và đường gạch liền màu đen đại diện cho mặt phẳng người dùng (user planes). công các vùng tần số không sử dụng để tối ưu hóa mạng Điều này đặt ra những thách thức cũng như yêu cầu thiết kế một hệ thống thông minh tự động nhận diện tín hiệu trong môi trường truyền nhận không hoàn hảo.

Về mặt tổng quát, mô hình truyền nhận tín hiệu 5G NR và LTE thực tế được mô tả ở mức cơ bản như hình 2.1 Mạng không dây hoạt động thông qua hai mặt phẳng chính là mặt phẳng điều khiển (control planes – CP) và mặt phẳng người dùng (user planes – UP) CP đóng vai trò như hệ thống điều khiển giao thông, đảm bảo tín hiệu được định tuyến đến đúng thiết bị, còn UP chịu trách nhiệm truyền tải dữ liệu thực tế Thiết bị người dùng (user equipment – UE) là bất kỳ thiết bị nào có thể kết nối với mạng không dây để nhận tín hiệu, chẳng hạn như điện thoại di động, máy tính bảng, máy thu tín hiệu. Ngoài ra, mạng không dây 5G và LTE còn có các core chịu trách nhiệm xử lý và chuyển tiếp dữ liệu giữa UE và dịch vụ mạng, cung cấp một cách tổng quan về tốc độ, độ trễ và chất lượng tín hiệu Việc hiểu rõ các yếu tố này là cần thiết để phát triển và tối ưu hóa các hệ thống truyền thông không dây hiện đại, đảm bảo chúng hoạt động hiệu quả trong các điều kiện thực tế phức tạp.

LTE là một chuẩn công nghệ không dây được phát triển bởi 3GPP (Third Gener- ation Partnership Project) nhằm cung cấp tốc độ truyền dữ liệu cao, độ trễ thấp và hiệu quả phổ tần tốt hơn so với các thế hệ mạng di động trước đó, đồng thời LTE cũng được xem như là một chuẩn công nghệ tiệm cận với 4G (fourth-generation) ngày nay LTE được thiết kế để đáp ứng nhu cầu ngày càng tăng về dữ liệu và các dịch vụ đa phương tiện, đồng thời cung cấp nền tảng mạnh mẽ cho sự phát triển của các ứng dụng và dịch

Hình 2.2: Kiến trúc của mạng LTE [11] bao gồm hai thành phần chính là E-UTRAN và ETC, giúp kết nối và giao tiếp giữa UE và mạng bên ngoài. vụ tương lai.

Kiến trúc của mạng LTE:Mạng LTE bao gồm hai thành phần chính: E-UTRAN (evolved universal terrestrial radio access network) và EPC (evolved packet core) E- UTRAN bao gồm các trạm gốc eNodeB (evolved NodeB), trong khi EPC bao gồm các thành phần mạng lõi như MME (mobility management entity), S-GW (serving gateway) và PDN-GW (packet data network gateway), được thể hiện một cách trực quan thông qua hình 2.2 Mỗi bộ phận trong mạng LTE đều đóng một vai trò quan trọng như:

•eNodeB: Trạm gốc eNodeB chịu trách nhiệm truyền và nhận dữ liệu từ các UE. eNodeB quản lý tài nguyên vô tuyến và thực hiện các chức năng như điều khiển kết nối, quản lý tài nguyên, và xử lý tín hiệu.

•MME: Quản lý di động, đăng ký, và xác thực người dùng.

•SGW: Chuyển tiếp dữ liệu giữa E-UTRAN và EPC.

•PGW: Kết nối mạng LTE với các mạng dữ liệu ngoài, như Internet.

Các tham số của tín hiệu: Trong thực tế, các tín hiệu được tạo ra và tuân theo các bộ tham số tín hiệu riêng biệt của chúng một cách nghiêm ngặt [12] Với LTE, các tham số nổi bật có thể kể đến như kênh tham chiếu, băng thông và chế độ song công.

•Kênh tham chiếu trong LTE: Kênh tham chiếu trong LTE là một phần quan trọng của hệ thống tín hiệu, cung cấp các tiêu chuẩn để hiệu chỉnh và đánh giá chất lượng kênh truyền Kênh tham chiếu được sử dụng để quy định các phương thức truyền dẫn, số lượng khối tài nguyên được sử dụng cho truyền dẫn, phương thức điều chế, số lượng cổng ăng-ten được sử dụng hay tỷ lệ giữa số bit dữ liệu gốc và tổng số bit sau khi mã hóa Tất cả những thông số này sẽ được quy định rõ ràng trong kênh tham chiếu và đóng vai trò quan trọng trong việc xác định hiệu suất và chất lượng của hệ thống LTE.

•Băng thông trong LTE: LTE hỗ trợ nhiều tùy chọn băng thông để đáp ứng các yêu cầu khác nhau của mạng và người dùng, từ1,4MHz đến20MHz Sự linh hoạt này cho phép các nhà cung cấp dịch vụ tối ưu hóa việc sử dụng phổ tần, cải thiện hiệu suất và đáp ứng các nhu cầu về dịch vụ và ứng dụng khác nhau Cụ thể hơn, mạng LTE thường sử dụng một số băng thông nhất định cho những mục đích khác nhau như băng thông3 MHz và5MHz cung cấp sự cân bằng giữa tốc độ truyền dữ liệu và phủ sóng, phù hợp cho các ứng dụng di động phổ biến, băng thông10MHz và20MHz được sử dụng trong các khu vực đô thị hoặc các khu vực cần tốc độ dữ liệu cao, hỗ trợ các dịch vụ đòi hỏi băng thông lớn như streaming video chất lượng cao và các ứng dụng đám mây.

•Chế độ song công trong LTE: LTE hỗ trợ hai chế độ song công chính: song công phân chia theo tần số (frequency division duplex – FDD) và song công phân chia theo thời gian (time division duplex – TDD) Trong đó, FDD thường được ưa chuộng hơn với việc sử dụng hai dải tần riêng biệt cho việc truyền và nhận dữ liệu, một dải dành cho đường lên (uplink) và một dải dành cho đường xuống (downlink) Điều này giúp tăng cường hiệu suất truyền dẫn và giảm nhiễu lẫn nhau giữa các tín hiệu truyền và nhận. FDD thường được sử dụng trong các môi trường yêu cầu độ trễ thấp và truyền dẫn liên tục, chẳng hạn như các dịch vụ thoại và video.

Tương tự như LTE, 5G cũng là một chuẩn công nghệ không dây, đã nhanh chóng trở thành điểm nóng trong lĩnh vực viễn thông, hứa hẹn mang lại sự kết nối tốc độ cao, độ trễ thấp và khả năng đa dạng hóa ứng dụng Là một hệ thống phức tạp, 5G kết hợp nhiều công nghệ và ý tưởng mới để đáp ứng nhu cầu ngày càng tăng về dữ liệu và kết nối.

Kiến trúc của mạng 5G:Kiến trúc của mạng 5G thường được chia thành ba phần chính: RAN (radio access network), UPD (user plane function), và UE Nhìn chung, kiến trúc mạng 5G phức tạp hơn (được thể hiện ở hình 2.3), tạo điều kiện để quản lý truyền thông không dây tốt hơn Cách thức hoạt động của mạng 5G có thể được mô tả sơ bộ như sau:

• UE: UE là thiết bị người dùng, có thể là điện thoại thông minh hoặc thiết bị di động kết nối thông qua RAN tới trạm phát 5G và xa hơn là tới mạng bên ngoài, như Internet.

•UPF: UPR cung cấp chức năng mặt phẳng người dùng giúp vận chuyển lưu lượng dữ liệu giữa UE và các mạng bên ngoài.

TỔNG QUAN VỀ LÝ THUYẾT HỌC SÂU

Lý thuyết DL là một phần quan trọng của lĩnh vực trí tuệ nhân tạo (artificial intel- ligence – AI) và ML, trong đó, mạng nơ-ron sâu (deep neural network – DNN) đóng vai trò trung tâm Học sâu là một lĩnh vực nghiên cứu tập trung vào việc xây dựng và huấn luyện các DNN để học các biểu diễn phức tạp từ dữ liệu.

Mặt khác, DNN là một mạng nơ-ron nhân tạo (artificial neural network – ANN) với nhiều lớp ẩn Các lớp này đóng vai trò như các bộ lọc, trích xuất thông tin từ dữ liệu đầu vào và biến đổi nó thành các biểu diễn trừu tượng Điểm đặc biệt của DNN là các mô hình có khả năng tự động học các biểu diễn đặc trưng thay vì đòi hỏi sự can thiệp thủ công như các mô hình ML Sở dĩ các mô hình DNN có thể làm được điều đó vì cơ chế học có giám sát của nó dựa trên giá trị của hàm mất mát và bước lan truyền ngược (back propagation) để cập nhật giá trị trọng số dựa trên hàm mất mát Cụ thể, DNN có khả năng học trực tiếp từ dữ liệu thông qua việc điều chỉnh trọng số của các nơ-ron để làm cho đầu ra của mạng gần gũi hơn với kết quả thực tế Quá trình này thường sử dụng phương pháp lan truyền ngược, trong đó sự khác biệt giữa giá trị dự đoán và giá trị thực tế được lan truyền ngược từ lớp đầu ra về lớp đầu vào để cập nhật các trọng số Điều này cho phép mạng nơ-ron học và cải thiện hiệu suất của nó qua thời gian Ngoài ra, DNN nổi bật với khả năng học các biểu diễn đặc trưng từ dữ liệu Các lớp ẩn của mạng nơ-ron sâu có khả năng tạo ra các biểu diễn ngữ cảnh của dữ liệu đầu vào, các biểu diễn này có thể bao gồm thông tin quan trọng và trừu tượng giúp mạng nắm bắt các đặc trưng phức tạp của dữ liệu.

Sự phát triển của DL không chỉ dừng lại ở DNN, ngày nay, ngày càng có nhiều mô hình mới được xây dựng nhằm đáp ứng yêu cầu cao hơn của con người về độ chính xác, có thể kể đến như mạng nơ-ron tích chập (convolutional neural network – CNN), hay các mô hình được xây dựng hoàn toàn bằng cơ chế tự chú ý, Dưới đây, tác giả xin trình bày tóm lược một số lý thuyết cơ bản của các mạng học sâu được khảo sát và có liên quan đến đề tài.

DNN là một chuỗi các thuật toán được đưa ra để tìm kiếm các mối quan hệ trong các tập dữ liệu DNN hoạt động dựa trên việc bắt chước các hoạt động của não người. Các nơ-ron nhân tạo được thiết kế tương tự như các nơ-ron sinh học Nó tiếp nhận các tín hiệu đầu vào, ứng với mỗi tín hiệu này sẽ là một trọng số Các trọng số đại diện cho mức độ quan trọng của tín hiệu đầu vào Các nơ-ron nhân tạo sẽ tổng hợp các thông tin từ các đầu vào tương ứng theo trọng số của chúng và đưa vào các hàm kích hoạt DNN được tạo từ nhiều nơ-ron liên kết với nhau Trong quá trình huấn luyện, các trọng số đầu vào của các nơ-ron sẽ được tinh chỉnh cho phù hợp với tập huấn luyện Kiến trúc của một DNN bao gồm:

•Lớp đầu vào (input layer): Lớp này có số nơ-ron tương ứng với số biến không phụ thuộc lẫn nhau, thường được xem là kích thước đầu vào của mô hình.

•Lớp đầu ra (output layer): Lớp đầu ra có số nơ-ron tương ứng với số ngõ ra trong bài toán phân loại, hay còn có tên khác là số lớp đối tượng.

• Lớp ẩn (hidden layer): Là lớp không có quy định cụ thể về số lượng nơ-ron. Thông thường số lượng nơ-ron trong mỗi lớp ẩn thường là một số lũy thừa của 2 Số lượng lớp ẩn cần phải cân nhắc và tính toán hợp lý để tránh bị quá phức tạp hoặc quá đơn giản Trong một số tài liệu, các lớp ẩn này còn được biết đến với tên gọi khác là các lớp kết nối đầy đủ (fully connected layer – FC).

Hình 2.4 mô tả cấu trúc của một DNN đơn giản chỉ bao gồm1lớp đầu vào lấy dữ liệu,2lớp ẩn và1lớp đầu ra giúp phân loại dữ liệu.

Học trong DNN:Một trong những đặc điểm quan trọng của DNN là khả năng học từ dữ liệu DNN học bằng cách điều chỉnh các trọng số của các kết nối giữa các nơ-ron dựa trên sự khác biệt giữa đầu ra dự đoán và đầu ra thực tế (lỗi) Quá trình này thường được thực hiện thông qua một phương pháp gọi là "lan truyền ngược" (back propagation), trong đó lỗi được lan truyền ngược từ lớp đầu ra về lớp đầu vào và các trọng số được điều chỉnh để giảm thiểu lỗi này. Ứng dụng của DNN:Mạng nơ-ron nhân tạo đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau Dưới đây là một số ứng dụng phổ biến của DNN:

•Xử lý ảnh và thị giác máy tính: DNN được sử dụng để nhận dạng đối tượng trong ảnh, phân đoạn ảnh, nhận biết khuôn mặt, và thậm chí phục vụ cho ứng dụng xe tự hành.

•Xử lý ngôn ngữ tự nhiên: DNN đã đạt được thành công trong việc xây dựng các

Input Layer Hidden Layer Output Layer

Hình 2.4: Kiến trúc cơ bản của một DNN Các chấm tròn đại diện cho các trọng số học tập, giúp rút trích và học các đặc trưng từ dữ liệu đầu vào Các đường liền nét màu đen đại diện cho các phép nhân giữa các ma trận trọng số, từ đó tính toán đầu ra phân loại mong muốn. mô hình dịch máy, phân loại văn bản, và phân tích cảm xúc trong văn bản.

Tóm lại, mạng nơ-ron sâu đại diện cho một phần quan trọng của lĩnh vực trí tuệ nhân tạo và đã mang lại nhiều đóng góp quan trọng cho nhiều lĩnh vực ứng dụng khác nhau Sự đơn giản và tính linh hoạt của DNN làm cho nó trở thành một công cụ mạnh mẽ trong việc giải quyết các vấn đề phức tạp và không đồng nhất trong thế giới thực.

2.2.2 Mạng nơ-ron tích chập

CNN là một kiểu mạng học sâu đặc biệt được thiết kế để xử lý và phân tích hình ảnh dựa trên mối tương quan không gian giữa các đối tượng có trong hình ảnh đó Trong quá trình phát triển DNN, các nhà nghiên cứu nhận ra rằng việc làm phẳng dữ liệu hình ảnh vốn đang ở định dạng2D thành1D sử dụng làm đầu vào cho DNN sẽ vô tình làm mất đi các mối quan hệ về không gian của các hình ảnh Vì thế, khi mà các lớp tích chập xuất hiện, CNN đã đánh bại DNN trong nhiều bài toán thị giác máy tính phức tạp và là một thành phần quan trọng trong nhiều ứng dụng như nhận dạng đối tượng, xử lý hình ảnh y tế, xe tự lái và nhiều lĩnh vực khác Nói cách khác, CNN là một trong những thành tựu mang tính đột phá trong dành cho lĩnh vực xử lý ảnh.

Hình 2.5: Kiến trúc CNN cơ bản trong bài toán phân loại đối tượng Các lớp tích chập và tổng hợp giúp biểu diễn các đặc trưng có trong ảnh, từ đó hình thành bản đồ đặc trưng Tiếp theo, các bản đồ đặc trưng được thông qua quá trình làm phẳng và các lớp

FC để có được đầu ra dự đoán.

Cấu trúc của CNN:Về cơ bản, một CNN có cấu trúc bao gồm những lớp sau:

• Lớp tích chập (convolutional layer): Lớp này là trái tim của CNN Nó sử dụng các bộ lọc (còn gọi là kernels hoặc filters) để thực hiện phép tích chập trên ảnh đầu vào.

PHÂN ĐOẠN NGỮ NGHĨA TRONG ẢNH DÙNG HỌC SÂU

2.3.1 Phân đoạn ngữ nghĩa và phân đoạn đối tượng

Phân đoạn ngữ nghĩa (semantic segmentation) và phân đoạn đối tượng (instance segmentation) là hai bài toán quan trọng trong lĩnh vực thị giác máy tính, nhưng chúng có mục tiêu khác nhau trong việc phân loại và định vị đối tượng trong hình ảnh.

Phân đoạn ngữ nghĩa (semantic segmentation): Mục tiêu của phân đoạn ngữ nghĩa là gán mỗi pixel trong hình ảnh vào một lớp hoặc danh mục đối tượng cụ thể Kết quả là các pixel cùng thuộc về cùng một lớp có cùng giá trị pixel Ví dụ, nếu có một hình ảnh của con mèo trên một nền xanh lá cây, thì tất cả các pixel của con mèo và tất cả các pixel của nền xanh lá cây đều được gán vào hai lớp khác nhau Điều này phù hợp với các công việc đơn giản chỉ yêu cầu phân biệt giữa các lớp đối tượng có đặc điểm khác biệt rõ ràng.

Phân đoạn đối tượng (instance segmentation): Mục tiêu của phân đoạn đối tượng là phân biệt và định vị từng đối tượng cụ thể trong hình ảnh Mỗi đối tượng được xác định bằng một mặt phẳng hoặc một vùng riêng biệt Kết quả là các pixel của từng đối tượng cụ thể được gán vào một đối tượng riêng biệt Điều này có nghĩa là nếu trong hình ảnh có nhiều con mèo, mỗi con mèo sẽ có một vùng đặc biệt riêng biệt cho riêng nó và không bị gộp chung với các đối tượng khác.

Sự lựa chọn giữa hai phương pháp này phụ thuộc vào nhiệm vụ cụ thể và tài nguyên có sẵn Phân đoạn đối tượng thường được ưa chuộng trong các ứng dụng yêu cầu phân biệt cụ thể giữa các đối tượng trong cùng một lớp, trong khi phân đoạn ngữ nghĩa có thể đủ cho các ứng dụng đơn giản hơn Khi ứng dụng vào lĩnh vực cảm biến phổ, đặc biệt là phân đoạn các tín hiệu trong ảnh phổ, các nhà nghiên cứu thường ưa chuộng việc sử dụng phân đoạn ngữ nghĩa hơn, mục đích sau cùng là phân đoạn rạch ròi vị trí của từng lớp đối tượng trong ảnh Mặt khác, do tính chất đặc thù các tín hiệu 5G – LTE là không phân chia ra từng đối tượng cụ thể của một tín hiệu, nên việc sử dụng phân đoạn đối tượng là không cần thiết.

2.3.2 Phân đoạn ngữ nghĩa trong ảnh dùng học sâu

Phân đoạn ngữ nghĩa là một nhiệm vụ trong thị giác máy tính nhằm gán cho mỗi pixel trong một hình ảnh một nhãn lớp ngữ nghĩa Khác với phát hiện đối tượng, phân đoạn ngữ nghĩa không chỉ xác định các đối tượng trong hình ảnh mà còn xác định vị trí và ranh giới của các đối tượng đó Bên cạnh đó, học sâu là một phương pháp học máy tự động sử dụng các mạng nơ-ron nhân tạo để mô hình hóa các mối quan hệ phức tạp giữa các dữ liệu đầu vào và đầu ra Trong phân đoạn ngữ nghĩa bằng học sâu, các mô hình CNN hay kiến trúc Transformer (được xây dựng từ các khối AM) thường hay được sử dụng để học cách trích xuất các đặc trưng từ hình ảnh để phân loại các pixel thành các lớp ngữ nghĩa Một mặt, các mô hình CNN có cấu trúc gồm nhiều lớp tích chập và lớp kết nối đầy đủ Các lớp tích chập được sử dụng để trích xuất các đặc trưng cục bộ từ hình ảnh, trong khi các lớp kết nối đầy đủ được sử dụng để phân loại các đặc trưng này thành các lớp ngữ nghĩa Trong khi đó, các mô hình Transformer lại chú trọng vào việc nhận diện các mối quan hệ không gian giữa các đối tượng trong hình ảnh, giúp nhấn mạnh vào điểm khác biệt giữa các đối tượng, từ đó nâng cao hiệu suất phân đoạn Nhìn chung, các mô hình phân đoạn dựa trên học sâu hiện nay đều tập trung chủ yếu vào việc xây dựng một kiến trúc mã hóa – giải mã nhằm mục đích sinh ra đầu ra sao cho giống nhất với bản đồ đầu ra thực tế.

Kiến trúc mã hóa – giải mã cho bài toán phân đoạn ngữ nghĩa: Kiến trúc mã hóa – giải mã, thường được biết đến thông qua sự ra đời của mô hình U-Net [16] và các biến thể của nó, là một thành phần cốt lõi trong các bài toán phân đoạn ngữ nghĩa.

Mã hóa (encoder) là phần đầu của kiến trúc, thường bao gồm một mạng nơ-ron sâu để biểu diễn hình ảnh đầu vào thành các đặc trưng có mức độ trừu tượng cao hơn Các lớp trong bộ mã hóa thường bao gồm các lớp tích chập và các lớp tổng hợp, giúp giảm dần kích thước không gian của ảnh và tập trung vào các đặc trưng quan trọng Việc này không chỉ giúp giảm số lượng thông tin cần thiết để xử lý mà còn giúp trích xuất các đặc trưng hữu ích từ hình ảnh Trong xử lý hình ảnh, phần mã hóa giúp trích xuất thông tin quan trọng từ hình ảnh, tạo nên một bản đồ đặc trưng chứa đựng các thông tin cần thiết cho quá trình phân đoạn Các đặc trưng này sau đó được truyền đến phần giải mã.

Giải mã (decoder) là phần thứ hai của kiến trúc và thường bao gồm một mạng nơ-ron để tạo ra đầu ra dự đoán dựa trên thông tin từ bộ mã hóa Bộ giải mã thường bao gồm các lớp tích chập chuyển vị (transposed convolutional layers) hoặc các lớp tăng kích thước (upsampling layers), giúp khôi phục lại kích thước không gian của ảnh về kích thước ban đầu Mục tiêu của bộ giải mã là sử dụng các đặc trưng trừu tượng từ bộ mã hóa để tái tạo lại một bản đồ phân đoạn chính xác, nơi mỗi pixel được gán nhãn theo đối tượng tương ứng Nhờ có sự kết hợp hiệu quả của cả hai phần, kiến trúc mã hóa – giải mã đã chứng minh tính hiệu quả vượt trội trong các nhiệm vụ phân đoạn ngữ nghĩa. Điều này đã thúc đẩy nhiều nghiên cứu và cải tiến trong lĩnh vực này, từ việc sử dụng các kiến trúc CNN cơ bản đến những cải tiến phức tạp hơn.

Trong những năm gần đây, ngoài việc sử dụng các kiến trúc CNN cơ bản để tạo ra một bộ mã hóa – giải mã mạnh mẽ như các nghiên cứu đã chỉ ra [9, 17, 18], các nhà nghiên cứu còn đề xuất những mô hình tiên tiến hơn Các mô hình này kết hợp các kiến trúc AM vào trong cấu trúc mã hóa – giải mã thông thường nhằm tăng cường độ chính xác và khả năng tổng quát của mô hình Các cơ chế chú ý giúp mô hình tập trung vào các phần quan trọng của ảnh và bỏ qua những thông tin không cần thiết, cải thiện hiệu suất của mô hình trong việc nhận diện và phân đoạn các đối tượng phức tạp trong ảnh.

Ví dụ, các mô hình như UNetFormer [19], STDS-Net [20], và ST-UNet [21] đã kết hợp các cơ chế chú ý và các kỹ thuật học sâu tiên tiến khác, mang lại những cải tiến đáng kể về độ chính xác và hiệu quả cho các bài toán phân đoạn ngữ nghĩa Những nghiên cứu này không chỉ mở ra những khả năng mới trong việc phân đoạn ảnh mà còn đặt nền móng cho các ứng dụng thực tế trong nhiều lĩnh vực, từ y tế, giao thông, đến thị giác máy tính và robot tự hành.

TỔNG QUAN VỀ CÁC MẠNG HỌC SÂU TRONG PHÂN ĐOẠN NGỮ NGHĨA HÌNH ẢNH

ĐOẠN NGỮ NGHĨA HÌNH ẢNH

Trong phần này, tác giả muốn khảo sát các mô hình mạng học sâu tiên tiến được xây dựng trên kiến trúc bộ mã hóa – giải mã dành cho phân đoạn ngữ nghĩa hình ảnh.

Cụ thể hơn, tác giả đề xuất khảo sát ba mô hình phát triển kiến trúc mã hóa - giải mã theo ba hướng khác nhau Đầu tiên là mô hình kiến trúc mã hóa – giải mã một nhánh thông thường, hay còn gọi kiến trúc U-shape, đại diện là DeepLabV3+ [10] Các mô hình đi theo kiểu kiến trúc này thường đơn giản, dễ triển khai, đồng thời thuận tiện cho việc đề xuất các cải tiến đi kèm nhằm tăng cường độ chính xác Mô hình thứ hai mà tác giả muốn khảo sát là BiSeNet [17], đại diện cho việc xây dựng mạng hai nhánh, với việc thêm một đường dẫn không gian song song với đường dẫn ngữ cảnh giúp rút trích và bổ sung các đặc trưng cần thiết cho giai đoạn giải mã Cuối cùng, tác giả khảo sát mô hìnhSwin-Unet [22], đại diện cho việc áp dụng các cơ chế AM nhằm tăng cường sự nhận dạng của mô hình với các đối tượng trong ảnh, từ đó làm giàu lượng thông tin rút trích được thông qua phần mã hóa.

Hình 2.7: Kiến trúc của mạng DeepLabV3+ [10] DeepLabV3+ xây dựng từ mô hình mạng mã hóa (khung màu xanh) – giải mã (khung màu đỏ) một nhánh thông thường, tích hợp các lớp tích chập atrous để đạt được hiệu suất phân đoạn ảnh rất cao.

DeepLabV3+ [10] là một trong những mô hình tiên tiến nhất và hiệu quả nhất trong lĩnh vực xử lý ảnh và phân đoạn hình ảnh Được phát triển bởi một nhóm nghiên cứu bao gồm Liang – Chieh Chen và cộng sự, mô hình này đại diện cho một sự tiến bộ đáng kể trong việc xử lý hình ảnh và thị giác máy tính DeepLabV3+ là một sự mở rộng và cải tiến của tiền thân của nó, DeepLabV3 [9], và nó đã chứng minh khả năng xuất sắc trong nhiều nhiệm vụ xử lý ảnh phức tạp, chẳng hạn như nhận diện đối tượng và phân đoạn hình ảnh.

Cũng được xây dựng dựa trên kiến trúc kinh điển bao gồm bộ mã hóa – giải mã, tuy nhiên, DeepLabV3+ lại mang trong mình những điểm thay đổi mấu chốt, mang tính quyết định đưa nó lên làm một trong những mô hình nhẹ, độ chính xác cao, và nằm trong số những mô hình có hiệu quả phân đoạn cao nhất hiện nay Kiến trúc của DeepLabV3+ (tham khảo hình 2.7) bao gồm các thành phần quan trọng sau:

• Mạng nơ-ron tích chập sâu DNN: DeepLabV3+ sử dụng một mạng nơ-ron tích chập sâu và mạnh mẽ, thường là một biến thể của ResNet [23] hoặc MobileNetV2 [24], để trích xuất các đặc trưng cấp cao từ hình ảnh đầu vào Sự tinh vi và phức tạp của mạng nơ-ron này cho phép nắm bắt các đặc trưng quan trọng ở nhiều cấp độ khác nhau của hình ảnh Cụ thể, DeepLabV3+ có xu hướng thay đổi các lớp tích chập thông thường ở vị trí sâu nhất trong mạng nơ-ron thành các lớp tích chập atrous (atrous convolution) thông qua việc giới thiệu hệ số giãn nở (hay còn gọi là rate) để tăng cường vùng nhận thức của lớp tích chập đó khi nó quét qua bản đồ đặc trưng.

• Tích chập atrous: Đây là một trong những cải tiến lớn của họ nhà DeepLab, DeepLabV3+ sử dụng tích chập atrous (còn được gọi là dilated convolution – tích chập giãn nở) để mở rộng phạm vi nắm bắt thông tin ngữ cảnh của các bộ lọc tích chập, trong khi số lượng trọng số vẫn được giữ nguyên không thay đổi Điều này giúp mô hình nắm bắt thông tin trọng yếu từ hình ảnh một cách hiệu quả hơn Các tỷ lệ kéo giãn khác nhau được áp dụng trong các lớp tích chập của DNN để tạo ra nhiều phạm vi ngữ cảnh khác nhau.

Trên thực tế, một bộ lọc tích chập thông thường cũng có thể xem là một bộ lọc tích chập có hệ số giãn nở là1 Mặt khác, với một bộ lọc tích chập có kích thước là3×3và hệ số giãn nở là2 sẽ cho một vùng nhận thức tương đương bộ lọc tích chập5×5, tuy nhiên số lượng trong số vẫn giữ nguyên giá trị là9, thay vì là25như thông thường.

• Mô-đun ASPP (Atrous Spatial Pyramid Pooling): Đây là một thành phần quan trọng của DeepLabV3+ giúp kết hợp thông tin từ nhiều phạm vi ngữ cảnh khác nhau.

Nó bao gồm một loạt các lớp tích chập atrous với các hệ số giãn nở khác nhau, cho phép mô hình nắm bắt đặc trưng từ các quy mô khác nhau của hình ảnh Điều này giúp tăng cường khả năng phân đoạn và nhận diện trong hình ảnh.

Về mặt tổng quát, DeepLabV3+ hoạt động bằng cách kết hợp rút trích các đặc trưng cấp cao từ hình ảnh đầu vào thông qua một DNN được huấn luyện sẵn, có thực hiện sửa đổi một vài lớp tích chập thông thường thành tích chập với hệ số giãn nở để tăng cường vùng nhận thức đồng thời đảm bảo giữ nguyên độ phức tạp của mạng Cuối DNN sẽ là một khối ASPP, có nhiệm vụ lấy bản đồ đặc trưng rút ra được từ DNN và áp dụng cùng lúc các bộ lọc với tỉ lệ khác nhau để thu thêm thông tin đặc trưng nhiều độ phân giải trên bản đồ đặc trưng Sau đó, thông tin này được kết hợp với đầu ra của lớp tích chập trước đó thông qua một quá trình giảm mẫu và phần còn lại là các quá trình tăng mẫu của bộ giải mã giúp tạo ra một dự đoán phân đoạn chính xác, đáng tin cậy.

BiSeNet [17] là một trong những mô hình tiên tiến và hiệu quả nhất trong lĩnh vực xử lý ảnh và phân đoạn hình ảnh Được phát triển bởi một nhóm nghiên cứu gồm Changqian Yu và cộng sự, mô hình này đại diện cho một bước tiến đáng kể trong việc cải thiện tốc độ và độ chính xác của phân đoạn ảnh thời gian thực BiSeNet là viết tắt của Bilateral Segmentation Network (mạng phân đoạn song phương hay còn gọi là mạng phân đoạn hai nhánh) và đã chứng minh khả năng vượt trội trong nhiều nhiệm vụ xử lý ảnh phức tạp, chẳng hạn như nhận diện đối tượng và phân đoạn ảnh.

Khác với các mô hình mã hóa – giải mã truyền thống, BiSeNet sử dụng một kiến trúc kép với hai nhánh riêng biệt để xử lý thông tin, gồm nhánh ngữ cảnh (context path)

Hình 2.8: Kiến trúc của mạng BiSeNet, nổi bật với việc xây dựng kiến trúc mã hóa – giải mã hai nhánh là context path và spatial path Đồng thời BiSeNet cũng đề xuất một vài mô-đun hỗ trợ tổng hợp dữ liệu giúp cho quá trình phân đoạn trở nên nhanh chóng và chính xác hơn. và nhánh không gian (spatial path) Sự kết hợp này giúp tăng cường khả năng nắm bắt thông tin không gian chi tiết đồng thời duy trì khả năng hiểu ngữ cảnh rộng của ảnh. Kiến trúc của BiSeNet, được mô tả ở hình 2.8, bao gồm các thành phần quan trọng sau:

•Nhánh không gian: Nhánh này được thiết kế để duy trì độ phân giải không gian của ảnh đầu vào và nắm bắt các thông tin chi tiết về không gian Nhánh không gian thường sử dụng các lớp tích chập với số lượng kênh lớn để đảm bảo rằng các đặc trưng không gian được giữ nguyên và chi tiết.

•Nhánh ngữ cảnh: Nhánh này có nhiệm vụ trích xuất các đặc trưng ngữ cảnh cấp cao từ hình ảnh Thông thường, nhánh ngữ cảnh sẽ sử dụng một mạng nơ-ron tích chập sâu như ResNet, nhưng với việc giảm dần độ phân giải để nắm bắt thông tin ngữ cảnh từ các phần rộng lớn hơn của ảnh BiSeNet còn tích hợp các lớp tích chập atrous trong nhánh này để mở rộng phạm vi nhận thức mà không tăng số lượng trọng số.

KỸ THUẬT CẮT GIẢM ĐỘ PHỨC TẠP CỦA MÔ HÌNH HỌC SÂU 27 CHƯƠNG 3 THIẾT KẾ HỆ THỐNG 28

Cắt giảm mạng học sâu nổi lên như một kỹ thuật để giải quyết thách thức giảm số lượng trọng số học tập trong khi vẫn duy trì hiệu suất của mô hình Việc này là một chiến lược phổ biến trong việc tối ưu hóa mạng nơ-ron, nhằm giảm bớt khối lượng tính toán và bộ nhớ cần thiết để triển khai mô hình trên các thiết bị có tài nguyên hạn chế hoặc trong các ứng dụng yêu cầu tốc độ cao Phương pháp này thường được sử dụng sau khi mạng nơ-ron đã được huấn luyện hoặc trong quá trình huấn luyện để ngăn chặn việc phát triển quá mức của mạng Có một số phương pháp phổ biến để cắt giảm số lượng trọng số của mạng có thể được liệt kê như:

•Cắt tỉa (pruning): Phương pháp này loại bỏ các trọng số có giá trị nhỏ hoặc không quan trọng nhất trong mạng Quá trình cắt tỉa có thể được thực hiện dựa trên ngưỡng, giữ lại các trọng số có giá trị lớn nhất, hoặc dựa trên phương pháp tối ưu hóa, trong đó các trọng số được cập nhật sao cho có một số trọng số không quan trọng sẽ có giá trị gần như bằng 0.

• Lượng tử hóa (quantization): Phương pháp này giảm số lượng bit cần thiết để biểu diễn các trọng số và kích thước của mạng, từ đó giảm bớt tài nguyên bộ nhớ và tính toán Lượng tử hóa có thể áp dụng cho cả trọng số và đầu ra của các lớp.

• Phân tích ra thành nhân tử (factorization): Phương pháp này chia các ma trận trọng số lớn thành các ma trận nhỏ hơn có hình dạng đặc biệt, như ma trận nhân tử, ma trận đường chéo hoặc ma trận thưa Điều này giúp giảm số lượng trọng số học tập và yêu cầu tài nguyên tính toán cần thiết cho mạng.

•Truyền đạt kiến thức (knowledge distillation): Phương pháp này huấn luyện một mạng nhỏ (mạng học sinh) để sao chép và học từ một mạng lớn hơn (mạng giáo viên). Mạng học sinh thường có số lượng tham số ít hơn và được điều chỉnh để tái tạo kết quả của mạng giáo viên.

Quá trình cắt giảm và tối ưu hóa số lượng trọng số của mạng là một phần quan trọng của quá trình tối ưu hóa và triển khai mạng nơ-ron trong các ứng dụng thực tế,giúp tăng hiệu suất và tính hiệu quả của mạng Tuy nhiên, việc cắt giảm cũng có thể ảnh hưởng đến hiệu suất của mạng, vì vậy cần được thực hiện cẩn thận và đánh giá kỹ lưỡng.Trong mô hình đề xuất, tác giả nhận ra các phương pháp lượng tử hóa, phân tích ma trận trọng số ra thành nhân tử hay truyền đạt kiến thức trở nên quá phức tạp và có thể gây khó khăn cho việc triển khai vào mô hình Vì thế, tác giả đề xuất phương pháp cắt tỉa trọng số cho mô hình học sâu của mình, nhằm giảm bớt số lượng trọng số cần thiết mà vẫn duy trì được độ chính xác ở một mức độ nhất định.

YÊU CẦU CỦA HỆ THỐNG

Hệ thống đề xuất đề xuất được thiết kế để đảm bảo đáp ứng được các nguyên tắc cụ thể của một hệ thống hoàn chỉnh và tuân thủ các yêu cầu sau:

• Có khả năng áp dụng để phân đoạn ngữ nghĩa các phổ tín hiệu 5G – LTE thu được trong môi trường truyền nhận không dây.

• Mô hình học sâu đề xuất có sự cải thiện trong việc nhận biết và phân đoạn các đối tượng là tín hiệu và vùng phân bố của nó trong ảnh phổ so với các mô hình cơ sở.

•Mô hình được cải tiến phải có sự vượt trội so với các mô hình tiên tiến khác hiện có trong lĩnh vực phân đoạn ngữ nghĩa.

Ngoài ra, hệ thống còn phải đảm bảo một số yêu cầu về mặt kỹ thuật liên quan đến độ phức tạp và hiệu suất cải thiện của mạng học sâu, nhằm đảm bảo ứng dụng vào các nhiệm vụ yêu cầu tính chính xác, cụ thể là:

•Số lượng trọng số huấn luyện của mô hình cải tiến phải có sự giảm thiểu so với mô hình cơ sở.

•Hiệu suất của mô hình được đánh giá dựa trên các phép đo về độ chính xác phải có sự cải thiện so với mô hình cơ sở.

TỔNG QUAN KIẾN TRÚC HỆ THỐNG

Đối với mô hình truyền nhận tín hiệu trong mạng truyền thông không dây cho tín hiệu 5G – LTE, tác giả đề xuất áp dụng một giải pháp hoàn chỉnh cho các tín hiệu thô thu được ở các máy thu (UE), thông qua việc áp dụng chuyển đổi tín hiệu từ miền thời gian sang miền tần số để thu được ảnh phổ tín hiệu Đối với ảnh phổ tín hiệu thu được, tác giả mong muốn áp dụng thành tựu của thị giác máy tính để thu được sự cải thiện về hiệu suất phân đoạn dải phổ của tín hiệu bằng cách sử dụng một phương pháp phân đoạn tín hiệu dựa trên DL Cụ thể hơn, tác giả phát triển một mạng học sâu được cải tiến từ các mạng học sâu tiên tiến nhất trong nhiệm vụ phân đoạn ngữ nghĩa ảnh.

Kết quả thu được của mô hình đề xuất của tác giả là một bức ảnh phổ đã được phân đoạn, chỉ ra cụ thể vị trí của tín hiệu 5G (hay còn gọi là NR) và LTE cùng tồn tại trong

LTE 5G NR Spectrum segmented map

Hình 3.1: Tổng quan về truyền thông không dây với việc áp dụng FFT và DL để phân đoạn dải phổ của tín hiệu Đối với mỗi tín hiệu thu được tại máy thu, tác giả đề xuất chuyển đổi tín hiệu thô sang miền tần số để thu được ảnh phổ, đồng thời phát triển một mô hình mạng học sâu để phân đoạn phổ tín hiệu. cùng một dải tần số Tổng quan về kiến trúc của hệ thống của tác giả được có thể được tham khảo thông qua mô tả cụ thể hơn ở hình 3.1 Nhìn chung, mô hình của tác giả bao gồm hai mô-đun Một là phương pháp chuyển đổi tín hiệu thô từ miền thời gian sang ảnh phổ ở miền tần số Hai là phát triển một mô hình mạng học sâu giúp phân đoạn vị trí của tín hiệu có trong ảnh phổ đó.

PHƯƠNG PHÁP ĐỀ XUẤT

Như đã đề cập ở mục 3.2, đề tài này tập trung phát triển một phương pháp nhận biết phổ thông minh dựa trên DL để phân biệt tín hiệu 5G NR và LTE Thực tế cho thấy, các giải pháp nhận dạng tín hiệu thủ công xây dựng dựa trên sự hiểu biết về đặc trưng của tín hiệu sẽ gặp những khó khăn nhất định khi đối diện với các tác nhân gây ra suy giảm tín hiệu ngoài thực tế Trong bối cảnh vô tuyến nhận thức đang ngày càng được chú trọng, đặc biệt các nhà cung cấp mạng đang tìm kiếm các giải pháp tối ưu nhất để kiểm soát băng thông, tối ưu hóa lưu lượng mạng, thì việc phát triển một hệ thống thông minh tự động phân đoạn dải phổ của tín hiệu là vô cùng cần thiết Lấy cảm hứng từ sự tiến bộ của mạng nơ-ron sâu trong xử lý ảnh hoặc thị giác máy tính, đặc biệt là trong phân đoạn ngữ nghĩa, tác giả áp dụng phép FFT cho các tín hiệu thô thu được tại bộ thu để cho ra các bức ảnh phổ làm đầu vào cho một mô hình phân đoạn ngữ nghĩa Điều này không những tăng cường hiệu suất nhận dạng tín hiệu của mô hình mà còn giúp mô hình đề xuất thích ứng tốt hơn với các mô hình truyền nhận không hoàn hảo ngoài thực tế.

Chưa dừng lại ở đó, tác giả điều chỉnh lại các kiến trúc học sâu hiện có với một số cơ chế tinh vi để cải thiện độ chính xác của phân đoạn tín hiệu Cụ thể hơn, lấy cảm hứng từ sự tiến bộ của DeepLabV3+ trong phân đoạn ngữ nghĩa, tác giả linh hoạt sử dụng kiến trúc mã hóa – giải mã sâu của DeepLabV3+ với một khối ASPP mới thích ứng tốt hơn với dữ liệu và một cơ chế tự chú ý để cải thiện hiệu suất phân đoạn tín hiệu 5G và LTE trong hình ảnh phổ Cuối cùng, một phương pháp cắt giảm độ phức tạp của mô hình được áp dụng để tối ưu hóa hiệu suất phân đoạn về cả độ chính xác và độ phức tạp của phương pháp đề xuất.

Nhiều nghiên cứu đã chỉ ra rằng việc nhận diện tín hiệu được điều chế mang lại kết quả chính xác hơn so với việc nhận diện tín hiệu thô chưa qua xử lý Một công trình gần đây [7] đã chứng minh hiệu quả đáng kể của biến đổi Fourier (FT) trong phân loại tín hiệu, trong đó phương pháp dựa trên FT có hiệu suất vượt trội so với nhiều phương pháp sử dụng việc phân tích dữ liệu truyền thống được đúc kết từ kinh nghiệm xử lý những kết hợp phức tạp của tín hiệu Do đó, tác giả kế thừa ý tưởng đó và chuyển đổi tín hiệu từ miền thời gian sang miền tần số Tuy nhiên, tác giả đề xuất thay thế FT bằng FFT để cải thiện hiệu suất tính toán và tăng tốc khi làm việc với dữ liệu tín hiệu lớn Sự thay thế này sẽ giúp mô hình xử lý tín hiệu thời gian thực một cách nhanh chóng và hiệu quả hơn. Đối với mỗi dạng sóng tín hiệu nhận đượcy, tác giả áp dụng FFT 4096 điểm để chuyển đổi tín hiệuytừ miền thời gian sang tín hiệu ở miền tần số để thu được phổ tín hiệuY như sau:

∑ t=0 y(t)×e −i2π f t T , (3.1) trong đóe −i2π T f t là yếu tố phức tạo thành thành phần tần số của FFT,ilà đơn vị ảo, f là tần số,T là số mẫu trong chu kỳ của tín hiệu đầu vào, ở đây là 4096 Y biểu diễn phổ của tín hiệu đầu vào ở tần số f Để tăng cường tính trực quan, hình ảnh phổ được chuẩn hóa vào khoảng[0,1]trước khi chuyển đổi thành giá trị màu và được thay đổi kích thước thành256×256.

3.3.2 Khảo sát mô hình mạng phân đoạn DeepLabV3+ Áp dụng thành công trong thị giác máy tính, tác giả dự định xây dựng một mạng nơ-ron sâu (DNN) để phân đoạn tín hiệu được điều chế Hiện nay, có nhiều kiến trúc DNN đã được chứng minh là hiệu quả trong phân đoạn ngữ nghĩa, như U-Net [16], Mask R-CNN [27] và đặc biệt là các phiên bản của DeepLab [9, 10], đã đạt được những tiến bộ đáng kể và đã trở thành phương pháp tiên tiến mới trong các nhiệm vụ phân đoạn ngữ nghĩa. Để học các đặc trưng từ một vùng nhận thức lớn hơn trong khi vẫn duy trì hiệu suất tính toán, các mạng DeepLab đã được giới thiệu bằng cách tích hợp nhiều lớp tích chập atrous Các lớp này cho phép trích xuất đặc trưng không gian với một vùng nhận thức lớn hơn Các lớp tích chập atrous tính toán đặc trưng để tạo ra đầu ra theo công thức sau:

X a [i+r H u, j+r W v]×W a [u,v], (3.2) trong đó bộ lọcW a có kích thướcu×v để trích xuất đặc trưng cục bộ của đầu vàoX a ; rH vàrW chỉ định các hệ số giãn nở (dilation rate hay còn gọi là rate) trong chiều cao và chiều rộng tương ứng Thú vị là, các lớp convolution thông thường được định nghĩa với rH =rW =1.

Cùng với các lớp tích chập atrous, mô-đun ASPP được thiết kế để tạo điều kiện cho việc trích xuất đặc trưng tại nhiều tỷ lệ bằng các lớp tích chập atrous có hệ số giãn nở khác nhaur, điều này có nghĩa là rH =rW =rtrong DeepLabV3+ [10] Do đó, ASPP làm phong phú thêm thông tin liên quan đến ngữ cảnh không gian của các bản đồ đặc trưng nhờ việc mở rộng vùng nhận thức (vùng trên bản đồ đặc trưng mà tại một thời điểm mà lớp tích chập có thể quét được) mà không tăng số lượng trọng số cũng như chi phí tính toán, từ đó giúp mô hình thuận tiện cho các nhiệm vụ phân đoạn Đầu ra của ASPP là sự tổng hợp của nhiều bản đồ đặc trưng thu được từ các lớp tích chập atrous khác nhau với các hệ số giãn nở khác nhau thông qua một lớp nối theo chiều sâu như sau:

F ASPP =⟨A 1×1 1,1 (X),A 3×3 1,6 (X),A 3×3 1,12 (X),A 3×3 1,18 (X)⟩, (3.3) trong đóA n×n s,r biểu thị một hoạt động tuần tự, bao gồm lớp tích chập atrous (với kích thước bộ lọcn×n, bước nhảy (stride) s, và hệ số giãn nở r), chuẩn hóa batch (BN), và hàm kớch hoạt ReLU (rectified linear unit),X là đầu vào của ASPP và ⟨ã⟩ biểu thị một phép ghép nối theo chiều sâu của bản đồ đặc trưng.

Mặc dù DeepLabV3+ với ASPP đã đạt được một số tiến bộ để đạt hiệu suất đáng kể trong phân đoạn ngữ nghĩa, nó vẫn còn tồn tại hai nhược điểm, đầu tiên là sự thiếu hụt các đặc trưng không gian được trích xuất bởi các mạng lõi, như MobileNetV2 [24] và ResNet [23] trong bộ mã hóa và thứ hai là việc chọn hệ số giãn nở không hợp lý của các lớp tích chập atrous trong ASPP Để vượt qua nhược điểm này, tác giả cải thiệnDeepLabV3+ với một tập hợp các hệ số giãn nở mới thích ứng (adaptive dilation rate –ADR) trong ASPP và một cơ chế chú ý (attention mechanism – ATM) để cải thiện việc kết hợp đặc trưng đa tỷ lệ và tăng cường đặc trưng có liên quan. feature map

Hình 3.2: Ví dụ về tích chập atrous trong khối ASPP Hình ảnh mô tả một bộ lọc3×3 có hệ số giãn nở là18, tại một thời điểm chỉ có thể có một trọng số học tập (được ký hiệu bởi ô vuông màu xanh) được sử dụng để rút trích đặc trưng từ bản đồ đặc trưng (feature map), phần còn lại (được ký hiệu bởi ô vuông màu đỏ) là các trọng số học tập bị lãng phí tại thời điểm đó.

3.3.3 Mô hình cải tiến đề xuất

Mô-đun ADR:Việc triển khai khối ASPP trong kiến trúc DeepLabV3+ cơ sở có thể cải thiện khả năng rút trích đặc trưng đa tỉ lệ của mô hình, tuy nhiên, đối với tác vụ phân đoạn ảnh phổ với kích thước ảnh là256×256, nó không hoàn toàn phù hợp Các mạng lõi phổ biến như ResNet18 [23], ResNet50 [23] và MobileNetV2 [24] được tích hợp trong phần mã hóa của kiến trúc luôn cố gắng duy trì mức giảm độ phân giải xuống

16lần, khi đó đầu ra của mạng lõi là bản đồ đặc trưng kích thước16×16 Khối ASPP, nhận đầu vào là các bản đồ đặc trưng này, rút trích đặc trưng thông qua các lớp tích chập atrous với các vùng nhận thức có kích thước khác nhau, lần lượt là1,13,25 và37 Như được mô tả ở hình 3.2, rõ ràng một vùng nhận thức với kích thước37×37 (tương ứng với hệ số giãn nở là18) tại một thời điểm chỉ có duy nhất một trọng số học tập có khả năng quét qua bản đồ đặc trưng, gây nên sự lãng phí cho8trọng số còn lại Hơn thế nữa, số lượng bộ lọc sử dụng hệ số giãn nở là8trong khối ASPP cơ sở là rất lớn (512bộ lọc), điều này gây nên sự bùng nổ trong vấn đề lãng phí tài nguyên tính toán, chưa tính tới các trường hợp sử dụng các hệ số giãn nở còn lại. Để giải quyết vấn đề này, điều cần thiết là phải giảm hệ số giãn nở trong các lớp tích chập atrous xuống trong khoảng[1,7]để cung cấp một vùng nhận thức có kích thước tối đa là15×15, bé hơn so với kích thước bản đồ đặc trưng để tận dụng tốt hơn các trọng số học tập Mặt khác, nhằm duy trì điểm mạnh của khối ASPP là khả năng rút trích đặc trưng đa tỉ lệ, tác giả đề xuất một bộ hệ số mới là[1,2,4,6]để thích nghi tốt hơn với kích thước ngõ vào, khi đó, khối ASPP mới sẽ được biểu diễn bởi phương trình toán học sau:

Mô-đun ATM: Như đã đề cập ở các phần trước, các công trình nghiên cứu gần đây luôn tìm cách vận dụng cơ chế tự chú ý vào trong kiến trúc phân đoạn ngữ nghĩa, đặc biệt là phần mã hóa Điều này không chỉ giúp tăng cường khả năng biểu diễn mối quan hệ giữa các đối tượng có trong ảnh mà còn làm giàu thêm lượng thông tin có được từ các bộ mã hóa Tuy nhiên, các cơ chế tự chú ý được xây dựng nhằm chú trọng vào đặc trưng không gian thường đi kèm với sự bùng nổ về độ phức tạp so với việc tập trung vào mối liên hệ giữa các kênh trong bản đồ đặc trưng [22, 28] Mặt khác, một số công trình đã chứng minh rằng việc sử dụng các mối quan hệ theo kênh cũng có thể mang lại cải thiện đáng kể về độ chính xác mà vẫn bảo toàn được độ phức tạp [29].

Vì những lý do đó, bên cạnh mô-đun ADR, tác giả đề xuất tích hợp một cơ chế tự chú ý theo kênh nhằm nhấn mạnh sự tương quan lẫn nhau giữa các bản đồ đặc trưng.

Cụ thể, một mô-đun ATM đã được xây dựng dựa trên việc nghiên cứu thuật toán nén và phóng (squeeze-and-excitation – SE) [30] Trong thuật toán này, hai bước nén và phóng sẽ lần lượt được triển khai, đầu ra của SE sẽ được tính toán dựa trên công thức:

Tiêu đề	Cảm biến phổ trong vô tuyến nhận thức thông qua phát triển mô hình học sâu dùng cho phân đoạn tín hiệu LTE – 5G
Tác giả	Nguyễn Gia Vương
Người hướng dẫn	TS. Huỳnh Thế Thiện
Trường học	Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
Chuyên ngành	Hệ Thống Nhúng Và IoT
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	74
Dung lượng	8,24 MB