Việc ngày càng có nl nghiên cứu các thành phần của hệ thống ITS và đưavào ứng dụng là một xu thế tất yếu trong giao thông đô thị hiện nay, mục tiêu đảmbảo tính phân phối tài nguyên kết c
Trang 1ĐẠI HỌC QUÓC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 2LỜI CAM ĐOAN
Học viên xin cam đoan rằng, đề tài “Hệ thống thu thập thông tin thôngminh sw dụng giao tiếp LED-Camera phục vụ an toàn giao thông” là công trình
nghiên cứu của bản thân học viên dưới sự hướng, dẫn của TS Đỗ Trọng Hợp, là một
hợp phần trong Đề tài nghiên cứu cơ bản cùng tên do TS Đỗ Trọng Hợp làm Chủnhiệm, đề tài xuất phát từ nhu cầu ứng dụng thực tế của cuộc sống cũng là phạm vi,lĩnh vực mà học viên đang công tác và là nguyện vọng mong muốn nghiên cứu tìmhiểu công nghệ của học viên
Bên cạnh các kết quả tham khảo từ các công trình khác đã ghi rõ trích dẫntrong luận văn, các nội dung trình bày trong luận văn này là kết quả nghiên cứu dobản thân tự thực hiện và các kết quả của luận văn chưa từng được tác giả khác cong
bố trước đây dưới bat kỳ hình thức nao
Thành phó Hồ Chí Minh, Ngày 19 tháng 04 năm 2022
Học viên
Sử Đăng Hoai
Trang 3LỜI CẢM ƠN
Qua quãng thời gian học tập, nghiên cứu tại Trường Đai học Công nghệ
thông tin, được sự hướng dẫn và giảng dạy nhiệt tình của Quý Thầy Cô, đặc biệt làcác Thầy Cô ngành Công nghệ thông tin, ngành Khoa học máy tính đã truyền đạtnhững kiến thức mới cũng nhưng những kinh nghiệm quý báu trong suốt thời gian
viên rất mong nhận được sự góp ý quý báu của quý Thầy Cô
Một lần nữa xin được kính chúc Thầy Cô nhiều sức khỏe, niềm vui và thànhcông trong công việc và cuôc sông.
Trang 4LỜI CAM ĐOAN
1.1 MỤC TIÊU TONG QUA
1.2 MỤC TIÊU NGHIÊN CỨU CỤ THE
13 ĐÓI TƯỢNG VÀ PHAM VI NGHIÊN CUU
CHƯƠNG 2: TONG QUAN
2.1 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIẢ TRONG NƯỚC 16 2.2 TINH HÌNH NGHIÊN CỨU CUA CÁC TAC GIA NƯỚC NGOÀI
2.3 MỘT SÓ VAN ĐÈ CON TON TẠI
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT
3.1 MÔ HÌNH KIÊN TRÚC HỆ THONG GIAO TIẾP LED-CAMERA
3.4 LÝ THUYET VE MAY HỌC (MACHINE LEAR
3.4.1 Mạng nơ-ron (neuron) trong khói niệm sinh hoc
3.4.2 Mạng nơ-ron nhân tạo (Artificial Neural Networks)
3.5 LÝ THUYẾT VE MẠNG NƠRON TÍCH CHAI
3.5.1 Khái niệm mạng nơron tích chập (Convolutional Neural Network) và cơ chế tích chập
3.5.2 Các mô hình mạng noron tích chập (Convolutional Neural Networks) sử dung rong
bài toán nhận dạng ảnh.
3.6 MẠNG NORON TÍCH CHAP PYTORCH YOLO sU DỤNG TRO!
PHAM VI LUẬN VĂN
3.6.1 Tổng quan mạng PyTorch YOLOVS
Mô hình YOLOv5 có thể được tóm tắt như sau (Jocher, 2020) 3.6.2 Khung bao quanh đối tượng cần nhận diện boundary box 3.6.3 Hàm đánh gid xác suất dự đoán (Loss function):
3.6.4 Khả năng dự đoán boundary box:
3.7 MẠNG CNN BASED BIT CALASSIFICATION SỬ DỤNG TRO!
PHAM VI LUẬN VĂN
CHƯƠNG 4: MÔ HÌNH ĐÈ XUẤT
4.1 QUI TRINH THỰC NGHIỆM
Trang 6DANH MỤC HÌNH ẢNH
Hình 1: Mô hình kiến trúc logic hệ thống ITS (nguôn TCVN xxxx:2016) wl
Hình 2: TNGT trên thành phố trong năm 2021 do nguyên nhân “Không chú ý quan
sát” và “Không giữ khoảng cách ” (nguôn: trung tâm ITS) 12 Hình 3: detecct vùng biên Ro .19 Hình 4: nghiên cứu thực nghiệm của Hãng Volkswagen 20
Hình 5: mô hình kiến trúc hệ thông giao tiếp LED-CAMERA (CLC) 22Hình 6: Biéu diễn ma trận của một ảnh số (Nguôn tham khảo:
http://blog.kleinproject.org/?p=588) a5
Hình 7: Minh hoa anh mức xám, các giá tri mức xám tương ứng với các picel.
(Nguồn tham khảo: https://seis.bristol.ac.uk/) 24
Hình 8:Minh hoa một ảnh mau RGB được tạo ra từ sự kết hợp của 3 kênh R, G B
(Nguôn: http:/vww.adsell.com/scanning101 him) " 24
Hình 9: Minh họa thao tác convolution cho một điểm ảnh của ma trận I và ketnel
K Giá tri output là kết quả của phép nhân các điểm ảnh của ma trận input Iva
kernel K, rồi tính tổng (Theo [43]) 25Hình 10: Minh họa các kết qua tương ứng với các kernel khác nhau (Nguồn
Hình 15: Minh họa két quả của Canny Edge or (Theo [43])
Hình 16: Trí tuệ nhân tao (Al), Máy hoc (Machine learning) và Hoc sâu (Deep
learning) (Nguôn tham khảo: Nvidia) 31
Hình 17: Mô hình mạng no-ron của não người (Nguôn tham khảo: Y văn) 31
Hình 18: Mô hình mạng noron tổng quát (Theo
› áp dụng liên tiếp trê
Trang 7Hình 22: Các lớp trong mộ hình mang noron tích chập (CNMS)
Hình 23: Minh họa lóp tích chập (bộ lọc Convnet Filter) trên ma trận diém ảnh 37
Hình 24: Minh họa trường hop thém/ không thêm viền trắng vào ảnh khi tích chập.
Hình 25: Minh họa pooling layer theo 2 phương thức max pooling và average
pooling
Hình 26: Minh họa Fully connected layer
Hình 27: Minh hoa mô hình mang CNNs LeNet-5 của tác giả Yann Lecun.
Hình 28: Hình minh họa mô hình mang CNN AlexNet
Hình 29: Minh họa mô hình mạng VGG16
Hình 30: Minh họa mô hình mạng GoogleNet
Hình 31: Bounding box đối tượng
Hình 32: Minh họa thuật toán non-max suppression trong YOLO Từ 3 boundary
box ban đầu cùng bao quanh chiếc xe đã giảm xuống còn 1 -43 Hình 33: Các phiên ban YOLO .44 Hình 34: Bảng so sánh hiệu suất .45Hình 35: mô hình kiến trúc yolov5 (nguồn: The network architecture of YolovŠ It
consists of three parts: (1) Backbone-CSPDarknet_figl_349299852) 47 Hình 36: mô tả mô hình (nguôn: Introduction to YOLOv5 Object detection with
Tutorial - MLK - Machine Learning Knowledge) 48
Hinh 37: Co 4 phién ban khac nhau: YOLOv5s, YOLOv5m, YOLOvSI, YOLOvSx có
độ chính xác tăng dan và tốc độ giảm dan theo thứ tự 49
Hình 38: Minh họa anchor box và bounding box so vớ ¡ truth bounding box khi
nhận diện đối tượng trong ảnh với YOL
Hình 39: Minh họa hộp chứa đối tượng boundary box trong YOLO
Hình 40: mô hình thực nghiệm
Hình 41: bố trí thiết bị thu thập dữ liệu
Hình 42: Hình ảnh quá trình test LED panel 36Hình 43: Các thông số cấu hình 57
Hình 44: Boundary box tĩnh được tạo w kích Thước 640x640 cm, độ dày 5cm 57
Hình 45: Giả lập các kịch bản 58
Hinh 46: Kich ban cho hién thi LED 59Hình 47: Toa độ khung bao theo định dạng cua YOLO (nguon: Ultralytics) 59 Hình 48: sử dụng công cu DarkLabel thực hiện gan nhãn video 60 Hình 49: bit 1 Hình 50: bứ 0) 61 Hình 51: tọa độ các Bit được gan nhãn 6Ï Hình 52: Thư mục dataset\image chứa anh và nhãn cho việ luyện mô hình
.49 32 54 56
LED panel .62 Hình 53: File hình của tập dữ liệu data.yami 62 Hình 54: Train batch0 63
Trang 8Hình 57: File Bit ON gom các anh có LED tại phan tử [2,2] của ma trận 3x3 sáng
65Hình 58: File Bit OFF gồm các ảnh có LED tai phần tử [2,2] của ma trận 3x3 tối
.65 Hình 66 Hình 67Hình 61: File cấu hình của mô hình yolov5s.yaml chứa thông tin cấu trúc mang 67Hình 62: ma trận luận lý 68
Hình 63: File weight gom best pt va last pt .70
Hình 64: Kết quả train " 70
Hình 65: Két quả train _ 71
Hình 66: Sau khi train, cho ra bit_model.predict *.h5 dé sử dụng cho detect 72 Hình 67: File py detect 2 Hình 68: detect ma trận 3x3 .3 Hình 69: detect ma trận 2x2 .3
Hình 70: kết quả LE D panel và Bit với ma trận 3x 74Hình 71: kết qua LED panel và Bit với ma trận 2x2 (có lỗi nhận dạng Bit) 76
Hình 72: view- pr edict Bit, speed 2.2ms pre-process, 46.3ms inference 78
Hình 73: khi tắt predict, speed 0.7ms pre-process, 15.2 ms inference, nhanh gấp D3
78
Trang 9DANH MỤC BANGBang 1: thông số thực nghiệm LED panel
Bang 2: tập dữ liệu LED panel
Bang 3: tập dữ liệu bit 3x3
Trang 10DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT
Cụm từ/ Ký hiệu Mô tả
AI Artificial Intelligent (trí tuệ nhân tao)
CNNs Convolutional Neural Networks (mang no ron tich
chập) DNN Deep learning Neural Network (mạng no ron học sâu)
YOLO “You Only Look Once”
occ (Optical Camera Communication) giao tiép may anhVOCC (Vehicular Optical Camera Communication) giao tiép
camera quang học xe cộ
AGR tỷ lệ thang độ xám trung bình
GRI Gradient hướng tâm
NGR Tỉ lệ độ xám lân cận
FLDA phân tích phân biệt Fisher
ITS (Intelligent transport system) hệ thông giao thông thông
minh
CLC Communication in LED — Camera (giao tiếp
LED-Camera)
Trang 11CHUONG 1: MỞ DAU
Trong thời gian gần đây, khái niệm Giao thông thông minh (ITS — intelligenttransport system) ở Việt Nam ngày càng được quan tâm nhiều, ứng dụng nhiềunhằm mục tiêu tăng cường hiệu quả khai thác của kết cấu hạ tầng giao thông đường
bộ, cân bằng hiệu suất sử dụng của hạ tầng giao thông đạt được kỳ vọng mong
muốn Việc ngày càng có nl nghiên cứu các thành phần của hệ thống ITS và đưavào ứng dụng là một xu thế tất yếu trong giao thông đô thị hiện nay, mục tiêu đảmbảo tính phân phối tài nguyên kết cấu giao thông đáp ứng kỳ vọng phân bồ đều, đápứng nhu cầu ngày càng tăng và rất đa dạng của giao thông đô thị Kiến trúc hệthống giao thông thông minh ITS được triển khai tại Việt Nam bao gồm 07 nhómdich vụ người dùng (dy thảo Tiêu chuẩn Quốc gia TCVN XXXX:2016): Quản lý
và điều hành giao thông; Thông tin giao thông; Hỗ trợ hoạt động xe cứu hộ; Hỗ trợ
vận tải công cộng; Thanh toán điện tử; Nâng cao hiệu quả hoạt động xe thương mại
và Hỗ trợ lái xe an toàn.
Hình 1: Mô hình kiến trúc logic hệ thống ITS (nguôn TCVN xxxx:2016)
Trang 12Với tình hình giao thông hiện nay, cả nước nói chung và Thành phó Hồ ChíMinh nói riêng, giao thông ngày càng phức tạp, mật độ ngày càng đông, ha tanggiao thông không đáp ứng kịp nhu cầu phát triển, nhu cầu vận tải Việc vận hànhphương tiện giao thông được an toàn, hiệu quả trong đô thị, nhất là đô thị lớn nhưThành phố Hồ Chí Minh đòi hỏi rất nhiều sức lực và tập trung cao độ của người lái
xe Theo dữ liệu phân tích về tình hình tai nạn giao thông thành phố Hồ chí Minh
chỉ tính riêng trong năm 2021 (là một năm bị hạn chế giao thông rất nhiều do dịchbệnh), thì đã có hơn 38 vụ TNGT 6 tô chi do các nguyên nhân “Không chú ý quan sát” và “Không giữ khoảng cách” Các TNGT do nguyên nhân như trên hoàn toàn
có khả năng được loại trừ khi trên xe có hỗ trợ hệ thống giao tiếp thông minh giữacác xe dé cảnh báo và đề xuất các xử ly kip thời
Trang 13PHÂN BĨ TAI NẠN GIAO THƠNG THÀNH PHĨ HỊ CHÍ MINH
© > Ơ (ảkamgiobongghongoivvbglee + *.1@
Tam đường, ho ir nệm
thoảng
4 2A4 i, đường Đồn
Nguyen n xì Hưng Long.
huyện Bình Chành
Ly Tân VânGiu hướng từ Lá
TP cach đường Kenn,
) 1910-V8 Vân Kit Phung
Ban dang nom 40 trong $01 kế cả,
WP rypenere to search
FE 0 em
ã 189/28 Thới Tem Thơn 6x Thd2/22/2020 50000 thốt Tam Thơng [M58 vo xe coma 2 ° |thơng chú y quan sát al
37 [nguvin sanh quận gb vip [3/27/2021 500.00 Paguytn Oanh [M526 vex + ° | hơng git khoảng cách, 3|
38 Cầu Xăng 05 văn Dây, x Tân Hid 2/17/2020 50000 HDS văn Dây I 2 vr ae + © [khơng gi khộng cách 3
33 318 cách Mang Thang 8 Phườn{/21/3053 5.00.00 P{cách MẹngThng 8 M545 vớt 5 + | bơng gi thộng cách 3
35 phường Hiệp Thành, qua 12 [2/6/2023 50000 prin Gueng Co [MB 5 vo xe 1 + D -guan sst E
38 Ga Ip Thường Ki Tân Teal12/18/2020 50000 trân Trang P65 vr H chi quan sát 6
70 phường An Phú Đơng quận 12 |12/22/2020500.00 fause + IMS Ab ve contain h s ng eh ý suan sát E
73 [phong Thanh tộc quận 2_—[¬2/13/203050090 louse 16 tà với ơn i ° [khơng gi khoảng cách, 3
131 140 nguyEn Văn Tạo x tong T7221 5:00.00 PMÍ Nguyễn vin Teo, | 5 voi 5 + ° chú ÿ quan s 3
3171985 Quốc lơ phường nh T {3/26/2031 500,00 | Quốc lệ + IM 5 51 xe conta a ° cha uan sat E)
330 356 Quốc lộ phường sinh Hur] 2023 5000 PM] Quốc lộ + [aos v6 H ° chi quan st m
88 SA408A Tinh 16 8x8 đình Mỹ _ |4/3/3981 50000 Pin IMosesetae cont + D Fe) 1389/45/18 p chành 1 tệ Thị Mà X1Ì2/3/2021 5 00.00 Pắ Thị Hà 55 51 8 + © [thơng chú quan sát a]
376 Te ién 261, hp 2ATinn 1515, 2/29/2031 59009 Pin lệ 35 IMS vet h ° | hơng cho y quan sát a
387 Trước nha 5863/10, Trần Vin 10/3/2021 50000 PÌtrần Vin Giãn — [MB 15 vox a ° [khơng chú quan sát as]
306 xe 30-450, TPHCM Trung wz] 30/4/2021 500.0 Pfceo tS Trung lượng [Xe chuyện dung vr DI ° | bơng git khoảng cách, se
205 12/10, ke Binh Ao Bình Khán]39/13/3021 5 9000 fig sốc [Mơ re ° + chav san sat 1)
22290, Quốc Lệ 2, Tân Phi Trung 48/39/2021 50090 Quốc lơ 27 lơ ve se ° ° chi quan sát Fn
233.280, Muinh Tấn Phat, xP, Ta{9/29/2021 500.00 Pin Tến Phật [wi vd 58 4 D chứ quan át sa
238173 nguyEo Thi T, sinh hưng Hồi19/4/20215099001[NguiŠn Thị Ts — [Mơtơ với di + ° [thơng chú avon sát 20
264 217 Aa 5, Ngoễn Văn Bàng P2/2672022 500.0 Pl ngyễn Văn àng PH] 25 vi 8S 2 H | hơng chs y quan sát FA
278 240 Quốc ip 2, Phước Hiệp GÌ13/11/2021 59000 Quốc 5 22 I vor xe conta x ° chĩ 2
“337 Tey Dena, Su tơ, Phước Vin 12/5/2021 500.0 Ps tà I 5 var ae H © 23]
384[23/20A fe 1, Qube tơ 50, Phon 1/2/2022 50000 PM Quốc Lê 50, Phong PMS tơ với xe 2 H ¬4
'367/A11/338, Sa 3, Quốc Lệ 2, Phol3/12/2023 500.0 Pl Quốc tơ 50, Phong PAS 2 với ae H a 25
1375 2471, Pham Th Win, Phung O|2/17/2022 5 00:0 Pl Pham Th Hiến, Phu] tơ với về D 3 28
3741274 Nghyễn Vân tịnh sinh Thul3/15/2022 S00 0 Nguyễn Văn Linh in] tơ với xe) a x |
375 Trụ Bản số A268, NgyỄn Văn ul9/5/2021 50090 PMÌNgyễn Vin nh, An HO vớ vệ ° + Fa
378 Giao tơ Nguyễn Vn Linh GuSe [9/6/2021 50000 PMÌNguyễn Văn nh [0% voi đt ° D >9
379 Trước Nhà số 0, Khu PRS 2A, {3/3/2053 5.0000 Plan Tong Cung Tân 1 ry ° 30
3801105759 TPHCM - Trung Lương [9/3/2023 5.0000 PM] TPC - Trung tươn| 2 D 31
“395 Trước 56 Nhà 613/596, Vir 0d 32/26/2021 50000 Quốc Lơ 50 fo 1 Oa H ° |hơng chĩ 32
392 210 Hetng văn Thy phutng$ af 11/30/2021 5:00.00 tang Văn Thụ D ° [bong ethos eh 33
337 Ngã Vĩnh H-Khénh Hội —_ [32/20/2021 5:00.00 xhsnh Hội 525 a ° [khơng giờ khộng cách s4
“546 Trụ Bàn 5460 NgyỄn Văn nh 13/3/2033 50090 pvÏNguyễn Vin nh Pho] a H | bơng gir thộng cách 35
420153 Võ VAN KET, oe, inh Tr]2/16/2022 5 00°00 PS văn Kết + D [khơng giơ khộng cách 36
'$28|21/1c,Quée Lệ 14 An Phú Odngla/i2/2021 50000 Pi qube lộ + ¬ 2 2 ng chs quan sát 27
“440 Ngã Tự Đường 9A Đường 56 107/98/2025 9990 Pl Đường 3636, 4 D [khơng chĩ quan át 3
503) 25 1
Hình 2: TNGT trên thành pho trong năm 2021 do nguyên nhân “Khơng chú ý
quan sát” và “Khơng giữ khoảng cách” (nguơn: trung tâm ITS)
Trang 14Có rất nhiều hệ thống “Hỗ trợ lái xe an toàn” đang được nghiên cứu đề hỗtrợ người lái xe như: phát hiện ngủ gục, tự đỗ xe, xe tự lái, dẫn đường, giao tiếpphương tiện thiết bị giao thông qua sóng ngắn như RF, RF, zigbee, bluetooth tuynhiên cũng ở giai đoạn nghiên cứu và chưa khang định tính hiệu quả rõ nét Việcgiao tiếp thông tin về giao thông giữa các xe để kịp thời hỗ trợ người tài xế là vôcùng cần thiết.
Với sự phát triển vượt trội của hệ thống phần cứng như Camera, vi xửlý và các phương pháp giải quyết vấn đề dựa trên các nền tảng kiến thức của bàitoán detect hình ảnh, ứng dụng công nghệ AI, Machine Learning đang phát triểnmạnh mẽ trong thời gian gần đây, đặc biệt là các bài toán Computer Vision đang rấtđược tập trung nghiên cứu Bên cạnh đó, việc trang bị phần cứng trên xe ô tô như
Camera hành trình, ánh sáng LED gần như là xu thế, đang được triển khai rộng
khắp và đồng bộ, dẫn đến Hệ thống giao tiếp giữa các phương tiện giao thông sử
dụng Camera (VOCC -Vehicular Optical Camera Communication) dan chiếm ưu
thé do tinh tuong thich thiét bi phan cứng đã được trang bị, việc sử dụng chung hệthống phần cứng sẵn có được xem là xu hướng hiện nay vì mang lại nhiều lợi íchkinh tế
Hệ thống giao tiếp giao thông LED- Camera này là một trong các nhóm giảipháp cụ thể nhằm cung cấp cho dịch vụ Hỗ trợ lái xe an toàn của hệ thống ITS
nhằm hỗ trợ người lái xe trong việc tự động nhận diện được hành vi của xe phía
trước để kịp thời có ứng xử phù hợp, kể cả bao gồm việc có tác động cảnh báongười lái xe như một hệ hỗ trợ ra quyết định (iDSS) dé giảm bớt áp lực cho ngườilái xe cũng như hỗ trợ phản ứng kịp thời trong những tình huống không mong đợi(như thắng gấp, rẽ hướng đột ngột hoặc thậm chí chuyền tiếp thông điệp từ xe phía
trước nữa về các vấn đề giao thông mà xe sau không nhận định được do bị che
khuất tầm nhìn - như nguyên nhân kẹt xe ) Hướng nghiên cứu được đề xuất
trong đề tài này là thu thập dữ liệu thông qua hệ thống giao tiếp LED —Camera giữa các xe một cách độc lập, an toàn, không phụ thuộc bởi mạng
truyền dẫn viễn thông (giải quyết các vấn đề realtime cũng như không bị phụ
thuộc và không bị kiểm soát bởi hệ thống mạng internet) Từ các tín hiệu thu
Trang 15nhận được một cách tự động và liên tục sẽ được chuyền đổi lại thành những thôngđiệp giao tiếp, giúp người lái xe phát hiện được xu hướng, nhu cầu hành trình của
xe phía trước cũng như tiếp nhận đầy đủ các cảnh báo từ xe phía trước một cách chủđộng để kịp thời có những hành động ứng phó phù hợp, kịp thời, góp phần đảm bảo
an toàn giao thông cho người lái xe và cho những người xung quanh.
Lợi thế lớn nhất của hệ thống này là sự tương thích tuyệt vời với phần cứnggần như được trang bị phổ dụng trên xe và các hệ thông hỗ trợ an toàn giao thông
Cụ thể hơn, với sự phát triển của trí tuệ nhân tạo, các hệ thống phát hiện vật thể và
thu thập dữ liệu hỗ trợ an toàn giao thông sẽ được cài đặt trên mọi xe trong tương
lai gần và ngày càng phát triển, chính xác Camera và các bộ vi xử lý mạnh dùngcho hệ thống thu thập đữ liệu này hoàn toàn có thể dùng cho hệ thống giao tiếp Từ
cùng một video nguồn, ta có thê làm cả công việc nhận diện vật thê và nhận diện tín
hiệu đèn LED Ngoài ra, hệ thống thu thập dữ liệu và hệ thông giao tiếp có rất nhiều
các bước chung về phát hiện vật thé, do đó sẽ rất thuận lợi dé phát triển phần mềm
sử dụng chung cho mục đích giao tiếp và thu thập dữ liệu
Từ những xu hướng cũng như nhu cầu thực tế của giao thông đô thị Thànhphó Hồ Chí Minh và mong muốn tìm hiéu, nghiên cứu, tìm tòi các giải pháp mới,
không lớn nhưng cụ thể, đáp ứng tính ứng dụng vào thực tiễn công tác, học viên
nhận thấy việc tham gia nhóm nghiện cứu thực hiện đề tài “Hệ thống thu thậpthông tin thông mình sử dụng giao tiếp LED-Camera phục vụ an toàn giaothông” do TS.Đỗ Trọng Hợp làm chủ nhiệm là rất có ý nghĩa và phủ hợp thực tiễn
cuộc sống.
1.1 MỤC TIÊU TONG QUÁT
i, Nghiên cứu và thiết kế một bảng LED và với các thông số về kích thước,hình dạng, cách bố trí kịch bản hiển thị nhóm LED, màu sắc, cường độ sáng củaLED sao cho việc truyền tín hiệu được tối ưu, phù hợp các điều kiện ánh sángkhác nhau của môi trường và thiết lập khác nhau của Camera
ii Thu thập bộ dữ liệu phục vụ các vấn dé thu nhận thông tin (informaitonretrieval) trong hệ thống giao tiếp
Trang 16iii Đề xuất ra các thuật toán dựa trên học sâu để thu nhận thông tin trong hệthống giao tiếp LED-Camera cho các phương tiện giao thông.
1.2 MỤC TIÊU NGHIÊN CỨU CỤ THE
i Thiết kế phần cứng cho hệ thống giao tiếp Camera — Led theo các tiêu chuẩn
về giao thông quốc gia
ii Thực hiện thu thập dữ liệu thực tế trên các tuyến đường đô thị tại Thành phố
Hồ Chí Minh Dữ liệu đáp ứng yếu tố khách quan, được thu thập ở các điều kiện
khác nhau về khoảng cách giữa Camera và Led, gán nhãn dữ liệu, tạo bộ datahuấn luyện và thấm định
iii Vận dụng các kiến thức đã học trong chương trình sau đại học vào luận văn
như áp dụng các thuật toán tiên tiến liên quan xử lý hình ảnh, sử dụng kết hợpcác mô hình phát hiện đối tượng hiện có để phát hiện bảng Led và các Bit thuộcđối tượng bảng Led
Thử nghiệm và đánh giá kết quả đạt được
1.3 DOI TƯỢNG VÀ PHAM VI NGHIÊN CỨU
Đối tượng nghiên cứu: Hệ thống giao tiếp LED-Camera cho các phương
tiện giao thông (CLC).
Phạm vi nghiên cứu: Trong giới hạn của luận văn thạc sĩ này, chỉ tập trung
nghiên cứu hiện thực phần cứng và ứng dụng các giải pháp AI để xây dựng hệthống giao tiếp (LED, Camera), xây dựng bộ dữ liệu thực tế để huấn luyện, đánh giá
và khởi đầu đề xuất chuẩn khuyến nghị của hệ thống giao tiếp LED-Camera cho cácphương tiện giao thông, làm tiền đề cho việc phát triển một hệ thống giao tiếp LED-Camera hoàn chỉnh, khả thi về kỹ thuật và thương mại
Trang 17CHƯƠNG 2: TONG QUAN
2.1 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIA TRONG NƯỚC
Ở Việt Nam cũng có các nghiên cứu và ứng dụng về bài toán dự đoánhướng di chuyền dong xe và xác định tốc độ xe, sử dung dit liệu từ camera quan sát
(CCTV) hoặc hệ thống VDS (Video Detection System) trên cao cố định và dữ liệu
GPS từ hộp đen của xe truyền về trung tâm Những ứng dụng trên sẽ thu thập các
dữ liệu liên quan đến phương tiện giao thông, xác định các thông tin về khoảng
cách, vị trí, vận tốc, hướng di chuyên của dòng xe Những thông tin này sẽ được thuthập bởi Trung tâm ITS của thành phó dé quản lý CSDL tập trung, phân quyền khai
thác dữ liệu, từ đó thực hiện mô phỏng giao thông, điều hành giao thông Tuy
nhiên, việc trích xuất thông tin từ Trung tâm là hạn chế và cần được cấp phép
Về hệ thống giao tiếp giữa các xe độc lập với trung tâm ITS, đến nay cũngdừng lại ở việc nghiên cứu một số giải pháp được xây dựng và ứng dụng phục vụ
cho các dòng xe tự hành ở dưới cấp độ 3, hoặc hệ thống tự động phát hiện, nhậndiện các tín hiệu giao thông tĩnh (sơn đường, biển báo ) như một cảm biến đưa ra
phản hồi cho hệ thống điều khiển của xe Chưa có giải pháp nào thuyết phục vàđược áp dụng cho giao thông thực Do đó đây vẫn là một hướng nghiên cứu mở
Trong những năm gần đây, với sự phát triên của camera, trí tuệ nhân tạo, và nhu cầu
về xe tự hành ngày một tăng cao, hệ thống giao tiếp giữa các xe sử dụng ánh sángnhìn thấy (Vehicle to Vehicle Visible Light Communication system) mở ra hướngnghiên cứu mới khả thi Đến thời điểm khảo sát hiện tại, ở TP Hồ Chí Minh, ngoài
để tài nghiên cứu cơ bản cùng tên do TS.Đỗ Trọng Hợp chủ trì và một số nghiên
cứu đi kèm của TS.Hợp thì vẫn chưa tìm ra các nghiên cứu có giải pháp cụ thể về
Hệ thống thu thập thông tin thông minh sử dụng giao tiếp LED-Camera (CLC)này.
Trang 182.2 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIA NƯỚC NGOÀI
Trong giao tiếp camera quang học xe cộ (VOCC), bảng LED trên xe được
sử dụng để truyền tín hiệu ánh sáng nhìn thấy được và sẽ nhận được bằng Camera
hành trình đặt phía trước xe khác Việc sử dụng biển báo giao thông điện tử (LED
panel) phù hợp làm máy phát trong VOCC được xem như một thuật lợi về mặt công
nghệ sản xuất Camera hành trình được sử dụng như máy thu trong VOCC cũng đã
có sẵn trên hầu hết các phương tiện giao thông Tính khả dụng của đèn LED bảng
điều khiển và Camera trên xe sẽ làm giảm chỉ phí phần cứng thực hiện VOCC cũngnhư giảm thiểu sự thay thế hệ thống thiết bị giám sát hiện có trên xe Tính năng
quan trọng nhất của VOCC thúc đẩy việc sử dụng nó là khả năng tương thích tuyệt
vời của nó với các công nghệ quan trọng khác được yêu cầu cho mạng lưới xe tựhành Trong tương lai gần, hệ thống giám sát giao thông dựa trên các công nghệnhư phát hiện làn đường, phát hiện biên báo giao thông, phát hiện người đi bộ vàtheo doi phương tiện có khả năng được trang bị trên mọi phương tiện Tắt cả những
công nghệ này sử dụng yêu cầu camera và bộ xử lý hình ảnh giống như VOCC
VOCC đặc biệt tương thích với hệ thống giám sát xe, một trong những phan thiếtyếu nhất của một mạng lưới xe tự hành, bao gồm phát hiện tọa độ hình ảnh xe và
detect xe thông qua VOCC Do đó, sử dụng VOCC giảm thiểu chi phí cho phần
cứng lẫn phần mềm cho hệ thống giao tiếp và giám sát giao thông so với việc sửdụng hệ thống khác Mặc dù VOCC là một công nghệ đầy hứa hẹn cho giao tiếpphương tiện giao thông, tuy nhiên VOCC gần như mới ở giai đoạn đầu, nhiều khía
cạnh của VOCC chưa được nghiên cứu kỹ lưỡng, đặc biệt trong môi trường thực rất
phức tạp, các yếu tố như độ sáng thời tiết, độ che phủ cùa sương mù hoặt độ chóicủa đèn giao thông sẽ gây rất nhiều khó khăn cho việc thu nhận tín hiệu LED
panel của Camera hành trình Ngoài ra, để đạt được đầy đủ hệ thống VOCC hoàn
chỉnh, nhiều thành phần bao gồm mã hóa, điều chế, truyền tín hiệu, nhận tín hiệu,
dữ liệu trích xuất và giải mã phải được thực hiện Về phần nghiên cứu của học viênnước ngoài, có một số nhóm nghiên cứu cũng đang thực hiện nghiên cứu vấn đề
này, cụ thể:
Trang 191 | Nhóm học viên Xu Sun, Wenxiao Shi, Qing Cheng, Wei Liu , Zhuo Wang, And Jiadong Zhang ở College of Communication Engineering, Jilin University, Changchun 130012, China có nghiên cứu “An LED Detection and Recognition Method Based on Deep Learning in Vehicle Optical Camera
Communication” đã thiết kế một mạng D2Net dựa trên mô hình phát hiện đối
tượng YOLOv5I, là mang end-to-end có thé phát hiện chính xác đèn LED array và
giảm nhòe chuyền động cùng một lúc Sử dụng bốn đèn ở góc của day đèn LED giữ
Bật dé phát hiện góc Nghiên cứu đáp ứng chính xác tại khoảng cách truyền 2
m, tốc độ khung hình xử lý là 36 f/s, các thông sé và cách thức tao data tương
đồng với cách thức mà học viên đang thực hiện Kết quả cung cấp một cách tiếp cậncho các ứng dụng học sâu trong phương tiện tương lai.
Trang 202 Nhóm học viên Nam-Tuan Le , Trang Nguyen* , Yeong Min lang°
nghiên cứu về “Optical Camera Communications: Future Approch of Visible
Light Communication” đăng trên The Journal of Korean Institute of Communications and information Sciences 15-02 Vol40 No.02
(http://dx.doi.org/10.7840/kics.2015.40.2.380), triển khai hệ thông OCC (Optical
Camera Communications) dựa trên Arduino, bảng điều khiển LED tại máy phát vàComputer Vision cho máy ảnh Ở phía máy phát, bit nhị phân sẽ điều khiển trạng
thái BẬT / TẮT của LED, Ở phía người nhận, máy ảnh sẽ lấy mẫu khung hình ảnh
ở tốc độ 30 khung hình /giây: kết quả cung cấp một cái nhìn tổng quan về OCC từ
kiến trúc, hoạt động để thực hiện những thách thức
3 Nhóm học viên Moh.Khalid Hasan - Graduate Student Member, IEEE, Md.Osman Ali , Md.Habibur Rahman - Student Member, IEEE, Mostafa Zaman Chowdhury - Senior Member, IEEE, and Yeong Min Jang - Member IEEEnghiên cứu về “Optical Camera Communication in Vehicular Applications: A
Review” có nghiên cứu dua ra một số chuẩn truyền dẫn, đối tượng là sử dụng ledcủa đèn ô tô:
Trang 21Riêng đối với các hảng sản xuất xe, trong đó tiên phong là hảngVonlkwasgen thi cũng có một số thực nghiệm cụ thé trên LED panel toàn khung
2.3 MOT SO VAN DE CON TON TẠI
Hệ thống thu thập thông tin thông minh sử dung giao tiếp LED-Camera(CLC) là một thành phần trong chuỗi các thành phần liên quan đề tạo thành một hệthống VOCC hoàn chỉnh Hệ thống thu thập thông tin thông minh sử dụng giao tiếpLED-Camera, các thông điệp muốn truyền tải sẽ được mã hóa thành các chuỗi bit 1-
0, các chuỗi bit được truyền 1 và 0 được biểu thị bằng trạng thái Bật và Tắt của các
cụm LED trên LED panel, phía tiếp nhận thông điệp sử dung Camera hành trình ghinhận video hiển thị LED panel gồm có các vùng sáng — tối của cum LED biểu thị
Trang 22detect các chuỗi bit được ghi trong video, sau đó giải mã lại các thông điệp thu
được Việc giải quyết, xử lý các vấn đề liên quan detect hình ảnh động khi các xe
đang di chuyển, vấn đề nhiễu dữ liệu trong thực tế, độ sáng quang học tự nhiên, các
yếu tố môi trường: mưa, nắng, sương mù tác động là rất khó khăn và gây ảnhhưởng lớn đến khả năng trainning, detect chính xác các chuỗi bit Ngoài ra, đâyđược xem như một bước tiên phong trong các giải pháp về giao tiếp thông minh
giữa các phương tiện giao thông, do đó có rất nhiều đề xuất, nhiều trường phái khác
nhau Việc sử dụng định dang bit 0 - 1 dé mã hóa các thông tin đã được cân nhắcrất kỹ, xem như là một bước quy hoạch nhằm tạo ra quy ước thống nhất cho sự pháttriển sau này của hệ thống, các kịch bản mới phát sinh sẽ được định nghĩa theo quyước như một chuỗi bit 0 — 1 sẽ là thuận lợi đối với mọi ngôn ngữ khác nhau trên thế
giới Cần thực nghiệm nhiều lần với nhiều mẫu thử, nhiều môi trường vận hành mới
có thể đưa ra được các khuyến nghị phù hợp, đưa ra được những thông số khả thi
cho hệ thống, đáp ứng độ chính xác, mỹ quan và khả thi trong ứng dụng và thươngmại.
Trang 23CHUONG 3: CƠ SỞ LÝ THUYET
3.1 MO HÌNH KIÊN TRÚC HỆ THONG GIAO TIẾP LED-CAMERA
LED panel Camera Captured images Information retrieval
Hinh 5: mô hình kiến trúc hệ thống giao tiếp LED-CAMERA (CLC)
Kiến trúc hệ thống của hệ thống VOCC và hệ thống CLC được trình bàytrong Hình 1 Ở phía truyền, sau khi thông điệp được mã hóa sửa lỗi và điều chế,các bit kỹ thuật số 1 và 0 được chuyên tai thông qua Trạng thái Bật và Tắt của cumLED trong LED panel Tại bên nhận, hình ảnh của LED panel được xử lý dé tríchxuất dữ liệu, sau đó được giải mã đề lấy dữ liệu gốc Trong phạm vi đề tài, chỉ trìnhbày nghiên cứu về Hé thong thu thập thông tin thông minh sử dung giao tiếp LED-Camera phục vụ an toàn giao thông (CLC), không đề cập đến quá trình, cơ chế điềuchế, mã hóa và giải mã nội dung thông tin
LED panel được sử dụng như một biên báo giao thông điện tử, do đó buộc
phải tuân thủ một số tiêu chí đối với biển báo điện tử, cụ thể theo Phụ lục II: Quyđịnh các thông số kỹ thuật cơ bản của biển báo giao thông điện tử tại công văn số:511/SGTVT-KT ngày 10 tháng 01 năm 2018 của Sở Giao thông vận tải Thành phố
Hồ Chí Minh, xác định cụ thể về ngưỡng màu và khoảng cách điểm sáng củaLED
Ngoài ra, đối với màu sắc hiển thị, cần lựa chọn các màu sắc có độ tương
phản và độ sáng phù hợp cho việc hiên thị trong môi trường giao thông thực, đặc
biệt là đèn giao thông có thể gây nhiễu đến thông tin thu nhận Bên cạnh đó, cần
Trang 24sử dụng đèn: “Phương tiện không được sử dụng đèn đỏ phía trước và đèn trắngphía sau trong bắt cứ trường hợp nào theo ngoại lệ cua khoản 61 Phụ lục 5.Phương tiện không được thay đổi hay bồ sung thêm đèn trái với những điều kiện
Trang 25b) Ảnh nhị phân (binary image): là ảnh mà trong đó giá trị của các pixel chỉ
là 0 (đen) hoặc 1 (trắng) (Hình 2), theo [43]
© Anh mức xám (greyscale image): là ảnh mà trong đó giá trị là số nguyênnằm trong đoạn [0,255] Mức xám tương ứng với giá trị 0 là đen và giá trị 255 làtrắng Giá trị mức xám cảng nhỏ thì càng đen, và ngược lại càng lớn thì càng trắng
Hình sau minh họa một bức ảnh xám.
85 |255|221| 0
17 |170|118| 68 230|136| 0 |255|
85 |170|136|238
221| 68 |119|255
148|221| 17 |136
Hình 7: Minh họa ảnh mức xám, các giá trị mức xám tương ứng với các picel.
(Nguôn tham khảo: https://seis.bristol.ac.uk/)
đ) Ảnh màu (color image): là ảnh mà trong đó mỗi pixel sẽ gồm một bộ (R, G,
B) tương ứng với Red, Green, Blue — trong đó R, G, B là các số nguyên nằm trong
đoạn [0, 255] Hình sau minh họa một ảnh màu — trong đó màu của mỗi pixel được
tao ra từ 3 thành tố R, G, B Theo [43]
Hình 8:Minh hoa một anh màu RGB được tao ra từ sự két hop của 3 kênh R, G, B
Trang 263.2.2 Các phương pháp xử lý anh kỹ thuật số
a) Convolutions va Kernels: Một trong các nguyên ly cơ bản của xử lý ảnh đó
là các điểm ảnh gần nhau có mối quan hệ với nhau Convolutions (tích chập) vàkernel (lõi) là hai khái niệm cơ bản thé hiện cho nguyên lý này Thuật ngữ image
filtering, spatial filtering cũng có thê dùng với nghĩa tương tự convolution (theo
mỗi giá trị tương ứng giữa ma trận K (Kij) và ma trận O (Init, y+j-1), rồi cộng lại
như công thức sau: (theo [43]).
Hình 9: Minh họa thao tác convolution cho một điểm anh của ma trận I và ketnel
K Giá tri output là ket quả của phép nhân các diém anh của ma trận input I và
kernel K, rồi tính tông (Theo [43])
Trang 27Based on Gaussian blur
with amount as 1 and
Image result g(x,y)
Hinh 10: Minh hoa cac kết quả tương ứng với các kernel khác nhau
(Nguồn: https://en.wikipedia.org/wiki/Kernel_(image_processing))
Trang 28c) Lam nhòe ảnh (Blurring/ Smoothing): Trong xử lý ảnh, làm nhoe anh là
một trong các thao tác cơ bản và hữu ích với mục đích giảm nhiễu và giảm chỉ tiết,rất cần cho các tác vụ như phát hiện cạnh (edge), đường biên (contour), các phương,pháp làm nhòe ảnh dựa trên nguyên lý độ sáng của một điểm ảnh là kết quả của sựpha trộn của các điểm ảnh xung quanh (theo [43]) Một số kernel dùng vớiconvolution để làm nhòe ảnh bao gồm:
Avegaging kernel: lấy trung bình các điểm ảnh xung quanh (thuộckernel).
©|— [Ole [ole
Hinh 11: Averaging kernel matrix 3 x 3 (Nguon:
http://www.ncbi.nlm.nih.gov/books/NBK546 1 56/figure/ch3 fig8a)Gaussian kernel: giá trị của kernel trong đó các điểm gần tâm sẽ có giá
trị lớn hơn so với các điểm ở xa theo phân bồ chuẩn Gauss Theo [43]
Trang 290 (màu đen) và ngược lại sẽ được gán bằng 255 (màu trắng) Việc chọn giá trị Thoặc là xác định bằng thủ công (manual) hoặc tự động (adaptive threshold) Theo
[43].
e) Gradients, Edge ion va Contours hỗ trợ quá trình xử lý hình ảnh.
Các cạnh (edges) đóng vai trò quan trong trong các thao tác hiéu ảnh, do đóviệc xác định điểm ảnh nào là vấn đề rất được quan tâm Với nhận xét, độ sang của
các điêm ảnh quanh vùng cạnh có sự biến thiên (gradients), một số kernel được
dùng để phát hiện cạnh bao gồm: Sobel kernel, Laplacian kernel và Canny Edge
or Trong đó Canny Edge or là quá trình nhiều bướ cbao gồm làm nhòe ảnh đề loại
bỏ nhiễu, sử dụng Sobel kernel, và bước hậu xử lý dùng 2 tham số ngưỡng tl và t2;trong đó các điểm ảnh có giá trị gradient nhỏ hon tl không được xem là điểm thuộccạnh, các điểm ảnh có giá trị gradient lớn hơn t2 được xem là điêm thuộc cảnh, cácđiểm có giá trị gradient nằm giữa tl và t2 thì thy mức độ kết nối giữa các điểm này(theo [43]).
Hình 13: Minh họa Sobel kernel được áp dụng liên tiếp trên ảnh để phát hiện cạnh
(Theo [43])
Trang 30Ong image Laplacian fred image
Hình 14: Minh hoa Laplacian kernel được áp dụng liên tiếp trên ảnh dé phát hiện
cạnh (Theo [43])
Original Image Edge image
Contours: hay còn gọi là các biên thường được tinh sau kết quả tìm cạnh,thao tác này được dùng đê xác định đường biên của vật thể cần nhận diện (theo[43]).
3.3 KHÁI NIEM VE TRÍ TUE NHÂN TẠO (AI), MACHINE
LEARNING (ML), DEEP LEARNING (DL)
Loài người đã trải qua bốn cuộc cách mạng công nghệ: Cách mạng côngnghiệp lần 1 sử dụng năng lượng hơi nước dé cơ giới hóa sản xuất Cách mạng lần 2diễn ra nhờ ứng dụng điện năng để sản xuất hàng loạt Cách mạng lần 3 sử dụngđiện tử và công nghệ thông tin dé tự động hóa sản xuất Cách mạng công nghiệp lần
4 là kết hợp các công nghệ lại với nhau, làm mờ ranh giới giữa vật lý, kỹ thuật số vàsinh học tức trí tuệ nhân tạo.
Trang 31Theo Klaus Schwab, người khai sinh từ công nghệ 4.0, thì cách mạng công
nghiệp 4.0 sẽ diễn ra trên 3 lĩnh vực chính là công nghệ sinh học, kỹ thuật số và vật
lý nano Và cốt lõi của kỹ thuật số trong công nghệ 4.0 sẽ là trí tuệ nhân tạo(Artificial Inteligence, AI), kết nối vạn vật (Internet of Things, IoT) và dữ liệu lớn
(Big Data) Trí tuệ nhân tạo dựa trên 3 khái niệm: AI, Machine learning và Deep learning:
- Công nghệ AI hoặc tri thông minh nhân tao là công nghệ mô phỏng
các quá trình suy nghĩ và học tập của con người cho máy móc, đặc biệt là hệ thốngmáy tính Các quá trình này bao gồm: (1) Việc học tập như thu thập thông tin và cácquy tắc sử dụng thông tin, (2) Lập luận: sử dụng các quy tắc để đạt được kết luậngần đúng hoặc xác định, (3) Tự sửa lỗi Các ứng dụng đặc biệt của AI bao gồm các
hệ thống chuyên gia, nhận đạng tiếng nói và thị giác máy tính (nhận điện khuôn
mặt, vật thê hoặc chữ viết).
= Machine Learning (Máy học) là một tập con của AI Theo định nghĩa của Wikipedia, Machine Learning là một lĩnh vực nhỏ của khoa học máy tính (computer science), nó có khả năng tự học hỏi dựa trên dit liệu đưa vào mà khôngcần phải được lập trình cụ thể Những năm gần đây, khi mà khả năng tính toán của
các máy tính được nâng lên một tầm cao mới và lượng dữ liệu khổng lồ được thuthập bởi các hãng công nghệ lớn, Machine Learning đã tiền thêm một bước dài và
một lĩnh vực mới được ra đời gọi là Deep Learning (Học Sâu).
- Deep Learning đã giúp máy tinh phân loại cả ngàn vật thé khác nhau
trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con
người, giao tiếp với con người, hay thậm chí cả sáng tác văn hay âm nhạc
Trang 32Mối quan hệ của 3 khái niệm trên được thé hiện ở sơ dé sau:
1950's 1960's 1970's 1980's 1990's 2000's = 2010
Hình 16: Trí tuệ nhân tạo (Al), Máy hoc (Machine learning) và Học sâu (Deep
learning) (Nguôn tham khảo: Nvidia)
3.4 LÝ THUYET VE MAY HỌC (MACHINE LEARNING)
3.4.1 Mang no-ron (neuron) trong khái niệm sinh học
Sợi nhánh vá \ Đuôi sợi trục
Tín hiệu đầu vào Nhân Tín hiệu đầu ra
(điện hoặc hóa hoc) (điện hoặc hóa học)
Hình 17: Mô hình mạng nơ-ron của não người (Nguôn tham khảo: Y văn)
Về mặt sinh học, nơ-ron trong hình 4 là đơn vị cơ bản cấu tạo hệ thống than
kinh và là một phần quan trọng nhất của não Não con người gồm khoảng hơn 10triệu nơ-ron và mỗi nơ-ron liên kết với 10.000 nơ-ron khác Ở mỗi nơ-ron có phầnthân (soma) chứa nhân, các tín hiệu đầu vào qua sợi nhánh (dendrites) và các tín
hiệu đầu ra qua sợi trục (axon) kết nối với các ron khác Hiểu đơn giản mỗi
Trang 33nơ-ron nhận dữ liệu đầu vào qua sợi nhánh và truyền dữ liệu đầu ra qua sợi trục, đến
các sợi nhánh của các nơ-ron khác.
Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh Nếu các xungđiện nay đủ lớn dé kích hoạt no-ron, thì tín hiệu này đi qua sợi trục đến các sợinhánh của các nơ-ron khác Do vậy, ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ron đấy hay không
Tuy nhiên mạng nơ-ron (Neuron Network) chỉ là lay cảm hứng từ não bộ và
cách nó hoạt động, chứ không phải bắt chước toàn bộ các chức năng của não Việcchính là dùng mô hình liên kết giữa các nơ-ron trong não này kết hợp với mô hìnhtoán học dé nhằm mô phỏng một hệ thống máy tính có thể học và nhận biết như con
4501-9710-92b3 6b0f9265).
Mang nơ-ron tổng quát bao gồm các thành phan như sau: lớp nơ-ron đầu tiêngọi là input layer (hoặc được gọi là tập dữ liệu đầu vào), các layer ở giữa gọi là
hidden layer (lớp nơ-ron ẩn phục vụ việc xử lý xác suất dé cho ra kết quả phục vụ
lớp hidden layer tiếp theo), lớp layer cuối cùng gọi là output layer (là lớp nơ-ron kết
Trang 34và 1 lớp đầu ra, có hoặc có thé không có lớp hidden layer ở giữa tùy vào bài toáncần giải quyết.
Mạng nơron nhân tao, Artificial Neural Network (ANN) là một mô hình xử
lý thông tin phỏng theo cách thức xử ly thông tin của các hệ noron sinh học Nó được tạo nên từ m số lượng lớn các phan tử (nơ-ron) kết nói với nhau thông quacác liên kết (trọng số liên kết) làm việc như một thé thống nhất đề giải quyết một
vấn đề cụ thể nào đó Mạng nơ-ron nhân tạo được xây dựng vào những năm
1940-1950 chỉ gồm các nơ-ron đơn lẻ gọi là Perceptron với quy tắc học đơn giản Sau đóđến những năm 1980, người ta dùng thuật toán back-propogation để đào tạo các
mạng nơ-ron này [36].
Lớp đầu vào Đầu vào x1 5
- Tập các đầu vào: La các tín hiệu vào (input signals) của noron, các tinhiệu này thường được đưa vào dưới dạng một vector N chiều
Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết
-Synaptic weight.
- Bộ tổng (Summing function): Thường dùng để tinh tổng của tích cácđầu vào với trọng số liên kết của nó
- Ngưỡng (con gọi là độ lệch - bias): Ngưỡng này thường được đưa vào
như một thành phần của hàm truyền
Trang 35- Hàm truyền (Transfer function): Hàm nay được dùng dé giới hạnphạm vi đầu ra của mỗi noron Nó nhận đầu vào là kết quả của hàm tổng vàngưỡng.
- Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa
là một đầu ra
Cấu trúc của một nơ-ron k, được mô tả bằng cặp biểu thức sau:
Trong đó: xi, Xa, , Xp: là các tín hiệu vào; (Wki, Wka, , Wkp) là các trọng số
liên kết của noron thứ k; u là hàm tổng; bự là một ngưỡng; f là hàm truyền và y làtín hiệu đầu ra của nơron
Kiến trúc của một mạng nơ-ron nhân tạo (ANN) gồm 3 thành phần, đó là:
Input Layer, Hidden Layer, Output Layer Trong đó, lớp ẩn (Hidden Layer) gồm
các Nơ-ron nhận dữ liệu đầu vào từ các Nơ-ron ở lớp (Layer) trước đó và chuyền
đổi các đầu vào này cho các lớp xử lý tiếp theo Trong một ANN có thể có nhiều
lớp ân.
Một số kiểu mạng no-ron như sau:
- Tự kết hợp (autoassociative)
- Kết hợp khác kiểu (heteroassociative)
- Kiến trúc truyền thing (feedforward architechture)
- Kiến trúc phản hồi (Feedback architecture)
3.5 LÝ THUYET VE MẠNG NƠRON TÍCH CHAP
3.5.1 Khái niệm mạng noron tích chập (Convolutional Neural Network) và cơ
chế tích chập trên ảnh kỹ thuật số
Convolutional Neural Network (CNNs - Mạng nơ-ron tích chập) là một trong
những mô hình Deep Learning tiên tiến giúp xây dựng được những hệ thống nhận
Trang 36Cơ chế của tích chập trên hình ảnh màu được minh họa như hình bên dưới, vớicác bức ảnh khi lưu xuống máy tính đều được phân tách thành một ma trận 3 chiều, cụ
bởi 3 lớp hình màu RED, GREEN,
êm ảnh trên 1 lớp hình sẽ biéu diễn giá
thể hơn là 1 tắm ảnh kỹ thuật số được thé hi
BLUE chồng lên nhau (RGB) (hình 16), Mỗ
Trang 37Gp »
Hình 21: Cách hoạt động của cơ chế tích chập trên ảnh
Bức ảnh kỹ thuật số với ma trận 3 chiều (cao, rộng, sâu) tương ứng với hệảnh RGB (3 lớp ảnh) Mạng no-ron tích chập sẽ thực hiện bằng cách tạo 1 khối dữ
liệu ma trận 3 chiều (3x3x3) bắt đầu từ điểm ảnh đầu tiên sau đó quét lần lượt theo
hướng từ trái sang phải, từ trên xuống dưới, mỗi lần địch chuyền 1 đơn vị pixel
Kết quả của quá trình này là 1 vector ma trận 1 chiều lưu giữ các đặc trưngcủa bức ảnh đầu vào
Convolution Pooling Convolution Pooling Fully, Fully Output
+ReLU +ReLU Connected Connected perdictions
Trang 38và cách sắp xếp đề tạo ra các mô hình huấn luyện phù hợp cho từng bài toán khácnhau Chính những lớp này làm CNN trở nên khác biệt so với mạng nơ-ron truyềnthống và hoạt động cực kỳ hiệu quả trong bài toán phân tích ảnh.
Lớp tích chập (Convolutional Layer): được dùng dé phát hiện và trích xuấtđặc trưng - chỉ tiết của ảnh Giống như các lớp ân khác, lớp tích chập lấy dữ liệuđầu vào, thực hiện các phép chuyển đổi dé tạo ra dữ liệu đầu vào cho lớp kế tiếp
(đầu ra của lớp này là đầu vào của lớp sau) Phép biến đổi được sử dụng là phép
tính tích chập Mỗi lớp tích chập chứa một hoặc nhiều bộ lọc - bộ phát hiện đặc
trưng (filter - feature or) cho phép phát hiện và trích xuất những đặc trưng khácnhau của ảnh Đặc trưng ảnh là những chỉ tiết xuất hiện trong ảnh, từ đơn giản như
cạnh, hình khối, chữ viết tới phức tạp như mắt, mặt, chó, mèo, bàn, ghế, xe, đèn
giao thông, v.v Bộ lọc phát hiện đặc trưng là bộ lọc giúp phát hiện và trích xuất
các đặc trưng của ảnh, có thể là bộ lọc góc, cạnh, đường chéo, hình tròn, hìnhvuông, v.v Bộ lọc ở lớp tích chập càng sau thì phát hiện các đặc trưng càng phức
tập.
input
feature map
_- filter
Hình 23: Minh họa lớp tích chập (bộ lọc Convnet Filter) trên ma trận điểm ảnh
Ma trận nhỏ gọi là Convent Filter có nhiệm vụ là một bộ lọc Bộ lọc lần lượttrượt qua lượt trượt qua từng vùng điểm ảnh cho đến khi hoàn thành hết ma trận
điểm ảnh Kích thước của ma trận này được được tính theo công thức:
Trang 39Trong đó:
© o: kích thước ảnh dau ra
i: kích thước ảnh đầu vào
p: kích thước viền khoảng trắng được ta thêm vàok: kích thước ma trận bộ lọc
s: số bước một lần trượt của bộ lọc
Hình 24: Minh họa trường hợp thêm/ không thêm viền trắng vào ảnh khi tích chập
Như vậy, sau khi đưa một ảnh đầu vào cho lớp Tích chập thì kết quả đượcmột loạt ảnh đầu ra tương ứng với các bộ lọc đã sử dụng Các trọng số của các bộ
lọc được khởi tạo ngẫu nhiên và sẽ được cập nhật/cải thiện trong suốt quá trình
huấn luyện Mỗi bộ lọc thường có một chức năng khác nhau
Pooling layer: thường được dùng giữa các convolutional layer, dé giảm kích
thước dữ liệu nhưng vẫn được các thuộc tính quan trọng Kích thước dữ liệu giảm
giúp giảm việc tính toán trong model Gọi pooling size kích thước K * K Đầu vào
Input của pooling layer có kích thước H * W * D, có nghĩa là D ma trận kích thước
H * W Với mỗi ma trận, trên vùng kích thước K * K trên ma trận mô hình sẽ tìm ra
maximum hoặc average của dit liệu rồi bổ sung vào ma trận kết quả Có 2 loạipooling layer phô bién là: max pooling và average pooling
Trang 40thành đặc điểm của ảnh đầu ra của mô hình.
Hinh 26: Minh hoa Fully connected layer
3.5.2 Các mô hình mang noron tích chập (Convolutional Neural Networks) sir dụng trong bài toán nhận dang ảnh.