1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Hệ thống thu thập thông tin thông minh sử dụng giao tiếp Camera-Led phục vụ an toàn giao thông

110 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống thu thập thông tin thông minh sử dụng giao tiếp Camera-Led phục vụ an toàn giao thông
Tác giả Sử Đăng Hoài
Người hướng dẫn Tiến Sĩ. Đỗ Trọng Hợp
Trường học Đại học Quốc gia TP HCM
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 110
Dung lượng 52,32 MB

Nội dung

Việc ngày càng có nl nghiên cứu các thành phần của hệ thống ITS và đưavào ứng dụng là một xu thế tất yếu trong giao thông đô thị hiện nay, mục tiêu đảmbảo tính phân phối tài nguyên kết c

Trang 1

ĐẠI HỌC QUÓC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

LỜI CAM ĐOAN

Học viên xin cam đoan rằng, đề tài “Hệ thống thu thập thông tin thôngminh sw dụng giao tiếp LED-Camera phục vụ an toàn giao thông” là công trình

nghiên cứu của bản thân học viên dưới sự hướng, dẫn của TS Đỗ Trọng Hợp, là một

hợp phần trong Đề tài nghiên cứu cơ bản cùng tên do TS Đỗ Trọng Hợp làm Chủnhiệm, đề tài xuất phát từ nhu cầu ứng dụng thực tế của cuộc sống cũng là phạm vi,lĩnh vực mà học viên đang công tác và là nguyện vọng mong muốn nghiên cứu tìmhiểu công nghệ của học viên

Bên cạnh các kết quả tham khảo từ các công trình khác đã ghi rõ trích dẫntrong luận văn, các nội dung trình bày trong luận văn này là kết quả nghiên cứu dobản thân tự thực hiện và các kết quả của luận văn chưa từng được tác giả khác cong

bố trước đây dưới bat kỳ hình thức nao

Thành phó Hồ Chí Minh, Ngày 19 tháng 04 năm 2022

Học viên

Sử Đăng Hoai

Trang 3

LỜI CẢM ƠN

Qua quãng thời gian học tập, nghiên cứu tại Trường Đai học Công nghệ

thông tin, được sự hướng dẫn và giảng dạy nhiệt tình của Quý Thầy Cô, đặc biệt làcác Thầy Cô ngành Công nghệ thông tin, ngành Khoa học máy tính đã truyền đạtnhững kiến thức mới cũng nhưng những kinh nghiệm quý báu trong suốt thời gian

viên rất mong nhận được sự góp ý quý báu của quý Thầy Cô

Một lần nữa xin được kính chúc Thầy Cô nhiều sức khỏe, niềm vui và thànhcông trong công việc và cuôc sông.

Trang 4

LỜI CAM ĐOAN

1.1 MỤC TIÊU TONG QUA

1.2 MỤC TIÊU NGHIÊN CỨU CỤ THE

13 ĐÓI TƯỢNG VÀ PHAM VI NGHIÊN CUU

CHƯƠNG 2: TONG QUAN

2.1 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIẢ TRONG NƯỚC 16 2.2 TINH HÌNH NGHIÊN CỨU CUA CÁC TAC GIA NƯỚC NGOÀI

2.3 MỘT SÓ VAN ĐÈ CON TON TẠI

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1 MÔ HÌNH KIÊN TRÚC HỆ THONG GIAO TIẾP LED-CAMERA

3.4 LÝ THUYET VE MAY HỌC (MACHINE LEAR

3.4.1 Mạng nơ-ron (neuron) trong khói niệm sinh hoc

3.4.2 Mạng nơ-ron nhân tạo (Artificial Neural Networks)

3.5 LÝ THUYẾT VE MẠNG NƠRON TÍCH CHAI

3.5.1 Khái niệm mạng nơron tích chập (Convolutional Neural Network) và cơ chế tích chập

3.5.2 Các mô hình mạng noron tích chập (Convolutional Neural Networks) sử dung rong

bài toán nhận dạng ảnh.

3.6 MẠNG NORON TÍCH CHAP PYTORCH YOLO sU DỤNG TRO!

PHAM VI LUẬN VĂN

3.6.1 Tổng quan mạng PyTorch YOLOVS

Mô hình YOLOv5 có thể được tóm tắt như sau (Jocher, 2020) 3.6.2 Khung bao quanh đối tượng cần nhận diện boundary box 3.6.3 Hàm đánh gid xác suất dự đoán (Loss function):

3.6.4 Khả năng dự đoán boundary box:

3.7 MẠNG CNN BASED BIT CALASSIFICATION SỬ DỤNG TRO!

PHAM VI LUẬN VĂN

CHƯƠNG 4: MÔ HÌNH ĐÈ XUẤT

4.1 QUI TRINH THỰC NGHIỆM

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1: Mô hình kiến trúc logic hệ thống ITS (nguôn TCVN xxxx:2016) wl

Hình 2: TNGT trên thành phố trong năm 2021 do nguyên nhân “Không chú ý quan

sát” và “Không giữ khoảng cách ” (nguôn: trung tâm ITS) 12 Hình 3: detecct vùng biên Ro .19 Hình 4: nghiên cứu thực nghiệm của Hãng Volkswagen 20

Hình 5: mô hình kiến trúc hệ thông giao tiếp LED-CAMERA (CLC) 22Hình 6: Biéu diễn ma trận của một ảnh số (Nguôn tham khảo:

http://blog.kleinproject.org/?p=588) a5

Hình 7: Minh hoa anh mức xám, các giá tri mức xám tương ứng với các picel.

(Nguồn tham khảo: https://seis.bristol.ac.uk/) 24

Hình 8:Minh hoa một ảnh mau RGB được tạo ra từ sự kết hợp của 3 kênh R, G B

(Nguôn: http:/vww.adsell.com/scanning101 him) " 24

Hình 9: Minh họa thao tác convolution cho một điểm ảnh của ma trận I và ketnel

K Giá tri output là kết quả của phép nhân các điểm ảnh của ma trận input Iva

kernel K, rồi tính tổng (Theo [43]) 25Hình 10: Minh họa các kết qua tương ứng với các kernel khác nhau (Nguồn

Hình 15: Minh họa két quả của Canny Edge or (Theo [43])

Hình 16: Trí tuệ nhân tao (Al), Máy hoc (Machine learning) và Hoc sâu (Deep

learning) (Nguôn tham khảo: Nvidia) 31

Hình 17: Mô hình mạng no-ron của não người (Nguôn tham khảo: Y văn) 31

Hình 18: Mô hình mạng noron tổng quát (Theo

› áp dụng liên tiếp trê

Trang 7

Hình 22: Các lớp trong mộ hình mang noron tích chập (CNMS)

Hình 23: Minh họa lóp tích chập (bộ lọc Convnet Filter) trên ma trận diém ảnh 37

Hình 24: Minh họa trường hop thém/ không thêm viền trắng vào ảnh khi tích chập.

Hình 25: Minh họa pooling layer theo 2 phương thức max pooling và average

pooling

Hình 26: Minh họa Fully connected layer

Hình 27: Minh hoa mô hình mang CNNs LeNet-5 của tác giả Yann Lecun.

Hình 28: Hình minh họa mô hình mang CNN AlexNet

Hình 29: Minh họa mô hình mạng VGG16

Hình 30: Minh họa mô hình mạng GoogleNet

Hình 31: Bounding box đối tượng

Hình 32: Minh họa thuật toán non-max suppression trong YOLO Từ 3 boundary

box ban đầu cùng bao quanh chiếc xe đã giảm xuống còn 1 -43 Hình 33: Các phiên ban YOLO .44 Hình 34: Bảng so sánh hiệu suất .45Hình 35: mô hình kiến trúc yolov5 (nguồn: The network architecture of YolovŠ It

consists of three parts: (1) Backbone-CSPDarknet_figl_349299852) 47 Hình 36: mô tả mô hình (nguôn: Introduction to YOLOv5 Object detection with

Tutorial - MLK - Machine Learning Knowledge) 48

Hinh 37: Co 4 phién ban khac nhau: YOLOv5s, YOLOv5m, YOLOvSI, YOLOvSx có

độ chính xác tăng dan và tốc độ giảm dan theo thứ tự 49

Hình 38: Minh họa anchor box và bounding box so vớ ¡ truth bounding box khi

nhận diện đối tượng trong ảnh với YOL

Hình 39: Minh họa hộp chứa đối tượng boundary box trong YOLO

Hình 40: mô hình thực nghiệm

Hình 41: bố trí thiết bị thu thập dữ liệu

Hình 42: Hình ảnh quá trình test LED panel 36Hình 43: Các thông số cấu hình 57

Hình 44: Boundary box tĩnh được tạo w kích Thước 640x640 cm, độ dày 5cm 57

Hình 45: Giả lập các kịch bản 58

Hinh 46: Kich ban cho hién thi LED 59Hình 47: Toa độ khung bao theo định dạng cua YOLO (nguon: Ultralytics) 59 Hình 48: sử dụng công cu DarkLabel thực hiện gan nhãn video 60 Hình 49: bit 1 Hình 50: bứ 0) 61 Hình 51: tọa độ các Bit được gan nhãn 6Ï Hình 52: Thư mục dataset\image chứa anh và nhãn cho việ luyện mô hình

.49 32 54 56

LED panel .62 Hình 53: File hình của tập dữ liệu data.yami 62 Hình 54: Train batch0 63

Trang 8

Hình 57: File Bit ON gom các anh có LED tại phan tử [2,2] của ma trận 3x3 sáng

65Hình 58: File Bit OFF gồm các ảnh có LED tai phần tử [2,2] của ma trận 3x3 tối

.65 Hình 66 Hình 67Hình 61: File cấu hình của mô hình yolov5s.yaml chứa thông tin cấu trúc mang 67Hình 62: ma trận luận lý 68

Hình 63: File weight gom best pt va last pt .70

Hình 64: Kết quả train " 70

Hình 65: Két quả train _ 71

Hình 66: Sau khi train, cho ra bit_model.predict *.h5 dé sử dụng cho detect 72 Hình 67: File py detect 2 Hình 68: detect ma trận 3x3 .3 Hình 69: detect ma trận 2x2 .3

Hình 70: kết quả LE D panel và Bit với ma trận 3x 74Hình 71: kết qua LED panel và Bit với ma trận 2x2 (có lỗi nhận dạng Bit) 76

Hình 72: view- pr edict Bit, speed 2.2ms pre-process, 46.3ms inference 78

Hình 73: khi tắt predict, speed 0.7ms pre-process, 15.2 ms inference, nhanh gấp D3

78

Trang 9

DANH MỤC BANGBang 1: thông số thực nghiệm LED panel

Bang 2: tập dữ liệu LED panel

Bang 3: tập dữ liệu bit 3x3

Trang 10

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT

Cụm từ/ Ký hiệu Mô tả

AI Artificial Intelligent (trí tuệ nhân tao)

CNNs Convolutional Neural Networks (mang no ron tich

chập) DNN Deep learning Neural Network (mạng no ron học sâu)

YOLO “You Only Look Once”

occ (Optical Camera Communication) giao tiép may anhVOCC (Vehicular Optical Camera Communication) giao tiép

camera quang học xe cộ

AGR tỷ lệ thang độ xám trung bình

GRI Gradient hướng tâm

NGR Tỉ lệ độ xám lân cận

FLDA phân tích phân biệt Fisher

ITS (Intelligent transport system) hệ thông giao thông thông

minh

CLC Communication in LED — Camera (giao tiếp

LED-Camera)

Trang 11

CHUONG 1: MỞ DAU

Trong thời gian gần đây, khái niệm Giao thông thông minh (ITS — intelligenttransport system) ở Việt Nam ngày càng được quan tâm nhiều, ứng dụng nhiềunhằm mục tiêu tăng cường hiệu quả khai thác của kết cấu hạ tầng giao thông đường

bộ, cân bằng hiệu suất sử dụng của hạ tầng giao thông đạt được kỳ vọng mong

muốn Việc ngày càng có nl nghiên cứu các thành phần của hệ thống ITS và đưavào ứng dụng là một xu thế tất yếu trong giao thông đô thị hiện nay, mục tiêu đảmbảo tính phân phối tài nguyên kết cấu giao thông đáp ứng kỳ vọng phân bồ đều, đápứng nhu cầu ngày càng tăng và rất đa dạng của giao thông đô thị Kiến trúc hệthống giao thông thông minh ITS được triển khai tại Việt Nam bao gồm 07 nhómdich vụ người dùng (dy thảo Tiêu chuẩn Quốc gia TCVN XXXX:2016): Quản lý

và điều hành giao thông; Thông tin giao thông; Hỗ trợ hoạt động xe cứu hộ; Hỗ trợ

vận tải công cộng; Thanh toán điện tử; Nâng cao hiệu quả hoạt động xe thương mại

và Hỗ trợ lái xe an toàn.

Hình 1: Mô hình kiến trúc logic hệ thống ITS (nguôn TCVN xxxx:2016)

Trang 12

Với tình hình giao thông hiện nay, cả nước nói chung và Thành phó Hồ ChíMinh nói riêng, giao thông ngày càng phức tạp, mật độ ngày càng đông, ha tanggiao thông không đáp ứng kịp nhu cầu phát triển, nhu cầu vận tải Việc vận hànhphương tiện giao thông được an toàn, hiệu quả trong đô thị, nhất là đô thị lớn nhưThành phố Hồ Chí Minh đòi hỏi rất nhiều sức lực và tập trung cao độ của người lái

xe Theo dữ liệu phân tích về tình hình tai nạn giao thông thành phố Hồ chí Minh

chỉ tính riêng trong năm 2021 (là một năm bị hạn chế giao thông rất nhiều do dịchbệnh), thì đã có hơn 38 vụ TNGT 6 tô chi do các nguyên nhân “Không chú ý quan sát” và “Không giữ khoảng cách” Các TNGT do nguyên nhân như trên hoàn toàn

có khả năng được loại trừ khi trên xe có hỗ trợ hệ thống giao tiếp thông minh giữacác xe dé cảnh báo và đề xuất các xử ly kip thời

Trang 13

PHÂN BĨ TAI NẠN GIAO THƠNG THÀNH PHĨ HỊ CHÍ MINH

© > Ơ (ảkamgiobongghongoivvbglee + *.1@

Tam đường, ho ir nệm

thoảng

4 2A4 i, đường Đồn

Nguyen n xì Hưng Long.

huyện Bình Chành

Ly Tân VânGiu hướng từ Lá

TP cach đường Kenn,

) 1910-V8 Vân Kit Phung

Ban dang nom 40 trong $01 kế cả,

WP rypenere to search

FE 0 em

ã 189/28 Thới Tem Thơn 6x Thd2/22/2020 50000 thốt Tam Thơng [M58 vo xe coma 2 ° |thơng chú y quan sát al

37 [nguvin sanh quận gb vip [3/27/2021 500.00 Paguytn Oanh [M526 vex + ° | hơng git khoảng cách, 3|

38 Cầu Xăng 05 văn Dây, x Tân Hid 2/17/2020 50000 HDS văn Dây I 2 vr ae + © [khơng gi khộng cách 3

33 318 cách Mang Thang 8 Phườn{/21/3053 5.00.00 P{cách MẹngThng 8 M545 vớt 5 + | bơng gi thộng cách 3

35 phường Hiệp Thành, qua 12 [2/6/2023 50000 prin Gueng Co [MB 5 vo xe 1 + D -guan sst E

38 Ga Ip Thường Ki Tân Teal12/18/2020 50000 trân Trang P65 vr H chi quan sát 6

70 phường An Phú Đơng quận 12 |12/22/2020500.00 fause + IMS Ab ve contain h s ng eh ý suan sát E

73 [phong Thanh tộc quận 2_—[¬2/13/203050090 louse 16 tà với ơn i ° [khơng gi khoảng cách, 3

131 140 nguyEn Văn Tạo x tong T7221 5:00.00 PMÍ Nguyễn vin Teo, | 5 voi 5 + ° chú ÿ quan s 3

3171985 Quốc lơ phường nh T {3/26/2031 500,00 | Quốc lệ + IM 5 51 xe conta a ° cha uan sat E)

330 356 Quốc lộ phường sinh Hur] 2023 5000 PM] Quốc lộ + [aos v6 H ° chi quan st m

88 SA408A Tinh 16 8x8 đình Mỹ _ |4/3/3981 50000 Pin IMosesetae cont + D Fe) 1389/45/18 p chành 1 tệ Thị Mà X1Ì2/3/2021 5 00.00 Pắ Thị Hà 55 51 8 + © [thơng chú quan sát a]

376 Te ién 261, hp 2ATinn 1515, 2/29/2031 59009 Pin lệ 35 IMS vet h ° | hơng cho y quan sát a

387 Trước nha 5863/10, Trần Vin 10/3/2021 50000 PÌtrần Vin Giãn — [MB 15 vox a ° [khơng chú quan sát as]

306 xe 30-450, TPHCM Trung wz] 30/4/2021 500.0 Pfceo tS Trung lượng [Xe chuyện dung vr DI ° | bơng git khoảng cách, se

205 12/10, ke Binh Ao Bình Khán]39/13/3021 5 9000 fig sốc [Mơ re ° + chav san sat 1)

22290, Quốc Lệ 2, Tân Phi Trung 48/39/2021 50090 Quốc lơ 27 lơ ve se ° ° chi quan sát Fn

233.280, Muinh Tấn Phat, xP, Ta{9/29/2021 500.00 Pin Tến Phật [wi vd 58 4 D chứ quan át sa

238173 nguyEo Thi T, sinh hưng Hồi19/4/20215099001[NguiŠn Thị Ts — [Mơtơ với di + ° [thơng chú avon sát 20

264 217 Aa 5, Ngoễn Văn Bàng P2/2672022 500.0 Pl ngyễn Văn àng PH] 25 vi 8S 2 H | hơng chs y quan sát FA

278 240 Quốc ip 2, Phước Hiệp GÌ13/11/2021 59000 Quốc 5 22 I vor xe conta x ° chĩ 2

“337 Tey Dena, Su tơ, Phước Vin 12/5/2021 500.0 Ps tà I 5 var ae H © 23]

384[23/20A fe 1, Qube tơ 50, Phon 1/2/2022 50000 PM Quốc Lê 50, Phong PMS tơ với xe 2 H ¬4

'367/A11/338, Sa 3, Quốc Lệ 2, Phol3/12/2023 500.0 Pl Quốc tơ 50, Phong PAS 2 với ae H a 25

1375 2471, Pham Th Win, Phung O|2/17/2022 5 00:0 Pl Pham Th Hiến, Phu] tơ với về D 3 28

3741274 Nghyễn Vân tịnh sinh Thul3/15/2022 S00 0 Nguyễn Văn Linh in] tơ với xe) a x |

375 Trụ Bản số A268, NgyỄn Văn ul9/5/2021 50090 PMÌNgyễn Vin nh, An HO vớ vệ ° + Fa

378 Giao tơ Nguyễn Vn Linh GuSe [9/6/2021 50000 PMÌNguyễn Văn nh [0% voi đt ° D >9

379 Trước Nhà số 0, Khu PRS 2A, {3/3/2053 5.0000 Plan Tong Cung Tân 1 ry ° 30

3801105759 TPHCM - Trung Lương [9/3/2023 5.0000 PM] TPC - Trung tươn| 2 D 31

“395 Trước 56 Nhà 613/596, Vir 0d 32/26/2021 50000 Quốc Lơ 50 fo 1 Oa H ° |hơng chĩ 32

392 210 Hetng văn Thy phutng$ af 11/30/2021 5:00.00 tang Văn Thụ D ° [bong ethos eh 33

337 Ngã Vĩnh H-Khénh Hội —_ [32/20/2021 5:00.00 xhsnh Hội 525 a ° [khơng giờ khộng cách s4

“546 Trụ Bàn 5460 NgyỄn Văn nh 13/3/2033 50090 pvÏNguyễn Vin nh Pho] a H | bơng gir thộng cách 35

420153 Võ VAN KET, oe, inh Tr]2/16/2022 5 00°00 PS văn Kết + D [khơng giơ khộng cách 36

'$28|21/1c,Quée Lệ 14 An Phú Odngla/i2/2021 50000 Pi qube lộ + ¬ 2 2 ng chs quan sát 27

“440 Ngã Tự Đường 9A Đường 56 107/98/2025 9990 Pl Đường 3636, 4 D [khơng chĩ quan át 3

503) 25 1

Hình 2: TNGT trên thành pho trong năm 2021 do nguyên nhân “Khơng chú ý

quan sát” và “Khơng giữ khoảng cách” (nguơn: trung tâm ITS)

Trang 14

Có rất nhiều hệ thống “Hỗ trợ lái xe an toàn” đang được nghiên cứu đề hỗtrợ người lái xe như: phát hiện ngủ gục, tự đỗ xe, xe tự lái, dẫn đường, giao tiếpphương tiện thiết bị giao thông qua sóng ngắn như RF, RF, zigbee, bluetooth tuynhiên cũng ở giai đoạn nghiên cứu và chưa khang định tính hiệu quả rõ nét Việcgiao tiếp thông tin về giao thông giữa các xe để kịp thời hỗ trợ người tài xế là vôcùng cần thiết.

Với sự phát triển vượt trội của hệ thống phần cứng như Camera, vi xửlý và các phương pháp giải quyết vấn đề dựa trên các nền tảng kiến thức của bàitoán detect hình ảnh, ứng dụng công nghệ AI, Machine Learning đang phát triểnmạnh mẽ trong thời gian gần đây, đặc biệt là các bài toán Computer Vision đang rấtđược tập trung nghiên cứu Bên cạnh đó, việc trang bị phần cứng trên xe ô tô như

Camera hành trình, ánh sáng LED gần như là xu thế, đang được triển khai rộng

khắp và đồng bộ, dẫn đến Hệ thống giao tiếp giữa các phương tiện giao thông sử

dụng Camera (VOCC -Vehicular Optical Camera Communication) dan chiếm ưu

thé do tinh tuong thich thiét bi phan cứng đã được trang bị, việc sử dụng chung hệthống phần cứng sẵn có được xem là xu hướng hiện nay vì mang lại nhiều lợi íchkinh tế

Hệ thống giao tiếp giao thông LED- Camera này là một trong các nhóm giảipháp cụ thể nhằm cung cấp cho dịch vụ Hỗ trợ lái xe an toàn của hệ thống ITS

nhằm hỗ trợ người lái xe trong việc tự động nhận diện được hành vi của xe phía

trước để kịp thời có ứng xử phù hợp, kể cả bao gồm việc có tác động cảnh báongười lái xe như một hệ hỗ trợ ra quyết định (iDSS) dé giảm bớt áp lực cho ngườilái xe cũng như hỗ trợ phản ứng kịp thời trong những tình huống không mong đợi(như thắng gấp, rẽ hướng đột ngột hoặc thậm chí chuyền tiếp thông điệp từ xe phía

trước nữa về các vấn đề giao thông mà xe sau không nhận định được do bị che

khuất tầm nhìn - như nguyên nhân kẹt xe ) Hướng nghiên cứu được đề xuất

trong đề tài này là thu thập dữ liệu thông qua hệ thống giao tiếp LED —Camera giữa các xe một cách độc lập, an toàn, không phụ thuộc bởi mạng

truyền dẫn viễn thông (giải quyết các vấn đề realtime cũng như không bị phụ

thuộc và không bị kiểm soát bởi hệ thống mạng internet) Từ các tín hiệu thu

Trang 15

nhận được một cách tự động và liên tục sẽ được chuyền đổi lại thành những thôngđiệp giao tiếp, giúp người lái xe phát hiện được xu hướng, nhu cầu hành trình của

xe phía trước cũng như tiếp nhận đầy đủ các cảnh báo từ xe phía trước một cách chủđộng để kịp thời có những hành động ứng phó phù hợp, kịp thời, góp phần đảm bảo

an toàn giao thông cho người lái xe và cho những người xung quanh.

Lợi thế lớn nhất của hệ thống này là sự tương thích tuyệt vời với phần cứnggần như được trang bị phổ dụng trên xe và các hệ thông hỗ trợ an toàn giao thông

Cụ thể hơn, với sự phát triển của trí tuệ nhân tạo, các hệ thống phát hiện vật thể và

thu thập dữ liệu hỗ trợ an toàn giao thông sẽ được cài đặt trên mọi xe trong tương

lai gần và ngày càng phát triển, chính xác Camera và các bộ vi xử lý mạnh dùngcho hệ thống thu thập đữ liệu này hoàn toàn có thể dùng cho hệ thống giao tiếp Từ

cùng một video nguồn, ta có thê làm cả công việc nhận diện vật thê và nhận diện tín

hiệu đèn LED Ngoài ra, hệ thống thu thập dữ liệu và hệ thông giao tiếp có rất nhiều

các bước chung về phát hiện vật thé, do đó sẽ rất thuận lợi dé phát triển phần mềm

sử dụng chung cho mục đích giao tiếp và thu thập dữ liệu

Từ những xu hướng cũng như nhu cầu thực tế của giao thông đô thị Thànhphó Hồ Chí Minh và mong muốn tìm hiéu, nghiên cứu, tìm tòi các giải pháp mới,

không lớn nhưng cụ thể, đáp ứng tính ứng dụng vào thực tiễn công tác, học viên

nhận thấy việc tham gia nhóm nghiện cứu thực hiện đề tài “Hệ thống thu thậpthông tin thông mình sử dụng giao tiếp LED-Camera phục vụ an toàn giaothông” do TS.Đỗ Trọng Hợp làm chủ nhiệm là rất có ý nghĩa và phủ hợp thực tiễn

cuộc sống.

1.1 MỤC TIÊU TONG QUÁT

i, Nghiên cứu và thiết kế một bảng LED và với các thông số về kích thước,hình dạng, cách bố trí kịch bản hiển thị nhóm LED, màu sắc, cường độ sáng củaLED sao cho việc truyền tín hiệu được tối ưu, phù hợp các điều kiện ánh sángkhác nhau của môi trường và thiết lập khác nhau của Camera

ii Thu thập bộ dữ liệu phục vụ các vấn dé thu nhận thông tin (informaitonretrieval) trong hệ thống giao tiếp

Trang 16

iii Đề xuất ra các thuật toán dựa trên học sâu để thu nhận thông tin trong hệthống giao tiếp LED-Camera cho các phương tiện giao thông.

1.2 MỤC TIÊU NGHIÊN CỨU CỤ THE

i Thiết kế phần cứng cho hệ thống giao tiếp Camera — Led theo các tiêu chuẩn

về giao thông quốc gia

ii Thực hiện thu thập dữ liệu thực tế trên các tuyến đường đô thị tại Thành phố

Hồ Chí Minh Dữ liệu đáp ứng yếu tố khách quan, được thu thập ở các điều kiện

khác nhau về khoảng cách giữa Camera và Led, gán nhãn dữ liệu, tạo bộ datahuấn luyện và thấm định

iii Vận dụng các kiến thức đã học trong chương trình sau đại học vào luận văn

như áp dụng các thuật toán tiên tiến liên quan xử lý hình ảnh, sử dụng kết hợpcác mô hình phát hiện đối tượng hiện có để phát hiện bảng Led và các Bit thuộcđối tượng bảng Led

Thử nghiệm và đánh giá kết quả đạt được

1.3 DOI TƯỢNG VÀ PHAM VI NGHIÊN CỨU

Đối tượng nghiên cứu: Hệ thống giao tiếp LED-Camera cho các phương

tiện giao thông (CLC).

Phạm vi nghiên cứu: Trong giới hạn của luận văn thạc sĩ này, chỉ tập trung

nghiên cứu hiện thực phần cứng và ứng dụng các giải pháp AI để xây dựng hệthống giao tiếp (LED, Camera), xây dựng bộ dữ liệu thực tế để huấn luyện, đánh giá

và khởi đầu đề xuất chuẩn khuyến nghị của hệ thống giao tiếp LED-Camera cho cácphương tiện giao thông, làm tiền đề cho việc phát triển một hệ thống giao tiếp LED-Camera hoàn chỉnh, khả thi về kỹ thuật và thương mại

Trang 17

CHƯƠNG 2: TONG QUAN

2.1 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIA TRONG NƯỚC

Ở Việt Nam cũng có các nghiên cứu và ứng dụng về bài toán dự đoánhướng di chuyền dong xe và xác định tốc độ xe, sử dung dit liệu từ camera quan sát

(CCTV) hoặc hệ thống VDS (Video Detection System) trên cao cố định và dữ liệu

GPS từ hộp đen của xe truyền về trung tâm Những ứng dụng trên sẽ thu thập các

dữ liệu liên quan đến phương tiện giao thông, xác định các thông tin về khoảng

cách, vị trí, vận tốc, hướng di chuyên của dòng xe Những thông tin này sẽ được thuthập bởi Trung tâm ITS của thành phó dé quản lý CSDL tập trung, phân quyền khai

thác dữ liệu, từ đó thực hiện mô phỏng giao thông, điều hành giao thông Tuy

nhiên, việc trích xuất thông tin từ Trung tâm là hạn chế và cần được cấp phép

Về hệ thống giao tiếp giữa các xe độc lập với trung tâm ITS, đến nay cũngdừng lại ở việc nghiên cứu một số giải pháp được xây dựng và ứng dụng phục vụ

cho các dòng xe tự hành ở dưới cấp độ 3, hoặc hệ thống tự động phát hiện, nhậndiện các tín hiệu giao thông tĩnh (sơn đường, biển báo ) như một cảm biến đưa ra

phản hồi cho hệ thống điều khiển của xe Chưa có giải pháp nào thuyết phục vàđược áp dụng cho giao thông thực Do đó đây vẫn là một hướng nghiên cứu mở

Trong những năm gần đây, với sự phát triên của camera, trí tuệ nhân tạo, và nhu cầu

về xe tự hành ngày một tăng cao, hệ thống giao tiếp giữa các xe sử dụng ánh sángnhìn thấy (Vehicle to Vehicle Visible Light Communication system) mở ra hướngnghiên cứu mới khả thi Đến thời điểm khảo sát hiện tại, ở TP Hồ Chí Minh, ngoài

để tài nghiên cứu cơ bản cùng tên do TS.Đỗ Trọng Hợp chủ trì và một số nghiên

cứu đi kèm của TS.Hợp thì vẫn chưa tìm ra các nghiên cứu có giải pháp cụ thể về

Hệ thống thu thập thông tin thông minh sử dụng giao tiếp LED-Camera (CLC)này.

Trang 18

2.2 TINH HÌNH NGHIÊN CỨU CUA CÁC TÁC GIA NƯỚC NGOÀI

Trong giao tiếp camera quang học xe cộ (VOCC), bảng LED trên xe được

sử dụng để truyền tín hiệu ánh sáng nhìn thấy được và sẽ nhận được bằng Camera

hành trình đặt phía trước xe khác Việc sử dụng biển báo giao thông điện tử (LED

panel) phù hợp làm máy phát trong VOCC được xem như một thuật lợi về mặt công

nghệ sản xuất Camera hành trình được sử dụng như máy thu trong VOCC cũng đã

có sẵn trên hầu hết các phương tiện giao thông Tính khả dụng của đèn LED bảng

điều khiển và Camera trên xe sẽ làm giảm chỉ phí phần cứng thực hiện VOCC cũngnhư giảm thiểu sự thay thế hệ thống thiết bị giám sát hiện có trên xe Tính năng

quan trọng nhất của VOCC thúc đẩy việc sử dụng nó là khả năng tương thích tuyệt

vời của nó với các công nghệ quan trọng khác được yêu cầu cho mạng lưới xe tựhành Trong tương lai gần, hệ thống giám sát giao thông dựa trên các công nghệnhư phát hiện làn đường, phát hiện biên báo giao thông, phát hiện người đi bộ vàtheo doi phương tiện có khả năng được trang bị trên mọi phương tiện Tắt cả những

công nghệ này sử dụng yêu cầu camera và bộ xử lý hình ảnh giống như VOCC

VOCC đặc biệt tương thích với hệ thống giám sát xe, một trong những phan thiếtyếu nhất của một mạng lưới xe tự hành, bao gồm phát hiện tọa độ hình ảnh xe và

detect xe thông qua VOCC Do đó, sử dụng VOCC giảm thiểu chi phí cho phần

cứng lẫn phần mềm cho hệ thống giao tiếp và giám sát giao thông so với việc sửdụng hệ thống khác Mặc dù VOCC là một công nghệ đầy hứa hẹn cho giao tiếpphương tiện giao thông, tuy nhiên VOCC gần như mới ở giai đoạn đầu, nhiều khía

cạnh của VOCC chưa được nghiên cứu kỹ lưỡng, đặc biệt trong môi trường thực rất

phức tạp, các yếu tố như độ sáng thời tiết, độ che phủ cùa sương mù hoặt độ chóicủa đèn giao thông sẽ gây rất nhiều khó khăn cho việc thu nhận tín hiệu LED

panel của Camera hành trình Ngoài ra, để đạt được đầy đủ hệ thống VOCC hoàn

chỉnh, nhiều thành phần bao gồm mã hóa, điều chế, truyền tín hiệu, nhận tín hiệu,

dữ liệu trích xuất và giải mã phải được thực hiện Về phần nghiên cứu của học viênnước ngoài, có một số nhóm nghiên cứu cũng đang thực hiện nghiên cứu vấn đề

này, cụ thể:

Trang 19

1 | Nhóm học viên Xu Sun, Wenxiao Shi, Qing Cheng, Wei Liu , Zhuo Wang, And Jiadong Zhang ở College of Communication Engineering, Jilin University, Changchun 130012, China có nghiên cứu “An LED Detection and Recognition Method Based on Deep Learning in Vehicle Optical Camera

Communication” đã thiết kế một mạng D2Net dựa trên mô hình phát hiện đối

tượng YOLOv5I, là mang end-to-end có thé phát hiện chính xác đèn LED array và

giảm nhòe chuyền động cùng một lúc Sử dụng bốn đèn ở góc của day đèn LED giữ

Bật dé phát hiện góc Nghiên cứu đáp ứng chính xác tại khoảng cách truyền 2

m, tốc độ khung hình xử lý là 36 f/s, các thông sé và cách thức tao data tương

đồng với cách thức mà học viên đang thực hiện Kết quả cung cấp một cách tiếp cậncho các ứng dụng học sâu trong phương tiện tương lai.

Trang 20

2 Nhóm học viên Nam-Tuan Le , Trang Nguyen* , Yeong Min lang°

nghiên cứu về “Optical Camera Communications: Future Approch of Visible

Light Communication” đăng trên The Journal of Korean Institute of Communications and information Sciences 15-02 Vol40 No.02

(http://dx.doi.org/10.7840/kics.2015.40.2.380), triển khai hệ thông OCC (Optical

Camera Communications) dựa trên Arduino, bảng điều khiển LED tại máy phát vàComputer Vision cho máy ảnh Ở phía máy phát, bit nhị phân sẽ điều khiển trạng

thái BẬT / TẮT của LED, Ở phía người nhận, máy ảnh sẽ lấy mẫu khung hình ảnh

ở tốc độ 30 khung hình /giây: kết quả cung cấp một cái nhìn tổng quan về OCC từ

kiến trúc, hoạt động để thực hiện những thách thức

3 Nhóm học viên Moh.Khalid Hasan - Graduate Student Member, IEEE, Md.Osman Ali , Md.Habibur Rahman - Student Member, IEEE, Mostafa Zaman Chowdhury - Senior Member, IEEE, and Yeong Min Jang - Member IEEEnghiên cứu về “Optical Camera Communication in Vehicular Applications: A

Review” có nghiên cứu dua ra một số chuẩn truyền dẫn, đối tượng là sử dụng ledcủa đèn ô tô:

Trang 21

Riêng đối với các hảng sản xuất xe, trong đó tiên phong là hảngVonlkwasgen thi cũng có một số thực nghiệm cụ thé trên LED panel toàn khung

2.3 MOT SO VAN DE CON TON TẠI

Hệ thống thu thập thông tin thông minh sử dung giao tiếp LED-Camera(CLC) là một thành phần trong chuỗi các thành phần liên quan đề tạo thành một hệthống VOCC hoàn chỉnh Hệ thống thu thập thông tin thông minh sử dụng giao tiếpLED-Camera, các thông điệp muốn truyền tải sẽ được mã hóa thành các chuỗi bit 1-

0, các chuỗi bit được truyền 1 và 0 được biểu thị bằng trạng thái Bật và Tắt của các

cụm LED trên LED panel, phía tiếp nhận thông điệp sử dung Camera hành trình ghinhận video hiển thị LED panel gồm có các vùng sáng — tối của cum LED biểu thị

Trang 22

detect các chuỗi bit được ghi trong video, sau đó giải mã lại các thông điệp thu

được Việc giải quyết, xử lý các vấn đề liên quan detect hình ảnh động khi các xe

đang di chuyển, vấn đề nhiễu dữ liệu trong thực tế, độ sáng quang học tự nhiên, các

yếu tố môi trường: mưa, nắng, sương mù tác động là rất khó khăn và gây ảnhhưởng lớn đến khả năng trainning, detect chính xác các chuỗi bit Ngoài ra, đâyđược xem như một bước tiên phong trong các giải pháp về giao tiếp thông minh

giữa các phương tiện giao thông, do đó có rất nhiều đề xuất, nhiều trường phái khác

nhau Việc sử dụng định dang bit 0 - 1 dé mã hóa các thông tin đã được cân nhắcrất kỹ, xem như là một bước quy hoạch nhằm tạo ra quy ước thống nhất cho sự pháttriển sau này của hệ thống, các kịch bản mới phát sinh sẽ được định nghĩa theo quyước như một chuỗi bit 0 — 1 sẽ là thuận lợi đối với mọi ngôn ngữ khác nhau trên thế

giới Cần thực nghiệm nhiều lần với nhiều mẫu thử, nhiều môi trường vận hành mới

có thể đưa ra được các khuyến nghị phù hợp, đưa ra được những thông số khả thi

cho hệ thống, đáp ứng độ chính xác, mỹ quan và khả thi trong ứng dụng và thươngmại.

Trang 23

CHUONG 3: CƠ SỞ LÝ THUYET

3.1 MO HÌNH KIÊN TRÚC HỆ THONG GIAO TIẾP LED-CAMERA

LED panel Camera Captured images Information retrieval

Hinh 5: mô hình kiến trúc hệ thống giao tiếp LED-CAMERA (CLC)

Kiến trúc hệ thống của hệ thống VOCC và hệ thống CLC được trình bàytrong Hình 1 Ở phía truyền, sau khi thông điệp được mã hóa sửa lỗi và điều chế,các bit kỹ thuật số 1 và 0 được chuyên tai thông qua Trạng thái Bật và Tắt của cumLED trong LED panel Tại bên nhận, hình ảnh của LED panel được xử lý dé tríchxuất dữ liệu, sau đó được giải mã đề lấy dữ liệu gốc Trong phạm vi đề tài, chỉ trìnhbày nghiên cứu về Hé thong thu thập thông tin thông minh sử dung giao tiếp LED-Camera phục vụ an toàn giao thông (CLC), không đề cập đến quá trình, cơ chế điềuchế, mã hóa và giải mã nội dung thông tin

LED panel được sử dụng như một biên báo giao thông điện tử, do đó buộc

phải tuân thủ một số tiêu chí đối với biển báo điện tử, cụ thể theo Phụ lục II: Quyđịnh các thông số kỹ thuật cơ bản của biển báo giao thông điện tử tại công văn số:511/SGTVT-KT ngày 10 tháng 01 năm 2018 của Sở Giao thông vận tải Thành phố

Hồ Chí Minh, xác định cụ thể về ngưỡng màu và khoảng cách điểm sáng củaLED

Ngoài ra, đối với màu sắc hiển thị, cần lựa chọn các màu sắc có độ tương

phản và độ sáng phù hợp cho việc hiên thị trong môi trường giao thông thực, đặc

biệt là đèn giao thông có thể gây nhiễu đến thông tin thu nhận Bên cạnh đó, cần

Trang 24

sử dụng đèn: “Phương tiện không được sử dụng đèn đỏ phía trước và đèn trắngphía sau trong bắt cứ trường hợp nào theo ngoại lệ cua khoản 61 Phụ lục 5.Phương tiện không được thay đổi hay bồ sung thêm đèn trái với những điều kiện

Trang 25

b) Ảnh nhị phân (binary image): là ảnh mà trong đó giá trị của các pixel chỉ

là 0 (đen) hoặc 1 (trắng) (Hình 2), theo [43]

© Anh mức xám (greyscale image): là ảnh mà trong đó giá trị là số nguyênnằm trong đoạn [0,255] Mức xám tương ứng với giá trị 0 là đen và giá trị 255 làtrắng Giá trị mức xám cảng nhỏ thì càng đen, và ngược lại càng lớn thì càng trắng

Hình sau minh họa một bức ảnh xám.

85 |255|221| 0

17 |170|118| 68 230|136| 0 |255|

85 |170|136|238

221| 68 |119|255

148|221| 17 |136

Hình 7: Minh họa ảnh mức xám, các giá trị mức xám tương ứng với các picel.

(Nguôn tham khảo: https://seis.bristol.ac.uk/)

đ) Ảnh màu (color image): là ảnh mà trong đó mỗi pixel sẽ gồm một bộ (R, G,

B) tương ứng với Red, Green, Blue — trong đó R, G, B là các số nguyên nằm trong

đoạn [0, 255] Hình sau minh họa một ảnh màu — trong đó màu của mỗi pixel được

tao ra từ 3 thành tố R, G, B Theo [43]

Hình 8:Minh hoa một anh màu RGB được tao ra từ sự két hop của 3 kênh R, G, B

Trang 26

3.2.2 Các phương pháp xử lý anh kỹ thuật số

a) Convolutions va Kernels: Một trong các nguyên ly cơ bản của xử lý ảnh đó

là các điểm ảnh gần nhau có mối quan hệ với nhau Convolutions (tích chập) vàkernel (lõi) là hai khái niệm cơ bản thé hiện cho nguyên lý này Thuật ngữ image

filtering, spatial filtering cũng có thê dùng với nghĩa tương tự convolution (theo

mỗi giá trị tương ứng giữa ma trận K (Kij) và ma trận O (Init, y+j-1), rồi cộng lại

như công thức sau: (theo [43]).

Hình 9: Minh họa thao tác convolution cho một điểm anh của ma trận I và ketnel

K Giá tri output là ket quả của phép nhân các diém anh của ma trận input I và

kernel K, rồi tính tông (Theo [43])

Trang 27

Based on Gaussian blur

with amount as 1 and

Image result g(x,y)

Hinh 10: Minh hoa cac kết quả tương ứng với các kernel khác nhau

(Nguồn: https://en.wikipedia.org/wiki/Kernel_(image_processing))

Trang 28

c) Lam nhòe ảnh (Blurring/ Smoothing): Trong xử lý ảnh, làm nhoe anh là

một trong các thao tác cơ bản và hữu ích với mục đích giảm nhiễu và giảm chỉ tiết,rất cần cho các tác vụ như phát hiện cạnh (edge), đường biên (contour), các phương,pháp làm nhòe ảnh dựa trên nguyên lý độ sáng của một điểm ảnh là kết quả của sựpha trộn của các điểm ảnh xung quanh (theo [43]) Một số kernel dùng vớiconvolution để làm nhòe ảnh bao gồm:

Avegaging kernel: lấy trung bình các điểm ảnh xung quanh (thuộckernel).

©|— [Ole [ole

Hinh 11: Averaging kernel matrix 3 x 3 (Nguon:

http://www.ncbi.nlm.nih.gov/books/NBK546 1 56/figure/ch3 fig8a)Gaussian kernel: giá trị của kernel trong đó các điểm gần tâm sẽ có giá

trị lớn hơn so với các điểm ở xa theo phân bồ chuẩn Gauss Theo [43]

Trang 29

0 (màu đen) và ngược lại sẽ được gán bằng 255 (màu trắng) Việc chọn giá trị Thoặc là xác định bằng thủ công (manual) hoặc tự động (adaptive threshold) Theo

[43].

e) Gradients, Edge ion va Contours hỗ trợ quá trình xử lý hình ảnh.

Các cạnh (edges) đóng vai trò quan trong trong các thao tác hiéu ảnh, do đóviệc xác định điểm ảnh nào là vấn đề rất được quan tâm Với nhận xét, độ sang của

các điêm ảnh quanh vùng cạnh có sự biến thiên (gradients), một số kernel được

dùng để phát hiện cạnh bao gồm: Sobel kernel, Laplacian kernel và Canny Edge

or Trong đó Canny Edge or là quá trình nhiều bướ cbao gồm làm nhòe ảnh đề loại

bỏ nhiễu, sử dụng Sobel kernel, và bước hậu xử lý dùng 2 tham số ngưỡng tl và t2;trong đó các điểm ảnh có giá trị gradient nhỏ hon tl không được xem là điểm thuộccạnh, các điểm ảnh có giá trị gradient lớn hơn t2 được xem là điêm thuộc cảnh, cácđiểm có giá trị gradient nằm giữa tl và t2 thì thy mức độ kết nối giữa các điểm này(theo [43]).

Hình 13: Minh họa Sobel kernel được áp dụng liên tiếp trên ảnh để phát hiện cạnh

(Theo [43])

Trang 30

Ong image Laplacian fred image

Hình 14: Minh hoa Laplacian kernel được áp dụng liên tiếp trên ảnh dé phát hiện

cạnh (Theo [43])

Original Image Edge image

Contours: hay còn gọi là các biên thường được tinh sau kết quả tìm cạnh,thao tác này được dùng đê xác định đường biên của vật thể cần nhận diện (theo[43]).

3.3 KHÁI NIEM VE TRÍ TUE NHÂN TẠO (AI), MACHINE

LEARNING (ML), DEEP LEARNING (DL)

Loài người đã trải qua bốn cuộc cách mạng công nghệ: Cách mạng côngnghiệp lần 1 sử dụng năng lượng hơi nước dé cơ giới hóa sản xuất Cách mạng lần 2diễn ra nhờ ứng dụng điện năng để sản xuất hàng loạt Cách mạng lần 3 sử dụngđiện tử và công nghệ thông tin dé tự động hóa sản xuất Cách mạng công nghiệp lần

4 là kết hợp các công nghệ lại với nhau, làm mờ ranh giới giữa vật lý, kỹ thuật số vàsinh học tức trí tuệ nhân tạo.

Trang 31

Theo Klaus Schwab, người khai sinh từ công nghệ 4.0, thì cách mạng công

nghiệp 4.0 sẽ diễn ra trên 3 lĩnh vực chính là công nghệ sinh học, kỹ thuật số và vật

lý nano Và cốt lõi của kỹ thuật số trong công nghệ 4.0 sẽ là trí tuệ nhân tạo(Artificial Inteligence, AI), kết nối vạn vật (Internet of Things, IoT) và dữ liệu lớn

(Big Data) Trí tuệ nhân tạo dựa trên 3 khái niệm: AI, Machine learning và Deep learning:

- Công nghệ AI hoặc tri thông minh nhân tao là công nghệ mô phỏng

các quá trình suy nghĩ và học tập của con người cho máy móc, đặc biệt là hệ thốngmáy tính Các quá trình này bao gồm: (1) Việc học tập như thu thập thông tin và cácquy tắc sử dụng thông tin, (2) Lập luận: sử dụng các quy tắc để đạt được kết luậngần đúng hoặc xác định, (3) Tự sửa lỗi Các ứng dụng đặc biệt của AI bao gồm các

hệ thống chuyên gia, nhận đạng tiếng nói và thị giác máy tính (nhận điện khuôn

mặt, vật thê hoặc chữ viết).

= Machine Learning (Máy học) là một tập con của AI Theo định nghĩa của Wikipedia, Machine Learning là một lĩnh vực nhỏ của khoa học máy tính (computer science), nó có khả năng tự học hỏi dựa trên dit liệu đưa vào mà khôngcần phải được lập trình cụ thể Những năm gần đây, khi mà khả năng tính toán của

các máy tính được nâng lên một tầm cao mới và lượng dữ liệu khổng lồ được thuthập bởi các hãng công nghệ lớn, Machine Learning đã tiền thêm một bước dài và

một lĩnh vực mới được ra đời gọi là Deep Learning (Học Sâu).

- Deep Learning đã giúp máy tinh phân loại cả ngàn vật thé khác nhau

trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con

người, giao tiếp với con người, hay thậm chí cả sáng tác văn hay âm nhạc

Trang 32

Mối quan hệ của 3 khái niệm trên được thé hiện ở sơ dé sau:

1950's 1960's 1970's 1980's 1990's 2000's = 2010

Hình 16: Trí tuệ nhân tạo (Al), Máy hoc (Machine learning) và Học sâu (Deep

learning) (Nguôn tham khảo: Nvidia)

3.4 LÝ THUYET VE MAY HỌC (MACHINE LEARNING)

3.4.1 Mang no-ron (neuron) trong khái niệm sinh học

Sợi nhánh vá \ Đuôi sợi trục

Tín hiệu đầu vào Nhân Tín hiệu đầu ra

(điện hoặc hóa hoc) (điện hoặc hóa học)

Hình 17: Mô hình mạng nơ-ron của não người (Nguôn tham khảo: Y văn)

Về mặt sinh học, nơ-ron trong hình 4 là đơn vị cơ bản cấu tạo hệ thống than

kinh và là một phần quan trọng nhất của não Não con người gồm khoảng hơn 10triệu nơ-ron và mỗi nơ-ron liên kết với 10.000 nơ-ron khác Ở mỗi nơ-ron có phầnthân (soma) chứa nhân, các tín hiệu đầu vào qua sợi nhánh (dendrites) và các tín

hiệu đầu ra qua sợi trục (axon) kết nối với các ron khác Hiểu đơn giản mỗi

Trang 33

nơ-ron nhận dữ liệu đầu vào qua sợi nhánh và truyền dữ liệu đầu ra qua sợi trục, đến

các sợi nhánh của các nơ-ron khác.

Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh Nếu các xungđiện nay đủ lớn dé kích hoạt no-ron, thì tín hiệu này đi qua sợi trục đến các sợinhánh của các nơ-ron khác Do vậy, ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ron đấy hay không

Tuy nhiên mạng nơ-ron (Neuron Network) chỉ là lay cảm hứng từ não bộ và

cách nó hoạt động, chứ không phải bắt chước toàn bộ các chức năng của não Việcchính là dùng mô hình liên kết giữa các nơ-ron trong não này kết hợp với mô hìnhtoán học dé nhằm mô phỏng một hệ thống máy tính có thể học và nhận biết như con

4501-9710-92b3 6b0f9265).

Mang nơ-ron tổng quát bao gồm các thành phan như sau: lớp nơ-ron đầu tiêngọi là input layer (hoặc được gọi là tập dữ liệu đầu vào), các layer ở giữa gọi là

hidden layer (lớp nơ-ron ẩn phục vụ việc xử lý xác suất dé cho ra kết quả phục vụ

lớp hidden layer tiếp theo), lớp layer cuối cùng gọi là output layer (là lớp nơ-ron kết

Trang 34

và 1 lớp đầu ra, có hoặc có thé không có lớp hidden layer ở giữa tùy vào bài toáncần giải quyết.

Mạng nơron nhân tao, Artificial Neural Network (ANN) là một mô hình xử

lý thông tin phỏng theo cách thức xử ly thông tin của các hệ noron sinh học Nó được tạo nên từ m số lượng lớn các phan tử (nơ-ron) kết nói với nhau thông quacác liên kết (trọng số liên kết) làm việc như một thé thống nhất đề giải quyết một

vấn đề cụ thể nào đó Mạng nơ-ron nhân tạo được xây dựng vào những năm

1940-1950 chỉ gồm các nơ-ron đơn lẻ gọi là Perceptron với quy tắc học đơn giản Sau đóđến những năm 1980, người ta dùng thuật toán back-propogation để đào tạo các

mạng nơ-ron này [36].

Lớp đầu vào Đầu vào x1 5

- Tập các đầu vào: La các tín hiệu vào (input signals) của noron, các tinhiệu này thường được đưa vào dưới dạng một vector N chiều

Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết

-Synaptic weight.

- Bộ tổng (Summing function): Thường dùng để tinh tổng của tích cácđầu vào với trọng số liên kết của nó

- Ngưỡng (con gọi là độ lệch - bias): Ngưỡng này thường được đưa vào

như một thành phần của hàm truyền

Trang 35

- Hàm truyền (Transfer function): Hàm nay được dùng dé giới hạnphạm vi đầu ra của mỗi noron Nó nhận đầu vào là kết quả của hàm tổng vàngưỡng.

- Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa

là một đầu ra

Cấu trúc của một nơ-ron k, được mô tả bằng cặp biểu thức sau:

Trong đó: xi, Xa, , Xp: là các tín hiệu vào; (Wki, Wka, , Wkp) là các trọng số

liên kết của noron thứ k; u là hàm tổng; bự là một ngưỡng; f là hàm truyền và y làtín hiệu đầu ra của nơron

Kiến trúc của một mạng nơ-ron nhân tạo (ANN) gồm 3 thành phần, đó là:

Input Layer, Hidden Layer, Output Layer Trong đó, lớp ẩn (Hidden Layer) gồm

các Nơ-ron nhận dữ liệu đầu vào từ các Nơ-ron ở lớp (Layer) trước đó và chuyền

đổi các đầu vào này cho các lớp xử lý tiếp theo Trong một ANN có thể có nhiều

lớp ân.

Một số kiểu mạng no-ron như sau:

- Tự kết hợp (autoassociative)

- Kết hợp khác kiểu (heteroassociative)

- Kiến trúc truyền thing (feedforward architechture)

- Kiến trúc phản hồi (Feedback architecture)

3.5 LÝ THUYET VE MẠNG NƠRON TÍCH CHAP

3.5.1 Khái niệm mạng noron tích chập (Convolutional Neural Network) và cơ

chế tích chập trên ảnh kỹ thuật số

Convolutional Neural Network (CNNs - Mạng nơ-ron tích chập) là một trong

những mô hình Deep Learning tiên tiến giúp xây dựng được những hệ thống nhận

Trang 36

Cơ chế của tích chập trên hình ảnh màu được minh họa như hình bên dưới, vớicác bức ảnh khi lưu xuống máy tính đều được phân tách thành một ma trận 3 chiều, cụ

bởi 3 lớp hình màu RED, GREEN,

êm ảnh trên 1 lớp hình sẽ biéu diễn giá

thể hơn là 1 tắm ảnh kỹ thuật số được thé hi

BLUE chồng lên nhau (RGB) (hình 16), Mỗ

Trang 37

Gp »

Hình 21: Cách hoạt động của cơ chế tích chập trên ảnh

Bức ảnh kỹ thuật số với ma trận 3 chiều (cao, rộng, sâu) tương ứng với hệảnh RGB (3 lớp ảnh) Mạng no-ron tích chập sẽ thực hiện bằng cách tạo 1 khối dữ

liệu ma trận 3 chiều (3x3x3) bắt đầu từ điểm ảnh đầu tiên sau đó quét lần lượt theo

hướng từ trái sang phải, từ trên xuống dưới, mỗi lần địch chuyền 1 đơn vị pixel

Kết quả của quá trình này là 1 vector ma trận 1 chiều lưu giữ các đặc trưngcủa bức ảnh đầu vào

Convolution Pooling Convolution Pooling Fully, Fully Output

+ReLU +ReLU Connected Connected perdictions

Trang 38

và cách sắp xếp đề tạo ra các mô hình huấn luyện phù hợp cho từng bài toán khácnhau Chính những lớp này làm CNN trở nên khác biệt so với mạng nơ-ron truyềnthống và hoạt động cực kỳ hiệu quả trong bài toán phân tích ảnh.

Lớp tích chập (Convolutional Layer): được dùng dé phát hiện và trích xuấtđặc trưng - chỉ tiết của ảnh Giống như các lớp ân khác, lớp tích chập lấy dữ liệuđầu vào, thực hiện các phép chuyển đổi dé tạo ra dữ liệu đầu vào cho lớp kế tiếp

(đầu ra của lớp này là đầu vào của lớp sau) Phép biến đổi được sử dụng là phép

tính tích chập Mỗi lớp tích chập chứa một hoặc nhiều bộ lọc - bộ phát hiện đặc

trưng (filter - feature or) cho phép phát hiện và trích xuất những đặc trưng khácnhau của ảnh Đặc trưng ảnh là những chỉ tiết xuất hiện trong ảnh, từ đơn giản như

cạnh, hình khối, chữ viết tới phức tạp như mắt, mặt, chó, mèo, bàn, ghế, xe, đèn

giao thông, v.v Bộ lọc phát hiện đặc trưng là bộ lọc giúp phát hiện và trích xuất

các đặc trưng của ảnh, có thể là bộ lọc góc, cạnh, đường chéo, hình tròn, hìnhvuông, v.v Bộ lọc ở lớp tích chập càng sau thì phát hiện các đặc trưng càng phức

tập.

input

feature map

_- filter

Hình 23: Minh họa lớp tích chập (bộ lọc Convnet Filter) trên ma trận điểm ảnh

Ma trận nhỏ gọi là Convent Filter có nhiệm vụ là một bộ lọc Bộ lọc lần lượttrượt qua lượt trượt qua từng vùng điểm ảnh cho đến khi hoàn thành hết ma trận

điểm ảnh Kích thước của ma trận này được được tính theo công thức:

Trang 39

Trong đó:

© o: kích thước ảnh dau ra

i: kích thước ảnh đầu vào

p: kích thước viền khoảng trắng được ta thêm vàok: kích thước ma trận bộ lọc

s: số bước một lần trượt của bộ lọc

Hình 24: Minh họa trường hợp thêm/ không thêm viền trắng vào ảnh khi tích chập

Như vậy, sau khi đưa một ảnh đầu vào cho lớp Tích chập thì kết quả đượcmột loạt ảnh đầu ra tương ứng với các bộ lọc đã sử dụng Các trọng số của các bộ

lọc được khởi tạo ngẫu nhiên và sẽ được cập nhật/cải thiện trong suốt quá trình

huấn luyện Mỗi bộ lọc thường có một chức năng khác nhau

Pooling layer: thường được dùng giữa các convolutional layer, dé giảm kích

thước dữ liệu nhưng vẫn được các thuộc tính quan trọng Kích thước dữ liệu giảm

giúp giảm việc tính toán trong model Gọi pooling size kích thước K * K Đầu vào

Input của pooling layer có kích thước H * W * D, có nghĩa là D ma trận kích thước

H * W Với mỗi ma trận, trên vùng kích thước K * K trên ma trận mô hình sẽ tìm ra

maximum hoặc average của dit liệu rồi bổ sung vào ma trận kết quả Có 2 loạipooling layer phô bién là: max pooling và average pooling

Trang 40

thành đặc điểm của ảnh đầu ra của mô hình.

Hinh 26: Minh hoa Fully connected layer

3.5.2 Các mô hình mang noron tích chập (Convolutional Neural Networks) sir dụng trong bài toán nhận dang ảnh.

Ngày đăng: 08/11/2024, 17:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w