Trong khóa luận này, dé tài tập trung nghiên cứu xây dựng một hệ thống có thể nhận diện, trích xuất được các thông tin từ các biển báo giao thông chỉ dẫn trên đường và kết hợp, đem thông
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
DO VĂN NAM - 19521866
LÊ ĐÌNH BAO LONG - 19521782
KHOÁ LUẬN TÓT NGHIỆP
INFORMATION EXTRACTION ON THE TRAFFIC SIGN OF
INDICATIONS IN VIETNAM
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TIEN Si DO TRONG HOP THAC SĨ TA THU THUY
TP HO CHi MINH, 2022
Trang 2DANH SÁCH HỘI DONG BAO VỆ KHOA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 35/QD- ĐHCNTT
ngày tháng năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 Chủ tịch: TS.Lương Ngọc Hoàng
2 Thư ký: ThS.Pham Thế Sơn
3 Ủy viên: ThS.Võ Duy Nguyên
Trang 3LỜI CẢM ƠN
Lời đầu tiên chúng tôi muốn gửi lời cảm ơn sâu sắc đến Tiến sĩ Đỗ Trọng Hợp
đã luôn đồng hành và chỉ bảo chúng tôi trong suốt quá trình học tập và nghiên cứu để
hoàn thành khóa luận Trong suốt khoảng thời gian qua, thầy đã luôn quan sát và động
viên chúng tôi cố gắng và luôn tận tình giúp đỡ, cho lời khuyên mỗi khi chúng tôi
gặp phải khó khăn Thầy đã mang đến cho chúng tôi rất nhiều kiến thức, phương pháp, kỹ năng nghiên cứu và định hướng về lĩnh vực của chúng tôi dé có thể hoàn thiện bản thân một cách tốt nhất.
Chúng tôi cũng xin cảm ơn bạn Trần Nhật Nam và bạn Trần Thành Luân đã
giúp đỡ chúng tôi trong quá trình nghiên cứu và hoàn thiện khóa luận này Bên cạnh
đó chúng tôi chân thành cảm ơn Giáo viên hướng dẫn Thạc sĩ Thủy đã luôn theo sát, quan tâm chúng tôi trong suốt quá trình học tập Gửi lời cảm ơn đến các thầy cô trong
khoa Khoa học và Kỹ thuật Thông tin cũng như các thầy cô trong trường Công nghệ Thông tin và Đại học Quốc gia thành phố Hồ Chí Minh đã luôn đồng hành, đã tạo cơ hội để chúng tôi có thể học tập với các giáo viên tốt nhất và phát triển trong môi
trường tốt nhất và tạo nhiều cơ hội đê chúng tôi có thẻ phát triển bản thân nhiều hơn nữa Chúng tôi chân thành cảm ơn đến gia đình và bạn bè đã luôn động viên, quan
tâm đến chúng tôi giúp chúng tôi có động lực để vượt qua những khó khăn và đã có
gắng đến ngày hôm nay.
Cuối cùng chúng tôi muốn cảm ơn tất cả mọi người vì đã mang đến cho chúng
tôi những nhiều tốt đẹp nhất trong khoảng thời gian đẹp nhất khi chúng tôi được học
tập và lớn lên trên ngôi trường Công nghệ Thông tin Xin chân thành cảm ơn!
Trang 41.3 Đối tượng và phạm vi nghiên cứu
Chương 2 TÔNG QUAN
2.1 Bài toán khai thác thông tỉn -2v222222++22+tttt222222222211111111111122 re 5
QL Phat ng ốố.ẽẽ ẽ.ẽ.ẽ 6 2.1.2 Nhận diện đối tượng
2.1.3 Trích xuất văn bản
2.2 Nghiên cứu ngoài ưỚC - ¿- 5+ + xxx 11111111111 xrrrrk 6 2.3 Nghiên cứu trong nƯỚC - -stx+ St EEEEkSEerrkekrrekrrrkrkrrrkrrrrkrkrrrrkrrrrererrre
Chương 3 CƠ SỞ LÝ THUYÉT
3.1 Khai thác thông tin
3.1.1 Nhận dạng thực thị
3.1.2 Trích xuất mối s68 ` 0 =“= ,ÔỎÔ 13 3.1.3 Phát hiện đối tượng .-ccccc52225ccccettttrtterrreerrrrrrrrrrrrrrrrrrree 4
3.2 YOLO
3.2.1 Cách hoạt động của YOLO
3.2.2 Đầu ra của YOLO :¿¿-2222222++2222211111222221111212.22211111112.21111111112.21011111 cce 19 3.2.3 Hàm lỗi -: -: 222222 vn ri 21
3.3 YOLOv7
3.4 Nhận dạng văn bản
3.5 Phát hiện văn bản theo don;
3.6 Tong hop Van 0 ` 3.7 Ung 1 28
Chương 4 THUC NGHIEM
4.1 Bộ dit liệu
4.1.1 Bộ dữ liệu của bài toán phát hiện các đôi tượng trên biên báo 32
4.1.2 Bộ dit liệu của bài toán nhận dạng văn bản trên biển báo - 37
4.2 Cài đặt và thực nghiệm
4.2.1 Mô hình phát hiện đôi tượng
4.2.2 Mô hình nhận dạng ký tự theo dòng
Trang 54.2.3 Mô hình nhận dang văn bản - - ¿5252 St vvrekerrrkerrrrkrrrrrrrrrter 40
4.2.4 Mô hình tông hợp thông tin
Trang 6DANH MỤC HÌNH ẢNH
Hình 1.1 Ảnh biển báo chỉ dẫn 2 hướng
Hình 1.2 Ảnh biển báo chỉ dẫn 3 hướng.
Hình 2.1 Tổng quan hệ thống của khoá I
Hình 2.2 Mô hình Random Forest
Hình 2.3 RGSM "
Hình 3.1 Sơ lược về bài toán khai thác thông tit
Hình 3.2 Biển báo chỉ dẫn có nhiều địa điểm trên một hướng
Hình 3.3 Object Detection giúp ích cho các ứng dụng hệ thong giám sát
Hình 3.4 Phát hiện đối tượng với YOLO,
Hình 3.5 Anh được chia theo tỷ lệ 3:3
Hình 3.6 Các thông số ảnh
Hình 3.7 Kiến trúc đầu ra của mô hình YOLO.
Hình 3.8 Mô tả sự vượt trội của YOLOv7.
Hình 3.9 Thuật toán OTA áp dung trong b:
Hình 3.10 Optical Character Recognitioi
Hình 3.11 Mô hình mạng VGGIE .
Hình 3.12 Tông hợp thông tin dé đưa ra ouput hoàn chin
Hình 3.13 Smart
Car Hình 4.1 Mô tả chỉ tiết quy trình thực nghiệm.
Hình 4.2 Quá trình điều chỉnh nhãn theo đúng yêu
Hình 4.3 Lưu đồ khối thể hiện quy trình gán nhãn bộ dữ 1
Hình 4.4 Biéu đồ miêu tả số lượng bounding box ứng với mô
Hình 4.5 Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình YOLOv7
Hình 4.6 Minh hoạ đầu vào và đầu ra sau khi dự đoán bằng mô hình CRAFT cho bài toán
nhận dạng văn bản theo dòng +39
Hinh 4.7 Minh hoa dau vao va dau ra s toán
trích xuất văn ban " 40
Hình 4.8 Minh hoạ vào và dau ra sau khi tông hợp thông ti tin băng mô 4I
Hình 4.9 Ví dụ về các loại lỗi cơ bản 42
Hình 4.10 Ma trận nhằm lẫn cho bộ dữ liệu chưa ng cườn: 44
Hình 4.11 Ma trận nhằm lẫn cho bộ dữ liệu tăng cường 45
Hình 4.12 Precision-Recall Curve trên bộ dữ liệu đã được tăng cường 46
Hình 4.13 Màn hình lựa chọn file đầu vào - 47
Hình 4.14 Màn hình hiên thị ảnh sau khi được phân tích 48
Hình 4.15 Hình ảnh hiền thị thông tin trên biển báo theo dạng tex 49
Hình 4.16 Phần âm thanh của thông tin đầu ra bài toán 49
Hình 4.17 Giao diện sau khi hoàn thiện - - 5-6 +x+++v++vsvevsvevsvevsessvessresexeexsee DO.
u khi dự đoán băng mô hình VietOCR cho b;
Trang 7DANH MỤC BẢNG
Bảng 1.1 Độ đo của mô hình RF trong bài báo - - s6 + St St+xerrxsrerxererrrkererxek 7
Bang 4.1 Bảng mô tả tên Class và Class_id
Bang 4.2 Két quả của các độ đô trên hai bộ dữ liệu.
Trang 8DANH MỤC CHU VIET TAT
IE (Information Extraction)
YOLO (You Only Look Once)
CNN (Convolutional Neural Network)
OCR (Optical Character Recognition)
Trang 9TÓM TẮT KHOÁ LUẬN
Giao thông từ lâu luôn là vấn đề được rất nhiều người ở nhiều lĩnh vực khác
nhau quan tâm, đặc biệt với sự phát trién của giao thông kéo theo sự đòi hỏi và phat triển của các lĩnh vực về giao thông như cầu đường, xe cd Và đặc biệt là ứng dụng
của lĩnh vực về thị giác máy tính đã rất được ưu chuộng khi áp dụng vào xe thông
minh (smart car) Do đó, việc nghiên cứu và phát triển thị giác máy tính trong việc trích xuất các thông tin có được từ các ảnh và video từ camera hành trình có thể giúp
ích được rất nhiều trong việc phát triển xe thông minh có thể tự động vận hành với
độ chính xác và an toàn nhất Trong khóa luận này, dé tài tập trung nghiên cứu xây dựng một hệ thống có thể nhận diện, trích xuất được các thông tin từ các biển báo giao thông chỉ dẫn trên đường và kết hợp, đem thông tin đến cho người dùng.
Đóng góp của luân văn:
* Tao bộ dữ liệu về các biển báo chỉ dẫn ở Việt Nam.
e _ Tổng hợp kiến thức, nghiên cứu và các công trình liên quan đến van đề trích
xuất thông tin từ biển báo giao thông chi dẫn.
¢ _ Nghiên cứu, đề xuất các phương pháp đề đưa ra các kết quả tốt nhất.
© _ Công bó các công trình nghiên cứu khoa học trong và ngoài nước liên quan
đến khóa luận.
e Thiết kế, xây dựng mô hình minh họa cho hệ thống đề xuất.
Trang 10Chương 1 MỞ ĐẦU
1.1 Lý do chọn đề tài
Biển báo giao thông hiện đã được lắp đặt trên hầu hết các tuyến đường ở khắp các quốc gia Với sự hiện đại hóa và phát triển, lưu lượng giao thông phản ánh tốc độ
phát triển của các quốc gia này, đặc biệt là các quốc gia phát triển và đang phát triển,
vì vậy van dé giao thông luôn là một van dé lớn Khi ngày càng có nhiều đường được
xây dựng, việc xác định phương hướng, vị trí và khoảng cách trở nên khó khăn hơn
rất nhiều Trong các loại biển báo thì biển báo chi dẫn là loại biển báo cung cấp cho
người tham gia giao thông thông tin về hướng đi, khoảng cách của các địa điểm trên đường để họ đến đích an toàn, chính xác Biển báo giao thông chỉ dẫn chứa rất nhiều
thông tin hữu ích cho người đi đường về tuyến đường, hướng đi và thông tin về
khoảng cách từ các địa điểm trên tuyến đường Tự động nhận dạng và phân tích các
biển báo giao thông mang lại sự thoải mái và tập trung cho người lái xe trên đường Điều này cung cấp cho người lái xe điều hướng, tuân thủ và thông báo chính xác và kịp thời về tuyến đường hiện tại của họ Trong lĩnh vực thị giác máy tính, vấn đề nhận
dạng và phân loại biển báo giao thông đã nhận được sự quan tâm đáng kế trong cộng đồng nghiên cứu Do đó chúng tôi muốn xây dựng mô hình có thé giúp ích cho việc
trích xuất các thông tin và mang lại cho người tham gia giao thông các thông tin đó
một cách nhanh chống và chính xác nhất.
Trang 11Hình 1.1 Ảnh biển báo chỉ dẫn 2 hướng
Nhiệm vụ của trích xuất thông tin từ biển báo giao thông chỉ dẫn là có thê nhiện
diện đúng biển báo chỉ dẫn và trích xuất được những thông tin như phương hướng,
khoảng cách va địa điềm.
Trang 121.2 Mục đích của đề tài
Với mong muốn nghiên cứu, thử nghiệm các phương pháp nhận diện đối tượng
và cách sử dụng các kỹ thuật xử lý dữ liệu (image, video) cùng với các phương pháphuấn luyện mô hình học sâu để xử lý các thông tin được trích xuất một cách thật
nhanh chóng và mang lại độ chính xác cao Trong đề tài này, mục tiêu của chúng tôi
được trình bày như sau:
e Tìm hiểu và thu thập thông tin về dé tài từ bài báo công bố về các công
trình nghiên cứu trong và ngoài nước liên quan đến van đề xử lý phát hiện,
nhận dạng đối tượng, tiếp thu các cách trích xuất, xử lý, tông hợp các thông
tin có từ đối tượng
e Nghiên cứu và kết hop các phương pháp xử ly dir liệu đầu vào và các
phương pháp phù hợp và hiện đại dé huấn luyện các mô hình có thé phát
hiện và nhận dạng đối tượng.
e Xây dựng luéng xử lý dữ liệu, các phương pháp và triển khai đề tài một
cách chính xác, hiệu quả và dễ dàng có thể thực hiện
1.3 Đối tượng và phạm vi nghiên cứu
Trên từng quốc gia về van dé giao thông đều sẽ có quy định riêng về các kýhiệu và thông tin trên biên báo giao thông, nhận thấy trong những biển báo giao thôngthường gặp thì chúng tôi nhận thấy biển báo giao thông chỉ dẫn là loại biển báo cóthê đem đến được nhiều thông tin nhất nên vì thế trong khóa luận này, chúng tôi chỉtập trung nghiên cứu dựa trên các biển báo giao thông chỉ dẫn và cụ thé là các biểnbáo giao thông chỉ dẫn ở Việt Nam( nơi mà chúng tôi nhận thấy có mật độ giao thông
rất đông đúc và phức tạp)
Trang 13Chương 2 TONG QUAN
Chúng tôi dé xuất thiết kế của hệ thống được mô ta trong Hình 2.1 Dữ liệu đầuvào của hệ thống là các khung được trích xuất từ ảnh hoặc video có chứa biển báogiao thông chi dan Mô hình học chuyên đổi dựa trên YOLOv7 sử dụng dé có thê
phát hiện ra các đối tượng có trên biển báo chỉ dẫn Sau đó, các đối tượng văn bản sẽđược xử lý theo dòng thông qua mô hình Line Detection và các dòng ký tự sẽ đượcnhận dang và trích xuất nội dung của văn bản dựa trên mô hình VietOCR dành cho
tiếng Việt Dé tiện cho việc tổng hợp các thông tin đã được xử lý thì chúng tôi sẽ sử
dung mô hình text-to-text là T5, mô hình này tu các thông tin đã được xử lý như
hướng, khoảng cách và địa điểm để có thé đưa ra văn bản hoàn chỉnh với các nộidụng có nghĩa và dé hiểu cho biển báo Nội dung của hệ thống này được hiền thị lên
và thông báo cho người dùng thông qua giao điện web của hệ thống
2.1 Bài toán khai thác thông tin
Bài toán khai thác thông tin là một bài toán lớn, dé có thé sử dụng lượng đữ liệukhông lồ xung quanh chúng ta thì nhiệm vụ khai thác thông tin là cực kỳ quan trọng.[1] Thông tin ở xung quanh chúng ta rất đa dạng như thông tin dang văn bản, hìnhảnh, âm thanh Trong đó đa sỐ các thông tin được hiện thị gần gũi nhất với chúng
ta hằng ngày là dạng thông tin văn bản Khai thác thông tin được sử dụng rất nhiềutrong các bài toán quanh chúng ta như: Tóm tắt văn bản, hệ thông tự động trả lời tinnhắn, tự động tra cứu và tìm kiếm thông tin Và chúng tôi áp dụng quá trình phầntích, khai thác thông tin trên ảnh và video dé thích hợp với kết quả của chúng tôi
Trang 142.1.1 Phát hiện đối tượng
Phát hiện đối tượng là khả năng quan sát và xác định toạ độ chính xác của đốitượng trong không gian thông qua hệ thống máy tính hoặc các công cụ định vị như là
camera hành trình Phát hiện đối tượng hiện được sử dụng rộng rãi trong các bài toán
phát hiện vật thể như khuôn mặt người, người đi bộ, đếm số lượng vật thể hoặc trong
các hệ thống bảo mật và đặc biệt ứng dụng trong xe thông minh
2.1.2 Nhận diện đối tượng
Nhận diện đối tượng là kỹ thuật phổ biến của lĩnh vực Computer Vision nhằmxác định các vật thé trong ảnh hoặc trong các video Nhận diện đối tượng là đầu rachính của nhiều thuật toán Machine Learning và Deep Learning Hau hết khi chúng
ta thấy một ảnh hoặc một video thì chúng ta sẽ có thể nhận ra các đối tượng trong ảnh
hoặc video một cách chính xác Mục tiêu trong bài toán nhận diện đối tượng là dạy
cho máy tính có thể hiéu và làm được những điều giống như con người: giúp nó cóthể hiểu một cách chính xác về hình ảnh hoặc video đó
2.1.3 Trích xuất văn bản
Sau khi có được các thông tin từ việc trích xuất thông tin thì với những thông
tin nhận diện đó thì chưa thé nào khiến người sử dụng phương tiện có thể hiểu đầy
đủ thông tin một cách rành mạch và rõ ràng thông tin nên chúng ta cần sử dụng thêmphương pháp đề có thê kết hợp các thông tin đó lại thành thông tin làm người sử dụng
có thé hiểu được một cách dễ dàng và chính xác
2.2 Nghiên cứu ngoài nước
Việc làm sao dé có thé thu thập được lượng thông tin xung quanh chúng ta
luôn luôn là một thách thức lớn từ khắp nơi trên thế giới Chúng ta đều hiểu dé sử
dụng được những thông tin đó cần phải phụ thuộc rất nhiều vào các công nghệ hiệnđại thời nay Thế nên việc nghiên cứu các công nghệ và các kỹ năng khai thác thôngtin luôn là dé tài nóng hồi và luôn luôn phát triển trở thành công nghệ được sử dụng
rộng rãi ở moi noi.
Trang 15Trong van dé giao thông thì thông tin trên biển báo giao thông là những thôngtin cực kỳ quan trong dé người tham gia giao thông và các phương tiện có thé biếtđược thông tin chính xác về các chỉ dẫn trên biển báo.
Trong bài báo của trường đại học Selcuk [2]vào năm 2020 đã công bố bài báo
về trích dẫn và nhận biết các đặc trưng trên biển báo giao thông tại các đường cao tốccủa Thổ Nhĩ Kỳ Bài viết đã thu được 1000 features được phân loại bằng phươngpháp Random Forest từ các thuật toán máy học và kết quả đạt được 93.7% chính xác
nhờ quá trình phân loại này.
Test Sample Input
Hình 2.2 Mô hình Random Forest
Với các ảnh thu được, quá trình trích xuất và phân loại đặc trưng được thựchiện bằng ứng dụng khai phá dữ liệu Orange Trong quá trình trích xuất tính năng,
1000 features được trích xuất cho mỗi hình ảnh từ 1500 ảnh trong bộ dữ liệu thu thậpđược, bang việc sử dụng các mang thần kinh tích chập từ các kiến trúc học sâu của
Trang 16Trong bài báo của M.Sudha và Dr.V.P Galdis pushparathi [3] đã công bố một
bài báo vào năm 2021 về Phát hiện và nhận dạng biển báo giao thông băng RGSM
và phương pháp trích xuất tính năng mới Bài báo đã sử dụng tính năng chuyển màu
Random Gradient Succession with Momentum (RGSM) mới với phương pháp trích
xuất tính năng cụ thé theo hình dang mới
Input ImageP ® | Transposed
Tiép theo, bộ phân loại CNN sẽ được sử dung dé phân loại các nhãn đầu ra
được đào tạo, sau đó chuyên đôi biển báo giao thông thành tín hiệu âm thanh trong
cả giai đoạn đảo tạo và giai đoạn thử nghiệm.
Kết quả được ước tính cho các phép đo hiệu suất như độ chính xác, F1 score,
Precision, hệ số Jaccard, kappa và hệ số Dice Việc sử dụng các phương pháp học
máy trở nên cực kỳ phố biến đã cho được các kết quả cao trong việc trích xuất các
đặc trưng và các thông tin trích xuất
Trang 172.3 Nghiên cứu trong nước
Vào năm 2021, chúng tôi nghiên cứu và công bồ bài báo [4] về việc sử dung
mô hình deep learning dé phát hiện các biển báo giao thông cho các hệ thong giaothông thông minh ở Việt Nam Bài báo cung cấp cho người lái xe sự chính xác và kịpthời trong việc tuân thủ các thông báo từ các biển báo giao thông trên lộ trình họ đang
di chuyên Chúng tôi giải quyết bài toán tự động phát hiện và phân loại biển báo giaothông trên bộ dữ liệu mà chúng tôi đã xây dựng bằng thuật toán YOLOv4 và YOLOv5
với các tham số được tinh chỉnh Kết quả thu được trong bài báo này là độ chính xác
trong việc phát hiện và phân loại biển báo khá cao và sai số rất thấp so với giao thông
bên ngoài tại Việt Nam Với bộ dữ liệu dựa trên các loại biển báo phổ biến trên thế
gidi va bién tau phù hợp với nước Việt Nam, sự đa dang về Bài báo đã cho một cáchnhìn tổng quan về việc sử dụng các mô hình deep learning dé cho các kết quả cao hơnnhiều so với các mô hình học máy thông thường, các ưu nhược điểm và phương
hướng cải tiễn
Từ những kết quả đã thu được từ bài báo chúng tôi đã tích hợp thêm nhiềukiến thức mới, phương pháp mới và các hướng đi mới đề cải thiện, phát triển bài toán
của mình một cách hiệu quả hơn, kết quả cao hơn và đa dụng hơn.
Chúng tôi mong muốn rằng qua những kết quả đạt được, nó sẽ đem đến thêmthông tin tham khảo về viêc khai thác thông tin ở Việt Nam và tương tự cho các công
trình nghiên cứu khác trong và ngoài nước.
Trang 18Chương 3 CƠ SỞ LÝ THUYET
3.1 Khai thác thông tin
Khai thác thông tin là việc truy xuất tự động thông tin cụ thể liên quan đến
một chủ đề được chọn từ nội dung hoặc nội dung của văn bản Trích xuất thông tin
chuyền đổi kiến thức này thành một hình thức có cấu trúc phù hợp dé thao tác máytính, mở ra nhiều khả năng để sử dụng nó Nó đòi hỏi phân tích sâu hơn so với cáctìm kiếm từ khóa, nhưng mục tiêu của nó không đạt được vấn đề rất khó khăn và dảihạn về việc hiểu văn bản, nơi chúng tôi tìm cách nắm bắt tất cả thông tin trong mộtvăn bản, cùng với ý định của người nói hoặc nhà văn Các công cụ trích xuất thôngtin cho phép lay thông tin từ các tài liệu văn bản, cơ sở dữ liệu, trang web hoặc nhiềunguồn IE có thể trích xuất thông tin từ văn bản không có cấu trúc, bán cấu trúc hoặc
có cau trúc, có thé đọc được Tuy nhiên, thông thường, IE được sử dụng trong xử lýngôn ngữ tự nhiên (NLP) dé trích xuất cấu trúc từ văn bản không có cấu trúc IE có
từ những ngày đầu xử lý ngôn ngữ tự nhiên của những năm 1970 Jasper [5] là một
hệ thống cho IE rằng đối với Reuters của Đại học Carnegie Melon là một ví du banđầu Những nỗ lực hiện tại trong xử lý tài liệu đa phương tiện trong IE bao gồm chúthích tự động và nhận dạng nội dung và trích xuất từ hình ảnh và video cũng có thé
được xem là IE.
Hình 3.1 Sơ lược về bài toán khai thác thông tin
10
Trang 19Do sự phức tạp của ngôn ngữ, IE chất lượng cao là một nhiệm vụ đầy thách
thức đối với các hệ thông Trí tuệ nhân tạo (AI) Trích xuất thông tin đại diện cho một
điểm giữa trên phô này, trong đó mục dich là nam bắt thông tin có cầu trúc mà khôngphải hy sinh tính khả thi IE thường tập trung vào các hiện tượng ngôn ngữ bề mặtkhông đòi hỏi suy luận sâu sắc và nó tập trung vào các hiện tượng thường gặp nhấttrong các văn bản Công nghệ khai thác thông tin phát sinh dé đáp ứng nhu cầu xử lý
văn bản hiệu quả trong các lĩnh vực chuyên ngành Trình phân tích toàn câu đã dành
rất nhiều nỗ lực trong việc có gắng đến các phân tích các câu dai không liên quan đếnmiền, hoặc chứa nhiều tài liệu không liên quan, do đó tăng cơ hội cho những lỗi khôngnên xảy ra Ngược lại, công nghệ trích xuất thông tin chỉ tập trung vào các phần cóliên quan của văn bản và bỏ qua phân còn lại Các ứng dụng điển hình của các hệthống khai thác thông tin là trong kinh doanh lượm lặt, chính phủ hoặc tình báo quân
sự từ một số lượng lớn các nguon; Trong cac tim kiếm của World Wide Web dé biết
thông tin cụ thé hon từ khóa có thé phân biệt đối xử; cho các tìm kiếm tài liệu khoa
học; trong việc xây dựng cơ sở dit liệu từ Corpora văn bản lớn; va trong việc quản ly
các bài báo y sinh Nhu cầu trích xuất thông tin được minh họa rõ ràng trong y sinh,nơi có hơn nửa triệu bài báo mỗi năm, và số tiền lớn được chi cho các hoạt động giámtuyên Tương tự như vậy, trong tập hợp tình báo, một nhà phân tích năm 1990 nóirằng việc đọc tất cả những gi cô được cho là đọc sẽ giống như đọc chiến tranh và hòabình mỗi ngày; Năm 1995, cùng một nhà phân tích cho biết nó vượt xa điều đó Thông
thường quá trình này bao gồm ba bước chính là: xác định thực thể (NER: Named
Entity Recognition), xác định mối liên hệ (Relation Extraction) và trích xuất sự kiện
(Event Extraction).
11
Trang 203.1.1 Nhận dạng thực thể
Khai thác thông tin phụ thuộc vào nhận dạng thực thé được đặt tên (NER),
một công cụ phụ được sử dụng dé tìm thông tin được nhắm mục tiêu để trích xuất
NER nhận ra các thực thé đầu tiên là một trong một số loại như vị trí (LOC), người(PER) hoặc tô chức (ORG) Khi danh mục thông tin được nhận ra, một tiện ích tríchxuất thông tin sẽ trích xuất thông tin liên quan đến thực thé được đặt tên va xây dựngmột tài liệu có thé đọc được bằng máy từ nó, mà các thuật toán có thé xử lý thêm détrích xuất ý nghĩa IE tìm thấy ý nghĩa bằng cách của các nhiệm vụ phụ khác bao gồmgiải quyết đồng tham chiếu, trích xuất mối quan hệ, phân tích ngôn ngữ và từ vựng
và đôi khi trích xuất âm thanh Nhận dang thực thé được đặt tên (NER) là một trongnhững cách sử dụng phô biến nhất của công nghệ trích xuất thông tin (vi dụ: [6]Bikel,
Schwartz, và Weischedel 1999, Collins và Singer 1999; [7]Cucerzan và Yarowsky
1999; [8]Sang và Meulder 2003))) Các hệ thống NER xác định các loại tên thích hợpkhác nhau, chăng hạn như tên người và công ty, và đôi khi các loại thực thé đặc biệt,chang hạn như ngày và thời gian, có thé dé dang xác định bang cách sử dụng các mẫuvăn bản cấp bề mặt
NER đặc biệt quan trọng trong các ứng dụng y sinh, trong đó thuật ngữ là một
vấn đề đáng gờm Nhưng điều quan trọng cần lưu ý là trích xuất thông tin không chỉ
là nhận dạng thực thé được đặt tên Khó khăn hơn nhiều và có khả năng quan trọnghơn nhiều là sự công nhận các sự kiện và người tham gia của họ Phần lớn công nghệtrong trích xuất thông tin đã được phát triển dé đáp ứng với một loạt các đánh giá và
các hội nghị liên quan được gọi là Conference Understanding the Message (MUC),
được tô chức từ năm 1987 đến 1998 Ngoại trừ các MUC sớm nhất, những đánh giánày được dựa trên một tập đoàn của mién- Các văn ban cụ thé, chăng hạn như các bàibáo về liên doanh Các nhóm tham gia đã được cung cấp một tập hợp đảo tạo và địnhnghĩa mẫu cho Ngoài ra, một khái niệm khác có liên quan đến NER là Coreference
Resolution Coreference Resolution được sử dụng để tìm tất cả các từ đại diện cho
cùng một thực thể nhất định trong đoạn văn bản
12
Trang 21Vị dụ như trong câu “Tôi thích được làm việc với Nam vì cậu ay rất tốt” thì từ
“cậu ay’ chính là từ dé chi ‘Nam’ Bên cạnh vai trò trong việc xác định mối liên hệ
(Relation Extraction) và phát hiện sự kiện (Event Extraction) thì NER còn được áp
dụng trong nhiều bài toán liên quan đến Xử lý ngôn ngữ tự nhiên Ví dụ như trong
việc phân tích Sentiment thì NER giúp ta biết được đánh giá của người dùng đối vớimột thực thê nhất định (có thể là cơ quan, tổ chức, địa danh, ) hoặc trong hệ thốngQuestion Answering, NER giúp ta biết được người dùng muốn hỏi về đối tượng nao,
3.1.2 Trích xuất mối quan hệ
Trích xuất mối quan hệ (Relation Extraction) là nhiệm vụ trích xuất các mốiquan hệ ngữ nghĩa từ một văn bản Các mỗi quan hệ được trích xuất thường xảy ragiữa hai hoặc nhiều thực thé thuộc một loại nhất định (vi dụ: người, tổ chức, địa điểm)
và rơi vào một số loại ngữ nghĩa (ví dụ: kết hôn, được sử dụng bởi, sông trong) Ví
dụ như trong câu ‘Long học tại UIT’ thì kết quả của quá trình Relation Extraction sẽcho ta kết quả của mối liên hệ giữa Long (tên người) và UIT (trường) là “đang học”(vì Long đang học tại trường UIT) Như trong các biên báo chỉ dẫn, trên một hướng
có thể xuất hiện từ 2 đến 3 địa điểm, từ đó chúng ta có thể cho ra từ một hướng cóthể biết được thông tin các điểm đến được nó hiền thị
13
Trang 223.1.3 Phát hiện đối tượng
Bài toán phát hiện đối tượng là một bài toán khá phổ biến trong lĩnh vựcComputer Vision [9], bài toán được dùng dé xác định vị trí vật thé trong ảnh hoặctrong video Hầu hết các bài toán phát hiện đối tượng đều dùng Machine Learning và
Deep Learning dé tạo đầu ra có ý nghĩa Có một điều ai cũng biết là khi chúng ta nhìnvào ảnh hoặc video thì chúng ta có thể xác định được vật thé một cách nhanh chóngchính xác trong giây lát Nhiệm vụ chính của bài toán là tạo ra việc xác định này bằngmáy một cách tự động và nhanh chóng Đó là một lĩnh vực quan trọng dé có thé tao
ra các hệ thong giúp ích cho người lái hiện dai (còn gọi là ADAS), nó giúp người lái
xe phát hiện nhanh chóng các làn đường có thê lái xe vào hoặc phát hiện những ngườiđang đi bộ giúp cải thiện về vẫn đề an toàn trên đường bộ Phát hiện vật thể cũng khá
có ich ở trong những ứng dụng như các hệ thong giám sát camera hoặc truy xuất ảnh
OBJECT DETECTION
ALGORITHM
Hình 3.3 Object Detection giúp ích cho các ứng dung hệ thong giám sát
Những phương pháp phát hiện đối tượng tiên tiến đã sớm được sử dụng bởicác hệ thống giám sát hiện đại Phương pháp phát hiện đối tượng đã được nhắc đến
trong các thuật toán cô điển (giống các thuật toán trong OpenCV và nhiều thư việnđược các chuyên gia nghiên cứu trong lĩnh vực Computer Vision) khá là lâu Nhưng
những thuật toán cô điển này không đủ đáp ứng được hiệu suất đủ cao dé có thé làm
việc ở các bộ dữ liệu phức tạp và lớn như hiện nay.
14
Trang 23Những phương pháp tiên tiến và có tốc độ xử lý nhanh của deep learning được
áp dụng vào năm 2012 và các phương pháp phát hiện vật thể tiên tiến đã mang lại cáckết quả cho độ chính xác khá tốt như Fast-RCNN, RCNN, RetinaNet hoặc những
mô hình mang đến độ chính xác cao ví dụ như YOLO và SSD Việc sử dụng Deep
Learning và Machine Learning đòi hỏi nhiều kỹ năng xử lý kiến thức có liên quan về
công thức toán học và việc Deep Learning Rất nhiều chuyên gia nghiên cứu và cácnhà công ty phát triển về phần mềm ở toàn thế giới muốn kết hợp, đưa ra các ứngdụng kết hợp với việc sử dụng Object Detection Nhưng vào lúc đó, công nghệ nàyvượt khá xa tầm hiéu biết của họ và khá phức tạp dé có thé hiểu va áp dung được vàotính thực tế của nó
Dé tiếp cận với bài toán nay chúng tôi đã tìm hiểu và sử dụng một objectdetector đã được đào tạo trước (Pretrained object đetector) Nhiều quy trình sử dụngdeep learning để thúc đây sự học chuyên giao (tranfer learning), một cách tiếp cậncho phép chúng tôi bắt đầu với một mạng đã được đào tạo từ trước, sau đó chúng tôi
sử dụng và tỉnh chỉnh với bài toán chúng tôi đặt ra Phương pháp này cung cấp cho
chúng tôi kết quả nhanh hơn vì object detector đã được huấn luyện rất nhiều lần trước
đó, hàng nghìn thậm chí là hàng triệu ảnh Như trong bài viết này chúng tôi đã sử
dụng pretrainded của YOLO cụ thé là YOLOV7
15
Trang 243.2 YOLO
YOLO là một trong những kiến trúc mô hình và thuật toán phát hiện đối tượngphổ biến nhất Nó sử dụng một trong những kiến trúc CNN tốt nhất dé tao ra mức
chính xác khá cao và tốc độ tong thé, đó là lý do chính khiến nó trở nên phổ biến
Hình 3.4 Phát hiện doi tượng với YOLO
Thuật toán YOLO nhằm mục đích dự đoán một lớp của đối tượng và hộp giới
hạn xác định vị trí đối tượng trên ảnh đầu vào Nó nhận ra từng hộp giới hạn bằng
bốn số:
- Toa độ trung tâm của bounding box ( bx, by)
- Chiều rộng cua box ( bw)
- Chiéu cao của box (bn)
Bên cạnh đó, YOLO cũng sé dự đoán luôn xác suất của dự đoán đó
16
Trang 253.2.1 Cách hoạt động của YOLO
Khi chúng ta có đầu vào là một hình ảnh với 2 hộp giới hạn đại điện cho mộtcon mèo và một con chó Bước đầu tiên YOLO hoạt động là sẽ chia hình ảnh đầu vào
kia thành các hình lưới với tỉ lệ là n*n Thường là 3*3, 9*9 tỉ lệ chia cảng cao thì
Hình 3.5 Ảnh được chia theo ty lệ 3:3.
Với việc chia hình ảnh thành các lưới như vậy có thể phát hiện một đối tượng
trên mỗi ô lưới hay nhiều ô lưới thay vì một đối tượng trên một ảnh Đối với mỗi ôlưới, chúng ta có thể mã hóa một vectơ sẽ mô tả ô đó Chăng hạn, ô đầu tiên từ trêncùng bên trái không có bat kỳ đối tượng nào và chúng tôi mô tả nó là:
C¡ị,¡ = (Pc,Bx,By,Bw,Bu,C1,C2) = (0,?,?,?,?,?,?
Tai nơi ma (Pc) là tọa độ của tâm hộp giới han, Bx va By so với 6 va là chiều
rộng và chiều cao của hộp giới hạn so với toàn bộ hình ảnh và là 0 hoặc 1 tùy thuộcvào lớp nao đại diện hộp giới han (cho mèo và cho chó).
17
Trang 26Tiệp theo, nêu chúng ta lây 6 chứa tâm của hộp giới hạn màu xanh với con méo,
Hình 3.6 Các thông số anhTheo quy trình này, nếu chúng ta xác định một vectơ cho mỗi ô lưới, thì toàn
bộ ảnh được biểu diễn bằng chín vectơ có kích thước 7 hoặc tenxơ 3*3*7 Điều này
có nghĩa là trong tập dữ liệu của chúng tôi, mỗi mẫu hình ảnh được gắn nhãn bangmột tensor 3*3*7 Sử dụng tập dữ liệu đó, chúng tôi có thể tạo tập huấn luyện và tậpkiểm tra, đồng thời huấn luyện mạng tích chập, đó chính xác là cách YOLO hoạt
động.
Sử dụng CNN, YOLO có thể dự đoán tất cả các đối tượng trong một lượtchuyển tiếp và đó là lý do nó có tên đầy đủ là “You Only Look Once” (“Bạn ChiNhìn Một Lần”)
18
Trang 273.2.2 Đầu ra của YOLO
Đầu ra của YOLO là một vec-tor:
y= [po, (ty, ty, ty, tn), (1, P2, Do) |
Trong đó:
® po là xác suất dự đoán rằng đối tượng xuất hiện trong khung của
bounding-box.
° (t„, ty, tụ, tn) giúp chúng ta xác định vj trí bounding-box Trong đó t,, ty là
các tọa độ của tâm và ty,t, là các kích thước chiều rộng, chiều dai của
bounding-box.
© (P14, P2)-»De) là vec-tor phân phối xác suất dự đoán của các lớp
Van đề hiểu rõ dau ra rất là cần thiết giúp chúng ta điều chỉnh các tham số chính
xác khi đào tạo mô hình qua những mã nguồn mở như darknet Như vậy, đầu ra sẽđược xác định bởi số lượng lớp (n_ class+5) Nếu chúng ta có 80 lớp dé huấn luyệnthì chúng ta sẽ có đầu ra có 85 lớp Ở trong trường hợp chúng ta dùng 3 anchors trên
1 cell thì tham số output sẽ có số lượng là:
(neizse + 5) * 3 = 85x3= 255
19
Trang 28AY Prediction Feature Map
Hình 3.7 Kiến trúc đầu ra cua mô hình YOLO
Ảnh gốc là bản đồ 13x13 Chúng tôi chọn 3 hộp neo có kích thước khác nhau
từ mỗi ô của bản đồ đối tượng, tương ứng là hộp 1, hộp 2, hộp 3, sao cho tâm của cáchộp neo chạm vao ô Trong trường hợp này, YOLO dẫn đến một vectơ nối ba hộp
giới hạn Các thuộc tính của hộp giới hạn được định nghĩa trong cell cuối cùng của
hình.
20
Trang 29obj obj =2 obj ^
Leis = > day + AnoobjA — lj (Ci; — Cy) +) » 1; ’(pi(c) — 8(©))ˆ
¿=0 j=0 i=0 ceC
cell contain object probability distribution classes
L = Lige + Leis
Trong do:
1°”) Hàm chi thị có giá trị là 0 và 1 dé tìm quyết đỉnh 6 i có chứa đối tượng
hay là không Nếu ham chi thị bằng 1 thì có chứa đối tượng va bằng 0 thìkhông có chứa đối tượng
° 17” Cho chúng ta biết được bounding box thứ của ô phải là bouding box của
đối tượng được dự báo hay không?
e Œ¡; Là confidence point của 6 í.
e C,, Là điểm dự đoán chính xác của 6 i
e C Là tập của các classes.
e p;(c) Là xác suất có điều kiện 6 i có chứa đối tượng thuộc lớp c € C
© Ø(c) Là xác suất có điều kiện dé dự báo
e L;s¿ là loss function của bounding box dự đoán so với chính xác.
© Les là loss function của phân phối xác suất Trong đó, loss của dự báo có đối
tượng trong ô được tính trong tổng đầu tiên Loss của phân phối xác suất cóđối tượng trong ô được tính trong tông thứ hai
21
Trang 30Ngoài ra, việc điều chỉnh lại Loss function trong các lúc dự báo không đúngbounding box ta sẽ dựa vào các hệ số „¿¿r„ và chúng ta muốn giảm tương đối nhẹhàm lỗi trong lúc 6 không bao gồm đối tượng dựa vào hệ số Anoop je
3.3 YOLOv7
Cho đến nay mô hình YOLO đã được cải tiễn vượt trội về tốc độ xử ly và hiệunăng từ các tác giả Việc chúng tôi áp dụng mô hình YOLOv7 vào khoá luận tốtnghiệp này vì theo tác giả của YOLO cho rằng hiện tại mô hình này vượt qua hầu hết
các trình phát hiện đối tượng đã được công bồ về cả mặt tốc độ và hiệu năng của mô
hình trong phạm vi từ 5 khung hình trên giây đến 160 khung hình trên giây với 56,8%
AP về độ chính xác, đây được xem là cao nhất trong số hầu hết các trình phát hiện
đối tượng real-time đã được công bố với 30 khung hình trên giây trở lên trên GPU là
V.100 YOLOv7-E6 với 56 khung hình trên giây V.100 và độ chính xác 55,9% AP
hoạt động tốt hơn cả trình phát hiện đối tượng dựa vào máy SWIN.L Cascade-MaskR-CNN với 9,2 khung hình trên giây A.100 có độ chính xác 53,9% AP với tốc độ xử
lý 509% và 2% về độ chính xác, đồng thời các nhà phát hiện dựa trên chập tích hợp
ConvNeXt-XL Cascade.Mask R-CNN có 8,6 khung hình trên giây A.100 và 55,2%
AP độ chính xác tăng tốc độ lên đến 551% và độ chính xác tăng thêm 0,7%, nhữngđiều này có thé khang định rằng YOLOv7 tốt hơn các mô hình: YOLOX, YOLOR,
YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B
va nhiêu mô hình phát hiện đôi tượng khác vê độ chính xác va toc độ.
22