1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Trích xuất thông tin trên biển báo chỉ dẫn giao thông ở Việt Nam

61 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích xuất thông tin trên biển báo chỉ dẫn giao thông ở Việt Nam
Tác giả Do Van Nam, Le Dinh Bao Long
Người hướng dẫn Tien Si Do Trong Hop, Thac Si Ta Thu Thuy
Trường học Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 61
Dung lượng 32,07 MB

Nội dung

Trong khóa luận này, dé tài tập trung nghiên cứu xây dựng một hệ thống có thể nhận diện, trích xuất được các thông tin từ các biển báo giao thông chỉ dẫn trên đường và kết hợp, đem thông

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

DO VĂN NAM - 19521866

LÊ ĐÌNH BAO LONG - 19521782

KHOÁ LUẬN TÓT NGHIỆP

INFORMATION EXTRACTION ON THE TRAFFIC SIGN OF

INDICATIONS IN VIETNAM

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TIEN Si DO TRONG HOP THAC SĨ TA THU THUY

TP HO CHi MINH, 2022

Trang 2

DANH SÁCH HỘI DONG BAO VỆ KHOA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 35/QD- ĐHCNTT

ngày tháng năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch: TS.Lương Ngọc Hoàng

2 Thư ký: ThS.Pham Thế Sơn

3 Ủy viên: ThS.Võ Duy Nguyên

Trang 3

LỜI CẢM ƠN

Lời đầu tiên chúng tôi muốn gửi lời cảm ơn sâu sắc đến Tiến sĩ Đỗ Trọng Hợp

đã luôn đồng hành và chỉ bảo chúng tôi trong suốt quá trình học tập và nghiên cứu để

hoàn thành khóa luận Trong suốt khoảng thời gian qua, thầy đã luôn quan sát và động

viên chúng tôi cố gắng và luôn tận tình giúp đỡ, cho lời khuyên mỗi khi chúng tôi

gặp phải khó khăn Thầy đã mang đến cho chúng tôi rất nhiều kiến thức, phương pháp, kỹ năng nghiên cứu và định hướng về lĩnh vực của chúng tôi dé có thể hoàn thiện bản thân một cách tốt nhất.

Chúng tôi cũng xin cảm ơn bạn Trần Nhật Nam và bạn Trần Thành Luân đã

giúp đỡ chúng tôi trong quá trình nghiên cứu và hoàn thiện khóa luận này Bên cạnh

đó chúng tôi chân thành cảm ơn Giáo viên hướng dẫn Thạc sĩ Thủy đã luôn theo sát, quan tâm chúng tôi trong suốt quá trình học tập Gửi lời cảm ơn đến các thầy cô trong

khoa Khoa học và Kỹ thuật Thông tin cũng như các thầy cô trong trường Công nghệ Thông tin và Đại học Quốc gia thành phố Hồ Chí Minh đã luôn đồng hành, đã tạo cơ hội để chúng tôi có thể học tập với các giáo viên tốt nhất và phát triển trong môi

trường tốt nhất và tạo nhiều cơ hội đê chúng tôi có thẻ phát triển bản thân nhiều hơn nữa Chúng tôi chân thành cảm ơn đến gia đình và bạn bè đã luôn động viên, quan

tâm đến chúng tôi giúp chúng tôi có động lực để vượt qua những khó khăn và đã có

gắng đến ngày hôm nay.

Cuối cùng chúng tôi muốn cảm ơn tất cả mọi người vì đã mang đến cho chúng

tôi những nhiều tốt đẹp nhất trong khoảng thời gian đẹp nhất khi chúng tôi được học

tập và lớn lên trên ngôi trường Công nghệ Thông tin Xin chân thành cảm ơn!

Trang 4

1.3 Đối tượng và phạm vi nghiên cứu

Chương 2 TÔNG QUAN

2.1 Bài toán khai thác thông tỉn -2v222222++22+tttt222222222211111111111122 re 5

QL Phat ng ốố.ẽẽ ẽ.ẽ.ẽ 6 2.1.2 Nhận diện đối tượng

2.1.3 Trích xuất văn bản

2.2 Nghiên cứu ngoài ưỚC - ¿- 5+ + xxx 11111111111 xrrrrk 6 2.3 Nghiên cứu trong nƯỚC - -stx+ St EEEEkSEerrkekrrekrrrkrkrrrkrrrrkrkrrrrkrrrrererrre

Chương 3 CƠ SỞ LÝ THUYÉT

3.1 Khai thác thông tin

3.1.1 Nhận dạng thực thị

3.1.2 Trích xuất mối s68 ` 0 =“= ,ÔỎÔ 13 3.1.3 Phát hiện đối tượng .-ccccc52225ccccettttrtterrreerrrrrrrrrrrrrrrrrrree 4

3.2 YOLO

3.2.1 Cách hoạt động của YOLO

3.2.2 Đầu ra của YOLO :¿¿-2222222++2222211111222221111212.22211111112.21111111112.21011111 cce 19 3.2.3 Hàm lỗi -: -: 222222 vn ri 21

3.3 YOLOv7

3.4 Nhận dạng văn bản

3.5 Phát hiện văn bản theo don;

3.6 Tong hop Van 0 ` 3.7 Ung 1 28

Chương 4 THUC NGHIEM

4.1 Bộ dit liệu

4.1.1 Bộ dữ liệu của bài toán phát hiện các đôi tượng trên biên báo 32

4.1.2 Bộ dit liệu của bài toán nhận dạng văn bản trên biển báo - 37

4.2 Cài đặt và thực nghiệm

4.2.1 Mô hình phát hiện đôi tượng

4.2.2 Mô hình nhận dạng ký tự theo dòng

Trang 5

4.2.3 Mô hình nhận dang văn bản - - ¿5252 St vvrekerrrkerrrrkrrrrrrrrrter 40

4.2.4 Mô hình tông hợp thông tin

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1.1 Ảnh biển báo chỉ dẫn 2 hướng

Hình 1.2 Ảnh biển báo chỉ dẫn 3 hướng.

Hình 2.1 Tổng quan hệ thống của khoá I

Hình 2.2 Mô hình Random Forest

Hình 2.3 RGSM "

Hình 3.1 Sơ lược về bài toán khai thác thông tit

Hình 3.2 Biển báo chỉ dẫn có nhiều địa điểm trên một hướng

Hình 3.3 Object Detection giúp ích cho các ứng dụng hệ thong giám sát

Hình 3.4 Phát hiện đối tượng với YOLO,

Hình 3.5 Anh được chia theo tỷ lệ 3:3

Hình 3.6 Các thông số ảnh

Hình 3.7 Kiến trúc đầu ra của mô hình YOLO.

Hình 3.8 Mô tả sự vượt trội của YOLOv7.

Hình 3.9 Thuật toán OTA áp dung trong b:

Hình 3.10 Optical Character Recognitioi

Hình 3.11 Mô hình mạng VGGIE .

Hình 3.12 Tông hợp thông tin dé đưa ra ouput hoàn chin

Hình 3.13 Smart

Car Hình 4.1 Mô tả chỉ tiết quy trình thực nghiệm.

Hình 4.2 Quá trình điều chỉnh nhãn theo đúng yêu

Hình 4.3 Lưu đồ khối thể hiện quy trình gán nhãn bộ dữ 1

Hình 4.4 Biéu đồ miêu tả số lượng bounding box ứng với mô

Hình 4.5 Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình YOLOv7

Hình 4.6 Minh hoạ đầu vào và đầu ra sau khi dự đoán bằng mô hình CRAFT cho bài toán

nhận dạng văn bản theo dòng +39

Hinh 4.7 Minh hoa dau vao va dau ra s toán

trích xuất văn ban " 40

Hình 4.8 Minh hoạ vào và dau ra sau khi tông hợp thông ti tin băng mô 4I

Hình 4.9 Ví dụ về các loại lỗi cơ bản 42

Hình 4.10 Ma trận nhằm lẫn cho bộ dữ liệu chưa ng cườn: 44

Hình 4.11 Ma trận nhằm lẫn cho bộ dữ liệu tăng cường 45

Hình 4.12 Precision-Recall Curve trên bộ dữ liệu đã được tăng cường 46

Hình 4.13 Màn hình lựa chọn file đầu vào - 47

Hình 4.14 Màn hình hiên thị ảnh sau khi được phân tích 48

Hình 4.15 Hình ảnh hiền thị thông tin trên biển báo theo dạng tex 49

Hình 4.16 Phần âm thanh của thông tin đầu ra bài toán 49

Hình 4.17 Giao diện sau khi hoàn thiện - - 5-6 +x+++v++vsvevsvevsvevsessvessresexeexsee DO.

u khi dự đoán băng mô hình VietOCR cho b;

Trang 7

DANH MỤC BẢNG

Bảng 1.1 Độ đo của mô hình RF trong bài báo - - s6 + St St+xerrxsrerxererrrkererxek 7

Bang 4.1 Bảng mô tả tên Class và Class_id

Bang 4.2 Két quả của các độ đô trên hai bộ dữ liệu.

Trang 8

DANH MỤC CHU VIET TAT

IE (Information Extraction)

YOLO (You Only Look Once)

CNN (Convolutional Neural Network)

OCR (Optical Character Recognition)

Trang 9

TÓM TẮT KHOÁ LUẬN

Giao thông từ lâu luôn là vấn đề được rất nhiều người ở nhiều lĩnh vực khác

nhau quan tâm, đặc biệt với sự phát trién của giao thông kéo theo sự đòi hỏi và phat triển của các lĩnh vực về giao thông như cầu đường, xe cd Và đặc biệt là ứng dụng

của lĩnh vực về thị giác máy tính đã rất được ưu chuộng khi áp dụng vào xe thông

minh (smart car) Do đó, việc nghiên cứu và phát triển thị giác máy tính trong việc trích xuất các thông tin có được từ các ảnh và video từ camera hành trình có thể giúp

ích được rất nhiều trong việc phát triển xe thông minh có thể tự động vận hành với

độ chính xác và an toàn nhất Trong khóa luận này, dé tài tập trung nghiên cứu xây dựng một hệ thống có thể nhận diện, trích xuất được các thông tin từ các biển báo giao thông chỉ dẫn trên đường và kết hợp, đem thông tin đến cho người dùng.

Đóng góp của luân văn:

* Tao bộ dữ liệu về các biển báo chỉ dẫn ở Việt Nam.

e _ Tổng hợp kiến thức, nghiên cứu và các công trình liên quan đến van đề trích

xuất thông tin từ biển báo giao thông chi dẫn.

¢ _ Nghiên cứu, đề xuất các phương pháp đề đưa ra các kết quả tốt nhất.

© _ Công bó các công trình nghiên cứu khoa học trong và ngoài nước liên quan

đến khóa luận.

e Thiết kế, xây dựng mô hình minh họa cho hệ thống đề xuất.

Trang 10

Chương 1 MỞ ĐẦU

1.1 Lý do chọn đề tài

Biển báo giao thông hiện đã được lắp đặt trên hầu hết các tuyến đường ở khắp các quốc gia Với sự hiện đại hóa và phát triển, lưu lượng giao thông phản ánh tốc độ

phát triển của các quốc gia này, đặc biệt là các quốc gia phát triển và đang phát triển,

vì vậy van dé giao thông luôn là một van dé lớn Khi ngày càng có nhiều đường được

xây dựng, việc xác định phương hướng, vị trí và khoảng cách trở nên khó khăn hơn

rất nhiều Trong các loại biển báo thì biển báo chi dẫn là loại biển báo cung cấp cho

người tham gia giao thông thông tin về hướng đi, khoảng cách của các địa điểm trên đường để họ đến đích an toàn, chính xác Biển báo giao thông chỉ dẫn chứa rất nhiều

thông tin hữu ích cho người đi đường về tuyến đường, hướng đi và thông tin về

khoảng cách từ các địa điểm trên tuyến đường Tự động nhận dạng và phân tích các

biển báo giao thông mang lại sự thoải mái và tập trung cho người lái xe trên đường Điều này cung cấp cho người lái xe điều hướng, tuân thủ và thông báo chính xác và kịp thời về tuyến đường hiện tại của họ Trong lĩnh vực thị giác máy tính, vấn đề nhận

dạng và phân loại biển báo giao thông đã nhận được sự quan tâm đáng kế trong cộng đồng nghiên cứu Do đó chúng tôi muốn xây dựng mô hình có thé giúp ích cho việc

trích xuất các thông tin và mang lại cho người tham gia giao thông các thông tin đó

một cách nhanh chống và chính xác nhất.

Trang 11

Hình 1.1 Ảnh biển báo chỉ dẫn 2 hướng

Nhiệm vụ của trích xuất thông tin từ biển báo giao thông chỉ dẫn là có thê nhiện

diện đúng biển báo chỉ dẫn và trích xuất được những thông tin như phương hướng,

khoảng cách va địa điềm.

Trang 12

1.2 Mục đích của đề tài

Với mong muốn nghiên cứu, thử nghiệm các phương pháp nhận diện đối tượng

và cách sử dụng các kỹ thuật xử lý dữ liệu (image, video) cùng với các phương pháphuấn luyện mô hình học sâu để xử lý các thông tin được trích xuất một cách thật

nhanh chóng và mang lại độ chính xác cao Trong đề tài này, mục tiêu của chúng tôi

được trình bày như sau:

e Tìm hiểu và thu thập thông tin về dé tài từ bài báo công bố về các công

trình nghiên cứu trong và ngoài nước liên quan đến van đề xử lý phát hiện,

nhận dạng đối tượng, tiếp thu các cách trích xuất, xử lý, tông hợp các thông

tin có từ đối tượng

e Nghiên cứu và kết hop các phương pháp xử ly dir liệu đầu vào và các

phương pháp phù hợp và hiện đại dé huấn luyện các mô hình có thé phát

hiện và nhận dạng đối tượng.

e Xây dựng luéng xử lý dữ liệu, các phương pháp và triển khai đề tài một

cách chính xác, hiệu quả và dễ dàng có thể thực hiện

1.3 Đối tượng và phạm vi nghiên cứu

Trên từng quốc gia về van dé giao thông đều sẽ có quy định riêng về các kýhiệu và thông tin trên biên báo giao thông, nhận thấy trong những biển báo giao thôngthường gặp thì chúng tôi nhận thấy biển báo giao thông chỉ dẫn là loại biển báo cóthê đem đến được nhiều thông tin nhất nên vì thế trong khóa luận này, chúng tôi chỉtập trung nghiên cứu dựa trên các biển báo giao thông chỉ dẫn và cụ thé là các biểnbáo giao thông chỉ dẫn ở Việt Nam( nơi mà chúng tôi nhận thấy có mật độ giao thông

rất đông đúc và phức tạp)

Trang 13

Chương 2 TONG QUAN

Chúng tôi dé xuất thiết kế của hệ thống được mô ta trong Hình 2.1 Dữ liệu đầuvào của hệ thống là các khung được trích xuất từ ảnh hoặc video có chứa biển báogiao thông chi dan Mô hình học chuyên đổi dựa trên YOLOv7 sử dụng dé có thê

phát hiện ra các đối tượng có trên biển báo chỉ dẫn Sau đó, các đối tượng văn bản sẽđược xử lý theo dòng thông qua mô hình Line Detection và các dòng ký tự sẽ đượcnhận dang và trích xuất nội dung của văn bản dựa trên mô hình VietOCR dành cho

tiếng Việt Dé tiện cho việc tổng hợp các thông tin đã được xử lý thì chúng tôi sẽ sử

dung mô hình text-to-text là T5, mô hình này tu các thông tin đã được xử lý như

hướng, khoảng cách và địa điểm để có thé đưa ra văn bản hoàn chỉnh với các nộidụng có nghĩa và dé hiểu cho biển báo Nội dung của hệ thống này được hiền thị lên

và thông báo cho người dùng thông qua giao điện web của hệ thống

2.1 Bài toán khai thác thông tin

Bài toán khai thác thông tin là một bài toán lớn, dé có thé sử dụng lượng đữ liệukhông lồ xung quanh chúng ta thì nhiệm vụ khai thác thông tin là cực kỳ quan trọng.[1] Thông tin ở xung quanh chúng ta rất đa dạng như thông tin dang văn bản, hìnhảnh, âm thanh Trong đó đa sỐ các thông tin được hiện thị gần gũi nhất với chúng

ta hằng ngày là dạng thông tin văn bản Khai thác thông tin được sử dụng rất nhiềutrong các bài toán quanh chúng ta như: Tóm tắt văn bản, hệ thông tự động trả lời tinnhắn, tự động tra cứu và tìm kiếm thông tin Và chúng tôi áp dụng quá trình phầntích, khai thác thông tin trên ảnh và video dé thích hợp với kết quả của chúng tôi

Trang 14

2.1.1 Phát hiện đối tượng

Phát hiện đối tượng là khả năng quan sát và xác định toạ độ chính xác của đốitượng trong không gian thông qua hệ thống máy tính hoặc các công cụ định vị như là

camera hành trình Phát hiện đối tượng hiện được sử dụng rộng rãi trong các bài toán

phát hiện vật thể như khuôn mặt người, người đi bộ, đếm số lượng vật thể hoặc trong

các hệ thống bảo mật và đặc biệt ứng dụng trong xe thông minh

2.1.2 Nhận diện đối tượng

Nhận diện đối tượng là kỹ thuật phổ biến của lĩnh vực Computer Vision nhằmxác định các vật thé trong ảnh hoặc trong các video Nhận diện đối tượng là đầu rachính của nhiều thuật toán Machine Learning và Deep Learning Hau hết khi chúng

ta thấy một ảnh hoặc một video thì chúng ta sẽ có thể nhận ra các đối tượng trong ảnh

hoặc video một cách chính xác Mục tiêu trong bài toán nhận diện đối tượng là dạy

cho máy tính có thể hiéu và làm được những điều giống như con người: giúp nó cóthể hiểu một cách chính xác về hình ảnh hoặc video đó

2.1.3 Trích xuất văn bản

Sau khi có được các thông tin từ việc trích xuất thông tin thì với những thông

tin nhận diện đó thì chưa thé nào khiến người sử dụng phương tiện có thể hiểu đầy

đủ thông tin một cách rành mạch và rõ ràng thông tin nên chúng ta cần sử dụng thêmphương pháp đề có thê kết hợp các thông tin đó lại thành thông tin làm người sử dụng

có thé hiểu được một cách dễ dàng và chính xác

2.2 Nghiên cứu ngoài nước

Việc làm sao dé có thé thu thập được lượng thông tin xung quanh chúng ta

luôn luôn là một thách thức lớn từ khắp nơi trên thế giới Chúng ta đều hiểu dé sử

dụng được những thông tin đó cần phải phụ thuộc rất nhiều vào các công nghệ hiệnđại thời nay Thế nên việc nghiên cứu các công nghệ và các kỹ năng khai thác thôngtin luôn là dé tài nóng hồi và luôn luôn phát triển trở thành công nghệ được sử dụng

rộng rãi ở moi noi.

Trang 15

Trong van dé giao thông thì thông tin trên biển báo giao thông là những thôngtin cực kỳ quan trong dé người tham gia giao thông và các phương tiện có thé biếtđược thông tin chính xác về các chỉ dẫn trên biển báo.

Trong bài báo của trường đại học Selcuk [2]vào năm 2020 đã công bố bài báo

về trích dẫn và nhận biết các đặc trưng trên biển báo giao thông tại các đường cao tốccủa Thổ Nhĩ Kỳ Bài viết đã thu được 1000 features được phân loại bằng phươngpháp Random Forest từ các thuật toán máy học và kết quả đạt được 93.7% chính xác

nhờ quá trình phân loại này.

Test Sample Input

Hình 2.2 Mô hình Random Forest

Với các ảnh thu được, quá trình trích xuất và phân loại đặc trưng được thựchiện bằng ứng dụng khai phá dữ liệu Orange Trong quá trình trích xuất tính năng,

1000 features được trích xuất cho mỗi hình ảnh từ 1500 ảnh trong bộ dữ liệu thu thậpđược, bang việc sử dụng các mang thần kinh tích chập từ các kiến trúc học sâu của

Trang 16

Trong bài báo của M.Sudha và Dr.V.P Galdis pushparathi [3] đã công bố một

bài báo vào năm 2021 về Phát hiện và nhận dạng biển báo giao thông băng RGSM

và phương pháp trích xuất tính năng mới Bài báo đã sử dụng tính năng chuyển màu

Random Gradient Succession with Momentum (RGSM) mới với phương pháp trích

xuất tính năng cụ thé theo hình dang mới

Input ImageP ® | Transposed

Tiép theo, bộ phân loại CNN sẽ được sử dung dé phân loại các nhãn đầu ra

được đào tạo, sau đó chuyên đôi biển báo giao thông thành tín hiệu âm thanh trong

cả giai đoạn đảo tạo và giai đoạn thử nghiệm.

Kết quả được ước tính cho các phép đo hiệu suất như độ chính xác, F1 score,

Precision, hệ số Jaccard, kappa và hệ số Dice Việc sử dụng các phương pháp học

máy trở nên cực kỳ phố biến đã cho được các kết quả cao trong việc trích xuất các

đặc trưng và các thông tin trích xuất

Trang 17

2.3 Nghiên cứu trong nước

Vào năm 2021, chúng tôi nghiên cứu và công bồ bài báo [4] về việc sử dung

mô hình deep learning dé phát hiện các biển báo giao thông cho các hệ thong giaothông thông minh ở Việt Nam Bài báo cung cấp cho người lái xe sự chính xác và kịpthời trong việc tuân thủ các thông báo từ các biển báo giao thông trên lộ trình họ đang

di chuyên Chúng tôi giải quyết bài toán tự động phát hiện và phân loại biển báo giaothông trên bộ dữ liệu mà chúng tôi đã xây dựng bằng thuật toán YOLOv4 và YOLOv5

với các tham số được tinh chỉnh Kết quả thu được trong bài báo này là độ chính xác

trong việc phát hiện và phân loại biển báo khá cao và sai số rất thấp so với giao thông

bên ngoài tại Việt Nam Với bộ dữ liệu dựa trên các loại biển báo phổ biến trên thế

gidi va bién tau phù hợp với nước Việt Nam, sự đa dang về Bài báo đã cho một cáchnhìn tổng quan về việc sử dụng các mô hình deep learning dé cho các kết quả cao hơnnhiều so với các mô hình học máy thông thường, các ưu nhược điểm và phương

hướng cải tiễn

Từ những kết quả đã thu được từ bài báo chúng tôi đã tích hợp thêm nhiềukiến thức mới, phương pháp mới và các hướng đi mới đề cải thiện, phát triển bài toán

của mình một cách hiệu quả hơn, kết quả cao hơn và đa dụng hơn.

Chúng tôi mong muốn rằng qua những kết quả đạt được, nó sẽ đem đến thêmthông tin tham khảo về viêc khai thác thông tin ở Việt Nam và tương tự cho các công

trình nghiên cứu khác trong và ngoài nước.

Trang 18

Chương 3 CƠ SỞ LÝ THUYET

3.1 Khai thác thông tin

Khai thác thông tin là việc truy xuất tự động thông tin cụ thể liên quan đến

một chủ đề được chọn từ nội dung hoặc nội dung của văn bản Trích xuất thông tin

chuyền đổi kiến thức này thành một hình thức có cấu trúc phù hợp dé thao tác máytính, mở ra nhiều khả năng để sử dụng nó Nó đòi hỏi phân tích sâu hơn so với cáctìm kiếm từ khóa, nhưng mục tiêu của nó không đạt được vấn đề rất khó khăn và dảihạn về việc hiểu văn bản, nơi chúng tôi tìm cách nắm bắt tất cả thông tin trong mộtvăn bản, cùng với ý định của người nói hoặc nhà văn Các công cụ trích xuất thôngtin cho phép lay thông tin từ các tài liệu văn bản, cơ sở dữ liệu, trang web hoặc nhiềunguồn IE có thể trích xuất thông tin từ văn bản không có cấu trúc, bán cấu trúc hoặc

có cau trúc, có thé đọc được Tuy nhiên, thông thường, IE được sử dụng trong xử lýngôn ngữ tự nhiên (NLP) dé trích xuất cấu trúc từ văn bản không có cấu trúc IE có

từ những ngày đầu xử lý ngôn ngữ tự nhiên của những năm 1970 Jasper [5] là một

hệ thống cho IE rằng đối với Reuters của Đại học Carnegie Melon là một ví du banđầu Những nỗ lực hiện tại trong xử lý tài liệu đa phương tiện trong IE bao gồm chúthích tự động và nhận dạng nội dung và trích xuất từ hình ảnh và video cũng có thé

được xem là IE.

Hình 3.1 Sơ lược về bài toán khai thác thông tin

10

Trang 19

Do sự phức tạp của ngôn ngữ, IE chất lượng cao là một nhiệm vụ đầy thách

thức đối với các hệ thông Trí tuệ nhân tạo (AI) Trích xuất thông tin đại diện cho một

điểm giữa trên phô này, trong đó mục dich là nam bắt thông tin có cầu trúc mà khôngphải hy sinh tính khả thi IE thường tập trung vào các hiện tượng ngôn ngữ bề mặtkhông đòi hỏi suy luận sâu sắc và nó tập trung vào các hiện tượng thường gặp nhấttrong các văn bản Công nghệ khai thác thông tin phát sinh dé đáp ứng nhu cầu xử lý

văn bản hiệu quả trong các lĩnh vực chuyên ngành Trình phân tích toàn câu đã dành

rất nhiều nỗ lực trong việc có gắng đến các phân tích các câu dai không liên quan đếnmiền, hoặc chứa nhiều tài liệu không liên quan, do đó tăng cơ hội cho những lỗi khôngnên xảy ra Ngược lại, công nghệ trích xuất thông tin chỉ tập trung vào các phần cóliên quan của văn bản và bỏ qua phân còn lại Các ứng dụng điển hình của các hệthống khai thác thông tin là trong kinh doanh lượm lặt, chính phủ hoặc tình báo quân

sự từ một số lượng lớn các nguon; Trong cac tim kiếm của World Wide Web dé biết

thông tin cụ thé hon từ khóa có thé phân biệt đối xử; cho các tìm kiếm tài liệu khoa

học; trong việc xây dựng cơ sở dit liệu từ Corpora văn bản lớn; va trong việc quản ly

các bài báo y sinh Nhu cầu trích xuất thông tin được minh họa rõ ràng trong y sinh,nơi có hơn nửa triệu bài báo mỗi năm, và số tiền lớn được chi cho các hoạt động giámtuyên Tương tự như vậy, trong tập hợp tình báo, một nhà phân tích năm 1990 nóirằng việc đọc tất cả những gi cô được cho là đọc sẽ giống như đọc chiến tranh và hòabình mỗi ngày; Năm 1995, cùng một nhà phân tích cho biết nó vượt xa điều đó Thông

thường quá trình này bao gồm ba bước chính là: xác định thực thể (NER: Named

Entity Recognition), xác định mối liên hệ (Relation Extraction) và trích xuất sự kiện

(Event Extraction).

11

Trang 20

3.1.1 Nhận dạng thực thể

Khai thác thông tin phụ thuộc vào nhận dạng thực thé được đặt tên (NER),

một công cụ phụ được sử dụng dé tìm thông tin được nhắm mục tiêu để trích xuất

NER nhận ra các thực thé đầu tiên là một trong một số loại như vị trí (LOC), người(PER) hoặc tô chức (ORG) Khi danh mục thông tin được nhận ra, một tiện ích tríchxuất thông tin sẽ trích xuất thông tin liên quan đến thực thé được đặt tên va xây dựngmột tài liệu có thé đọc được bằng máy từ nó, mà các thuật toán có thé xử lý thêm détrích xuất ý nghĩa IE tìm thấy ý nghĩa bằng cách của các nhiệm vụ phụ khác bao gồmgiải quyết đồng tham chiếu, trích xuất mối quan hệ, phân tích ngôn ngữ và từ vựng

và đôi khi trích xuất âm thanh Nhận dang thực thé được đặt tên (NER) là một trongnhững cách sử dụng phô biến nhất của công nghệ trích xuất thông tin (vi dụ: [6]Bikel,

Schwartz, và Weischedel 1999, Collins và Singer 1999; [7]Cucerzan và Yarowsky

1999; [8]Sang và Meulder 2003))) Các hệ thống NER xác định các loại tên thích hợpkhác nhau, chăng hạn như tên người và công ty, và đôi khi các loại thực thé đặc biệt,chang hạn như ngày và thời gian, có thé dé dang xác định bang cách sử dụng các mẫuvăn bản cấp bề mặt

NER đặc biệt quan trọng trong các ứng dụng y sinh, trong đó thuật ngữ là một

vấn đề đáng gờm Nhưng điều quan trọng cần lưu ý là trích xuất thông tin không chỉ

là nhận dạng thực thé được đặt tên Khó khăn hơn nhiều và có khả năng quan trọnghơn nhiều là sự công nhận các sự kiện và người tham gia của họ Phần lớn công nghệtrong trích xuất thông tin đã được phát triển dé đáp ứng với một loạt các đánh giá và

các hội nghị liên quan được gọi là Conference Understanding the Message (MUC),

được tô chức từ năm 1987 đến 1998 Ngoại trừ các MUC sớm nhất, những đánh giánày được dựa trên một tập đoàn của mién- Các văn ban cụ thé, chăng hạn như các bàibáo về liên doanh Các nhóm tham gia đã được cung cấp một tập hợp đảo tạo và địnhnghĩa mẫu cho Ngoài ra, một khái niệm khác có liên quan đến NER là Coreference

Resolution Coreference Resolution được sử dụng để tìm tất cả các từ đại diện cho

cùng một thực thể nhất định trong đoạn văn bản

12

Trang 21

Vị dụ như trong câu “Tôi thích được làm việc với Nam vì cậu ay rất tốt” thì từ

“cậu ay’ chính là từ dé chi ‘Nam’ Bên cạnh vai trò trong việc xác định mối liên hệ

(Relation Extraction) và phát hiện sự kiện (Event Extraction) thì NER còn được áp

dụng trong nhiều bài toán liên quan đến Xử lý ngôn ngữ tự nhiên Ví dụ như trong

việc phân tích Sentiment thì NER giúp ta biết được đánh giá của người dùng đối vớimột thực thê nhất định (có thể là cơ quan, tổ chức, địa danh, ) hoặc trong hệ thốngQuestion Answering, NER giúp ta biết được người dùng muốn hỏi về đối tượng nao,

3.1.2 Trích xuất mối quan hệ

Trích xuất mối quan hệ (Relation Extraction) là nhiệm vụ trích xuất các mốiquan hệ ngữ nghĩa từ một văn bản Các mỗi quan hệ được trích xuất thường xảy ragiữa hai hoặc nhiều thực thé thuộc một loại nhất định (vi dụ: người, tổ chức, địa điểm)

và rơi vào một số loại ngữ nghĩa (ví dụ: kết hôn, được sử dụng bởi, sông trong) Ví

dụ như trong câu ‘Long học tại UIT’ thì kết quả của quá trình Relation Extraction sẽcho ta kết quả của mối liên hệ giữa Long (tên người) và UIT (trường) là “đang học”(vì Long đang học tại trường UIT) Như trong các biên báo chỉ dẫn, trên một hướng

có thể xuất hiện từ 2 đến 3 địa điểm, từ đó chúng ta có thể cho ra từ một hướng cóthể biết được thông tin các điểm đến được nó hiền thị

13

Trang 22

3.1.3 Phát hiện đối tượng

Bài toán phát hiện đối tượng là một bài toán khá phổ biến trong lĩnh vựcComputer Vision [9], bài toán được dùng dé xác định vị trí vật thé trong ảnh hoặctrong video Hầu hết các bài toán phát hiện đối tượng đều dùng Machine Learning và

Deep Learning dé tạo đầu ra có ý nghĩa Có một điều ai cũng biết là khi chúng ta nhìnvào ảnh hoặc video thì chúng ta có thể xác định được vật thé một cách nhanh chóngchính xác trong giây lát Nhiệm vụ chính của bài toán là tạo ra việc xác định này bằngmáy một cách tự động và nhanh chóng Đó là một lĩnh vực quan trọng dé có thé tao

ra các hệ thong giúp ích cho người lái hiện dai (còn gọi là ADAS), nó giúp người lái

xe phát hiện nhanh chóng các làn đường có thê lái xe vào hoặc phát hiện những ngườiđang đi bộ giúp cải thiện về vẫn đề an toàn trên đường bộ Phát hiện vật thể cũng khá

có ich ở trong những ứng dụng như các hệ thong giám sát camera hoặc truy xuất ảnh

OBJECT DETECTION

ALGORITHM

Hình 3.3 Object Detection giúp ích cho các ứng dung hệ thong giám sát

Những phương pháp phát hiện đối tượng tiên tiến đã sớm được sử dụng bởicác hệ thống giám sát hiện đại Phương pháp phát hiện đối tượng đã được nhắc đến

trong các thuật toán cô điển (giống các thuật toán trong OpenCV và nhiều thư việnđược các chuyên gia nghiên cứu trong lĩnh vực Computer Vision) khá là lâu Nhưng

những thuật toán cô điển này không đủ đáp ứng được hiệu suất đủ cao dé có thé làm

việc ở các bộ dữ liệu phức tạp và lớn như hiện nay.

14

Trang 23

Những phương pháp tiên tiến và có tốc độ xử lý nhanh của deep learning được

áp dụng vào năm 2012 và các phương pháp phát hiện vật thể tiên tiến đã mang lại cáckết quả cho độ chính xác khá tốt như Fast-RCNN, RCNN, RetinaNet hoặc những

mô hình mang đến độ chính xác cao ví dụ như YOLO và SSD Việc sử dụng Deep

Learning và Machine Learning đòi hỏi nhiều kỹ năng xử lý kiến thức có liên quan về

công thức toán học và việc Deep Learning Rất nhiều chuyên gia nghiên cứu và cácnhà công ty phát triển về phần mềm ở toàn thế giới muốn kết hợp, đưa ra các ứngdụng kết hợp với việc sử dụng Object Detection Nhưng vào lúc đó, công nghệ nàyvượt khá xa tầm hiéu biết của họ và khá phức tạp dé có thé hiểu va áp dung được vàotính thực tế của nó

Dé tiếp cận với bài toán nay chúng tôi đã tìm hiểu và sử dụng một objectdetector đã được đào tạo trước (Pretrained object đetector) Nhiều quy trình sử dụngdeep learning để thúc đây sự học chuyên giao (tranfer learning), một cách tiếp cậncho phép chúng tôi bắt đầu với một mạng đã được đào tạo từ trước, sau đó chúng tôi

sử dụng và tỉnh chỉnh với bài toán chúng tôi đặt ra Phương pháp này cung cấp cho

chúng tôi kết quả nhanh hơn vì object detector đã được huấn luyện rất nhiều lần trước

đó, hàng nghìn thậm chí là hàng triệu ảnh Như trong bài viết này chúng tôi đã sử

dụng pretrainded của YOLO cụ thé là YOLOV7

15

Trang 24

3.2 YOLO

YOLO là một trong những kiến trúc mô hình và thuật toán phát hiện đối tượngphổ biến nhất Nó sử dụng một trong những kiến trúc CNN tốt nhất dé tao ra mức

chính xác khá cao và tốc độ tong thé, đó là lý do chính khiến nó trở nên phổ biến

Hình 3.4 Phát hiện doi tượng với YOLO

Thuật toán YOLO nhằm mục đích dự đoán một lớp của đối tượng và hộp giới

hạn xác định vị trí đối tượng trên ảnh đầu vào Nó nhận ra từng hộp giới hạn bằng

bốn số:

- Toa độ trung tâm của bounding box ( bx, by)

- Chiều rộng cua box ( bw)

- Chiéu cao của box (bn)

Bên cạnh đó, YOLO cũng sé dự đoán luôn xác suất của dự đoán đó

16

Trang 25

3.2.1 Cách hoạt động của YOLO

Khi chúng ta có đầu vào là một hình ảnh với 2 hộp giới hạn đại điện cho mộtcon mèo và một con chó Bước đầu tiên YOLO hoạt động là sẽ chia hình ảnh đầu vào

kia thành các hình lưới với tỉ lệ là n*n Thường là 3*3, 9*9 tỉ lệ chia cảng cao thì

Hình 3.5 Ảnh được chia theo ty lệ 3:3.

Với việc chia hình ảnh thành các lưới như vậy có thể phát hiện một đối tượng

trên mỗi ô lưới hay nhiều ô lưới thay vì một đối tượng trên một ảnh Đối với mỗi ôlưới, chúng ta có thể mã hóa một vectơ sẽ mô tả ô đó Chăng hạn, ô đầu tiên từ trêncùng bên trái không có bat kỳ đối tượng nào và chúng tôi mô tả nó là:

C¡ị,¡ = (Pc,Bx,By,Bw,Bu,C1,C2) = (0,?,?,?,?,?,?

Tai nơi ma (Pc) là tọa độ của tâm hộp giới han, Bx va By so với 6 va là chiều

rộng và chiều cao của hộp giới hạn so với toàn bộ hình ảnh và là 0 hoặc 1 tùy thuộcvào lớp nao đại diện hộp giới han (cho mèo và cho chó).

17

Trang 26

Tiệp theo, nêu chúng ta lây 6 chứa tâm của hộp giới hạn màu xanh với con méo,

Hình 3.6 Các thông số anhTheo quy trình này, nếu chúng ta xác định một vectơ cho mỗi ô lưới, thì toàn

bộ ảnh được biểu diễn bằng chín vectơ có kích thước 7 hoặc tenxơ 3*3*7 Điều này

có nghĩa là trong tập dữ liệu của chúng tôi, mỗi mẫu hình ảnh được gắn nhãn bangmột tensor 3*3*7 Sử dụng tập dữ liệu đó, chúng tôi có thể tạo tập huấn luyện và tậpkiểm tra, đồng thời huấn luyện mạng tích chập, đó chính xác là cách YOLO hoạt

động.

Sử dụng CNN, YOLO có thể dự đoán tất cả các đối tượng trong một lượtchuyển tiếp và đó là lý do nó có tên đầy đủ là “You Only Look Once” (“Bạn ChiNhìn Một Lần”)

18

Trang 27

3.2.2 Đầu ra của YOLO

Đầu ra của YOLO là một vec-tor:

y= [po, (ty, ty, ty, tn), (1, P2, Do) |

Trong đó:

® po là xác suất dự đoán rằng đối tượng xuất hiện trong khung của

bounding-box.

° (t„, ty, tụ, tn) giúp chúng ta xác định vj trí bounding-box Trong đó t,, ty là

các tọa độ của tâm và ty,t, là các kích thước chiều rộng, chiều dai của

bounding-box.

© (P14, P2)-»De) là vec-tor phân phối xác suất dự đoán của các lớp

Van đề hiểu rõ dau ra rất là cần thiết giúp chúng ta điều chỉnh các tham số chính

xác khi đào tạo mô hình qua những mã nguồn mở như darknet Như vậy, đầu ra sẽđược xác định bởi số lượng lớp (n_ class+5) Nếu chúng ta có 80 lớp dé huấn luyệnthì chúng ta sẽ có đầu ra có 85 lớp Ở trong trường hợp chúng ta dùng 3 anchors trên

1 cell thì tham số output sẽ có số lượng là:

(neizse + 5) * 3 = 85x3= 255

19

Trang 28

AY Prediction Feature Map

Hình 3.7 Kiến trúc đầu ra cua mô hình YOLO

Ảnh gốc là bản đồ 13x13 Chúng tôi chọn 3 hộp neo có kích thước khác nhau

từ mỗi ô của bản đồ đối tượng, tương ứng là hộp 1, hộp 2, hộp 3, sao cho tâm của cáchộp neo chạm vao ô Trong trường hợp này, YOLO dẫn đến một vectơ nối ba hộp

giới hạn Các thuộc tính của hộp giới hạn được định nghĩa trong cell cuối cùng của

hình.

20

Trang 29

obj obj =2 obj ^

Leis = > day + AnoobjA — lj (Ci; — Cy) +) » 1; ’(pi(c) — 8(©))ˆ

¿=0 j=0 i=0 ceC

cell contain object probability distribution classes

L = Lige + Leis

Trong do:

1°”) Hàm chi thị có giá trị là 0 và 1 dé tìm quyết đỉnh 6 i có chứa đối tượng

hay là không Nếu ham chi thị bằng 1 thì có chứa đối tượng va bằng 0 thìkhông có chứa đối tượng

° 17” Cho chúng ta biết được bounding box thứ của ô phải là bouding box của

đối tượng được dự báo hay không?

e Œ¡; Là confidence point của 6 í.

e C,, Là điểm dự đoán chính xác của 6 i

e C Là tập của các classes.

e p;(c) Là xác suất có điều kiện 6 i có chứa đối tượng thuộc lớp c € C

© Ø(c) Là xác suất có điều kiện dé dự báo

e L;s¿ là loss function của bounding box dự đoán so với chính xác.

© Les là loss function của phân phối xác suất Trong đó, loss của dự báo có đối

tượng trong ô được tính trong tổng đầu tiên Loss của phân phối xác suất cóđối tượng trong ô được tính trong tông thứ hai

21

Trang 30

Ngoài ra, việc điều chỉnh lại Loss function trong các lúc dự báo không đúngbounding box ta sẽ dựa vào các hệ số „¿¿r„ và chúng ta muốn giảm tương đối nhẹhàm lỗi trong lúc 6 không bao gồm đối tượng dựa vào hệ số Anoop je

3.3 YOLOv7

Cho đến nay mô hình YOLO đã được cải tiễn vượt trội về tốc độ xử ly và hiệunăng từ các tác giả Việc chúng tôi áp dụng mô hình YOLOv7 vào khoá luận tốtnghiệp này vì theo tác giả của YOLO cho rằng hiện tại mô hình này vượt qua hầu hết

các trình phát hiện đối tượng đã được công bồ về cả mặt tốc độ và hiệu năng của mô

hình trong phạm vi từ 5 khung hình trên giây đến 160 khung hình trên giây với 56,8%

AP về độ chính xác, đây được xem là cao nhất trong số hầu hết các trình phát hiện

đối tượng real-time đã được công bố với 30 khung hình trên giây trở lên trên GPU là

V.100 YOLOv7-E6 với 56 khung hình trên giây V.100 và độ chính xác 55,9% AP

hoạt động tốt hơn cả trình phát hiện đối tượng dựa vào máy SWIN.L Cascade-MaskR-CNN với 9,2 khung hình trên giây A.100 có độ chính xác 53,9% AP với tốc độ xử

lý 509% và 2% về độ chính xác, đồng thời các nhà phát hiện dựa trên chập tích hợp

ConvNeXt-XL Cascade.Mask R-CNN có 8,6 khung hình trên giây A.100 và 55,2%

AP độ chính xác tăng tốc độ lên đến 551% và độ chính xác tăng thêm 0,7%, nhữngđiều này có thé khang định rằng YOLOv7 tốt hơn các mô hình: YOLOX, YOLOR,

YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B

va nhiêu mô hình phát hiện đôi tượng khác vê độ chính xác va toc độ.

22

Ngày đăng: 23/10/2024, 00:25