Phát hiện văn bản ngoại cảnh trong giao thông

110 12 1
Phát hiện văn bản ngoại cảnh trong giao thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ————————————— NGUYỄN PHẠM ANH NGUYÊN PHÁT HIỆN VĂN BẢN NGOẠI CẢNH TRONG GIAO THÔNG Chuyên ngành: Khoa Học Máy Tính Mã ngành: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2023 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn khoa học: TS Nguyễn Quang Hùng Cán chấm nhận xét 1: TS Nguyễn Lê Duy Lai Cán chấm nhận xét 2: PGS TS Trần Công Hùng Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG, TP HCM ngày 13 tháng 07 năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS TS Trần Văn Hoài Thư ký: TS Lê Thành Sách Phản biện 1: TS Nguyễn Lê Duy Lai Phản biện 2: PGS TS Trần Công Hùng Ủy viên: PGS TS Lê Trung Quân Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Phạm Anh Nguyên MSHV: 1970020 Ngày, tháng, năm sinh: 04/12/1996 Nơi sinh: Đăk Nông Chuyên ngành: Khoa Học Máy Tính Mã số : 8480101 I TÊN ĐỀ TÀI: - Tiếng Việt: Phát văn ngoại cảnh giao thông - Tiếng Anh: Scene text detection for driving videos II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đề xuất hệ thống dựa học sâu có khả phát xác định vị trí văn biển báo giao thơng hình ảnh video III NGÀY GIAO NHIỆM VỤ : 06/02/2023 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023 V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Quang Hùng Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) i Lời cảm ơn / Lời ngỏ Tôi xin chân thành cảm ơn quý thầy cô Trường Đại Học Bách Khoa truyền đạt kiến thức vơ q báu q trình học tập trường tạo điều kiện tốt cho tơi hồn thành luận văn Đặc biệt hướng dẫn, góp ý tận tình TS Nguyễn Quang Hùng, TS Lê Thành Sách trình thực luận văn Xin gửi lời cảm ơn đến tổ chức, đơn vị, cá nhân chia sẻ nguồn liệu mà sử dụng cho đề tài Bên cạnh đó, xin gửi lời cảm ơn đến tập thể đơn vị Phòng Giải Pháp DC5-CADS tạo điều kiện tối đa hỗ trợ nhiều để tơi hồn thành luận văn Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, người thân bạn bè quan tâm, động viên tinh thần suốt trình thực luận văn tơi ii Tóm tắt nội dung Với xu hướng tự động hóa dần chiếm lĩnh nhiều hoạt động đời sống người việc địi hỏi hệ thống tự động hóa mang tính xác cao đáp ứng kịp thời nhu cầu người điều tất yếu Cụ thể giao thơng, xe tự lái hay hệ thống tự động giám sát, phân tích giao thơng cần có hệ thống giúp chúng đọc hiểu ngữ cảnh giao thông thời điểm để đưa định, đề tài mà tơi thực hiện, "Phát văn ngoại cảnh giao thông" nhằm hỗ trợ hệ thống tự động giao thơng nắm bắt ngữ cảnh nằm biển báo giao thông Và với báo cáo sau đây, tơi xin trình bày cách tiếp cận đề tài quy trình xây dựng hệ thống Tóm tắt nội dung: • Chương 1: Mở đầu: Lý chọn đề tài, mục đích, đối tượng phạm vi nghiên cứu, ý nghĩa khoa học thực tiễn đề tài nghiên cứu • Chương 2: Tổng quan: Phân tích, đánh giá cơng trình nghiên cứu có tác giả ngồi nước liên quan mật thiết đến đề tài; nêu vấn đề tồn tại; vấn đề mà đề tài cần tập trung nghiên cứu, giải • Chương 3: Những nghiên cứu thực nghiệm lý thuyết: Trình bày sở lý thuyết, lý luận, giả thuyết khoa học phương pháp nghiên cứu sử dụng luận văn • Chương 4: Trình bày, đánh giá, bàn luận kết quả: Trình bày hướng tiếp cận, bước xử lý, tiến hành, đánh giá nhận xét, so sánh • Chương 5: Kết luận kiến nghị nghiên cứu tiếp theo: Kết luận lại điểm luận văn hướng phát triển • Tài liệu tham khảo: Danh mục tài liệu tham khảo iii Abstract With the current trend of automation gradually dominating many aspects of human life, the demand for highly accurate and timely responsive automated systems has become essential Specifically, in the context of transportation, self-driving vehicles and automated traffic monitoring and analysis systems require a capability to read and comprehend the traffic context at a given moment to make informed decisions This is the subject of my ongoing research: "Scene Text Detection for Driving Videos" aimed at supporting automated transportation systems in capturing textual information from traffic signs In this report, I present the approach and the process of developing this system Abstract: • Chapter 1: Introduction: The rationale for selecting the research topic, its objectives, scope of study, scientific significance, and practical implications • Chapter 2: Literature Review: Analyzing and evaluating existing research works by both local and international authors relevant to the topic, identifying persisting issues, and highlighting the specific problems that the thesis aims to focus on and address • Chapter 3: Theoretical or Experimental Research: Presenting the theoretical foundations, conceptual framework, scientific hypotheses, and research methods employed in the thesis • Chapter 4: Presentation, Evaluation, and Discussion: Describing the approach taken, the steps involved, and the evaluation and observations made during the study, along with comparative analyses • Chapter 5: Conclusions and Recommendations for Future Research: Summarizing the novel contributions of the thesis and proposing avenues for further development • References: A list of cited references iv Lời cam đoan Tôi xin cam đoan luận văn "Phát văn ngoại cảnh giao thông" (Scene text detection for driving videos) nghiên cứu phát triển cách khảo sát ứng dụng mơ hình phù hợp với yêu cầu toán để tạo hệ thống có tính ứng dụng cao giao thơng có hướng dẫn TS Nguyễn Quang Hùng Các nguồn tham khảo công bố rõ ràng theo quy định Kết nghiên cứu luận văn đúc trích từ q trình làm việc, nghiên cứu thử nghiệm, không chép lấy kết từ cơng trình nghiên cứu khác Tơi xin chịu trách nhiệm lời cam đoan Nguyễn Phạm Anh Nguyên v Mục lục Lời cảm ơn / Lời ngỏ i Tóm tắt nội dung ii Abstract iii Lời cam đoan iv Danh sách bảng viii Danh sách hình vẽ ix Chương 1 1.1 Mở đầu Giới thiệu đề tài 1.1.1 Động nghiên cứu 1.1.2 Đối tượng thách thức đề tài Mục tiêu phạm vi nghiên cứu 1.2.1 Mục tiêu 1.2.2 Phạm vi nghiên cứu 1.3 Ý nghĩa khoa học thực tiễn đề tài nghiên cứu 1.4 Đóng góp luận văn 1.2 Chương 2.1 2.2 Tổng quan Text Detection and Recognition in the Wild - A Review [1] 2.1.1 Nội dung 2.1.2 Thí nghiệm 11 2.1.3 Đánh giá 13 Pyramid Mask Text Detector [2] 14 2.2.1 Nội dung 14 vi 2.3 2.4 2.2.2 Thí nghiệm 17 2.2.3 Đánh giá 20 Real-time Scene Text Detection with Differentiable Binarization [3] 21 2.3.1 Nội dung 21 2.3.2 Thí nghiệm 24 2.3.3 Đánh giá 27 What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis [4] 27 2.5 2.4.1 Nội dung 28 2.4.2 Thí nghiệm 29 2.4.3 Đánh giá 32 PaddlePaddle [5] 33 2.5.1 Giới thiệu chung 33 2.5.2 PP-YOLOE+ [6] 33 2.5.3 PP-OCRv3 [7] 36 Chương 3.1 3.2 39 Cơ sở lý thuyết 39 3.1.1 Mạng nơ ron nhân tạo (ANN) 39 3.1.2 Mạng nơ ron tích chập (CNN) 45 Phương pháp nghiên cứu 48 3.2.1 Khảo sát 48 3.2.2 Thu thập liệu 48 3.2.3 Đánh giá cơng trình liên quan 49 3.2.4 Đề xuất hệ thống 50 3.2.5 Hiện thực, thí nghiệm cải tiến 52 3.2.6 Đánh giá viết báo cáo 53 Chương 4.1 Những nghiên cứu thực nghiệm lý thuyết Trình bày, đánh giá, bàn luận kết 54 Phân tích tốn xác định vấn đề 54 vii 4.2 4.3 4.4 4.5 4.6 Tổng quan liệu 57 4.2.1 Vietnam Traffic Signs Dataset (VTSD) [8] 57 4.2.2 VinText Dataset [9] 58 4.2.3 Zalo AI Challenge - Traffic Sign Detection Dataset [10] 59 Xây dựng kiến trúc tổng quan lựa chọn model 60 4.3.1 Tổng quan hệ thống đề xuất 60 4.3.2 Lựa chọn model 61 Tiền xử lý liệu 66 4.4.1 Vietnam Traffic Signs Dataset (VTSD) [8] 66 4.4.2 VinText Dataset [9] 70 Huấn luyện đánh giá 71 4.5.1 Module 1: Phát biển báo giao thông 71 4.5.2 Module 2: Phát văn ngoại cảnh 77 4.5.3 Pipeline phát văn ngoại cảnh giao thông 80 Thảo luận 83 4.6.1 Ưu điểm phương pháp đề xuất 83 4.6.2 Nhược điểm phương pháp đề xuất 83 4.6.3 So sánh với cơng trình nước 83 Chương Kết luận kiến nghị nghiên cứu 84 5.1 Kết luận 84 5.2 Hướng phát triển 85 Tài liệu tham khảo 86 Lý lịch trích ngang 95 81 Hình 4.27: Pipeline hệ thống phát văn ngoại cảnh giao thơng 82 Hình 4.28: Output dạng bảng để trích xuất thơng tin Hình 4.29: Một số inference sample từ tập dataset ZaloAI [10] 83 4.6 Thảo luận 4.6.1 Ưu điểm phương pháp đề xuất • Tạo dataset vừa mang tính tổng quát cho đề tài liên quan, vừa mang tính cụ thể cho đề tài • Các tác vụ chia nhỏ giúp dễ hình dung chức cụ thể model hệ thống, qua việc cải thiện, tối ưu hệ thống dễ dàng • Việc sử dụng hệ thống đa model giúp thay tác vụ với model để thử nghiệm, tinh để tìm giải pháp tốt 4.6.2 Nhược điểm phương pháp đề xuất • Chưa thực đạt hiệu suất tốt dataset dùng để finetune Lý thiếu hụt liệu, liệu chưa tổng quát, chưa có bước tiền hậu xử lý tốt • Về tốc độ xử lý chưa đạt hiệu cao, cịn có khả xử lý nhanh • Chưa xử lý ảnh ban đêm, cần phải thu thập thêm data finetune cho vấn đề 4.6.3 So sánh với cơng trình nước Hiện nay, đa số công trình nước ([61], [62], [63]) hướng nhiều đến toán "Phát nhận dạng văn ngoại cảnh" cách tổng quát Vì để so sánh với toán cụ thể đề tài khơng chuẩn xác Tuy nhiên, học tập lẫn để áp dụng phương pháp mới, tốt Vì hệ thống dừng lại bước phát văn ngoại cảnh, bước xử lý nhận dạng văn đó, đây, tiếp tục khảo sát ứng dụng thêm phương pháp nhận dạng text hình ảnh cơng trình nước khác để áp dụng vào hệ thống trở nên hoàn chỉnh 84 Chương Kết luận kiến nghị nghiên cứu 5.1 Kết luận "Phát văn ngoại cảnh giao thông" Việt Nam đề tài mang ý nghĩa to lớn với giao thơng Việt Nam, để phát triển hệ thống tự động định, phân tích, giám sát giao thơng việc rút trích cung cấp ngữ cảnh giao thông cho hệ thống quan trọng, mục tiêu đề tài Qua khảo sát, đánh giá, phân tích đề xuất cho đề tài "Phát văn ngoại cảnh giao thông" Việt Nam, luận văn đạt nhiều thành quả, đóng góp cho lĩnh vực thị giác máy tính nói chung đóng góp cho giao thơng Việt Nam nói riêng Đã tạo dataset có nhiều nhãn cho nhiều đối tượng để áp dụng cho nhiều toán khác Tuy số lượng chưa đáng kể, đóng góp phương pháp ý tưởng để cơng trình sau tận dụng mở rộng Ngồi ra, luận văn thực giới thiệu, đánh giá cơng trình, nguồn liệu bật, mang tính ứng dụng cao Thế giới để làm nguồn tham khảo hữu ích cho cơng trình sau khảo sát chọn nguồn tham khảo phù hợp với đề tài liên quan Và điểm luận văn đề xuất hệ thống mới, giải toán "Phát văn ngoại cảnh giao thông" Việt Nam Hệ thống tạo từ cách kết hợp mơ hình bật mang tính ứng dụng cao Thế giới mà cịn hiệu chỉnh lại để hoạt động tốt 85 môi trường giao thông Việt Nam Hệ thống ứng dụng mô hình PP-YOLOE+ [6] để thực tác vụ "Phát biển báo giao thơng có chứa văn bản" mơ hình PP-OCRv3 [7] để thực tác vụ "Phát văn biển báo giao thông" dựa đầu mơ hình PP-YOLOE+ [6], hai mơ hình mơ hình mang tính ứng dụng hiệu suất cao sử dụng rộng rãi Thế giới PaddlePaddle Framework [5] Hai mơ hình finetune qua hai dataset VTSD (4.4.1.3) VinText (4.4.2), đạt hiệu suất finetune (∼0.677 mAP, ∼18.3 FPS) tác vụ "Phát biển báo giao thơng có chứa văn bản" (∼0.82 hmean, ∼29.5 FPS) tác vụ "Phát văn biển báo giao thông" Đầu hệ thống kết hợp hai module trên, tạo tiền đề cho việc phát triển module sau "Nhận dạng văn biển báo giao thơng", module cuối để hoàn thiện hệ thống xử lý hoàn chỉnh tác vụ cuối "Phát nhận dạng văn ngoại cảnh giao thông" Hệ thống nhằm hỗ trợ hệ thống xe tự lái, giám sát giao thơng phân tích giao thông nắm ngữ cảnh giao thông để thực phân tích định, với mục đích phát triển giao thơng Việt Nam, giúp cho q trình tham gia giao thông người Việt Nam trở nên dễ dàng tiện lợi Cuối cùng, thành mà luận văn đạt nguồn động lực để thúc đẩy nghiên cứu, cơng trình phát triển mạnh mẽ mục đích cuối xây dựng, phát triển đất nước 5.2 Hướng phát triển Những hướng tiếp tục phát triển cho đề tài là: • Phát triển tích hợp mơ hình nhận dạng văn vào hệ thống để hệ thống trở thành khối chức hoàn thiện • Cải thiện cải tiến performance độ xác tốc độ xử lý, đồng thời áp dụng cho streaming video • Làm giàu liệu đặc thù cho đề tài 86 Tài liệu tham khảo [1] Z Raisi, M A Naiel, P W Fieguth, S Wardell, and J Zelek, “Text Detection and Recognition in the Wild: A Review,” Internet: https://arxiv.org/abs/2006 04305, 2020 [2] J Liu, X Liu, J Sheng, D Liang, X Li, and Q Liu, “Pyramid Mask Text Detector,” Internet: http://arxiv.org/abs/1903.11800, 2019 [3] M Liao, Z Wan, C Yao, K Chen, and X Bai, “Real-Time Scene Text Detection with Differentiable Binarization,” Proceedings of the AAAI Conference on Artificial Intelligence, vol 34, no 07, pp 11 474–11 481, Apr 2020 [4] J Baek, G Kim, J Lee, S Park, D Han, S Yun, S J Oh, and H Lee, “What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2019, pp 4714–4722 [5] P Authors, “PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice,” Internet: https://github.com/PaddlePaddle/Paddle, 2023 [6] S Xu, X Wang, W Lv, Q Chang, C Cui, K Deng, G Wang, Q Dang, S Wei, Y Du, and B Lai, “PP-YOLOE: An evolved version of YOLO,” Internet: https: //arxiv.org/abs/2203.16250, 2022 [7] C Li, W Liu, R Guo, X Yin, K Jiang, Y Du, Y Du, L Zhu, B Lai, X Hu, D Yu, and Y Ma, “PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System,” Internet: https://arxiv.org/abs/2206.03001, 2022 [8] H T Hoang, X H Tran, and Q D Tran, “Vietnam Traffic Signs Detection using Faster RCNN,” Internet: https://github.com/Flavius1996/VNTS-faster-rcnn, 2017 87 [9] N Nguyen, T Nguyen, V Tran, M T Tran, T D Ngo, T H Nguyen, and M Hoai, “Dictionary-Guided Scene Text Recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2021, pp 7383–7392 [10] Z AI, “Zalo AI Challenge - Traffic Sign Detection,” Internet: https://challenge zalo.ai/portal/traffic-sign-detection, 2020 [11] D Karatzas, L Gomez Bigorda, A Nicolaou, S Ghosh, A Bagdanov, M Iwamura, J Matas, L Neumann, V R Chandrasekhar, S Lu, F Shafait, S Uchida, and E Valveny, “ICDAR 2015 competition on Robust Reading,” in 2015 13th International Conference on Document Analysis and Recognition (ICDAR), Tunis, Tunisia, 2015, pp 1156–1160 [12] M Iwamura, N Morimoto, K Tainaka, D Bazazian, L Gomez, and D Karatzas, “ICDAR2017 Robust Reading Challenge on Omnidirectional Video,” in 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol 01, Kyoto, Japan, 2017, pp 1448–1453 [13] D Karatzas, F Shafait, S Uchida, M Iwamura, L G i Bigorda, S R Mestre, J Mas, D F Mota, J A Almazàn, and L P de las Heras, “ICDAR 2013 Robust Reading Competition,” in 2013 12th International Conference on Document Analysis and Recognition, Washington, DC, USA, 2013, pp 1484–1493 [14] T Y Lin, M Maire, S Belongie, J Hays, P Perona, D Ramanan, P Dollár, and C L Zitnick, “Microsoft COCO: Common Objects in Context,” in Computer Vision – ECCV 2014, Cham, 2014, pp 740–755 [15] A Mishra, K Alahari, and C V Jawahar, “Scene Text Recognition using Higher Order Language Priors,” in British Machine Vision Conference, BMVC 2012, Surrey, UK, 2012, pp 1–11 [16] K Wang and S Belongie, “Word Spotting in the Wild,” in Computer Vision – ECCV 2010, Berlin, Heidelberg, 2010, pp 591–604 88 [17] S Lucas, A Panaretos, L Sosa, A Tang, S Wong, and R Young, “ICDAR 2003 robust reading competitions,” in Seventh International Conference on Document Analysis and Recognition, 2003 Proceedings., Edinburgh, Scotland, 2003, pp 682–687 [18] T Q Phan, P Shivakumara, S Tian, and C L Tan, “Recognizing Text with Perspective Distortion in Natural Scenes,” in 2013 IEEE International Conference on Computer Vision, IEEE, 2013, pp 569–576 [19] A Risnumawan, P Shivakumara, C S Chan, and C L Tan, “A robust arbitrary text detection system for natural scene images,” Expert Systems with Applications, vol 41, no 18, pp 8027–8048, Dec 2014 [20] C K Chng and C S Chan, “Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition,” in 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol 01, Kyoto, Japan, 2017, pp 935–942 [21] Y Liu, L Jin, S Zhang, and S Zhang, “Detecting Curve Text in the Wild: New Dataset and New Solution,” Internet: https://arxiv.org/abs/1712.02170, 2017 [22] C Yao, X Bai, W Liu, Y Ma, and Z Tu, “Detecting texts of arbitrary orientations in natural images,” in 2012 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2012, pp 1083–1090 [23] S Liu, L Qi, H Qin, J Shi, and J Jia, “Path Aggregation Network for Instance Segmentation,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018, pp 8759–8768 [24] Y Du, C Li, R Guo, C Cui, W Liu, J Zhou, B Lu, Y Yang, Q Liu, X Hu, D Yu, and Y Ma, “PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System,” Internet: https://arxiv.org/abs/2109.03144, 2021 89 [25] X Huang, X Wang, W Lv, X Bai, X Long, K Deng, Q Dang, S Han, Q Liu, X Hu, D Yu, Y Ma, and O Yoshie, “PP-YOLOv2: A Practical Object Detector,” Internet: https://arxiv.org/abs/2104.10419, 2021 [26] Y Baek, B Lee, D Han, S Yun, and H Lee, “Character Region Awareness for Text Detection,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2019, pp 9357–9366 [27] W Wang, E Xie, X Li, W Hou, T Lu, G Yu, and S Shao, “Shape Robust Text Detection With Progressive Scale Expansion Network,” in IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, 2019, pp 9336–9345 [28] B Shi, M Yang, X Wang, P Lyu, C Yao, and X Bai, “ASTER: An Attentional Scene Text Recognizer with Flexible Rectification,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 41, no 9, pp 2035–2048, Sep 2019 [29] F Borisyuk, A Gordo, and V Sivakumar, “Rosetta: Large Scale System for Text Detection and Recognition in Images,” in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, London, United Kingdom, 2018, pp 71–79 [30] W Liu, C Chen, K K Wong, Z Su, and J Han, “STAR-Net: A SpaTial Attention Residue Network for Scene Text Recognition,” in Proceedings of the British Machine Vision Conference 2016, BMVC 2016, York, UK, 2016 [31] A Shahab, F Shafait, and A Dengel, “ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images,” in 2011 International Conference on Document Analysis and Recognition, Beijing, China, 2011, pp 1491– 1496 90 [32] A Gupta, A Vedaldi, and A Zisserman, “Synthetic Data for Text Localisation in Natural Images,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, pp 2315–2324 [33] M Jaderberg, K Simonyan, A Vedaldi, and A Zisserman, “Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition,” Internet: https: //arxiv.org/abs/1406.2227, 2014 [34] J Max, S Karen, V Andrea, and Z Andrew, “Reading Text in the Wild with Convolutional Neural Networks,” International Journal of Computer Vision, vol 116, no 1, pp 1–20, Jan 2016 [35] K He, G Gkioxari, P Dollár, and R Girshick, “Mask R-CNN,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 42, no 2, pp 386–397, Feb 2020 [36] C Yao, X Bai, and W Liu, “A Unified Framework for Multioriented Text Detection and Recognition,” IEEE Transactions on Image Processing, vol 23, no 11, pp 4737–4749, Sep 2014 [37] K Simonyan and A Zisserman, “Very Deep Convolutional Networks for LargeScale Image Recognition,” in 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, 2015 [38] C Y Lee and S Osindero, “Recursive Recurrent Nets with Attention Modeling for OCR in the Wild,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, pp 2231–2239 [39] K He, X Zhang, S Ren, and J Sun, “Deep Residual Learning for Image Recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, pp 770–778 91 [40] P Authors, “PaddleDetection, Object detection and instance segmentation toolkit based on PaddlePaddle,” Internet: https://github.com/PaddlePaddle/ PaddleDetection, 2023 [41] C Feng, Y Zhong, Y Gao, M R Scott, and W Huang, “TOOD: Task-aligned One-stage Object Detection,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2021, pp 3490–3499 [42] J Redmon, S Divvala, R Girshick, and A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, pp 779–788 [43] S Shao, Z Li, T Zhang, C Peng, G Yu, X Zhang, J Li, and J Sun, “Objects365: A Large-Scale, High-Quality Dataset for Object Detection,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2019, pp 8429–8438 [44] Y Du, C Li, R Guo, X Yin, W Liu, J Zhou, Y Bai, Z Yu, Y Yang, Q Dang, and H Wang, “PP-OCR: A Practical Ultra Lightweight OCR System,” Internet: https://arxiv.org/abs/2009.09941, 2020 [45] Y Zhang, T Xiang, T M Hospedales, and H Lu, “Deep Mutual Learning,” Internet: https://arxiv.org/abs/1706.00384, 2017 [46] T.-Y Lin, P Dollár, R Girshick, K He, B Hariharan, and S Belongie, “Feature Pyramid Networks for Object Detection,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017, pp 936–944 [47] G Jocher, A Chaurasia, A Stoken, J Borovec, NanoCode012, Y Kwon, TaoXie, J Fang, imyhxy, K Michael, Lorna, A V, D Montes, J Nadar, Laughing, tkianai, yxNONG, P Skalski, Z Wang, A Hogan, C Fati, L Mammana, AlexWang1900, D Patel, D Yiwei, F You, J Hajek, L Diaconu, and M T Minh, “ultralytics/yolov5: v6.1 - TensorRT, TensorFlow Edge TPU and 92 OpenVINO Export and Inference,” Internet: https://zenodo.org/record/6222936, 2022 [48] Z Ge, S Liu, F Wang, Z Li, and J Sun, “YOLOX: Exceeding YOLO Series in 2021,” Internet: https://arxiv.org/abs/2107.08430, 2021 [49] K He, X Zhang, S Ren, and J Sun, “Deep Residual Learning for Image Recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, pp 770–778 [50] G Huang, Z Liu, L V D Maaten, and K Q Weinberger, “Densely Connected Convolutional Networks,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017, pp 2261–2269 [51] C Wang, H M Liao, Y Wu, P Chen, J Hsieh, and I Yeh, “CSPNet: A New Backbone that can Enhance Learning Capability of CNN,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, 2020, pp 1571–1580 [52] L Rao, “TreeNet: A lightweight One-Shot Aggregation Convolutional Network,” Internet: https://arxiv.org/abs/2109.12342, 2021 [53] Y Lee and J Park, “CenterMask: Real-Time Anchor-Free Instance Segmentation,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2020, pp 13 903–13 912 [54] X Li, W Wang, L Wu, S Chen, X Hu, J Li, J Tang, and J Yang, “Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection,” in Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS, 2020 93 [55] H Zhang, Y Wang, F Dayoub, and N Săunderhauf, VarifocalNet: An IoUaware Dense Object Detector,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2021, pp 8510–8519 [56] H Rezatofighi, N Tsoi, J Gwak, A Sadeghian, I Reid, and S Savarese, “Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2019, pp 658–666 [57] Y Du, Z Chen, C Jia, X Yin, T Zheng, C Li, Y Du, and Y Jiang, “SVTR: Scene Text Recognition with a Single Visual Model,” in Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, IJCAI 2022, Vienna, Austria, 2022, pp 884–890 [58] J Hu, L Shen, and G Sun, “Squeeze-and-Excitation Networks,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018, pp 7132–7141 [59] O Authors, “Pre-built CPU-only OpenCV packages for Python,” Internet: https: //github.com/opencv/opencv-python, 2023 [60] C Authors, “Computer Vision Annotation Tool (CVAT),” Internet: https:// github.com/opencv/cvat, 2023 [61] N T Pham, V D Pham, Q Nguyen Van, B H Nguyen, D N Minh Dang, and S D Nguyen, “Vietnamese Scene Text Detection and Recognition using Deep Learning: An Empirical Study,” in 2022 6th International Conference on Green Technology and Sustainable Development (GTSD), Nha Trang City, Vietnam, 2022, pp 213–218 [62] P N Huu, T T Ngoc, and Q T Minh, “Proposing Vietnamese Text Recognition Algorithm Combining CRAFT and VietOCR,” in 2022 11th International Conference on Control, Automation and Information Sciences (ICCAIS), Hanoi, Vietnam, 2022, pp 1–6 94 [63] M Q Ha, V H Phan, B D Q Nguyen, H B Nguyen, T H Do, Q D Pham, and N N Dao, “Intelligent Scene Text Recognition in Streaming Videos,” in Intelligence of Things: Technologies and Applications, Hanoi, Vietnam, 2022, pp 356–365 95 Lý lịch trích ngang Họ tên: Nguyễn Phạm Anh Nguyên Ngày, tháng, năm sinh: 04/12/1996 Nơi sinh: Đăk Nông Địa liên lạc: 219/73 Trần Văn Đang, Phường 11, Quận 3, Thành phố Hồ Chí Minh Q trình đào tạo: • Từ 2014 - 2018: Học Đại học Trường Đại học Bách khoa Thành phố Hồ Chí Minh khoa Khoa học Kỹ thuật Máy tính, chuyên ngành Khoa học Máy tính • Từ 2019 - 2023: Học Thạc sĩ Trường Đại học Bách khoa Thành phố Hồ Chí Minh khoa Khoa học Kỹ thuật Máy tính, chun ngành Khoa học Máy tính Q trình cơng tác: • Từ 2018 - 2019: Cơng tác FUJINET SYSTEMS JSC • Từ 2022 - Nay: Cơng tác Trung tâm ứng dụng khoa học liệu (CADS), Tập đoàn FPT

Ngày đăng: 25/10/2023, 22:12

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan