Các hệ thống này cho phép người dùng nhập các truy vấn tim kiếm bằng cách sử dụng từ khóa, hình ảnh hệ thống sẽ trả về danh sách các video hoặc đoạn video có liên quan dựa trên sự phù hợ
Tình hình nghiêncứu
Phát hiện chuyển cảnh (Hình 2.5): là bài toán phát hiện các chuyển đổi trong video, chang hạn như chuyển từ cảnh này sang cảnh khác, chuyển zoom, pan hoặc chuyển động camera Điều này có thể giúp ích cho quá trình chia nhỏ video, lựa chọn khung hình chính nhằm nâng cao tốc độ xử lí cho mô hình truy vấn Hiện nay, có rất nhiều phương pháp được sử dụng để phát hiện chuyển cảnh trong video Các phương pháp này bao gồm cả phương pháp dựa trên cấu trúc cảnh (structure-based) và phương pháp dựa trên nội dung (content-based).
Phương pháp cấu trúc cảnh chủ yếu dựa trên sự thay đổi trong cấu trúc của các cảnh, bao gồm điểm ảnh(Pixel-based) [16], góc canh(Edge-based)[17] va biểu đồ mau(Histogram-based)[18], các hướng tiếp cận trên thường sử dụng các thuật toán như đặt ngưỡng (thresholding), tính toán chênh lệch khung hình
(frame differencing) và phát hiện góc cạnh (edge detection) Những phương pháp này sẽ tìm kiếm sự khác biệt trong các thuộc tính của các cảnh, chẳng hạn như sự thay đổi trong độ sáng, màu sắc hoặc độ tương phản.
2 Kiến thức cơ sở và các nghiên cứu liên quan
Hình 2.5: Bai toán phát hiện chuyển cảnh
Trong khi phương pháp dựa trên nội dung chủ yếu dựa trên sự khác biệt về nội dung giữa các cảnh Các phương pháp dựa trên nội dung thường sử dụng các thuật toán học máy (machine learning) và học sâu (deep learning), bao gồm cả mạng neural tích chập (CNNs) Các phương pháp này sử dụng các đặc trưng nội dung của các cảnh để phát hiện chuyển cảnh, chẳng hạn như sự khác biệt trong màu sắc, độ sáng, hình dạng và đối tượng có mặt trong các cảnh với tốc độ xử lí cao nhờ tận dụng được hiệu năng của GPU Mô hình nổi trội nhất theo hướng tiếp cận này là TransNet [19] được Soušek và cộng sự giới thiệu vào năm 2019 theo sau đó là TransnetV2 [20] chỉ sau 1 năm, và đã đạt được kết quả cao nhất theo đánh giá của tập dataset ClipShots[21] Ánh xạ hình ảnh và văn bản: Bài toán kết nối hình ảnh và văn bản là thiết lập mối quan hệ có ý nghĩa giữa mô tả văn bản và nội dung hình ảnh(hình 2.6). Đây là một nhiệm vụ đầy thách thức vì nó đòi hỏi sự hiểu biết về cả lĩnh vực hình ảnh và văn bản cũng như khả năng kết nối chúng theo cách có ý nghĩa. Mục tiêu cuối cùng của nhiệm vụ này là cho phép máy móc hiểu và tạo các mô tả bằng ngôn ngữ tự nhiên của hình ảnh và truy xuất hình ảnh khớp với các truy
2 Kiến thức cơ sở và các nghiên cứu liên quan van văn bản.
Vấn đề này có nhiều ứng dụng thực tế khác nhau, chẳng hạn như chú thích hình ảnh, truy xuất hình ảnh và trả lời câu hỏi trực quan Chẳng hạn, chú thích hình ảnh liên quan đến việc tạo mô tả bằng ngôn ngữ tự nhiên của hình ảnh, trong khi truy xuất hình ảnh liên quan đến việc truy xuất hình ảnh khớp với một truy vấn văn bản nhất định.
Những tiến bộ gần đây trong học sâu và xử lý ngôn ngữ tự nhiên đã dẫn đến những tiến bộ đáng kể trong việc giải quyết van dé này Mô hình CLIP
2 Kiến thức cơ sở và các nghiên cứu liên quan
(Contrastive Language-Image Pre-training)[22], được phát triển bởi OpenAI, là một trong những mô hình tiên tiến và mới nhất để kết nối hình ảnh và văn bản.
Mô hình CLIP đã cho thấy những kết quả đầy hứa hẹn trong nhiều nhiệm vụ khác nhau, bao gồm phân loại hình ảnh, truy xuất hình ảnh và chú thích hình ảnh.
Bài toán nhận diện và nhận dạng van bản trên cảnh (scene text detection and recognition): là một trong những bài toán phổ biến trong lĩnh vực xử lý ảnh và trí tuệ nhân tạo Nó nhằm mục dich tìm kiếm, nhận diện và nhận dạng văn bản trong hình ảnh chụp từ các môi trường thực tế, bao gồm cảnh đường phố, bảng hiệu, biển chỉ dẫn, v.v (Hình 2.7) khởi nghĩa lam hoạt độn : › ngoài ra rất phổ biến các loại rượu nga
HN, so hồn hợp nhiều loại động ˆ 4
NGUYEN THI NGOAN REAL MADRID BẤT NGO ĐƯỢC TRONG TAI CHO she
EN ‘ HƯỚNG MOT QUA PENALTY GAY TRANH CẢ: these have come at a cost of selling 2006 A t 001085019 030010001197 bad 001085019081 theehauecomeatacotofselingmd ô= JMĐUNNH " ~~ |
Thanh Xuan - Hà Nội - Việt Nam
Thanh Xuân - Hà Nội - Việt Nam
Fong Đó Có Tổng Binh
TRoNG Đó Có TONG BINH
Hình 2.7: Bài toán nhận diện và nhận dạng văn bản trên cảnh [4]
Trong những năm gần đây, bài toán này đã thu hút sự quan tâm của nhiều nhà nghiên cứu và đã đạt được nhiều tiến bộ đáng kể Các phương pháp nhận diện và nhận dạng văn bản trên cảnh đã được phát triển từ các giải thuật truyền thống như phân đoạn hình ảnh và phân vùng kết hợp với các mô hình phân loại như Support Vector Machine(SVM)[23, 24, 25], AdaBoost [26] và Random
Forest[27, 28] đến các phương pháp tiên tiến dựa trên mạng học sâu, bao gồm các mô hình mang CNN (Convolutional Neural Network)[29], RNN (Recurrent Neural Network)[30], và Transformer[3 1, 32], các mô hình học sâu này cho phép xử lí những tập dữ liệu với quy mô lớn, độ đa dạng lớn và độ chính xác cao.
2 Kiến thức cơ sở và các nghiên cứu liên quan
Ung dung của bài toán nhận diện và nhận dạng văn bản trên cảnh trong việc nâng cao độ chính xác của mô hình truy vấn video là rất đa dạng Một trong những ứng dụng tiêu biểu và được áp dụng trong bài luận văn này là trích xuất thông tin văn bản từ video để giúp cho việc tìm kiếm và truy vấn video trở nên dé dàng dựa trên trí nhớ người dùng trong tác vụ Known Item Search(KIS)[33]
Bài toán chuyển đổi giọng nói thành văn bản (Speech-to-Text, STT): là một bài toán được mô tả là giúp chúng ta chuyển đổi các dữ liệu âm thanh chứa nội dung tiếng nói thành văn bản, từ đó giúp cho việc truy vấn và phân tích nội dung của các đoạn video trở nên dễ dàng và nhanh chóng hơn.
Trong những năm gan đây, bài toán STT đã được nghiên cứu rộng rãi và dat được nhiều tiến bộ đáng kể Các phương pháp tiên tiến dựa trên mạng học sâu, bao gồm mạng RNN, CNN và mạng Transformer cũng đã được sử dụng để xử lý bài toán ST F với độ chính xác ngày càng cao.
Ngoài ra, các mô hình học sâu kết hợp với các kỹ thuật tiền xử lý như đồng bộ hóa âm thanh và tiền xử lý ngôn ngữ tự nhiên cũng đã được sử dụng để tăng độ chính xác của việc chuyển đổi giọng nói thành văn ban.
Trong các hệ thống truy van video, bài toán STT được sử dung để chuyển đối các tín hiệu âm thanh trong đoạn video thành văn bản tương ứng, từ đó giúp cho việc tìm kiếm và phân tích nội dung của đoạn video trở nên dễ dàng hơn Điều này có thể được áp dụng trong nhiều lĩnh vực khác nhau, bao gồm giám sát an ninh, quảng cáo và truyền thông, giáo dục, v.v.
Giới thiệu về bộ dữ liệu HCMC AI CHALLENGE 2022
Truy vấn video là một chủ đề đang được quan tâm rất nhiễu trong lĩnh vực truyền thông và báo chí Vì thế cuộc th HCMC AI CHALLENGE 2022 đã được tổ chức vào tháng 9 năm 2022 do Sở Thông tin và Truyền thông chủ trì, phối hợp Đại học Quốc gia Thành phố Hồ Chí Minh, Sở Khoa học và Công nghệ, Hội Tin học Thành Phố, Thành Đoàn, Hiệp hội Phần mềm và dịch vụ Công nghệ thông tin Việt Nam (VINASA) đã được tổ chức để đẩy manh nghiên cứu về chủ dé này. Trong cuộc thi ban tổ chức đã công bố tập dataset có tổng thời lượng hơn 300 giờ chứa các video tin tức thời sự được thu thập từ YouTube của các đài truyền hình Việt Nam với chủ đề đang dạng mọi lĩnh vực như chính trị, nghệ thuật, tình hình xã hội, xu hướng, văn hóa, , các nhà nghiên cứu va phân tích dữ liệu có thể áp dụng nhiều kỹ thuật khác nhau để tận dụng tài nguyên quý giá này.
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
Ví dụ, một ứng dụng quan trọng trong truy vấn video là phát hiện đối tượng. Trong tập dataset này, các nhà nghiên cứu có thể sử dụng các kỹ thuật xử lý ảnh và học sâu để phát hiện và phân loại các đối tượng trong các video tin tức Điều này có thể giúp cho việc tìm kiếm và truy vấn video trở nên dễ dàng hơn, đồng thời cung cấp cho người dùng thông tin chỉ tiết và chính xác hơn về các sự kiện và chủ dé quan trọng trong đời sống.
Ngoài ra, việc áp dụng trí tuệ nhân tạo để phân tích dữ liệu trong tập dataset này cũng là một lĩnh vực day triển vọng Các kỹ thuật như xử lý ngôn ngữ tự nhiên và phân tích tâm lý học có thể được sử dụng để đánh giá và phân tích các phản ứng của khán giả đối với các video tin tức Điều này có thể giúp cho các nhà báo và nhà sản xuất nội dung hiểu rõ hơn về sự quan tâm của khán giả đối với các chủ để và sự kiện quan trọng, đồng thời cải thiện chất lượng nội dung và tăng cường sự tương tác với khán giả.
Tóm lại, tập dataset này đem lại rất nhiều tiềm năng cho các nghiên cứu và ứng dụng trong lĩnh vực truy vấn video
Tổng quanhệthống
Boundary shotdeteeion
Với số lượng khung hình khổng lồ cần xử lí (hơn 300 giờ ghi hình), Boundary shot detection hay bài toán xác định khung hình biên chuyển cảnh là một bước quan trọng trong việc giảm thiểu số khung hình cần xử lí, khi đã xác định được khung hình biên ta có thể coi những khung hình giữa các biên là một shot, và đều có chứa cùng 1 thông tin đặc trưng về thị giác là như nhau, nhờ đó ta có thể chọn khung hình đại diện là 1 trong những khung hình ở giữa 2 khung hình biên Đối với hệ thống này tôi đề xuất sử dụng mô hình TransnetV2 cho bài toán Boundary shot detection vì sự chính xác, tính linh hoạt và hiệu suất cao.
3.2.1.1 Mô hình TransnetV2 Được giới thiệu lần đầu vào năm 2019, Transnet được công bố dùng để giải quyết bài toán Boundary shot detection theo hướng tiếp cận học sâu ứng dụng các lớp tích chập giản nở để nắm bắt các đặc trưng giữa các khung hình thuộc một phân cảnh hoặc khác phân cảnh một cách hiệu quả hơn.
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
Sau đó một năm nhóm tác đã đã cho ra đời Transnetv2 dựa trên kiến trúc mô hình cũ nhưng được thêm vào các kĩ thuật học sâu như: kết nối không trực tiếp (skip connection) để có thể truyền thông tin giữa các lớp học sâu một cách nhanh chóng nhằm giảm thiểu mat mát đạo hàm của quá trình lan truyền ngược khi huấn luyện và gộp trung bình không gian (Spatial average pooling) giúp giảm số lượng tham số cần thiết để huấn luyện mô hình Ngoài ra trong lần giới thiệu này nhóm tác giả đã huấn luyện và đánh giá trên tập dữ liệu lớn như CLIPSHOT[4 1], RAI[42] và BBC[43] giúp mô hình đảm bảo về sự chính xác, tính linh hoạt và hiệu suất cao như đã trình bày ở trên. ô Tớch chập gión nở (dilated convolution): Tớch chập gión nở là một phương pháp tích chập được sử dụng rộng rãi trong xử lý tín hiệu và hình ảnh, nó giúp tăng cường khả năng trích xuất đặc trưng từ tín hiệu hay hình ảnh.
Trong tích chập giãn nở, ta sử dụng một bộ lọc (kernel) có kích thước nhỏ hơn so với tín hiệu hay hình ảnh và áp dụng phép tích chập trên vùng nhỏ này Tuy nhiên, thay vì áp dụng bộ lọc trực tiếp lên tín hiệu hay hình ảnh, ta sử dụng một phương pháp giãn cách để tăng cường khả năng trích xuất đặc trưng Cụ thể, phương pháp giãn cách này được thực hiện bằng cách thêm một số giá trị không gian (khoảng trồng) giữa các phần tử của bộ lọc.
Ví dụ, nếu ta sử dụng một bộ lọc kích thước 3x3 với giãn cách (dilation rate) bang 2, ta sẽ thêm một hang va một cột giá tri 0 giữa các hàng và cột của bộ lọc như hình 3.3 Khi thực hiện tích chập giữa bộ lọc này và tín hiệu hay hình ảnh, ta sẽ thực hiện phép nhân ma trận trên một vùng lớn hơn so với bộ lọc gốc, nhờ đó tăng cường khả năng trích xuất đặc trưng của tín hiệu hay hình ảnh.
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
Hình 3.3: Tích chập giãn nở !
Dilated convolution cũng được sử dụng trong nhiều kiến trúc mạng học sâu (deep learning) như dilated convolutional neural network (DCNN) để giải quyết van dé của các kiến trúc mạng truyền thống như sự giảm kích thước của ma trận đầu ra và giảm thiểu việc mat mát thông tin do lan truyền ngược khi sử dụng các lớp giảm kích thước. ¢ Skip connection Skip connection là một kỹ thuật được sử dung trong mang neuron để tao ra các mô hình sâu (deep models) dễ huấn luyện hơn.
Cụ thể, skip connection kết nối đầu vào của một tầng trực tiếp với đầu ra của một tầng khác, thường là tầng cách xa nhau Điều này cho phép thông tin được truyền qua lại trực tiếp giữa các tầng thay vì phải đi qua nhiều tầng trung gian.
Với skip connection, đầu vào của tầng tiếp theo không chỉ là đầu ra của tầng trước đó, mà còn bao gồm thông tin từ đầu vào ban đầu Điều này giúp mô hình có thể học được các đặc trưng cục bộ (local features) và toàn cục (global features) của dữ liệu đầu vào cùng một lúc, làm cho mô hình mạnh mẽ hơn và giảm thiểu hiện tượng quá khớp (overfitting).
Skip connection thường được sử dụng trong các kiến trúc mạng neuron
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
2022. sâu như ResNet[44], DenseNet[45] và UNet[46] trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên.
Skip connection không có một công thức toán học chính thức nhất định, mà là một kỹ thuật được áp dụng trong mạng neuron để kết nối các tầng trực tiếp với nhau.
Tuy nhiên, cách thực hiện skip connection trong các mô hình thị giác máy tính thường được biểu diễn bằng cách thêm đầu vào của một tầng vào đầu ra của một tầng khác bằng cách cộng chúng lại với nhau Nói cách khác, nếu đầu ra của tầng / — 2 là x;_z và đầu ra của tầng / — 1 là x¡_ ¡, thì skip connection được biểu diễn bằng công thức: xX, —=#i_—2TXI—I
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
Khi này, đầu vào của tầng / sẽ bao gồm thông tin từ tầng / — 2 cộng với thông tin được học từ tầng / — 1, giúp cho mô hình có khả năng học được các đặc trưng phức tạp và tránh hiện tượng gradient vanishing khi huấn luyện mạng neuron sâu.
Tổng quan TransNet V2 được xây dựng dựa trên các kiến cơ bản của TransNet, trong mô hình Transnet một chuỗi khung hình đầu vào được thay đổi kích thước ban đầu được xử lý với các ô DDCNN Cụ thể, mô hình Transnet bao gồm sáu 6 DDCNN3.5, trong đó mỗi 6 bao gồm bốn phép tích chập 3 x 3 x 3, mỗi phép tích chập có F bộ lọc và tỷ lệ giãn nở khác nhau 1, 2, 4, 8 cho chiều thời gian Do đó, ô DDCNN thứ sáu cuối
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
2022. cùng của TransNet đạt học được nhiều hơn 97 khung hình trong khi vẫn sử dụng một số lượng tham số học chấp nhận được Trong phiên bản mới, các ô DDCNN cũng tích hợp chuẩn hóa theo từng bộ, giúp ổn định đạo hàm và thêm nhiễu trong quá trình huấn luyện Mỗi ô DDCNN được gộp lại thành các khối với kích thước giảm dan để giảm chi phí tính toán Mỗi 6 DDCNN chứa một skip connection tiếp theo được theo sau bởi , giảm kích thước không gian đi hai, như minh họa trong sơ đồ tổng quát của mạng TransNet V2 chia sẻ trong 3.5 với các cải tiền bổ sung [47].
| Conv 3x3x3 | Conv 3x3x3 | Conv 3x33 | Conv 3x3X3 | ete dilation 1 dilation 2 dilation 4 dilation 8
DDCNN cell, each conv wit stack S times
Hình 3.5: Mô hình Transnet(Trái) và mô hình TransnetV2(phai)!
3.2.1.2 Xây dung mô đun Sematic search
Với dữ liệu đầu vào dưới dạng van bản va kho dữ liệu lại là dang thị giác, chúng ta cần phải có một mô hình có thể hiểu được cùng lúc 2 dạng dữ liệu này, mã hóa chúng thành một dạng đồng nhất có thể so sánh và truy vấn hiệu
!https://arxiv.org/pdf/2008.04838.pdf/https://arxiv.org/pdf/1906.03363.pdf
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
2022. quả Đối với hệ thống này tôi đề xuất sử dung mô hình CLIP (Contrastive
Language-Image Pre-training)[22] để xây dựng mô đun Sematic search Mô hình
CLIP[22] CLIP (Contrastive Language-Image Pre-training) là một phương pháp huấn luyện mô hình học sâu (deep learning) nhằm tạo ra một bộ mã hóa da nhiệm có khả năng mã hóa cả ảnh và ngôn ngữ Nó được phát triển bởi OpenAI và giúp cho mô hình có kha năng hiểu được cả ngôn ngữ và hình anh3.6. pepper the Text aussie pup
T T2 Ts = Ty km TT, lịT2 1,13 - I, Ty df I, Tại, Tạ Ip Ts ằ 12*Tn
Encoder ° I; dạ, Isl, Iz Ts ue I3 Ty
—> iN Iy Ty InTz Iy Ts Iy Ty
Hình 3.6: Mô hình tổng quát CLIP
Xây dựng mô đun Scene-Text search
Như đã đề cập về bộ dữ liệu HCMC AI CHALLENGE là một bộ dữ liệu tin tức, vì thế đa phần những tin tức đều có những dòng chữ trên màn hình chủ yếu là đến từ bản tin Và một phần không nhỏ là các cảnh quay về sự kiện, lệ hội nơi mà chứa những thông tin riêng về tên sự kiện, lễ hội đó thứ mà mô hình sematic search khó có thể nắm bắt được Do đó việc áp dụng các mô hình phát hiện và nhận diện văn bản sẽ giúp ích cho chúng ta trong việc giảm không gian tìm kiếm cũng như khắc phục nhược điểm của mô hình sematic search. Đầu vào: Khung hình có chứa văn bản trong ngoại cảnh Đầu ra: Kí tự trong ngoại cảnh, ID video, ID khung hình.
DBnet là một kiến trúc mang trong thị giác máy tính được sử dụng để phát hiện văn bản trong hình ảnh hoặc khung hình video Với đầu vào là ảnh có chứa văn bản trong ngoại cảnh, đầu ra là tọa độ vị trí, độ lớn của khung chứa văn bản. Phương pháp sử dụng các kỹ thuật học sâu để phát hiện văn bản và phương pháp
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
2022. nhị phân hóa khác biệt để nhị phân hóa các khu vực văn bản.
Differentiable Binarization là một kỹ thuật cho phép mạng học tập ngưỡng nhị phân hóa cho các khu vực văn bản Điều này được đạt được bằng cách sử dụng một xấp xỉ khác biệt của hàm nhị phân hóa, cho phép đạo hàm được truyền ngược qua quá trình nhị phân hóa Điều này cho phép mạng học tập ngưỡng tối ưu để nhị phân hóa các khu vực văn bản.
Kỹ thuật sử dụng kiến trúc mạng neural tích chập đầy đủ (FCN) để phát hiện các khu vực văn bản trong thời gian thực Kiến trúc FCN bao gồm một mạng lõi, trích xuất đặc trưng từ hình ảnh đầu vào, và một phần đầu phát hiện, dự đoán các khu vực văn bản Phần đầu phát hiện bao gồm một chuỗi các lớp tích chập, từ từ tinh chỉnh các khu vực van bản.
Kỹ thuật Real-time Scene Text Detection with Differentiable Binarization đã dat được kết quả tốt nhất trên một số bộ dữ liệu thử nghiệm, bao gồm các bộ dữ liệu
ICDAR 2015[51], ICDAR 20174152] và COCO-Text[53] Phương pháp này đặc biệt hữu ích cho các ứng dụng yêu cầu phát hiện văn bản trong thời gian thực, chẳng hạn như các thiết bị đi động và xe tự lái.
VietOCR là một công cu mã nguồn mở được sử dung để nhận dạng ký tự và chữ viết tay hoặc in của tiếng Việt Công cụ này được phát triển trên nền tang Java, cho phép nó chạy trên nhiều hệ điều hành khác nhau, bao gồm Windows,
VietOCR sử dụng thuật toán nhận dạng ký tự của Tesseract OCR, một thư viện mã nguồn mở nổi tiếng trong lĩnh vực OCR Độ chính xác của framework có thể đạt hơn 88% Nó cũng hỗ trợ nhiều định dạng hình ảnh, bao gồm JPEG,
PNG, GIF và TIFF VietOCR có giao diện người dùng đơn giản, cho phép người dùng chọn tập tin hình ảnh để nhận dạng hoặc quét trực tiếp từ máy quét Khi
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
2022. quá trình nhận dạng hoàn thành, kết quả được hiển thị trên màn hình và có thể lưu lại dưới dạng văn bản thông thường hoặc HTML.
Ngoài ra, VietOCR cũng hỗ trợ tính năng cải thiện chất lượng hình ảnh trước khi nhận dạng, bao gồm xoay, cắt, điều chỉnh độ tương phản và độ sáng Các tính năng này giúp cải thiện độ chính xác của quá trình nhận dạng.
Tổng quan về VietOCR, đây là một công cụ hữu ích cho những người cần nhận dạng văn bản từ các hình ảnh tiếng Việt Nó dễ sử dụng và có thể hoạt động trên nhiều hệ điều hành khác nhau, giúp đơn giản hóa quá trình nhận dạng văn bản và tiết kiệm thời gian. Ưu điểm ° Khắc phục nhược điểm từ mô đun sematic search
* Độ chính xác ổn từ 88% đến 89.01%.
* Chỉ được huấn luyện cho tập dữ liệu tiếng Việt. ¢ Sai chính ta
3.2.4 Xây dựng mô đun speech2text search
Mục tiêu là trích xuất và lưu trữ các thông tin về âm thanh với đầu vào là đoạn âm thanh của video đầu ra là đoạn văn bản tương ứng cùng với ID của video, ID khung hình bắt đầu có hội thoại, ID khung hình kết thúc hội thoại.
Mô đun tìm kiếm đoạn hội thoại giúp ích rất nhiều cho người dùng trong những trường hợp có nhắc tới tên riêng trong bản tin tức, ví dụ "nhạc sĩ Giáng Son",
"ca sĩ Hồ Ngọc Hà", "Họa sĩ Nguyễn Thanh Bình" thứ là nhược điểm lớn của mô hình sematic search.
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
"Wav2Vec" (Waveform to Vector) là một mô hình mạng nơ-ron sử dụng deep learning (học sâu) để chuyển đổi tín hiệu âm thanh từ file âm thanh (wav) sang văn bản (text).
Mô hình này được phát triển bởi OpenAI và đã được cải tiễn thành Wav2Vec 2.0 với nhiều tính năng tốt hơn Wav2Vec 2.0 được huấn luyện trên một lượng lớn dif liệu âm thanh với các giọng nói khác nhau, đủ để hoc được cách nhận dang và trích xuất thông tin từ tín hiệu âm thanh và chuyển đổi thành văn bản tương ứng.
Quá trình lập chỉmục
3.2.5.1 Phân tích dữ liệu Ở bước này tôi đánh giá lại những thông tin sau khi sử dụng những mô đun được đề cập ở chương 3 trích xuất được từ có đề ra những hướng đánh chỉ mục hợp lí Các thông tin này như keyframes, vật thể, khung hình xuất hiện chữ và video shot có đoạn hội thoại đều là những thông tin hữu ích để cải thiện quá trình truy vấn video tương tác dựa trên người dùng.
Số lượng khung hình cần xử lí giảm từ hơn 27 triệu xuống còn hơn 375000 Keyframes, từ đó có thể được sử dụng để đại diện cho toàn bộ video shot và giúp tiết kiệm tài nguyên tính toán khi tìm kiếm trong cơ sở dữ liệu video Hơn
473000 vật thể được phát hiện bởi objects detection có thể giúp cho việc tìm kiếm các video có chứa các đối tượng cụ thể trở nên dé dàng hơn Khung hình xuất hiện chữ phát hiện được bởi scene-text detection có thể giúp cho việc tìm
3 Xây dựng hệ thống truy vấn video trên bộ dữ liệu HCMC AI CHALLENGE
S6 Key-frames xuât hiện chữ trong ngữ cảnh | 372252
Sô video shot có chứa đoạn hội thoại 146208( trung bình 30 từ trên 1 shot)
Bảng 3.1: Thông số về đặc trưng được trích xuất. kiếm các video có chứa thông tin liên quan đến các sự kiện cụ thể, ví dụ như tìm kiếm các video liên quan đến một cuộc thi hoặc một sự kiện quan trọng Video shot có đoạn hội thoại có thể giúp cho việc tìm kiếm các video có nội dung liên quan đến các cuộc phỏng vấn, đàm thoại hoặc các buổi thảo luận.
Tóm lại, với số lượng thông tin sau khi trích xuất không nhiều (