Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGÔ XUÂN BÁCH XÂY DỰNG HỆ THỐNG PHÂN LOẠI NỘI DUNG VIDEO THEO THỂ LOẠI Chuyên ngành: Hệ Thống Thông Tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT TP HỒ CHÍ MINH – 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Tân Hạnh… ……………… (Ghi rõ học hàm, học vị) Phản biện 1: ………………………………………………… Phản biện 2: …………………………….…………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Trong năm gần toán khai thác, xử lý quản lý liệu ngày có ý nghĩa quan trọng lĩnh vực công nghệ thông tin Với phát triển không ngừng công nghệ thông tin, ngày có nhiều kiểu liệu đời liệu hình ảnh, liệu âm thanh, liệu video, liệu tài liệu, liệu viết tay Cùng với nhu cầu quản lý, khai thác xử lý đặt Các kiểu liệu phần nhiều hình thức biểu liệu phát sinh tự nhiên ứng dụng khác Những thành tựu khoa học kỹ thuật lĩnh vực công nghệ thơng tin, cơng nghệ phát thanh, truyền hình đặc biệt internet tạo bùng nổ thơng tin phạm vi tồn cầu Các cá nhân, tổ chức muốn theo kịp trình độ phát triển chung xã hội cần phải đẩy mạnh việc ứng dụng công nghệ thông tin, khai thác đa dạng thông tin, đặc biệt thông đa phương tiện Trong loại liệu đa phương tiện đó, liệu video thể thao nhiều người quan tâm, kể việc phục vụ mục đích giải trí nói chung dùng cho việc huấn luyện chuyên gia nói riêng 2 Tổng quan vấn đề nghiên cứu Dạng thông tin video ngày phát triển mạnh mẽ phong phú Xu hướng liệu nghe nhìn trở nên sinh động hấp dẫn hơn, tăng tính khách quan chân thực, đồng thời thông tin dạng video trở nên dễ hiểu, cô đọng, súc tích dễ tiếp nhận Trong thể thao, video mang lại cho người hâm mộ kênh giải trí tuyệt vời, giúp họ xem xem lại số trận thể thao yêu thích Đối với chun gia, kênh để xem xét tình huống, nhằm phân tích cho mục đích học hỏi huấn luyện Trong phần này, tơi nghiên cứu phân tích video, đặc tính đặc trưng giải thuật phân loại; quan tâm đến video thể thao nhằm mục đích phân loại video thể thao thành thể loại, cụ thể bốn thể loại quan tâm Việt Nam: bóng đá, bóng chuyền, tennis, cầu lơng Mục đích nghiên cứu Mục đích luận văn xây dựng hệ thống phân loại liệu video theo thể loại Mục tiêu cụ thể hệ thống: Quản lý video theo nội dung Phân loại tự động video theo thể loại 3 Truy hồi video dựa vào nội dung (hình ảnh, đoạn video) theo thể loại Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: - Phân tích, xử lý video: tách shot, xác định keyframe - Xác định tính chất đặc trưng cho thể loại thể thao - Các kỹ thuật phân loại video theo thể loại thể thao Phạm vi nghiên cứu: - Một số loại thể thao có số đặc trưng - sân có kích thước xác định, đối tượng môn thể thao: bóng đá, bóng chuyền, cầu lơng, tennis, bóng rỗ Các video giới hạn phạm vi bốn loại thể thao: bóng đá, bóng chuyền, bóng rỗ cầu lơng - Kích thước video xử lý: 240 x 180 - Nguồn liệu video từ kênh thể thao, youtube, chuẩn Full HD Phương pháp nghiên cứu - Thu thập, phân tích tài liệu thơng tin liên quan: o Xử lý tách shot video, o Phương pháp xác định keyframe shot/video o Phương pháp xác định đặc trưng cho thể loại thể thao o Các phương pháp phân loại video thể thao - theo thể loại Tìm hiểu cơng trình liên quan Phân tích, lựa chọn phương hướng giải vấn đề - Triển khai xây dựng mơ hình Kiểm tra, thử nghiệm đánh giá kết đạt Nội dung báo cáo bao gồm chương: Chương 1: Tổng quan liệu đa phương tiện Chương 2: Cơ sở lý thuyết Chương 3: Hệ thống đề xuất CHƯƠNG - TỔNG QUAN VỀ DỮ LIỆU ĐA PHƯƠNG TIỆN Dữ liệu đa phương tiện Đa phương tiện bao gồm phương tiện: văn bản, hình ảnh, âm thanh, video; kỹ thuật mô sử dụng đồng thời nhiều dạng phương tiện chuyển hố thơng tin tác phẩm từ kỹ thuật - Dữ liệu tài liệu (Document data) - Dữ liệu hình ảnh (Image data) - Dữ liệu âm (Audio data) - Dữ liệu Video (Video data) Tổng quan video Hình 1.1: Cấu trúc phân cấp video Một số thuộc tính đặc trưng video Video có bốn đặc trưng chính: color (màu), texture (kết cấu), shape (hình dáng), motion (chuyển động) 3.1 Color 3.2 Texture 3.3 Shape 3.4 Motion CHƯƠNG - CƠ SỞ LÝ THUYẾT Tách shot video xác định keyframe 1.1 Tách lia sở histogram khung hình Hình 2.1: Sơ đồ ứng dụng kỹ thuật trừ ảnh vào phân đoạn video Hãy gọi Hi(j) biểu đồ màu cho frame thứ i, j G mức xám Sau đó, chênh lệch frame thứ i frame trước tính cơng thức sau: (2.1) Cơng thức (2.1): Tính chênh lệch biểu đồ màu 1.2 Kỹ thuật nhảy phân đoạn video Phương pháp xác định đặc trưng 2.1 Đặc trưng màu sắc 3.2.1 Đặc trưng màu sắc Lược đồ màu RGB: (2.3) Trong N số lượng điểm có ảnh 3.2.2 Độ đo tương đồng màu sắc Gọi h(I) h(M) tương ứng lượt đồ màu hai ảnh I ảnh M Khoảng cách Ơclit: Đây khoảng cách Ơclit thông thường K bin: Hoặc: (2.4) 2.2 Đặc trưng kết cấu 2.3 Đặc trưng hình dạng 3.3.1 Đặc trưng hình dạng 3.3.2 Độ đo tương đồng cho hình dạng Phương pháp phân loại 3.1 Khái niệm phân loại 3.2 Quá trình phân loại Một trình phân lớp gồm bước: Bước thứ nhất: Học/Huấn luyện Bước thứ 2: Phân lớp (Classification) Một số kỹ thuật phân lớp: + Mơ hình phân lớp dùng định (Decision tree classification) + Phân lớp dùng mạng Bayesian + Phân lớp với K-nearest neighbor classifier + Phân lớp dùng SVM (Support Vector Machines) + Phân lớp dùng mơ hình Markov ẩn (hidden markov models) + Phân lớp dùng mạng Neural (Neural Network) 3.3 Phân loại dùng Neural Network 4.3.1 Mơ hình neuron nhân tạo 4.3.2 Phản hồi (feedback) 4.3.3 Kiến trúc mạng neuron 4.3.3.1 4.3.3.2 4.3.3.3 Các mạng tiến (feedforward) đơn mức Các mạng tiến đa mức Các mạng hồi quy (recurrent network) 4.3.4 Lý thuyết học vấn đề nhận dạng mẫu 4.3.4.1 4.3.4.2 4.3.4.3 Quy tắc học hiệu chỉnh lỗi Mô hình học Vấn đề nhận dạng mẫu 4.3.5 Mạng neural tích chập 4.3.5.1 Convolution (tích chập) 10 Mỗi lớp sử dụng filter khác thơng thường có hàng trăm hàng nghìn filter kết hợp kết chúng lại Ngồi có số layer khác pooling/subsampling layer dùng để chắt lọc lại thơng tin hữu ích (loại bỏ thơng tin nhiễu) Trong trình huấn luyện mạng (traning) CNN tự động học giá trị qua lớp fliter dựa vào cách thức mà bạn thực Ví dụ tác vụ phân lớp ảnh, CNNs cố gắng tìm thơng số tối ưu cho filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối dùng để phân lớp ảnh Hình 2.15: Mơ hình mạng Neural tích chập 11 CHƯƠNG - HỆ THỐNG ĐỀ XUẤT Khảo sát, phân tích Thể thao tất loại hình hoạt động thể chất trò chơi có tính cạnh tranh với mục đích sử dụng, trì cải thiện kĩ lực thể chất, đem lại niềm vui, hứng khởi cho người tham gia giải trí cho người xem Thơng thường thi đấu hay trò chơi diễn hai bên, bên cố gắng để chiến thắng đối phương Ngày có hàng trăm mơn thể thao tổ chức, từ môn tranh tài cá nhân, mơn có hàng trăm người tham gia lúc Mỗi môn thể thao có vài đặc điểm riêng như: số lượng người tham gia, cách thức chơi (chơi tay hay chân, chơi có bóng hay khơng có bóng…); chơi có bóng hình dạng bóng (kích thước, hình dạng, cấu tạo…); có cầu mơn lưới hay khơng có (ví dụ: bóng đá, bóng ném có cầu mơn, bóng rổ có rổ hứng bóng, bóng chuyền hay tennis có lưới ngăn sân, bóng chày khơng có…); trò chơi có cơng cụ hỗ trợ hay khơng (ví dụ: mơn cầu lơng hay tennis phải sử dụng vợt, hay mơn bóng chày phải sử dụng gậy đánh bóng…); 12 phương thức chuyển động trò chơi khác nhau, chẳng hạn mơn bóng chuyền khu vực chuyển động thường tập trung dọc hai bên lưới, bóng đá di chuyển nhanh khu vực có bóng sân… sân chơi đặc điểm: kích thước sân chơi loại khác, khác từ đường biên, vạch chỉ, hình dáng, chí màu sắc mặt sân… Điều quan trọng cần có đội ngũ tìm hiểu phân tích tất tập đặc tính thể loại thể thao; sau mang so sánh đặc tính thể loại để chọn đặc tính riêng tập đặc tính khác biệt với tập đặc tính mơn thể thao khác nhằm để phân loại Phân loại nội dung video yếu tố quan trọng để truy cập truy xuất hiệu video hệ thống quản lý nội dung phương tiện truyền thông Phân loại phân đoạn video giúp cung cấp tiện lợi dễ dàng việc truy cập vào nội dung video có liên quan mà khơng cần qt theo trình tự Trong phần này, trước tiên tơi trình bày phương thức giải vấn đề liên quan phương pháp trích xuất key-frames video, cách tiếp cận trích chọn đặc trưng video theo nội dung nội dung, tơi dự kiến trình bày kỹ thuật phân loại dựa 13 mơ hình Neuron Network đặc trưng chọn Công việc thực 2.1 Tách key frames Trong phần này, sử dụng thuật tốn để trích xuất khung hình cho video Thuật tốn sử dựa vào khác biệt biên hai khung hình liên tiếp để tìm khác biệt nội dung chúng cách phát hiện, sau trích xuất khung hình từ shot (các cảnh quay) - Thuật tốn trích xuất Key frames Đầu vào: Video V, bao gồm N khung - Đầu ra: Các khung hình Bước 1: For each frame k = to N { Đọc frame V k Vk+1 Lấy hình ảnh mức xám Vk Vk+1 Gk = image to gray (Vk) Gk+1 = image to gray (Vk+1) Tìm khác biệt Gk Gk+1 thuật toán phát biên Sobel Gọi: diff(k) khác biệt hai frame: 14 diff(k) = ∑ ∑(𝐺𝑘 − 𝐺𝑘+1 ) 𝑖 𝑗 i, j số hàng cột frame } Bước 2: Tính giá trị trung bình độ lệch chuẩn: Trị trung bình: ∑𝑁−1 𝑑𝑖𝑓𝑓(𝑖) 𝑚𝑒𝑎𝑛 = 𝑁−1 Độ lệch chuẩn: 𝑠𝑡𝑑 = √ (𝑑𝑖𝑓𝑓 (𝑖) − 𝑚𝑒𝑎𝑛)2 ∑𝑁−1 𝑁−1 Bước 3: Tính giá trị ngưỡng: Threshold = mean + a * std Trong đó: a hàng số Bước 4: Tìm key frame: for k = to (N-1) { if diff(k) > Threshold { Ghi nhận frame Vk+1 key-frame } } 15 2.2 Khai thác đặc trưng nhận dạng mẫu Nhận dạng mẫu nhằm mục đích phân loại liệu (là mẫu) dựa trên: kiến thức tiên nghiệm dựa vào thơng tin thống kê trích rút từ mẫu có sẵn Các mẫu cần phân loại thường biểu diễn thành nhóm liệu đo đạc hay quan sát được, nhóm điểm khơng gian đa chiều phù hợp Đó khơng gian đặc tính để dựa vào ta phân loại Trong giới hạn đề tài này, thực nghiệm phân loại video dựa vào tập đặc tính nội dung cảnh sân bóng bốn loại video gồm tập cảnh sân bóng đá, bóng chuyền, tennis, cầu lơng Hình 3.1: Ảnh mức xám 16 Sau tách keyframe loại thể thao, keyframe thu cảnh quay chọn lọc để loại bỏ cảnh quay phụ không mang nội dung thi đấu Trong thực nghiệm này, sử dụng phương pháp mạng neural tích chập (Convolutional Neural Network) để rút trích đặc trưng phân loại liệu Thiết kế hệ thống công nghệ hỗ trợ 3.1.Thiết kế Mơ hình dự kiến cho việc phân loại thể loại video thể thao mơ hình mạng Neuron, dựa vào đặc tả cảnh loại môn thể thao Bộ liệu mẫu đặc tả cảnh gồm 4000 frame cho loại thể thao, loại gồm 1000 frame, đưa vào huấn luyện cho mơ hình 1000 frame loại Hệ thống thiết kế bao gồm công việc sau + Tách frame từ video đầu vào + Chuyển ảnh màu thành ảnh mức xám + Trích đặc trưng nội dung cảnh video (cấu tạo mặt sân, biên) + Chọn mơ hình Neuron Network + Huấn luyện mơ hình + Dùng mơ hình đă huấn luyện để phân loại 17 Vide Tách frame Chuyển mức xám Bóng Chuyền Trích đặc trưng (edge Bóng Đá Phân loại (Neural Network) Tennis Cầu Lông Công nghệ hỗ trợ MATLAB – phần mềm tiếng công ty MathWorks, ngơn ngữ hiệu cao cho tính tốn kỹ thuật Nó tích hợp tính tốn, thị lập trình mơi trường dễ sử dụng Các ứng dụng tiêu biểu MATLAB bao gồm: Hỗ trợ tốn học tính tốn Phát triển thuật tốn Mơ hình, mơ Phân tích, khảo sát hiển thị số liệu Đồ họa khoa học kỹ thuật Phát triển ứng dụng với giao diện đồ họa 18 Computer Vision System Toolbox cung cấp thuật toán, hàm ứng dụng để thiết kế mô hệ thống xử lý video thị giác máy tính Neural Network Toolbox cung cấp thuật tốn, mơ hình sơ ứng dụng để tạo, đào tạo, hình dung mơ mạng thần kinh cạn sâu Các mạng học tập sâu bao gồm mạng neuron tích chập (ConvNets, CNNs) mã hóa tự động để phân loại hình ảnh, hồi quy học tập đặc trưng Mạng neuron tích chập (convNet) cơng cụ sử dụng rộng rãi cho việc học sâu Chúng thích hợp cho đầu vào hình ảnh, chúng sử dụng cho ứng dụng khác văn bản, tín hiệu, phản hồi liên tục khác Xây dựng hệ thống Sau tách keyframes từ loại video thể thao gồm tennis, bóng đá, bóng chuyền cầu lơng, chuyển ảnh mức xám với kích thước ảnh 180x240 Tiếp theo, sử dụng kỹ thuật tách biên để nhận dạng đặc điểm cấu tạo cảnh sân bóng Sau đặc 19 điểm biên đưa vào mơ hình mạng neural tích chập để training Im age Hình 3.4: Mơ hình mạng neural tích chập xây dựng Mạng neural tích chập định nghĩa sau: layers = [imageInputLayer([180 240 1]) convolution2dLayer(5,20) reluLayer maxPooling2dLayer(2,'Stride',2) convolution2dLayer(5,20) reluLayer maxPooling2dLayer(2,'Stride',2) fullyConnectedLayer(4) softmaxLayer 20 classificationLayer]; Video - Historgram - Canny Extract KeyFrames - Color - Surf Features Image/video Retreival - k-mean Clustering FeaturesI nternatio Indexing Similar Images Result Images Hình 3.5: Mơ hình truy hồi thơng tin Hệ thống truy xuất hình ảnh dựa nội dung (CBIR) sử dụng để tìm hình ảnh tương tự hình ảnh truy vấn Việc áp dụng hệ thống CBIR tìm thấy nhiều lĩnh vực tìm kiếm sản phẩm dựa web, giám sát, nhận dạng địa điểm thị giác Một kỹ thuật phổ biến sử dụng để thực 21 hệ thống CBIR túi từ trực quan, gọi túi tính Các tính hình ảnh sử dụng để đánh giá tương đồng hình ảnh bao gồm tính hình ảnh tồn cục màu sắc, kết cấu hình dạng Các tính hình ảnh tính hình ảnh cục kyw thuật SURF, biểu đồ gradient (HOG) Lợi ích cách tiếp cận túi tính loại tính sử dụng để tạo từ vựng trực quan tùy chỉnh để phù hợp với ứng dụng Các bước sau phác thảo thủ tục thưc sau: - Lập mục video với keyframes Chọn tính frames để truy hồi Tạo túi tính Lập mục frames Tìm kiếm hình ảnh tương tự Cài đặt, thử nghiệm đánh giá Với việc sử dụng 93 video để kiểm tra hệ thống phân loại bao gồm: 12 video bóng chuyền, 34 video bóng đá, 17 video cầu lơng 30 video tennis - video không thuộc tập huấn luyện tập kiểm tra - cách lấy 1000 frame từ video đầu vào (khoảng 40 giây), sau 22 tính số frame lớn nhãn thu sau phân loại frame để đưa định video thuộc thể loại bốn thể loại khảo sát Kết phân loại video sau: Hệ số đánh giá Bóng chuyền Bóng đá Tennis Cầu lông Precision 0.53 0.81 0.72 0.91 Reacall 0.66 0.79 0.8 0.64 Kết luận 6.1 Các vấn đề đạt Khai thác liệu vấn đề thường nhật sống tốn phân loại ứng dụng Phương pháp phân loại trình bày luận văn đạt số điểm: - Hiện thực vấn đề xử lý ảnh - Xác định keyframe, tách shot - Xây dựng mơ hình Neural Network với công cụ hỗ trợ Matlab - Xây dựng hệ phân loại bước đầu, làm sở cho việc xây dựng hệ thống phân loại nâng cao 23 Qua bảng đánh giá hệ số Precision Recall, hai thể loại bóng đá tennis cho kết tốt - Đối với bóng đá, hệ số Precision Recall 0.81 0.79 - Đối với tennis, hệ số Precision Recall 0.72 0.8 - Đối với bóng chuyền, hệ số Precision Recall 0.53 0.66 - Đối với câu lông, hệ số Precision Recall 0.91 0.64 6.2 Các vấn đề tồn Hệ thống phụ thuộc góc quay camera Thơng thường, camera hướng vào khu vực sân bóng từ xuống với góc khoảng 40 đến 45 độ, camera đặt thấp hệ thống nhận diện không nhiễu Vấn đề liệu mẫu không đại diện cho tất cả, nguồn liệu không đầy đủ vấn đề quyền loại video thể thao Với trận đấu địa phương khác cấu tạo, màu sắc mặt sân khác 24 Nhận dạng nhầm lẫn với đoạn video có nhiều hiệu ứng (highlights) cảnh quay không tập trung vào tồn cảnh sân bóng 6.3 Hướng phát triển Bước phân loại dựa vào nội dung cảnh hình dạng bước dùng xử lý ban đầu Để hiệu vấn đề phân loại video thể thao cần bổ sung thêm đặc tính nhận dạng khác Trong đặc tính chuyển động yếu tố quan trọng thể thao Hướng toán kết hợp với đặc tính chuyển động nhận dạng cơng cụ chơi bóng sử dụng thể loại ... luận văn xây dựng hệ thống phân loại liệu video theo thể loại Mục tiêu cụ thể hệ thống: Quản lý video theo nội dung Phân loại tự động video theo thể loại 3 Truy hồi video dựa vào nội dung (hình... tính mơn thể thao khác nhằm để phân loại Phân loại nội dung video yếu tố quan trọng để truy cập truy xuất hiệu video hệ thống quản lý nội dung phương tiện truyền thông Phân loại phân đoạn video. .. này, tơi nghiên cứu phân tích video, đặc tính đặc trưng giải thuật phân loại; quan tâm đến video thể thao nhằm mục đích phân loại video thể thao thành thể loại, cụ thể bốn thể loại quan tâm Việt