Chương trình dò tìm chuyển động của môi cài đặt trên FPGA

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	904,4 KB

Nội dung

Bài viết trình bày mô hình mới sử dụng phần cứng để dò tìm chuyển động môi, cài đặt trên FPGA. Công cụ toán học ở đây kết hợp giải thuật phân cụm K-Means và giải thuật tìm đường đi ngắn nhất của Dijkstra.

30 Võ Thị Thu Hồng, Lê Quốc Bảo Trí, Nguyễn Ngọc Tài, Lê Trung Hiếu CHƯƠNG TRÌNH DỊ TÌM CHUYỂN ĐỘNG CỦA MÔI CÀI ĐẶT TRÊN FPGA LIP TRACKING PROGRAM IMPLEMENTED ON FPGA Võ Thị Thu Hồng, Lê Quốc Bảo Trí, Nguyễn Ngọc Tài, Lê Trung Hiếu Trường Đại học Bách khoa, TP Hồ Chí Minh; votthuhong@hcmut.edu.vn Tóm tắt - Việc dị tìm chuyển động mơi giai đoạn mang tính định hệ thống nhận dạng thính thị (AVSR) Đây q trình phân tách đường viền môi từ chuỗi video khuôn mặt Đã có nhiều giải thuật hữu hiệu đề xuất kết phân đoạn xác vùng mơi Do độ phức tạp tính tốn nên đa số giải thuật thực hoàn toàn phần mềm Trong viết này, chúng tơi trình bày mơ hình sử dụng phần cứng để dị tìm chuyển động mơi, cài đặt FPGA Cơng cụ tốn học kết hợp giải thuật phân cụm K-Means giải thuật tìm đường ngắn Dijkstra Kết thử nghiệm thích hợp với khn mặt có xuất râu, xử lý tốt trường hợp màu môi không khác biệt nhiều so với vùng ngồi mơi Cấu trúc phần cứng thiết kế pipeline cho phép tăng đáng kể tốc độ xử lý so với phần mềm (hơn 700 fram es/s) Abstract - The first and crucial stage in audio visual speech recognition (AVSR) system is lip tracking It is the process of partitioning lip contour from facial video sequences Many efficient algorithms have been developed to achieve good and accurate segmentation Most of these have to be performed entirely by software because of their complex computation In this paper, we present a novel hardware- based lip tracking m odel, implem ented on DE2 FPGA (Field Programm able Gate Array) Board of Altera Our mathematical tool is the combination of K-Means clustering and shortest path Dijkstra algorithm s The experimental results have proved that our proposed technique is well adapted to face with the presence of beard, teeth and even to lips with weak color contrast The pipeline design in our hardware structure considerably enhances the processing speed (m ore than 700 FPS) in com parison with software (FPS: Fram es per second) Từ khóa - dị chuyển động môi; phân đoạn vùng m ôi; FPGA; phân cụm K-Means; giải thuật Dijkstra; pipeline Key words - Lip tracking; lip segm entation; FPGA; K-Means clustering; Dijkstra; pipeline Đặt vấn đề Tự động nhận dạng tiếng nói (ASR: Automatic Speech Recognition) đề tài nhà nghiên cứu giới quan tâm từ nhiều năm Để nâng cao độ xác, người ta cịn phối hợp thêm kỹ thuật “đọc” hình ảnh dùng phương pháp nhận dạng tiếng nói thính thị AVSR Phương pháp chủ yếu dựa hình ảnh thay đổi mơi để bổ sung cho âm từ bị trùng lấp phát âm, bị biến dạng âm sắc, bị suy hao môi trường Kỹ thuật nhận dạng AVSR ứng dụng nhiều để hổ trợ cho người khiếm thính, dùng an ninh hay bảo mật Đối với AVSR, việc dị theo chuyển động mơi đóng vai trò định thu thập liệu nhận dạng tiếng Tuy đề tài mới, thường xuyên cập nhật để cải tiến khả ứng dụng thực tiễn cao Nhiều cơng trình báo liên quan thực công bố rộng rãi giới Tại Việt Nam có số cơng trình nghiên cứu lĩnh vực (chủ yếu ngành công nghệ thông tin) hầu hết thực phần mềm máy tính Mặt khác để đạt kết mong muốn đường bao ban đầu phải khởi tạo thích hợp Hiện nay, người ta thường chọn giải pháp kết hợp nhiều phương pháp xử lý độ xác cao [5], [6] Dị đường viền môi tổng hợp việc phân đoạn vùng môi frame ảnh liên tiếp Các phương pháp phân đoạn vùng mơi dựa đặc tính ảnh (imagebased) hay đặc tính mơ hình (model-based) mơi để phân tích Đặc tính ảnh thường sử dụng trực tiếp thơng tin màu đặc trưng môi khuôn mặt Giải thuật dựa đặc tính [1], [2] thường dễ thực tốn thời gian Nhược điểm phương pháp dễ bị tác động điều kiện độ sáng khác Đặc tính mơ hình bao gồm thơng tin biết hình dạng thơng thường môi Giải thuật tiếp cận nhiều đường viền động quanh co (Snake/Active Contour) [3], [4] Giải thuật cho kết tốt tốc độ chậm tốn nhiều thời gian cho vòng lập (để tối thiểu hàm lượng) Trong viết này, chúng tơi trình bày hướng thiết kế viết theo ngơn ngữ lập trình phần cứng (HDL: Hardware Description Language) cài đặt chip FPGA Phương pháp chọn để xử lý dựa thông tin màu, đặc tính vị trí hình học mơi khn mặt Việc lập trình FPGA phức tạp nhiều so với lập trình máy tính (xét cho thuật toán) tốc độ làm việc FPGA cao tiêu thụ lượng Các dịng FPGA thích hợp với ứng dụng xử lý ảnh thời gian thực Đây điều mà máy tính khó đáp ứng Trước dị đường viền mơi, chúng tơi chọn thuật tốn phân cụm K-means để tách vùng mơi ngồi mơi dựa độ sai lệch màu Kết sau K-means phân định frame hình thành hai tập hợp, tập vùng “được cho” vùng môi tập vùng ngồi mơi Trong bước xử lý tiếp theo, giải thuật tìm đường ngắn Dijkstra sử dụng để tìm đường viền mơi, đồng thời có tác dụng loại bỏ thành phần thừa vùng chung quanh môi mà K-means chưa lọc hết Trình tự xử lý frame cho Hình Nội dung viết gồm phần Phần giới thiệu ý tưởng khoa học đề tài, tổng quan trình nghiên cứu ngồi nước, đề giải pháp dị đường biên môi áp dụng phần cứng (viết ngôn ngữ Verilog) Phần phần tiền xử lý tín hiệu đầu vào, chuyển đổi khơng gian màu thích hợp Phần trình bày giải thuật phân cụm K-means ứng dụng để phân biệt vùng môi vùng khác ngồi mơi frame ảnh Phần nêu giải thuật tìm đường ngắn kết hợp để dị theo đường viền mơi Phần kết thử nghiệm kết luận ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 31 Kết ngõ ma trận ảnh không gian màu chuyển đổi định nhiều đến chất lượng xử lý phần sau Do đó, biểu thức tốn (1) khơng thể thực theo phép chia thơng thường gây sai số lớn cài đặt lên phần cứng Giải thuật chia thực sau: + Gán giá trị tử số R, độ lớn xử lý 18bits + Gán giá trị mẫu sốlà (R+G), độ lớn xử lý 18 bits + Vòng lặp: dịch trái R (

Ngày đăng: 07/05/2021, 13:14