Bài viết đề xuất một hệ thống sử dụng các thuật toán xử lí ảnh kết hợp với các thuật toán học sâu giúp trích xuất thông tin người xem quảng cáo như số lượng người xem, thời gian xem, giới tính, độ tuổi nhằm hỗ trợ việc phân tích mức độ tác động của quảng cáo đến từng đối tượng khách hàng một cách nhanh và hiệu quả.
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học HỆ THỐNG HỖ TRỢ PHÂN TÍCH DỮ LIỆU NGƯỜI XEM QUẢNG CÁO Võ Minh Công*, Lê Ngọc Phú Trường Đại học Sư phạm Kỹ thuật TP Hồ Chí Minh *Tác giả liên lạc: vominhcong05@gmail.com TÓM TẮT Thị trường quảng cáo sử dụng LCD ngày nở rộ Việt Nam tính hiệu mặt quảng bá sản phẩm, kích thích thị hiếu người dùng thơng qua hình ảnh âm sống động Tuy nhiên, chiến dịch triển khai mang doanh thu mong đợi khó khăn q trình đo lường độ hiệu quảng cáo đối tượng khách hàng cụ thể Trong nghiên cứu này, đề xuất hệ thống sử dụng thuật tóa n xử lí ảnh kết hợp với thuật tóa n học sâu giúp trích xuất thơng tin người xem quảng cáo số lượng người xem, thời gian xem, giới tính, độ tuổi nhằm hỗ trợ việc phân tích mức độ tác động quảng cáo đến đối tượng khách hàng cách nhanh hiệu Mô hình nhận dạng giới tính độ tuổi hoạt động với tốc dộ ~30FPS, cho kết tốt với độ xác đạt 92% với giới tính sai số tuổi 3.2 Với kết này, mơ hình có khả triển khai rộng rãi hệ thống quảng cáo LCD, tương lai, độ xác mơ hình cải thiện nhờ việc thu thập thêm liệu hình ảnh có thêm cơng cụ hỗ trợ phân tích liệu thu thập thuật tóa n máy học Từ khóa: Quảng cáo, phân tích, xử lí ảnh, học sâu, độ tuổi giới tính SMART ADVERTISING SYSTEMS Vo Minh Cong*, Le Ngoc Phu Ho Chi Minh City University of Technology and Education *Corresponding Author: vominhcong05@gmail.com ABSTRACT The LCD advertising market is booming in Vietnam because of the efficiency in promoting the product, stimulating attraction through visuals and sound However, not every campaign is deployed as well as expected as the difficulty in measuring the effectiveness of advertising for each specific customer In this study, we propose a system that utilizes image processing algorithms in conjunction with deep learning algorithms to extract viewer information such as the number of views, viewing time, gender and age, to help analyze the impact of advertising to each customer quickly and effectively Gender and age identification is now working at ~ 30FPS, and yields good results with 92% accuracy with gender and age error of 3.2 With this result, the model has the potential to be widely deployed on LCD advertising systems In the future, the accuracy of the model can be further improved by acquiring more image data and will have additional tools for analyzing data collected by machine learning algorithms Keywords: advertisings, analysis, image processing, deep learning, age and gender 152 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 TỒNG QUAN Trong thị trường cạnh tranh cao ngày nay, quảng cáo đóng vai trị quan trọng ảnh hưởng trực tiếp đến thành công doanh nghiệp Cùng với phát triển công nghiệp sản xuất, công ty ngày quan tâm đến việc quảng bá hình ảnh, sản phẩm dịch vụ đến với khách hàng Riêng thị trường Việt Nam bảng quảng cáo trời chiếm tỷ lệ cao (95,2% - theo nghiên cứu Kantar Media) Và xuất bảng quảng cáo bảng điện tử, LCD khiến cho việc quảng cáo tiếp cân khách hàng dễ dàng Nhưng chưa có phương pháp để đánh giá độ hiểu qua quảng cáo mà nhãn hàng thường phải dựa vào doanh số bán hàng, việc cần phải tốn nhiều thời gian Ngày với phát triển mạnh mẽ khoa học máy tính, ngày có nhiều đột phá thuật tóa n máy học đặc biệt học sâu, thuật tóa n ứng dụng rộng rãi sản phẩm ứng dụng trí tuệ nhân tạo Mục tiêu đề tài nghiên cứu hệ thống ứng dụng thuật tóa n học sâu để hỗ trợ trích xuất thơng tin độ tuổi, giới tính, thời gian xem, số lượng người xem quảng cáo bảng LCD lưu lại thông tin máy chủ, từ nhà phân tích kiểm chứng độ hiệu quảng cáo nhanh chóng CÁC THUẬT TĨA N VÀ PHƯƠNG PHÁP NGHIÊN CỨU Chuẩn bị liệu Bộ liệu huấn luyện lấy từ tập MegAsian (Zhang, Liu, Li, & Loy, 2017) Sử dụng phương pháp Viola-Jone (Viola & Jones, 2004) dùng đặc trưng Haar để nhận diện vùng có chứa khn mặt người cắt Kỷ yếu khoa học khuôn mặt khỏi liệu gốc Dữ liệu đa dạng hóa phép xoay hình để tạo thêm liệu cho trình huấn luyện Xây dựng mơ hình thuật tóa n học sâu Để trích xuất đặc trưng khn mặt người thiết kế mạng CNN Cấu trúc mạng CNN lần đầu tạo có tên AlexNet (Krizhevsky, Ilya, & Hinton, 2012) Mạng CNN mơ hình có chứa nhiều lớp ma trận nhân chập khác đảm nhiệm tính khác mạng khử nhiễu, làm mờ, trích xuất cạnh, … nhiều đặc trưng khác Đối với thuật tóa n xử lí ảnh thơng thường q trình trích xuất đặc trưng giá trị mặt nạ phải nghiên cứu cài đặt cách thủ công Nhưng thuật tóa n học sâu giá trị mặt nạ (trọng số) máy điều chỉnh thơng qua q trình huấn luyện cho giá trị lớp cuối với nhãn liệu Giữa lớp nhân chập sử dụng thêm kĩ thuật thường hóa (Ioffe & Szegedy, 2015) nhằm giảm thiểu thời gian huấn luyện chống mô hình tạo đầu q xác với tập liệu huấn luyện (hay gọi overfitting) Lớp cuối mạng CNN cho ngõ tuổi giới tính Với ngõ dự đóa n tuổi hàm kích hoạt sử dụng hàm tuyến tính cho tóa n hồi quy độ tuổi Với ngõ giới tính, hàm kích hoạt hàm sigmoid cho ngõ 0/1 tương ứng với hai giới tính nữ/nam Với mục tiêu ban đầu hoạt động theo thời gian thực, lấy ý tưởng dựa vào mạng MobileNet (Howard, et al., 2017) nhằm giảm thiểu thời gian xử lý cho kết tốt Đánh giá sai số Để xác định thời gian mà khuôn 153 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học mặt xem quảng cáo, hệ thống tích hợp cịn vùng dự đóa n, thuật tóa thêm thuật tóa n nhằm theo dõi n cập nhật vị trí khn mặt khn mặt từ khuôn mặt xuất Giao tiếp máy chủ biển camera đến rời khỏi camera quảng cáo hình thành qua giao Khi khn mặt phát hiện, hệ thức HTTP giao diện người thống gán mã số định danh cho dùng tạo để bảng quảng khn mặt đó, đường bao cáo truyền thơng tin hình ảnh tạo xung quanh khn mặt Hệ thống máy chủ tạo thêm đường bao lớn dự đóa n khu vực vùng mặt xuất KẾT QUẢ VÀ THẢO LUẬN khung ảnh tiếp theo, Sau gần 50 vòng lặp để huấn luyện mô vùng ảnh khuôn mặt hình học sâu ta có kết sau: Bảng Kết sai số mơ hình hai tập liệu sau 50 vòng lặp Sai số Trên tập huấn luyện ~4.08 Trên tập đánh giá ~3.22 Bảng Kết độ xác mơ hình hai tập liệu sau 50 vòng lặp Độ xác Trên tập huấn luyện ~91% Trên tập đánh giá ~91% Kết mơ hình mạng CNN có thiết kế hình bên Hình Sơ đồ mơ hình mạng CNN 154 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Mơ hình mạng CNN lõi xử lý mấu chốt tồn hệ thống Cùng với thuật tóa n xử lý ảnh, mơ hình mạng CNN triển khai máy chủ Những bảng quảng cáo tích hợp camera có nhiệm vụ thu thập liệu người xem gửi máy chủ máy chủ trích xuất thông tin lưu vào nhật ký để phân tích KẾT LUẬN Mơ hình dự báo tuổi giới tính chưa đạt độ xác tuyệt đối trường hợp sai lệch trường hợp bỏ qua Theo cách khách quan, mắt người khơng thể dự đóa n xác độ tuổi người Kỷ yếu khoa học hình ảnh Vì kết kể chấp nhận Với kết mơ hình sử dụng hệ thống, hỗ trợ trích xuất đặc trưng người dùng để hỗ trợ phân tích độ hiệu quảng cáo Trong tương lai, hệ thống cải thiện mật độ xác, nâng cấp thời gian xử lý, tạo nhiều kết nối hệ thống máy chủ máy trạm Ngồi ra, hình quản lý phân tích thơng tin hữu ích cần thiết thiết kế để cung cấp cho bên quản lý có nhìn trực quan chi tiết Và khả ứng dụng mơ hình tùy biến để áp dụng vào nhiều vấn đề việc hỗ trợ phân tích hiệu quảng cáo TÀI LIỆU THAM KHẢO HOWARD, A G., ZHU, M., CHEN, B., KALENICHENKO, D., WANG, W., WEYAND, T., ADAM, H (2017) MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications CoRR IOFFE, S., & SZEGEDY, C (2015) Batch normalization: Accelerating deep network training by reducing internal covariate shift International Conference on Machine Learning (trang 448-456) JMLR.org KRIZHEVSKY, A., ILYA, S., & HINTON, G E (2012) ImageNet classification with deep convolutional neural networks Neural Information Processing Systems (NIPS) (trang 1097-1105) Curran Associates Inc VIOLA, P., & JONES, M J (2004) Robust Real-Time Face Detection International Journal of Computer Vision, 57, 137-154 ZHANG, Y., LIU, L., LI, C., & LOY, C C (2017) Quantifying Facial Age by Posterior of Age Comparisons CoRR 155 ... dụng hệ thống, hỗ trợ trích xuất đặc trưng người dùng để hỗ trợ phân tích độ hiệu quảng cáo Trong tương lai, hệ thống cải thiện mật độ xác, nâng cấp thời gian xử lý, tạo nhiều kết nối hệ thống. .. nghiên cứu hệ thống ứng dụng thuật tóa n học sâu để hỗ trợ trích xuất thơng tin độ tuổi, giới tính, thời gian xem, số lượng người xem quảng cáo bảng LCD lưu lại thơng tin máy chủ, từ nhà phân tích. .. lõi xử lý mấu chốt tồn hệ thống Cùng với thuật tóa n xử lý ảnh, mơ hình mạng CNN triển khai máy chủ Những bảng quảng cáo tích hợp camera có nhiệm vụ thu thập liệu người xem gửi máy chủ máy chủ