Bài viết trình bày việc nghiên cứu bài toán phân đoạn đối tượng trên video và đề xuất cải tiến các thuật toán có sẵn để tăng cường độ chính xác và cải thiện tốc độ. Áp dụng kĩ thuật phân đoạn video để xây dựng ứng dụng sử dụng thông tin video và hình ảnh nhằm tạo ra môi trường trải nghiệm mới cho khách du lịch.
Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học ỨNG DỤNG TƯƠNG TÁC VÀ TĂNG CƯỜNG TIỆN ÍCH TRÊN THIẾT BỊ DI ĐỘNG SỬ DỤNG TÌM KIẾM VÀ PHÂN ĐOẠN HÌNH ẢNH Nguyễn Phan Mạnh Hùng*, Đinh Quang Hiếu Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Tp Hồ Chí Minh * Tác giả liên hệ: nguyenphanmanhung@gmail.com TÓM TẮT Khám phá chia sẻ trải nghiệm từ lâu nhu cầu thiết yếu người Từ xa xưa người phát triển sử dụng cách thức khác nhằm chia sẻ trải nghiệm thân nhật kí hải trình, sách, tranh, ảnh Sự phát triển bùng nổ thiết bị kĩ thuật số công nghệ thông tin từ đầu kỉ 21 tới thay đổi thói quen chia sẻ người Bên cạnh đó, bước tiến mạnh mẽ thiết bị di động giúp dễ dàng lưu trữ chia sẻ khoảnh khắc bên người thân, bạn bè Hàng loạt ứng dụng phát triển để kịp thời đáp ứng nhu cầu trang mạng xã hội facebook, twitter, instagram… Nắm bắt nhu cầu nhóm định nghiên cứu phát triển ứng dụng tảng di động kết hợp với việc sử dụng công nghệ, kĩ thuật bao gồm thực tăng cường, phân đoạn đối tượng video, tìm kiếm ảnh nhằm đem lại trải nghiệm độc đáo hỗ trợ không người dùng mà người dùng doanh nghiệm việc xây dựng nội dung số lạ, sáng tạo Từ khóa: Phân đoạn đối tượng, tìm kiếm kỉ niệm, thực tăng cường INTERACTIVE APPLICATIONS AND STRENGTHS OF UTILITY ON MOBILE DEVICE USING SEARCH AND PHOTOGRAPHY DISTRIBUTION Nguyen Phan Manh Hung*, Đinh Quang Hieu University of Science – VNU Ho Chi Minh City * Corresponding Author: nguyenphanmanhhung@gmail.com ABSTRACT According to recent statistics of the Institute of Mental Health Central, the number of people with mental health problems is 15-20% of the population in Viet Nam In the US, the number of people who are experiencing the phenomenon of mental health disorders in a year is 61.5 million, ie for people, people with the disease This poses an urgent problem for science, find solutions and reduce the symptoms of nerve Galvanic Skin Response Equipment launched, the aim is determined based on the psychological changes in human skin sweat This research focuses on the use OPAMP, sensor circuit design to get the signal "change the resistance of the skin", then transmit signals to KIT FRDM-KL46Z, for handling and identification of human emotions The study focused on KIT Freescale platform with the processor inside the ARM Cortex M0 + With psychological state analysis device opens psychological treatments more effective, device costs a lot cheaper products than overseas Keywords: Audience segments, search for memories, enhanced reality TỒNG QUAN Từ xưa đến người ln thích khám phá chia sẻ trải nghiệm du lịch Cùng với việc khu du lịch, trung tâm vui chơi giải trí, khu sinh thái, thành phố lớn ngày mọc lên nhiều để phục vụ cho nhu cầu khám phá trải nghiệm khiến cho nhu cầu ngày tăng cao Cùng lúc đó, phát triển vượt bậc cơng nghệ thơng tìn mang lại nhiều thay đổi lớn trải nghiệm người du lịch Bên cạnh đó, phát triển thiết bị kĩ thuật, công nghệ cao máy ảnh kĩ thuật số, điện thoại hỗ trợ mạnh mẽ ứng dụng tảng phát triển cộng đồng công nghệ rộng lớn với doanh nghiệp giúp cho việc chia sẻ trải nghiệm trở nên dễ dàng, sáng tạo, hứng thú hết Nắm bắt nhu cầu này, nhóm định tập trung vào việc nghiên cứu phát triển hệ thống thông minh tảng di 147 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 động, tận dụng công nghệ kĩ thuật thực tăng cường, thuật toán hỗ trợ phân đoạn đối tượng video, đồng thời cho phép người dùng tìm kiếm lại kĩ niệm cũ hình ảnh Lý nhóm chọn phát triển hệ thống tảng di động thiết bị di động, đặc biệt điện thoại thông minh ngày trở nên phổ biến Hơn nữa, điện thoại thiết bị khơng thể thiếu q trình du lịch nhằm giúp du khách lưu giữ lại khoảnh khắc, kỉ niệm chia sẻ với người cách dễ dàng Tuy nhiên, có nhiều ứng dụng phát triển nhằm hỗ trợ du lịch với nhiều tính đa dạng Tuy vậy, thấy ứng dụng giống không sở hữu đặc trưng cần thiết để thu hút người Kỷ yếu khoa học dùng Điều phần làm hạn chế trải nghiệm người dùng Do vậy, nhóm định nghiên cứu toán phân đoạn đối tượng video tích hợp giải pháp vào ứng dụng nhằm tạo nét độc đáo riêng cho sản phẩm Chức giúp người dùng tạo đoạn video độc đáo dùng để chia sẻ với bạn bè, gia đình, người thân hay sử dụng để xây dựng video quảng cáo lạ thu hút Trong toán phân đoạn đối tượng video, ta cần phân tách đối tượng video khỏi background Các đối tượng thu sử dụng với nhiều mục đích khác để tổng hợp thơng tin tóm tắt video, nhận dạng đối tượng, index ảnh cho search engine, Hình Ví dụ tốn phân đoạn video Trong ảnh, đối tượng, định, tượng cung cấp người dùng tách khỏi cảnh với độ xác một vài frame bounding box cấp độ pixel mask đối tượng Dựa thông tin Đề tài nhóm tập trung vào vấn đề có được, ta có nhiều cách khác để giải chính: toán xây dựng model để rút Nghiên cứu tốn phân đoạn đối tượng trích học đặc trưng object dựa trên video đề xuất cải tiến thuật tốn thơng tin có sẵn dùng model để trực có sẵn để tăng cường độ xác cải tiếp tách đối tượng frame lại thiện tốc độ phương pháp Áp dụng kĩ thuật phân đoạn video để xây Unsupervised: (Papazoglou and Ferrari 2013) (Ochs and dựng ứng dụng sử dụng thơng tin video hình ảnh nhằm tạo môi trường trải nghiệm Brox 2011) thuộc nhóm sử dung thơng tin nội hàm video, ảnh để cho khách du lịch định đối tượng cần tách khỏi background Cụ thể với video, ta KIẾN THỨC NỀN TẢNG xác định đối tượng cần quan tâm Phân đoạn đối tượng video Trong toán phân đoạn đối tượng chúng di chuyển khác hướng với video, có nhiều phương pháp đề xuất background Một vài phương pháp khác sử dụng model đãđược huấn luyện trước chủ yếu thuộc hai hướng tiếp cận là: Semisupervised: phương pháp (Caelles, với tập liệu khác nhằm phát et al 2017) (Tsai, Yang and Black n.d.) đối tượng quan trọng ảnh hay thuộc nhóm tách đối tượng từ video video dựa thông tin tăng cường đối Mỗi hướng tiếp cận có ưu nhược điểm riêng 148 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Trong hướng tiếp cận đầu, ta kiểm sốt đối tượng cần theo dõi dễ hơn, chi phí cung cấp object mask lớn Các mơ hình thuộc hướng tiếp cận sau cần phải phải dựa vào chuyển động vật thể để xác định đối tượng cần tách phải huấn luyện trước tập liệu khác để học khái niệm vật thể Do vật thể đứng n khơng thuộc nhóm vật thể tập Kỷ yếu khoa học liệu để huấn luyện mơ hình gặp khó khăn để tách chúng khỏi background Tuy điểm mạnh phương pháp tự động rút trích tất đối tượng bật video mà không cần thông tin tăng cường Trong đề tài nhóm sử dụng cải tiến dựa tảng thuật toán nêu “Video object segmentation via optical flow” (OFL) thuộc hướng tiếp cận thứ Hình Mơ hình thuật tốn OFL Thuật tốn OFL bao gồm bước chính: tới việc superpixel chứa object Bước 1: Ước lượng vị trí đối tượng ảnh lẫn background Do đố, để tận dụng ưu điểm dựa vào object mask frame trước optical hướng tiếp cận, tác giả báo OFL flow Dựa vào optical flow, ta ước xây dựng graphical model sử dụng thông tin lượng vị trí tương đối đối tượng hỗn hợp cấp độ, gọi multi level frame Nhằm đảm bảo đối tượng nằm graphical model trọn object mask, tác giả sử dụng phép 𝐸𝑠𝑒𝑔 = 𝜆1 𝐸𝑝𝑖𝑥 (𝑋) + 𝜆2 𝐸𝑠𝑢𝑝 (𝑌) dilation để mở rộng phạm vi tìm kiếm, gọi + 𝜆3 𝐸𝑝𝑎𝑖𝑟 (𝑋, 𝑌) 𝑀𝑖𝑛𝑖𝑡 Mask tinh chỉnh lần Bước 3: Dùng graph cut để tách pixel dựa thông tin màu sắc khoảng cách thuộc foreground background Graph cut tương đối pixel Cụ thể, pixel sử dụng để gán nhãn cho pixel đánh giá tiềm thông qua hàm sau: cho hàm lỗi xây dựng bước tối ưu 𝑆𝑡 (𝑥𝑖 ) = 𝐴𝑡 (𝑥𝑖𝑡 ) + 𝐿𝑡 (𝑥𝑖𝑡 , 𝑀𝑖𝑛𝑖𝑡 ) Bước 2: Sử dụng multi-level graphical model 𝑀𝑡 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑀 (𝐸𝑠𝑒𝑔 ) để xây dựng hàm đánh giá tiềm Bước 4: Sử dụng kết có để cải pixel có thuộc object cần tách OFL đánh giá thiện optical flow Sau optical flow tiềm pixel cấp độ: pixel dùng để cải thiện kết segmentation superpixel, dựa thông tin màu Các bước từ tới lặp lặp lại tới sắc, vị trí, feature rút trích từ mạng kết phân đoạn đối tượng CNN, độ thống tiềm pixel không thay đổi đáng kể/hội tụ superpixel chứa nó… Sử dụng thơng tin cấp độ pixel giúp mơ hình PHƯƠNG PHÁP ĐỀ XUẤT chi tiết nhỏ đối tượng thơng Cải tiến thuật tốn OFL tin dễ bị tác động nhiễu Dựa tảng thuật toán OFL (Tsai, thiếu xác optical flow Yang and Black n.d.), nhóm đề xuất hướng Ngược lại, cấp độ superpixel, ta thu cải tiến nhằm tăng độ xác cho kết quả: nhiều thông tin xét pixel có Cải tiến 1: Object mask nhận từ OFL tính chất tương tự nằm vùng lân cận gặp số vấn đề nhiễu đường Tuy vậy, việc tính tốn superpixel biên chưa rõ ràng Để giải quyết, nhóm khơng xác đường biên bị mờ, dẫn tích hợp module contour snapping đề 149 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 xuất báo OSVOS Ý tưởng phương pháp ta phân lớp superpixel thuộc foreground/background thay phân lớp riêng biệt pixel Nhãn superpixel định dựa vào phần trăm pixel thuộc foreground nằm Kỷ yếu khoa học superpixel Nhìn chung, kết contour snapping phụ thuộc nhiều vào kết phương pháp dùng để xây dựng superpixel Sau kiểm tra, nhóm sử dụng model đề xuất báo (Yang, et al 2016) Hình Ví dụ kết OFL Có thể thấy cịn số vùng nhỏ thân xe bus bị phân loại nhầm background Hơn nữa, boundary xe bus cịn bị cưa Hình Ví dụ kết trước sau thực Contour Snapping Có thể thấy kết sau tinh chỉnh loại bỏ nhiễu đường biên mượt Cải tiến 2: Tại bước 2, để xây dựng hàm lỗi đó, vật thể khơng biến đổi q nhiều, ta E_seg, ta cần tính potential pixel dựa tận dụng lại SVM trước chúng feature rút trích từ CNN (Ví dụ: VGG) mang thơng tin hữu ích để đánh giá tiềm Feature đưa vào SVM pixel Vấn đề đặt huấn luyện từ đầu dựa thông tin ta nên dùng SVM cũ cần huấn frame liền trước Dựa vào quan sát kết luyện SVM Nhóm đề xuất sử dụng thực tế, nhóm nhận thấy việc sử dụng kích thước tương đối đối tượng SVM mới, huấn luyện từ đầu phát frame trước so với kích thước đối khơng phải ln phù hợp thơng tin tượng ground truth Khi kích thước frame liền trước không đủ tốt (bị che ngưỡng định, ta dừng việc khuất, mờ, nhiễu Ví dụ: Hình 5) Bên cạnh cập nhật SVM Hình Ảnh trái frame gần nhất, ảnh phải frame q khứ Có thể thấy, thơng tin frame gần xe không đầy đủ bị khói che khuất Trong đó, frame kia, chi tiết xe tương đối rõ, SVM huấn luyện dựa frame nhiều khả đánh giá tốt 150 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Cải tiến 3: Một đối tượng xuất nhiều góc độ khác Do đó, việc sử dụng SVM frame gần mà đối tượng hiển thị rõ ràng tiến trước chưa đủ để đánh giá Ví dụ: theo dõi lúc nhiều người, người bị che khuất người khác, xuất trở lại người quay lưng vào camera Do vậy, dù có lưu giữ SVM trước người biến (quay mặt camera), ta khơng thể nhận người dựa vào thông tin học SVM Vì vậy, nhóm định sử dụng SVM train nhiều frame khác Kết đánh giá pixel trung bình kết đánh giá SVM khác Hiện thời, nhóm cố định số lượng SVM cần sử dụng 5, frame lưu lại SVM để tránh trùng Kỷ yếu khoa học lấp thơng tin Trong tương lai, để điều chỉnh số lượng tần số lưu giữ SVM khứ, nhóm dự định sử dụng thơng tin tốc độ chuyển động vật thể dựa optical flow Ứng dụng hỗ trợ du lịch Smart Travel Dựa nhu cầu thực tế, nhóm xây dựng ứng dụng hỗ trợ du lịch Smart Travel với hướng tiếp cận sau: Sử dụng thực tăng cường để tăng trải nghiệm du lịch thông qua camera điện thoại Khi người dùng sử dụng camera điện thoại để qt xung quanh thơng tin địa điểm, quán ăn, nhà hàng, hiển thị lên hình camera điện thoại tương ứng với vị trí địa điểm – VD: Hình Hình Ví dụ hiển thị thơng tin địa điểm dựa thực tăng cường Áp dụng visual instance search để xem lại kỷ niệm khứ, thơng qua biết người thường làm địa điểm này, cung cấp cho người dùng số gợi ý đến Thuật toán sử dụng để tìm kiếm hình ảnh có liên quan nhắc đến báo (Nguyen, et al 2016) – VD: Hình Hình Ví dụ sử dụng visual instance search 151 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Sử dụng video segmentation để cung cấp thêm thông tin cho đối tượng: ứng dụng cho phép người dùng chọn video, sau khoanh vùng đối tượng cần segmentation thêm thơng tin cho đối tượng Khi người Kỷ yếu khoa học dùng tạo video hướng dẫn du lịch video giới thiệu đối tượng Điều giúp tăng trải nghiệm cho người, cung cấp nhiều thông tin cung cấp khả tương tác với video - VD: Hình Hình Ví dụ chức khoanh vùng đối tượng KẾT LUẬN Kết đạt Nhóm đề xuất phát triển ứng dụng Smart Travel dựa nên tảng di động nhằm hỗ trợ người dùng du lịch, giúp người dùng đạt trải nghiệm thú vị đồng thời chia sẻ chúng với cộng động cách dễ dàng hấp dẫn Ứng dụng nhắm tới đối tượng bao gồm đoàn thể, doanh nghiệp mong muốn cung cấp khách hàng nội dung số ấn tượng, mẻ, mang tính tương tác cao khơng tốn q nhiều chi phí thơng qua việc ứng dụng kĩ thuật tìm kiếm phân đoạn hình ảnh sử dụng DAVIS Challenge thay đổi bổ sung để phù hợp với thực tế Hướng phát triển Hiện nay, trình tạo video tương tác tốn nhiều thời gian, xử lý offline Trong tương lai, nhóm tìm hiểu tối ưu số lượng tham số mô hình cho phép việc xử lý video hiệu Bên cạnh đó, từ việc áp dụng nghiên cứu để phát triển ứng dụng Smart Travel, nhóm hy vọng tương lai mở roongj phạm vi khơng hỗ trợ du lịch, quảng cáo mà cịn lĩnh vực khác giải trí, giáo dục,… TÀI LIỆU THAM KHẢO CAELLES, SERGI, KEVIS-KOKITSI MANINIS, JORDI PONT-TUSET, LAURA LEALTAIXÉ, DANIEL CREMERS, AND LUC VAN GOOL 2017 “One-Shot Video Object Segmentation.” CVPR NGUYEN, VINH-TIEP, KHANH-DUY LE, MINH-TRIET TRAN, AND MORTEN FJELD 2016 “NowAndThen: A Social Network-Based Photo.” MUM OCHS, PETER, AND THOMAS BROX 2011 “Object segmentation in video: a hierarchical variational approach for turning point trajectories into dense regions.” ICCV PAPAZOGLOU, ANESTIS, AND VITTORIO FERRARI 2013 “Fast object segmentation in unconstrained video.” ICCV TSAI, YI-HSUAN, MING-HSUAN YANG, AND MICHAEL J BLACK N.D “Video Segmentation via Object Flow.” CVPR, 2016 YANG, JIMEI, BRIAN PRICE, SCOTT COHEN, HONGLAK LEE, AND MING-HSUAN YANG 2016 “Object Contour Detection with a Fully Convolutional Encoder-Decoder Network.” CVPR 152 ... khách hàng nội dung số ấn tượng, mẻ, mang tính tương tác cao khơng tốn q nhiều chi phí thơng qua việc ứng dụng kĩ thuật tìm kiếm phân đoạn hình ảnh sử dụng DAVIS Challenge thay đổi bổ sung để phù... tăng cường độ xác cải tiếp tách đối tượng frame lại thiện tốc độ phương pháp Áp dụng kĩ thuật phân đoạn video để xây Unsupervised: (Papazoglou and Ferrari 2013) (Ochs and dựng ứng dụng sử dụng. .. cung cấp cho người dùng số gợi ý đến Thuật toán sử dụng để tìm kiếm hình ảnh có liên quan nhắc đến báo (Nguyen, et al 2016) – VD: Hình Hình Ví dụ sử dụng visual instance search 151 Giải thưởng Sinh