Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
5,7 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH NGUYỄN THẾ NGỌC ỨNG DỤNG “AI-CAMERA” NÂNG CAO CHẤT LƢỢNG HÌNH ẢNH CHO SMARTPHONE-VSMART Chuyên ngành: Kỹ Thuật Điều Khiển Và Tự Động Hóa Mã số: 60 52 02 16 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh , tháng 12 năm 2019 i ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH NGUYỄN THẾ NGỌC “AI-CAMERA” APPLICATION FOR IMAGE ENHANCEMENT ON SMARTPHONE-VSMART PRODUCTS Chuyên ngành: Kỹ Thuật Điều Khiển Và Tự Động Hóa Mã số: 60 52 02 16 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh , tháng 12 năm 2019 ii CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM Cán hƣớng dẫn khóa học : Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp.HCM Ngày … Tháng … Năm… Thành phần Hội Đồng đánh giá luận văn thạc sĩ gồm: Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA iii ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN THẾ NGỌC MSHV: 1770548 Ngày, tháng, năm sinh: 10/02/1994 Nơi sinh:Quảng Bình Chuyên ngành: Kỹ Thuật Điều Khiển Và Tự Động Hóa Mã số : 60520216 I TÊN ĐỀ TÀI: ỨNG DỤNG “AI-CAMERA” NÂNG CAO CHẤT LƢỢNG HÌNH ẢNH CHO SMARTPHONE-VSMART II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu phƣơng pháp tăng cƣờng chất lƣợng, chuyển đổi phong cách hình ảnh dựa phƣơng pháp học sâu (Deep Learning) - Tìm hiểu phƣơng pháp phát triển ứng dụng trí tuệ nhân tạo tảng smartphone - Xây dựng mơ hình học sâu nhằm nâng cao chất lƣợng hình ảnh chuyển đổi phong cách - Tối ƣu mơ hình tích hợp OpenCV, Tensorflow thiết bị di động sử dụng tảng hệ điều hành VOS - Đánh giá kết thực III NGÀY GIAO NHIỆM VỤ : 19/08/2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 08/12/2019 V CÁN BỘ HƢỚNG DẪN : TS.Phạm Việt Cƣờng Tp HCM, ngày 08 tháng 12 năm 2019 CÁN BỘ HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TS Phạm Việt Cƣờng TRƢỞNG KHOA iv LỜI CẢM ƠN Lời nói đầu tiên, để hồn thành nghiên cứu luận văn này, Tôi xin đƣợc gửi lời cảm ơn đến Quý Thầy Cô Bộ Môn Điều Khiển Tự Động, Khoa Điện – Điện Tử, Trƣờng đại học Bách Khoa- Đại học quốc gia TP Hồ Chí Minh truyền đạt kiến thức quý giá suốt thời gian Tôi học tập Trƣờng Đặc biệt, Xin gửi lời cảm ơn sâu sắc đến TS.Phạm Việt Cƣờng ln nhiệt tình hƣớng dẫn, góp ý cho Tơi suốt q trình thực luận văn Tôi muốn gửi lời cảm ơn đặc biệt đến Anh: Ngô Huy Ánh, Anh: Phạm Xuân Khánh Phòng nghiên cứu phần mềm dự án Smatphone-Vsmart cho Tôi hội đƣợc thực luận văn Tôi xin gửi lời cảm ơn đến Bạn Võ Thị Yến Hải, Phạm Thế Vinh hỗ trợ hình ảnh kiến thức Photoshop suốt thời gian thực luận văn Một lần nữa, Tôi xin gửi lời cảm ơn chân thành đến tất ngƣời Nguyễn Thế Ngọc TÓM TẮT LUẬN VĂN THẠC SĨ Cùng với phát triển không ngừng trí tuệ nhân tạo (AI) thời gian trở lại đây, khơng có mặt máy tính, AI đƣợc nhiều hãng sản xuất quan tâm đƣa lên smartphone Hiện này, hầu hết mẫu smartphone đình đám tích hợp thêm AI-Cam để tăng hấp dẫn ngƣời tiêu dùng Ngày nay, chụp ảnh với smartphone chia sẻ mạng xã hội trở thành trào lƣu lớn mạnh Cùng với cải tiến chất lƣợng camera gần đây, ngƣời dùng ngày đòi hỏi cao chất lƣợng hình ảnh tính nghệ thuật hình Nắm bắt xu đó, đề tài đƣợc thực nhằm xây dựng công nghệ lõi phát triển ứng dụng “AI-Camera” có khả nâng cao chất lƣợng hình ảnh chuyển đổi phong cách Đề tài đƣợc thực dựa đề xuất Phòng Nghiên Cứu Phần Mềm thuộc Công Ty Cổ Phần Nghiên Cứu Và Sản Xuất VINSMART Trong đó, mục đích đề tài nghiên cứu tích hợp ứng dụng trí tuệ nhân tạo lên sản phầm smartphone, ban đầu “AI-Camera” Với việc thực luận văn này, Học viên sử dụng kiến trúc CycleGAN mạng tích chập U-Net để xây dựng mơ hình học sâu Đồng thời, sử dụng thƣ viện OpenCV Tensorflow để phát triển ứng dụng smartphone Cuối cùng, luận văn phát triển thành công ứng dụng “AI-Camera” nhằm nâng cao chất lƣợng hình ảnh chuyển đổi phong cách cho hình ảnh Ứng dụng có khả thực thi hệ điều hành VOS dòng smartphone VSMART Bƣớc đầu, chứng minh đƣợc tính thực tiễn nghiên cứu phát triển tƣơng lai Học viên Nguyễn Thế Ngọc ABSTRACT Along with the continuous development of AI in recent times, not only on computers, AI is now also interested in many manufacturers on smartphones Currently, most of the smartphones have integrated AI to increase attractiveness to consumers Nowadays, taking photos with smartphones and sharing on social networks has become a growing trend Along with recent advances in camera quality, users are becoming more and more demanding about the image quality and the artistry of their photographs Following that trend, the project was conducted to build core technology and develop "AI-Camera" application capable of improving image quality and style transfer The project was implemented based on the proposal of the Software Research Department of VINSMART Research and Production Joint Stock Company In particular, the main goal of the thesis is to research and integrate AI applications on smartphone products, initially "AI-Camera" The thesis uses the CycleGAN architecture and the U-Net convolution network to build a deep learning model Also, use the library OpenCV and Tensorflow to develop applications on smartphone Finally, the thesis has successfully developed the application "AI-Camera" to enhance image quality and transform style for images The application could execute on VOS Initially, it has proved the practicality of the research and can develop more in the future Student Nguyễn Thế Ngọc LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ trình bày luận văn, cơng việc đƣợc trình bày luận văn Tơi trực tiếp thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Tp HCM, ngày 08 tháng 12 năm 2019 Nguyễn Thế Ngọc MỤC LỤC LỜI CẢM ƠN .1 TÓM TẮT LUẬN VĂN THẠC SĨ .2 ABSTRACT LỜI CAM ĐOAN .4 DANH MỤC HÌNH ẢNH DANH MỤC VIẾT TẮT DANH MỤC BẢNG BIỂU 10 CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI 11 1.1 Đặt vấn đề .11 1.2 Mục đích nghiên cứu .11 1.3 Đối tƣợng phạm vi nghiên cứu 12 1.4 Phƣơng pháp nghiên cứu .12 CHƢƠNG 2: TRÍ TUỆ NHÂN TẠO TRÊN SMARTPHONE 13 2.1 Giới thiệu trí tuệ nhân tạo smartphone 13 2.2 Giới thiệu AI Camera 16 CHƢƠNG 3: NÂNG CAO CHẤT LƢỢNG HÌNH ẢNH .21 TRÊN SMARTPHONE 21 3.1 Ứng dụng chỉnh sửa ảnh smartphone .21 3.2 Chỉnh sửa ảnh với trí tuệ nhân tạo smartphone .24 CHƢƠNG 4: MẠNG HỌC SÂU ỨNG DỤNG CHO 26 NÂNG CAO CHẤT LƢỢNG HÌNH ẢNH 26 4.1 Image-to-Image Translation (I2I) 26 4.2 GANs-Generative Adversarial Networks .30 4.3 Mạng tích chập U-Net .35 CHƢƠNG 5: PHƢƠNG PHÁP ĐÁNH GIÁ ẢNH SỐ 38 5.1 Sai số trung bình-MSE 38 5.2 Tỷ số tín hiệu cực đại/nhiễu-PSNR 38 5.3 So sánh tƣơng đồng cấu trúc-SSIM 40 CHƢƠNG 6: PHÁT TRIỂN ỨNG DỤNG TRÍ TUỆ NHÂN TẠO 41 TRÊN SMARTPHONE 41 6.1 Tensorflow Android 41 6.1.1 Giới thiệu Tensorflow 41 6.1.2 Tensorflow Android Studio 43 6.2 OpenCV Andorid .44 CHƢƠNG 7: NỘI DUNG THỰC HIỆN 46 7.1 Khảo sát nghiên cứu liên quan đến nâng cao chất lƣợng hình ảnh trí tuệ nhân tạo 46 7.2 Mơ hình mạng học sâu 47 7.2.1 Kiến trúc CycleGAN 47 7.2.2 Mạng tích chập U-net .49 7.2.3 Loss-function 51 7.3 Dữ liệu .54 7.3.1 Dữ liệu “source domain” 54 7.3.2 Dữ liệu “Target Domain” 56 7.3.3 Dữ liệu đánh giá .58 7.4 Phát triển ứng dụng Android Studio 59 CHƢƠNG 8: KẾT QUẢ THỰC HIỆN 61 8.1 Kết phát triển mơ hình 61 8.2 Kết phát triển ứng dụng .67 8.2.1 Một số kết thực ứng dụng VOS 77 8.3 Kết luận 80 8.4 Hƣớng phát triển .81 TÀI LIỆU THAM KHẢO 84 Để thực kiểm tra hoạt động mơ hình, luận văn thực thử nghiệm mẫu gồm có 500 hình ảnh đƣợc lấy ngẫu nhiên từ liệu MIT, ảnh không nằm liệu huấn luyện đánh giá Sử dụng số PSNR để so sánh ảnh đƣợc tạo sinh với ảnh đƣợc dán nhãn C liệu MIT, ta có kết thống kê nhƣ sau: Số ảnh E[MIT-C] (dB) E[Flickr](dB) 500 17.75033473 13.55394766 Bảng 8.1: Chỉ số PSNR trung bình thử nghiệm 500 ảnh Trong đó: 10 kết tốt với mơ hình MIT-C là: Ảnh đầu vào PSNRMIT-C(dB) PSNRFlickr(dB) 4937 28.53799559 17.36135001 4536 27.15534322 19.95457954 4540 26.83533797 18.82134378 4850 26.36814995 18.03345416 4622 26.31426318 20.34540685 4704 25.56054703 15.49775204 4827 25.49503592 19.02513659 4504 25.36799046 17.29829068 4628 25.17223467 17.30484318 4766 25.1181114 15.80912684 Bảng 8.2: PSNR 10 ảnh có PSNR cao mơ hình MIT-C 70 10 kết tốt với mơ hình Flickr là: Ảnh đầu vào PSNRFlickr(dB) PSNRMIT-C(dB) 4901 23.47903409 22.33728001 4772 22.36555476 24.1954916 4894 21.99869931 21.34385062 4839 21.83378697 18.12599772 4796 21.63572072 23.17071312 4733 21.57897354 24.4439526 4587 21.33328417 21.05602469 4829 21.26921204 16.12291257 4630 4864 21.26273936 22.88713293 21.6878332 21.04481073 Bảng 8.3: PSNR 10 ảnh có PSNR cao mơ hình Flickr 10 kết xấu với mơ hình MIT-C Flickr là: Ảnh đầu vào PSNRMIT-C(dB) Ảnh đầu vào PSNRFlickr(dB) 4931 8.351822454 4534 7.144028861 4929 8.83396458 4655 7.558901532 4534 9.443984036 4552 7.813025295 4996 9.750066346 4568 7.979100925 4635 9.937220897 4990 8.084756867 4566 10.06775121 4929 8.194201895 4960 10.32932502 4635 8.364354219 4939 10.49912651 4740 8.510481893 4592 10.52303781 4626 8.522001665 4660 10.82354822 4960 8.675130301 Bảng 8.4: PSNR 10 ảnh có PSNR thấp mơ hình MIT-C Flickr 71 Hình 8.9: Ảnh 4937 từ trái sang phải gốc, MIT-C, nhãn Hình 8.10: Ảnh 4536 từ trái sang phải gốc, MIT-C, nhãn 72 Hình 8.11: Ảnh 4901 từ trái sang phải gốc, Flickr, nhãn Hình 8.12: Ảnh 4772 từ trái sang phải gốc, Flickr, nhãn 73 Bên cạnh đó, luận văn có sử dụng cơng cụ tính PSNR từ bên thứ để đảm bảo tính khách quan lúc đánh giá [10], dƣới số hình ảnh minh họa kết so sánh theo cơng cụ tính số PSNR-3rd: Hình 8.13: Ảnh(4937) gốc(trái), ảnh dán nhãn(phải), PSNR=13.11 Hình 8.14: Kết ảnh(4937) từ MIT-C(trái), Ảnh dán nhãn(phải), PSNR=32.59 74 Hình 8.15: Ảnh(4536) gốc(trái), ảnh dán nhãn(phải), PSNR=15.23 Hình 8.16: Kết ảnh (4536) từ MIT-C(trái), Ảnh dán nhãn(phải), PSNR=28.24 75 Qua số liệu thống kê trên, ta đƣa số nhận xét nhƣ sau: - Chỉ số PSNR trung bình tốt, đa số ảnh cho giá trị PSNR lớn 20dB, nhiều hình ảnh cho kết tốt lên đến gần 30dB/40dB Kết chứng tỏ mơ hình thiết kế học đƣợc việc ánh xạ liệu theo nguồn liệu đƣợc chọn - Nhìn chung, ảnh từ mơ hình MIT-C cho kết PSNR tốt Flickr Điều dễ hiểu mơ hình MIT-C học việc ánh xạ hình ảnh sang khơng gian chứa hình ảnh với nhãn C liệu MIT, Flickr học việc ánh xạ liệu sang không gian khác chứa đặc tính mà ngƣời dùng lựa chọn Điều chứng tỏ mơ hình hoạt động tốt - Mặt khác, số hình ảnh cho kết PSNR thấp, chủ yếu ảnh chụp vào lúc trời tối hay chất lƣợng ảnh xấu - Chỉ số PSNR phần thơng số để tham khảo, đánh giá đƣợc ảnh có nhãn Đặc biệt, liên quan đến việc nâng cao chất lƣợng hình ảnh cần có nhiều nhận xét từ chun gia biết đƣợc ảnh xử lý có kết nhƣ Do đó, suốt trình thực luận văn, việc đánh giá lựa chọn mơ hình tốt cịn dựa việc tham khảo ý kiến từ chuyên gia kết thực tối ƣu Dƣới số kết thực khác với ảnh đầu vào ảnh tham khảo từ Internet: 76 8.2.1 Một số kết thực ứng dụng VOS Lần lƣợt là: Ảnh gốc – MIT C – Flickr 77 78 79 8.3 Kết luận Qua kết thực đƣợc trình bày trên, luận văn phần hồn thành mục tiêu nhƣ sau: Tìm hiểu tổng hợp đƣợc số kiến thức liên quan đến ứng dụng trí tuệ nhân tạo cho nâng cao chất lƣợng hình ảnh Xây dựng đƣợc mơ hình học sâu có khả thực việc ánh xạ hai nguồn liệu hiệu Mơ hình có khả học đƣợc đặc tính theo nguồn liệu đƣợc thiết kế cho kết thực theo mơ hình ấn tƣợng, cụ thể bao gồm: Chuyển đổi phong cách Tăng cƣờng sáng Phát triển đƣợc ứng dụng nhằm tích hợp thành cơng framework: Tensorflow OpenCV lên ứng dụng smartphone cách hiệu quả, phù hợp với cấu hình hạn chế smartphone so với PC với kết thực tốt, khoảng giây/bức hình Qua đây, luận văn chứng minh đƣợc tính khả thi cho phƣơng án phát triển đề ra, cụ thể ứng dụng “AI-Camera” nâng cao chất lƣợng hình ảnh Đồng thời xây dựng đƣợc “framework” chuẩn cho việc tích hợp phát triển ứng dụng trí tuệ nhân tạo tảng smartphone cách hiệu 80 8.4 Hƣớng phát triển Bên cạnh kết đạt đƣợc, thời gian thực luận văn tƣơng đối ngắn, nên luận văn mặt hạn chế nhƣ sau: Do hạn chế mặt liệu, nên luận văn tập trung xây dựng huấn luyện hai mơ hình để chứng minh tính khả thi phƣơng án đề Trong đó, nguồn liệu tập trung vào ảnh phong cảnh thiên nhiên nên ứng dụng cho kết không đƣợc tốt ngƣời, động vật, đồ vật,… Một số kết thực không tốt nhƣ thừa sáng, độ tƣơng phản thấp hay số hình ảnh sau chỉnh sửa mang lại cảm giác “nhân tạo” Nguyên nhân liệu huấn luyện phần lớn ảnh thiếu sáng ảnh có chất lƣợng thấp ảnh có chất lƣợng tốt thƣờng bị thừa sáng với mơ hình MIT-C Ngồi ra, việc lựa chọn “target domain” quan trọng, định đặc tính ảnh Nhƣợc điểm lớn số ảnh chân dung, ảnh cận cảnh thƣờng bị mát thơng tin gây tƣợng “nhịe” Ngun nhân q trình xử lý cần phải thay đổi kích thƣớc ảnh hai lần trƣớc sau mơ hình dẫn đến việc mát thông tin tránh khỏi, làm cho hình ảnh sau xử lý với AI khơng giữ đƣợc tính tồn vẹn, tạo cảm giác bị “nhòe” 81 Một số kết thể hạn chế ứng dụng: Hình 8.17: Ảnh MIT-C có cảm giác bị thừa sáng Hình 8.18: Ảnh chân dung bị nhòe sau xử lý với AI 82 Từ kết đạt đƣợc hạn chế kể trên, luận văn đề xuất số hƣớng phát triển đề tài nhƣ sau: Nghiên cứu, cải thiện giải thuật mơ hình để giảm thời gian xử lý khung hình xuống cịn 10ms, để tích hợp vào Video Cải thiện liệu huấn luyện kết tốt với điều kiện môi trƣờng, đối tƣợng khác Nghiên cứu phƣơng pháp xử lý đầu vào có kích thƣớc linh hoạt cho mơ hình, thay cố định nhƣ Tìm hiểu, tích hợp thêm phƣơng pháp xử lý ảnh, để hạn chế đƣợc việc mát thơng tin hình ảnh Kết hợp ứng dụng với ứng dụng “AI-Camera” khác, nhƣ việc tự động phát khung cảnh hình, để đƣa phƣơng án chỉnh sửa phù hợp Hay tăng cƣờng khả tùy chỉnh ngƣời dùng, thông qua việc cho phép ngƣời dùng lựa chọn số mẫu hình ảnh ƣa thích, học trực tiếp đối tƣợng 83 TÀI LIỆU THAM KHẢO [1] Yu-Sheng Chen et al Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs, 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition , 11/2018 [2] Andrey Ignatov et al DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks, 2017 IEEE International Conference on Computer Vision (ICCV) , 11/2017 [3] Ian J Goodfellow et al Generative Adversarial Nets, NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems Volume 2, (8/2014) [4] Yifan Jiang et al EnlightenGAN: Deep Light Enhancement without Paired Supervision, Computer Vision and Pattern Recognition, 6/2019 [5] Jun-Yan Zhu et al Unpaired Image-to-Image Translation using CycleConsistent Adversarial Networks, 2017 IEEE International Conference on Computer Vision (ICCV), 11/2018 [6] Yusra A Y Al-Najjar and Dr Der Chen Soong Comparison of Image Quality Assessment: PSNR, HVS, SSIM, UIQI, International Journal of Scientific & Engineering Research, Volume 3, 8/2010 [7] Olaf Ronneberger et al U-Net: Convolutional Networks for Biomedical Image Segmentation , Medical Image Computing and Computer-Assisted Intervention – MICCAI , 5/2015 [8] Ishaan Gulrajani et al Improved Training of Wasserstein GANs, NIPS'17 Proceedings of the 31st International Conference on Neural Information Processing Systems, 12/2017 [9] Mario Lucic et al Are GANs Created Equal? A Large-Scale Study, 11/2017 [10]: Một số trang web ứng dụng khác: - https://data.csail.mit.edu/graphics/fivek/ - https://www.flickr.com - https://unsplash.com/ - Phần mềm: PSNR 1.2, Lis Lab: https://www.epfl.ch/labs/lis/ 84 ... TÊN ĐỀ TÀI: ỨNG DỤNG ? ?AI- CAMERA? ?? NÂNG CAO CHẤT LƢỢNG HÌNH ẢNH CHO SMARTPHONE- VSMART II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu phƣơng pháp tăng cƣờng chất lƣợng, chuyển đổi phong cách hình ảnh dựa phƣơng... sử dụng thƣ viện OpenCV Tensorflow để phát triển ứng dụng smartphone Cuối cùng, luận văn phát triển thành công ứng dụng ? ?AI- Camera? ?? nhằm nâng cao chất lƣợng hình ảnh chuyển đổi phong cách cho hình. .. học sâu liên quan đến nâng cao chất lƣợng hình ảnh Nghiên cứu giải pháp phát triển công nghệ lõi cho ứng dụng ? ?AI- Camera? ?? ban đầu phát triển chức nâng cao chất lƣợng hình ảnh chuyển đổi phong