Nghiên cứu xây dựng hệ thống nhận dạng cảm xúc gương mặt bằng phương pháp học sâu

Đ I H CăĐĨăN NG TR NGăĐ I H CăS ăPH M Đ ĐỊNHăCH NG NGHIểNăC UăXỂYăD NGăH ăTH NGă NH NăD NGăC MăXÚCăG NGăM Tă B NGăPH NGăPHỄPăH CăSỂU LU NăVĔNăTH CăSƾă H ăTH NGăTHỌNGăTIN ĐƠăN ngă- Nĕmă2020 Đ I H CăĐĨăN NG TR NGăĐ I H C S ăPH M Đ ĐỊNHăCH NG NGHIểNăC UăXỂYăD NGăH ăTH NGă NH NăD NGăC MăXÚCăG NGăM Tă B NGăPH NGăPHỄPăH CăSỂU ChuyênăngƠnh:ăH ăth ngăthôngătin Mƣăs :ă848.01.04 LU NăVĔNăTH CăSƾ Ng iăh ngăd năkhoaăh c: TS NGUY NăTH ăNG CăANH ĐƠăN ngă- Nĕm 2020 i L IăC Mă N L i xin gửi l i c m ơn chân thành đ n quý thầy cô giáo, Khoa tin học, Trư ng Đ i học Sư Ph m tận tình gi ng d y, truyền đ t ki n th c, kinh nghiệm quý báu suốt th i gian tơi theo học chương trình th c sĩ Các ki n th c, kinh nghiệm quý báu c a thầy cô giáo không giúp cá nhân tơi hồn thiện hệ thống ki n th c học tập mà cịn giúp tơi ng dụng ki n th c cơng việc t i Đặc biệt, xin g i l i c m ơn chân thành sâu sắc đ n cô giáo c a TS Nguy n Th Ng c Anh, ngư i tận tình hướng dẫn t o điều kiện tốt để tơi hồn thành luận văn Tôi xin bày tỏ tình c m với gia đình, đ ng nghiệp, b n bè t o điều kiện để tơi dành th i gian cho khóa học Xin chân thành c m ơn anh chị em lớp K34 ln hỗ trợ tơi q trình học tập để có k t qu ngày hơm nay, s nhớ lớp K34 thân thương Tuy có nhiều cố gắng, chắn luận văn khơng tránh khỏi thi u sót định Tơi mong nhận ý ki n đóng góp quý báu c a quý thầy cô giáo anh chị, b n để luận văn ngày hoàn thiện Trân trọng c m ơn! v M CL C L I C Mă N i L IăCAMăĐOAN ii TÓM T T iii M C L C v DANH M C CÁC KÝ HI U, CÁC CH VI T T T vii DANH M C CÁC B NG viii DANH M C CÁC HÌNH ix M Đ U 1 Lý chọn đề tài Mục đích nghiên c u Mục tiêu nghiên c u Đối tượng ph m vi nghiên c u Phương pháp nghiên c u Ý nghĩa khoa học thực tiễn c a luận văn Nội dung luận văn CH NGă1.ăGI I THI U T NG QUAN 1.1 Nhận d ng c m xúc khuôn mặt ng dụng 1.2 Phương pháp nhận d ng c m xúc khuôn mặt 1.2.1 Phương pháp nhận d ng thông thư ng 1.2.2 Phương pháp sử dụng Action Units 1.2.3 Phương pháp dựa đặc trưng c a nh 1.2.4 Phương pháp nhận d ng sử dụng kĩ thuật học sâu 1.3 Thách th c vấn đề nhận d ng c m xúc khuôn mặt CH NGă2.ăC ăS LÝ THUY T 10 2.1 Trích chọn đặc trưng 10 2.1.1 Ho t động c a nơ-ron sinh học 10 2.1.2 Logistic regression 11 2.1.3 Ki n trúc m ng Artificial Neural Network 11 2.1.4 M ng Nơ-ron Tích Chập (Convolutional Neural Network) 13 2.1.5 M ng AlexNet 16 2.1.6 Trích xuất đặc trưng hình nh với m ng Alexnet 21 2.2 Phân lớp với Support Vector Machines 22 2.2.1 Giới thiệu 22 2.2.2 Siêu phẳng tối ưu 22 vi 2.2.3 Phân lớp mềm 25 2.2.4 Trư ng hợp phân tách phi n 29 2.2.5 Một số hàm nhân (Kernel) thông dụng 30 2.3 K t chương 30 CH NGă3 XÂY D NG MƠ HÌNH ALEXNET K T H P SVM ÁP D NG CHO BÀI TOÁN NH N D NG C M XÚC 31 3.1 Mơ t tốn nhận d ng c m xúc gương mặt 31 3.2 Đề xuất mơ hình 31 3.3 Thực nghiệm đánh giá 33 3.3.1 Môi trư ng thực nghiệm 33 3.3.2 Giới thiệu s liệu thực nghiệm 34 3.3.3 K t qu thực nghiệm đánh giá 40 CH NGă4.ăK T LU NăVĨăH NG PHÁT TRI N 52 4.1 K t Luận 52 4.2 Định hướng phát triển 53 TÀI LI U THAM KH O QUY TăĐ NHăGIAOăĐ TÀI LU NăVĔNă(B n sao) vii DANHăM CăCỄCăKụăHI U,ăCỄCăCH ăVI TăT T Ký hi u Thu t ng CNN Convoluton Neural Network (mạng nơ-ron tích chập) CNTT Cơng nghệ thơng tin CPU Central Processing Unit CSDL Cở sở liệu CUDA Compute Unified Device Architecture ( Là kiến trúc tính tốn song song NVIDIA phát triển ) KKT Karush-Kuhn-Tucker KNN K-nearest neighbors (K láng giềng gần nhất) NB Naïve Bayes SVM Support Vector Machines (Máy vector hỗ trợ) AU Ation Units viii DANHăM CăCỄCăB NG S ăhi uă b ng Tênăb ng Trang 1.1 Một số AU 1.2 C m xúc đơn vị chuyển động 2.1 Một số hàm truyền thơng dụng 13 2.1 Hình dung đặc trưng c a mơ hình AlexNet train trước 22 3.1 Thi t bị thực nghiệm 34 3.2 B ng c m xúc kí hiệu 38 3.3 B ng c m xúc số lượng nh tương ng 39 3.4 B ng phân chia liệu 40 3.5 Ma trận kiểm tra k t qu dự đoán với tập liệu test Đánh giá theo số mẫu 41 3.6 Ma trận kiểm tra k t qu dự đoán với tập liệu test Đánh giá theo phần trăm 42 3.7 Ma trận kiểm tra k t qu dự đoán theo phần trăm 44 3.8 Ki n trúc m ng AlexNet Matlab 45 3.9 Ma trận k t qu dự đoán theo mẫu test 47 3.10 C m xúc giận nhận d ng nhầm sang ghê t m 47 3.11 Ma trận k t qu dự đốn tính theo phần trăm 48 3.12 Ma trận k t qu dự đốn tính theo phần trăm 48 3.13 C m xúc trung tính nhầm lẫn với c m xúc giận 49 3.14 C m xúc trung tính nhầm lẫn với c m xúc bu n 49 3.15 Ma trận k t qu dự đốn tính theo phần trăm 50 3.16 So sánh k t qu thực nghiệm 51 52 CH K T LU NăVĨăH NGă4 NG PHÁT TRI N 4.1 K t Lu n Dựa vào nghiên c u vấn đề toán nhận d ng sử dụng kỹ thuật xử lý nh, trí tuệ nhân t o đặc biệt m ng tích chập sâu CNN Luận văn trình bày gi i pháp nhận d ng c m xúc: Sử dụng m ng CNN, học chuyển giao từ mơ hình AlexNet, Trích xuất đặc trưng từ mơ hình AlexNet huấn luyện trước k t hợp với SVM để phân lo i c m xúc Sau thực nghiệm với phương pháp chúng tơi nhận thấy phương pháp trích xuất đặc trưng từ mơ hình huấn luyện trước (AlexNet) k t hợp với học máy truyền thống SVM phân lo i c m xúc tối ưu trư ng họp CSDL nhỏ gần giống với CSDL c a mơ hình AlexNet Phương pháp phù hợp với máy tính cấu hình thấp Tốc độ xử lý nhanh Độ xác tương đối n từ 80 đ n 87 phần trăm Qua trình thực nghiệm thay đ i nhiều tham số b n thân rút nhiều kinh nghiệm vấn đề mơ hình m ng học sâu:  Việc chọn lọc tiền xử lý liệu đầu vào quan trọng N u nh bị m , thi u contras, thi u sáng, nh bị nhiễu ph i xử lý trước cho qua mơ hình đ t k t qu cao  Việc chia liệu train test theo tỷ lệ 75% - 25% cho k t qu tốt  Trong mô hình AlexNet có lớp FC kích ho t để lấy đặc trưng, nhiên lớp FC6 phù hợp nhất, cho k t qu cao lớp  Đối với CSDL nhỏ tương tự CSDL gốc Vì CSDL nhỏ, việc ti p tục train model dễ dẫn đ n tượng overfitting Cũng hai CSDL tương tự nhau, ta dự đoán high-level features tương tự Vậy nên ta không cần train l i model mà cần train classifer dựa feature vectors đầu layer gần cuối  Đối với CSDL lớn tương tự CSDL gốc Vì CSDL lớn, overfitting có kh x y hơn, ta train mơ hình thêm chút (toàn vài layers cuối)  Đối với CSDL nhỏ khác với CSDL gốc Vì CSDL nhỏ, tốt h t dùng classifier đơn gi n (các linear classifiers) để tránh overfitting) N u muốn train thêm, ta nên train layer cuối Hoặc có kỹ thuật khác coi đầu c a layer xa layer cuối làm feature vectors 53  Đối với CSDL lớn khác CSDL gốc Trong trư ng hợp này, ta sử dụng mơ hình train điểm kh i t o cho mơ hình mới, khơng nên train l i từ đầu  Còn điểm đáng ý ti p tục train mơ hình này, ta nên chọn learning rate nhỏ để weights không xa so với weights trained mơ hình trước Theo 0.0001 tốt 4.2 Đ nh h ng phát tri n Để c i thiện độ xác c a mơ hình chúng tơi ti p tục thu thập thêm liệu c a nhiều lo i nh c m xúc c a nhiều ngư i khác th giới, m rộng đầu vào liệu video xử lý theo th i gian thực Ngoài c m xúc c b n giới h n c a luận văn cịn nhiều c m xúc khác C m xúc c a ngư i phong phú, có c m xúc gi t o TĨIăLI UăTHAMăKH O Ti ng Vi t [1] Hồng Văn Dũng (2018), Giáo trình Nhận dạng Xử lý ảnh, Nhà xuất b n Khoa học kỹ thuật [2] Đỗ Năng Toàn (2013), Bài giảng môn học Xử lý ảnh Ti ng Anh [3] Ahonen T., Hadid A., and Pietikainen M (2006), “Face description with local binary patterns: Application to face recognition,” IEEE Trans Pattern Anal Mach Intell., vol 28, no 12, pp 2037–2041 [4] Calder M J A., Rhodes G and Haxby J (2011), Oxford Handbook of Face Perception, Oxford, UK: Oxford Univ Press [5] Chu W., F D la Torre, and Cohn J F (2013), “Selective transfer machine for personalized facial action unit detection,” in CVPR IEEE, 2013, pp.3515–3522 [6] Daniel McDuff, Deepak Vasisht, and Ashish Kapoor Yale Song (2015), Exploiting Sparsity and Co-occurrence Structure for Action Unit Recognition [7] Fasel B (2002), “Head-pose invariant facial expression recognition using convolutional neural networks,” in ICMI IEEE Computer Society, 2002, pp 529–534 [8] Goodenough D.J et al (1974), “Radiographic applications of receiver operating characteristics ROC curve”, Radiology, vol 110, pp 89-96 [9] Hsu C.-W And Lin C.-J (2002), “A comparison of methods for multi-class support vector machines”, IEEE Transactions on Neural Networks, 13, pp 415425 [10] Huang K.-C., Huang S.-Y., and Kuo Y.-H (2010), “Emotion recognition based on a novel triangular facial feature extraction method”, in IJCNN IEEE, pp 1–6 [11] Lecun Y and Bengio Y (1995), Convolutional Networks for Images, Speech and Time Series The MIT Press, 1995, pp 255–258 [12] Lawrence S.; Giles C.L.; Ah Chung Tsoi; Back A.D (1997), IEEE, Date of Publication: Jan 1997, Volume: , Issue: , Jan 1997 [13] Mahoor M H., Zhou M., Veon K L., Mavadati S M., and Cohn J F (2011), “Facial action unit recognition with sparse representation,” in FG IEEE, pp 336–342 [14] Michael E Mavroforakis and Sergios Theodoridis, A Geometric Approach to Support Vector Machine.: IEEE [15] Ming Yang, Marc‟Aurelio Ranzato Yaniv Taigman (2014), Closing the Gap to Human-Level Performance in Face Verification [16] Sutskever I., and Hinton G., Krizhevsky A (2012), ImageNet classiﬁcation with deep convolutional neural networks [17] Tom Le Paine, Thomas S Huang Pooya Khorrami, Do Deep Neural Networks Learn Facial Action Units [18] Zhang Y., Ding X., Liu Y., and Griffin P.J (1996), An artificial neural network approach to transformer fault diagnosis.: IEEE Transactions on Power Delivery, Volume: 11 , Issue: , Oct 1996 [19] Zhang, Shuya (2017), Research on the Old People’s Fall Detection System Based on SVM-KNN Optimized by Grid Search Method Hubei, China Trang web [20] http://lienhiephoi.soctrang.gov.vn/index.php/khoa-h-c-va-cong-ngh/tin-khoa-h-cva-cong-ngh/765-cong-ngh-phan-tich-c-m-xuc-ng-d-ng-ti-m-nang [21] http://tiasang.com.vn/-doi-moi-sang-tao/cuoc-dua-do-luong-cam-xuc-8985 [22] https://www.microsoft.com/en-us/ai/seeing-ai [23] http://www.kasrl.org/jaffe.html [24] https://www.researchgate.net/publication/224165246_The_Extended_CohnKanade_Dataset_CK_A_complete_dataset_for_action_unit_and_emotionspecified_expression [25] https://doi.org/10.1016/j.imavis.2011.11.008 [26] https://machinelearningcoban.com/2017/06/15/pca/ [27] https://en.wikipedia.org/wiki/Eigenface [28] http://sputnikedu.com/mot-chut-lich-su-ve-mang-than-kinh-nhan-tao/ [29] http://image-net.org/challenges/LSVRC/2012/ [30] https://machinelearningcoban.com/2017/04/09/smv/ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NHẬN XÉT LUẬN VĂN THẠC SĨ (Dùng cho người phản biện) Họ tên người nhận xét Học hàm Chuyên ngành Cơ quan công tác : Nguyễn Trần Quốc Vinh :Học vị : Tiến sĩ : Công nghệ thông tin : Khoa Tin học, Trường Đại học Sư phạm, Đại học Đà Nẵng Họ tên học viên cao học : Đỗ Đình Chương Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng cảm xúc gương mặt phương pháp học sâu Ý KIẾN NHẬN XÉT 1) Về lý chọn đề tài: Nhận dạng thái độ cảm xúc người cách sử dụng thị giác máy tính ngày coi trọng Nó giúp giải nhiều vấn đề khác sống Đây lĩnh vực nhiều nhà khoa học giới đầu tư nghiên cứu nhiều năm đạt nhiều thành tựu, nhiên, chưa hoàn toàn đáp ứng mong đợi ứng dụng Độ xác nhận dạng ngày cao nhu cầu cấp thiết Học sâu nhóm kỹ thuật tăng cường sử dụng gần thể tiềm toán nhận dạng Nghiên cứu xây dựng hệ thống nhận dạng cảm xúc gương mặt phương pháp học sâu cấp thiết; đề tài phù hợp với ngành hệ thống thông tin bậc thạc sĩ 2) Về chất lượng đề tài: Báo cáo luận văn bao gồm chương chính, mở đầu kết luận; bao gồm 50 trang Nhìn chung, đề tài đạt mục tiêu đề ra, đáp ứng yêu cầu luận văn thạc sĩ Tuy nhiên, tồn số hạn chế cần điều chỉnh Về hình thức:  Nhiều lỗi định dạng  Nhiều lỗi tả (thừa/thiếu dấu cách, lỗi quy tắc viết hoa…)  Cần thống định dạng biến, công thức… Về nội dung:  Chưa tuân thuẩn quy tắc viết tắt  Chưa có kết chương  Cấu trúc báo cáo cân đối, chương có trang  Nhìn chung, kết ghi nhận tốt Tuy nhiên, có số cơng trình sử dụng kết hợp AlexNet SVM; báo cáo chưa rõ đóng góp riêng tác giả 3) Về kết đạt được: Tác giả tìm hiểu học sâu, từ đề xuất giải pháp kết hợp AlexNet để đưa đặc trưng làm đầu vào cho phân lớp SVM để dự đốn cảm xúc dựa hình ảnh khng mặt người 4) Về ý nghĩa khoa học, ứng dụng thực tiễn hướng mở rộng đề tài: Có thể sử dụng để tham khảo Ý KIẾN ĐỀ NGHỊ - Đề nghị tác giả thực điều chỉnh báo cáo luận văn theo ý kiến trình phản biện xét duyệt - Các kết đạt đảm bảo yêu cầu luận văn thạc sĩ kỹ thuật, đề nghị cho học viên bảo vệ trước hội đồng chấm luận văn Đà Nẵng, ngày tháng năm 2020 Người nhận xét TS Nguyễn Trần Quốc Vinh ... tài ? ?Nghiên cứu xây dựng hệ thống nhận d ng c m xúc gương mặt phương pháp học sâu? ?? làm ch đề nghiên c u luận văn M căđích? ?nghiên c u Nghiên c u m ng Nơ_ron nhân t o (Neural Network), kỹ thuật học. .. QUAN 1.1 Nhận d ng c m xúc khuôn mặt ng dụng 1.2 Phương pháp nhận d ng c m xúc khuôn mặt 1.2.1 Phương pháp nhận d ng thông thư ng 1.2.2 Phương pháp sử dụng Action... trung tính Ph ng? ?pháp? ?nghiên? ?c u 5.1 Phương pháp lý thuyết - Thu thập nghiên c u tài liệu có liên quan - Nghiên c u kỹ thuật học máy, học sâu - Nghiên c u lý thuy t c m xúc gương mặt - Biểu đ t

Định dạng
Số trang	78
Dung lượng	2,62 MB