Nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu khác nhau (sử dụng bộ dữ liệu vân tay và âm thanh)

68 26 0
Nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu khác nhau (sử dụng bộ dữ liệu vân tay và âm thanh)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN KHẮC PHƯƠNG TUẤN “Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh)” Chuyên ngành: Kỹ Thuật Điện Tử Mã số: 60520203 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, Tháng 01 Năm 2020 Cơng trình hồn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM Cán hướng dẫn khoa học 1: PGS.TS Hoàng Trang …chữ ký Cán hướng dẫn khoa học 2: TS Trần Hoàng Linh .chữ ký Cán chấm nhận xét : TS Nguyễn Minh Sơn chữ ký Cán chấm nhận xét : TS Bùi Trọng Tú chữ ký Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: PSG.TS Hà Hoàng Kha Thư ký: TS Nguyễn Lý Thiên Trường Phản biện 1: TS Nguyễn Minh Sơn Phản biện 2: TS Bùi Trọng Tú Ủy viên: TS Trương Quang Vinh Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG PGS.TS Hà Hoàng Kha TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc - ✩ - - ✩ - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Khắc Phương Tuấn MSHV: 1670363 Ngày, tháng, năm sinh: 22/12/1989 Nơi sinh: An Tiêm – Triệu Thành – Triệu Phong – Quảng Trị Chuyên ngành: Kỹ Thuật Điện Tử Mã số : 60520203 I TÊN ĐỀ TÀI: Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh) II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đặc trưng dấu vân tay Nghiên cứu đặc trưng ảnh âm (spectrogram) Tìm hiểu kiến trúc mạng nơ ron tích chập đa nhân tìm mơ hình mạng thích hợp ứng cho nhiều loại liệu khác Thử nghiệm đánh giá kết mơ hình mạng nơ ron tích chập đa nhân vừa tìm III NGÀY GIAO NHIỆM VỤ: 11/02/2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 08/12/2019 V CÁN BỘ HƯỚNG DẪN: PGS.TS Hoàng Trang, TS Trần Hoàng Linh CÁN BỘ HƯỚNG DẪN Tp.HCM, ngày… tháng… năm 2019 CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN LỜI CẢM ƠN Được phân công nhà trường, khoa Điện – Điện Tử đồng ý giáo viên hướng dẫn PGS.TS Hoàng Trang TS Trần Hoàng Linh, em thực luận văn thạc sĩ chuyên ngành kỹ thuật điện tử với đề tài “Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh)” Qua em xin gửi lời cảm ơn tới người giúp đỡ em thời gian học tập nghiên cứu thực luận văn Trước tiên, em xin gửi lời cảm ơn chân thành đến Thầy PGS.TS Hoàng Trang TS.Trần Hồng Linh, người ln giúp đỡ, tận tình dìu dắt em suốt khoảng thời gian làm luận văn Thầy không tiếc thời gian thảo luận với em ý tưởng đưa góp ý để luận văn ngày hoàn thiện Tiếp theo, em xin chân thành cảm ơn anh chị, gia đình đồng nghiệp ln động viên hỗ trợ em trình nghiên cứu thực luận văn Đặc biệt em xin cảm ơn anh Phạm Đăng Lâm đồng hành em việc thực hoàn thành luận văn TÁC GIẢ Nguyễn Khắc Phương Tuấn i LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN TÓM TẮT LUẬN VĂN Ngày nay, với phát triển vượt bậc khoa học kỹ thuật, vấn đề học máy ngày quan tâm trọng phát triển Nhiều thuật toán máy học nghiên cứu phát triển, mơ hình mạng Deep Neural, Convolutional Neural quan tâm phát triển mạnh mẽ Tuy nhiên, nghiên cứu hầu hết áp dụng mạng Deep Neural hay Convolutional Neural để giải toán cụ thể Đề tài nghiên cứu “Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh)” hy vọng tìm cấu hình mạng nơ ron tích chập đa nhân ứng dụng để giải nhiều toán khác Trong đề tài này, áp dụng mơ hình mạng tìm để áp dụng cho toán phân loại ngữ cảnh âm nhận dạng dấu vân tay ABSTRACTS To the present time, with the great development of science and technology, machine learning is increasingly concerned and developed Many new machine learning algorithms have been researched and developed, in which the Deep Neural Network and Convolutional Neural Network have been interested and developed However, most studies only apply Deep Neural or Convolutional Neural networks to solve specific problems Research topics “A multi-kenel Convolutional Neural Network architechture for multi-task classification (verify over fingerprint and sound scene datasets)” hope to find a configuration of Convolutional Neural Network that can be applied to solve many different problems In this project, the network model will be applied for problems of sound context classification and fingerprint recognition ii LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN LỜI CAM ĐOAN CỦA TÁC GIẢ LUẬN VĂN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết đề tài trung thực chưa công bố hình thức Tất tham khảo kế thừa cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc phép công bố TP.HCM, Ngày tháng năm Học viên thực Nguyễn Khắc Phương Tuấn iii LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN MỤC LỤC Chương 1: Tổng quan đề tài 1.1 Giới thiệu đề tài 1.2 Tình hình nghiên cứu nước 1.3 Mục tiêu nhiệm vụ đề tài 1.3.1 Mục tiêu đề tài 1.3.2 Nhiệm vụ đề tài 1.3.3 Tổ chức luận văn Chương 2: 2.1 Đặc trưng ảnh dấu vân tay ảnh âm (pectrogram) Đặc trưng ảnh vân tay 2.1.1 Đặc trưng cấp độ (global) .4 2.1.2 Đặc trưng cấp độ hai (local) 2.1.3 Đặc trưng cấp độ (Very-fine) 2.1.4 Tổng kết 2.2 Đặc trưng ảnh âm (spectrogram) 2.2.1 Thính giác người .7 2.2.2 Trích đặc trưng âm Log-Mel .8 2.2.3 Trích đặc trưng âm Gammatone 14 2.2.4 Trích đặc trưng âm constant Q transform 15 Chương 3: 3.1 Các kĩ thuật nhận dạng 19 Convolutional neural network 19 3.1.1 Convolutional Layer 19 3.1.2 Lớp kích hoạt phi tuyến (ReLU) 21 3.1.3 Pooling layer 21 iv LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN 3.1.4 Batchnorm layer 22 3.1.5 Dropout layer .23 3.2 Deep Neural Network 25 3.2.1 Feed forward 25 3.2.2 Backpropagation 26 3.2.3 Hàm kích hoạt 28 Chương 4: 4.1 Nghiên cứu thực nghiệm 32 Kiến trúc đề xuất cho phân loại ngữ cảnh âm 32 4.1.1 Trích đặc tính tín hiệu âm 33 4.1.2 Phân loại ngữ cảnh âm .34 4.1.3 Kết thực 37 4.2 Ứng dụng mơ hình mạng CDNN cho nhận dạng dấu vân tay 43 4.2.1 Mơ hình mạng CDNN 43 4.2.1 Kết thực 49 Chương 5: Kết luận hướng phát triển .51 5.1 Kết luận .51 5.1 Hướng phát triển 51 Chương 6: Tài liệu tham khảo .52 v LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN DANH SÁCH HÌNH MINH HỌA Hình 2.1 Các đường vân dấu vân tay Hình 2.2 Dấu vân tay hướng dấu vân tay Hình 2.3 Core delta dấu vân tay Hình 2.4 Các điểm đặc trưng dấu vân tay [10] .6 Hình 2.5 Các điểm đặc trưng đặc biệt cấp độ very-fine .7 Hình 2.6 Giải thuật trích đặc trưng Log-Mel Hình 2.7 Cường độ phổ cơng suất tín hiệu tiếng nói lấy mẫu 44100 Hz trước sau pre-emphasis [13] .9 Hình 2.8 Chia frame tín hiệu âm 10 Hình 2.9 Cửa sổ Hamming 160 điểm 11 Hình 2.10 Sơ đồ thực phép toán cho cửa sổ Hamming 11 Hình 2.11 Quá trình phân tích phổ tín hiệu .12 Hình 2.12 Bộ lọc Mel tam giác cho tín hiệu lấy mẫu 8kHz 13 Hình 2.13 Gammatone filter [14] 14 Hình 2.14 So sánh độ phân giải thời gian-tần số STFT CQT [19] 16 Hình 2.15 Spectrograms sử dụng STFT CQT [19] 18 Hình 3.1 Mạng CNN đơn giản cho nhận dạng 19 Hình 3.2 Hoạt động lớp tích chập .20 Hình 3.3 Phương pháp Max-pooling .21 Hình 3.4 (a) Mạng Neural với lớp ẩn (b) Mạng sau áp dụng Dropout [21] .24 Hình 3.5 So sánh trình hoạt động mạng thông thường mạng sử dụng Dropout [21] 24 Hình 3.6 Mạng Neural Deep Neural .25 Hình 3.7 Quá trình lan truyền thuận mạng Neural .26 Hình 3.8 Mơ cách tính backpropagation [22] 27 Hình 3.9 Hàm ReLU 29 Hình 3.10 Đồ thị hàm sigmoid 30 vi LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Hình 4.1 Kiến trúc cho hệ thống phân loại ngữ cảnh âm 33 Hình 4.2 Re-trained model 33 Hình 4.3 Mơ hình mạng CDNN cho giải thuật phân loại ngữ cảnh âm 36 Hình 4.4 Hiệu suất hệ thống với 15 class 38 Hình 4.5 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 200x200x24bit 44 Hình 4.6 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 153x185x8bit 46 Hình 4.7 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 152x200x8bit .47 Hình 4.8 Dữ liệu mẫu dấu vân tay 49 vii LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 11 Kết hiệu suất hệ thống sử dụng trích đặc trưng CQT sử dụng pos-trained 69.2 0.0 0.0 0.0 0.0 26.9 0.0 0.0 0.0 0.0 0.0 3.8 0.0 0.0 0.0 bus 0.0 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 cafe 0.0 0.0 73.1 0.0 0.0 0.0 11.5 15.4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 car 0.0 0.0 0.0 92.3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 7.7 c.center 0.0 0.0 0.0 0.0 88.5 0.0 0.0 0.0 0.0 0.0 0.0 7.7 3.8 0.0 0.0 f.path 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 g.store 0.0 0.0 0.0 0.0 0.0 3.8 84.6 0.0 0.0 11.5 0.0 0.0 0.0 0.0 0.0 home 0.0 0.0 0.0 0.0 0.0 11.5 0.0 65.4 11.5 0.0 11.5 0.0 0.0 0.0 0.0 library 0.0 23.1 19.2 0.0 0.0 30.8 0.0 0.0 26.9 0.0 0.0 0.0 0.0 0.0 0.0 m.station 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 office 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 park 0.0 0.0 7.7 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 53.8 30.8 7.7 0.0 r.area 19.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.8 76.9 0.0 0.0 train 0.0 0.0 11.5 0.0 0.0 0.0 7.7 0.0 0.0 3.8 0.0 0.0 0.0 50.0 26.9 tram 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 c.center f.path g.store home library m.station office park r.area train tram beach beach bus cafe car Bảng 12 Kết hiệu suất hệ thống Ensemble sử dụng pos-trained beach 84.6 0.0 bus 0.0 0.0 0.0 11.5 0.0 cafe 0.0 100.0 0.0 0.0 0.0 0.0 0.0 61.5 0.0 0.0 0.0 car 0.0 0.0 0.0 100.0 0.0 0.0 c.center 0.0 0.0 0.0 0.0 96.2 f.path 0.0 0.0 0.0 0.0 g.store 0.0 0.0 7.7 0.0 0.0 0.0 0.0 0.0 3.8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 23.1 15.4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.8 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 88.5 0.0 0.0 3.8 0.0 0.0 0.0 0.0 0.0 home 0.0 0.0 0.0 0.0 0.0 0.0 0.0 80.8 19.2 0.0 0.0 0.0 0.0 0.0 0.0 library 0.0 23.1 0.0 0.0 0.0 23.1 0.0 3.8 46.2 0.0 3.8 0.0 0.0 0.0 0.0 m.statio n 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 office 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 park 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 84.6 15.4 0.0 0.0 r.area 0.0 0.0 0.0 0.0 0.0 11.5 0.0 0.0 3.8 0.0 0.0 7.7 76.9 0.0 0.0 train 0.0 0.0 15.4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 57.7 26.9 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 beach bus cafe car c.center f.path g.store home library m.station office park r.area train tram tram Hình 4.4 thể kết mơ hình training sử dụng post-trained thơng qua loại đặc trưng spectrogram (ensemble) so sánh với DCASE 2016 baseline Nó cho thấy kết với giải pháp trích đặc trưng CQT spectrogram cho hiệu cao với số class định bus, cafe, forest-path, metro-station, office, tram hiệu suất so với class khác GAM log-Mel spectrogram thể kết 42 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN 15 class Nhưng ensemble cho kết vượt trội hẳn DCASE baseline phương pháp spectrogram khác Bảng 12 thể ma trận kết giải thuật tổng hợp phương pháp trích đặc trưng kết hợp với phương pháp post-trained tương ứng với 15 class Với, train tram, park residential-area, home library cặp ví dụ cho thấy có lẫn lội tính chất mơi trường cặp gần giống Một cặp khác cho độ xác khơng tốt cafe grocery-store chúng cho thấy tiếng ồn không tốt gần giống âm môi trường 4.2 Ứng dụng mơ hình mạng CDNN cho nhận dạng dấu vân tay 4.2.1 Mơ hình mạng CDNN Với toán phân loại ngữ cảnh, phải sử dụng phương pháp trích đặc trưng để chuyển tín hiệu dạng âm thành tín hiệu dạng ảnh spectrogram kích thước 128x128 sau cho vào mạng CDNN Nhưng với toán nhận dạng dấu vân tay, đầu vào mạng CDNN ảnh dấu vân tay với kích thước 200x200x24bit cho tập 1, 153x185x8bit cho tập 152x200x8bit cho tập Ở tiến hành đánh giá với tập mẫu liệu dấu vân tay khác nhau, có tập liệu ảnh dấu vân tay lấy từ tập liệu chuẩn matlab tập ảnh dấu vân tay tự thu thập từ cảm biến vân tay Cấu hình mạng CDNN sử dụng cho nhận dạng dấu vân tay thể Hình 4.5 cho tập liệu 1, Hình 4.6 cho tập liệu Hình 4.7 cho tập liệu Ở sử dụng cấu hình đa nhân cho khối CNN cấu trúc khối CNN-01, CNN-02, CNN-03 CNN-04 thể Bảng 13, Bảng 14, Bảng 15 Bảng 16 cho tập mẫu số 1; Bảng 17, Bảng 18, Bảng 19 Bảng 20 cho tập mẫu số 2; Bảng 21, Bảng 22, Bảng 23 Bảng 24 cho tập mẫu số Ở kích thước đầu vào ảnh thay đổi nên kích thước ma trận kết đầu khối CNN khác so với mô hình phân loại ngữ cảnh Chỉ đến đầu vào mạng DNN kích thước giống với mơ hình mạng phân loại ngữ cảnh âm 43 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Vì số lượng class đầu toán khác nên số node lớp đầu mơ hình khác Như cấu hình mạng CDNN giải thuật nhận dạng dấu vân tay gần giống với cấu hình mạng CDNN giải thuật phân loại ngữ cảnh âm Q trình huấn luyện mơ hình CDNN cho nhận dạng dấu vân tay diễn trình pre-trained: trình pre-trained với cấu hình mạng DNN tương đối đơn giản bao gồm layer: layer input với 1024 node; layer ẩn với số node 2048 node/layer 4096 node/layer cho tập mẫu số (2048 node/layer 1024 node/layer cho tập mẫu 3); layer output với 50 node với tập mẫu số (51 node với tập mẫu số 3) Hình 4.5 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 200x200x24bit Bảng 13 Cấu trúc khối CNN-01 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 200x200x24bit Layer Output Input layer (image patch) Bn - Cv (9×9×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (7×7×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (5×5×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (3×3×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Output layer (tensor) 200×200×3 50×50×3×8 50×50×3×8 50×50×3×8 50×50×3×8 50×50×3×32 44 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 14 Cấu trúc khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 200x200x24bit Layer Output Input layer (image patch) Bn - Cv (9×9×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (7×7×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (5×5×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (3×3×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Output layer (tensor) 50×50×3×32 25×25×3×16 25×25×3×16 25×25×3×16 25×25×3×16 25×25×3×64 Bảng 15 Cấu trúc khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 200x200x24bit Layer Output Input layer (image patch) 25×25×3×64 Bn - Cv (5×5×3) - Relu - Bn - Ap (2×2) - Dr (0.2) 12×12×3×32 Bn - Cv (4×4×3) - Relu - Bn - Ap (2×2) - Dr (0.2) 12×12×3×32 Bn - Cv (3×3×3) - Relu - Bn - Ap (2×2) - Dr (0.2) 12×12×3×32 Bn - Cv (2×2×3) - Relu - Bn - Ap (2×2) - Dr (0.2) 12×12×3×32 Output layer (tensor) 12×12×3×128 Bảng 16 Cấu trúc khối CNN-04 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 200x200x24bit Layer Output Input layer (image patch) Bn - Cv (5×5×3) - Relu - Bn - Ap (12×12×3) - Dr (0.25) Bn - Cv (4×4×3) - Relu - Bn - Ap (12×12×3) - Dr (0.25) Bn - Cv (3×3×3) - Relu - Bn - Ap (12×12×3) - Dr (0.25) Bn - Cv (2×2×3) - Relu - Bn - Ap (12×12×3) - Dr (0.25) Output layer (tensor) 45 12×12×3×128 256 256 256 256 1024 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Hình 4.6 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 153x185x8bit Bảng 17 Cấu trúc khối CNN-01 cho mô hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 153x185x8bit Layer Output Input layer (image patch) Bn - Cv (9×9) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (7×7) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (5×5) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (3×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Output layer (tensor) 153×185 46×38×8 46×38×8 46×38×8 46×38×8 46×38×32 Bảng 18 Cấu trúc khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 153x185x8bit Layer Output Input layer (image patch) Bn - Cv (9×9) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (7×7) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (5×5) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (3×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Output layer (tensor) 46×38×32 23×19×16 23×19×16 23×19×16 23×19×16 23×19×64 46 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 19 Cấu trúc khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 153x185x8bit Layer Output Input layer (image patch) Bn - Cv (5×5) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (4×4) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (3×3) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (2×2) - Relu - Bn - Ap (2×2) - Dr (0.2) Output layer (tensor) 23×19×64 11×9×32 11×9×32 11×9×32 11×9×32 11×9×128 Bảng 20 Cấu trúc khối CNN-04 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 153x185x8bit Layer Output Input layer (image patch) Bn - Cv (5×5) - Relu - Bn - Ap (11×9) - Dr (0.25) Bn - Cv (4×4) - Relu - Bn - Ap (11×9) - Dr (0.25) Bn - Cv (3×3) - Relu - Bn - Ap (11×9) - Dr (0.25) Bn - Cv (2×2) - Relu - Bn - Ap (11×9) - Dr (0.25) Output layer (tensor) 11×9×128 256 256 256 256 1024 Hình 4.7 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu kích thước 152x200x8bit 47 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 21 Cấu trúc khối CNN-01 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 152x200x8bit Layer Output Input layer (image patch) Bn - Cv (9×9) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (7×7) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (5×5) - Relu - Bn - Ap (4×4) - Dr (0.1) Bn - Cv (3×3) - Relu - Bn - Ap (4×4) - Dr (0.1) Output layer (tensor) 152×200 38×50×8 38×50×8 38×50×8 38×50×8 38×50×32 Bảng 22 Cấu trúc khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 152x200x8bit Layer Output Input layer (image patch) Bn - Cv (9×9) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (7×7) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (5×5) - Relu - Bn - Ap (2×2) - Dr (0.15) Bn - Cv (3×3) - Relu - Bn - Ap (2×2) - Dr (0.15) Output layer (tensor) 38×50×32 19×25×16 19×25×16 19×25×16 19×25×16 19×25×64 Bảng 23 Cấu trúc khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 152x200x8bit Layer Output Input layer (image patch) Bn - Cv (5×5) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (4×4) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (3×3) - Relu - Bn - Ap (2×2) - Dr (0.2) Bn - Cv (2×2) - Relu - Bn - Ap (2×2) - Dr (0.2) Output layer (tensor) 19×25×64 9×12×32 9×12×32 9×12×32 9×12×32 9×12×128 48 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 24 Cấu trúc khối CNN-04 cho mơ hình nhận dạng dấu vân tay với ảnh đầu vào có kích thước 152x200x8bit Layer Output Input layer (image patch) Bn - Cv (5×5) - Relu - Bn - Ap (19×25) - Dr (0.25) Bn - Cv (4×4) - Relu - Bn - Ap (19×25) - Dr (0.25) Bn - Cv (3×3) - Relu - Bn - Ap (19×25) - Dr (0.25) Bn - Cv (2×2) - Relu - Bn - Ap (19×25) - Dr (0.25) Output layer (tensor) 9×12×128 256 256 256 256 1024 4.2.1 Kết thực Trong Bảng 25 thể kết nhận dạng hệ thống với tập mẫu liệu dấu vân tay khác Trong đó, mẫu liệu với kích thước ảnh khác Nhưng tập mẫu lấy mẫu với mẫu cho loại dấu vân tay, mẫu lựa chọn ngẫu nhiên để đưa huấn luyện mẫu sử dụng để làm trình test hệ thống Tuy với số lượng mẫu huấn luyện kết hệ thống cho độ xác cao Hình 4.8 cho thể chất lượng ảnh loại tập liệu sử dụng, tập liệu vân tay ảnh có chất lượng 24bit/pixels nên cho độ xác tương đối cao Tập liệu vân tay tập liệu vân tay 8bit/pixels nhiên tập liệu vân tay chất lượng ảnh không tốt bị nhiễu, đường vân phân biệt không rõ ràng nên kết nhận dạng khơng cao Hình 4.8 Dữ liệu mẫu dấu vân tay 49 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Bảng 25 Kết nhận dạng hệ thống với tập mẫu liệu dấu vân tay Độ xác Tập liệu Tập liệu vân tay (Matlab) kích thước 200x200x24bit 88% Tập liệu vân tay (Matlab) kích thước 153x185x8nit 84% Tập liệu vân tay (Thu thập) kích thước 152x200x8bit 76.47% 50 LUẬN VĂN THẠC SĨ Chương 5: HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Kết luận hướng phát triển 5.1 Kết luận Qua phần trình bày trên, kết đạt đề tài cho thấy mạng CDNN với cấu hình đa nhân đem lại hệ thống với độ tin cậy cao Nó áp dụng cho nhiều ứng dụng khác Với đặc điểm cấu hình đa nhân lớp Convolutional với kích thước khác giúp cho việc trích đặc trưng hệ thống tốt từ đặc trưng cục đến đặc trưng mang tính tồn cục Trong hệ thống phân loại ngữ cảnh âm với hệ thống sử dụng tổng hợp loại trích đặc trưng âm MFCC, Log-mel Gammatone cho độ xác cao áp dụng với đặc trưng riêng lẻ Và với việc áp dụng phương pháp post-trained sau trình pre-trained làm tăng độ xác mạng, lẻ trình post-trained cố gắng để đẩy mạnh mơ hình mạng DNN mơ hình mạng CDNN ngun thơng số mơ hình mạng CNN Với phương pháp làm cho kết luận DNN sau q trình post-trained cho độ xác cao DNN trình pre-trained đồng thời làm cho trình huấn luyện pre-trained diễn nhanh 5.1 Hướng phát triển Trong đề tài chưa thực trình post-trained cho toán nhận dạng dấu vân tay, để nâng cao hiệu suất hệ thống nhận dạng dấu vân tay áp dụng thêm q trình post-trained cho hệ thống Để nâng cao hiệu suất cho hệ thống phân loại ngữ cảnh âm cần nghiên cứu thêm phương pháp trích đặc trưng khác bag-of-features, kết hợp mơ hình mạng khác CDNN với CRNN Cũng tăng số lớp mạng CNN lên để tăng độ phức tạp mạng 51 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN Chương 6: [1] Tài liệu tham khảo Kuang Liu ; Mingmin Zhang ; Zhigeng Pan, "Facial Expression Recognition with CNN Ensemble," in 2016 International Conference on Cyberworlds (CW), 2016 [2] Minchul Shin ; Munsang Kim ; Dong-Soo Kwon, "Baseline CNN structure analysis for facial expression recognition," in 2016 25th IEEE International Symposium on Robot and Human Interactive Communication , RO-MAN, 2016 [3] Jun-Cheng Chen ; Vishal M Patel ; Rama Chellappa, "Unconstrained face verification using deep CNN features," in 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), 2016 [4] Wael AbdAlmageeda,Yue Wua,Stephen Rawlsa, Shai Harelc Tal Hassnera, Iacopo Masib, Jongmoo Choi, Jatuporn Lekust, Jungyeon Kim, Prem Natarajan, Ram Nevatia, Gerard Medioni, "Face Recognition Using Deep Multi-Pose Representations," in 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), 2016 [5] H Eghbal-Zadeh, B Lehner, M Dorfer, and G Widmer, "CP-JKU sub-missions for DCASE-2016: a hybrid approach using binaural ivectors and deep convolutional neural networks," in DCASE2016 Challenge, Tech., September 2016 [6] J Li, W Dai, F Metze, S Qu, and S Das, "A comparison of deep learning methods for environmental sound detection," in ICASSP IEEE, 2017 52 LUẬN VĂN THẠC SĨ [7] HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN H Phan, L Hertel, M Maass, P Koch, R Mazur, and A Mertins, "Improved audio scene classification based on label-tree embeddings and convolutional neural networks," vol 25, no 6, p 1278–1290, 2017 [8] Y Han and K Lee, "Convolutional neural network with multiplewidth frequency-delta data augmentation for acoustic scene classification," in Detection and Classification of Acoustic Scenes and Events, 2016 [9] Maltoni, D., Maio, D., Jain, A.K., Prabhakar, S., Handbook of Fingerprint Recognition, London: Springer-Verlag, 2009, p 494 [10] Chang, David H., "Fingerprint Recognition Through Circular Sampling," Center for Imaging Science, 1999 [Online] Available: https://www.cis.rit.edu/research/thesis/bs/1999/chang/thesis.html [11] K Karu, A K Jain, "FINGERPRINT CLASSIFICATION," in Pattern Recognition, 1996 [12] D B Fry, The Physics of Speech, Cambridge University Press, 1979 [13] Beigi, Homayoon, Fundamentals of Speaker Recognition, Springer, 2011 [14] A Lin, S Berber, and W Abdulla, "An investigation of non-uniform bandwidths," in Proceedings of the 11th Australian International Conference on Speech Science & Technology, 2006 [15] D P W Ellis, "Gammatone-like spectrogram," 2009 [Online] Available: https://www.ee.columbia.edu/~dpwe/resources/matlab/gammatonegram/ 53 LUẬN VĂN THẠC SĨ [16] HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN H Phan, S Member, L Hertel, M Maass, S Member, P Koch, R Mazur, "Improved audio scene classification based on labeltree embeddings and convolutional neural networks," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol 25, no 6, p 1278–1290, 2017 [17] I McLoughlin, H Zhang, Z Xie, Y Song, W Xiao, and H Phan, "Continuous robust sound event classification using time-frequency features and deep learning," PLOS ONE, vol 12, pp 1-19, 09 2017 [18] I McLoughlin, Z Zhang, Z Xie, Y Song, and W Xiao, "Robust sound event classification using deep neural networks," IEEE/ACM Transactions On Audio, Speech And Language Processing, vol 23, no 3, p 540–552, 2015 [19] ISO/IEC, "Information technology – Generic coding of moving pictures and associated audio information-Part 7: Advanced audio coding (AAC)," Tech Rep 13818-7:2006, ISO/IEC, 2006 [20] Szegedy, S Ioffe and C., "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift," arXiv preprint arXiv:1502.03167, 2015 [21] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, vol 15, p 1929−1958, 2014 [22] "Bài 14: Multi-layer Perceptron Backpropagation," 24 Feb 2017 [Online] Available: https://machinelearningcoban.com/2017/02/24/mlp/ [23] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," 54 LUẬN VĂN THẠC SĨ HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN COMMUNICATIONS OF THE ACM, vol 60, no 6, pp 84-90, JUNE 2017 [24] T Lidy and A Schindler, "Cqt-based convolutional neural networks for," in DCASE2016, 2016 [25] G Mafra, N Duong, A Ozerov, and P P´erez, "Acoustic scene classifi-cation: An evaluation of an extremely compact feature representation," in DCASE2016, 2016 [26] Y Xu, Q Huang, W Wang, and M D Plumbley, "Hierarchical learning for dnn-based acoustic scene classification," in DCASE2016, 2016 [27] M Zăohrer and F Pernkopf, "Gated recurrent networks applied to acoustic scene classification and acoustic event detection," in DCASE2016, 2016 [28] McFee, Brian, R Colin, L Dawen, D PW.Ellis, M Matt, B Eric,, "librosa: Audio and music signal analysis in python," in Proceedings of The 14th Python in Science Conference, 2015 [29] A Mesaros, T Heittola, and T Virtanen, "Tut database for acoustic scene classification and sound event detection," in European European Signal Processing Conference, EUSIPCO, 2016 55 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Khắc Phương Tuấn Ngày, tháng, năm sinh: 22/12/1989 Nơi sinh: Quảng Trị Địa liên lạc: An Tiêm – Triệu Thành – Triệu Phong – Quảng Trị QUÁ TRÌNH ĐÀO TẠO - Từ 09/2008 đến 11/2015: Sinh viên trường Đại Học Bách Khoa – ĐHQG TP.Hồ Chí Minh - Từ 09/2016 đến nay: Học viên cao học trường Đại Học Bách Khoa – ĐHQG TP.Hồ Chí Minh Q TRÌNH CƠNG TÁC - Từ 04/2016 đến 05/2019: Nghiên cứu viên khoa Điện – Điện Tử, trường Đại Học Bách Khoa – ĐHQG TP.Hồ Chí Minh Từ 06/2019 đến nay: Kỹ sư thiết kế phần cứng công ty Ampere Computing Việt Nam ... Convolutional Neural để giải toán cụ thể Đề tài nghiên cứu ? ?Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh)? ?? hy vọng... kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh)? ?? Qua em xin gửi lời cảm ơn tới người giúp đỡ em thời gian học tập nghiên cứu. .. phân loại với nhiều loại liệu khác (sử dụng liệu vân tay âm thanh) II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đặc trưng dấu vân tay Nghiên cứu đặc trưng ảnh âm (spectrogram) Tìm hiểu kiến

Ngày đăng: 03/03/2021, 19:56

Tài liệu cùng người dùng

Tài liệu liên quan