1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Thạc sĩ: Phát hiện tiếng ngáy dựa trên học sâu

21 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 470,46 KB

Nội dung

Mục đích nghiên cứu của Luận văn này nhằm góp phần đánh giá một số như việc xử lý, lưu trữ âm thanh được thực hiện qua việc xử lý ảnh phổ, kết hợp được việc so sánh, đánh giá các kiến trúc học sâu trong việc phát hiện tiếng ngáy. Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - BÙI THÁI DUY BÙI THÁI DUY PHÁT HIỆN TIẾNG NGÁY DỰA TRÊN HỌC SÂU SÂU PHÁT HIỆN TIẾNG NGÁY DỰA TRÊN HỌC CHUYÊN NGÀNH Chuyên ngành MÃ SỐ Mã số HỆ THỐNG : THÔNG TIN : HỆ THỐNG THÔNG TIN 8.48.01.04 : : 60.48.01.04 TẮT LUẬN VĂN THẠC SĨ THUẬT ĐỀTÓM CƯƠNG LUẬN VĂN THẠC SĨ KỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS PHẠM VĂN CƯỜNG HÀ NỘI NỘI 2020 HÀ 2020 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS PHẠM VĂN CƯỜNG Phản biện 1: ………………………………………………………………………… Phản biện 2: ……………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm 2020 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Sự tiến công nghệ thúc đẩy cộng đồng nghiên cứu chuyển từ truyền, thu nhận xử lý liệu mức thấp sang nghiên cứu tích hợp thơng tin mức cao, xử lý ngữ cảnh, nhận dạng suy diễn hoạt động Bên cạnh tác động tới chất lượng giấc ngủ người ngáy có dấu hiệu chứng ngưng thở (OSA) sau ngủ, tỷ lệ mắc bệnh rối loạn giấc ngủ cao nhất, ảnh hưởng đến khoảng - 7% đàn ông trung niên 2-5% phụ nữ trung niên dân số nói chung OSA đặc trưng đợt lặp lặp lại khó khăn phần hồn tồn đường hơ hấp ngủ, gây trao đổi khí bị suy yếu rối loạn giấc ngủ Tổng quan vấn đề nghiên cứu Những nghiên cứu học sâu từ trước tới sử dụng để giái nhiều toán nhận dạng, phát đặc biệt lĩnh vực thị giác máy tính Vì địi hỏi cần lượng liệu, thời gian, sức mạnh tính tốn đáng kể, nỗ lực nghiên nghiên cứu cách để tận dụng mạng CNN đào tạo trước cho nhiệm vụ khác mạng CNN sử dụng hệ thống nhận dạng Cho đến nay, nghiên cứu thực để khám phá biểu diễn đặc trưng âm với mạng CNN Mục đích, đối tượng, phạm vi phương pháp nghiên cứu Đề tài “Phát tiếng ngáy dựa học sâu” thực khuôn khổ luận văn thạc sĩ chun ngành hệ thống thơng tin nhằm góp phần đánh giá số việc xử lý, lưu trữ âm thực qua việc xử lý ảnh phổ, kết hợp việc so sánh, đánh giá kiến trúc học sâu việc phát tiếng ngáy Nghiên cứu kỹ thuật học sâu phù hợp cho toán Phát tiếng ngáy dựa học sâu Nghiên cứu phương pháp phân lớp tiếng ngáy dựa phân lớp ảnh dựa mạng neural tích chập (CNN) mơ hình hồi quy RNN quang phổ âm Để phân lớp ảnh sử dụng làm vector đặc trưng Nghiên cứu phương pháp phân lớp phù hợp cho toán Phát tiếng ngáy dựa học sâu Cấu trúc luận văn Ngoài phần mở đầu kết luận, luận văn chia thành ba chương: Chương 1: Tổng quan phát tiếng ngáy Nội dung chương bao gồm giới thiệu chung toán phát tiếng ngáy, khó khăn ý nghĩa tốn Chương trình bày nghiên cứu liên quan với vấn đề phát âm thanh, nghiên cứu học máy học sâu Từ sở nghiên cứu xác định rõ hướng nghiên cứu luận văn Chương 2: Phương pháp phát theo dõi tiếng ngáy Trình bày số phương pháp học sâu có có tốc độ tính tốn nhanh phù hợp với toán phát theo dõi tiếng ngáy Các âm trích rút đặc trưng qua mơ hình học sâu CNN mơ hình hồi quy RNN Chương 3: Thử nghiệm đánh giá Trong chương trình bày vấn đề: thu thập liệu tiếng ngày; thử nghiệm mơ hình CNN mơ hình hồi quy RNN phân tích âm qua đánh giá kiến trúc học sâu việc phát tiếng ngáy 3 CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TIẾNG NGÁY Bài toán phát tiếng ngáy 1.1.1 Tầm quan trọng tiếng ngáy Ngáy ngày công nhận mối quan tâm sức khỏe cộng đồng Đây vấn đề phổ biến người lớn dấu hiệu hội chứng ngưng thở ngủ tắc nghẽn (OSA) Một số nghiên cứu y tế yếu tố liên quan đến ngáy dựa nghiên cứu lão hóa, giới tính nam, tăng huyết áp, buồn ngủ ban ngày, hút thuốc huyết thống Bên cạnh tác động tới chất lượng giấc ngủ người ngáy có dấu hiệu chứng ngưng thở (OSA) sau ngủ, tỷ lệ mắc bệnh rối loạn giấc ngủ cao nhất, ảnh hưởng đến khoảng - 7% đàn ông trung niên 2-5% phụ nữ trung niên dân số nói chung OSA đặc trưng đợt lặp lặp lại khó khăn phần hồn tồn đường hơ hấp ngủ, gây trao đổi khí bị suy yếu rối loạn giấc ngủ 1.1.2 Phát biểu toán Đầu vào: Một chuỗi âm Đầu ra: Phát âm tiếng ngáy hay không Với đầu vào “chuỗi âm thanh” hệ thống đưa chuỗi âm có tiếng ngáy hay khơng khơng phải tiếng ngáy, hay nhóm âm vào hệ thống phát có âm tiếng ngáy 4 1.1.3 Ý nghĩa toán Các nghiên cứu liên quan 1.2.1 Thiết bị phát tiếng ngáy 1.2.2 Mơ hình học máy cổ điển phát tiếng ngáy 1.2.3 Mơ hình học sâu phát tiếng ngáy 1.2.4 Đánh giá nghiên cứu Các nghiên cứu gần học máy hay học sâu trở thành xu nghiên cứu nhà khoa học giới nước Cùng với xu việc phát triển ứng dụng khác mà có hỗ trợ học máy/học sâu để giải toán mà trước vơ phức tạp nhiều chi phí Từ ngày đầu, ứng dụng trí tuệ nhân tạo giải vấn đề đơn nhất, đến tận ngày ứng dụng phát triển cách vượt trội qua ứng dụng phức tạp địi hỏi việc xử lý thơng minh Kết luận chương Chương giới thiệu tổng quan tốn phát tiếng ngáy Tìm hiểu tốn phát phân loại âm giới thiệu toán phát tiếng ngáy, kèm theo nghiên cứu liên quan từ ứng dụng, giải pháp mà thực từ tồn, mơ hình giải toán, đánh giá nghiên cứu qua đưa vấn đề cần làm rõ giải luận văn Trong chương 2, luận văn trình bày hướng giải cho toán phát tiếng ngáy, bước tiến hành giải toán nhận dạng, phát tiếng ngáy, đặc trưng âm thanh, thành phần xử lý âm sâu trình bày phương pháp áp dụng để giải toán Đây tảng cho phương hướng việc thực nghiệm giải toán đề 5 CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO DÕI TIẾNG NGÁY Phương pháp giải toán Để giải toán phát theo dõi tiếng ngáy từ “âm ngáy” đầu vào, mục tiêu cần phải phân lớp đưa âm lớp “Âm ngáy” âm cịn khơng phải âm ngáy đưa lớp “Khơng phải âm ngáy” Luận văn tham khảo tìm hiểu bước thực để xây dựng phương pháp phát theo dõi tiếng ngáy chia làm giai đoạn: huấn luyện kiểm thử Hai giai đoạn huấn luyện kiểm thử phát tiếng ngáy mơ tả hình phía Các bước thực luận văn gồm bước từ trái sang phải sau: Chia liệu thành phần: liệu huấn luyện liệu kiểm thử Tiền xử lý liệu huấn luyện kiểm thử trước lựa chọn vector đặc trưng, điều loại bỏ thông tin có giá trị thấp Vectơ đặc trưng trích đặc trưng cho tập liệu qua tiền xử lý, có đặc trưng riêng toán thể Áp dụng mơ hình học sâu (mơ hình CNN, mơ hình LSTM, mơ hình CNNLSTM) để giải tốn so sánh với mơ hình học nơng Đưa mơ hình sau huấn luyện kết sau kiểm thử qua mơ hình, từ đưa kết đánh giá toán Tại bước 1, luận văn áp dụng phương pháp cross validation chia liệu thành phần gồm phần liệu huấn luyện 90%, phần liệu kiểm thử 10% Cụ thể phương pháp cross validation luận văn trình bày mục 3.1 thu thập liệu Trong bước 2, tiền xử lý, liệu đầu vào âm cần phải loại bỏ yếu tố dư thừa liệu đoạn thu nhận âm Các phần chương trình bày chi tiết phương pháp, mơ hình đề xuất lựa chọn áp dụng vào việc phát tiếng ngáy hệ thống phát hiện, theo dõi tiếng ngáy Xử lý âm 2.2.1 Biến đổi Fourier (FT) Âm chuỗi tín hiệu dài biến thiên theo thời gian, hàm lượng thơng tin khơng nhiều Kết nhận cách biểu diễn giàu thông tin so với cách biểu diễn thông thường Công thức biến đổi Fourier cho hàm f(x) liên tục công thức (2.1) : ∞ 𝑓(𝑥) = ∫ 𝐹(𝑘)𝑒2𝜋𝑖𝑘𝑥 𝑑𝑘 (2.1) −∞ ∞ 𝐹(𝑘) = ∫ 𝑓(𝑥)𝑒−2𝜋𝑖𝑘𝑥 𝑑𝑥 (2.2) −∞ Trong đó, F(k) cơng thức biến đổi fourier ngược công thức 2.2 Công thức biến đổi Fourier rời rạc (DFT) công thức 2.3 ∞ 𝑋(𝑘) = ∑ 𝑥[𝑛]𝑒 −𝑗𝑘𝑛 (2.3) 𝑛=−∞ Biến đổi Fourier phép biến đổi đối xứng, tức thông tin biến đổi Fourier từ miền thời gian sang miền tần số, biến đổi Fourier ngược để khôi phục thông tin từ miền tần số lại miền thời gian Dưới minh hoạ cho sóng vng phân giải thành sóng Sin Có thể thấy với giá trị n cao, độ xác lớn Phép biến đổi Fourier thường dùng cho phân tích tín hiệu audio Tuy nhiên, có hạn chế ta khơng thể biết thời điểm xuất thành phần tần số Để khắc phục nhược điểm này, nhà khoa học sử dụng biến đổi Fourier thời gian ngắn STFT (Short time Fourier transform) Theo đó, tín hiệu chia thành khoảng nhỏ biến đổi Fourier khoảng 2.2.2 Biến đổi Fourier thời gian ngắn (STFT) Nguyên tắc phương pháp phân chia tín hiệu thành đoạn đủ nhỏ cho xem tín hiệu đoạn tín hiệu ổn định, sau đó, thực biến đổi Fourier đoạn tín hiệu 7 2.2.3 Phương pháp hệ số biểu diễn phổ phổ (MFCC) MFCC (Mel Frequency Cepstral Coefficients) hệ số biểu diễn phổ phổ (spectrum-of-a-spectrum) đoạn âm Kỹ thuật dựa việc thực biến đổi để chuyển liệu âm đầu vào (đã biến đổi Fourier cho phổ) thang đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm Mạch tăng cường Do âm tần số thấp có mức lượng cao, âm tần số cao lại có mức lượng thấp Trong đó, tần số cao chứa nhiều thơng tin âm vị Do đó, nhấn mạnh trước sử dụng để tăng lượng từ thấp đến cao, thể công thức 2.4 𝑥̃(𝑛) = 𝑥(𝑛) − 𝛼𝑥(𝑛 − 1) (2.4) Trong x(n) tín hiệu và, n số lượng mẫu lấy, α giá trị khoảng từ 0.9 tới 1.0 Khung Khung sử dụng để chia 𝑥̃(𝑛) thành N thời gian khung với khung liền kề phân tách dịch chuyển khung P Giả định tồn thuộc tính tín hiệu khơng đổi khung, nhiên, việc phân chia tín hiệu đột ngột (ở hai đầu) cách tạo khung dẫn đến thông tin đặc trưng Dựa thời gian đo N, phạm vi từ 10 đến 30ms thời gian trùng khớp < 0,5 Mỗi khung ước lượng giá trị sau: Cơng thức (2.5) tính số lượng khung tín hiệu cơng thức (2.6) thể giá trị ước lượng khung f 𝜂= 𝑝 + [𝜏 − 𝑁] 𝑝 𝑓̃𝑗 (𝑛) = 𝑥̃(𝑝𝑗 + 𝑛) (2.5) (2.6) Trong có ≤ 𝑛 ≤ 𝑁 − 1, ≤ 𝑗 ≤ 𝜂 𝜂 số lượng khung tín hiệu, 𝜏 tổng số mẫu tín hiệu Cửa sổ Hamming Cửa sổ Hamming sử dụng để tránh trình thơng tin xảy q trình đóng khung Hơn nữa, sử dụng để ngăn chặn cắt giảm liên tục khung hình hai đầu tín hiệu (âm ngáy) Để thực cửa sổ tín hiệu, khung thực cửa sổ hamming theo công thức (2.7) sau 𝑓𝑗 = 𝜔(𝑛) × 𝑓𝑗 (𝑛), ≤ 𝑛 ≤ 𝑁 − (2.7) 2𝜋𝑛 ) − (𝛽 − 1] 𝑁−1 (2.8) 𝜔(𝑛) = [−𝛽cos ( 0≤𝑛 ≤𝑁−1 Giá trị 𝛽 đặt 0.46 Biến đổi Fourier nhanh Biến đổi Fourier nhanh sử dụng tín hiệu liên tục định kỳ khung chuyển đổi tín hiệu miền thời gian sang miền tần số Biến đổi Fourier nhanh (FFT) thực để chuyển đổi khung với N mẫu từ miền thời gian sang miền tần số Tín hiệu gốc cần thực biến đổi Fourier qua lọc thông dải để xử lý độ lệch tần số Mel Biến đổi Fourier chuẩn khơng sử dụng tín hiệu âm khơng xác định tồn miền thời gian Thơng thường hay sử dụng biến đổi DFT Mel filter DCT Thang tần số Mel định nghĩa sau với giá trị f lấy từ công thức (2.7) ta giá trị tần số Mel công thức (2.9) 𝑓 𝑀𝑒𝑙(𝑓) = 2595 log10 ( + 1) 700 (2.9) Sau tín hiệu âm biểu diễn phổ phổ phổ âm thông qua MFCC biểu diễn hình 2.6 Trên hình 2.6 thấy thời gian ngáy có đường thẳng kéo dài từ lên Mơ hình học nơng 2.3.1 Trích đặc trưng âm Trích chọn đặc trưng bao gồm hai phần: tách/trích xuất đặc trưng (feature extraction) lựa chọn đặc trưng (feature selection) Trích chọn đặc trưng nhằm rút gọn tín hiệu thành đặc trưng để phân biệt hoạt động có sau sử dụng làm liệu đầu vào cho bước phân lớp Tùy thuộc vào hệ thống cụ thể mà lựa chọn đặc trưng thực khơng Các đặc trưng trích xuất tự động dựa tri thức chuyên gia Tập đặc trưng có từ liệu gọi khơng gian đặc trưng Nói chung, hoạt động phân tách rõ ràng không gian đặc trưng hiệu suất nhận dạng hệ thống cao 2.3.2 Mơ hình học máy SVM Mơ hình học máy SVM mơ hình kinh điển tốn phân loại Tư tưởng SVM định nghĩa siêu mặt phẳng phân tách tập liệu cần phân loại cho khoảng cách (margin) từ siêu mặt phẳng đến tập cần phân loại tương đương lớn Trong không gian Euclid có cách tính khoảng cách từ điểm có tọa độ (𝑥0 , 𝑦0 ) tới đường thằng có phương trình 𝑤1 𝑥 + 𝑤2 𝑦 + 𝑏 = tính bằng: ℎ= |𝑤1 𝑥0 + 𝑤2 𝑦0 + 𝑏| √𝑤12 + 𝑤22 (2.10) Trong không gian ba chiều khoảng cách từ điểm có tọa độ (𝑥0 , 𝑦0 , 𝑧0 ) tới mặt phẳng có phương trình 𝑤1 𝑥 + 𝑤2 𝑦 + 𝑤3 𝑧 + 𝑏 = tính ℎ= |𝑤1 𝑥0 + 𝑤2 𝑦0 + 𝑤3 𝑧0 + 𝑏| √𝑤12 + 𝑤22 (2.11) + 𝑤3 Nhận thấy bỏ dấu giá trị tuyệt đối xác định điểm xét nằm phía đường thằng hay mặt phẳng Từ đó, tổng quát cho biểu thức bỏ dấu giá trị tuyệt đối điểm mang dấu với nằm phía với có cơng thức tính khoảng cách khơng gian có n số chiều mà có khoảng cách tính bằng: ℎ= |𝑤 𝑇 𝑥0 + 𝑏| (2.12) √∑𝑛𝑖=1 𝑤2𝑖 Giả sử với xét cặp liệu đào tạo (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ) (𝑥𝑛 , 𝑦𝑛 ) tượng trưng cho liệu đầu vào điểm liệu 10 Bài toán SVM trở thành tìm w b cho khoảng cách đạt giá trị lớn Đối với toán phân lớp mà có số lớp n > sử dụng cách chuyển toán phân lớp nhị phân lớp (n-1) lớp lại Tức phải thực n lần phân lớp lớp thứ i (n-i) lớp lại Khoảng cách từ chiều tới mặt 2.3.3 Đánh giá mơ hình học máy SVM Mơ hình CNN cho phát tiếng ngáy Mạng neural lấy cảm hứng từ cấu tạo não người, mà từ thông tin tiếp nhận xử lý qua neural đến cuối neural thơng tin xử lý xong hồn tồn Mơ hình mạng neural mơ tả thơng qua hình sau: Lớp lớp input, layer gọi lớp ẩn, lớp cuối lớp đầu Các hình trịn gọi node 2.4.1 Giới thiệu kiến trúc mạng CNN Mạng neural tích chập (CNN) mơ hình mạng neural Deep Learning tiên tiến giúp cho việc xây dựng hệ thống thơng minh với độ xác cao Thường sử dụng tín hiệu số (Signal Processing), phân lớp ảnh (Image Classification) 2.4.2 Tích chập mạng neural Tích chập sử dụng xử lý tín hiệu số (Signal processing) Nhờ vào nguyên lý biến đổi thông tin, nhà khoa học áp dụng kĩ thuật vào xử lý ảnh video số CNNs gồm vài layer convolution kết hợp với hàm kích hoạt phi tuyến (nonlinear activation function) ReLU hay để tạo thông tin trừu tượng (abstract/higher-level) cho layer Có ba tầng để xây dựng kiến trúc cho mạng nơron tích chập: Tầng tích chập Tầng gộp (pooling layer) Tầng kết nối đầy đủ (fully-connected) 11 Tầng kết nối đầy đủ giống mạng nơron thơng thường, tầng chập thực tích chập nhiều lần tầng trước Tầng gộp làm giảm kích thước mẫu khối 2x2 tầng trước Ở mạng nơron tích chập, kiến trúc mạng thường chồng ba tầng để xây dựng kiến trúc đầy đủ 2.4.3 Mơ hình mạng CNN phát tiếng ngáy CNNs có tính bất biến tính kết hợp cục (Location Invariance and Compositionality) Với đối tượng, đối tượng chiếu theo gốc độ khác (translation, rotation, scaling) độ xác thuật toán bị ảnh hưởng đáng kể Pooling layer biểu tính bất biến phép dịch chuyển (translation), phép quay (rotation) phép co giãn (scaling) Mơ hình LSTM cho phát tiếng ngáy Sau trình tìm hiểu tham khảo, với điều kiện thực nghiệm hạn chế với kiến trúc CNN, luận văn định áp dụng convolutional layer với thông số sau: Feature maps Patch size Pool size Conv layer 64 193x1 191x64 Conv layer 64 191x64 189x64 Conv layer 128 189x64 63x64 Conv layer 128 61x128 59x128 2.5.1 Giới thiệu mạng neural hồi quy 2.5.2 Hồi quy mạng neural mô hình LSTM 2.5.3 Mơ hình mạng LSTM phát tiếng ngáy Như giới thiệu phần mạng RNN, RNN xử lý thơng tin dạng chuỗi, dự đoán hành dộng chuỗi ảnh, hay số tăng giảm giá nhà từ liệu lịch sử RNN mang thông tin trạng thái trước tới trạng thái sau, trạng thái cuối kết hợp trạng thái diễn để dự đốn kết 12 Mơ hình CNN-LSTM cho phát tiếng ngáy Kiến trúc xác định hai mơ hình con: Mơ hình CNN để trích xuất đặc trưng Mơ hình LSTM để diễn giải tính theo bước thời gian Điều này, mang lại cho mơ hình tận dụng ưu điểm mơ hình con[22] kết sau học tập Sau trình tham khảo nghiên cứu luận văn nhận thấy kiến trúc phát tiếng ngáy sử dụng mơ hình học sâu CNN-LSTM mô tả sau: Input CNN Model LSTM Model Dense Output Hình 2.1 Kiến trúc mơ hình học sâu với CNN LSTM cho nhận dạng tiếng ngáy Trong mơ hình CNN-LSTM mà luận văn sử dụng có tham khảo từ mơ hình CNN LSTM mà luận văn lựa chọn hai phần trình bày Kết luận chương Trong chương trình bày trình tìm hiểu áp dụng mơ hình học nơng SVM mơ hình học sâu CNN, LSTM, CNN-LSTM Bênh cạnh chương trình bày giới thiệu thuật tốn SVM, mạng neural tích chập, mạng neural hồi quy mạng neural tích chập hồi quy đẻ phân lớp liệu Với kiến thức tìm hiểu trình bày chương, luận văn áp dụng kiến trúc mạng neural tích chập, kiến trúc mạng neural hồi quy – LSTM so sánh với SVM Chương tiến hành thực nghiệm liệu với phương pháp đề xuất dựa kịch khác nhau, sau đánh giá độ xác đưa đề xuất định hướng 13 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ Trong chương trình bày vấn đề: thu thập liệu tiếng ngày; thử nghiệm mơ hình CNN mơ hình hồi quy RNN phân tích âm qua đánh giá kiến trúc học sâu việc phát tiếng ngáy Thu thập liệu Sau thực gán nhãn, tập liệu lớp âm ngáy, không ngáy số lượng cụ thể thu sau trình gán nhãn âm ngáy mô tả bảng sau Bảng 3.1 Thống kê liệu thực nghiệm Dữ liệu âm ngáy Ngáy Ngáy Dữ liệu Kaggle Tổng cộng Thời gian ngáy 36 phút 25 phút phút 69 phút Tổng thời gian 40 phút 30 phút 16 phút 86 phút Tỉ lệ tiếng ngáy/ tổng thời gian 0.9 0.83 Với liệu thực nghiệm có đủ âm ngáy/ không ngáy từ người xuất tình trạng ngáy ngủ thêm vào có thêm liệu Kaggle lớp ngáy/ không ngáy thu thập trang mạng chia sẻ âm Kết thử nghiệm Môi trường thử nghiệm mơ hình học sâu tìm hiểu thơng qua Google Colab hay Colaboratory notebooks Google Colab cung cấp cho khả tính tốn mạnh với Tesla K80 GPU, thay phải code train model với máy tính, laptop cá nhân Google Colab hỗ trợ toàn diện thư viện python, phiên tensoflow, keras, PyTorch, Cv2 việc cài đặt mơ hình Để đánh giá mơ hình luận văn sử dụng độ đo Precision Reall đó: TP: số âm tiếng ngáy mà mơ hình đốn tiếng ngáy FP: số âm tiếng ngáy mà mơ hình đốn tiếng ngáy FN: số âm tiếng ngáy mà mơ hình dựa đốn tiếng ngáy 14 Precision định nghĩa tỉ lệ số điểm TP số điểm phân loại chủ động mơ hình (TP+FP) với cơng thức (3.1) tính sau: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 (3.1) Recall định nghĩa tỉ lệ số điểm TP số điểm thực mơ hình dự đốn (TP+FN) với cơng thức (3.2) tính sau: 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 (3.2) Ngồi ra, hai độ đo khơng phải lúc tăng giảm tương ứng với nhau, có trường hợp Recall cao Precision thấp ngược lại, đánh giá tổng quát Fmeasure trung bình điều hịa độ với hệ số 0.5 (tầm quan trọng hệ số ngang nhau) tính với cơng thức (3.3) sau: 𝐹1 = 1 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 =2 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 (3.3) 3.2.1 Kết học nông SVM Với mơ hình học nơng SVM với tham số xác định chạy thực nghiệm tham số C gamma hai tham số quan trọng việc huấn luyện SVM Kết thực nghiệm SVM thu được: Bảng 3.2 Kết phương pháp học nông SVM SVM Acc (%) Tiếng ngáy Không ngáy 0.724637681 Presion 0.71559633 0.734693878 Recall 0.75 0.699029126 F1 0.732394366 0.71641791 Dựa bảng kết qua mơ hình SVM ta nhận thấy SVM tỉ lệ phát tiếng ngáy/ không ngáy gần Tỉ lệ xác khoảng gần 0.72 15 3.2.2 Kết phương pháp CNN Mơ hình học sâu với mạng mơ hình CNN lựa chọn phần 2.4 mơ hình mạng CNN phát tiếng ngáy Kết thực nghiệm CNN thể sau Bảng 3.3 Kết mơ hình CNN CNN Acc Tiếng ngáy Không ngáy 0.768115942 Presion 0.689189189 0.966101695 Recall 0.980769231 0.80952381 F1 0.80952381 0.703703704 Mơ hình học CNN đánh giá mơ hình Hình 3.1 Thực nghiệm độ xác mơ hình CNN qua số lần epoch Thời gian mà mơ hình đào tạo hết tổng cộng 17 giây, kiểm tra độ xác đạt, 0.968 đạt điểm 0.12452 Dựa bảng kết qua mơ hình học sâu CNN, kết thực nghiệm, kết đo đánh giá mơ hình, kết huấn luyện mơ hình ta nhận thấy mơ hình mạng CNN có tỉ lệ xác vượt trội so với phương pháp học sâu với độ xác lên tới 0.76 Các độ đo độ xác phát âm ngáy 0.689 nhỏ nhiều so với việc phát âm khơng phải tiếng ngáy 0.9661 16 3.2.3 Kết phương pháp LSTM Mơ hình học sâu với mạng mơ hình LSTM lựa chọn phần 2.5 mơ hình mạng LSTM phát tiếng ngáy Kết thực nghiệm LSTM thể sau: Bảng 3.4 Kết mơ hình LSTM LSTM Acc (%) 0.753623188 Presion Recall F1 Tiếng ngáy 0.702290076 0.884615385 0.782978723 Không ngáy 0.842105263 0.621359223 0.715083799 Mơ hình học LSTM đánh giá mơ hình Hình 3.2 Thực nghiệm độ xác mơ hình LSTM qua số lần epoch Thời gian mà mơ hình đào tạo hết tổng cộng 205 giây, kiểm tra độ xác đạt, 0.7635 đạt điểm : 0.466 Dựa bảng kết mơ hình học sâu LSTM, kết thực nghiệm, kết đo đánh giá mơ hình, kết huấn luyện mơ hình ta nhận thấy mơ hình mạng LSTM có 17 tỉ lệ xác vượt trội so với phương pháp học sâu với độ xác lên tới 0.6328 Các độ đo độ xác phát âm ngáy 0.7022 nhỏ nhiều so với việc phát âm khơng phải tiếng ngáy 0.8421 3.2.4 Kết phương pháp CNN-LSTM Mơ hình học sâu với mạng mơ hình CNN-LSTM lựa chọn phần 2.6 mơ hình mạng CNN-LSTM phát tiếng ngáy Kết thực nghiệm CNN-LSTM thể sau: Bảng 3.5 Kết mơ hình CNN-LSTM CNN-LSTM Acc (%) Tiếng ngáy Không ngáy 0.917874396 Presion 0.871794872 0.977777778 Recall 0.980769231 0.854368932 F1 0.923076923 0.911917098 Mơ hình học CNN-LSTM đánh giá mơ hình Hình 3.3 Thực nghiệm độ xác mơ hình CNN-LSTM qua số lần epoch Dựa bảng kết mơ hình CNN-LSTM ta nhận thấy thời gian mà mơ hình đào tạo hết tổng cộng 52 giây, kiểm tra độ xác đạt, 0.9772 đạt điểm: 0.0489 18 Phân tích đánh giá Dựa vào kết đánh giá nhận thấy mạng học sâu cho kết phát âm ngáy tốt nhiều so với mạng học nông mà cụ thể SVM Độ xác, đánh giá qua độ đo nên phần kết thử nghiệm gồm Pression, Recall, F1-score thấy phương pháp có kết xếp từ thấp lên cao sau: Bảng 3.6 Độ xác mơ hình Mơ hình Mơ hình học nơng SVM Mơ hình mạng CNN Mơ hình mạng LSTM Mơ hình mạng CNN-LSTM Độ xác 0.724637681 0.768115942 0.753623188 0.917874396 Kết mơ hình thực nghiệm luận văn nhận thấy rằng, mơ hình mạng học sâu có kết tốt hẳn so với mơ hình mạng học nơng SVM, kết mơ hình mạng học sâu CNN-LSTM cho kết tốt nhất, nhờ có kết hợp ưu điểm mơ hình CNN LSTM điều có tương đồng với nghiên cứu phân lớp âm có liên quan Kết luận chương Trong chương trình bày vấn đề: thu thập liệu tiếng ngày; thử nghiệm mơ hình CNN mơ hình hồi quy RNN phân tích âm qua đánh giá kiến trúc học sâu việc phát tiếng ngáy Sau trình thử nghiệm với tập liệu cài đặt với mơ hình, phương pháp học máy khác thu kết tốt thuộc mơ hình mạng học sâu kết hợp CNN-LSTM với kết tốt nhiều so với phương pháp lại 19 KẾT LUẬN Nghiên cứu phát âm nói chung, toán phát tiếng ngáy dựa học sâu nói riêng với tơi cơng nghệ mới, thời gian nghiên cứu ngắn nên nhiều vấn đề chưa thực nắm bắt tốt Tuy nhiên, qua trình nghiên cứu, luận văn tìm hiểu sâu giai đoạn từ tiền xử lý liệu đến phướng pháp xử lý âm thanh, phương pháp học máy mà đặc biệt mơ hình học sâu với mạng neural, phương pháp học sâu để xây dựng mơ hình phân lớp liệu (mơ hình hình CNN, LSTM, CNN-LSTM) so sánh với mơ hình học nơng SVM Sử dụng mạng neural nói chung hay CNN, LSTM CNN-LSTM nói riêng học sâu hướng có kỹ thuật hiệu toán xử lý chuỗi trở thành xu nhà nghiên cứu Trong tương lai, luận văn phát triển nghiên cứu mơ hình khác, giải tốn khác theo dõi, nhân diện âm thanh, phát triển thành ứng dụng y tế mà hỗ trợ cho nhiều người cộng đồng ... giá kiến trúc học sâu việc phát tiếng ngáy Nghiên cứu kỹ thuật học sâu phù hợp cho toán Phát tiếng ngáy dựa học sâu Nghiên cứu phương pháp phân lớp tiếng ngáy dựa phân lớp ảnh dựa mạng neural... toán Phát tiếng ngáy dựa học sâu Cấu trúc luận văn Ngoài phần mở đầu kết luận, luận văn chia thành ba chương: Chương 1: Tổng quan phát tiếng ngáy Nội dung chương bao gồm giới thiệu chung toán phát. .. thống phát có âm tiếng ngáy 4 1.1.3 Ý nghĩa toán Các nghiên cứu liên quan 1.2.1 Thiết bị phát tiếng ngáy 1.2.2 Mơ hình học máy cổ điển phát tiếng ngáy 1.2.3 Mơ hình học sâu phát tiếng ngáy 1.2.4

Ngày đăng: 18/06/2021, 11:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w