1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Tóm tắt đề án) phát hiện âm thanh ho bằng học sâu ít mẫu

16 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Dương Văn Hiếu PHÂN LOẠI ÂM THANH HO BẰNG HỌC SÂU ÍT MẪU Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HÀ NỘI - NĂM 2023 Đề án tốt nghiệp hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ Phạm Văn Cường Phản biện 1: Tiến sĩ Vũ Văn Thoả Phản biện 2: Phó Giáo sư, Tiến sĩ Đỗ Trung Tuấn Đề án tốt nghiệp bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm TÓM TẮT ĐỀ ÁN Hệ hơ hấp người đóng vai trị quan trọng việc cung cấp oxy cho thể loại bỏ khí thải Có nhiều bệnh vấn đề liên quan đến hệ thống hô hấp, từ bệnh phổ biến hàng ngày đến bệnh lý nghiêm trọng Việc gia tăng nhiễm mơi trường, biến đổi khí hậu, môi trường thay đổi thất thường tạo điều kiện cho phát triển bệnh liên quan đến hô hấp ngày tăng cao Phân loại tự động tiếng ho nhiệm vụ quan trọng giúp đẩy nhanh q trình chẩn đốn điều trị bệnh đường hô hấp Tuy nhiên, việc thu thập lượng lớn liệu ho dán nhãn thử thách lớn liệu khan hiếm, tốn nhiều chi phí cơng sức lo ngại quyền riêng tư cá nhân Trong đề án này, tác giả mong muốn phát triển khn khổ thực phân loại ho hiệu tình liệu ít, khơng có sẵn Cụ thể, đề án đề xuất mơ hình phân loại tiếng ho phương pháp học sâu mẫu Mơ hình sử dụng phương pháp học sâu mẫu (few-shot learning) kết hợp với mạng nguyên mẫu (Prototypical network) để phân loại liệu Học mẫu cho phép đào tạo mơ hình từ tập liệu lớn có sẵn, gọi tập sở Sau đó, mơ hình sử dụng để phân loại lớp truy vấn chưa nhìn thấy đào tạo yêu cầu vài mẫu lớp Đề án sử dụng liệu COVID-19 Thermal Face & Cough Dataset [19], bao gồm liệu nhiệt mặt hộ liệu ho, tác giả sử dụng liệu ho cho thử nghiệm Các tệp liệu kéo dài giây, lấy mẫu tốc độ 44.100 Hz phân loại thành thư mục đặt tên gắn nhãn cụ thể Kết thu phương pháp với điểm F1-Score trung bình 86% Cho thấy tính khả thi mơ hình phân loại âm ho cách kết hợp học mẫu mạng nguyên mẫu Đây khuôn khổ để xây dựng phát triển ứng dụng chẩn đoán hỗ trợ khám bệnh y tế Nội dung đề án chưa thành chương, cụ thể sau: Chương 1: Tổng quan toán phân loại ho Chương tổng quan bệnh lý ho, khái niệm phân biệt âm bệnh ho ướt, ho khan, Covid-19 …trong phần tác giả giới thiệu ứng dụng học sâu để phân loại âm hô hấp chẩn đốn bệnh Covid-19 nhà khoa học, điển nghiên cứu Kranthi Kumar Lella Alphonse Pja[12] triển khai mạng thần kinh tích chập sâu (DCNN) đa kênh để chẩn đoán tự động bệnh Covid-19 từ âm hô hấp người Hay Lam Pham cộng [17] đề xuất khung dựa CNN-Moe để phân loại dị thường đường hô hấp Tiếp theo, đề án tổng quát nghiên cứu kết đạt cơng trình nghiên cứu trước lĩnh vực như: Các nghiên cứu toán phát phân loại tiếng ho, nghiên cứu phân loại âm ho Covid-19, nghiên cứu học sâu mẫu cho phân loại âm Qua nghiên cứu đó, qua có nhìn khái qt vấn đề, cần nghiên cứu xử lý đề án, định hướng phát triển cho phần Sau khảo sát phương pháp học sâu mẫu, cách thức giải toán phương pháp, ưu điểm nhược điểm từ đề xuất quy trình đào tạo cho mơ hình đề án Chương tóm tắt giới thiệu khái quát bệnh lý ho vấn đề liên quan đến phân loại tiếng ho Bên cạnh đó, chương trình bày tổng quan nghiên cứu có liên quan đến xử lý phân loại âm thanh, mơ hình xử lý kết đạt từ tác giả toàn cầu Chương điểm mạnh hạn chế phương pháp có đưa ý tưởng cho đề án nghiên cứu dựa ưu điểm cải tiến đề xuất từ nghiên cứu trước Trong chương 2, đề án tiếp tục sâu vào phân tích trình bày chi tiết việc áp dụng học sâu mẫu vào phân loại tiếng ho, cách xử lý tệp liệu audio sang dạng quang phổ trích chọn đặc trưng Cuối huấn luyện mơ hình Chương 2: Ứng dụng học sâu mẫu cho phân loại tiếng ho Ở chương 2, tác giả sâu vào giới thiệu phương pháp xử lý liệu âm thanh, trích trọn đặc trưng tiếng ho cách sử dụng hệ số cepstral tần số Mel (MFCCs), mạng ngun mẫu, mơ hình học sâu mẫu cho phân loại tiếng ho Phần xử lý liệu âm tác giả sâu vào phổ Spectrogram, phổ Mel phép biển đổi xử lý âm thanh, sau giới thiệu mơ hình xử lý âm cho học sâu Đối với phần trích trọn đặc trưng tiếng ho cách sử dụng MFCCs Đầu tiên, đề án giới thiệu nguyên lý hoạt động trích xuất thành phần tín hiệu âm tốt cho việc xác định âm ứng dụng học sâu, sau giới thiệu phương pháp tiền xử lý tín hiệu âm phổ biến giới thiệu Davis Mermelstein vào năm 1980, phương pháp chuyển đổi tín hiệu âm thành từ miền thời gian sang miền tần số, sau sử dụng lọc Mel để tính tốn hệ số Cepstral chuyển đổi hệ số sang khơng gian Mel Frequency Q trình chuyển đổi từ miền thời gian sang miền thần số thực cách sử dụng phép biến đổi Fourier rời rạc (DFT) Fast Fourier Transform (FTT) Sau chuyển đổi từ miền thời gian sang miền tần số, tín hiệu âm chia thành khung có đồi dài cố định áp dụng lọc Mel để tạo liệu tần số có độ dài cố định Tiếp theo, hệ số Cepstral tính tốn từ liệu tần số cách sử dụng phép biến đổi Cepstral Các hệ số Cepstral thường cắt bớt để giảm kích thước liệu loại bỏ thông tin không cần thiết Cuối cùng, hệ số Cepstral chuyển đổi sang không gian Mel Frequency cách sử dụng lọc Mel Inverse để tạo hệ số MFCC cuối Trong mơ hình phân loại đề án, mạng nguyên mẫu tác giả lựa chọn để làm không gian nhúng Bước liệu sau trích xuất đặc trưng MFCCs phân loại nhãn truy vấn, MFCCđược chuyển tiếp đến mạng nhúng để ánh xạ liệu vào không gian nhúng Giai đoạn xây dựng mơ hình mạng ngun mẫu để tạo khơng gian nhúng cho ghi âm Ngoài ra, phần náy giới thiệu chi tiết mơ hình mạng ngun mẫu, cơng thức tính ngun mẫu, cách tính hàm softmax từ khoảng cách đến nguyên mẫu không gian nhúng Sau có khái niệm phương pháp cụ thể phục vụ cho việc trích xuất, phân loại gán nhãn, đề án giới thiệu mô hình học sâu mẫu cho phân loại tiếng ho mà tác giả lựa chọn Mơ hình bao gồm bước: tiền xử lý liệu, huấn luyện mạng nguyên mẫu, dự đốn từ khố 7 Ngồi chương giới thiệu hàm liên quan đến mơ hình xử lý hàm kích hoạt softmax, hàm mát Negative log-likelihood huấn luyện mơ hình Chương đưa kiến trúc tổng quan phương pháp phân loại tiếng ho sử dụng học sâu mẫu ứng dụng Đầu tiên, lựa chọn đặc trưng MFCCs cho liệu tiếng ho sau lấy hệ số mà thơng tin liệu thể tốt Trong ứng dụng nhận dạng hình ảnh âm thanh, việc sử dụng mạng học sâu tích chập giải pháp tốt Nhưng đề án sử dụng đầu vào MFCCs có kích thước nhỏ (với kích thước liệu 40 x 51) Nên cần đến giải pháp khác áp dụng cho liệu đầu vào nhỏ MFCCs Với ưu điểm như: áp dụng cho đầu vào có kích thước nhỏ, giảm thiểu chất lượng thơng tin số lượng lớp mạng cao, kết nối tới lớp sâu mạng lối tắt, bổ sung thêm lớp tích chập giãn nở mơ hình mạng dư để tạo thành mạng học sâu tích chập giãn nở… Việc chọn mạng tích chập dư giãn nở phương pháp tối ưu cho đề án, sử dụng mẫu đem lại hiệu cao 8 Ngồi ra, chương cụ thể hố việc trích rút đặc trưng âm tiếng ho, huấn luyện mơ hình cho phân loại âm ho học sâu mẫu Trong chương 3, đề án triển khai thử nghiệm đánh giá sau so sánh kết với nghiên cứu khác Chương 3: Thử nghiệm đánh giá Trong lĩnh vực trí tuệ nhân tạo nói chung học sâu nói riêng, tập liệu đóng vai trị quan trọng việc phát triển đánh giá thuật toán, ứng dụng Việc phân tích đánh giá chất lượng tập liệu yếu tố quan trọng để đảm bảo tính đắn đáng tin cậy kết thu Để có thử nghiệm đánh giá cách xác, đề án đưa kịch công cụ thử nghiệm mẫu cho đề án, với kịch thực trạng cần giải trường hợp loại bệnh đường hô hấp xuất đột ngột, có triệu chứng tương tự bệnh ho thơng thường, khơng có liệu trước Các chẩn đốn bệnh khách quan thường nhầm lẫn Chúng ta lấy Covid-19 làm ví dụ cụ thể Dữ liệu thu thập từ bệnh nhân mắc bệnh Mục tiêu đề án phân loại phát bệnh ho mà không cần đến liệu thống khổng lồ Từ phát triển mơ hình cơng cụ thử nghiệp phù hợp với thực trạng đặt Ngoài chương này, tác giả trình bày chi tiết cách lựa chọn tập liệu, phân tích đánh giá tập liệu Sau xây dựng ứng dụng thử nghiệm với hai giai đoạn, giai đoạn thứ trích xuất hệ số Cepstral tần số Mel (MFCC) tiếng ho, giai đoạn thứ hai phân loại nhãn truy vấn, MFCC chuyển tiếp đến mạng nhúng để ánh xạ liệu không gian nhúng mạng nguyên mẫu Cuối so sánh với phương pháp khác Việc phân tích đánh giá chất lượng tập liệu yếu tố quan trọng để đảm bảo tính đắn đáng tin cậy kết thu Trong chương này, tác giả trình bày chi tiết cách lựa chọn tập liệu, phân tích đánh giá tập liệu Sau xây dựng ứng dụng thử nghiệm với hai giai đoạn, giai đoạn thứ trích xuất hệ số Cepstral tần số Mel (MFCC) tiếng ho, giai đoạn thứ hai phân loại nhãn truy vấn, MFCC chuyển tiếp đến mạng 10 nhúng để ánh xạ liệu không gian nhúng mạng nguyên mẫu Cuối so sánh với phương pháp khác Với tập liệu sử dụng COVID-19 Thermal Face & Cough Dataset [19], đề án sử dụng liệu ho cho thử nghiệm Các tệp âm liệu kéo dài giây lấy mẫu 44.100 Hz Trong thử nghiệm đề án, tác giả sử dụng 08 loại ho Dữ liệu chia thành hai tập: tập huấn luyện tập kiểm tra Tập huấn luyện bao gồm nhãn ho tập kiểm tra gồm nhãn ho Q trình đào tạo mơ hình cài đặt với tỷ lệ học tập 0,001 số lượng epochs 200 Tiếp theo, đề án giới thiệu xây dựng hệ thống, mơ hình cụ thể hệ thống bắt đầu người dùng sử dụng thiết bị di động đăng nhập hệ thống, sau tuỳ thực tế chọn file ghi kết tệp ghi âm Cuối chọn xem kết Kết sau hệ thống phân loại, gắn nhãn trả kết cho người dùng Hệ thống xây dựng ngôn ngữ Python framework Django, đề án sử dụng python ngôn ngữ nhiều thư viện hỗ trợ tốt cho việc xử lý âm thanh, hình ảnh 11 Để đánh giá độ xác mơ hình nhãn kiểm tra, đề án sử dụng Precision, Recall F1Score, cách đánh giá thường áp dụng cho tốn phân chia hai lớp liệu Ngồi ra, kết thử nghiệm đạt so sánh với ba phương pháp tiêu biểu Momentum Contrast (Moco)[11], mạng quan hệ [8] TD-Restnet7[2] cho kết vượt trội Thông qua thử nghiệm, tác giả tin liệu ho có xu hướng hình thành cụm học Do đó, số liệu khoảng cách sử dụng phương pháp mạng nguyên mẫu phù hợp số liệu quan hệ sử dụng mạng quan hệ cho nhiệm vụ phân loại ho Chương vào chi tiết thực nghiệm đề tài, việc lựa chọn tệp liệu đào tạo định thành công mơ hình Chính tác giả lựa chọn kỹ lưỡng mơ hình liệu thử nghiệm Trong chương sâu vào phân tích đánh giá mơ hình, thức thiết lập thử nghiệm, kết đạt so sánh kết với nghiên cứu khác Thơng qua định hướng cho mở rộng đề án tương lai nghiên cứu hồn thiện thiếu sót nêu Ngồi 12 ra, nghiên cứu thêm mơ hình liên kết ứng dụng để vừa bảo mật thông tin quyền riêng tư người bệnh vừa thu thập nhiều liệu Phương pháp chứng minh tính hiệu tình khan liệu chứng tỏ tính khả thi đề án tương lai

Ngày đăng: 24/08/2023, 14:32

w