Mô hình máy học CNN-LSTM sử dụng cho việc phát hiện và phân

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và phân loại âm thanh ho trên các thiết bị iot (Trang 33 - 34)

ho

Phát hiện âm thanh triệu chứng ho có thể thực hiện dưới dạng trực quan bằng cách chuyển đổi âm thanh 1 chiều thành dạng “hình ảnh” thời gian quang phổ 2 chiều, bằng máy tính chẳng hạn Biến đổi Fourier thời gian ngắn (STFT). Sau đó, mạng lưới nơ-ron thần kinh nhân tạo có thể hoạt động tốt với việc nhận dạng hình ảnh để so sánh các âm thanh của triệu chứng ho các âm thanh không phải triệu chứng ho trên các mẫu hình ảnh trong nội dung quang phổ 2 chiều. Ưu điểm của phương pháp này là biến thể mạng thân kinh nhân tạo được sử dụng cho việc nghiên cứu kỹ lưỡng hình ảnh, Mạng học sâu tích chập (CNN) [14], có thể sử dụng cho việc phát hiện các triệu chứng ho (Hình 2.5)

Nhãn đầu ra Nhãn đầu ra

Dữ liệu đầu vào Chuỗi đầu vào của các khung quang phổ

Hình 2.5 Một minh họa của mạng nơ-ron tích chập và quy hồi cho hai công thức phát hiện ho.

Trong CNN, đầu vào là một hình ảnh mang kích thước cố định, một đoạn của quang phổ và đầu ra là một nhãn duy nhất. RNN nhận vào một chuỗi các khung phổ và xuất ra một chuỗi các nhãn. Với việc gần đây được sử dụng vô cùng phổ biến, CNN rất dễ đào tạo và có rất nhiều tài nguyên phần mềm và phần cứng sẵn có cho việc này. Tuy nhiên, có một nhược điểm tương đối lớn với các công thức hình ảnh.

thành và được định nghĩa trước. Mặc dù điều này là khá đơn giản và phù hợp với các hình ảnh truyền thống vì ban đầu chúng đã định dạng ở kích thước 2D cố định, nhưng đó cũng chính là 1 điều khá đáng lưu ý dối với các dữ liệu hiển thị theo thời gian thực như âm thanh. Đối với 1 một cái máy ảnh, việc ghi lại hình ảnh sẽ luyên có cùng kích thước và độ phân giải, tuy nhiên việc này ngước lại đối với các dữ liệu âm thanh, các âm thanh ho có những bản ghi khác nhau về mặt thời lượng thu được. Do đó, một công việc luôn phải thực hiện vô cùng cần thiết đó là đàm bảo dữ liệu thời gian từ các tin hiệu âm thanh tín hiệu phải luôn được cố định trước khi đưa vào huấn luyện cho mạng nơ-ron nhân tạo. Khi chúng ra chỉnh sửa, chắc chắn sẽ có những đoạn âm thanh dài hơn hoặc ngắn hơn so với tiêu chuẩn đã đề ra ban đầu, chúng ra sẽ phải cắt ngắn bớt các phần âm thanh dài hơn và ghép nối những phần này vào các đoạn âm thanh bị thiếu thời lượng so với tiêu chuẩn. Đối với việc loại bỏ các phần đoạn thừa nhiều, sẽ làm giảm dữ liệu có sẵn để đào tạo và điều này là không được khuyến khích vì mạng học sâu nhân tạo sẽ được huấn luyện tốt hơn khi có càng nhiều dữ liệu mẫu được đưa vào. Mặt khác đối với các phần dữ liệu không được chỉnh sửa tốt có quá nhiều tạp âm hay là nhiễu so với các nội dung nguyên bản ban đầu cũng làm giảm độ chính xác của việc phát hiện và phân loại triệu chứng ho. Bên cạnh các yêu cầu về chia cắt các đoạn âm thanh, hình ảnh được đưa vào cũng cần một giai đoạn xử lý hậu kỳ khi chuyển đổi từ âm thanh sang dạng trực quan để căn chỉnh các dán nhãn đầu ra được chuẩn với các tín hiệu âm thanh được đưa vào và chuyển đổi.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và phân loại âm thanh ho trên các thiết bị iot (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(74 trang)