2.2 Mô hình máy học Gaussian hỗn hợp (GMM) cho phát hiện và phân loại ho loại ho
Mặc dù có nhiều hệ thống đã được phát triển, tuy nhiên vẫn chưa có hệ thống tối ưu thực sự cho việc phát hiện và phân loại ho. Vấn đề được đưa ra ở đây phần lớn là về khả năng đưa ra chuẩn đoán về triệu chứng ho có độ chính xác không cao. Trong khi đó, hầu hết các nghiên cứu đưa ra đều chưa được thẩm định trên quy mô lớn, dẫn đến kết quả chưa có tính thuyết phục cao. Hệ thống phổ biến nhất, LCM [2], tìm ra sự cân bằng giữa hiệu suất công việc và số lượng người thực hiện. Trong bước phân loại của mình, họ đã thuê các nhà nghiên cứu cơ thể người để ghi ra nhãn tất cả các hiện tượng của cơn ho, không phải âm thanh ho và các đặc tính của dạng âm thanh ho và sau đó được đưa vào mô hình của HMM-GMM để phân loại them. Hiệu suất của công việc này đủ khả năng để đáp ứng lại các ứng dụng trong thực tế. Tuy nhiên,
đột phá trong những năm gần đây trong lĩnh vực nhận dạng giọng nói tự động bằng cách thay thế GMM bằng một mô hình mới được phát triển, mạng nơ-ron sâu (DNN) để lập mô hình xác suất quan sát của HMM. Bằng cách huấn luyện các mô hình mạng nơ-ron để phân biệt, thông tin từ các khung sẽ được huấn luyện tốt hơn. Lợi ích của việc sử dụng mạng nơ-ron đã được biêt đến từ lâu, nhưng việc huấn luyện cho một mạng nơ-ron sâu là không khả thi cho đến khi phương pháp pretrain được giới thiệu gần đây. Pretrain có thể dịch là tinh chỉnh, mô hình đã được huấn luyện trước đó với một bộ dữ liệu lớn hoặc với các phương pháp tối tân giúp giảm công đoạn khi huấn luyện lại mô hình từ đầu. Mô hình sau đó có thể được huấn luyện để phù hợp với bộ dữ liệu thực tế hoặc sử dụng trong bài toán học máy. Đối với vấn đề phát hiện và phân loại ho, thì điều bắt buộc cần phải làm đó là chuyển đổi mô hình phân loại thành mạng nơ ron sâu. DNN là một mô hình có khả năng học tập mạnh mẽ có thể thay thế GMM khi phân loại các dữ liệu âm thanh ho. Các tín hiệu thô được sử dụng để phân loại các âm thanh ho là các bản ghi âm, được mô hình hóa một cách tự nhiên bằng hệ thống mạng thần kinh sâu.
Trước đây, những trở ngại cho việc huấn luyện một mạng nơ-ron nhân tạo bao gồm 2 khía cạnh quan trọng. Một là tài nguyên để sử dụng thời điểm đó là không nhiều. Vấn đề còn lại là về vấn đề suy biến đạo hàm đã làm các hệ thống kém được huấn luyện đúng cách. Trở ngại đầu tiên đã được xử lý bằng chắc phát triển các thiết bị tính toán ngày càng tốt hơn. Với vấn đề thứ hai đã được giải quyết bằng sự ra đời của phương pháp Pretrain với mạng lưới niềm tin sâu (DBN) được cầu thành từ các Restricted Boltzmann Machines (RBM).