Để xây dựng và đánh giá dữ liệu âm thanh, tôi đã tạo ra một cơ sở dữ liệu ghi âm các bệnh nhân từ các bệnh viên lao phổi tại Hà Nội và tại Thái Nguyên. Các đối tượng có độ tuổi từ 18 – 65 tuổi, bao gồm tất cả các dân tộc của Việt Nam. Tất cả các dữ liệu cũng như quá trình thu thập dữ liệu đều được Thầy giáo hướng dẫn và cơ quan nơi sở tại phê duyệt cho phép thực hiện. Các thiết bị thu âm được sử dụng để thu thập dữ liệu âm thanh khi các bệnh nhân có triệu chứng ho dài hạn và đang điều trị tại bệnh viện sở tại. Môi đối tượng được gắn và sử dụng các thiết bị tối đa trong 5 ngày, mỗi ngày đeo trong vòng 30 phút tới một tiếng. Các thiết bị không hề gây ra sự khó chịu và các bệnh nhân đều sử dụng một cách chính xác tự nhiên không có sự cưỡng bức. Hệ thống thu âm sẽ thu lại toàn bộ âm thanh bao gồm cả âm thanh ho và các âm thanh ngoại cảnh bao gồm tất cả các âm thanh không phải tiếng ho và không phải lời nói mà cảm biến thu được như tiếng thở, nhịp tim, tiếng nổ lách tách và thậm chí cả tiếng bíp được sử dụng để báo hiệu đối tượng trong quá trình thu âm. Nguồn âm thanh này sau khi được thu lại, sẽ được các bác sỹ chuyên môn nghe và đánh giá các âm thanh liên quan tới triệu chứng ho kèm với thời gian xảy ra triệu chứng này. Các nhãn được sử dụng sẽ là: Kho_khe, Ho_co_dom, Ho_khan, Ngay.
Đối với tất cả các bản ghi, thiết bị thu âm được lấy mẫu ở băng tần 44,1 kHz và sau đó được lấy mẫu xuống 16 kHz. Tất cả các sự kiện trong bản ghi (ho, lời nói hoặc các sự kiện khác) được gắn nhãn thủ công trên PC bằng trình chỉnh sửa âm thanh Audacity. Thời gian ho trong tất cả các dữ liệu thu thập được dao động từ 250 ms đến tối đa khoảng 800 ms. Mặt khác, lời nói và các âm thanh khác có xu hướng dài hơn nhiều trong khoảng thời gian. Để đảm bảo các ví dụ đào tạo của chúng tôi có cùng độ dài, chúng tôi chia bài phát biểu và các bản ghi âm khác thành các đoạn nhỏ hơn với thời lượng ngẫu nhiên được tạo ra từ phân phối Gaussian về thời lượng của các ví dụ ho. Điều này dẫn đến thời lượng trung bình khoảng 320 ms cho tất cả các ví dụ trong cơ sở dữ liệu của tôi, không phân biệt lớp của chúng.