Phân loại tiếng động ứng dụng trong y tế

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -Phạm Hải Bình PHÂN LOẠI TIẾNG ĐỘNG ỨNG DỤNG TRONG Y TẾ Chuyên ngành: Kỹ thuật truyền thông LUẬN VĂN THẠC SĨ KHOA HỌC -Kỹ thuật truyền thông NGƢỜI HƢỚNG DẪN KHOA HỌC TS Trần Đỗ Đạt Hà Nội – Năm 2013 LỜI CAM ĐOAN Tôi xin cam đoan thông tin đƣợc cung cấp luận văn phản ánh trung thực phƣơng pháp, trình nghiên cứu kết mà thực với luận văn “Phân loại tiếng động ứng dụng y tế” PHẠM HẢI BÌNH i LỜI CẢM ƠN Tôi xin đƣợc chân thành cảm cảm ơn tiến sĩ Trần Đỗ Đạt, ngƣời trực tiếp hƣớng dẫn thực luận văn Sự định hƣớng thầy giai đoạn giúp tìm đƣợc hƣớng phù hợp với Đồng thời, ý kiến gợi mở thầy nhƣ nguồn tài liệu, nguồn tham khảo mà thầy cung cấp giúp vƣợt qua đƣợc trở ngại trình nghiên cứu để hoàn thiện luận văn Tôi xin đƣợc bày tỏ cảm ơn với tiến sĩ Nguyễn Công Phƣơng, ngƣời hỗ trợ kinh nghiệm quý giá, tài nguyên quan trọng mã nguồn chƣơng trình sở liệu phục vụ cho trình nghiên cứu Tôi xin đƣợc gửi lời cảm ơn đến Viện nghiên cứu quốc tế MICA tập thể anh, chị làm việc Môi trƣờng làm việc đầy sáng tạo, nghiêm túc nhƣng không phần thân thiện giúp tiếp xúc, làm quen tốt với vấn đề khoa học có giá trị cao thực tiễn nƣớc nhƣ quốc tế Cuối cùng, xin phép đƣợc gửi lời cảm ơn tới gia đình, ngƣời thân giúp đỡ, tạo điều kiện động viên suốt thời gian làm luận văn ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix MỞ ĐẦU CHƢƠNG TỔNG QUAN 1.1 Mục đích nghiên cứu luận văn 1.2 Các nghiên cứu phân loại âm 1.2.1 Hệ thống phân loại âm ứng dụng y tế 1.2.2 Các hệ thống phát kiên âm bất thƣờng 1.2.3 Hệ thống phân biệt loại nhạc [34] 13 1.2.4 Hệ thống phân loại âm [4] 14 1.3 Xác định mục tiêu phƣơng hƣớng nghiên cứu phân loại kiện âm 16 1.3.1 Yêu cầu chức 16 1.3.2 Yêu cầu kỹ thuật 17 1.3.3 Mô hình phƣơng pháp nghiên cứu phân loại kiện âm 18 1.3.4 Hệ thống phân loại kiện âm 19 1.4 Kết luận chƣơng 21 CHƢƠNG 2.1 XÂY DỰNG CSDL ÂM THANH 22 Định nghĩa sở liệu 22 iii 2.1.1 Cơ sở liệu tiếng nói 22 2.1.2 Cơ sở liệu tiếng động 22 2.2 Thực xây dựng CSDL tiếng nói / tiếng động 27 2.2.1 Các yếu tố ảnh hƣởng tới trình thu âm 27 2.2.2 Chuẩn bị sở vật chất, hạ tầng phục vụ thu âm 27 2.2.3 Kế hoạch thực thu CSDL âm 28 2.2.4 Quá trình thu âm 29 2.2.5 Tiền xử lý liệu 30 2.3 Kết thu thập CSDL 30 2.4 Kết luận chƣơng 31 CHƢƠNG PHÂN TÍCH CÁC ĐẶC TRƢNG ÂM HỌC 32 3.1 Phƣơng pháp trích chọn đặc trƣng 32 3.2 Tính toán đặc trƣng 33 3.2.1 ZCR 33 3.2.2 LSF 34 3.2.3 PLP 35 3.2.4 Trung bình lƣợng 35 3.2.5 Spectral Centroid 35 3.2.6 Tần số đỉnh phổ 36 3.2.7 Band width 37 3.2.8 Roll Off 37 3.2.9 MFCC 37 3.2.10 BER 38 3.2.11 Pitch 39 3.3 Tối thiểu hóa số lƣợng đặc trƣng 39 iv 3.3.1 Sơ lƣợc phƣơng pháp PCA 39 3.3.2 Phân tích đánh giá 40 3.3.3 Xáo trộn + phân tách CSDL 41 3.4 Kết luận chƣơng 42 CHƢƠNG MÔ HÌNH PHÂN LOẠI 43 4.1 Mô hình định 43 4.2 Mô hình mạng Nơ-ron 45 4.3 Mô hình KNN 48 4.4 Mô hình SVM 49 4.5 Mô hình Markov ẩn 50 4.6 Thử nghiệm đánh giá 51 4.7 Kết luận chƣơng 54 CHƢƠNG XÂY DỰNG HỆ THỐNG PHÂN LOẠI ÂM 55 5.1 Khái quát hệ thống phân loại âm đƣợc xây dựng 55 5.2 Khối xử lý thu âm 57 5.2.1 Thu thập âm 57 5.2.2 Quy trình thu âm 58 5.2.3 Vấn đề xử l thu đa kênh 59 5.3 Khối trích chọn đặc trƣng 62 5.3.1 Quy trình trích chọn đặc trƣng 62 5.3.2 Thiết kế mô đun trích chọn đặc trƣng 63 5.3.3 Vấn đề quản lý tài nguyên 65 5.4 Khối mô hình phân loại 67 5.4.1 Chuyển đổi mô hình nghiên cứu sang mô hình thực tế 67 5.4.2 Xây dựng mô hình phân loại C++ 69 v 5.5 Khối truyền thông 70 5.5.1 Hàng đợi tin - Message Queue 70 5.5.2 Giải pháp ZeroMQ 72 5.5.3 Truyền tải kết sử dụng ZeroMQ 74 5.6 Đánh giá kết 76 KẾT LUẬN 77 Các vấn đề làm đƣợc 77 Vấn đề nâng cao chất lƣợng 77 Vấn đề khả mở rộng 78 Lời kết 79 TÀI LIỆU THAM KHẢO 80 PHỤ LỤC 84 Phƣơng pháp xây dựng ứng dụng phân loại âm tƣơng tự 84 Các tham số cấu hình hệ thống 88 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt ANN API BER BIC CART CSDL DCT DDK FFT GFAR GMDR GMM HMM ID3 KNN LPC LSF LSP MFCC MICA PCA PLP RAM SC SVM ZCR Thuật ngữ tiếng Anh Artificial Neural Network Application Programming Interface Band Energy Ratio Bayesian Information Criterion Classification And Regression Tree Database Discreet Cosine Transform Driver Development Kit Fast Fourier Transform Global False Alarm Rate Global Missed Detection Rate Gaussian Markov Model Hidden Markov Model Iterative Dichotomiser K Nearest Neighbour Linear Predictive Coding Line Spectral Frequencies Line Spectral Pairs Mel Frequency Cepstral Coefficients International Research Institute Multimedia, Information, Communication and Application Principal Component Analysis Perceptual Linear Prediction Random Access Memory Spectral Centroid Support Vector Machine Zero Crossing Rate vii Thuật ngữ tiếng Việt Mạng Nơ-ron nhân tạo Giao diện lập trình ứng dụng Tỉ lệ lƣợng dải Tiêu chí thông tin Bayes Cây phân loại hồi quy Cơ sở liệu Biến đổi cô-sin rời rạc Gói phát triển trình điều khiển thiết bị Biến đổi Fourier nhanh Tỉ lệ báo động nhầm toàn hệ thống Tỉ lệ dò nhầm toàn hệ thống Mô hình Markov ẩn hợp Gauss Mô hình Markov ẩn Giải thuật quy nạp ID3 K láng giềng gần Mã hóa dự báo tuyến tính Tần số phổ tuyến tính Cặp phổ tuyến tính Hệ số phổ thang tần số Mel Viện nghiên cứu quốc tế đa phƣơng tiên, thông tin, truyền thông ứng dụng Phân tích thành phần Dự báo tuyến tính cảm thụ Bộ nhớ truy cập ngẫu nhiên Trọng tâm phổ Mô hình máy hỗ trợ Tần số cắt 'không' DANH MỤC CÁC BẢNG Bảng Cơ sở liệu dùng cho hệ thống giám sát hoạt động vệ sinh Bảng Kết phát kiện hệ thống giám sát hoạt động vệ sinh Bảng Cơ sở liệu hệ thống định vị phân loại kiện âm Bảng Tỉ lệ báo động sai dò nhầm hệ thống định vị, phân loại kiện Bảng Cơ sở liệu tiếng súng nổ Bảng Tỉ lệ dò nhầm báo động sai nghiên cứu Cheung-Fat CHAN 12 Bảng Kết phân loại nhạc 14 Bảng Số kiện đƣợc trích theo môi trƣờng 14 Bảng Danh sách đối tƣợng cần thu âm 24 Bảng 10 Danh sách kiện cần thu âm 26 Bảng 11 Kết chuẩn bị CSDL tiếng nói 31 Bảng 12 Kết phân tích đặc trƣng đƣợc sử dụng mô hình phân loại 41 Bảng 13 Kết huấn luyện mạng Nơ-ron với mô hình phân loại 53 Bảng 14 Kết kiểm tra chất lƣợng 03 phân loại liệu kiểm thử 53 Bảng 15 Bảng tổng hợp kết phân loại cho lớp Ci 53 Bảng 16 Các thông số phản ánh chất lƣợng phân loại cho mô hình 54 Bảng 17 Giá trị tín hiệu âm thu đƣợc từ kênh 60 Bảng 18 Giá trị tín hiệu âm thu đƣợc từ kênh 61 Bảng 19 Danh sách đặc trƣng cần dùng khối phân loại 62 Bảng 20 Tên thứ tự thành phần có véc-tơ đặc trƣng 86 Bảng 21 Ý nghĩa tham số cấu hình hệ thống chạy thực C++ 88 viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Tháp nhu cầu Maslow Hình Sơ đồ hệ thống giám sát hoạt động vệ sinh Hình Sơ đồ hệ thống phát kiện âm bất thƣờng Hình Các bƣớc xử lý phân hệ phát phân loại kiện Hình Sơ đồ hệ thống phát tiếng súng Hình Tỉ lệ lỗi hệ thống phát tiếng súng theo điều kiện khác 10 Hình Sơ đồ hệ thống phân loại Cheung-Fat CHAN 11 Hình Thuật toán định phân loại tiếng nói / tiếng động / âm 12 Hình Sơ đồ hệ thống phân biệt thể loại nhạc 13 Hình 10 Kết phân loại hệ thống phân biệt âm thông thƣờng đƣợc dùng để phân loại tiếng nói / tiếng động 15 Hình 11 Mô hình phân loại kiện âm bình thƣờng / bất thƣờng 16 Hình 12 Phƣơng pháp nghiên cứu mô hình phát kiện âm bất thƣờng 18 Hình 13 Các thành phần hệ thống phát kiện âm 19 Hình 14 Sơ đồ hệ thống phát kiện âm 20 Hình 15 Kỹ thuật phân loại sử dụng phân tầng 24 Hình 16 Bản vẽ mặt phòng thu 28 Hình 17 Bản vẽ phối cảnh phòng thu 28 Hình 18 Thuật toán xử lý trích chọn đặc trƣng thƣ mục 33 Hình 19 Phƣơng pháp xác định tần số cắt không (0) 34 Hình 20 Các bƣớc tính toán PLP 35 Hình 21 Ví dụ xác định trọng tâm phổ 36 Hình 22 Ví dụ xác định tần số đỉnh phổ 36 Hình 23 Ví dụ cách xác định Roll Off 37 Hình 24 Ví dụ lọc Mel 38 Hình 25 Phân chia dải tần thành băng nhỏ để tính BER 39 Hình 26 Phƣơng sai tích lũy thành phần từ phƣơng pháp PCA 40 Hình 27 Xáo trộn liệu trƣớc vào huấn luyện, kiểm tra 42 Hình 28 Ví dụ mô hình định 43 ix Phân loại tiếng động ứng dụng y tế Event Monitor Subcriber Buzzer Subscriber Other sub system Subscriber Forwarder (ZMQ) Publisher Classification Result Bus Hình 51 Mô hình truyền tải kết phân loại thông qua ZeroMQ Hình dƣới kết truyền tải tin thông qua ZeroMQ phân hệ phân loại âm đƣợc viết C++ phân hệ nhận thông tin đƣợc viết VB WPF Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 75 Phân loại tiếng động ứng dụng y tế Hình 52 Kết phân loại truyền tải qua ZeroMQ 5.6 Đánh giá kết Đối chiếu với mục tiêu ban đầu, ta có số nhận xét nhƣ sau: - - - Khả phân loại: Hệ thống bƣớc đầu đƣa vào hoạt động môi trƣờng thực có kết định Tin cậy, ổn định: Hệ thống có khả hoạt động thời gian dài mà không làm tăng lƣợng tài nguyên chiếm dụng, tốc độ xử l nhanh nên đảm bảo vấn đề cung cấp thông tin kịp thời Linh hoạt, mềm dẻo: Các khối phân hệ (thu âm, trích chọn đặc trƣng, mô hình phân loại, truyền thông) đƣợc gắn kết lỏng với thông qua chế sử dụng hàng đợi, điều cung cấp khả tách biệt hệ thống phân tán nhiều nơi, nhƣ việc nâng cấp số lƣợng khối xử lý, phân loại trở nên dễ dàng Ngoài ra, hầu hết tham số hệ thống đƣợc thiết lập từ tệp cấu hình nên khả tùy biến hệ thống cao, chế nạp tham số vào hệ thống thông qua stream giúp tăng khả cấu hình hệ thống từ xa tƣơng lai (thay dùng file stream dùng network stream để lấy nội dung cấu hình từ xa) An toàn, Bảo mật: Hiện hệ thống chƣa đƣợc đặt vào môi trƣờng đòi hỏi tính an toàn, bảo mật cao nên yếu tố chƣa đƣợc xem xét tới Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 76 Phân loại tiếng động ứng dụng y tế KẾT LUẬN Các vấn đề làm Tổng kết lại, luận văn thực đƣợc số vấn đề nhƣ sau: - - Nắm đƣợc phƣơng pháp nghiên cứu phân loại âm Nghiên cứu, xây dựng đƣợc hệ thống phân loại âm đáp ứng đƣợc phần yêu cầu đặt chất lƣợng phân loại, ứng dụng vào giải toán phân loại thực tế Tiến hành thực giải toán phân loại âm từ nghiên cứu lý thuyết, chuẩn bị liệu, xây dựng mô hình nghiên cứu triển khai thực tế Xây dựng kiến trúc hệ thống có độ mềm dẻo định, nhanh chóng biến đổi cho phù hợp với nhu cầu Xây dựng phƣơng pháp phân tích tự động theo hƣớng mà ngƣời thực tiếp cận: Hiện tại, toàn khâu từ chuẩn bị liệu đến đƣa kết nghiên cứu thực tế đƣợc ngƣời làm luận văn hỗ trợ để tiến hành cách tự động bán tự động nên trƣờng hợp giữ nguyên cách tiếp cận để áp dụng với liệu, mô hình cho toán khác đƣợc thực cách dễ dàng Trong điều kiện ngƣời sử dụng hệ thống hiểu qua trình tự thực thời gian kể từ lúc chuẩn bị xong liệu lúc đƣa mô hình hoạt động đƣợc thực tế phạm vi dƣới buổi ngày! Vấn đề nâng cao chất lượng Từ kết kiểm thử mô hình cho thấy số vấn đề sau: - - Việc chuẩn bị liệu có ảnh hƣởng lớn đến chất lƣợng phân loại, liệu huấn luyện gần với thực tế kết chạy môi trƣờng thực tế ổn định nhiêu, chất lƣợng tốt nhiêu Việc huấn luyện định cho tỉ lệ phân loại cao mạng Nơ-ron giai đoạn huấn luyện Tuy nhiên, vào thực tế mạng Nơ-ron cho thấy ƣu điểm riêng: Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 77 Phân loại tiếng động ứng dụng y tế - o Chất lƣợng phân loại ổn định từ lúc huấn luyện, kiểm tra hoạt động thực tế Với mô hình định, chất lƣợng phân loại giảm sút nhiều liệu đầu vào khác biệt rõ ràng lớp o Tốc độ hoạt động nhanh hơn, nhớ chiếm dụng rõ rệt so với định trƣờng hợp mô hình đƣợc tạo thành từ liệu huấn luyện có kích thƣớc lớn Có thể xem xét thêm việc sử dụng mô hình Markov vào làm mô hình nhận dạng lẽ tín hiệu có liệu hệ với thời gian, xét khoảng thời gian định để đƣa định khó lòng tận dụng đƣợc mối quan hệ Vấn đề khả mở rộng Luận văn xây dựng đƣợc hệ thống có khả mở rộng trƣờng hợp sau đây: - Tăng số lƣợng mô đun xử lý cho khâu: thu âm, trích chọn đặc trƣng, phân loại để tăng khả đáp ứng quy mô hệ thống tăng thêm sở tăng số lƣợng thread dễ dàng (vì phân hệ đƣợc gắn với thread) Thu âm Trích đặc trưng Phân loại Truyền thông Khối thu âm Khối trích đặc trưng Khối phân loại Khối truyền thông Khối thu âm N Khối trích đặc trưng M Khối phân loại X Khối truyền thông Y Hướng xử lý thông tin Hình 53 Mô hình mở rộng số lượng thread xử lý khối chức - Xây dựng mô hình nghiên cứu mới, sở giữ nguyên cách tiếp cận nhƣ luận văn Cơ sở thực điều từ việc luận văn cung cấp chế tƣơng đối tự động để thực nhiều khâu mô hình hoạt động thực tế Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 78 Phân loại tiếng động ứng dụng y tế Thu âm Trích đặc trưng Mô hình phân loại Truyền thông Thu âm Trích đặc trưng Mô hình phân loại Truyền thông Hình 54 Mô hình xây dựng phân loại tương tự - Sử dụng kết trích chọn đặc trƣng cho mô hình khác, sử dụng phân hệ phân loại âm cho nhiều hệ thống Sự mềm dẻo có đƣợc việc ghép nối mô đun thông qua loại hàng đợi Trích đặc trưng Mô hình phân loại Phân hệ Truyền thông Thu âm Mô hình phân loại Phân hệ Hình 55 Mô hình tái sử dụng phần hệ thống sử dụng kết hợp hệ thống với phân hệ Lời kết Đến đây, ngƣời thực trình bày vấn đề liên quan tới phƣơng pháp phân tích vân đề, nghiên cứu thực hiện, thiết kế giải pháp triển khai thực tế cho đề tài “Phân loại tiếng động ứng dụng y tế” Kết đạt đƣợc phần giải đƣợc mục tiêu đƣa hệ thống phân loại âm hoạt động thực tế Tuy nhiên, hệ thống số vấn đề nhƣ chất lƣợng phân loại phụ thuộc nhiều vào môi trƣờng, chất lƣợng thiết bị thu âm nhƣ việc phân loại chủ yếu dựa kết phân loại khung thời gian ngắn (16ms) mà chƣa tận dụng mối quan hệ tín hiệu khoảng thời gian dài Các vấn đòi hỏi ngƣời thực cần phải có nghiên cứu, đào sâu vấn đề ảnh hƣởng môi trƣờng nhƣ mô hình phân loại có xét tới liên hệ mặt thời gian đoạn tín hiệu nhƣ HMM hay mô hình mạng Nơ-ron hồi tiếp, từ xây dựng đƣợc hệ thống ổn định có tỉ lệ phân loại cao tƣơng lai Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 79 Phân loại tiếng động ứng dụng y tế TÀI LIỆU THAM KHẢO Alan Julian Izenman (2008), Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning, Springer, New York Anil K Jain, Richard C.Dubes (1988), Algorithms for Clustering Data, Prentice Hall, New Jersey Andriy Temko (2007), Luận án tiến sĩ: Acoustic Event Dectection and Classification, Universitat Politècnica de Catalunya, Barcelona Annamaria Mesaros, Toni Heittola, Antti Eronen, Tuomas Virtanen (2010), “Acoustic Event Detection In Real Life Recordings”, EUSIPCO 2010, Aalborg Anuradha R Fukane, Shashikant L Sahare (2011), “Noise estimation Algorithms for Speech Enhancement in highly non-stationary Environments”, IJCSI International Journal of Computer Science Issues, Vol 8(2), pp 39-44 Avner Halevy (2008), Đề án: Speech Enhancement: Reduction of Additive Noise in the Digital Processing of Speech, University of Maryland, College Park C Clavel, L Devillers, G.Richard, I.Vasilescu, T.Ehrette (2007), “Detection and Analysis of Abnormal Situations Through Fear-Type Acoustic Manifestations”, ICASSP 2007, Vol 4, pp 21-24, Hawaii Cheung-Fat Chan, Eric W.M Yu (2010), "An abnormal sound detection and classification system for surveillance applications", EUSIPCO 2010, pp 1851-1855, Aalborg Chuan Sheng Foo (2007), Bài giảng: Hidden Markov Models: Decoding and Evaluation, Stanford University, California 10 Dan Istrate, Michel Vacher, Eric Castelli and Cong-Phuong Nguyen (2004), "Sound processing for Health Smart Home", ICOST’2004, Singapore 11 Dan Istrate, Jerome Boudy, Hamid Medjahed and Jean-Louis Baldinger (2009), "Medical remote monitoring using sound environment analysis and wearable sensors", BioMED 2009, pp 517-532, Heraklion 12 David Banks, Leanna House, Frederick R McMorris, Phipps Arabie, Wolfgang Gaul (2004), Classification, Clustering, and Data Mining Applications, Springer, New York 13 Eric Castelli, Dan Istrate (2001), “Multi-channel Audio Acquisition for Medical Supervision in an Intelligent Habitat”, ECCTD 2001, Espoo Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 80 Phân loại tiếng động ứng dụng y tế 14 Eric Castelli, Michel Vacher, Dan Istrate, Laurent Besacier and JeanFrancois Serignat (2003), "Habitat Telemonitoring System Based on The Sound Surveillance", ICICTH 2003, Samos 15 Francisco Javier Gonzalez-Castano and co-authors, “Acoustic Sensor planning for Gunshot Location in National Parks: A Pareto Front Approach”, Sensors 2009, pp 9493-p512, Christchurch 16 François Capman, Sébastien Lecomte, Bertrand Ravera, Sebastien Ambellouis (2009), “Abnormal Audio Event Detection”, FP7-ICT-2009-4, Brussels 17 Frank Wood (2009), Bài giảng: Principal Component Analysis, Columbia University, New York 18 George Tzanetakis (2004), “ICME 2004 Tutorial: Audio Feature Extraction”, ICME 2004, Taipei 19 Guoqiang Peter Zhang (2000), "Neural Networks for Classification: A Survey", IEEE Transactions on systems, man, and cybernetics - Part C: Applycations and reviews, Vol 30 (4), pp 451-461 20 Phạm Văn Huấn, (2012), "Phân tích thành phần áp dụng vào tập số liệu mực nƣớc biển trạm dọc bờ Việt Nam", Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ, Số 28 (3S), pp 71-77, Hà Nội 21 Hynek Hermansky (1990), “Perceptual linear predictive (PLP) analysis of speech”, J Acoust Soc Am 87(4), pp 1738-1752 22 Ing-Jr Ding (2009), “Events Detection for Audio Based Surveillance by Variable-Sized Decision Windows Using Fuzzy Logic Control”, Tamkang Journal of Science and Engineering, Vol 12(3), pp 299-308 23 Jianfeng Chen, Alvin Harvey Kam, Jianmin Zhang, Ning Liu, and Louis Shue (2005), "Bathroom Activity Monitoring Based on Sound", PERVASIVE 2005, pp 47-61, Munich 24 Lior Rokach, Oded Maimon (2010), “Decision Trees”, Data Mining and Knowledge Discovery Handbook, pp 165-192, Springer, New York 25 Luis Vergara (2007), “Audio Signal Processing for Surveillance Applications”, SecureWave 2007, Valencia 26 Max Heimel (2010), Bài giảng: An Introduction to Hidden Markov Models, Technische Universität Berlin, Berlin 27 M Umair Bin Altaf, Biing-Hwang Juang (2011), "Audio signal classification with temporal envelopes", ICASSP 2011, pp 469-472, Prague Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 81 Phân loại tiếng động ứng dụng y tế 28 M Vacher, D Istrate, L Besacier, J.F.Serignat and E Castelli (2004), "Sound Detection and Classification for Medical Telesurvey", BioMED 2004, pp 395-399, Innsbruck 29 Michael Cowling (2004), Luận án tiến sĩ: Non-Speech Environmental Sound Classification System for Autonomous Surveillance, Gold Coast Campus Griffith University, Parklands Drive Southport 30 Michael Cowling, Renate Sitte (2003), “Comparison of techniques for environmental sound recognition”, Pattern Recognition Letters, Vol 24, pp 2895-2907, Elsevier, Philadelphia 31 Michel Vacher, Dan Istrate, Jean-Francois Serignat, Nicola Gac (2005), Detection and speech/sound segmentation in a smart room environment, CLIPS – IMAG, Grenoble 32 Michel Vacher, Anthony Fleury Francois Portet, Jean-Francois Serignat, Norbert Noury (2010), "Complete Sound and Speech Recognition System for Health Smart Homes: Application to the Recognition of Activities of Daily Living", New Developments in Biomedical Engineering, pp 645-673, InTech, Rijeka 33 Đỗ Thanh Nghị (2008), Bài giảng: Phương pháp học định Decision Tree, Trƣờng Đại Học Cần Thơ, Cần Thơ 34 Paul Scott (2001), Music Classification using Neural Networks, Standford University, Stanford 35 Nguyễn Công Phƣơng (2008), Luận án tiến sĩ: Cảm biến âm thông minh độc lập, Đại Học Bách Khoa Hà Nội, Hà Nội 36 Nguyễn Công Phƣơng (2012), Báo cáo đề tài: Nghiên cứu, thiết kế xây dựng hệ thống cảnh báo y tế dựa phân tích âm thanh, Đại học Bách Khoa Hà Nội, Hà Nội 37 Nguyễn Cao Qu (2013), “Ứng dụng mô hình Markov ẩn để nhận dạng tiếng nói FPGA”, Tạp chí khoa học – Đại Học Cần Thơ, Số 25, Cần Thơ 38 R Mutihac, Marc M Van Hulle (2004), “Comparison of Principal Componal Analysis and Independent Component Analysis for Blind Source Seperation”, Romanian Reports in Physics, Vol 56, pp 20-32, Editura Academiei Romane 39 R P Ramachandran, P Kabal (1985), The Computation of Line Spectral Frequencies Using Chebyshev Polynomials, INRS-Télécommunications, Québec Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 82 Phân loại tiếng động ứng dụng y tế 40 Surbhi Hardikar, Ankur Shrivastava and Vijay Choudhary (2012), "Comparison between ID3 and C4.5 in Contrast to IDS", VSRD International Journal of Computer Science & Information Technology, (7), pp 659-667 41 Thair Nu Phyu (2009), “Survey of Classification Techniques in Data Mining”, IMECS 2009, Vol 1, Hong Kong 42 Xinglei Zhu, Lonce Wyse (2004), "Sound Texture Modeling and TimeFrequency LPC", DAFx’04, pp 345-349, Naples 43 Zeng Zhu (2011), Data Mining Survey, University of London, London Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 83 Phân loại tiếng động ứng dụng y tế PHỤ LỤC Phương pháp xây dựng ứng dụng phân loại âm tương tự Giới thiệu chung Mục giới thiệu phƣơng pháp thực mạng Nơ-ron, trƣờng hợp định, tƣ tƣởng thiết kế tƣơng tự nên ta dễ dàng chuyển đổi hai mô hình Phần source code phía MATLAB để xây dựng mạng Nơ-ron có tệp cần quan tâm: - runSchedule.m: Tệp thực số bƣớc phân tích kết mô hình exportNN.m: Tệp kết xuất mô hình huấn luyện file để đƣa vào chƣơng trình C++ Thứ tự thực nhƣ sau: Hình 56 Các bước thực để xây dựng mô hình phân loại tương tự luận văn Ở đây, bƣớc 2-4 đƣợc thực file runSchedule.m, bƣớc thứ file exportNN.m, bƣớc thực cách thay đổi file config trƣơng chình C Bƣớc 1: Chuẩn bị liệu Chuẩn bị liệu vào thƣ mục tƣơng ứng với loại âm thanh, bình thƣờng/bất thƣờng hay tiếng nói/tiếng động Chú ý: - Tín hiệu sample rate Không có tín hiệu đạt 100% biên độ gây lỗi phần trích chọn LSF Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 84 Phân loại tiếng động ứng dụng y tế - Có thể đƣa thêm nhiễu trắng lệnh awgn(…) Bƣớc 2: Trích chọn đặc trƣng Mục đích bƣớc trích đặc trƣng file âm wav ghi vào file txt tƣơng ứng, đồng thời, tất đặc trƣng đƣợc gộp lại thành file _all.txt thƣ mục tƣơng ứng lƣu trữ loại âm chuẩn bị bƣớc Cách làm nhƣ sau: - - Mở file runSchedule.m Đổi đƣờng dẫn biến pathNr pathAb (với nghĩa bình thƣờng bất thƣờng) Nếu mẫu thƣ mục định nghĩa pathNr lớp tƣơng ứng „0‟, mẫu thƣ mục định nghĩa pathAb lớp tƣơng ứng „1‟ Thực lệnh runSchedule(1); Đợi chƣơng trình trích chọn đặc trƣng xong, xuất 02 file _all.txt hai thƣ mục Bƣớc 3: Phân tích đặc trƣng Bƣớc dùng để phân tích xem đặc trƣng đóng vai trò thông qua việc đánh giá trọng số Việc đánh giá đặc trƣng đƣợc thực theo vòng lặp: Đầu tiên tìm đặc trƣng có ảnh hƣởng lớn - - Gán tất giá trị đặc trƣng tìm đƣợc = để loại bỏ đặc trƣng khỏi danh sách đặc trƣng cần đánh giá Lặp lại trình đến hết số lƣợng đặc trƣng, kết đầu bao gồm: o Thứ tự đặc trƣng đƣợc xếp từ đặc trƣng có ảnh hƣởng lớn đến nhỏ o Các trị riêng phân tích PCA lần o Biểu diễn đặc trƣng không gian mới, tƣơng ứng với véc-tơ riêng tìm đƣợc lần Ở ta cần quan tâm tới giá trị Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 85 Phân loại tiếng động ứng dụng y tế Để thực phân tích, ta thực lệnh rank = runSchedule(2, 3); Ở đây, tham số thứ dùng để định xem chƣơng trình phân tích đặc trƣng = 1-> Phân tích đặc trƣng có thƣ mục quy định pathNr = 2-> Phân tích đặc trƣng có thƣ mục quy định pathAb - Giá trị lại: Phân tích đồng thời đặc trƣng (dùng cách phân tích này) rank thứ tự đặc trƣng đƣợc xếp Tên tƣơng ứng đặc trƣng nhƣ sau: Bảng 20 Tên thứ tự thành phần có véc-tơ đặc trưng Feature MFCC1 MFCC2 MFCC3 MFCC4 MFCC5 MFCC6 MFCC7 MFCC8 MFCC9 MFCC10 MFCC11 MFCC12 MFCC13 MFCC14 MFCC15 MFCC16 PLP1 PLP2 PLP3 PLP4 PLP5 PLP6 PLP7 PLP8 PLP9 Matlab Id 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 C++ Id 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Feature BER1 BER2 BER3 BER4 LSF1 LSF2 LSF3 LSF4 LSF5 LSF6 LSF7 LSF8 LSF9 LSF10 LSF11 LSF12 LSF13 LSF14 LSF15 LSF16 LSF17 ZCR BW Roll Off F0_Avr Matlab Id 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 C++ Id 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 86 Phân loại tiếng động ứng dụng y tế PLP10 26 25 PLP11 27 26 PLP12 28 27 PLP13 29 28 Bƣớc 4: Huấn luyện mô hình F0 Centroid Pitch 55 56 57 54 55 56 Bƣớc tự động huấn luyện mô hình nhƣ sau: - - Lấy liệu phân lớp từ file _all.txt 02 thƣ mục đƣợc định qua biến pathNr, pathAb Xáo trộn đặc trƣng Phân tách liệu theo tỉ lệ quy định biến trainRatio Giả sử giá trị trainRatio 0.8 thì: o 80% mấu đƣợc dùng làm liệu huấn luyện o 20% mẫu lại dùng làm liệu kiểm tra Huấn luyện mô hình (hiện thiết lập mạng Nơ-ron 40 lớp ẩn) Sau huấn luyện xong, chƣơng trình đánh giá tỉ lệ phân loại liệu huấn luyện liệu kiểm tra Để thực bƣớc này, ta nhập lệnh: [model pTrain pTest] = runSchedule(4, );, véc-tơ số đặc trƣng đƣợc dùng để huấn luyện Các số có đƣợc từ kết phân tích bƣớc Chú ý: Trƣớc xuất mô hình file, kiểm tra khả hoạt động mô hình cách sau: - Ghi đoạn âm file wav Sử dụng lệnh feature=extract_features_from_file(„‟) để trích đặc trƣng biến feature Dùng lệnh ret=round(sim(model, feature)) để có kết phân loại Bƣớc 5: Xuất mô hình file Bƣớc đọc mô hình có đƣợc từ bƣớc để xuất file Giả sử mô hình đƣợc lƣu biến model cúa pháp thực exportNN(model,’’); Bƣớc 6: Chuyển mô hình vào chƣơng trình C++ Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 87 Phân loại tiếng động ứng dụng y tế Bƣớc đƣợc thực cách liệt kê có trình tự tham số đƣợc dùng bƣớc huấn luyện mô hình phân loại (bƣớc 4) với ý là: số C++ nhỏ số Matlab 01 đơn vị File cấu hình cần phải sửa plat.conf, mục “== Classification ==” Ví dụ: - maskFeatureSoundVoice=8,2,1,5,7,3,16,17,4,19,21,… maskFeatureSoundNrAb=1:30 maskFeatureSpeechScream=3,5,9,16,19,21,28,31,32,33… Tóm tắt Nhƣ vậy, lệnh cần quan tâm nhƣ sau: - runSchedule(1); %trích chọn đặc trƣng rank = runSchedule(2, 3); %đánh giá đặc trƣng [model pTrain pTest] = runSchedule(4, ); %huấn luyện mô hình từ đặc trƣng đƣợc chọn exportNN(model,‟‟); %xuất mạng Nơ-ron file Ngoài ra, quan tâm tới lệnh sau để kiểm tra hoạt động mô hình: - feature=extract_features_from_file(„‟); %trích đặc trƣng từ file ret=round(sim(model, feature‟)); %xem kết phân loại mạng Nơ-ron Các tham số cấu hình hệ thống Bảng 21 Ý nghĩa tham số cấu hình hệ thống chạy thực C++ Tham số == Sound Sampling == intSampleRate intRecordDevices intRecordChannels intBitsPerSample intBuffSizeInSeconds recordDevices == Feature Extraction == dblExtractThreshold dblFmaxThreshold dblZCRThreshold dblPitchThreshold dblRollOffPercent Giải thích Phần thích Tần số lấy mẫu ID thiết bị cần thu Số kênh tƣơng ứng với thiết bị Số bít lƣợng tử Số giây cần lƣu trƣớc xử l Id thiết bị cần thu Phần thích Ngƣỡng lƣợng để xác định kiện âm Ngƣỡng sử dụng tính đặc trƣng Fmax Ngƣỡng sử dụng tính đặc trƣng CR Ngƣỡng sử dụng tính đặc trƣng Pitch Ngƣỡng sử dụng tính đặc trƣng RollOff Giá trị mẫu 16000 -1,2 2,1 16 -1,-1 15 0.1 0.06 0.09 0.95 Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 88 Phân loại tiếng động ứng dụng y tế Số bậc dự báo tuyến tính dùng tính LSF Kích thƣớc cửa sổ tính đặc trƣng Số dải Mel Tham số dùng tính PLP Tham số dùng tính PLP Tham số dùng tính PLP Tham số dùng tính PLP Tham số dùng tính PLP Tham số dùng tính PLP Tham số dùng tính PLP Phần thích Số mẫu dùng để định loại âm Ngƣỡng để định loại âm (luôn nhỏ số mẫu dùng để định) Thứ tự đặc trƣng đƣợc dùng cho phân loại maskFeatureSoundVoice tiếng nói / động Thứ tự đặc trƣng đƣợc dùng cho phân loại maskFeatureSoundNrAb tiếng động bình thƣờng, bất thƣờng maskFeatureSpeechScream Thứ tự đặc trƣng đƣợc dùng cho phân loại tiếng nói / kêu Mô hình phân loại tiếng nói / động modelSoundVoice Mô hình phân loại tiếng động bình thƣờng, modelSoundNrAb bất thƣờng Mô hình phân loại tiếng nói / kêu modelSpeechScream Đƣờng dẫn tới tệp tin chứa ma trận biến đổi pcaSoundVoice PCA dành cho tiếng nói / động (nếu cần) Đƣờng dẫn tới tệp tin chứa ma trận biến đổi pcaSoundNrAb PCA dành cho tiếng động bình thƣờng / bất thƣờng (nếu cần) Đƣờng dẫn tới tệp tin chứa ma trận biến đổi pcaSpeechScream PCA dành cho tiếng nói / kêu (nếu cần) Phần thích == Publication == Địa phía frontend Forwarder publishAddress Tên topic đƣợc publish publishTopicId intLSFOrder intWindowSize intMfccMelRanges bRastaDoRasta intRastaOrder1 intRastaOrder2 intRastaFirstPartWidth rastaNumer rastaDenom1 rastaDenom2 == Classification == intDecisionSamples intDecisionThreshold 17 256 17 12 0.2, 0.1, 0, -0.1, -0.2 1, -0.94 17 0:15 0,1,2,3 3,2,6,1,7,4 nn_tntd_18f_89.txt nn_tdbtbt_24f_88.txt nn_tnbtbt_19f_97.txt Pca_tntd.txt Pca_tdbtbt.txt Pca_tntk.txt tcp://localhost:9000 Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS Trần Đỗ Đạt 89

Định dạng
Số trang	100
Dung lượng	2,79 MB