Chương III Phát triển ứngdụng truy tìm âm thanh trên cơ sở nội dung
3.3.2. Sơ đồ khối chức năng
Hệ thống bao gồm các khối chức năng chính sau đây:
Hệ thống phân tích âm thanh Truy vấn Item Bổ sung Item Xóa Item Huấn luyện Chọn mẫu phân tích Phân lớp Xử lý trích đoạn Xử lý cụm từ Xử lý giọng nói Tính toán đặc trƣng Mô hình hóa
3.3.3. Giao diện chƣơng trình
Giao diện chƣơng trình đƣợc minh họa nhƣ hình dƣới đây:
Hình 25. Giao diện chương trình
3.3.3.1. Detection
Chức năng của Detection là có khả năng lƣu một tập các tham số tách sóng đồng thời, tƣơng tự nhƣ một đoạn âm thanh dùng để nhận dạng tiếng chuông reo, các đặc trƣng riêng về giọng nói để phân tích ai là ngƣời nói, hoặc đƣợc diễn đạt một cách chính xác nhằm phân tích âm nhạc hay một đoạn
nhạc nào đó để đánh dấu làm từ khóa. Do đó, mục Detection đòi hỏi các tham số hoặc đặc trƣng phải có mức tin cậy cao.
3.3.3.2. Huấn luyện Detection
Chức năng của tác vụ huấn luyện Detection là: cho phép ngƣời dùng chọn đoạn âm thanh huấn luyện thuộc loại nào trong số các loại sau: đoạn âm thanh (audio clip), ngƣời nói (speaker), và cụm từ khóa (key phrase). Trên các đặc trƣng hoàn toàn khác nhau từ các loại dữ liệu âm thanh đƣợc ngƣời dùng cung cấp, tác vụ huấn luyện có thể trích chọn ra các thông tin cần thiết.
3.3.3.3. Kết quả từ bộ phân tích
Kết quả của Detector là trả lại các giá trị tìm đƣợc từ đoạn âm thanh ngƣời dùng cần tìm. Nó bao gồm các giá trị về khoảng thời gian tìm thấy đối tƣợng, gồm thời gian bắt đầu, thời gian kết thúc (đƣợc tính bằng ms), hoặc các giá trị về xác suất của sự kiện đó và của cả dữ liệu đƣợc nhận dạng trong mục Detection.
Hình 24. Kết quả từ Detector
Ví dụ, ta có hai đoạn âm thanh trong hai tệp là MAN.WAV và WOMEN.WAV đƣợc thu âm riêng giọng nói tƣơng ứng của hai ngƣời nam và nữ. Sau đó ta muốn biết trong một đoạn âm thanh hỗn hợp MIX.WAV có giọng nói của hai ngƣời đó hay không, nếu có thì nó tƣơng ứng với khoảng thời gian nào trong MIX.WAV.
Khi đó, ta tạo ra hai mục (trong trƣờng hợp này là HAI và BINH) tƣơng ứng với tên ngƣời nói trong MAN.WAV và WOMAN.WAV. Kết quả
minh họa ở hình trên cho thấy hệ thống đã phân tích đƣợc trong đoạn âm thanh hỗn hợp MIX.WAV có giọng nói hai ngƣời đó, và khoảng thời gian nào ngƣời nói là BINH (tƣơng ứng với ngƣời nói trong NU.WAV) và khoảng thời gian nào ngƣời nói là HAI (tƣơng ứng với ngƣời nói trong NAM.WAV)...
3.3.3.4. Detector
Mục Detector nhận các đối tƣợng của mục Detection trong giai đoạn chuẩn bị. Sau mỗi lần khởi tạo, nó sẵn sàng để nhận các đặc trƣng âm thanh và do đó, có thể phân tích sự khác nhau của các mục trong Detection.
3.3.4. Kết quả đạt đƣợc
Hệ thống chƣơng trình ứng dụng thử nghiệm có một số ƣu điểm, cũng nhƣ tồn tại một số nhƣợc điểm. Trong đó kết quả đạt đƣợc có thể xem là đáng kể bao gồm:
Tính tƣơng thích với các môi trƣờng cơ sở dữ liệu khác nhau
Chƣơng trình cho phép tích hợp dễ dàng vào bất kỳ môi trƣờng cơ sở dữ liệu nào (ví dụ, ODBC, DB2, Oracle, SQL Server, ...)
Giao diện lập trình ứng dụng dễ hiểu
Giao diện lập trình ứng dụng C/C++ cho phép ngƣời dùng dễ dàng và nhanh chóng thực hiện các chức năng cần thiết.
Hỗ trợ với các định dạng: PCM 8kHz 16bit PCM 16kHz 16bit
Tính linh hoạt
Chƣơng trình có thể tích hợp dễ dàng trong các hệ thống khác nhau, từ các hệ thống lớn cũng nhƣ đối với các thiết bị nhỏ nhƣ tablet PCs hoặc PDAs.
Các thử nghiệm thực hiện đối với cấu hình máy PC có bộ xử lý Pentium IV 2 GHz, bộ nhớ 512MB, chạy trên hệ điều hành Windows 2000. Mẫu thử nghiệm là 20 giọng nói đơn sắc đƣợc thu âm qua điện thoại, định dạng PCM 8kHz 16Bit. Kết quả đo đƣợc nhƣ sau:
Mục Thời gian thực hiện
Chỉ mục dữ liệu 7.3
Tìm kiếm 82.2
Chuyển đổi 2.3
Bên cạnh đó, do số lƣợng dữ liệu đầu vào còn ít nên các kết quả đạt đƣợc còn mang tính chủ quan và chƣa có sức thuyết phục cao. Định dạng mẫu dữ liệu không chấp nhận tệp nén nên dung lƣợng các tệp còn lớn. Về mặt lý thuyết, hệ thống cũng cần đƣợc nghiên cứu kỹ lƣỡng hơn để tìm ra các đặc trƣng tốt, giúp cho kết quả phân tích và tìm kiếm đƣợc chính xác hơn nữa.
KẾT LUẬN
Hiện nay, các ứng dụng có khả năng đọc, hiểu nội dung của dữ liệu đa phƣơng tiện nói chung, dữ liệu âm thanh nói riêng đã đáp ứng đƣợc những nhu cầu ngày càng phức tạp của ngƣời dùng, từ đó chúng đã và đang đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, đem lại hiệu quả cao.
Trên đây, luận văn đã giới thiệu một số phƣơng pháp tìm kiếm âm thanh theo nội dung, bao gồm tình hình nghiên cứu và hƣớng phát triển, các khái niệm cơ sở và chọn lọc một số phƣơng pháp, giải thuật nghiên cứu đã đƣợc chứng minh là hiệu quả thông qua các thí nghiệm trong thời gian gần đây.
Về ứng dụng thực tiễn, luận văn đã trình bày một ứng dụng dựa trên bộ công cụ phát triển phần mềm ACTNow để minh họa một số phƣơng pháp tìm kiếm âm thanh theo nội dung ở chƣơng 2.
Kết quả luận văn mới chỉ là bƣớc đầu trong quá trình nghiên cứu của bản thân và hơn nữa, đề tài nghiên cứu luận văn còn tƣơng đối mới mẻ hiện nay, vì thế luận văn còn tồn tại một số vấn đề có thể hoàn thiện hơn. Trong tƣơng lai, tôi mong muốn sẽ cải tiến thêm về mặt lý thuyết cũng nhƣ về mặt chƣơng trình để có thể phát triển theo hai hƣớng: phát triển một ứng dụng hoàn chỉnh trong lĩnh vực phát hiện vi phạm bản quyền âm nhạc và vấn đề tìm kiếm âm thanh trong thƣ viện số của ngành Văn hóa thông tin.
Luận văn có thể đƣợc sử dụng làm tài liệu tham khảo trong vấn đề nghiên cứu về âm thanh và các ứng dụng của âm thanh. Các khái niệm, thuật toán và các kết quả liên quan đã trình bày trên đây có thể làm cơ sở cho việc quản lý các ứng dụng, hoặc xây dựng các hệ thống tìm kiếm âm thanh phù hợp và hiệu quả.
TÀI LIỆU THAM KHẢO
[1]Asif Ghias, Jonathan Logan, David Chamberlin, Brian C. Smith: “Query By Humming Musical Information Retrieval in An Audio Database”, Cornell University.
[2]D. Griffin and J. Lim: "Signal estimation from modified short-time Fourier transform", IEEE Trans. on Acoust. Speech and Sig. Proc., vol. 32, no.2, 1984.
[3]Đặng Văn Đức, "Giáo trình cơ sở dữ liệu đa phƣơng tiện" [4]D. Heng Tao Shen, "Multimedia Database", Semester 1, 2006
[5]E. Scheirer and M. Slaney, “Construction and Evaluation of a Robust Multifeature Music/Speech Discriminator”, In Proc.ICASSP97, Vol.2,
pp.1331-1334, 1997.
[6]E.Wold, T.Blum, D.Keislar and J.Wheaton(1996),Contentbased classification, search and retrieval of audio, IEEE multimedia Mag.3,pp.27-36 [7]Harald Kosch and Mario Döller, "Multimedia Database Systems: Where are we now?"
[8]J. Foote, “Content-based retrieval of music and audio,” Proc. SPIE, vol.3229, pp. 138–147, 1997.
[9]J. Saunders, “Real-time Discrimination of Broadcast Speech/Music”, In Proc. ICASSP-96, pp.993-996, 1996.
[10]J. Pinquier, J.-L. Rouas, and R. Andre-Obrecht, “A fusion study in speech/music classification,” in Proc., International Conference Acoustics, Speech, and Signal Processing, Hong Kong, vol. 2, Apr.2003.
[11]K. El-Maleh, M. Klein, G. Petrucci and P. Kabal, “Speech/Music Discrimination for Multimedia Application”, In Proc. ICASSP00, 2000.
[12]L. Lu, H. Jiang and H. J. Zhang, “A Robust Audio Classification and Segmentation Method”, In Proc. ACM Multimedia 2001, Ottawa, Canada, 2001.
[13]LieLu, Hong-Jang Zhang and Hao Jiang,"Content Analysis for Audio Classification and Segmentation", IEEE Transaction on speech and audio processing, vol. 10, No. 7, october 2002.
[14]M. W. Mak, W. G. Allen, and G. G. Sexton, “Speaker identification using multilayer perceptrons and radial basis function networks”
[15]Man-Wai Mak and Sun-Yuan Kung:"Estimation of Elliptical Basis Function Parameters by the EM Algorithm with Application to Speaker Verification", Febrruary,25,2000.
[16]S. Renals, “Radial basis function for speech pattern classification”
[17]Takuichi Nishimura, Hiroki Hashiguchi, Junko Takita, J. Xin Zhang, Ryuichi Oka: “Music Signal Spotting Retrieval by Humming Query Using Model Driven Path Continuous Dynamic Programming”.
[18]Xi Shao, Changsheng Xu, Mohan S Kankanhalli, "Applying neural network on content- base audio classification".