Ký hiệu Tên đầy đủ Ý nghĩa ACT Audio Classification Technologies các kỹ thuật phân lớp âm thanh API Application Programming hệ quản trị cơ sở dữ liệu DCT Discrete Cosine Transform biến
Trang 1Lê Thị Cẩm Bình
TÌM KIẾM ÂM THANH THEO NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
LUẬN VĂN THẠC SĨ
Trang 3PGS.TS Đặng Văn Đức - H : ĐHCN, 2007 - 96 tr + CD-ROM
Lời cảm ơn 1
Danh mục các ký hiệu, chữ viết tắt 2
Mở đầu 4
Chương 1 Tổng quan về CSDL đa phương tiện, khái niệm cơ sở 7
1.1 Một số khái niệm cơ sở 8
1.1.1 Dữ liệu đa phương tiện 8
1.1.2 Hệ thống quản trị CSDL đa phương tiện 10
1.1.3 Truy tìm thông tin 12
1.1.3.1 Đo tính tương tự 13
1.1.3.2 Các kiểu truy vấn 14
1.2 Kiến trúc hệ thống quản trị CSDL đa phương tiện 18
1.3 Một số hệ thống CSDL đa phương tiện hiện có 20
1.3.1 Quá trình phát triển 20
1.3.1.1 Giai đoạn 1 21
1.3.1.2 Giai đoạn 2 21
1.3.1.3 Giai đoạn 3 25
1.3.2 Vấn đề đối với các hệ thống CSDL đa phương tiện hiện nay 27
Chương 2 Một số phương pháp, giái thuật trích chọn đặc trưng âm thanh 29
2.1 Đặc trưng chính của âm thanh 29
2.1.1 Đặc trưng miền thời gian 29
2.1.1.1 Năng lượng trung bình 29
2.1.1.2 Tốc độ vượt qua 0 30
2.1.1.3 Tỷ lệ câm 32
2.1.2 Đặc trưng miền tần số 32
2.1.2.1 Phổ âm thanh 33
Trang 42.1.2.5 Cao độ 35
2.1.3 Ảnh phổ 35
2.2 CSDL âm thanh 37
2.2.1 Mô hình tổng quát của dữ liệu âm thanh 37
2.2.1.1 Biểu diễn nội dung âm thanh bằng metadata 37
2.2.1.2 Nội dung âm thanh trên cơ sở tín hiệu 37
2.2.2 Thu thập nội dung âm thanh thông qua biến đổi rời rạc 41
2.2.3 Chỉ số hóa dữ liệu âm thanh 42
2.3 Phân lớp âm thanh 43
2.3.1 Đặc điểm chính của các lớp âm thanh 45
2.3.2 Phân lớp âm thanh 45
2.3.2.1 Phân lớp âm thanh theo từng bước 45
2.3.2.2 Phân lớp âm thanh theo vectơ đặc trưng 47
2.3.2.3 Phân lớp âm thanh ứng dụng mạng nơron 47
2.3.3 Chỉ số hóa và truy tìm âm thanh 53
2.3.3.1 Nhận dạng và truy tìm tiếng nói 54
2.3.3.2 Nhận dạng và truy tìm âm nhạc 70
Chương III Phát triển ứngdụng truy tìm âm thanh trên cơ sở nội dung 80
3.1 Yêu cầu hệ thống 80
3.1.1 Yêu cầu phần cứng 80
3.1.2 Yêu cầu phần mềm 80
3.2 Giới thiệu thư viện chương trình ACTNow C/C++ 81
3.2.1 Create/Delete 81
3.2.2 Error code 81
3.2.3 Handle 81
3.2.4 Phrase 82
3.2.5 Sound clip 83
3.2.6 Music 84
3.2.7 Speaker 84
3.2.8 Item Detector 85
Trang 53.3.1.2 Tính toán đặc trưng 88
3.3.1.3 Mô hình huấn luyện 88
3.3.1.4 Quá trình huấn luyện 88
3.3.1.5 Phân lớp 88
3.3.1.6 Kết quả 89
3.3.2 Sơ đồ khối chức năng 89
3.3.3 Giao diện chương trình 90
3.3.3.1 Detection 90
3.3.3.2 Huấn luyện Detection 91
3.3.3.3 Kết quả từ bộ phân tích 91
3.3.3.4 Detector 92
3.3.4 Kết quả đạt được 92
Kết luận 94
Tài liệu tham khảo 95
Trang 6LỜI CÁM ƠN
rước tiên, tôi xin phép được bày tỏ lời cảm ơn chân thành tới PGS.TS Đặng Văn Đức- Viện Công nghệ thông tin, người thầy luôn nhiệt tình hướng dẫn, cung cấp các tài liệu hữu ích và giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn
Tôi xin cám ơn các thầy cô giáo Khoa Công nghệ thông tin đã truyền đạt những kiến thức quí báu, bổ trợ cho đề tài luận văn của tôi, xin cảm ơn các Phòng ban chức năng của Trường Đại học Công nghệ, các bạn học viên lớp Cao học K11T2 và gia đình đã tạo điều kiện, giúp
đỡ tôi trong quá trình học tập và hoàn thành luận văn này
T
Trang 7Ký hiệu Tên đầy đủ Ý nghĩa
ACT Audio Classification
Technologies
các kỹ thuật phân lớp âm thanh
API Application Programming
hệ quản trị cơ sở dữ liệu
DCT Discrete Cosine Transform biến đổi cosin rời rạc
DFT Discrete Fourier Transform biến đổi Fourier rời rạc
EBF Elliptical Basis Function hàm cơ sở êlíp
EED diagonal covariance
matrices
ma trận đồng biến chéo
EM Expectation Maximization giải thuật khả năng cực đại FAR false acceptance rate tỷ lệ chấp nhận sai số
FRR false rejection rate tỷ lệ từ chối sai số
HMM Hidden Markov Model mô hình Markov ẩn
HZCRR High Zero- Crossing Rate
Ratio
tỷ lệ tốc độ vƣợt qua 0 cao
IDFT Inverse Discrete Fourier
Transform
biến đổi Fourier liên tục
IR Information Retrieval hệ thống truy tìm thông tin
KNN K-Nearest- Neighbours
query
Truy vấn lân cận K gần nhất
Trang 8Quantization
MARS Multimedia Analysis and
Retrieval System
hệ thống chỉ mục và phân tích đa phương tiện
MDC Multimedia Data Cartridge môđun chứa dữ liệu đa phương
tiện
MIDI Musical Instrument Digital
Interface
giao diện số cho nhạc cụ
MIRS multimedia Indexing and
Retrieval System
hệ thống chỉ mục và truy tìm thông tin đa phương tiện
MMDBMS MultiMedia DataBase
Management System
hệ quản trị cơ sở dữ liệu đa phương tiện
OS Operating System hệ điều hành
QoS Quality of Service chất lượng dịch vụ
RBF Radial Basis Function hàm cơ sở xuyên tâm
RF Relevance Feedback truy vấn phản hồi thích hợp SDK Software Development Kit công cụ phát triển phần mềm
ZCR Zero Crossing Rate tốc độ vượt qua 0
Trang 9MỞ ĐẦU
Internet phát triển cùng với sự gia tăng của thông tin đa phương tiện dưới nhiều dạng khác nhau Chưa bao giờ người dùng lại có nhiều cơ hội lựa chọn và tận hưởng những gì mà đa phương tiện đem lại như ngày nay Trong
số đó, âm thanh kỹ thuật số kết hợp với các dịch vụ có ý nghĩa thực tiễn và quan trọng trong nhiều lĩnh vực kinh tế xã hội như các dịch vụ truyền hình, đài phát thanh, hội thảo truyền hình qua mạng, xem video, tìm kiếm âm nhạc theo yêu cầu, hỗ trợ người khiếm thị sử dụng máy tính, và đặc biệt là trong
an ninh quốc phòng, như phân biệt giọng nói của một đối tượng hình sự với giọng nói của người khác, phân biệt các ngôn ngữ tự nhiên thuộc một lớp các ngôn ngữ nào đó, trong an ninh thông tin khi kiểm soát tự động…
Thực tế đó cũng mở ra một nhu cầu truy cập vào những thư viện âm thanh khổng lồ Nhu cầu đó đòi hỏi một công nghệ tìm kiếm hiệu quả để tổ chức, sắp xếp, truy tìm các nội dung âm thanh, cũng như có thể xử lý hàng trăm tỷ trang web hỗn độn trên mạng và các thiết bị lưu trữ trên các máy tính
cá nhân Mặc dù trước đây, công cụ tìm kiếm bằng từ khoá đã làm nên một cuộc cách mạng, ảnh hưởng lớn đến cách người dùng Internet để lấy thông tin, nhưng nhiều ứng dụng âm thanh và đa phương tiện còn đem lại nhiều lợi ích hơn thế nếu thể hiện bằng nội dung của chúng thay cho việc mô tả hoặc dùng các từ khóa
Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng như Yahoo, Google hay Alta Vista đã và đang triển khai các hoạt động nghiên cứu theo cách tìm kiếm theo nội dung thay vì từ khóa Yahoo bắt đầu thử nghiệm dịch
vụ tìm kiếm tệp âm thanh Yahoo Audio (http://audio.search.yahoo.com) từ ngày 2 tháng 8 năm 2005 Dịch vụ này cho phép người sử dụng tìm kiếm 50 triệu bài hát và tệp âm thanh miễn phí qua Internet Người dùng chỉ cần gõ
Trang 10những từ hoặc cụm từ liên quan đến bài hát và Yahoo sẽ liệt kê một danh sách các file âm thanh, cho phép khách hàng nghe trực tuyến Công cụ tìm kiếm
âm nhạc này hoạt động dựa trên khả năng đọc nội dung được nhúng trong tệp
âm thanh, còn được gọi là metadata, để phân loại kết quả tìm kiếm Hãng IBM dự định cung cấp cho các nhà phát triển phần mềm chương trình UIMA (Unstructured Information Management Architecture - Sơ đồ quản lý thông tin không kết cấu), một công nghệ có khả năng phân tích văn bản và những file nghe nhìn khác để hiểu những ý nghĩa, mối quan hệ và số liệu tiềm ẩn bên trong tài liệu (http://www.alphaworks.ibm.com/tech/uima/) Hiện nay, khoảng
15 công ty đã quyết định sử dụng UIMA để tìm kiếm và phân tích văn bản cho những dữ liệu đa phương tiện của họ IBM cũng đồng thời xây dựng phần mềm WebSphere OmniFind nhằm hỗ trợ người sử dụng thực hiện tìm kiếm thông tin đa phương tiện trên nhiều định dạng và ngôn ngữ khác nhau như trong cơ sở dữ liệu, e-mail, và file âm thanh Phương pháp tìm kiếm dữ liệu kiểu mới là kết quả hơn 4 năm phát triển của IBM và UIMA đã được phổ biến rộng rãi vào cuối năm 2005 Quaero (tiếng Latin nghĩa là tìm kiếm) là một dự
án về công cụ tìm kiếm đa phương tiện của châu Âu (Pháp và Đức) Các chuyên gia thiết kế muốn Quaero sẽ không chỉ đóng vai trò như một chương trình tìm kiếm mà còn là công cụ dịch thuật, phân loại hình ảnh, âm thanh
Tại Việt nam những năm qua, các công cụ tìm kiếm dữ liệu đa phương tiện, trong đó các công cụ tìm kiếm và nhận dạng dữ liệu âm thanh đã dần được chú ý Ví dụ, phòng nhận dạng và công nghệ tri thức- Viện công nghệ thông tin đã giới thiệu một số sản phẩm phần mềm có ý nghĩa thực tế rất cao như: tổng hợp và xử lý ngôn ngữ tiếng Việt, nghiên cứu và tiếp cận các kỹ thuật mới của công nghệ tổng hợp và nhận dạng tiếng nói trên thế giới để áp dụng trong hoàn cảnh Việt nam và âm thanh tiếng Việt, nghiên cứu các
Trang 11phương pháp xử lý tín hiệu số và tín hiệu tiếng nói, các phương pháp tìm đặc trưng âm thanh
Các sản phẩm nêu trên đã đáp ứng được phần nào nhu cầu tìm kiếm và nhận dạng dữ liệu âm thanh Tuy nhiên, các công trình nghiên cứu về tìm kiếm âm thanh theo nội dung vẫn còn hiếm hoặc chưa tương xứng với tầm quan trọng của nó trong hiện tại và tương lai Mặt khác, việc hiểu biết sâu sắc
về âm thanh cũng như các khái niệm, thuật toán liên quan sẽ giúp ta ứng dụng
và xây dựng các hệ thống tìm kiếm âm thanh phù hợp, hiệu quả hơn Xuất phát từ những vấn đề nêu trên, luận văn đã tập trung nghiên cứu về vấn đề
"Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện"
Cấu trúc của luận văn như sau:
Chương I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN- MỘT SỐ KHÁI NIỆM CƠ SỞ.
Chương II. MỘT SỐ PHƯƠNG PHÁP VÀ GIẢI THUẬT TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH.
Chương III PHÁT TRIỂN ỨNG DỤNG TÌM ÂM THANH TRÊN CƠ SỞ NỘI DUNG
Trang 12Chương I
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
- MỘT SỐ KHÁI NIỆM CƠ SỞ
Trong những năm gần đây, nhu cầu sử dụng thông tin đa phương tiện ngày càng lớn Chúng được sử dụng trong đời sống hàng ngày của con người
và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác Mặt khác, sự tiến bộ của công nghệ truyền thông và máy tính đã tạo điều kiện cho thông tin đa phương tiện phát triển mạnh mẽ, có thể kể đến như:
Tốc độ máy tính
Tốc độ máy tính được cải thiện đáng kể Theo thống kê, cứ sau 18 tháng, tốc độ của máy tính tăng lên gấp đôi
Băng thông mạng ngày càng lớn
Người ta ước tính, cứ sau mỗi 12 tháng, băng thông của các hệ thông tin tăng gấp ba lần
Sự xuất hiện đa dạng của các thiết bị vào/ ra kỹ thuật số
Ti vi, CD, máy ảnh, máy ghi hình kỹ thuật số là các thiết bị cho phép
dễ dàng tạo lập, sửa đổi, truyền, sao chép và quản lý các dữ liệu đa phương tiện
Các hệ thống cơ sở dữ liệu đa phương tiện là mục tiêu và đem lại lợi ích cho nhiều đối tượng sử dụng Ví dụ, các cá nhân lưu trữ và sở hữu một lượng lớn dữ liệu đa phương tiện trên máy tính của mình, họ có thể sử dụng
hệ thống để thực hiện các truy vấn như tìm kiếm các đoạn, cảnh nào đó trong phim Các công ty chuyên cung cấp và khai thác dịch vụ đa phương tiện như các dịch vụ tìm kiếm video của Google Các tổ chức, ban ngành có quản lý
và lưu trữ dữ liệu đa phương tiện như Bộ Văn hóa, Bộ Công an, Cục quản lý xuất nhập cảnh
Trang 131.1 MỘT SỐ KHÁI NIỆM CƠ SỞ
1.1.1 Dữ liệu đa phương tiện
Đa phương tiện (multimedia) là một phương pháp giới thiệu thông tin trên máy tính bằng cách sử dụng nhiều phương tiện truyền thông tin như: Text (văn bản), graphic (biểu đồ, đồ thị), animation (hoạt hình), image (ảnh), video, audio, hoặc kết hợp các media với nhau (video + audio + văn bản diễn giải)
Người ta thường phân thành media thành hai loại dựa trên quan hệ của chúng với thời gian Đó là:
Static media: Không có chiều thời gian Thông tin không liên quan tới thời gian Ví dụ cho loại này là văn bản, hình họa, ảnh chụp
Dynamic media: Có chiều thời gian Thông tin có quan hệ chặt chẽ với thời gian và thông tin phải được trình diễn với thời gian xác định Ví dụ các loại audio, video, animation, game online
So với dữ liệu truyền thống như văn bản và số, dữ liệu đa phương tiện
có một số đặc điểm rất khác biệt, đó là:
Kích thước và số lượng dữ liệu đồ sộ
- Kích thước dữ liệu lớn: dữ liệu đa phương tiện có kích thước lớn hơn nhiều so với các kiểu dữ liệu số và văn bản thông thường Một văn bản thô có
200 từ (khoảng 1000 ký tự) chỉ có kích thước là 1kByte, nhưng nếu lưu văn bản đó bằng định dạng ảnh GIF thì kích thước gấp khoảng 10 lần Một giọng nói đơn sắc được lưu với định dạng WAV trong thời gian 1 phút có kích thước khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6-8 MB (chưa nén) Một cảnh video rất ngắn chứa hàng trăm bức ảnh với kích thước có thể lên đến hàng chục MB , xem bảng minh họa:
Trang 14Kiểu Mô tả Kích thước Plain text khoảng 200 từ (1000 ký tự) 1 kByte tệp Winword khoảng 200 từ (1000 ký tự) 15 kByte Ảnh GIF khoảng 200 từ (1000 ký tự, 210 x 100mm) 10 kByte
Âm thanh WAVE giọng nói (1 phút, 22KHz, 16 bit, mono) 2640 kByte
- Số lượng dữ liệu đồ sộ: người ta ước tính, chỉ riêng trên WWW có số lượng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệu phim video
Một số dữ liệu đa phương tiện phụ thuộc thời gian
Audio và video có thêm chiều thời gian Khi trình diễn audio và video thì chất lượng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn Ví dụ, video phải được trình diễn với tốc độ 25 đến 30 hình/giây để có thể cảm nhận được hình ảnh chuyển động trơn tru
Tìm kiếm dựa trên cơ sở tương tự
Trong cơ sở dữ liệu quan hệ, phương pháp tìm kiếm truyền thống đối với dữ liệu dạng văn bản và số là tìm kiếm chính xác, hay còn gọi là "exact search" Đối với dữ liệu đa phương tiện, người dùng thường đặt ra yêu cầu tìm kiếm một đối tượng tương tự theo nội dung mà họ đưa ra Ví dụ, một nghiên cứu khoa học cho biết con người có khả năng nhận biết một bài hát thông qua giai điệu (humming) tốt hơn thông qua tên bài hát Mặt khác, có rất nhiều bài hát có cùng tên và chỉ khác nhau về giai điệu Vì vậy, việc tìm kiếm một bài hát dựa trên giai điệu sẽ đáp ứng tốt hơn nhu cầu đầy tiềm năng của ngành công nghiệp giải trí
Tuy nhiên, việc tìm kiếm tương tự có thể phải dựa trên các đặc trưng phức tạp (ví dụ, video có thể chứa văn bản, âm thanh, hình ảnh )
Trang 15 Đồng bộ
Một số ứng dụng đa phương tiện sử dụng hệ thống thời gian thực Hệ thống thời gian thực là hệ thống mà trong đó sự đúng đắn của việc thực hiện thao tác không chỉ phụ thuộc vào việc thu được kết quả đúng mà còn phải đưa
ra kết quả đúng thời điểm Ví dụ, các tệp phim, bài giảng, truyền hình trực tiếp, hội nghị, hội thảo qua mạng (video conference), xem video theo yêu cầu (video on demand) thì yêu cầu hình ảnh phải được đồng bộ với âm thanh
Chất lượng dịch vụ (Quality of Service- QoS)
QoS là một tập các yêu cầu về chất lượng đối với các hoạt động tổng thể chung của một hoặc nhiều đối tượng Các tham số QoS mô tả tốc độ và độ tin cậy của việc truyền dữ liệu như thông lượng, trễ, tỷ lệ lỗi Các ứng dụng
đa phương tiện khi truyền qua mạng thường đòi hỏi yêu cầu cao về QoS, nhất
là các dịch vụ đa phương tiện tương tác thời gian thực như điện thoại internet, hội thảo qua mạng Các dịch vụ này thường đòi hỏi khắt khe về độ trễ (tối đa
là vài trăm ms) Để xác định QoS, người ta dựa vào các tham số sau đây:
- Độ trễ: là khoảng thời gian cực đại để truyền dữ liệu
- Jitter: là độ biến đổi độ trễ
- Thông lượng: là tổng số dữ liệu cực đại được truyền đi trên một đơn
vị thời gian
- Tỷ số mất tin: là số dữ liệu cực đại bị mất trên một đơn vị thời gian
1.1.2 Hệ thống quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)
Hệ thống quản trị cơ sở dữ liệu đa phương tiện là hệ thống tổ chức và lưu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tượng
Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống quản trị cơ sở dữ liệu đa phương tiện là một cơ cấu tổ chức quản lý các kiểu
Trang 16dữ liệu khác nhau, có khả năng thể hiện trong các định dạng trên một phạm vi các nguồn phương tiện đa dạng
Lượng dữ liệu đa phương tiện phát sinh theo nhu cầu hiện nay được lưu trữ là một con số khổng lồ Chỉ riêng với dữ liệu video, người ta ước tính có khoảng 21264 trạm truyền hình phát 16 giờ hàng ngày, sinh ra khoảng 31 tỉ giờ[4] Tuy nhiên, các hệ quản trị cơ sở dữ liệu đã được sử dụng rộng rãi như
cơ sở dữ liệu quan hệ, chủ yếu tập trung vào quản lý các tài liệu văn bản thì không đáp ứng đầy đủ đối với việc quản lý các dữ liệu đa phương tiện, bởi các tính chất cũng như các yêu cầu đặc biệt của chúng như đã nêu ở trên Do
đó, hệ thống quản trị cơ sở dữ liệu đa phương tiện là sự cần thiết để quản lý
dữ liệu đa phương tiện một cách có hiệu quả
Các đặc trưng chủ yếu của MMDBMS bao gồm:
Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phương
tiện được lưu trữ để quản lý gồm cả các thiết bị bên trong và bên ngoài máy tính, ví dụ dữ liệu lưu trữ trên CD ROM
Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể
đưa ra một mô tả để tìm kiếm "tiếng chuông điện thoại"
Giao diện người dùng độc lập với thiết bị: người dùng không cần biết
cách thức lưu trữ dữ liệu đa phương tiện như thế nào
Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu
đa phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sử dụng các kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có
Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa
phương tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thực hiện, và cần có cơ chế để thỏa mãn việc tránh tạo ra các xung đột
Trang 17 Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ
và quản lý lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của
dữ liệu
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều
khiển việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực Do lượng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền
dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải được thực hiện một cách chính xác
1.1.3 Truy tìm thông tin
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tập các đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truy vấn, và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đã lưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây:
- Sử dụng một khối lượng dữ liệu đặc tả lớn và phức tạp
- Việc tiếp cận IR chủ yếu dựa trên các đặc trưng
- Các dữ liệu thường có kích thước lớn
- Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thước lớn để xử
lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phương pháp tìm kiếm tuần tự
- Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cách thường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hình dạng, biểu đồ màu, kết cấu )
Ý tưởng của phương pháp tìm kiếm tương tự đưa ra như sau:
- Cho một tập các đối tượng đa phương tiện trong MMDBMS
Trang 18- Tìm ra một hoặc một số K đối tượng tương tự (giống) nhất với đối tượng truy vấn mong muốn một cách nhanh chóng
Gọi D(P,Q) là hàm khoảng cách về tính tương tự giữa P và Q
- Truy vấn
Khi người sử dụng truy vấn thông tin thì câu truy vấn thông tin của người sử dụng được trích chọn các đặc trưng chính Kết quả được vectơ truy vấn
Trang 19- Tính bất biến (Constancy of Self- Similarity): D(P,P) = 0
- Tính tuyệt đối (Positivity): D(P,Q)>0 nếu P Q
- Tính không đều tam giác (Triangular Inequality): D(P,Q) D(P,O)+D(Q,O)
Kết quả (danh sách các kết quả
có giá trị d nhỏ nhất)
Trang 20Open Database "MMBook";
Play VideoDevice, Book="Jaws", Scene("Rating=PG13"), Clip;
Play VideoDevice, Book("Type=Adventure"), Clip
Where Like("Shark");
Về phương pháp, MMDBMS thường áp dụng một số loại truy vấn sau đây:
Truy vấn dải (Range Query)
Mục đích của phương pháp truy vấn dải là tìm các đối tượng trong cơ
sở dữ liệu, cho phép có giá trị sai số chấp nhận được Truy vấn dải được mô
Hình 2 Minh họa phương pháp truy vấn dải
Loại bỏ P nếu D(P,Q) > , loại bỏ O nếu D(P,Q)-D(P,O)>
do D(O,Q)>=D(P,Q)-D(P,O)
O
Q
D(P,O)
D(P,Q)
P
Trang 21Tuy nhiên, kiểu truy vấn dải có nhược điểm là có thể hoặc đưa ra quá nhiều, hoặc không đưa ra kết quả nào nếu giá trị sai số không hợp lý, xem hình minh hoạ dưới đây:
Hình 3 a, quá nhiều kết quả b, không có kết quả
Truy vấn lân cận K gần nhất KNN (K-Nearest- Neighbours query)
Phương pháp truy vấn KNN có thể khắc phục nhược điểm nêu trên của phương pháp truy vấn dải
Truy vấn KNN được mô tả như sau:
- Người dùng đặc tả một đối tượng truy vấn Q và chấp nhận một số lượng K đối tượng
- Hệ thống tìm kiếm K đối tượng tương tự nhất với đối tượng truy vấn
từ MMDBMS: K = |A|, ADB, PA, P'DB-A; D(P,Q) D(P',Q)
Hình 4 Minh họa phương pháp truy vấn KNN
1st NN
Q 2nd NN 3rd NN K-th NN
Trang 22 Truy vấn xấp xỉ lân cận K gần nhất (Approximate KNN Query)
Đối với các ứng dụng mà mục tiêu đưa ra không phải là tìm kết quả thật chính xác mà xét tốc độ là quan trọng hơn, khi đó phương pháp truy vấn theo xấp xỉ lân cận K gần nhất cho hiệu quả cao hơn phương pháp KNN nêu trên Truy vấn xấp xỉ lân cận K gần nhất mô tả như sau:
- Người dùng đặc tả một đối tượng truy vấn Q, một số K đối tượng và sai số chấp nhận được
- Hệ thống tìm kiếm xấp xỉ K đối tượng tương tự nhất với đối tượng truy vấn từ MMDBMS: K = |A|, ADB, PA, P'DB-A; D(P,Q)
(1+)D(P',Q)
Truy vấn phản hồi thích hợp RF (Relevance Feedback)
Truy vấn phản hồi thích hợp là phương pháp dựa trên quyết định của người dùng về tính thích hợp của các kết quả, từ đó điều chỉnh truy vấn sao cho thích hợp Kiến trúc chung của phương pháp RF được mô tả như sau:
Hình 5 Kiến trúc chung của phương pháp RF
Trang 23Phương pháp truy vấn phản hồi thích hợp thường được áp dụng trong trường hợp mà các phương pháp truy vấn khác không tìm ra kết quả thỏa mãn yêu cầu của người dùng Các câu truy vấn thích hợp là cách làm tăng hiệu quả
để đem lại kết quả tối ưu
1.2 KIẾN TRÚC HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Phát triển một MMDBMS bao gồm các bước sau:
Trang 24Hình 6 Kiến trúc chung của một MMDBMS
Hệ thống cơ sở dữ liệu đa phương tiện có nhiều môđun chức năng khác nhau nhằm hỗ trợ các thao tác trên dữ liệu đa phương tiện Bao gồm các môđun chính sau đây:
- Giao diện người dùng
- Bộ trích chọn đặc trưng
- Chỉ số hóa và môtơ tìm kiếm
- Quản lý truyền thông
Trong đó, có hai thao tác cơ bản là:
Bổ sung dữ liệu đa phương tiện mới
Thao tác bổ sung được thực hiện theo trình tự các bước như sau:
- Bước 1 Dữ liệu đa phương tiện mới được bổ sung thông qua nhiều cách khác nhau như nhập trực tiếp từ bàn phím, từ microphone hay từ bất kỳ thiết bị nhập kỹ thuật số khác Dữ liệu đa phương tiện cũng có thể được lấy từ các tệp đã lưu sẵn
- Bước 2 Sau khi dữ liệu đa phương tiện được bổ sung, nội dung của chúng được trích chọn bằng công cụ trích chọn đặc trưng
Các đối tượng media
Trích chọn đặc trưng
nén
Chỉ mục
Xây dựng truy vân đặc trưng
Search engine
Xây dựng truy vấn phản hồi
Người dùng
phản hồi
truy vấn
kết quả MM
DB
MS
Trang 25- Bước 3 Các dữ liệu đa phương tiện được bổ sung cùng với các đặc trưng của nó, thông qua bộ quản lý truyền tin sẽ được gửi về máy chủ
- Bước 4 Tại máy chủ, các đặc trưng sẽ được bố trí về các vị trí phù hợp dựa vào lược đồ chỉ số hóa
- Bước 5 Các dữ liệu đa phương tiện bổ sung cùng với các đặc trưng và chỉ số hóa phát sinh được lưu vào bộ quản lý lưu trữ
Truy vấn
Thao tác truy vấn được thực hiện theo trình tự các bước như sau:
- Bước 1 Tại giao diện người dùng, người sử dụng truy vấn thông tin thông qua một thiết bị nhập nào đó, thông qua tệp đã được lưu trước
đó hoặc có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS
- Bước 2 Nếu truy vấn của người sử dụng không được lấy trực tiếp từ cơ sở dữ liệu trong MMDBMS thì thực hiện như sau:
+ Thực hiện trích chọn đặc trưng truy vấn + Gửi các trích chọn đặc trưng đó đến máy chủ + Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy vấn trong cơ sở dữ liệu
+ Hiển thị kết quả đến người sử dụng thông qua giao diện người dùng
1.3 MỘT SỐ HỆ THỐNG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN HIỆN CÓ
1.3.1 Quá trình phát triển
Kể từ khi hệ thống cơ sở dữ liệu đa phương tiện ORION đầu tiên ra đời
và phát triển vào năm 1987, các phạm vi và ứng dụng về cơ sở dữ liệu đa phương tiện đã trải qua sự phát triển to lớn
Trang 26Theo Harald Kosch và Mario Döller thuộc Viện Công nghệ thông tin, Đại học Klagenfurt, Klagenfurt của Áo [7] thì quá trình phát triển của các hệ thống cơ sở dữ liệu đa phương tiện đã trải qua ba giai đoạn sau đây:
1.3.1.1 Giai đoạn I:
Những hệ thống cơ sở dữ liệu đa phương tiện thứ nhất phụ thuộc chủ yếu vào Hệ điều hành để lưu trữ và truy tìm tệp Vào giữa những năm 90 của thế kỷ XX, xuất hiện các hệ thống cơ sở dữ liệu đa phương tiện thương mại bắt đầu được xây dựng Ví dụ: MediaDB (hay MediaWay), JASMIN và ITASCA Chúng có khả năng quản lý các loại dữ liệu khác nhau và có khả năng truy tìm, bổ sung và cập nhật dữ liệu Một số trong chúng bị biến mất trên thị trường sau vài năm thương mại Một số được nâng cấp theo tiến bộ của công nghệ phần cứng và phần mềm và thay đổi ứng dụng Ví dụ MediaWay có khả năng hỗ trợ rất nhiều kiểu dữ liệu khác nhau từ ảnh, video đến các tài liệu PowerPoint Thông tin thêm có thể xem tại địa chỉ (http://ww.mediaway.com)
1.3.1.2 Giai đoạn II
Các hệ thống thương mại với khả năng quản lý nội dung đa phương tiện nhờ có khả năng hỗ trợ kiểu dữ liệu phức hợp cho các kiểu media khác nhau Tiệm cận hướng đối tượng cho khả năng định nghĩa các kiểu dữ liệu và các thao tác mới phù hợp với các kiểu media mới như video, ảnh và audio Do vậy các hệ thống cơ sở dữ liệu đa phương tiện thương mại được sử dụng rộng rãi là trên cơ sở DBMS quan hệ-mở rộng (ORDBMS) Từ những năm 1996-
1998, khởi đầu là Informix bán trên thị trường ORDBMS Các công việc tiếp theo là mở rộng dịch vụ tìm kiếm (hầu hết là theo tính tương tự) video, audio
và các công cụ trình diễn, duyệt
Các giải pháp nâng cao mới nhất được thương mại hóa là của Oracle 10g, IBM DB2 và IBM Informix Chúng đều có tiệm cận tương tự trong việc
Trang 27mở rộng hệ thống cơ sở Ví dụ, ta có thể thấy được sự mở rộng của cơ sở dữ liệu IBM DB2 rất phổ biến
IBM DB2 Universal Database Extenders mở rộng quản trị ORDBMS với ảnh, video, audio và các đối tượng không gian Mọi kiểu dữ liệu này đều được mô hình hóa, xâm nhập, xử lý trong cùng khung làm việc Các tính chất của Extender bao gồm xuất, nhập các đối tượng đa phương tiện và các thuộc tính của chúng vào/ra CSDL, điều khiển xâm nhập các kiểu dữ liệu phi truyền thống với cùng mức bảo vệ của dữ liệu truyền thống, duyệt và trình diễn các đối tượng truy tìm từ CSDL
Ví dụ, DB2 Extender định nghĩa kiểu dữ liệu DB2IMAGE với các chức năng do người dùng định nghĩa để lưu trữ và xử lý các tệp ảnh Thông tin thêm có thể xem tại: (http://www-306.ibm.com/software/data/db2/extenders/) Nội dung của các tệp ảnh này có thể lưu trữ như BLOB hay bên ngoài CSDL như trong tệp hệ thống Ví dụ sử dụng lệnh chèn SQL để lưu trữ ảnh vào cột
có tên image trong bảng example Trong trường hợp này, ảnh lấy từ tệp trên máy chủ và được lưu trữ như BLOB trong CSDL:
INSERT INTO example (image) VALUES(
DB2IMAGE ( CURRENT SERVER, 'pisa.jpg', /* source_file*/
Trang 28Các chức năng tìm kiếm tương tự của DB2 Image Extender được xây dựng trên cơ sở công nghệ QBIC (http://wwwqbic.almaden.ibm.com/) cho những ảnh lưu trữ theo kiểu DB2IMAGE Công nghệ QBIC có khả năng truy vấn, tìm kiếm ảnh trên cơ sở nội dung của chúng Ví dụ câu truy vấn SQL thực hiện truy vấn QBIC, sau đó xếp hạng ảnh trong cột trên cơ sở màu trung bình tương tự với màu đỏ:
SELECT CONTENTS (image)
QBScoreFROMStr(„averageColor=<255,0,0>‟, image) AS SCORE FROM signs ORDER BY SCORE
Bên cạnh đó, một số dự án nghiên cứu cũng đã cài đặt các hệ thống MMDBMS đầy đủ Các dự án đã được thử nghiệm thành công bao gồm:
Dự án mới kết thúc thành công có tên MIRROR (Multimedia Information Retrieval Reducing information OveRload) tại Đại học Twente Đây là nghiên cứu nhằm trước hết phục vụ cho phát triển ứng dụng thư viện
số Tính chất chính của nó là tiệm cận tích hợp quản lý cả hai theo nội dung
và dữ liệu có cấu trúc truyền thống MIRROR được cài đặt trên đỉnh của ORDBMS Monet Trên đỉnh MIRROR là hệ thống ACOI, đó là môi trường
hỗ trợ chỉ mục và truy tìm dữ liệu ảnh, video Hệ thống có kiến trúc plug-in
để có thể thực hiện chỉ mục các đối tượng đa phương tiện bằng các thuật toán trích chọn đặc trưng khác nhau Thông tin về MIRROR có thể xem tại địa chỉ: (http://wwwhome.cs.utwente.nl/~arjen/mmdb.html)
MIRROR được xây dựng trên hệ thống ACOI (http://monetdb.cwi.nl/acoi/) Hình sau đây cho thấy kiến trúc hệ thống của MMDBMS:
Trang 29Hình 7 Hệ thống ACOI/MIRROR
Một dự án khác có tên DISIMA (Distributed Multimedia DBMS) phát triển tại đại học University of Alberta Đây là hệ thống CSDL ảnh cho khả năng truy tìm theo nội dung Thông tin thêm về dự án có thể xem tại địa chỉ:
(http://db.uwaterloo.ca/~ddbms/projects/multimedia/)
nguồnmedia kiểu nội dung
Phát hiện đặc trưng Sơ đồ đặc trưng
media và meta-data
xử lý truy vấn
và tối ưu MIRROR
COBRA
người dùng
Trang 30Hình 8 Hệ thống DISIMA
DISIMA được xây dựng trên cơ sở DBMS ObjectStore Câu truy vấn được chỉ ra bằng ngôn ngữ MOQL, là mở rộng của ngôn ngữ OQL với khả năng truy vấn theo không gian và thời gian, nó còn có khả năng định nghĩa các đặc tả trình diễn Ví dụ, câu truy vấn đơn giản sau cho phép tìm kiếm các ảnh trong đó có hình dạng người (giả sử rằng các bảng m và p được định nghĩa trước):
SELECT m
FROM Images m, Persons p
WHERE m contains p
1.3.1.3 Giai đoạn III
Giai đoạn thứ ba bao gồm các dự án đang thực hiện hoặc mới kết thúc Các dự án này chủ yếu tập trung vào các ứng dụng giàu nội dung ngữ nghĩa
VisualMOQL MOQL
quản lý meta-data
lưu đối tượng
cơ sở dữ liệu back-end
Trang 31Phần lớn chúng được xây dựng trên các chuẩn MPEG mới (MPEG-7 và MPEG-21)
MPEG-7 là chuẩn ISO/IEC 15938 được đề xuất vào năm 2002 với tên hình thức là Multimedia Content Desciption Interface Mục tiêu là tạo ra chuẩn để mô tả dữ liệu nội dung đa phương tiện Mục tiêu chính của chuẩn này là cung ấp cơ chế mô tả ngữ nghĩa và cấu trúc cho nội dung đa phương tiện Các bộ mô tả MPEG-7 được thiết kế để mô tả các kiểu thông tin khác nhau, từ các đặc trưng nghe- nhìn mức thấp đến các đối tượng ngữ nghĩa mức cao Phần lớn các bộ mô tả tương ứng với mức thấp có thể được trích chọn tự động, trong khi đó cần có can thiệp của con người để sinh ra các bộ mô tả mức cao XML được sử dụng để làm khuôn dạng biểu diễn các bộ mô tả MPEG-7 Đồng thời MPEG-7 DDL (Description Definition Language) là mở rộng lược đồ XML Sơ đồ XML cung cấp phương tiện mô tả cấu trúc tài liệu XML, bao gồm, các kiểu dữ liệu đơn và phức, suy diễn và kế thừa kiểu, ràng buộc các phần tử, khai báo các thuộc tính Tóm lại MPEG-7 là chuẩn về metadata đa phương tiện trên cơ sở XML, nó đưa ra các phần tử mô tả cho chu kỳ xử lý đa phương tiện từ thu thập, phân tích/lọc đến phân phát và tương tác
MPEG-21 là chuẩn ISO/IEC 21000, nó định nghĩa khung làm việc của
đa phương tiện mở Phần lớn nội dung của chuẩn này còn đang được xây dựng
Cả hai chuẩn MPEG-7 và MPEG-21 ảnh hưởng rất lớn đến việc thiết
kế, cài đặt các sản phẩm đa phương tiện hiện thời
Dự án MARS (Multimedia Analysis and Retrieval System) đang được thực hiện tại đại học Illinois nhằm mục đích xây dựng hệ thống quản trị CSDL và truy tìm thông tin đa phương tiện tích hợp Chúng có khả năng truy tìm thông tin đa phương tiện trên cơ sở ngữ nghĩa
Trang 32Dự án MARS bao gồm các khái niệm về mô hình dữ liệu đa phương tiện, để chỉ mục và truy tìm nội dung và cho quản trị CSDL
Hình sau đây minh họa dự án MARS Thông tin thêm về MARS có thể xem tại địa chỉ (http://www-mars.ics.uci.edu)
Hình 9 Dự án MARS
Dự án MPEG-7 Multimedia Data Cartridge (MDC) là mở rộng hệ thống của Oracle 9i để cung cấp ngôn ngữ truy vấn đa phương tiện, xâm nhập media, xử lý và tối ưu các câu truy vấn, và khả năng chỉ mục phụ thuộc vào lược đồ CSDL suy diễn từ MPEG-7
MDC xây dựng từ ba khái niệm: Mô hình dữ liệu đa phương tiện, khung làm việc chỉ mục đa phương tiện, các thư viện bên trong và ngoài
1.3.2 Vấn đề đối với các MMDBMS hiện nay
Từ quan điểm của cơ sở dữ liệu đa phương tiện, có hai vấn đề chính đối với các hệ thống hiện nay đã được đưa ra sau đây:
1 Vấn đề mô hình hóa dữ liệu đa phương tiện
Một mô hình dữ liệu đa phương tiện phải có quan hệ với việc mô tả các đối tượng đa phương tiện Như vậy, việc thiết kế một mô hình dữ liệu tốt cần
có đầy đủ các vấn đề sau đây:
Xử lý truy vấn
phản hồi liên quan
Mô hình dữ liệu MPEC-7 like model ToC
Cấu trúc chỉ mục Cây lai (Hybrid Tree)
Truy cập đa phương tiện điều khiển trùng
đĩa
DBMS Back-End
Trang 331, Cần phải mô hình hoá và lưu trữ các thành phần media trong cơ sở
dữ liệu
2, Việc mô tả sẽ được cung cấp cho cấu trúc dữ liệu logic Nó cần thiết
để mô tả rõ ràng cấu trúc cho việc truy vấn và trình bày
3, Ngữ nghĩa được mô hình và liên kết tới các đặc trưng cấp thấp và cấu trúc media
4, Sự cần thiết tuân theo chuẩn quốc tế để đảm bảo cho khả năng chia
sẻ và trao đổi dữ liệu
2, Vấn đề trình bày, truy vấn và chỉ mục đa phương tiện
Chức năng chính trong cơ sở dữ liệu đa phương tiện là truy cập và trao đổi thông tin đa phương tiện như thế nào để đem lại hiệu quả Vấn đề không phải là mô hình dữ liệu gì được sử dụng, môtơ nào lưu trữ dữ liệu, mà vấn đề quan trọng nhất là làm như thế nào để truy tìm và kết nối các media thời gian thực- đó chính là tiến trình có tên gọi là truy tìm theo nội dung
Trang 34Chương II MỘT SỐ PHƯƠNG PHÁP, GIẢI THUẬT TRÍCH CHỌN
ĐẶC TRƯNG ÂM THANH
2.1 ĐẶC TRƯNG CHÍNH CỦA ÂM THANH
Như ta đã biết, trích chọn đặc trưng đóng vai trò rất quan trọng trong vấn đề phân lớp âm thanh Chúng cho thấy đặc trưng quan trọng của các loại tín hiệu âm thanh khác nhau Để nâng cao tính chính xác của việc phân lớp
âm thanh, ta cần phải lựa chọn các đặc trưng tốt Đa số các phương pháp, giải thuật trích chọn đặc trưng âm thanh hiện nay đều xem các đặc trưng sau đây
là hiệu quả để phân lớp và phân đoạn âm thanh
2.1.1 Đặc trưng trong miền thời gian (Time-Domain Features)
Biên độ thời gian thể hiện một tín hiệu âm thanh Các đặc trưng trong miền thời gian bao gồm:
2.1.1.1 Năng lượng trung bình ( Average Energy)
Năng lượng trung bình thể hiện âm lượng của tín hiệu âm thanh, và được xác định bằng công thức sau:
N
n x E
Trong đó:
E: là năng lượng trung bình của âm thanh x(n): là giá trị của mẫu n
N: là tổng số mẫu
2.1.1.2 Tốc độ vượt qua 0 (Zero Crossing Rate- ZCR)
ZCR là số lần một tín hiệu thay đổi dấu trong một khung ZCR được dùng để xác định đặc điểm khác nhau của tín hiệu âm thanh
Trang 35ZCR thường được sử dụng trong các giải thuật phân lớp giọng nói và
x ZCR
N
n
2
| ) 1 ( sgn ) ( sgn
0 0
0 1
) (
a a
a a
sng
N: là tổng số mẫu Thông thường, tín hiệu giọng nói bao gồm âm thanh của giọng nói xen với khoảng dừng (đoạn giữa các âm tiết) trong khi âm nhạc không có cấu trúc này Do đó, sự biến thiên ZCR của tín hiệu giọng nói thường lớn hơn so với tín hiệu âm nhạc, xem hình minh họa dưới đây
Hình 10 minh họa ZCR của nhạc và ZCR của giọng nói
ZCR được sử dụng phổ biến trong các giải thuật để phân lớp giọng nói
và âm nhạc Một nghiên cứu của LieLu, Hong-Jang Zhang và Hao Jiang [13]
Trang 36mới đây đã cải tiến nó và đưa ra đặc trưng có tên gọi là HZCRR (High Zero- Crossing Rate Ratio) HZCRR được xác định bằng công thức:
1 ) ( [sgn(
2
1 N n
avZCR n
ZCR N
HZCRR
Trong đó:
n: chỉ số khung ZCR(n): tốc độ vượt 0 của khung thứ n N: tổng số khung
avZCR: trung bình của ZCR trong cửa sổ 1-s sgn(.): dấu tín hiệu tương ứng
Kết quả các thí nghiệm cho thấy rằng đặc trưng HZCRR làm cho các lớp âm thanh được phân tách rõ ràng hơn so với ZCR
Hình dưới đây minh họa xác suất phân bổ các đường cong HZCRR của giọng nói và âm nhạc Có thể thấy rằng trọng tâm HZCRR của giọng nói phân
bổ trong khoảng 0,15; trong khi HZCRR của âm nhạc là dưới 0,1
Hình 11 minh họa mức biến đổi HZCRR của tín hiệu giọng nói (a) và tín hiệu âm nhạc (b)
Trang 372.1.1.3 Tỷ lệ câm (Silence Ratio- SR)
Tỷ lệ câm (SR) cho biết kích thước của đoạn âm thanh câm Khi phát
âm thì ta thấy rằng bao giờ cũng có khoảng dừng giữa các đoạn Năng lượng của các khung chứa khoảng dừng đó thấp hơn các khung không chứa nó
Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh
Interval Total
contour pitch
smooth with
regions of
Interval
SR
Thông thường, âm nhạc có tỷ lệ câm thấp hơn giọng nói
Hình 12 Minh họa đặc trưng tỷ lệ câm
2.1.2 Đặc trưng trong miền tần số (Frequency-Domain
Features)
Phân bổ tần số được xác định bằng cách tính toán biến đổi Fourier của tín hiệu trong miền thời gian Gồm các đặc trưng sau đây:
Trang 382.1.2.1 Phổ âm thanh (Sound Spectrum)
Phổ âm thanh biểu diễn miền tần số của âm thanh
Công thức biến đổi Fourier rời rạc DFT (Discrete Fourier Transform):
(
N
n
N nk j
e n x k
1 ) (
N
n
N nk j
e k x N k X
Hình 13 Minh họa phổ giọng nói và phổ âm nhạc
2.1.2.2 Băng thông (Bandwidth)
Băng thông là sự chênh lệch giữa các thành phần tần số cao nhất và thấp nhất của một tín hiệu Một sóng đơn hình sin có băng thông là 0 và một nhiễu trắng (white noise) lý tưởng có băng thông vô hạn (ở đây, nhiễu trắng là
sự kết hợp tất cả các tần số khác nhau của âm thanh, ví dụ nhiễu trắng sinh ra
Trang 39khi 20000 âm thanh cùng phát ra một lúc, khái niệm này tương tự như khái niệm về ánh sáng trắng, vốn được sinh ra từ sự kết hợp đồng thời tất cả các màu sắc khác nhau)
Công thức tính băng thông xác định như sau:
C C
d F
d F
|
| ) (
| ) (
Trong đó, o là tần số của một nửa mẫu và C là độ trong
2.1.2.3 Phân bổ năng lượng (Energy Distribution)
Một đặc trưng quan trọng xuất phát từ đặc trưng phân bổ năng lượng là trọng tâm (centroid) Đó là điểm giữa của phân bổ năng lượng âm thanh Trọng tâm còn được gọi là độ trong và được xác định như sau:
2
| ) (
| ) (
| ) (
d S
i C
t i
2.1.2.4 Điều hòa (Harmonicity)
n.x
x 2x
Phân bổ tần số
Tần số ->
Tần số cơ bản
Trang 40Hình 14 Minh họa đặc trưng điều hòa
Trong âm thanh điều hòa, hầu hết các thành phần phổ là giá trị tích nx của tần số thấp nhất (còn được gọi là tần số cơ bản- fundamental frequency)
và tần số cao nhất Ví dụ: 400Hz, 800Hz , như minh họa trong hình 14
Nghiên cứu cho thấy rằng âm nhạc thường có đặc trưng điều hòa hơn
so với các âm thanh khác
2.1.2.5 Cao độ (Pitch)
Chất lượng để phân biệt âm thanh phụ thuộc cơ bản vào tần số của sóng
âm thanh Cao độ là thuộc tính dùng để cảm nhận các tần số âm thanh
Người ta ước lượng cao độ bằng cách lấy một chuỗi phổ Fourier thời gian ngắn Ta có thể tính cao độ theo công thức sau:
n e X e P
1
2
| ) (
| )
n e X e P
1
| ) (
| log 2 ) (
Cao độ là một tham số rất quan trọng trong việc phân tích và tổng hợp các tín hiệu của giọng nói Trong một tín hiệu âm thanh thường bao gồm giọng nói thuần túy cũng như nhiều tạp âm khác thì ý nghĩa vật lý của cao độ mất đi Cao độ có quan hệ nhưng không tương đương với tần số cơ bản Tuy vậy ta vẫn có thể sử dụng cao độ để thay đổi đặc điểm trong chu kỳ của dạng sóng trong các tín hiệu âm thanh khác nhau
2.1.3 Ảnh phổ (Spectrogram)
Trong ảnh phổ, trục tung biểu diễn nội dung tần số, còn trục hoành biểu diễn thời gian Chiều thứ ba, biên độ được biểu diễn bằng các phần bóng tối Đặc trưng ảnh phổ mô tả rõ ràng mối quan hệ giữa các đại lượng thời gian- tần số- biên độ