Theo phân tích trên ta xem xét hai loại chính của âm thanh là tiếng nói và âm nhạc tuy rằng mỗi loại này ta lại có thể chia ra các nhóm khác nhƣ tiếng nói nam và nữ, các loại âm nhạc khác nhau.
Các tính chất chính của các loại âm thanh
Tiếng nói
Băng thông của tín hiệu tiếng nói thƣờng thấp hơn so với âm nhạc. Thông thƣờng từ khoảng 100 đến 7000 Hz. Vì tiếng nói bao gồm các thành phần tần số thấp là chủ yếu cho nên trọng tâm phổ (còn gọi là độ chói) của tín hiệu tiếng nói thƣờng thấp hơn âm nhạc.
Thƣờng có đoạn nghỉ trong tiếng nói (giữa các từ hay câu). Do vậy, các tín hiệu tiếng nói thƣờng có tỷ lệ câm cao hơn âm nhạc.
Cấu trúc đặc tính của tiếng nói là nối tiếp các âm tiết (syllable) tổ hợp từ âm ngắn (phụ âm - consonant) sau âm dài hơn (nguyên âm - vowel). Trong quá trình phát âm, tỷ lệ vƣợt qua 0 trung bình ZCR (zero-crossing rate) tăng đáng kể. So với âm nhạc, tiếng nói biến đổi nhiều hơn trong ZCR.
Âm nhạc
Thông thƣờng âm nhạc có dải tần số cao hơn, từ 16 đến 20000 Hz. Do đó trọng tâm phổ cao hơn của tiếng nói.
So sánh với tiếng nói, âm nhạc có tỷ lệ câm thấp hơn. Trừ trƣờng hợp âm nhạc soạn bằng nhạc cụ độc tấu (solo) hay hát không có nhạc đệm.
So sánh với tiếng nói, âm nhạc có mức độ biến đổi ZCR thấp hơn.
Âm nhạc có nhịp đều cần phải đƣợc trích chọn để phân biệt nó với tiếng nói. Bảng sau đây tổng hợp các đặc tính chính của tiếng nói và âm nhạc. Chú ý rằng danh sách này chƣa thật đầy đủ. Còn nhiều tính chất khác còn có thể đƣợc tìm ra.
Đặc trƣng Tiếng nói Âm nhạc
Bandwidth 0-7 kHz 0-20 kHz
Spectral centroid Low High
Silence ratio High Low
Zero-crossing rate More variable Less variable
Regular beat None Yes
Khung phân lớp âm thanh
Mọi phƣơng pháp phân lớp âm thanh trên cơ sở tính toán các giá trị đặc trƣng. Chúng khác nhau ở chỗ các đặc trƣng đƣợc sử dụng nhƣ thế nào. Nhóm thứ nhất: mỗi đặc trƣng đƣợc sử dụng riêng rẽ trong các bƣớc phân lớp. Nhóm thứ hai: tập các đặc trƣng đƣợc sử dụng chung nhƣ véctơ để tính toán mức độ “gần gũi” của đầu vào đến các tập huấn luyện. Hai loại khuôn khổ phân lớp âm thanh đƣợc trao đổi ở đây.
a) Phân lớp từng bƣớc (step-by-step)
Trong phân lớp âm thanh theo từng bƣớc, ta sử dụng riêng biệt mỗi đặc trƣng audio để xác định âm thanh đó là âm nhạc hay tiếng nói.
Mỗi đặc trƣng đƣợc xem nhƣ tiêu chí lọc hay trích chọn. Tại mỗi bƣớc lọc, đoạn âm thanh đƣợc xác định là kiểu này hay kiểu khác. Hình 2.21 là thí dụ một tiến trình lọc.
Trƣớc hết tính trọng tâm của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngƣỡng cho trƣớc thì nó có thể là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không phải mọi âm nhạc đều có trọng tâm cao).
Tiếp theo tính tỷ lệ câm. Nếu đoạn âm thanh có tỷ lệ câm thấp thì chúng có thể là âm nhạc. Nếu không, nó là tiếng nói hay nhạc solo (nhạc solo có tỷ lệ câm rất cao).
Cuối cùng tính ZCR. nếu đoạn âm thanh có biến đổi ZCR rất cao, nó là tiếng nói. Nếu không nó là nhạc solo.
Hình 2.21 Phân lớp âm thanh theo từng bước
Trong tiệm cận phân lớp này, điều quan trọng là xác định trình tự trong đó các đặc trƣng khác nhau đƣợc sử dụng để phân lớp. Trình tự thông thƣờng đƣợc quyết định bởi độ phức tạp tính toán và khả năng phân biệt (differentiating power) của các đặc trƣng khác nhau. Đặc trƣng ít phức tạp, có khả năng phân biệt cao sẽ đƣợc sử dụng trƣớc. Điều này làm giảm tổng số bƣớc thực hiện lọc trên đoạn âm nhạc, dẫn tới làm giảm đáng kể tính toán đòi hỏi.
Nhiều đặc trƣng và nhiều bƣớc đƣợc sử dụng để nâng cao hiệu năng phân lớp. Trong một vài ứng dụng, phân lớp âm thanh đƣợc thực hiện chỉ trên một đặc trƣng. Thí dụ, hệ thống sử dụng tính biến thiên ZCR để phân biệt âm nhạc và tiếng nói phát ra đạt tới 90% tỷ lệ phân lớp trung bình. Một thí dụ khác sử dụng tỷ lệ câm để phân lớp âm thanh thành nhạc và tiếng nói đã đạt tới 82%.
b) Phân lớp âm thanh trên cơ sở véctơ đặc trƣng
trọng tâm cao? SR cao? Biến đổi ZCR cao? đúng đúng sai sai sai Âm nhạc Âm nhạc Nhạc sô lô Giọng nói hoặc âm nhạc
Giọng nói
Giọng nói hoặc nhạc sô lô Dữ liệu âm thanh vào
đúng (i) H ì n h 2 . 1 4
Trong phân lớp âm thanh trên cơ sở véctơ đặc trƣng, các giá trị của tập đặc trƣng đƣợc tính toán và sử dụng nhƣ véctơ đặc trƣng. Trong giai đoạn huấn luyện, véctơ đặc trƣng trung bình (véctơ tham chiếu) đƣợc tìm ra cho mỗi lớp âm thanh. Trong quá trình phân lớp, véctơ đặc trƣng của đoạn âm thanh vào đƣợc tính và những khoảng cách giữa véctơ đặc trƣng vào và từng véctơ tham chiếu đƣợc tính toán. Âm thanh vào đƣợc phân lớp từ cái nào có khoảng cách nhỏ nhất đến véctơ đầu vào. Khoảng cách Euclit thƣờng đƣợc sử dụng để tính toán khoảng cách véctơ đặc trƣng. Tiệm cận này giả sử rằng, các đoạn âm thanh trong cùng lớp ở gần nhau trong không gian đặc trƣng. Các đoạn âm thanh thuộc các lớp khác nhau ở xa nhau trong không gian đặc trƣng.
Scheirer và đồng nghiệp đã sử dụng 13 đặc trƣng, trong đó bao gồm trọng tâm phổ, ZCR để phân lớp âm nhạc. Tỷ lệ phân lớp thắng lợi đạt tới 95%.
c) Tổng quan về phân cụm
Các kỹ thuật phân cụm phân lớp dữ liệu thành hai hoặc nhiều hơn các nhóm dựa vào sự kết hợp nhiều nhân tố. Mục đích của quá trình phân cụm là nhóm dữ liệu tƣơng tự nhau vào một nhóm, trong khi dữ liệu trong các nhóm là khác nhau. Điều này đƣợc minh họa trong hình sau
Hình 2.22: Minh họa cho kỹ thuật phân cụm Phân lớp các quả bóng thành các nhóm có cùng màu
Từ hình trên, chúng ta có thể thấy rằng việc phân cụm là để nhóm dữ liệu hoặc chia dữ liệu lớn thành các phần dữ liệu nhỏ hơn có một số điểm tƣơng tự nhau.
Phƣơng pháp phân cụm làm việc khác với các phƣơng pháp phân loại hoặc thuật toán phân lớp dạng cây. Không có độ ƣu tiên về lớp, cả về số lƣợng cụm hoặc các luật để chỉ định thành các cụm. Phép phân cụm cho phép có nhiều cách gộp nhóm.
Thông thƣờng, phép phân cụm có thể chia thành các kỹ thuật phân cụm có thứ bậc và các kỹ thuật phân cụm không có thứ bậc. Ví dụ về kỹ thuật phân cụm có thứ bậc là kết nối đơn, kết nối hoàn toàn, kết nối trung bình, giữa, phân khu. Kết nối
không có thứ bậc gồm K-mean, K-mean thích ứng, K-medoid, phân cụm mờ. Phép phân cụm K-mean đơn chịu ảnh hƣởng của kỹ thuật phân cụm không có thứ bậc, trong giới hạn chúng ta sẽ tìm hiểu về kỹ thuật phân cụm K - mean.
Phương pháp phân cụm K-means
K-mean là một phƣơng pháp phân cụm. Phƣơng pháp này quan sát k cụm trong dữ liệu, và trả lại vector chỉ số của k cụm đã quan sát.
K-mean quan sát trong dữ liệu và tìm cách phân vùng dữ liệu sao cho dữ liệu trong một cụm càng gần nhau càng tốt và so với dữ liệu trong các cụm khác phải càng xa càng tốt. Mỗi cụm đƣợc xác định bởi các thành phần của nó và bởi thành phần trung tâm của nó. Thành phần trung tâm của mỗi cụm là thành phần mà có tổng khoảng cách từ các đối tƣợng trong cụm đến nó là nhỏ nhất. Cụm trung tâm đƣợc tính toán khác nhau với mỗi thƣớc đo khoảng cách, để tổng khoảng cách là nhỏ nhất với mỗi tiêu chuẩn đánh giá.
K-means đầy đủ
Để thực hiện phƣơng thức K-mean đầy đủ ta sử dụng một thuật toán lặp để tính tổng khoảng cách từ mỗi đối tƣợng tới cụm trung tâm là nhỏ nhất trên toàn bộ cụm. Thuật toán này di chuyển các đối tƣợng giữa các cụm cho tới khi tổng khoảng cách không thể giảm hơn đƣợc nữa. Kết quả là tạo đƣợc các cụm có khoảng cách đủ nhỏ và có độ phân cách hợp lý. Độ nhỏ của dữ liệu có thể đƣợc chỉ ra bằng việc thay đổi các tham số đầu vào giống với số lƣợng cụm trung tâm và số lần lặp.
Ý tƣởng chính ở đây là tìm cách xác định cụm trung tâm k từ mỗi cụm. Nên lựa chọn điểm trung tâm vì các vị trí khác nhau cho các kết quả khác nhau. Trong điều kiện lý tƣởng chúng phải cách xa các điểm khác tối đa khả năng có thể. Mỗi điểm trong dữ liệu đƣợc gắn với điểm trung tâm gần nhất. Điểm trung tâm thứ k mới sẽ đƣợc tính toán lại từ kết quả phân cụm của bƣớc trƣớc và quá trình nhóm các điểm dữ liệu với các điểm trung tâm gần nhất sẽ đƣợc thực hiện lặp đi lặp lại và điều đó sẽ tiếp tục cho tới khi xác định đƣợc điểm trung tâm chính.
Phƣơng pháp phân cụm K-mean tìm nhóm có kích thƣớc nhỏ nhất trong tổng bình phƣơng các cụm, chúng ta sử dụng thuật toán sai số bình phƣơng để tính bình phƣơng khoảng cách Euclidean.
Thuật toán Kmean thực hiện theo các bƣớc sau:
1.Đặt K điểm vào vùng phân cụm các đối tƣợng. Các điểm này mô tả nhóm trung tâm đầu tiên.
3.Khi tất cả các đối tƣợng đã đƣợc đƣa vào các nhóm, tính toán lại vị trí của K điểm trung tâm.
4.Thực hiện lặp lại bƣớc 2 và 3 cho tới khi bỏ đi đƣợc các điểm trung tâm ở xa. Điều này giúp phân cách các đối tƣợng thành các nhóm có kích thƣớc nhỏ nhất có thể.
Thủ tục lặp sẽ luôn kết thúc khi điểm trung tâm không thay đổi. Tuy nhiên, cần lƣu ý rằng các thuật toán không nhất thiết phải đƣa ra những kết quả tối ƣu. Hình 2.23 mô tả các bƣớc đã nêu trên. Mỗi bƣớc dƣới đây tƣơng ứng với trình tự của biểu đồ.
Chọn số lƣợng cụm k. Ví dụ k=5
Tạo ra ngẫu nhiên vị trí trung tâm cụm
Tại mỗi Centre tìm điểm trung tâm của chính nó
Và thực hiện bƣớc nhảy
Thực hiện lặp lại cho tới khi kết thúc
Hình 2.23: Thủ tục K-mean
Hình trên minh họa phƣơng thức phân cụm K. Chú ý rằng những dữ liệu tƣơng tự đƣợc nhóm cùng nhau.
Bắt đầu Kết thúc
Hình 2. 24 Phương pháp phân cụm K-mean