1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng mô hình gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng việt

82 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Mô Hình Gauss Tuyến Tính Trong Nhận Dạng Một Bộ Khẩu Lệnh Tiếng Việt
Tác giả Phạm Đắc Định
Người hướng dẫn PGS. TSKH. Trần Hoài Linh
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại luận văn thạc sỹ
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 82
Dung lượng 1,81 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI (11)
    • 1.1. Đặt vấn đề (11)
      • 1.1.1. Giới thiệu (11)
    • 1.2. Nguyên tắc của hệ thống nhận dạng tiếng nói (12)
    • 1.3. Một số phương pháp nhận dạng tiếng nói (13)
    • 1.4. Các nghiên cứu hiện thời về nhận dạng tiếng nói (15)
      • 1.4.1. Các yếu tố ảnh hưởng đến kết quả nhận dạng (15)
      • 1.4.2. Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài (17)
      • 1.4.3. Các nghiên cứu về nhận dạng tiếng nói tiếng Việt (17)
  • CHƯƠNG 2: MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA TÍN HIỆU TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI (19)
    • 2.1. Tín hiệu tiếng nói (19)
      • 2.1.1. Cơ chế tạo và cảm thụ tín hiệu tiếng nói (19)
      • 2.1.2. Một số đặc tính cơ bản của tín hiệu tiếng nói (19)
      • 2.1.3. Biểu diễn tín hiệu tiếng nói (0)
    • 2.2. Ngôn ngữ tiếng Việt (22)
      • 2.2.1. Đặc điểm của âm tiết tiếng Việt (22)
      • 2.2.2. Âm vị tiếng Việt (24)
  • CHƯƠNG 3: CÁC PHƯƠNG PHÁP TRÍCH TẠO ĐẶC TÍNH TIẾNG NÓI (28)
    • 3.1. Tiền xử lý (28)
    • 3.2. Phân khung và cửa sổ hoá (31)
    • 3.3. Trích tạo đặc tính (32)
      • 3.3.1. Phương pháp tính hệ số MFCC (32)
  • CHƯƠNG 4: MÔ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NÓI 42 4.1. Mô hình thống kê trong nhận dạng tiếng nói (42)
    • 4.1.1. Nguyên lý hoạt động của các hệ thống nhận dạng tiếng nói sử dụng mô hình thống kê (42)
    • 4.1.2. Mô hình Markov ẩn (43)
    • 4.2. Tổng quan về các mô hình Gauss tuyến tính (52)
      • 4.2.1. Các mô hình không gian trạng thái (53)
      • 4.2.2. Các mạng Bayes (53)
      • 4.2.3. Quá trình sinh ra dãy trạng thái (54)
      • 4.2.4. Quá trình sinh ra dãy quan sát (56)
    • 4.3. Các mô hình Gau ss tuyến tính chuẩn (59)
      • 4.3.1. Các mô hình tĩnh (59)
      • 4.3.2. Các mô hình động (62)
    • 4.4. Thuật toán học trong các mô hình Gauss tuyến tính (65)
  • CHƯƠNG 5: MÔ HÌNH FAHMM (69)
    • 5.1. Giới thiệu về mô hình F AHMM (69)
    • 5.2. Tính toán hàm xác suất trong mô hình FAHMM (70)
    • 5.3. Tối ưu hóa các tham số của mô hình FAHMM (71)
  • CHƯƠNG 6: KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN (73)
    • 6.1. Kết quả thử nghiệm (73)
      • 6.1.2. Kết quả tiền xử lý, trích tạo đặc tính (75)
      • 6.1.3. Kết quả nhận dạng (76)
    • 6.2. Kết luận và hướng phát triển (0)

Nội dung

Điện thoại di động đã có thể quay số bằng giọng nói, các hệ thống xử lý thoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính các nhân với phần mềm nhận dạng tiếng n

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

Đặt vấn đề

Nhận dạng tiếng nói là quá trình nhận dạng mẫu, nhằm mục đích phân lớp tín hiệu tiếng nói đầu vào thành dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Quá trình này dựa trên các đơn vị nhận dạng, có thể là từ hoặc âm vị, để xác định và phân tích tín hiệu tiếng nói.

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản sau:

Tín hiệu tiếng nói có thể được biểu diễn chính xác thông qua các giá trị phổ trong một khung thời gian ngắn, cho phép trích xuất các đặc điểm tiếng nói từ những khoảng thời gian ngắn Điều này tạo cơ sở để sử dụng các đặc điểm này làm dữ liệu đầu vào cho quá trình nhận dạng tiếng nói.

Nội dung tiếng nói được chuyển hóa thành chữ viết thông qua các ký hiệu ngữ âm, giúp bảo toàn ý nghĩa của phát âm Việc phiên âm chính xác là cần thiết để duy trì sự rõ ràng và chính xác trong giao tiếp.

Nhận dạng tiếng nói là một quá trình nhận thức phức tạp, trong đó thông tin về ngữ nghĩa và suy đoán đóng vai trò quan trọng, đặc biệt khi thông tin về âm học không rõ ràng.

Lĩnh vực nghiên cứu của nhận dạng tiếng nói là một lĩnh vực đa ngành, liên quan đến nhiều ngành khác nhau Các ngành này bao gồm xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, kỹ thuật âm thanh và kỹ thuật máy tính, tất cả đều có mối liên hệ chặt chẽ với nhận dạng tiếng nói.

Xử lý tín hiệu số là một kỹ thuật quan trọng trong việc phân tích tín hiệu tiếng nói biến thiên theo thời gian Các phương pháp này cho phép trích xuất các thông tin quan trọng từ tiếng nói, giúp chúng ta hiểu rõ hơn về nội dung và ý nghĩa của tín hiệu.

Vật lý và âm học là hai lĩnh vực khoa học nghiên cứu mối quan hệ giữa tín hiệu âm thanh và cơ chế sinh lý học của bộ máy phát âm ở con người, đồng thời tìm hiểu cách thức hoạt động của tai người.

Nhận dạng mẫu là một kỹ thuật quan trọng trong phân tích dữ liệu, sử dụng các thuật toán để phân loại dữ liệu thành các tập mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu, giúp việc phân tích và xử lý dữ liệu trở nên hiệu quả hơn.

Lý thuyết thông tin và khoa học máy tính đóng vai trò quan trọng trong việc phát triển các thuật toán tính toán tham số của mô hình thống kê, cũng như các thuật toán mã hóa và giải mã Các thuật toán này cho phép chúng ta phân tích và xử lý dữ liệu một cách hiệu quả, đồng thời đảm bảo an toàn và bảo mật thông tin Thông qua việc áp dụng lý thuyết thông tin và khoa học máy tính, chúng ta có thể xây dựng các mô hình thống kê chính xác và đáng tin cậy, cũng như phát triển các hệ thống mã hóa và giải mã mạnh mẽ.

Ngôn ngữ học là lĩnh vực nghiên cứu chuyên sâu về cấu trúc của ngôn ngữ, đặc biệt tập trung vào đơn vị ngữ âm cơ bản của tiếng nói Những đơn vị này đóng vai trò quan trọng trong việc tạo ra tín hiệu tiếng nói, giúp con người truyền đạt thông tin và giao tiếp hiệu quả.

Sinh lý học đóng vai trò quan trọng trong việc hiểu biết về cấu tạo của bộ máy phát âm con người, cấu trúc của tai người và cách thức phân tích âm học cũng như ngôn ngữ tại bộ não Việc nghiên cứu về sinh lý học giúp chúng ta hiểu rõ hơn về quá trình tạo ra âm thanh, cách thức âm thanh được truyền đến tai và cách bộ não xử lý thông tin ngôn ngữ Qua đó, chúng ta có thể hiểu rõ hơn về cơ chế hoạt động của ngôn ngữ và cách thức con người giao tiếp với nhau.

 Tâm lý học ứng dụng: Những kiến thức về quá trình sinh ra tiếng nói cũng như quá trình nhận thức tiếng nói của tai người.

Nguyên tắc của hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói hiện nay được phân loại thành hai lớp chính: nhận dạng từ rời rạc và nhận dạng từ liên tục Trong đó, hệ thống nhận dạng từ liên tục được chia thành hai loại dựa trên kích thước, bao gồm hệ thống có kích thước nhỏ và hệ thống có kích thước trung bình hoặc lớn.

Hệ thống nhận dạng từ rời rạc

Hệ thống nhận dạng từ liên tục

Hệ thống nhận dạng với kích thước từ điển nhỏ

Hệ thống nhận dạng với kích thước từ điển trung bình và lớn

Hình 1.1 : Các hệ thố ng nh n d ng ti ậ ạ ếng nói

Trong hệ thống nhận dạng từ rời rạc, các phát âm được xác định là một từ hoặc một nhóm từ độc lập, không phụ thuộc vào ngữ cảnh xung quanh Điều này cho phép ứng dụng trong các chương trình dạng câu lệnh điều khiển, chẳng hạn như quay số bằng giọng nói trong điện thoại di động Nhận dạng tiếng nói các từ rời rạc được coi là dễ dàng hơn so với nhận dạng tiếng nói liên tục, giúp tăng cường hiệu suất và độ chính xác trong các hệ thống nhận dạng tiếng nói.

Một số phương pháp nhận dạng tiếng nói

Trong lĩnh vực nhận dạng tiếng nói, đã có nhiều mô hình nhận dạng được đề xuất và áp dụng Tuy nhiên, đa số các mô hình này đều dựa trên một số phương pháp tiếp cận chính, tạo nền tảng cho việc phát triển và cải tiến các hệ thống nhận dạng tiếng nói hiện đại.

Phương pháp âm học, ngữ âm học là một phương pháp dựa trên lý thuyết về âm học và ngữ âm học, trong đó các đơn vị âm tồn tại xác định và có tính phân biệt Phương pháp này sử dụng mô hình nhận dạng để xác định các đặc tính tiếng nói của từng đơn vị âm, giúp phân biệt và nhận dạng chúng một cách chính xác.

Bộ phát hiện đặc tính 1

Bộ phát hiện đặc tính q

Phân đoạn và gán nhãn

Formant Pitch Âm hữu thanh Âm vô thanh Âm mũi Phụ âm xát Năng lượng

Lưới âm vị Lưới đoạn Cây quyết định Gán nhãn theo xác suất Phân tích cú pháp

Hình 1 2: Mô hình nhận dạng sử dụng phương pháp âm học, ngữ âm học

Nguyên lý hoạt động của mô hình nhận dạng sử dụng phương pháp âm học, ngữ âm học.

Trích chọn đặc tính là chức năng quan trọng trong phân tích tín hiệu tiếng nói, cho phép phân tích các đặc tính phổ của tiếng nói Một số kỹ thuật phân tích tiếng nói phổ biến được áp dụng bao gồm kỹ thuật sử dụng dãy băng lọc và kỹ thuật mã hóa dự báo tuyến tính, giúp phân tích và xử lý tín hiệu tiếng nói hiệu quả.

Sau khi phân tích đặc tính, tín hiệu tiếng nói sẽ được tách ra thành các bộ đặc tính riêng mô tả các tính chất về âm học của các đơn vị ngữ âm khác nhau, bao gồm tính chất âm mũi, âm xát, vị trí các formant, âm hữu thanh hay vô thanh và tần số đỉnh phổ.

Tiếp theo là bước phân đoạn và gán nhãn, một bước quan trọng trong hệ thống nhận dạng tiếng nói Ở bước này, hệ thống sẽ tìm kiếm những vùng âm thanh ổn định và gán cho mỗi vùng một nhãn phù hợp với đặc tính của đơn vị ngữ âm Đây là điểm khác biệt cơ bản của mô hình này so với các mô hình nhận dạng khác, và bước này thường được thực hiện thủ công, dẫn đến độ tin cậy không cao.

Một số vấn đề khi sử dụng phương pháp âm học, ngữ âm học:

 Phương pháp này đòi hỏi phải có kiến thức hiểu biết về các thuộc tính âm học của các đơn vị ngữ âm

Việc lựa chọn đặc tính trong nhiều hệ thống thường không dựa trên một thuật toán chung, mà phụ thuộc vào những nhận xét và đánh giá cụ thể trong từng trường hợp Điều này có nghĩa là quá trình lựa chọn thường mang tính trực quan và không đảm bảo tối ưu.

Quá trình phân đoạn và gán nhãn là một bước quan trọng nhưng cũng đầy thách thức do phụ thuộc chủ yếu vào sự quan sát và đánh giá của con người Trên thực tế, vẫn chưa có một thuật toán gán nhãn chung nào được áp dụng rộng rãi cho các bài toán nhận dạng khác nhau, đòi hỏi sự linh hoạt và sáng tạo trong từng trường hợp cụ thể.

 Phương pháp nhận dạng mẫu: Ta có mô hình của hệ thống nhận dạng sử dụng phương pháp này như sau

Mẫu chuẩn hoặc các mô hình

Phân lớp mẫu Quyết định nhận dạng

Hình 1 3: Mô hình phương pháp nhận dạng mẫu

Mô hình nhận dạng mẫu gồm có 4 bước sau:

Trích chọn đặc tính là quá trình biểu diễn tín hiệu tiếng nói thành tập các đặc tính phổ, tương tự như mô hình nhận dạng sử dụng phương pháp âm học và ngữ âm học.

Huấn luyện mẫu là quá trình tạo ra một mẫu đại diện cho các đặc tính của phát âm bằng cách sử dụng các mẫu học của cùng một loại phát âm Quá trình này thường được thực hiện tại vị trí khóa K ở vị trí 1 Kết quả nhận được từ quá trình huấn luyện mẫu thường được gọi là mẫu chuẩn, hoặc nó có thể là một mô hình mô tả thống kê về các đặc tính của mẫu chuẩn đó, giúp mô tả và phân tích các đặc tính của phát âm một cách chính xác.

Phân lớp mẫu là quá trình so sánh các mẫu nhận dạng với các mẫu chuẩn bằng cách tính khoảng cách giữa chúng, thường được thực hiện thông qua các kỹ thuật như hiệu chỉnh thời gian động (DTW), lượng tử hóa véc tơ (VQ) và đo khoảng cách, giúp xác định sự tương đồng giữa các mẫu.

 Quyết định nhận dạng: Khối này sẽ xác định xem mẫu chuẩn nào giống với mẫu nhận dạng nhất

Một số tính chất của mô hình nhận dạng mẫu

Độ chính xác nhận dạng của mô hình phụ thuộc vào số lượng mẫu được sử dụng để huấn luyện Thông thường, việc sử dụng nhiều mẫu để huấn luyện mô hình sẽ giúp tăng độ chính xác nhận dạng Do đó, số lượng mẫu huấn luyện lớn hơn thường dẫn đến kết quả chính xác hơn.

Các mẫu chuẩn phụ thuộc vào môi trường khi phát âm và đặc tính truyền đạt của các thiết bị truyền tín hiệu tiếng nói, điều này có nghĩa là đặc tính phổ của tín hiệu tiếng nói bị ảnh hưởng bởi nhiễu nền và nhiễu trên đường truyền, làm cho việc truyền tín hiệu trở nên phức tạp hơn.

Khối lượng tính toán trong quá trình huấn luyện và nhận dạng mẫu thường tỷ lệ tuyến tính với số lượng mẫu được sử dụng để học và số lượng mẫu nhận dạng Điều này có nghĩa là đối với những bài toán nhận dạng với kích thước cơ sở dữ liệu lớn, việc tính toán sẽ trở nên tương đối khó khăn và đòi hỏi nhiều tài nguyên hơn.

Các nghiên cứu hiện thời về nhận dạng tiếng nói

1.4.1 Các yếu tố ảnh hưởng đến kết quả nhận dạng

Sau đây là một số yếu tố ảnh hưởng chính đến kết quả của hệ thống nhận dạng tiếng nói:

Hệ thống nhận dạng tiếng nói có thể được chia thành hai loại: phụ thuộc vào người nói và độc lập với người nói Xây dựng hệ thống nhận dạng tiếng nói cho một người cụ thể thường dễ dàng hơn so với xây dựng hệ thống cho nhiều người Điều này là do hệ thống độc lập với người nói thường có tỷ lệ lỗi nhận dạng tiếng nói cao hơn 3 đến 5 lần so với hệ thống phụ thuộc vào người nói tương đương.

Kích thước của bộ từ điển đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói Khi kích thước của bộ từ điển càng lớn, hệ thống sẽ phải xử lý nhiều từ và câu hơn, dẫn đến khả năng nhầm lẫn giữa các từ, các câu càng cao Điều này làm cho nhiệm vụ nhận dạng tiếng nói trở nên khó khăn hơn, đòi hỏi hệ thống phải có khả năng phân tích và xử lý thông tin chính xác hơn.

Tốc độ nói ảnh hưởng đáng kể đến hiện tượng đồng phát âm, nơi một âm bị biến đổi do ảnh hưởng của các âm xung quanh nó Điều này khiến việc nhận dạng các từ rời rạc trở nên dễ dàng hơn so với các từ trong một phát âm liên tục.

Sự biến đổi trong lời nói là một trong những thách thức lớn nhất trong nhận dạng tiếng nói Con người có thể dễ dàng hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, nhưng máy tính lại gặp khó khăn đặc biệt trong việc nhận dạng chính xác Điều này đòi hỏi các hệ thống nhận dạng tiếng nói phải được thiết kế để có thể xử lý và phân tích các tín hiệu âm thanh một cách linh hoạt và chính xác.

Điều kiện môi trường có ảnh hưởng đáng kể đến chất lượng tiếng nói, đặc biệt là khi tín hiệu bị méo hoặc nhiễu kênh truyền Điều này đặt ra nhiều thách thức cho các hệ thống nhận dạng tiếng nói, đòi hỏi chúng phải có khả năng xử lý và phân tích tín hiệu một cách chính xác.

Hệ thống nhận dạng tiếng nói có khả năng xử lý cả các phát âm tự nhiên và các phát âm đọc từ văn bản chuẩn bị sẵn Tuy nhiên, việc nhận dạng các phát âm tự nhiên gặp nhiều khó khăn hơn do từ vựng không hạn chế và sự cần thiết phải phân biệt với các từ không có trong bộ từ điển Thêm vào đó, khi người nói phát âm, họ thường vừa nói vừa suy nghĩ, dẫn đến việc phát âm không rõ ràng, tốc độ thay đổi và có thể bị ảnh hưởng bởi các tạp âm xung quanh.

Các hệ thống nhận dạng có thể hoạt động hiệu quả với các câu có ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể, giúp nhiệm vụ nhận dạng trở nên dễ dàng hơn Tuy nhiên, khi đối mặt với các hệ thống nhận dạng mà các từ không rõ ràng về ngữ pháp, hoặc các từ quan hệ với nhau bằng vòng lặp từ, nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển, thì nhiệm vụ nhận dạng sẽ trở nên phức tạp hơn Điều này đặt ra các giới hạn về ngôn ngữ đối với các hệ thống nhận dạng.

1.4.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài

Công nghệ nhận dạng tiếng nói đã đạt được những bước tiến đáng kể trong các thập kỷ gần đây Các phần mềm nhận dạng tiếng nói như IBM, Gragon Systems và L&H đã được phát triển để hỗ trợ việc đọc chính tả Trong lĩnh vực viễn thông, các hãng phần mềm nổi tiếng như Nuance và SpeechWorks cũng đã ứng dụng công nghệ nhận dạng tiếng nói Đồng thời, nhiều trung tâm nghiên cứu uy tín như Bell Labs, IBM Research Center, Microsoft Research và CSLU đang tập trung nghiên cứu và phát triển công nghệ này.

Nghiên cứu về nhận dạng tiếng nói không chỉ giới hạn ở ngôn ngữ châu Âu, mà còn được thực hiện với các ngôn ngữ đơn âm và có thanh điệu như tiếng Việt, bao gồm tiếng Trung Quốc và tiếng Thái Lan Đối với tiếng Trung Quốc, nhiều nghiên cứu đã được tiến hành và xây dựng hệ thống nhận dạng với kích thước từ vựng lớn Trong khi đó, các nghiên cứu về tiếng Thái Lan chủ yếu tập trung vào nhận dạng các từ rời rạc, mặc dù hệ thống nhận dạng mười chữ số Thái liên tục đã đạt độ chính xác 96.89% với cơ sở dữ liệu thu âm trong nhà Tuy nhiên, nghiên cứu về hệ thống nhận dạng liên tục kích thước trung bình và lớn hơn tiếng Thái Lan vẫn còn ở bước khởi đầu.

1.4.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt

Nhận dạng tiếng nói tiếng Việt là một lĩnh vực nghiên cứu tương đối mới và chưa có chương trình nhận dạng hoàn chỉnh nào được công bố Hệ thống nhận dạng tiếng Việt đòi hỏi sự phức tạp khi xử lý hai quá trình nhận dạng song song, bao gồm nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu, tương tự như các ngôn ngữ có thanh điệu khác.

[1] Hình 1.5 miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt

Nhận dạng các từ không dấu

Hình 1.4 : Hệ thống nhận dạng ngôn ngữ có thanh điệu

Một nghiên cứu gần đây về nhận dạng tiếng Việt được thực hiện bởi TS Đặng Ngọc Đức, trong đó ông đã tiến hành nghiên cứu và thực hiện các công việc quan trọng trong luận án tiến sĩ của mình.

Chúng tôi đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với quy mô lớn, bao gồm hơn 200 người tham gia Cụ thể, hai cơ sở dữ liệu này bao gồm cơ sở dữ liệu mười chữ số và cơ sở dữ liệu có kích thước từ điển lên đến 528 từ, cung cấp nguồn tài liệu phong phú và đa dạng cho việc nghiên cứu và phát triển các ứng dụng tiếng nói.

– Giới thiệu một phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt

Nghiên cứu về hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại đã đạt được kết quả đáng khích lệ với độ chính xác cao Cụ thể, hệ thống lai ghép HMM/ANN đã thể hiện khả năng nhận dạng chính xác lên đến 97,78% ở mức từ và 91,78% ở mức câu Kết quả này cho thấy tiềm năng ứng dụng của hệ thống trong việc nhận dạng và chuyển đổi giọng nói thành văn bản.

Luận án đã thực hiện thử nghiệm hệ thống nhận dạng liên tục tiếng Việt với kích thước trung bình gồm 528 từ, áp dụng mô hình Markov ẩn liên tục Kết quả nhận dạng đạt được là 76,57% ở mức độ chính xác của từ và 29,97% ở mức độ chính xác của câu, cho thấy khả năng nhận dạng tiếng Việt của hệ thống.

MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA TÍN HIỆU TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI

Tín hiệu tiếng nói

2.1.1 Cơ chế tạo và cảm thụ tín hiệu tiếng nói

Quá trình tạo tiếng nói bắt đầu từ việc người nói hình thành một thông điệp trong ý nghĩ Thông điệp này được chuyển đổi thành mã ngôn ngữ, sau đó người nói thực hiện chuỗi lệnh qua dây thần kinh để điều khiển dây thanh và hình thành âm thanh chính xác Các lệnh này cần điều khiển đồng thời các cơ quan phát âm như lưỡi, môi, hàm và vòm miệng.

Quá trình cảm thụ tiếng nói bắt đầu khi tín hiệu âm thanh được tạo ra và lan truyền đến người nghe qua biến đổi áp suất không khí Sóng âm học tác động vào màng nhĩ, từ đó tín hiệu được phân tích và truyền đến các dây thần kinh thính giác Các tín hiệu này sau đó được chuyển đổi thành mã ngôn ngữ nhờ các trung tâm xử lý cao hơn trong não Cuối cùng, người nghe hiểu và cảm thụ thông điệp đã được truyền tải.

Mã hoá ngôn ngữ Hệ thống tuyÕn ©m

Giải mã ngôn ngữ Mang nhĩ rung

Tạo tiếng nói Cảm thụ âm thanh

Hỡnh 2.1: Quỏ trỡnh tạo và cảm thụ tớn hiệu tiếng núi của người

2.1.2 Một số đặc tính cơ bản của tín hiệu tiếng nói

 Hàm năng lượng thời gian ngắn

Hàm năng lượng thời gian ngắn là một yếu tố quan trọng để phân biệt âm hữu thanh và âm vô thanh trong tín hiệu âm thanh Thông thường, giá trị của hàm này đối với tín hiệu âm hữu thanh lớn hơn so với tín hiệu âm vô thanh Để tính toán hàm năng lượng thời gian ngắn, tín hiệu tiếng nói được chia thành nhiều khung nhỏ, mỗi khung có độ dài từ 10-30ms và chứa N mẫu Sau đó, các khung này được nhân với một hàm cửa sổ để làm phẳng phổ, giúp tính toán năng lượng của tín hiệu trong khoảng thời gian đủ ngắn.

Hàm cửa sổ có dạng sau

Hàm năng lượng thời gian ngắn tại khung m được tính theo công thức

N số mẫu tín hiệu trong một khung

Có ba loại cửa sổ thường được dùng : Hamming, Hanning, cửa sổ chữ nhật

Dạng sóng tiếng nói gồm hai thành phần

- Thành phần có biên độ ngẫu nhiên (giống nhiễu)

Thành phần có tính chu kỳ của tín hiệu âm thanh là phần chứa các thành phần tần số có dạng điều hoà, trong đó tần số thấp nhất được gọi là tần số cơ bản (pitch P) hoặc F0, tương ứng với tần số dao động của dây thanh.

Trong tín hiệu tiếng nói, mỗi đỉnh phổ với biên độ lớn nhất trong một khoảng nhất định tương ứng với một Formant Tần số của Formant không chỉ được xác định bởi biên độ mà còn bởi dải thông Về mặt vật lý, các Formant phản ánh tần số cộng hưởng của các tuyến âm Thông thường, tín hiệu tiếng nói có năm Formant từ F1 đến F5, tuy nhiên, chỉ hai Formant đầu tiên có ảnh hưởng đáng kể đến các đặc tính của âm vị, trong khi các Formant còn lại có tác động rất ít.

Dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi

Giá trị tần số cơ bản Người nói

2.1.3 Biểu diễn tớn hiệu tiếng núi

 Biểu diễn trờn miền thời gian

Hỡnh 2.2: Biểu diễn tớn hiệu tiếng núi trờn miền thời gian (õm “khụng”)

Từ hình 2.2 ta thấy rằng tín hiệu âm”không” nằm trong khoảng thời gian từ 0,08 0,45s Biên độ của tín hiệu đã được chuẩn hoá nằm trong khoảng [- - 1:1] (V)

 Biểu diễn trờn miền tần số

Hỡnh 2.3: Biểu diễn tớn hiệu trờn hỡnh 6 trờn miền tần số

Từ hình 2.3 ta thấy rằng dải tần của tín hiệu âm ”không” là khoảng từ

 Biểu diễn trờn miền thời gian, tần số kết hợp

Thực chất là biểu diễn trên miền tần số nhưng được thực hiện trên các đoạn tín hiệu ổn định (có thời gian đủ ngắn)

Hình 2.4 : Biểu diễn tín hiệu trên hình 2.3 trên miền thời gian và tần số kết hợp

Ngôn ngữ tiếng Việt

2.2.1 Đặc điểm của âm tiết tiếng Việt

Âm tiết trong tiếng Việt được thể hiện một cách đầy đủ và rõ ràng, với mỗi âm tiết mang một thanh điệu và cấu trúc ổn định Điều này giúp cho việc xác định ranh giới giữa các âm tiết trở nên dễ dàng hơn so với các ngôn ngữ châu Âu, nơi mà việc phân chia âm tiết đôi khi cần đến phương pháp phân tích phổ Hơn nữa, chữ viết tiếng Việt cũng thể hiện sự tách bạch của âm tiết khi mỗi âm tiết được viết thành một từ riêng biệt, thể hiện tính độc lập cao hơn so với các âm tiết trong ngôn ngữ châu Âu.

Trong các ngôn ngữ châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như:

Les-amis Have-you done it?

Trong tiếng Việt không có hiệu tượng nối âm như vậy.

2.2.1.2 Khả năng biểu hiện ý nghĩa

Đa số các âm tiết trong tiếng Việt đều mang ý nghĩa và có thể hoạt động như một từ độc lập Điều này có nghĩa là ranh giới của âm tiết gần như trùng với ranh giới của hình vị, đơn vị có nghĩa nhỏ nhất trong ngôn ngữ Do đó, trong một phát ngôn, số lượng âm tiết thường tương đương với số lượng hình vị.

Một âm tiết tiếng Việt đầy đủ thường bao gồm 5 thành phần chính Cấu trúc tổng quát của âm tiết tiếng Việt được biểu diễn theo công thức (C1)(w)V(C2), trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối, tạo nên một âm tiết hoàn chỉnh.

Vần Âm đệm Âm ch ính Âm cuối

Âm tiết tiếng Việt có cấu trúc gồm hai bậc, trong đó bậc một bao gồm các thành tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học, còn bậc hai bao gồm các yếu tố của phần vần Quan hệ giữa các yếu tố ở bậc một là quan hệ lỏng lẻo, trong khi quan hệ giữa các yếu tố của bậc hai có quan hệ chặt chẽ Điều này cho thấy tính độc lập của thanh điệu đối với các âm vị cụ thể, thể hiện ở chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh của âm tiết.

Tiếng Việt sở hữu một hệ thống âm tiết phong phú với khoảng 18.959 âm tiết phát âm được, vượt trội so với các ngôn ngữ thông thường trên thế giới chỉ có khoảng 3.000-5.000 âm tiết Điều này giúp tiếng Việt giảm thiểu hiện tượng đồng âm và gây ít trở ngại cho việc nhận diện âm tiết Hệ thống âm tiết của tiếng Việt được tạo nên từ 6 thanh điệu, 21 âm đầu và 155 phần vần, trong đó phần vần đóng vai trò phân biệt lớn hơn cả so với các yếu tố khác.

Thanh Âm đầu Phần vần Âm đệm Âm chính Âm cuối

Hình 2.6 : Cấu trục hai bậc của âm tiết tiếng Việt

2.2.2 Âm vị tiếng Việt Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng có hạn những âm vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị

Một trong những khó khăn khi nghiên cứu âm vị tiếng Việt là thiếu một quy định chính thức về mặt pháp lý hoặc một chuẩn chung được thống nhất giữa các nhà khoa học ngữ âm Do đó, có thể tạm coi "tiếng Việt chuẩn" là một thứ tiếng chung được hình thành dựa trên tiếng địa phương của miền Bắc, với trung tâm là Hà Nội và cách phát âm đặc trưng của Hà Nội.

2.2.2.1 Thanh điệu Âm vị tiếng Việt có hai loại là âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm riêng của tiếng Việt so với các ngôn ngữ châu Âu Một số ngôn ngữ khác như tiếng Hán, tiếng Việt, tiếng Thái cũng có đặc điểm này như tiếng Việt.

Thanh điệu trong tiếng Việt được hình thành thông qua sự rung động của dây thanh, với sự thay đổi về tốc độ và cường độ tạo ra các thanh điệu khác nhau Đặc trưng của thanh điệu tiếng Việt là thuộc loại thanh lướt, nghĩa là các thanh điệu được phân biệt dựa trên sự di chuyển cao độ từ thấp lên cao hoặc từ cao xuống thấp, tạo nên sự đa dạng và phong phú trong hệ thống âm thanh của ngôn ngữ.

Hình 2.7: Các thanh điệu tiếng Việt 1 không dấu, 2 Huyền, 3 Ngã, 4 Hỏi, 5 Sắc, 6

Theo các nhà ngôn ngữ học, thanh điệu có ảnh hưởng quan trọng lên toàn bộ âm tiết, mặc dù trọng tâm chủ yếu tập trung ở phần vần Tiếng Việt sở hữu hệ thống sáu thanh điệu đa dạng, giúp phân biệt ý nghĩa của các từ Khi chia thang độ của giọng nói bình thường thành 5 bậc, ta có thể miêu tả và phân loại thanh điệu tiếng Việt một cách chi tiết và rõ ràng.

Trong tiếng Việt, có 21 âm vị được coi là âm đầu, tuy nhiên các âm vị /p, r/ không được liệt kê là âm vị đầu tiếng Việt và được coi là âm vị có nguồn gốc từ ngôn ngữ nước ngoài Một số sách giáo khoa tiếng Việt cũng liệt kê âm tác thanh hầu như một phụ âm đầu Hiện tượng khép khe thanh lúc mở đầu cũng xuất hiện trong các âm tiết như "ai, ơi, ăn, oản, uống, oanh, uyên", tạo ra tiếng bật do động tác mở khe thanh đột ngột Việc thừa nhận tồn tại âm tắc thanh hầu giúp xây dựng một mô hình tổng quát của âm tiết tiếng Việt cân xứng hơn, bao gồm ba thành tố luôn có mặt: Thanh điệu, âm đầu và âm vần.

2.2.2.3 Âm đệm Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hóa âm tiết và tách biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước các nguyên âm tròn môi như /u, ô, o/, nó chỉ xuất hiện xuất hiện trước các nguyên âm hàng trước Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm âm chính đi sau.-

2.2.2.4 Âm chính Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định âm sắc của âm tiết Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm chính tiếng Việt có thể chia thành 4 nhóm:

Nhóm nguyên âm đơn hàng trước không tròn môi thường có âm sắc bổng và có thể dài hoặc ngắn Trong đó, thể ngắn thường có sự biến dạng về trường độ, âm sắc, cường độ và cách phát âm căng và ngắn.

– Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và ngắn Sự thể hiện ngắn có cấu âm không giữ đều

Nguyên âm trong tiếng Việt được phân thành hai nhóm chính: nguyên âm đơn và nguyên âm đôi Đối với nguyên âm đơn, âm sắc thường trầm vừa và không bị tròn môi Trong khi đó, nguyên âm đôi có đặc điểm phát âm yếu dần, với yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó âm sắc của nguyên âm đôi được quyết định bởi yếu tố đầu Đặc biệt, nguyên âm trong tiếng Việt chỉ có một thể dài và không bị biến dạng về âm sắc cũng như trường độ.

CÁC PHƯƠNG PHÁP TRÍCH TẠO ĐẶC TÍNH TIẾNG NÓI

Tiền xử lý

Để xác định khoảng thời gian của một tín hiệu âm thanh, người ta thường sử dụng các thuật toán để tìm điểm đầu và điểm cuối của tín hiệu đó Một trong những phương pháp phổ biến là sử dụng hai thông số cơ bản là số lần tín hiệu vượt qua điểm "0" (ZCR - Zero Crossing Rate) và năng lượng thời gian ngắn Bằng cách áp dụng các thông số này, ta có thể ước tính tìm điểm đầu và điểm cuối của tín hiệu, từ đó xác định được khoảng thời gian của tín hiệu âm thanh một cách đầy đủ và chính xác.

Bước 1: Tính s l t ố ần ín hiệu ượt v qua iđ ểm “0” và hàm năng lượng thời gian ng c nhi ta ắn ủa ễu được c ông s ác th ốngưỡng;

Bước 2: Chia khung t ín hiệu, dịch chuyển khung;

Bước 3: Tính s l t ố ần ín hiệu ượt v qua i m đ ể “0” và hàm n ng lă ượng thời gian ng cho m khung n ắn ỗi ếu thấy ớn ơ l h n giá trịngưỡng ì chuy sang th ển bước 4;

Bước 4: Thực hiện kiểm tra hai giá trị tr ở trong khung thời gian theo nguyên tắc đã thiết lập Nếu giá trị vượt ngưỡng, hãy đánh dấu điểm đầu và cuối của tín hiệu, ngược lại quay lại bước 2.

 C b c khoắt ỏ ác ảng ặng l : Sau khi t ìm được đ ểm đầu i , cu cối ủa t ín hiệu ta s c b c ẽ ắt ỏ ác khoảng ặng l , thu được t ín hiệu tích cực.

Hình 3.2 : Tín hiệu trước và sau khi chuẩn hoá (âm “Không”)

S dử ụng ộ ọc b l hiệu chỉnh ởi b vì c lý do sau: ác

Thành phần hữu ích của tín hiệu tiếng nói thường bị suy giảm ở dải tần số cao do đặc tính cố định của cấu tạo vật lý của cơ quan phát âm Để cải thiện chất lượng âm thanh, việc bù lại sự suy giảm này là cần thiết.

 C Fác ormant t s cao thở ần ố ường có êbi n độ nhỏ ơ h n so v cáới c

F mant t s or ở ần ố thấp do v ta c s dậy ần ử ụng ột ộ ọc m b l ông cao th để t ng că ường êbi n độ ủa c F mant t s cao c ác or ở ần ố

 Giảm t ácđộng ủa c ành th phần ột m chi , nhi ều ễu

B l ộ ọcthưòng được ử s dụng có hàm truyền như sau:

H z  az  , với 0.9 a 1 Theo [1] ì á th gi trị được ử ụng s d nhiều nhất là a0.9375

T hi ín ệu trước khi l ọc Phổ tần t hi ín ệu tr ước khi l ọc

T hi sau khi l ín ệu ọc Phổ ần t t hi sau khi l ín ệu ọc

Hình 3.3: Tín hiệu âm ”một” trước và sau khi lọc

Qua hình ảnh trên, có thể thấy phổ tần của tín hiệu trước khi lọc bị lẫn vào nhiễu, đặc biệt là các Formant ở tần số trong khoảng từ 2000Hz đến 400Hz Tuy nhiên, sau khi áp dụng quá trình lọc, các Formant này đã được thể hiện rõ ràng và tách bạch hơn, giúp cải thiện chất lượng tín hiệu.

 Tính hàm trung bình năng lượng

N: Tổng ố ẫu s m trong một khung

 Tính số lần tín hiệu vượt qua điểm “0”

S l t ố ần ín hiệu ắt c qua iđ ểm ‘0’ Trong thực ế để t ánh i thì thay m tr nh ễu ức

Hình 3.4 : Số lần qua điểm ‘0’

Phân khung và cửa sổ hoá

Sóng tín hiệu tiếng nói thường không ổn định, nhưng khi xét trong một khoảng thời gian đủ ngắn, tín hiệu có thể được coi là ổn định Khoảng thời gian này thường dao động từ 5-30ms, và các khung tín hiệu được lấy đè lên nhau khoảng 30-70% độ dài của khung để tránh mất thông tin Ví dụ, tín hiệu có thể được phân khung với độ dài 20ms và các khung được lấy đè lên nhau 10ms để đảm bảo tính liên tục của tín hiệu.

Hình 3.5 : Phân khung tín hiệu

Khi tín hiệu được ánh xạ vào khung, giá trị của nó thường bị giảm đột ngột về '0' làm cho phổ của nó bị méo Để khắc phục hiện tượng này, ta nhân tín hiệu với một hàm có chu kỳ Theo nghiên cứu, hàm có chu kỳ được sử dụng nhiều nhất là hàm Hamming.

1, , k  K: S ốthứ ự t khung k ( ) x n : T ín hiệu trong khung th ứ k trước khi cửa s á ổho

' k ( ) x n : Tín hi trong khung th ệu ứ ksau khi c s á ửa ổho

Trích tạo đặc tính

3.3.1 Phương pháp tính hệ số MFCC Ý tưởng cơ bản của phương pháp tính hệ số MFCC là mô tả cơ chế cảm thụ âm thanh của tai người Thang đo Mel là thang đo tần số biến đổi theo hàm tuyến tính ở tần số thấp và biến đổi theo hàm logarit ở tần số cao ( 1000Hz ) Công thức chuyển đổi từ thang đo tuyến tính sang thang đo Mel.

: f giá trị tần số ở thang tuyến tính (Hz)

Công thức chuyển đổi từ thang Mel sang thang tuyến tính

(3.5) : m giá trị tần số ở thang Mel (Hz)

Hình 3.6: Đồ thị chuyển đổi giữa thang tuyến tính và thang Mel

Sơ đồ khối tính hệ số phổ theo thang đo Mel

Bộ lọc Phân khung Cửa sổ hoá DFT

Logarit giá trị năng luợ ng

Chỉnh giá trị DCT ceptral

Tính giá trị delta MFCC Delta(MFCC) MFCC

Hình 3.7: Sơ đồ tính hệ số Ceptral theo thang đo Mel

Tạo dãy băng lọc tam giác theo thang Mel

 Công thức tính biên độ các bộ lọc

1, m M : Tổng số các bộ lọc m ( )

H k : Biên độ của bộ lọc thứ mcó tần số đỉnh là k

( ) f i : Tần số đỉnh của bộ lọc thứ i

 Tính tần số đỉnh của các bộ lọc cho phổ tín hiệu có N điểm, với tần số lấy mẫu là Fs

( ) max min min min min max max

Fs n f Mel Freq f f Mel Freq f f Freq Mel f

Các thông số quan trọng của bộ lọc bao gồm số bộ lọc (n), thứ tự của các bộ lọc (i), tần số đỉnh của bộ lọc tam giác thứ i tính theo thang Mel (i f Mel) và thang tuyến tính (i f Hz) Ngoài ra, cần xác định tần số cực tiểu và cực đại ở cả thang tuyến tính (min f H và max f H) và thang Mel (min f M và max f M) để đảm bảo hiệu suất lọc chính xác.

Công thức chuyển đổi tần số đỉnh các bộ lọc sang thang tuyến tính

Chọn tần số cực đại và cực tiểu ở thang tuyến tính ( f H max , f H min )

Theo lý thuyết, tai người có thể nghe được các âm thanh có tần số trong khoảng từ 200Hz đến 20.000Hz Tuy nhiên, trên thực tế, 5 tần số cơ bản của tín hiệu tiếng nói chủ yếu nằm trong khoảng từ 300Hz đến 3.400Hz, như Andrei Mihaila đã chỉ ra.

100Hz3400Hz, và tai người nhạy cảm hơn với những âm có tần số trong khoảng 1kHz-4kHz Vì vậy thường chọn f H max 4000Hz, f H min 0

Hình 3.8 : Dãy băng lọc tam giác được theo thang Mel

DFT sum sum sum mfcc(1) mfcc(2) mfcc(N )

Hình 3.9 : Sơ đồ tính hệ số MFCC

Hiệu chỉnh hệ số phổ

 Logarit giá trị năng lượng

Để cải thiện hiệu suất nhận dạng, cần loại bỏ những thông tin về pha không có ý nghĩa và tạo bộ số liệu biến thiên theo hàm logarit Điều này giúp dữ liệu trở nên phù hợp hơn với đặc tính của tai người, từ đó nâng cao độ chính xác trong nhận dạng.

– Loại bỏ nhiễu tương quan

N: Số mẫu trong một khung m j : Giá trị logarit năng lượng ở mạch lọcj i: Bậc của hệ số Cepstral

So sánh với hàm DFT, hàm DCT có những ưu điểm sau

– Hàm cosine rời rạc cho giá trị thực

– Giảm tính tương quan giữa các giá trị

– Khả năng nén các giá trị tốt hơn

Tính các hệ số MFCC động giúp thể hiện sự thay đổi theo thời gian của các đặc tính tĩnh, đặc trưng cho tốc độ và nhịp điệu của người nói, từ đó cung cấp thông tin chi tiết hơn về đặc điểm giọng nói.

Thuật toán tính các đặc tính động

Khi có các đặc tính tĩnh c1, c2, , cN, với ck[i] là đặc tính thứ i của khung thứ k, chúng ta có thể tính các đặc tính động Δck[i] bằng các công thức sau Đặc biệt, phương pháp tính toán dựa trên công thức phương sai sẽ được áp dụng để xác định các giá trị này.

– Tính dựa vào thuật toán hồi qui

3.3.2 Phương pháp tính hệ số PLP

PLP là một kỹ thuật phân tích tín hiệu tiếng nói được Hynek Hermansky

Phân tích PLP (Perceptual Linear Prediction) được giới thiệu vào năm 1989 và hiện là một trong những kỹ thuật hiệu quả trong các hệ thống nhận dạng tiếng nói Kỹ thuật này được phát triển từ Linear Prediction (LP) và dựa trên các đặc tính về phổ tần của tai người, giúp phân tích PLP phù hợp hơn với tai người so với phân tích LP Ưu điểm của PLP là khắc phục được nhược điểm của LP, đó là xấp xỉ phổ của tín hiệu tiếng nói với đáp ứng như nhau tại tất cả các tần số của dải thông phân tích.

Tiền xử lý cân bằng âm

Tính các hệ số tự tương quan Tiếng nói

Hình 21: Lược đồ phân tích PLP tín hiệu tiếng nói

 Chuyển đổi thang đo tần số, phân tích phổ theo các dải tần khác nhau

Công thức chuyển đổi tần số từ thang đo Hz sang thang đo Bark

Fr eq ue ncy (B ar k)

Hình 3.10 : Chuyển đổi thang đo tần số Hz -Bark

: Tần số góc theo thang đo Bark

Sau khi chuyển đổi thang đo tần số, phổ của tín hiệu sẽ được tính dựa vào dãy băng lọc có đường đặc tính trên miền tần số, với tần số góc được biểu thị theo thang đo Hz.

0 2.5 for for for for for

Các bộ lọc được mô tả theo hàm trên có thiết kế tương tự như bộ lọc của tai người, với tần số cắt tại giá trị biên độ là -40db, giúp mô phỏng chính xác cách tai người nhận biết âm thanh Phổ năng lượng của tín hiệu được tính toán dựa trên các bộ lọc này thông qua một công thức cụ thể, cho phép phân tích và hiểu rõ hơn về đặc tính của tín hiệu âm thanh.

P  : Phổ năng lượng của tín hiệu theo thang đo tần số Hz

P  : Phổ năng lượng của tín hiệu tính theo thang đo tần số Bark ( ) i

  : Phổ năng lượng của tín hiệu qua bộ lọc thứ icủa dãy băng lọc

Hình 3.11 : Dãy băng lọc Bark

Dải tần của mỗi bộ lọc trong dãy băng lọc được lựa chọn cẩn thận để đảm bảo rằng các mẫu phổ năng lượng của tín hiệu bao phủ toàn bộ dải thông phân tích Thông thường, người ta sử dụng 18 mẫu phổ năng lượng tương ứng với dải tần từ 0 đến 16,9 Bark, giúp phân tích tín hiệu một cách toàn diện và chính xác.

5 kHz, có nghĩa là mỗi bộ lọc có dải thông là 0.994 Bark

 Tiền xử lý cân bằng âm

  đuợc tiền xử lý dựa vào đường cân bằng âm

Hàm E( ) được thiết kế để mô tả đặc tính nhạy khác nhau của tai người ở các tần số khác nhau Hàm này cung cấp thông tin về độ nhạy của tai người khi tiếp xúc với mức năng lượng khoảng 40db, giúp chúng ta hiểu rõ hơn về khả năng nghe của con người.

Hình 3.12 : Đồ thị biên tần của hàm truyền có phương trình - mô tả như trên

Hàm truyền của bộ lọc được mô tả có độ dốc 12 dB/oct trong khoảng tần số từ 0 đến 400 Hz, 0 dB trong dải tần từ 400 Hz đến 1200 Hz, 6 dB trong dải tần từ 1200 Hz đến 3100 Hz, và 0 dB trong dải tần từ 3100 Hz đến tần số Nyquist (tần số cực đại của tín hiệu) Hàm truyền này có thể áp dụng cho tần số Nyquist lên tới 5000 Hz Đối với các ứng dụng yêu cầu tần số Nyquist lớn hơn 5000 Hz, có thể sử dụng hàm truyền khác để tăng độ nhạy của tai nghe trong dải tần cao hơn.

Biên độ phổ của tín hiệu được nén theo công thức sau:

Phương trình này mô tả gần đúng đặc tính năng lượng của tai nghe và thể hiện mối quan hệ phi tuyến giữa cường độ âm và tính chất to nhỏ mà tai người cảm thụ được Đồng thời, phương trình này còn giúp giảm mức độ biến đổi biên độ của các hệ số phổ tính theo dãy băng lọc, cung cấp một cách tiếp cận chính xác hơn trong việc mô tả đặc tính âm thanh của tai nghe.

 Mô hình các điểm cực

  được lấy gần giống với phổ của một mô hình toàn điểm cực sử dụng thuật toán tự tương quan, một phương pháp tính toán tương tự như thuật toán tính hệ số LPC Mô hình này bao gồm các bước tính toán quan trọng để đạt được kết quả chính xác.

– Tính biến đổi Furier ngược (IDFT) tín hiệu

– Tính các hệ số tương quan

– Giải phương trình Yule-Walker

MÔ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NÓI 42 4.1 Mô hình thống kê trong nhận dạng tiếng nói

Nguyên lý hoạt động của các hệ thống nhận dạng tiếng nói sử dụng mô hình thống kê

Trong các hệ thống nhận dạng tiếng nói, tín hiệu tiếng nói được lấy mẫu và đưa qua khối tiền xử lý và trích tạo đặc tính, tạo ra các véc tơ đặc tính (khung) gọi là véc tơ phát xạ, ký hiệu là O Véc tơ phát xạ này thay đổi tùy thuộc vào người nói, môi trường phát âm và thời điểm phát âm Khối nhận dạng sẽ lựa chọn phát âm W sao cho xác suất phát xạ là lớn nhất, giúp hệ thống nhận dạng chính xác nội dung tiếng nói.

Một hệ thống nhận dạng tiếng nói sử dụng mô hình thống kê thông thường được mô tả bởi các khối chức năng sau

Hình 4.1 : Mô hình thống kê trong nhận dạng tiếng nói

Hệ thống được cấu thành từ 5 khối chức năng chính: khối tạo véc tơ đặc tính (véc tơ phát xạ), mô hình âm học, khối từ vựng và mô hình ngôn ngữ Đặc biệt, khối mô hình âm học có nhiệm vụ tính toán xác suất phát sinh phát xạ O của từ.

Khi xây dựng mô hình nhận dạng âm thanh, không thể tạo ra một mô hình âm học hoàn hảo cho tất cả các bài toán nhận dạng Do đó, trong mỗi bài toán, việc lựa chọn một mô hình phù hợp là rất quan trọng Mô hình ngôn ngữ đóng vai trò quan trọng trong việc tính toán xác suất của từ, giúp tăng độ chính xác cho quá trình nhận dạng.

P W Khối cuối cùng là thuật toán tìm kiếm, có chức năng giải phương trình (3.1).

Mô hình Markov ẩn

4.1.2.1 Nguyên lý hoạt động của mô hình HMM

Trong hệ thống nhận dạng sử dụng mô hình HMM, véc tơ phát xạ có kích thước p chiều được tạo bởi mô hình Markov theo sơ đồ cụ thể, cho phép mô hình hóa quá trình tạo ra các véc tơ phát xạ một cách linh hoạt và chính xác.

Hình 4.2 : Ví dụ mô hình HMM

Trong mô hình này, có ba trạng thái phát xạ (2, 3, 4) và hai trạng thái không phát xạ là trạng thái đầu (1) và trạng thái cuối (5) Tổng số trạng thái của mô hình là Ns = 5 Hàm mật độ xác suất của phát xạ ot ở trạng thái j là một đại lượng quan trọng trong mô hình này.

( ) ( | ) j t t t b o  p o q  j , xác suất chuyển từ trạng thái thứ i sang trạng thái thứ j là

Trong mô hình HMM, các trạng thái đầu và cuối không phát xạ và có xác suất tự chuyển trạng thái bằng 0 (a11 = a55 = 0), điều này cho phép mở rộng mô hình hoặc kết hợp nhiều mô hình nhỏ thành một mô hình lớn hơn Tổng xác suất chuyển trạng thái của mỗi trạng thái phải luôn bằng 1.

Trong mô hình HMM được minh họa ở hình 1.1, các phát xạ được tạo ra bởi các trạng thái cụ thể: phát xạ o1 được tạo bởi trạng thái j = 2, các phát xạ o2, o3, o4 được tạo bởi trạng thái 3, và phát xạ o5 được tạo bởi trạng thái 4 Tập các trạng thái tạo ra các phát xạ được ký hiệu là Q = {1, 2, 3, 3, 3, 4, 4, 5} Theo giả thiết của mô hình HMM, các phát xạ sinh ra bởi một trạng thái là độc lập với nhau, do đó chúng có xác suất bằng nhau.

Hàm mật độ xác suất của các phát xạ này thường được chọn là hàm Gauss:

Công thức ( 2) thường được thay thế bằng mô hình Gauss trộn (GMM- Gaussian Mixture Models), từ đó xác suất phát xạ được tính theo công thức sau:

M : Số thành phần trộn c jn : Trọng số trộn ( M n  1 c jn  1 )

Một trong những ưu điểm đáng kể của việc sử dụng hàm GMM (Gaussian Mixture Model) là khả năng mô tả và sắp xếp các phân bố tương quan với nhau trong hệ tọa độ không gian, đặc biệt là thông qua việc tạo ra các ma trận hiệp phương sai đường chéo.

Một mô hình HMM được đặc trưng bởi các thông số cơ bản, bao gồm số thành phần trộn (M) của mỗi trạng thái, thường được lấy bằng nhau trong hệ thống nhận dạng Tuy nhiên, việc thay đổi giá trị M có thể cải thiện chất lượng của hệ thống Để tối ưu hóa giá trị M, thuật toán lựa chọn M tối ưu đã được trình bày trong một số nghiên cứu trước đây.

– N , số trạng thái trong mô hình Các trạng thái thường được ký hiệu bằng S  { , , , } S S S 1 2 3 Trạng thái của mô hình tại thời điểm t được ký hiệu là q t

– M : Số ký hiệu quan sát, đây là kích thước của bảng từ vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V  { , , } v v v 1 2 3,

– A  { } a ij , xác suất chuyển trạng thái Trong đó a ij là xác suất để trạng thái j xuất hiện tại thời điểm t  1 khi trạng thái i đã xuất hiện tại thời điểm t

– B  { ( ) b k j  b o j ( ) k  P o q ( | )} k i : Xác suất phát xạ quan sát trong mỗi trạng thái b o j ( ) t là xác suất của quan sát o t tại trạng thái j ở thời điểm t

–   { , , , }  1 2  N xác suất trạng thái khởi đầu  i là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t  1

Hình 4.4 : Mô hình tập trạng thái và tập quan sát

4.1.2.2 Bài toán nhận dạng sử dụng mô hình HMM

Trong bài toán nhận dạng, có một dãy các quan sát cho trước

O  o o o và mô hình Markov ẩn   {A,B, }  đã được huấn luyện, ta cần tính xác suất P O ( | ) 

Hình 4.5 : Quá trình sinh ra chuỗi trạng thái và chuỗi quan sát của mô hình HMM

Với một dãy quan sát có độ dài T, chúng ta có thể liên kết với nó một dãy các trạng thái tương ứng của mô hình Markov ẩn, được ký hiệu là q1, q2, , qT Xác suất để dãy quan sát O được sinh ra bởi dãy trạng thái q của mô hình θ có thể được tính toán, cung cấp thông tin quan trọng về mối quan hệ giữa dãy quan sát và mô hình Markov ẩn.

Với giả thiết là các o i i ,  1, T là độc lập ta có :

Mặt khác ta có xác suất để mô hình  sinh ra dãy trạng thái q : là

Từ đó ta có xác suất sinh ra dãy quan sát O đối với mô hình  ứng với trạng thái q : là

Q : Tập các dãy trạng thái q

Trong thực tế, công thức tính xác suất dãy quan sát O đối với mô hình θ thường gặp khó khăn do độ phức tạp quá lớn, khiến việc tính toán trở nên cồng kềnh với NT phép tính nhân và NT - 1 phép tính cộng Để khắc phục vấn đề này, thuật toán tiến-lùi (forward-backward) đã được áp dụng để tính xác suất dãy quan sát O một cách hiệu quả hơn Theo đó, biến tiến αi(t) được định nghĩa là xác suất của dãy quan sát O tới thời điểm t, giúp đơn giản hóa quá trình tính toán và tăng tốc độ xử lý.

O o o  o tại trạng thái S i được sinh ra bởi mô hình 

    với các giá trị khởi tạo  i ( ) t  i i b o ( ) 1 1   i N

Các  i ( ) t được tính bằng thuật toán đệ qui sau :

– Tính các a t j ( 1)  bằng phương pháp đệ qui

– Từ đó ta có xác suất sinh ra dãy quan sát của mô hình  tính theo biến tiến

  lùi Định nghĩa biến  i ( ) t là xác suất của dãy quan sát O từ thời điểm

1 t  đến thời điểm T : O  { , o o t  1 t  2 , , } o T , được sinh ra khi mô hình ở trạng thái S i tại thời điểm t

Tương tự như thuật toán biến tiến, ta có các công thức đệ qui tính xác suất

( | ) O  dựa vào biến lùi như sau:

– Tính  j ( ) T bằng phương pháp đệ qui

– Từ đó ta có xác suất sinh ra dãy quan sát của mô hình  tính theo biến lùi

Kết hợp các kết quả ở trên ta có xác xuất sinh ra dãy quan sát O của mô hình  có thể tính theo các công thức sau:

4.1.2.3 Thuật toán hiệu chỉnh tham số của mô hình Maximum Likelihood

Thuật toán Machine Learning (ML) được áp dụng để xác định bộ tham số tối ưu cho mô hình nhận dạng dựa trên dữ liệu huấn luyện Mục tiêu chính của thuật toán là tìm bộ tham số  ˆ nhằm tối đa hóa xác suất tạo ra dãy quan sát O (đã cho), tức là p O ( | )  Giả sử dãy quan sát O  { , , } o 1 o N với các phát xạ thành phần độc lập, ta có thể tính toán xác suất của mô hình theo công thức tương ứng.

Các mô hình trong đồ án này đều dựa vào các hàm tính mật độ xác suất theo công thức e mũ Để đơn giản hóa quá trình tính toán, công thức (1.2) đã được thay thế bằng công thức logarit.

Thuật toán ML được diễn diễn đạt như sau: ˆ argmax ( | ) argmaxlog ( | ) p O p O

Trong mô hình HMM, việc xác định chuỗi trạng thái ẩn là chìa khóa để hiệu chỉnh tham số mô hình Tuy nhiên, do chuỗi trạng thái này không thể quan sát được, thuật toán Baum-Welch được sử dụng như một giải pháp thay thế để ước lượng tham số mô hình Thuật toán này cho phép ước lượng tham số mô hình một cách hiệu quả, ngay cả khi chuỗi trạng thái ẩn không được biết trước.

Xác suất để mô hình ở trạng thái Si vào thời điểm t với dãy quan sát O và mô hình θ đã cho được định nghĩa là γi(t) = P(qt = Si | O, θ) Biến γi(t) được tính thông qua hai biến tiến lùi, giúp xác định trạng thái của mô hình tại thời điểm t dựa trên dãy quan sát và mô hình đã cho.

Từ các giá trị của  i ( ) t ta xác định thời điểm t ứng với trạng thái q t với dãy quan sát O và mô hình  đã cho. argmax[ ( )], 1 , 1 t i q   t   i N   t T

Biến ξij(t) được định nghĩa là xác suất mà mô hình ở trạng thái Si tại thời điểm t và chuyển sang trạng thái Sj tại thời điểm t+1, với mô hình θ và dãy quan sát O đã cho.

Quá trình tính các giá trị  ij ( ) t được thể hiện ở sơ đồ sau :

Hình 4.6: Lược đồ miêu tả cách thức tính  ij ( ) t

Từ định nghĩa các biến tiến lùi ta có :

Từ công thức (1.2.2) và (1.2.6) ta có

Từ các công thức và các định nghĩa trên ta thấy :

 Là xác suất để mô hình chuyển từ trạng thái S i sang trạng thái

 Là xác suất để mô hình ở trạng thái S i

Từ đó ta có các công thức dùng để hiệu chỉnh các tham số của mô hình Markov ẩn như sau :

– Công thức hiệu chỉnh xác suất trạng thái khởi đầu  i , i  1, N ˆ i i ( ) t

Tổng quan về các mô hình Gauss tuyến tính

Cấu trúc và hoạt động của các mô hình Gauss tuyến tính được xây dựng dựa trên mô hình không gian trạng thái chuẩn, mô tả chuỗi trạng thái và chuỗi quan sát một cách toàn diện Các mạng Bayes động cũng được ứng dụng để mô tả các giả thuyết độc lập trong mô hình, giúp phân tích và dự đoán các chuỗi trạng thái và quan sát phức tạp Các mô hình Gauss tuyến tính và mô hình Gauss trộn được giới thiệu như là những công cụ mạnh mẽ để phân tích và mô hình hóa các hệ thống phức tạp Phân lớp các mô hình Gauss tuyến tính dựa trên các giả thuyết về quá trình sinh ra các chuỗi trạng thái và chuỗi quan sát khác nhau giúp chúng ta hiểu rõ hơn về bản chất của các hệ thống này.

4.2.1 Các mô hình không gian trạng thái

Các mô hình không gian trạng thái thường được định nghĩa thông qua một véc tơ trạng thái k chiều \( x_t \) và một véc tơ quan sát p chiều \( o_t \), tuân theo hệ phương trình sau:

Trong nhận dạng tiếng nói, véc tơ trạng thái x t biểu thị vị trí của các âm vị, trong khi véc tơ quan sát o t thể hiện sự sắp xếp của chúng Các hàm f ( ) và g ( ) định nghĩa quá trình sinh ra chuỗi trạng thái và chuỗi quan sát, với f ( ) mô tả sự thay đổi của âm vị theo thời gian và g ( ) thể hiện cách các âm vị kết hợp để tạo thành phát âm Trong mô hình Gauss tuyến tính, cả hai hàm f ( ) và g ( ) đều là hàm tuyến tính Ngoài ra, các véc tơ nhiễu trạng thái w t và nhiễu quan sát v t tuân theo hàm mật độ phân bố xác suất Gauss.

Trong mô hình nhận dạng tiếng nói, mỗi chuỗi quan sát có thể được tạo ra từ nhiều trạng thái khác nhau Do đó, các hàm trong (4.16) và (4.17) thường được sử dụng dưới dạng hàm Gauss trộn.

Mạng Bayes là công cụ quan trọng trong thống kê, giúp mô tả các giả thuyết độc lập giữa các biến ngẫu nhiên Chúng được cấu trúc dưới dạng đồ thị phẳng, không có mạch vòng, với các nút tròn thể hiện tín hiệu liên tục, nút vuông mô tả tín hiệu rời rạc, và nút bóng đại diện cho các biến quan sát.

Hình 4.7 minh họa các ví dụ về mạng Bayes mô tả các giả thuyết độc lập khác nhau Trong đó, có ba trường hợp chính: các biến z, o và x hoàn toàn phụ thuộc vào nhau; biến quan sát o được sinh ra bởi biến trạng thái x và độc lập với biến z; và mô tả các biến rời rạc, trong đó biến q tại thời điểm t+1 độc lập với tất cả các biến trước đó.

Trong ví dụ trên, có ba biến liên tục ngẫu nhiên là z, x và o, trong đó o là biến quan sát còn hai biến còn lại là biến ẩn Xác suất kết hợp của các biến này được tính bằng tích của các xác suất có điều kiện, thể hiện mối quan hệ phụ thuộc giữa chúng.

Trong ví dụ Bayes, hình 4.7-1 không có giả thuyết độc lập nào giữa các biến, do đó công thức tính xác suất kết hợp của các biến được tính theo công thức (4.18) Tuy nhiên, hình 4.7-2 cho thấy biến quan sát o được sinh ra bởi biến trạng thái x và độc lập với biến z, dẫn đến việc công thức (4.18) được viết lại thành một dạng mới, phản ánh mối quan hệ phụ thuộc giữa các biến.

Các mạng Bayes động được ứng dụng rộng rãi trong việc mô tả các giả thuyết độc lập trong mô hình chuỗi Markov rời rạc Chúng cho phép mô hình hóa các mối quan hệ phức tạp giữa các biến ngẫu nhiên và cung cấp một cách tiếp cận thống kê để phân tích dữ liệu.

Hình 4.8 : Mạng Bayes động mô tả một mô hình Markov ẩn

Trong ví dụ trên, một quan sát mới o t  1 được sinh ra bởi trạng thái mới q t  1 và độc lập với các biến trạng thái và các quan sát trước đó

4.2.3 Quá trình sinh ra dãy trạng thái

4.2.3.1 Quá trình sinh ra dãy trạng thái Piece-Wise Constant

Quá trình sinh ra trạng thái này được dựa vào một mô hình Markov ẩn, trong đó mô hình HMM được sử dụng như một quá trình sinh ra chuỗi trạng thái Các véc tơ quan sát o t sẽ được thay thế bằng các véc tơ trạng thái x t trong mô hình này Quá trình Piece-Wise Constant được mô tả bởi hệ phương trình, cung cấp một cách tiếp cận toán học để hiểu và mô hình hóa trạng thái này.

Quá trình sinh ra trạng thái này được mô tả bởi đồ thị sau:

Hình 4.9 : Đồ thị trên mô tả 3 trạng thái có giá trị tuân theo hàm mật độ Gauss

4.2.3.2 Quá trình Gauss-Markov tuyến tính bậc nhất

Trong mô hình không gian trạng thái, các véc tơ trạng thái tuân theo tính chất Markov, nghĩa là véc tơ trạng thái tương lai x t+1 được sinh ra từ véc tơ trạng thái hiện tại x t và không phụ thuộc vào các véc tơ trạng thái trước đó Véc tơ trạng thái mới được tạo ra từ véc tơ trạng thái hiện tại thông qua một phương trình tuyến tính bậc nhất.

Ma trận A tạo ra trạng thái có kích thước k x k, trong khi w đại diện cho nhiễu trạng thái tuân theo hàm mật độ Gauss Trạng thái ban đầu x1 được khởi tạo bằng một hàm Gauss với kỳ vọng μ(i) và phương sai Σ(i), và các vectơ trạng thái tiếp theo tuân theo phân phối Gauss.

4.2.4 Quá trình sinh ra dãy quan sát

Trong phần này, chúng ta sẽ khám phá hai thuật toán quan trọng để tạo ra dãy quan sát khác nhau, bao gồm phân tích FA (Factor Analysis) và phân tích LDA (Linear Discriminant Analysis), giúp chúng ta hiểu rõ hơn về cách thức hoạt động của từng phương pháp.

Quá trình tạo ra dãy quan sát đầu tiên được gọi là phân tích FA vì nó có mô hình tĩnh gần giống với mô hình FA chuẩn với các giá trị kỳ vọng và phương sai xác định Quá trình này được mô tả bởi phương trình trạng thái, cung cấp một cách tiếp cận toán học để hiểu và phân tích dữ liệu.

Các mô hình Gau ss tuyến tính chuẩn

Các mô hình Gauss tuyến tính đa dạng được hình thành thông qua sự kết hợp giữa các mô hình tạo trạng thái và các mô hình tạo dãy quan sát khác nhau Đặc biệt, các mô hình tĩnh như mô hình tĩnh sử dụng phân tích FA sẽ được trình bày chi tiết trong phần này Bên cạnh đó, các mô hình động như mô hình động tuyến tính cũng sẽ được giới thiệu, cung cấp cái nhìn tổng quan về sự đa dạng của các mô hình Gauss tuyến tính.

Các mô hình tĩnh được xây dựng dựa trên cơ sở quá trình sinh ra trạng thái cố định và sử dụng hàm mật độ phân bố Gauss, đồng thời mô tả các quá trình sinh ra dãy quan sát bằng hàm Gauss Điều này tạo nên mô hình Gauss tuyến tính tĩnh, được mô tả một cách rõ ràng và mạch lạc.

Hình 4.13 : Lược đồ mô tả các mô hình Gauss tuyến tính tĩnh

Lược đồ trên cho thấy có 3 mô hình Gauss tuyến tính tĩnh, bao gồm mô hình sử dụng phân tích FA, mô hình sử dụng lượng tử hóa véc tơ VQ và mô hình sử dụng phân tích LDA Mô hình FA được xây dựng dựa trên quá trình sinh trạng thái cố định sử dụng hàm Gauss và quá trình sinh dãy quan sát sử dụng phân tích FA, với giả thiết rằng các véc tơ trạng thái tuân theo phân bố Gauss chuẩn Các mô hình FA độc lập, trộn và phụ thuộc được xây dựng dựa trên mô hình FA với các giả thuyết trộn khác nhau Ngoài ra, mô hình LDA được xây dựng bằng cách kết hợp quá trình sinh dãy trạng thái cố định và quá trình sinh dãy quan sát LDA.

4.3.1.1 Ví dụ mô hình tĩnh sử dụng phân tích FA

Phân tích FA (Phân tích Nhân tố) là một thuật toán thống kê giúp mô tả cấu trúc dữ liệu lớn thông qua việc xác định các biến không quan sát được, còn gọi là nhân tố Các nhân tố này có kích thước nhỏ hơn so với dữ liệu ban đầu và được sử dụng để mô hình hóa các biến quan sát được thông qua sự kết hợp tuyến tính.

Trong mô hình Gauss tuyến tính, phân tích FA được áp dụng để mô phỏng dữ liệu thay cho phân bố Gauss thông qua ma trận hiệp phương sai đầy đủ Mô hình toán học của phân tích FA có thể được diễn đạt như sau:

Quá trình sinh dãy quan sát được mô tả bởi xác suất có điều kiện, trong đó x là tập các nhân tố (véc tơ trạng thái có kích thước k) và o là một véc tơ quan sát có kích thước là p Ma trận trọng số C mô tả quan hệ tuyến tính giữa véc tơ trạng thái và véc tơ quan sát, còn nhiễu quan sát được mô tả bởi một hàm Gauss đơn với véc tơ giá trị trung bình  ( ) o và ma trận hiệp phương sai  ( ) o.

( | ) ( , o , o ) p o x  N o Cx   (4.27) Quá trình này có thể được mô tả bởi mạng Bayes đơn giản như sau:

Hình 414 : Mạng Bayes mô tả một mô hình FA chuẩn

Số lượng tham số trong mô hình FA là η = p(k + 2), trong khi số lượng tham số trong mô hình sử dụng hàm Gauss với ma trận hiệp phương sai đầy đủ là một con số khác Điều này cho thấy mô hình FA có thể cung cấp một cách tiếp cận đơn giản và hiệu quả hơn so với mô hình sử dụng hàm Gauss.

Khi áp dụng phân tích thành phần chính (FA) vào mô hình, kích thước của véc tơ trạng thái đóng vai trò quan trọng Nếu kích thước của véc tơ trạng thái được chọn nhỏ hơn (p - 1) / 2, mô hình FA sẽ có số lượng tham số nhỏ hơn so với mô hình hàm Gauss với ma trận hiệp phương sai đầy đủ Để tìm bộ tham số tối ưu cho mô hình FA, thuật toán EM (Expectation Maximization) được áp dụng để tìm giá trị cực đại của hàm xác suất có điều kiện (ML Maximum Likelihood) dựa trên một dãy quan sát gồm N quan sát.

O  o o , ta có các giá trị thống kê của véc tơ trạng thái được tính như sau:

Công thức cập nhật bộ thông số mới của mô hình ở bước k+1 được tính toán dựa trên tập thông số hiện tại và sai số dự đoán Trong đó, KC CC' là giá trị trung bình của sai số dự đoán, và θ(k) là tập thông số của mô hình ở bước tính thứ k Bộ thông số mới của mô hình ở bước k+1 được cập nhật theo công thức KC CC' = (KC CC' + Σ(o)) - 1 và θ(k+1) = θ(k) + KC CC' * (dự đoán - thực tế).

Công thức hiệu chỉnh (2.15) đóng vai trò quan trọng trong quá trình tìm kiếm bộ thông số tối ưu của mô hình, được áp dụng lặp đi lặp lại cho đến khi đạt được mức sai số mong muốn Quá trình này giúp đảm bảo rằng mô hình được tối ưu hóa một cách chính xác và hiệu quả.

Các mô hình Gauss tuyến tính động là tập hợp các mô hình động phức tạp, bao gồm mô hình động sử dụng quá trình sinh dãy quan sát FA và mô hình động sử dụng phân tích LDA Những mô hình này được thiết kế để mô tả và phân tích dữ liệu động một cách hiệu quả, giúp người dùng hiểu rõ hơn về các mối quan hệ và xu hướng trong dữ liệu.

Hình 4.15 : Các mô hình Gauss tuyến tính động

Mô hình HMM chuẩn có thể được xem như là trường hợp đặc biệt của cả hai quá trình quan sát FA và LDA khi k p bằng cách đặt ma trận quan sát bằng ma trận đơn vị C I Điều này cho thấy mối quan hệ chặt chẽ giữa mô hình HMM và các quá trình quan sát khác, đồng thời làm nổi bật tính linh hoạt của mô hình HMM trong việc mô tả các hệ thống phức tạp.

4.3.2.1 Ví dụ mô hình động tuyến tính LDS (Linear Dynamical System)

Mô hình động tuyến tính (LDS) được xây dựng dựa trên quá trình sinh trạng thái là quá trình Gauss-Markov tuyến tính bậc nhất Quá trình này tạo ra dãy quan sát FA với véc tơ quan sát o t được tính từ véc tơ trạng thái hiện thời Mô hình toán học của LDS mô tả mối quan hệ giữa trạng thái và quan sát, cung cấp một khuôn khổ toán học để phân tích và dự đoán hệ thống động.

Trong mô hình này, các nhiễu w và v được mô tả là các véc tơ ngẫu nhiên tuân theo phân phối Gauss, với các ma trận hiệp phương sai là ma trận đường chéo Đồng thời, véc tơ trạng thái đầu tiên cũng được giả định tuân theo phân phối Gauss, tạo nên một cơ sở toán học vững chắc cho mô hình.

Mô hình LDS có tổng số thông số là   (4  k k )  (2  k p ), trong đó bao gồm 4k thông số cho trạng thái khởi tạo và nhiễu trạng thái, k 2 thông số cho ma trận sinh dãy trạng thái, pk thông số cho ma trận quan sát và 2p thông số cho nhiễu quan sát Các giả thuyết độc lập giữa các biến trong mô hình này được mô tả thông qua mạng Bayes.

Hình 4.16 : Mạng Bayes mô tả LDS

Thuật toán học trong các mô hình Gauss tuyến tính

This section describes the learning algorithms used in linear Gaussian models, as outlined in section 2.5 Two primary algorithms utilized in linear Gaussian models are the Maximum Likelihood (ML) algorithm and the Expectation Maximization (EM) algorithm.

Các thuật toán học thường được sử dụng để ước lượng thông số của mô hình hoặc lựa chọn mô hình phù hợp nhất từ một tập các mô hình chuẩn Trong một số trường hợp, mục tiêu của thuật toán học là xác định số phần tử trộn và kích thước của không gian trạng thái tối ưu Tuy nhiên, trong nhiều trường hợp, mục tiêu chính là tối ưu hóa các thông số của mô hình Để đạt được điều này, các thuật toán thường dựa trên việc ước lượng Maximum Likelihood (ML), trong đó các thông số tối ưu của mô hình được xác định bằng cách cực đại hóa hàm xác suất sinh dãy quan sát Đối với các mô hình có biến ẩn, việc ước lượng trực tiếp ML có thể phức tạp, và vì vậy, thuật toán EM thường được sử dụng với các bước lặp để tìm bộ thông số tối ưu của mô hình.

4.4.1 Tính giá trị cận dưới của hàm logarit xác suất sinh dãy quan sát

Trong các mô hình trạng thái có một số biến ẩn, việc ước lượng trực tiếp mô hình ML (Maximum Likelihood) không thể thực hiện được Ví dụ, hàm logarit của xác suất sinh dãy quan sát của mô hình có thể được biểu diễn dưới dạng phức tạp, đòi hỏi các phương pháp ước lượng gián tiếp để đạt được kết quả chính xác.

Tập các biến ẩn X = {x1, , xN} đóng vai trò quan trọng trong việc tính tích phân (4.38), tuy nhiên công thức này thường khó thực hiện Do đó, các thuật toán sắp xỉ thường được sử dụng để tính gần đúng, mặc dù đòi hỏi khối lượng tính toán lớn Để giải quyết vấn đề này, người ta đã tìm ra giải pháp sử dụng giá trị cận dưới của hàm logarit, giúp đơn giản hóa quá trình tính toán.

Giá trị cận dưới được xác định dựa trên bất đẳng thức Jensen Bất đẳng thức này áp dụng cho hàm lồi f(x) và các biến γm thỏa mãn điều kiện ∑Mm=1 γm = 1.

    (4.39) Áp dụng bất đẳng thức Jensen cho biểu thức (2.23) ta có :

Từ bất đẳng thức (2.25), chúng ta có thể thấy cận dưới của hàm L(θ) chính là giá trị lớn nhất của hàm B(θ, q(X)) Để tìm giá trị lớn nhất của B(θ, q(X)), chúng ta sử dụng hàm Lagrange.

(4.41) Trong đó  là nhân tử Lagarange, 1  q X dX ( )  0

 Theo tính chất của hàm Lagrange nếu ( , ( ))  q X ˆ thỏa mãn cực đại hóa hàm B ( , ( ))  q X thì sẽ tồn tại

Để tìm giá trị cận dưới của hàm mục tiêu, chúng ta cần tìm các giá trị của q và X sao cho đạo hàm riêng của hàm Lagrange G(q, X) tại các giá trị đó bằng 0 Khi giải các phương trình đạo hàm riêng của hàm Lagrange, chúng ta thu được kết quả q và X ước lượng là q và X tối ưu, được ký hiệu là q và X ˆ Thay giá trị của q và X ˆ vào phương trình (2.25), chúng ta có thể tính được giá trị cận dưới của hàm mục tiêu theo tham số θ, được ký hiệu là L(θ) Trong trường hợp các biến ẩn X có giá trị rời rạc, chúng ta chỉ cần thay thế các hàm tích phân bằng các hàm tính tổng.

4.4.2 Thuật toán EM Đối với các mô hình mà ta có thể dễ dàng tính được các xác suất hậu nghiệm của các biến ẩn thì việc tìm bộ tham số tối ưu của mô hình được dựa trên cơ sở cực đại hoá giá trị của hàm B ( , ( ))  q X ˆ Bài toán tìm  sao cho hàm

Giá trị cực đại của B  q X được giải quyết bằng các thuật toán lặp, trong đó thuật toán EM là điển hình Thuật toán EM bao gồm hai bước chính là bước E và bước M, giúp tính toán các giá trị xác suất hậu nghiệm một cách hiệu quả.

M sẽ tìm giá trị cực đại của cận dưới Hai bước này sẽ được lặp cho đến khi đạt được ngưỡng sai số mong muốn L (  ( 1) k  )  L (  ( ) k )   th

Sau bước E, giá trị cận dưới trong phương trình ( ) được viết lại như

Giá trị entropy của xác suất hậu nghiệm H((k)) được tính toán dựa trên bộ thông số ở bước thứ k, (k) Hàm trung gian Q(, (k)) đóng vai trò quan trọng trong việc tính toán giá trị này Công thức tính giá trị của Q(, (k)) thường được sử dụng để cập nhật bộ thông số ở mỗi bước lặp.

Bộ thông số mới của mô hình phải thoả mãn làm tăng giá trị logarit của hàm xác suất sinh dãy quan sát, có nghĩa là làm tăng giá trị của hàm Q, Q(θ, θ̂(k)) > Q(θ, θ(k)).

Repeat ˆ( ) ( | , ) {E step} ˆ argmax ( , ) {M step} ˆ , 1 until ( ) ( ) k k k k k th q X p X O

Đối với một số mô hình, việc tối ưu hóa đồng thời tất cả các thông số là không khả thi Thuật toán EM chỉ được áp dụng để tối ưu hóa bộ thông số của mô hình tại cùng một thời điểm đối với những mô hình cụ thể Trong trường hợp các mô hình có tính toán giá trị xác suất hậu nghiệm của các biến ẩn phức tạp, các thuật toán xấp xỉ sẽ được sử dụng để đánh giá kết quả nhận dạng của mô hình.

MÔ HÌNH FAHMM

Giới thiệu về mô hình F AHMM

Mô hình FAHMM là một mô hình không gian trạng thái, trong đó các véc tơ trạng thái có kích thước k được tạo ra bởi mô hình HMM kết hợp với hàm Gauss trộn sử dụng ma trận hiệp phương sai chuẩn có dạng đường chéo Đồng thời, các véc tơ quan sát có kích thước p được tạo thành từ phương trình sinh quan sát, giúp mô hình này có thể mô tả và phân tích dữ liệu một cách hiệu quả.

FA trong đó có nhiễu quan sát tuân theo phân bố Gauss Ta có mô hình FAHMM được mô tả toán học như sau:

( , ) t t t t t t x x x t q j jn jn jn n o o o t q t q j jm jm jm m q P q q x c N

Mô hình FAHMM được mô tả bởi mạng Bayes động sau:

Hình 5.1 : Mạng Bayes động mô tả mô hình FAHMM

Các mạng Bayes động (DBN) đã được giới thiệu để thể hiện các giả thuyết độc lập trong một mô hình thống kê Một mô hình DBN mô tả mô hình FAHMM, được minh họa trên hình 5.1, cho phép biểu diễn các mối quan hệ phức tạp và động trong dữ liệu.

Tính toán hàm xác suất trong mô hình FAHMM

Trong các mô hình Gauss tuyến tính, việc tính toán các hàm xác suất có điều kiện có thể trở nên tương đối phức tạp Tuy nhiên, mô hình được mô tả trong phương trình 5.1 có thể được diễn đạt một cách đơn giản hơn thông qua hai hàm phân phối Gauss riêng biệt Điều này cho phép chúng ta tiếp cận và giải quyết các vấn đề liên quan đến mô hình một cách hiệu quả hơn.

Xác suất để một quan sát o t được sinh ra từ trạng thái q t = j, với thành phần của hàm Gauss trộn trong không gian trạng thái là ωt(x) = n, của nhiễu quan sát là ωt(o) = m có thể được tính bằng cách lấy tích phân của véc tơ trạng thái x t được tính từ tích số của các hàm Gauss ở trên.

( ) ( | o , x ) ( ; , ) jmn t t t j t t t jmn jmn b o  p o q   m  n N o   (5.4) trong đó:

Xác suất sinh tập quan sát của một trạng thái j trong mô hình FAHMM có thể được xem như là một GMM với ma trận hiệp phương sai đầy đủ và các véc tơ trung bình được tính theo công thức tương ứng Việc tính toán hàm xác suất đòi hỏi phải tính ma trận nghịch đảo của các ma trận hiệp phương sai có kích thước p p, điều này có thể làm tăng khối lượng tính toán Để giảm thiểu điều này, ta có thể áp dụng phương trình tính toán hiệu quả hơn để tính các giá trị nghịch đảo của các ma trận.

( ) x t ( ) o ) 1 ( ) 1 o ( ) 1 o ( t ( ) 1 o ( ) 1 x ) 1 t ( ) 1 o j jn j jm jm jm j j jm j jn j jm

Việc tính toán giá trị nghịch đảo của các ma trận hiệp phương sai  ( ) jm o và  ( ) jn x tương đối dễ dàng do chúng là các ma trận đường chéo Để tính giá trị của ma trận đầy đủ C j ( ) 1 jm o  C j   ( ) 1 jn x , chỉ cần tính giá trị nghịch đảo của ma trận có kích thước k k, với k p Các định thức cần sử dụng trong công thức (4.7) có thể được tính bằng phương trình tương ứng.

( ) x ( ) o ( ) o ( ) x ( ) 1 o ( ) 1 x j jn j jm jm jn j jm j jn

Các định thức khác đều có thể tính toán đễ dàng.

Tối ưu hóa các tham số của mô hình FAHMM

Sử dụng thuật toán ML để tìm các thông số tối ưu cho mô hình FAHMM Hàm trung gian cho mô hình FAHMM được tính như sau:

Từ đó công thức cập nhật thông số cho mô hình FAHMM được tính như sau:

T M jmn jmnt x t m x x jn T M jn jn t m jmn t R diag t

 (5.12) Đối với ma trận quan sát mới, các tham số của nhiễu quan sát được tối ưu sử dụng công thức sau:

T M jmnt t o jm T M jmn t t j jm t n jmn t n j jmnt jmnr j t jmnt t j jm jm jmnr jm t diag C x t

KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN

Kết quả thử nghiệm

Cơ sở dữ liệu tiếng nói đóng vai trò quan trọng trong nghiên cứu nhận dạng tiếng nói, giúp đảm bảo tính chính xác và định hướng cho các nghiên cứu Hiện nay, chưa có cơ sở dữ liệu tiếng nói chung cho các nghiên cứu tiếng Việt, dẫn đến việc mỗi cá nhân và đơn vị phải tự xây dựng cơ sở dữ liệu riêng Để phục vụ cho nghiên cứu nhận dạng tiếng nói tiếng Việt, học viên đã tự tạo ra cơ sở dữ liệu với 38 đơn vị phát âm, bao gồm 10 chữ số và 28 chữ cái của tiếng Việt.

Bảng phiên âm các đơn vị nhận dạng

Phát âm Phiên âm chính tả

9 chins a a ă aw â aa e e ê ee i i o o ô oo ơ ow u u ư uw b b c c d d đ dd g g h h k k l l m m n n p p q q r r s s t t v v x x

Các phát âm được thu âm bằng cách sử dụng hàm GUI trong Matlab với tần số lấy mẫu là 16kHz và thời gian lấy mẫu là 1 giây kể từ khi bắt đầu có tín hiệu thu Quá trình thu mẫu được thực hiện với 12 người khác nhau, mỗi người phát âm một lần, tạo ra tổng cộng 456 mẫu Các mẫu thu được được lưu giữ trong thư mục để phục vụ cho việc phân tích và xử lý dữ liệu.

Hình 6.1: Giao diện thu và quản lý mẫu

6.1.2 Kết quả tiền xử lý, trích tạo đặc tính

Quá trình chuẩn hóa tín hiệu là bước quan trọng sau khi lấy mẫu Tại đây, tín hiệu sẽ được chuẩn hóa và lưu trữ trong thư mục Caohoc\code\mauhoc.std Để thực hiện việc này, chương trình chuẩn hóa mẫu được xây dựng bằng cách sử dụng hàm chuanhoamau.m trong môi trường Matlab, giúp đảm bảo tính chính xác và hiệu quả của dữ liệu.

Quá trình lọc tín hiệu là bước quan trọng sau khi tín hiệu đã được chuẩn hóa Tại đây, tín hiệu sẽ được lọc qua một bộ lọc thông cao với hệ số thường được lấy xung quanh giá trị 0,95, mặc dù một số nguồn cho rằng giá trị 0,9375 thường được sử dụng Hàm truyền của bộ lọc thông cao này có thể được biểu diễn dưới dạng H(z) = 1 / (1 - 0,9378z^(-1)).

Quá trình phân khung và cửa sổ hóa tín hiệu được thực hiện bằng cách chia tín hiệu thành các khung có độ dài 20ms, tương ứng với 320 mẫu Các khung này chồng lên nhau một đoạn 10ms, tương ứng với 160 mẫu, để đảm bảo tính liên tục của tín hiệu Tiếp theo, các khung tín hiệu được nhân với hàm cửa sổ Hamming để giảm nhiễu và cải thiện chất lượng tín hiệu.

 Năng lượng trung bình của mỗi khung được tính sử dụng hàm tbnl.m

Kết quả trích tạo đặc tính

Để đặc trưng cho mỗi khung tín hiệu, chúng ta xây dựng bộ thông số đặc tính bao gồm 1 hệ số 2 MFCC, giá trị năng lượng, giá trị  và  2 của các giá trị này, tạo nên một véc tơ quan sát có kích thước 39 Chương trình tính toán hệ số MFCC được thực hiện thông qua hàm MFCC.m trong môi trường lập trình Matlab.

Bộ dữ liệu được thu thập bao gồm 456 mẫu, được chia thành hai tập dữ liệu riêng biệt Trong đó, bộ dữ liệu học chiếm 2/3 tổng số mẫu với 304 mẫu, được sử dụng để huấn luyện mô hình nhận dạng và tìm bộ thông số tối ưu Bộ dữ liệu kiểm tra gồm 152 mẫu còn lại, được sử dụng để đánh giá chất lượng và hiệu suất của mô hình nhận dạng sau khi được huấn luyện.

Trong bài viết này, chúng tôi sẽ áp dụng mô hình FAHMM với ba trạng thái Kích thước tối ưu của không gian véc tơ trạng thái được xác định thông qua đồ thị thể hiện mối quan hệ giữa sai số nhận dạng và kích thước của véc tơ trạng thái.

Hình 6.2 : Đồ thị thể hiện sự phụ thuộc của sai số vào kích thước của không gian trạng thái

Từ đồ thị trên, ta lựa chọn kích thước của không gian trạng thái là 13 k 

Để lựa chọn số thành phần trộn cho không gian trạng thái và không gian quan sát, tác giả đã thực hiện chạy thử mô hình với các giá trị M(x) và M(o) thay

Từ bảng kết quả trên ta thấy sai số cùa mô hình đạt tốt nhất với

M  , M ( ) o 2 Khi đó sai số nhận dạng là E 18.4%

6.1.3 Một số trường hợp nhận dạng sai

Kết quả thử nghiệm cho thấy mô hình đạt được kết quả nhận dạng tương đối tốt với các phát âm rõ ràng, không bị ngọng và ít bị nhiễu Tuy nhiên, vẫn còn một số trường hợp nhận dạng sai do người nói phát âm không chuẩn hoặc môi trường có mức độ nhiễu cao.

 Nhận dạng sai do phát âm bị nhiễu quá lớn

Hình 6.3: Mẫu nhận dạng sai do bị nhiễu quá lớn

 Nhận dạng sai do lấy mẫu tín hiệu không chuẩn

Hình 6.4: Mẫu nhận dạng sai do lấy mẫu tín hiệu không chuẩn

Trong hình 6.4, phần tín hiệu thu được chủ yếu bao gồm khoảng lặng, đồng thời phần tín hiệu tiếng nói tích cực bị cắt mất đoạn đầu, dẫn đến việc mất thông tin quan trọng của tín hiệu trong các bước xử lý tiếp theo.

 Nhận dạng sai do người nói phát âm không chuẩn

Trong tiếng Việt, một số âm yêu cầu người nói phát âm chuẩn xác để phân biệt rõ ràng, chẳng hạn như âm "r" và âm "d", âm "s" và âm "x" Việc phân biệt chính xác những âm này là rất quan trọng, đặc biệt là trong các bộ mẫu thu âm, vì phát âm không chuẩn có thể gây ra sai số đáng kể cho mô hình.

Hình 6.5: Mẫu nhận dạng sai do người nói phát âm không chuẩn

6.2 Kết luận và ướng phát triển h

Tác giả đã nghiên cứu và ứng dụng mô hình Gauss tuyến tính trong nhận dạng tiếng nói, đạt được kết quả nhận dạng tương đối khả quan Tuy nhiên, độ chính xác của mô hình nhận dạng vẫn còn hạn chế Để cải thiện kết quả này, có thể áp dụng các phương pháp tối ưu hóa mô hình, tăng cường dữ liệu huấn luyện và áp dụng các kỹ thuật xử lý tiếng nói tiên tiến.

Xây dựng cơ sở dữ liệu đa dạng và phong phú hơn là một mục tiêu quan trọng trong việc tạo ra một hệ thống nhận dạng giọng nói chính xác Để đạt được điều này, cần thu thập dữ liệu từ nhiều người phát âm, mỗi người phát âm nhiều lần và trong nhiều môi trường khác nhau Điều này sẽ giúp hệ thống có thể nhận dạng và phân tích giọng nói một cách chính xác hơn, đồng thời giảm thiểu sự ảnh hưởng của các yếu tố ngoại cảnh như tiếng ồn, âm thanh nền.

– Cải thiện chất lượng của khâu tiền xử lý: Sử dụng một số phương pháp lọc nhiễu như sử dụng kỹ thuật RASTA,…

– Sử dụng thêm một số đặc tính khác như: Tính các hệ số PLP, tần số đỉnh phổ,…

– Phân tích, lựa chọn được bộ tham số thực sự tối ưu cho mô hình

– Tìm hiểu thêm một số mô hình Gauss tuyến tính khác từ đó có thể lựa chọn mô hình phù hợp cho nhận dạng tiếng Việt

Mục lục tài liệu tham khảo

[1] Đặng Ngọc Đức, “Nghiên cứu ứng dụng mạng nơ rôn và mô hình Markov ẩn trong nhận dạng tiếng Việt”, Đại học Quốc gia Hà nội

[2] Antti-Veikko Ilmari Rossti, “Linear Gaussian Models for Speech

[3] Lawrence Rabiner, “Fundamentals of Speech Recognititon”, Prencice Hall

[4] Hynek Hermansky, “Perceptual Linear Predictive Analysis of

Speech”, Division of Panasonic Technology

[5] Thomas F Quatieri, “Discrete-Time Speech Signal Processing”, Prentice Hall

[6] Andrei Mihaila, “Speech Processing, Lecture12”, Department of Computer Science University of Joensuu, Finland

[7] John-Paul Hosom, “Hidden Markov Models for Speech recognition”, Oregon Health & Science University

Tên tác giả: Phạm Đắc Định

Tên luận văn: Ứng dụng mô hình Gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng Việt

Chuyên ngành: Đo lường và các Hệ thống điều khiển

Cơ sở đào tạo: Trường Đại học Bách khoa Hà nội

 Mục đích và đối tượng nghiên cứu

Mục đích nghiên cứu của luận văn này là áp dụng mô hình nhận dạng Gauss tuyến tính vào việc nhận dạng tiếng Việt Các mô hình Gauss tuyến tính sẽ được trình bày một cách tổng quan, bao gồm cả việc sử dụng các hàm Gauss trộn để tạo nhiễu cho mô hình Quá trình phát xạ tập quan sát sẽ được mô tả dựa trên các mô hình phân tích yếu tố (FA) và phân tích discriminant tuyến tính (LDA), trong đó mô hình FA sẽ được lựa chọn để thực hiện thử nghiệm.

Ngày đăng: 22/01/2024, 14:44