BÀI TẬP LỚN MÔN KỸ THUẬT HỆ THỐNG VIỄN THÔNG ĐỀ TÀI NHẬN DẠNG GIỌNG NÓI

31 0 0
BÀI TẬP LỚN MÔN KỸ THUẬT HỆ THỐNG VIỄN THÔNG ĐỀ TÀI NHẬN DẠNG GIỌNG NÓI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN – ĐIỆN TỬ

BÀI TẬP LỚN MÔN KỸ THUẬT HỆ THỐNG VIỄN THÔNGĐỀ TÀI: NHẬN DẠNG GIỌNG NÓI

Trang 2

2 Các phương pháp nhận dạng giọng nói 7

2.1 Gaussian Mixture Model – GMM 7

2.1.1 Gaussian Mixture Model – GMM là gì 7

2.1.2 Áp dụng GMM vào nhận dạng giọng nói 9

2.1.3 Các ưu điểm và nhược điểm khi sử dụng GMM 11

2.2 Hidden Markov Models – HMM 11

2.2.1 HMM là gì 12

2.2.2 Các thuật toán 13

2.2.3 Mô hình Markov ẩn trong tổng hợp tiếng nói 14

2.2.4 Các ưu điểm và hạn chế khi áp dụng HMM 15

2.3 Support Vector Machine – SVM 16

2.3.1 SVM là gì 16

2.3.2 Áp dụng SVM vào nhận dạng giọng nói 18

2.3.3 Ưu điểm và nhược điểm của SVM 19

3 Ứng dụng 20

KẾT LUẬN 26

DANH MỤC TÀI LIỆU THAM KHẢO 27

Trang 3

LỜI MỞ ĐẦU

Trong bối cảnh xã hội hiện nay, đất nước ta đang trong quá trình đẩy mạnh công nghiệp hóa, hiện đại hóa, khoa học – công nghệ và đổi mới sáng tạo luôn được coi là cơ sở cho sự phát triển nhanh và bền vững Đặc biệt, trong cuộc Cách mạng công nghiệp lần thứ tư với công nghệ số hóa, trí tuệ nhân tạo, IoT và Big Data…Việt Nam đã có những thay đổi sâu sắc trong sản xuất, kinh tế và tạo điều kiện thuận lợi cho sự phát triển văn hóa.

Một trong những công nghệ mà vẫn luôn được nghiên cứu và phát triển qua từng thời kì là nhận diện giọng nói Công nghệ này đã được bắt đầu nghiên cứu từ năm 1936 và lần đầu xuất hiện trên các thiết bị điện toán cá nhân từ 20 năm trước, khi Windows 98 được giới thiệu Hệ thống nhận diện giọng nói ban đầu chỉ có thể hiểu chữ số vì các kỹ sư cho rằng ngôn ngữ con người quá phức tạp Tuy nhiên, hiện nay, giọng nói của con người ngày càng trở nên “quyền lực” hơn khi mà ta gần như có thể điều khiển mọi thiết bị công nghệ hiện đại như điện thoại, máy tính, tivi,…Trên cơ sở lý thuyết của trí tuệ nhân tạo, rất nhiều các công trình nghiên cứu về lĩnh vực nhận diện giọng nói đã được ra đời và có một vài sản phẩm tiêu biểu như: IBM ViaVoice của IBM, Dragon NaturallySpeaking từ Nuance Communications, Siri của Apple, Google Assistant từ Google,…

Chính vì sự phát triển mạnh mẽ đó và những lợi ích, ý nghĩa nó mang lại, nhóm đã chọn đề tài “Nhận dạng giọng nói” để tìm hiểu

Trang 4

1 Giọng nói và nhận dạng giọng nói1.1 Giọng nói

Giọng nói là một khía cạnh quan trọng của cuộc sống con người và một phương tiện chính để giao tiếp Khi con người nói chuyện, họ sử dụng giọng nói để truyền đạt ý nghĩa, thể hiện cảm xúc, và thể hiện tính cách cá nhân Trong bài luận này, chúng ta sẽ tìm hiểu khái niệm của giọng nói, tầm quan trọng của tần số trong giọng nói, và cách giọng nói được tạo ra thông qua quy trình phức tạp của hệ thống họng và điều khiển thần kinh.

Khái niệm của Giọng Nói:

Giọng nói, còn được gọi là tiếng nói, là một khả năng đặc trưng của con người và một số loài động vật khác Nó là khả năng tạo ra âm thanh từ dây thanh, họng và miệng để giao tiếp Giọng nói là một phương tiện quan trọng để truyền đạt thông tin, giao tiếp với người khác và thể hiện cảm xúc Nó còn phản ánh văn hóa và ngôn ngữ của mỗi người, biểu thị qua ngữ điệu, phát âm và cách sử dụng từ ngôn ngữ.

Cách Giọng Nói Được Phát Ra:

Giọng nói được tạo ra thông qua một quy trình phức tạp và tinh tế Khi chúng ta nói chuyện, dây thanh trong họng của chúng ta dao động để tạo ra âm thanh cơ bản Điều này thường liên quan đến sự điều khiển chính xác của cơ học họng, bàn lưỡi và miệng Nhờ sự điều chỉnh tần số, tốc độ và độ căng của dây thanh, chúng ta có thể tạo ra các âm thanh khác nhau, từ các nguyên âm đến các phụ âm.

Hình 1 Cách giọng nói được phát ra.

Hệ thống thần kinh và bộ não của con người chịu trách nhiệm điều khiển giọng nói Họ giúp chúng ta điều chỉnh giọng nói và diễn đạt ý nghĩa thông qua việc phối hợp nhiều yếu

Trang 5

tố cơ học và tâm lý Ngoài ra, giọng nói cũng phản ánh vùng miền và ngôn ngữ của người nói, cho phép thể hiện tính đa dạng văn hóa và ngôn ngữ.

Tóm lại, giọng nói là một khía cạnh đặc biệt và quan trọng trong cuộc sống con người Tần số trong giọng nói thể hiện các yếu tố như ngữ điệu, cảm xúc và nguồn gốc của người nói Cách giọng nói được phát ra bao gồm sự phối hợp của nhiều yếu tố về cơ học và điều khiển, và nó là một phần quan trọng của việc giao tiếp và truyền đạt thông tin trong xã hội.

Phổ âm thanh của lời nói:

Phổ của giọng nói bao phủ một phần khá rộng của toàn bộ phổ tần số âm thanh Trong các ngôn ngữ không thanh điệu, người ta có thể nói rằng lời nói bao gồm các nguyên âm và phụ âm Các nguyên âm được tạo ra bởi các dây thanh âm và được lọc bởi các khoang thanh âm Một lời thì thầm là không có âm thanh phát âm.

Tuy nhiên, các khoang góp phần hình thành các nguyên âm khác nhau vẫn ảnh hưởng đến luồng không khí đi qua Đây là lý do tại sao đặc điểm của nguyên âm cũng xuất hiện trong lời thì thầm Nói chung, tần số cơ bản của giọng nói phức tạp – còn được gọi là cao độ hoặc f0 – nằm trong phạm vi 100-120 Hz đối với nam giới, nhưng có thể xảy ra các biến thể ngoài phạm vi này F0 dành cho phụ nữ cao hơn khoảng một quãng tám Đối với trẻ em, f0 là khoảng 300 Hz.

Các phụ âm được tạo ra bởi sự tắc nghẽn không khí và âm thanh ồn ào được hình thành khi không khí đi qua cổ họng và miệng, đặc biệt là lưỡi và môi Về tần số, các phụ âm nằm trên 500 Hz.

Hình 2.Phổ giọng nói (1/3 quãng tám) tùy thuộc vào trạng thái.

Ở cường độ giọng hát bình thường, năng lượng của nguyên âm thường giảm nhanh trên khoảng 1 kHz Tuy nhiên, hãy lưu ý rằng sự nhấn mạnh vào phổ giọng nói sẽ dịch chuyển từ một đến hai quãng tám về phía tần số cao hơn khi giọng nói lên cao Ngoài ra, không thể tăng mức âm thanh của phụ âm ngang bằng với nguyên âm Trong thực tế, điều này có nghĩa là độ dễ hiểu của lời nói không tăng lên khi hét lên so với việc áp dụng

Trang 6

nỗ lực phát âm thông thường trong những tình huống mà tiếng ồn xung quanh không đáng kể.

1.2 Nhận dạng giọng nói

Khái niệm về nhận dạng giọng nói:

Nhận dạng giọng nói là khả năng máy tính hoặc chương trình nhận và giải thích chính tả hoặc hiểu và thực hiện các lệnh nói Nhận dạng giọng nói đã trở nên rất nổi bật và được tích hợp vào sự phát triển của Trí Tuệ Nhân Tạo (AI) và trợ lý thông minh như Amazon's Alexa và Apple's Siri.

Hệ thống nhận dạng giọng nói cho phép người dùng tương tác với công nghệ bằng cách nói chuyện với nó, cho phép họ đưa ra yêu cầu, tạo lời nhắc và thực hiện các tác vụ đơn giản mà không cần sử dụng tay.

Quá trình nhận dạng giọng nói có thể xác định và phân biệt giọng nói thông qua sử dụng các chương trình phần mềm nhận dạng giọng nói tự động (ASR) Một số chương trình ASR yêu cầu người dùng trước tiên đào tạo hệ thống bằng cách ghi âm giọng nói của họ để chuyển đổi giọng nói thành văn bản chính xác hơn Hệ thống nhận dạng giọng nói đánh giá tần số, dựng lời nói và phân tích dòng giọng nói.

Mặc dù nhận dạng tiếng nói và nhận dạng giọng nói có thể có sự trùng lắp, chúng không hoàn toàn giống nhau và cần phải được phân biệt Nhận dạng giọng nói xác định người nói, trong khi nhận dạng tiếng nói liên quan đến việc hiểu nội dung của lời nói.

Cách hoạt động của nhận dạng giọng nói:

Phần mềm nhận dạng giọng nói trên máy tính yêu cầu âm thanh analog phải được chuyển đổi thành tín hiệu số, gọi là quá trình chuyển đổi tín hiệu analog sang số (A/D) Để máy tính có thể giải mã tín hiệu này, nó phải có cơ sở dữ liệu số về từ hoặc âm tiết cũng như một quá trình nhanh chóng để so sánh dữ liệu này với tín hiệu Các mẫu lời nói được lưu trữ trên ổ cứng và được nạp vào bộ nhớ khi chương trình chạy Một bộ so sánh kiểm tra những mẫu được lưu trữ này so với đầu ra của bộ chuyển đổi A/D - một hoạt động gọi là nhận dạng mẫu.

Trang 7

Hình 1 Nhận dạng giọng nói chuyển đổi âm thanh analog thành tín hiệu số, sau đố đượchiểu thông qua nhận dạng mẫu và phần mềm nhận dạng giọng nói.

Trong thực tế, kích thước từ vựng hiệu quả của chương trình nhận dạng giọng nói có mối liên quan trực tiếp đến dung lượng RAM của máy tính mà nó được cài đặt Một chương trình nhận dạng giọng nói chạy nhiều lần nhanh hơn nếu toàn bộ từ vựng có thể được tải vào RAM so với việc tìm kiếm trên ổ cứng để tìm các kết quả tương tự Tốc độ xử lý là quan trọng, vì nó ảnh hưởng đến khả năng máy tính tìm kiếm trong RAM để tìm các kết quả.

Âm thanh cũng phải được xử lý để làm sáng rõ, vì vậy một số thiết bị có thể loại bỏ tiếng ồn nền Trong một số hệ thống nhận dạng giọng nói, các tần số cụ thể trong âm thanh được tôn trọng để thiết bị có thể nhận dạng giọng nói tốt hơn.

Các hệ thống nhận dạng giọng nói phân tích lời nói thông qua một trong hai mô hình: mô hình Markov ẩn và mạng nơ-ron Mô hình Markov ẩn phân tích từng từ thành các âm vần của chúng, trong khi mạng nơ-ron tái sử dụng kết quả từ các bước trước để ảnh hưởng đến đầu vào của bước hiện tại.

Khi các ứng dụng của công nghệ nhận dạng giọng nói mở rộng và người dùng tương tác nhiều hơn với nó, các tổ chức triển khai phần mềm nhận dạng giọng nói sẽ có nhiều dữ liệu và thông tin hơn để cung cấp cho các mạng nơ-ron trong các hệ thống nhận dạng giọng nói Điều này cải thiện khả năng và độ chính xác của các sản phẩm nhận dạng giọng nói.

Sự phổ biến của điện thoại thông minh đã mở cửa để tích hợp công nghệ nhận dạng giọng nói vào túi của người tiêu dùng, trong khi các thiết bị gia đình như Google Home và Amazon Echo đã đưa công nghệ nhận dạng giọng nói vào phòng khách và nhà bếp.

Ưu điểm và nhược điểm của nhận diện giọng nói:

Nhận dạng giọng nói mang lại nhiều lợi ích:

Trang 8

 Người tiêu dùng có thể thực hiện nhiều nhiệm vụ cùng một lúc bằng cách nói trực tiếp với trợ lý giọng nói hoặc công nghệ nhận dạng giọng nói khác.

 Người dùng gặp khó khăn về thị lực vẫn có thể tương tác với thiết bị của họ  Trí tuệ nhân tạo và các thuật toán tinh vi giúp công nghệ nhận dạng giọng nói

chuyển đổi từng từ nói thành văn bản nhanh chóng.

 Công nghệ này có thể ghi lại lời nói nhanh hơn so với việc gõ bàn phím của một số người dùng Điều này làm cho việc ghi chú hoặc đặt lịch nhắc nhanh hơn và tiện lợi hơn.

Tuy nhiên, một số nhược điểm của công nghệ này bao gồm:  Tiếng ồn nền có thể tạo ra thông tin đầu vào sai lệch.

 Mặc dù tỷ lệ chính xác đang được cải thiện, tất cả các hệ thống và chương trình nhận dạng giọng nói đều có thể gây ra lỗi.

 Có vấn đề về những từ có cùng âm nhưng có cách viết và ý nghĩa khác nhau - ví dụ, "hear" và "here." Vấn đề này có thể được giải quyết một phần thông qua việc lưu trữ thông tin ngữ cảnh Tuy nhiên, điều này yêu cầu thêm RAM và bộ xử lý nhanh hơn

Lịch sử của công nghệ nhận diện giọng nói:

Công nghệ nhận dạng giọng nói đã phát triển mạnh mẽ trong vòng năm thập kỷ qua Trong những năm 1976, máy tính chỉ có thể hiểu hơn 1.000 từ Tổng số này đã tăng lên khoảng 20.000 vào những năm 1980 khi IBM tiếp tục phát triển công nghệ nhận dạng giọng nói.

Năm 1952, Bell Laboratories phát minh AUDREY Hệ thống Nhận Dạng Số Tự Động -chỉ có thể hiểu các số từ 0 đến 9 Vào đầu đến giữa những năm 1970, Bộ Quốc phòng Hoa Kỳ đã bắt đầu đóng góp cho việc phát triển hệ thống nhận dạng giọng nói, tài trợ cho Dự án Nghiên cứu Hiểu Lời Nói của Cơ quan Nghiên cứu Các Dự án Tiến bộ Của Quân đội Harpy, do Đại học Carnegie Mellon phát triển, là một hệ thống nhận dạng giọng nói khác vào thời điểm đó và có thể nhận dạng tới 1.011 từ.

Trang 9

Hình 2 AUDREY của Bell Labs là một trong những hệ thống đầu tiên có khả năng xử lýgiọng nói của con người và nhận dạng các giá trị số có 1 chữ số.

Công ty Dragon đã ra mắt sản phẩm nhận dạng người nói đầu tiên dành cho người tiêu dùng vào năm 1990, mang tên Dragon Dictate Sau đó, sản phẩm này đã được thay thế bởi Dragon NaturallySpeaking từ Nuance Communications Vào năm 1997, IBM giới thiệu IBM ViaVoice, sản phẩm nhận dạng giọng nói đầu tiên có thể nhận dạng lời nói liên tục.

Trang 10

Hình 3.Hình ảnh được cung cấp bởi IBM, máy đánh chữ biết nói.

Apple giới thiệu Siri vào năm 2011 và nó vẫn là một trợ lý nhận dạng giọng nói nổi bật Vào năm 2016, Google ra mắt Google Assistant cho điện thoại Hệ thống nhận dạng giọng nói có thể được tìm thấy trong các thiết bị bao gồm điện thoại, loa thông minh, laptop, máy tính để bàn và máy tính bảng cũng như trong phần mềm như Dragon Professional và Philips SpeechLive.

Trong thập kỷ qua, nhiều công ty công nghệ khác đã phát triển phần mềm nhận dạng giọng nói tinh vi hơn, như Amazon Alexa, ví dụ Ra mắt vào năm 2014, Amazon Alexa cũng hoạt động như một trợ lý cá nhân đáp ứng các lệnh giọng nói Hiện tại, phần mềm nhận dạng giọng nói có sẵn cho các thiết bị Windows, Mac, Android, iOS và Windows phone.

2 Các phương pháp nhận dạng giọng nói.2.1 Gaussian Mixture Model – GMM.2.1.1 Gaussian Mixture Model – GMM là gì.

Gaussian Mixture Model (GMM) hay mô hình Gaussian hỗn hợp là một loại mô hình xác suất thống kê mà chúng ta sử dụng để mô hình hóa phân phối xác suất của dữ liệu đa chiều Đặc trưng của GMM là khả năng biểu diễn sự đa dạng và phức tạp của dữ liệu bằng cách sử dụng tổ hợp của nhiều phân phối Gaussian Giả định rằng dữ liệu được tạo ra từ sự kết hợp của nhiều phân phối Gaussian, mỗi phân phối Gaussian trong GMM đại diện cho một thành phần của dữ liệu và tổng hợp của chúng tạo nên phân phối xác suất của toàn bộ dữ liệu

Trang 11

Mỗi phân phối của GMM bao gồm ba tham số chính là trọng số (Weight – πk), trung bình (Mean - µk) và ma trận hiệp phương sai (Converiance Matrix - Σk) đại diện cho đóng góp của từng phân phối vào tổng thể.

- Trọng số - Weight (πk¿.

Mỗi phân phối Gaussian thứ k trong GMM có một trọng số tương ứng là πk Trọng

số này đo lường đóng góp của phân phối Gaussian k vào tổng thể Nếu πk lớn,

phân phối Gaussian k có đóng góp lớn hơn vào xác suất tổng thể.

 Tổng của tất cả các trọng số trong GMM phải bằng một vì chúng đại diện cho xác suất tương ứng với từng phân phối Toàn bộ phân phối xác suất dữ liệu của mô hình bởi GMM là tổng của các phân phối Gaussian có trọng số.

 Trọng số πk xác định độ quan trọng của nó trong mô hình GMM, các trọng số này quyết định cách mỗi phân phối đóng góp vào việc mô tả và mô hình hóa dữ liệu - Trung bình – Mean (µk).

Mỗi phân phối Gaussion thứ k có một vector trung bình µk, µk có cùng số chiều với dữ liệu đầu vào và xác định vị trí trung tâm của phân phối Gaussian trong không gian đặc trưng.

 Nếu giá trị của µk là cao, điều này có thể cho thấy trung tâm của phân phối đó ở gần một khu vực cụ thể trong không gian đặc trưng.

 Trung bình µk có liên kết chặt chẽ với hình dạng của phân phối Gauss, nó xác định nơi tập trung chính của phân phối và cách nó được phân bố xung quanh vị trí đó - Ma trận hiệp phương sai - Converiance Matrix - (Σ¿¿k )¿.

 Ma trận hiệp phương sai là một khái niệm quan trọng trong thống kê và học máy, đặc biệt là khi nói về mô hình GMM và phân phối Gauss Ma trận hiệp phương sai mô tả mối quan hệ giữa các thành phần khác nhau của một vector ngẫu nhiên hoặc biến đặc trưng.

Nếu có một biến ngẫu nhiên có n thành phần hoặc một vector đặc trưng X = [X1,X2,…, Xn] thì ma trận hiệp phương sai được biểu diễn như sau:

 Trong đó, σij là phần tử tại dòng i, cột j của ma trận, thể hiện mức độ tương quangiữa Xi và Xj Nếu σij, có thể nói rằng Xi và Xj có mối quan hệ tương quan cao, σij =

0 có nghĩa là X và X là độc lập tuyến tính và không có mối quan hệ tương quan.

Trang 12

 Nếu Σk là ma trận đường chéo, tức là tất cả phần tử nằm ngoài đường chéo đều bằng 0, thì các thành phần của vector ngẫu nhiên được coi là độc lập.

 Ma trận hiệp phương sai Σk xác định hình dạng và độ biến động của phân phối

Gauss thứ k trong không gian đặc trưng.

GMM mô tả hàm mật độ xác suất của dữ liệu X theo công thức sau:

- K là số lượng phân phối Gaussian.

- là trọng số của phân phối thứ k, với ∑

- Để áp dụng GMM vào nhận dạng giọng nói, đầu tiên ta cần chuẩn bị dữ liệu bằng cách thu thập mẫu giọng nói từ nhiều người nói, mỗi giọng nói cần được biểu diễn dưới dạng đặc trưng Dữ liệu được tổ chức thành dạng ma trận, với mỗi hàng là một vector đặc trưng của một mẫu giọng nói.

- Sau đó, dữ liệu được phân chia thành tập huấn luyện và tập kiển tra để đánh giá hiệu suất sau khi huấn luyện mô hình Các thông tin quan trọng từ mẫu giọng nói sẽ được trích xuất bằng cách phương pháp trích xuất đặc trưng như MFCCs( Mel-Frequency Cepstral Coefficients) hay LPC (Linear Predictive Coding).

Huấn luyện GMM:

Thuật toán EM (Expectation – Maximization) được áp dụng để huấn luyện mô hình GMM trên tập huấn luyện Đây là một phương pháp tối ưu hóa hàm hợp lý (likelihood) của mô hình thống kê khi có sự thiếu thông tin hoặc biến ẩn

- Đầu tiên là khởi tạo tham số: chọn một số lượng phân phối Gauss (K) và khởi tạo

các tham số ban đầu của mô hình GMM bao gồm trọng số, trung bình và ma trận hiệp phương sai cho mỗi phân phối.

- Tiếp theo là lặp đến hội tụ (Expectation – Maximization Loop):

 Bước E (Expectation): Dựa vào tham số hiện tại, tính xác suất điều kiện của mỗi điểm dữ liệu thuộc về từng phân phối Gauss bằng công thức Bayes sau đó xác định xác suất nó thuộc về từng phân phối Gauss

Trang 13

 Bước M (Maximization): Dựa trên xác suất điều kiện tính được, cập nhật các tham số (πk, µk, Σk) để tối ưu hóa hàm hợp lý của dữ liệu Công thức cập nhật tham số có thể được tính dựa trên đạo hàm của hàm hợp lý.

 Điều kiện dừng: Lặp lại bước E và M cho đến khi hàm hợp lý không thay đổi đáng kể hoặc đến khi đạt được số lần lặp tối đa.

- Kết quả: Sau khi thuật toán hội tụ, các tham số của mô hình GMM sẽ được cập nhật để mô hình phân phối xác suất của dữ liệu EM không đảm bảo tìm ra giải pháp toàn cục tối ưu nên cần thiết có nhiều lần chạy với các điểm khởi tạo khác nhau để thu được kết quả tối ưu nhất.

Hình 6 Quá trình thực hiện EM

Xử lý dữ liệu:

- Khi mô hình GMM đã được huấn luyện, mỗi mẫu giọng nói sẽ được đưa vào mô hình để tính toán xác suất thuộc về từng phân phối Gauss và quyết định người nói dựa trên xác suất cao nhất hoặc kết hợp xác suất từ nhiều phân phối

- Tập kiểm tra, thường bao gồm một tập hợp các mẫu dữ liệu mà mô hình chưa thấy bao giờ trong quá trình huấn luyện, sẽ được sử dụng để đánh giá hiệu suất của mô hình GMM, đây là một bước quan trọng để đảm bảo mô hình hoạt động hiệu quả trên dữ liệu mới Các thước đo có thể được sử dụng để đánh giá hiệu suất của mô hình GMM là độ chính xác (Accuracy) bằng cách xem xét tỉ lệ giữa số lượng mẫu

Trang 14

được phân loại đúng trên tổng số mẫu, ma trận Confusion hiển thị số lượng các dự đoán đúng và sai trong từng lớp (người nói) giúp định rõ lối phân loại cụ thể - Sau khi sử dụng tập kiểm tra để đánh giá hiệu suất, các tham số của mô hình

GMM có thể được tinh chỉnh nếu cần thiết để đạt được kết quả tốt hơn Để cải thiện hiệu suất, có thể xử lý nhiễu trong dữ liệu giọng nói bao gồm việc sử dụng các kỹ thuật lọc và làm sạch dữ liệu như sử dụng các bộ lọc thông thấp, thông cao, thông dãi và nhiều loại lọc khác.

2.1.3 Các ưu điểm và nhược điểm khi sử dụng GMM.

Ưu điểm:

- Độ linh hoạt: GMM có khả năng mô hình hóa một loạt các phân phối xác suất vì có thể xấp xỉ bất kỳ phân phối nào có thể được biểu diễn dưới dạng tổng trọng số của nhiều phân phối chuẩn.

- Tốc độ: GMM tương đối nhanh để phù hợp với tập dữ liệu, đặc biệt là khi sử dụng thuật toán tối ưu hóa hiệu quả như EM.

- Xử lý dữ liệu bị thiếu: GMM có khả năng xử lý dữ liệu bị thiếu bằng cách loại bỏ các biến bị thiếu, có thể hữu ích trong các tình huống mà một số quan sát không đầy đủ.

- Khả năng diễn giải: các tham số của GMM (trọng số, trung bình, ma trận hiệp phương sai) có cách giải thích rõ ràng, có thể hữu ích để hiểu cấu trúc cơ bản của dữ liệu.

Nhược điểm:

- Độ nhạy khi khởi tạo: mô hình GMM nhạy với các giá trị khởi tạo ban đầu của tham số, đặc biệt là khi có quá nhiều thành phần, điều này có thể dẫn đến sự hội tụ kém đến khả năng đưa ra giải pháp tối ưu.

- Giả định về tính chuẩn: GMM giả định rằng dữ liệu được tạo ra từ hỗn hợp các phân phối chuẩn, điều này có thể không phải lúc nào cũng đúng trong thực tế Nếu dữ liệu sai lệch đáng kể so với mức bình thường thì GMM không phải mô hình thích hợp nhất.

- Số lượng thành phần: chọn số lượng thành phần thích hợp trong mô hình này có thể là một thách thức vì việc thêm quá nhiều thành phần có thể làm quá tải dữ liệu, trong khi sử dụng quá ít thành phần có thể không phù hợp với dữ liệu, dẫn đến một nhiệm vụ đầy thách thức, trở nên khó xử lý.

- Khả năng biểu đạt hạn chế: GMM chỉ có thể biểu diễn các phân phối dưới dạng tổng trọng số của các phân phối chuẩn, điều này có nghĩa là mô hình này không phù hợp để mô hình hóa các phân phối phức tạp hơn.

2.2 Hidden Markov Models – HMM

Trang 15

2.2.1 HMM là gì.

Các mô hình Markov ẩn được phát triển bởi nhà toán học L.E Baum và các đồng nghiệp của mình trong năm 1960 Các ẩn Markov nỗ lực mô hình để dự đoán tình trạng tương lai của một biến sử dụng xác suất dựa trên trạng thái hiện tại và quá khứ.

Mô hình Markov ẩn (HMM: Hidden Markov Model) là một mô hình máy trạng thái, mô hình này cho phép chúng ta xem xét đến hai thành phần là sự kiện quan sát được và các sự kiện ẩn Ví dụ trong nhận dạng tiếng nói thì sự kiện quan sát được là các đặc trưng âm học của tiếng nói, còn sự kiện ẩn là các từ

Hình 7 Mô hình Markov ẩn 3 trạng thái

Một mô hình markov ẩn thường bao gồm có các thành phần chính sau:  Q=[q1, q2, q3 ,… qN]: Q là tập của N trạng thái

A=[aij]: A là ma trận chuyển trạng thái với aij là xác xuất chuyển từ trạng thái i sang trạng thái j.

O=[o1, o2, o3,… oT]: O là một chuỗi T các quan sát tại các thời điểm t khác nhau Tương ứng với mỗi trạng thái sẽ có một tập V ={o1, o2, o3, … oM} là tập hợp tất cả các quan sát có thể được quan sát thấy trong mỗi trạng thái.

B={bj(k )}: B là phân bố xác xuất quan sát được các quan sát o trong trạng thái Sj

(hay qj).

 Trong nhiều trường hợp chúng ta sẽ xem xét đến hai thành phần Π={πi} phân bố xác suất khởi tạo, và QA={qx , qy … } QA (con của Q) là tập chấp nhận được.

 Tập λ={S , A , B , π } là các tham số của một HMM.

Với mỗi mô hình Markov ẩn ta có ba vấn đề chính cần được xem xét:

- Vấn đề 1: Tính toán độ tương đồng (Computing likelihood): cho mô hình λ(A,B,π) và chuỗi quan sát được O xác định độ tương đồng (likelihood) P(O|λ) Víλ) Ví dụ trong nhận dạng tiếng nói, ta có quan sát O là tín hiệu tiếng nói và λ là mô hình, vậy bài toán cần giải là tính độ tương đồng P để mô hình λ quan sát được O.

Ngày đăng: 25/04/2024, 12:19

Tài liệu cùng người dùng

Tài liệu liên quan