Các tiếp cận nhận dạng tiếng nó

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 67 - 70)

2. Các âm vị khác

4.1.3 Các tiếp cận nhận dạng tiếng nó

Về cơ bản, có ba tiếp cận nhận dạng tiếng nói chính như sau:

Tiếp cận âm thanh-ngữ âm.

Tiếp cận nhận dạng mẫu.

Tiếp cận trí tuệ nhân tạo.

Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn tại của các đơn

vị ngữ âm trong ngôn ngữ tiếng nói; các đơn vị ngữ âm này được biểu diễn đặc trưng bởi một tập hợp những thuộc tính thể hiện trong tín hiệu âm thanh hay biểu diễn phổ theo thời gian. Bước đầu tiên của tiếp cận âm thanh-ngữ âm cho nhận dạng tiếng nói được gọi là bước phân đoạn và gán nhãn bởi vì nó liên quan đến việc phân đoạn tín hiệu âm thanh thành các vùng rời rạc (theo thời gian) mà ở đó các thuộc tính âm học của tín hiệu biểu diễn cho một (hay một vài) đơn vị ngữ âm. Sau đó gán một (hoặc nhiều) nhãn ngữ âm cho mỗi vùng phân đoạn dựa theo các thuộc tính âm học. Bước thứ hai của tiếp cận là giai đoạn thực sự nhận dạng tiếng nói. Nhiệm vụ chính của bước này là cố gắng xác định một từ hợp lệ (hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu được từ bước thứ nhất dựa trên cơ sở các ràng buộc (về từ vựng và cú pháp) của tác vụ cần nhận dạng tiếng nói.

Tiếp cận nhận dạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp các

mẫu tiếng nói (speech patern) (chính là đoạn tín hiệu tiếng nói cần nhận dạng) mà không cần xác định thật rõ các đặc trưng và cũng không cần phân đoạn tín hiệu như đối với tiếp cận âm thanh - ngữ âm. (Chú ý cần phân biệt thuật ngữ “mẫu tiếng nói” ở đây với cùng thuật ngữ đó (speech sample) được sử dụng trong Lý thuyết xử lý tiếng nói để chỉ tín hiệu liên tục đã được lấy mẫu.) Phương pháp này cũng gồm hai bước, tích luỹ các mẫu tiếng nói, và nhận dạng mẫu thông qua so sánh mẫu. “Kiến thức” về tiếng nói được đưa vào hệ thống thông qua thủ tục tích luỹ. Nếu có đủ các phiên bản của một mẫu trong một tập hợp tích luỹ, thủ tục tích luỹ sẽ có khả năng biểu diễn đặc trưng một cách đầy đủ các thuộc tính âm học của mẫu đó. Việc biểu diễn đặc trưng tiếng nói thông qua sự tích luỹ này có thể coi như một bài toán phân loại mẫu. Đặc tính hữu ích chủ yếu của phương pháp này nằm ở khâu so sánh mẫu trong đó các mẫu tiếng nói không biết được so sánh trực tiếp với các mẫu đã được học bằng tích luỹ và đồng thời được phân loại theo sự tương ứng mẫu tốt nhất.

Tiếp cận nhận dạng mẫu thường được lựa chọn cho các ứng dụng nhận dạng tiếng nói bởi ba lý do sau:

Tính dễ sử dụng và dễ hiểu trong thuật toán.

Tính bất biến và khả năng thích nghi đối với những từ vựng, người sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắc quyết định khác nau.

Khẳng định tính năng cao trong thực tế.

Từ những mô tả trên về tiếp cận nhận dạng mẫu cho nhận dạng tiếng nói, chúng ta có thể nhận ra nhiều điểm tương đồng về lý thuyết đối với các bài toán được giải quyết bằng công cụ mạng neuron. Điểm khác biệt chính ở đây nằm ở khái niệm lưu trữ các mẫu tích luỹ. Đối với mạng neuron, các mẫu lưu trữ được mã hoá thành các trọng số synapse và các hệ số hiệu chỉnh của mạng thông qua quá trình tích luỹ; quá trình “so sánh mẫu” cũng được trừu tượng hoá bằng việc đưa các mẫu không biết qua đầu vào của mạng rồi sau đó thực hiện quyết định “so sánh” trên các đầu ra của mạng.

Tiếp cận nhận dạng tiếng nói cuối cùng được bàn đến ở đây là tiếp cận trí tuệ nhân tạomà dường như khai thác quan điểm của hai tiếp cận kể trên. Tiếp cận này cố gắng “máy móc hoá” chức năng nhận dạng theo cách mà con người áp dụng trí thông minh của mình trong việc quan sát, phân tích và thực hiện những quyết định trên các đặc trưng âm học của tín hiệu. Một trong những kỹ thuật được xây dựng theo quan điểm này là việc sử dụng một hệ chuyên gia cho việc phân đoạn và gán nhãn tín hiệu, hay việc học và thích nghi theo thời gian ... Xét trên khía cạnh mô phỏng trí tuệ con người thì việc ứng dụng mạng neuron phần nào mang tính chất của tiếp cận trí tuệ nhân tạo.

4.2 Phân tích và xử lý tín hiệu cho nhận dạng tiếng nói

Như chúng ta đã bàn tới ở trên, việc nhận dạng tiếng nói luôn dựa trên tín hiệu tiếng nói đầu vào. Như vậy chúng ta phải cần đến những kỹ thuật phân tích và xử lý nhằm biểu diễn tín hiệu dưới dạng những tham số thích hợp nhất cho việc nhận dạng.

Để có thể thấy được rõ hơn vai trò của các kỹ thuật xử lý tín hiệu trong các mô hình hệ thống nhận dạng, hãy xem hình 4.3 trong đó có minh hoạ cho cả tiếp cận nhận dạng mẫu và tiếp cận âm thanh-ngữ âm.

Một tính chất quan trọng cần nhấn mạnh ở đây là đầu ra của một quá trình xử lý tín hiệu chính là các tham số đặc trưng của tín hiệu tiếng nói đầu vào; các tham số này thường được biểu diễn dưới dạng các vector đặc trưng (vector feature).

Một phần của tài liệu ĐỒ ÁN TỐT NGHIỆP Đề tài “Lý thuyết mạng Neuron và ứng dụng trong nhận dạng tiếng nói” (Trang 67 - 70)

Tải bản đầy đủ (PDF)

(129 trang)