2. Các âm vị khác
4.1.3 Các tiếp cận nhận dạng tiếng nó
Về cơ bản, có ba tiếp cận nhận dạng tiếng nói chính nh− sau: 1. Tiếp cận âm thanh-ngữ âm.
2. Tiếp cận nhận dạng mẫu. 3. Tiếp cận trí tuệ nhân tạo.
Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn tại của các đơn
vị ngữ âm trong ngôn ngữ tiếng nói; các đơn vị ngữ âm này đ−ợc biểu diễn đặc tr−ng bởi một tập hợp những thuộc tính thể hiện trong tín hiệu âm thanh hay biểu diễn phổ theo thời gian. B−ớc đầu tiên của tiếp cận âm thanh-ngữ âm cho nhận dạng tiếng nói đ−ợc gọi là b−ớc phân đoạn và gán nhãn bởi vì nó liên quan đến việc phân đoạn tín hiệu âm thanh thành các vùng rời rạc (theo thời gian) mà ở đó các thuộc tính âm học của tín hiệu biểu diễn cho một (hay một vài) đơn vị ngữ âm. Sau đó gán một (hoặc nhiều) nhãn ngữ âm cho mỗi vùng phân đoạn dựa theo các thuộc tính âm học. B−ớc thứ hai của tiếp cận là giai đoạn thực sự nhận dạng tiếng nói. Nhiệm vụ chính của b−ớc này là cố gắng xác định một từ hợp lệ (hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu đ−ợc từ b−ớc thứ nhất dựa trên cơ sở các ràng buộc (về từ vựng và cú pháp) của tác vụ cần nhận dạng tiếng nói.
Tiếp cận nhận dạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp các
mẫu tiếng nói (speech patern) (chính là đoạn tín hiệu tiếng nói cần nhận dạng) mà
không cần xác định thật rõ các đặc tr−ng và cũng không cần phân đoạn tín hiệu nh− đối với tiếp cận âm thanh - ngữ âm. (Chú ý cần phân biệt thuật ngữ “mẫu tiếng nói” ở
đây với cùng thuật ngữ đó (speech sample) đ−ợc sử dụng trong Lý thuyết xử lý tiếng nói để chỉ tín
hiệu liên tục đã đ−ợc lấy mẫu.) Ph−ơng pháp này cũng gồm hai b−ớc, tích luỹ các mẫu
tiếng nói, và nhận dạng mẫu thông qua so sánh mẫu. “Kiến thức” về tiếng nói đ−ợc đ−a vào hệ thống thông qua thủ tục tích luỹ. Nếu có đủ các phiên bản của một mẫu trong một tập hợp tích luỹ, thủ tục tích luỹ sẽ có khả năng biểu diễn đặc tr−ng một cách đầy đủ các thuộc tính âm học của mẫu đó. Việc biểu diễn đặc tr−ng tiếng nói thông qua sự tích luỹ này có thể coi nh− một bài toán phân loại mẫu. Đặc tính hữu ích chủ yếu của ph−ơng pháp này nằm ở khâu so sánh mẫu trong đó các mẫu tiếng nói không biết đ−ợc so sánh trực tiếp với các mẫu đã đ−ợc học bằng tích luỹ và đồng thời đ−ợc phân loại theo sự t−ơng ứng mẫu tốt nhất.
Tiếp cận nhận dạng mẫu th−ờng đ−ợc lựa chọn cho các ứng dụng nhận dạng tiếng nói bởi ba lý do sau:
1. Tính dễ sử dụng và dễ hiểu trong thuật toán.
2. Tính bất biến và khả năng thích nghi đối với những từ vựng, ng−ời sử dụng, các tập hợp đặc tr−ng, các thuật toán so sánh mẫu và các quy tắc quyết định khác nau.
3. Khẳng định tính năng cao trong thực tế.
Từ những mô tả trên về tiếp cận nhận dạng mẫu cho nhận dạng tiếng nói, chúng ta có thể nhận ra nhiều điểm t−ơng đồng về lý thuyết đối với các bài toán
đ−ợc giải quyết bằng công cụ mạng neuron. Điểm khác biệt chính ở đây nằm ở khái niệm l−u trữ các mẫu tích luỹ. Đối với mạng neuron, các mẫu l−u trữ đ−ợc mã hoá thành các trọng số synapse và các hệ số hiệu chỉnh của mạng thông qua quá trình tích luỹ; quá trình “so sánh mẫu” cũng đ−ợc trừu t−ợng hoá bằng việc đ−a các mẫu không biết qua đầu vào của mạng rồi sau đó thực hiện quyết định “so sánh” trên các đầu ra của mạng.
Tiếp cận nhận dạng tiếng nói cuối cùng đ−ợc bàn đến ở đây là tiếp cận trí tuệ nhân tạo mà d−ờng nh− khai thác quan điểm của hai tiếp cận kể trên. Tiếp cận này cố gắng “máy móc hoá” chức năng nhận dạng theo cách mà con ng−ời áp dụng trí thông minh của mình trong việc quan sát, phân tích và thực hiện những quyết định trên các đặc tr−ng âm học của tín hiệu. Một trong những kỹ thuật đ−ợc xây dựng theo quan điểm này là việc sử dụng một hệ chuyên gia cho việc phân đoạn và gán nhãn tín hiệu, hay việc học và thích nghi theo thời gian ... Xét trên khía cạnh mô phỏng trí tuệ con ng−ời thì việc ứng dụng mạng neuron phần nào mang tính chất của tiếp cận trí tuệ nhân tạo.