Phương pháp ứng dụng trí tuệ nhân tạo

Một phần của tài liệu Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói (Trang 25 - 34)

PHẦN III: ỨNG DỤNG PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG CỦA TIẾNG NÓI VÀO NHẬN DẠNG

II. Các phương pháp tiếp cận trong nhận dạng tiếng nói

3. Phương pháp ứng dụng trí tuệ nhân tạo

Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của chúng, đồng thời bắt chước các khả năng của con người trong phân tích và cảm nhận các sự kiện bên ngoài để áp dụng vào nhận dạng tiếng nói. Sơ đồ khối của phương pháp trí tuệ nhân tạo theo mô hình từ dưới lên (bottom-up) (Hình 12).

Đặc điểm của các hệ thống nhận dạng theo phương pháp này là:

Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.

Sử dụng mạng nơron nhân tạo để học mối quan hệ giữa các ngữ âm, sau đó dùng nó để nhận dạng tiếng nói.

Học Viên: Nguyễn Ngọc Đăng 25

Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức con người vào hệ nhận dạng:

Kiến thức về âm học: Để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói.

Kiến thức về từ vựng: sử dụng để kết hợp các khối ngữ âm thành các từ cần nhận dạng.

Kiến thức về cú pháp: nhằm kết hợp các từ thành các câu cần nhận dạng.

Kiến thức về ngữ nghĩa: nhằm xác định tính logic của các câu đã được nhận dạng.

Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào bộ nhận dạng tiếng nói. Phương pháp thông dụng nhất là xử lý ”từ dưới lên”. Theo cách này, tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao. Trong (Hình 12), các bước xử lý ở mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước khi thực hiện các bước xử lý ở mức cao (phân lớp âm thanh, xác định từ, xác định câu). Mỗi bước xử lý đòi hỏi một hoặc một số nguồn kiến thức nhất định. Ví dụ: bước phân đoạn tiếng nói cần hiểu biết sâu sắc về đặc tính Âm học-Ngữ âm học của các đơn vị ngữ âm; bước xác định từ đòi hỏi kiến thức về từ vựng; bước xác định câu đòi hỏi kiến thức về mô hình ngôn ngữ (nguyên tắc ngữ pháp).

Phương pháp này đã và đang được áp dụng thành công trong các ứng dụng nhận dạng tiếng nói thực tế. Bước đầu tiên của quá trình nhận dạng là trích chọn các tham số tín hiệu tiếng nói.

a. Phân tích tham số tiếng nói

Trong nhận dạng, tổng hợp, mã hóa tiếng nói đều cần phân tích các tham số. Dưới Học Viên: Nguyễn Ngọc Đăng 26

Khái niệm cơ bản trong phân tích tín hiệu tiếng nói là phân tích thời gian ngắn (Short- Time Analysis). Trong khoảng thời gian dài, tín hiệu tiếng nói là không dừng, nhưng trong khoảng thời gian đủ ngắn (10-30 ms) tiếng nói được coi là dừng. Do đó, trong các ứng dụng xử lý tiếng nói người ta thường chia tiếng nói thành nhiều đoạn có thời gian bằng nhau được gọi là khung (frame), mỗi khung có độ dài từ 10 đến 30 ms.

b. Phát hiện tiếng nói

Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ thời gian thực. Phần này trình bày ba phương pháp phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn SE (Short Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing).

Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn

Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm cửa sổ W (n) . Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian ngắn Em được xác định như sau:

Trong đó:

n: là biến rời rạc;

m: là số mẫu thử thứ m;

N: là tổng số mẫu tiếng nói

Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau:

Học Viên: Nguyễn Ngọc Đăng 27

Bước 1: Với mỗi khung của tín hiệu, xác định hàm năng lượng thời gian ngắn Em. Nếu Em > Ethreshold(giá trị ngưỡng năng lượng cho trước) thì đánh dấu là điểm bắt đầu khung (kí hiệu là khung B). Ngược lại, xét khung kế tiếp cho đến khi xác định được khung B. Nếu không xác định được B, kết luận: đó không là tín hiệu tiếng nói.

Bước 2: Tính Em của khung kế tiếp khung B cho đến khi Em < Ethreshold thì dừng và đánh dấu khung đó là điểm kết thúc của một từ (kí hiệu khung E). Sau khi xác định điểm bắt đầu và kết thúc, dựa vào độ dài thời gian đoạn âm thanh đó để thêm bước kiểm tra: tín hiệu đó có chắc là tiếng nói không? (một từ tiếng Việt nếu phát âm rõ ràng thường dài hơn 200 ms).

Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không Thuật toán này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo-Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing Rate) .

Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm không là điểm tại đó diễn ra sự đổi dấu cường độ tín hiệu và được mô tả bởi:

Trong đó, sgn(.) là hàm dấu .

Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh.

Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng hàm giả năng lượng trong tính toán. Hàm giả năng lượng được xác định bởi:

Trong đó;

E^(n) : là hàm giả năng lượng, N : là kích thước khung cửa sổ.

Tỷ lệ vượt quá điểm không ZCR

Ta thấy, khung có năng lượng càng cao thì tỷ lệ vượt quá điểm không càng thấp và ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm không.

Học Viên: Nguyễn Ngọc Đăng 28

EDown : ngưỡng năng lượng dưới (thấp);

ZCR_T : ngưỡng tỷ lệ vượt quá điểm không.

Thuật toán này được mô tả như sau :

Bước 1: Chia chuỗi tín hiệu tiếng nói thành các khung. Tính giá trị hàm giả năng lượng E^(n) và tỷ lệ vượt quá điểm không theo ZCR tương ứng trên mỗi khung.

Bước 2: Xét từ khung đầu tiên. Đánh dấu khung thứ i là điểm bắt đầu nếu tại khung i tỷ lệ vượt quá điểm không của ZCR vượt ngưỡng (ZCR> ZCR_T ), và giá trị hàm giả năng lượng vượt ngưỡng dưới (E^(n) > EDown ) theo hướng tăng của của hàm giả năng lượng.

Bước 3: Xét các khung kế tiếp. Đánh dấu khung kế tiếp thuộc từ. Nếu hàm giả năng lượng vượt ngưỡng trên (E^(n) > EUp ) theo hướng tăng của năng lượng.

Bước 4: Điểm bắt đầu của từ được xác định lại khi hàm giả năng lượng trên khung đó nhỏ hơn ngưỡng dưới (E^(n) < EDown), và đồng thời tỷ lệ vượt quá điểm không trên khung lớn hơn ngưỡng (ZCR > ZCR_T ).

Bước 5: Điểm kết thúc từ được xác định nếu tại đó; tỷ lệ vượt quá điểm không nhỏ hơn ngưỡng (ZCR < ZCR_T ), và hàm giả năng lượng tương ứng nhỏ hơn ngưỡng dưới (E^(n) < EDown ) theo xu hướng đi xuống của hàm giả năng lượng.

Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn

Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dò biên tiếng nói VAD (Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạn Ef trên các khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có thể cả nhiễu) v [m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.

Thuật toán được mô tả như sau:

Bước 1: Tính năng lượng phổ ngắn hạn Ef cho mỗi khung theo:

Trong đó;

NumChan : số kênh của băng lọc tam giác

Học Viên: Nguyễn Ngọc Đăng 29

Bước 2: Xác định năng lượng phổ trung bình dài hạn Em trên mỗi khung dựa trên E f

Nếu : ( )

Thì : (4-2)

Còn không thì : (4-3) trong đó, α : ngưỡng của phổ trung bình dài hạn

Bước 3: Kiểm tra khung chứa tiếng nói hay không:

Nếu:

Thì: v[m]=1 Còn không thì: v[m]=0

Trong đó β : là tham số xác định nhờ thực nghiệm.

Phương pháp này ngăn việc phân loại sai của phụ âm sát và tiếng nói ở cuối tín hiệu tiếng nói.

Học Viên: Nguyễn Ngọc Đăng 30

tiếng nói. Bài tiểu luận đã đưa ra những vấn đề cơ bản của tiếng nói như bộ máy phát âm của con người và cơ quan thính giác. Qua các đặc điểm đó ta đi vào phân tích các phương pháp trích chọn đặc trưng của tiếng nói. Dựa vào các phương pháp trích chọn đặc trưng này đưa ra các phương pháp nhận dạng tiếng nói.

Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech recognition) trên cơ sở sử dụng các phương pháp trích chọn đặc trưng của tiếng nói, nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon..., các hệ thống bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói... Triển khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay của nước nhà.

Tài liệu tham khảo

[1] Ben J. Shannon, Kuldip K. Paliwal A Comparative Study of Filter Bank Spacing for Speech Recognition.

[2] http://en.wikipedia.org [3] http://www.lsv.uni-

saarland.de/Vorlesung/Digital_Signal_Processing/Summer06/dsp06_chap12.pdf [4] Nguyễn Quang Hoan, Nhập môn trí tuệ nhân tao. 2007, Học viện công nghệ Bưu Chính Viễn Thông.

[5] Nguyễn Phú Bình, “Bài giảng Xử lý tiếng nói”, Đại học Bách khoa Hà Nội.

Học Viên: Nguyễn Ngọc Đăng 31

LỜI NÓI ĐẦU...1

PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI...2

I. Bộ máy phát âm của con người...2

1. Cơ chế phát âm...2

2. Đặc trưng vật lý...3

3. Phân loại tiếng nói:...3

4. Mô hình lọc nguồn tạo tiếng nói:...4

II. Cơ quan thính giác của con người:...6

1. Cấu tạo...6

2. Cơ chế nghe...7

III. Ngữ âm tiếng Việt...7

1. Âm vị...7

2. Nguyên âm...7

PHẦN II: CÁC PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG CỦA TIẾNG NÓI... 9

I. Phân tích cepstral theo thang đo mel...9

II. Phương pháp mã dự đoán tuyến tính LPC(Linear Predictive Coding)...12

III. Phương pháp PLP...15

PHẦN III: ỨNG DỤNG PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG CỦA TIẾNG NÓI VÀO NHẬN DẠNG...17

I. Tổng quan về nhận dạng tiếng nói...17

II. Các phương pháp tiếp cận trong nhận dạng tiếng nói...18

1. Phương pháp Âm học-Ngữ âm học...18

2. Phương pháp nhận dạng mẫu...19

3. Phương pháp ứng dụng trí tuệ nhân tạo...20

KẾT LUẬN...26

Học Viên: Nguyễn Ngọc Đăng 32

Học Viên: Nguyễn Ngọc Đăng 33

Một phần của tài liệu Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói (Trang 25 - 34)

Tải bản đầy đủ (DOC)

(34 trang)
w