Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế tiếng việt trong môi trường nhiễu

50 7 0
Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế tiếng việt trong môi trường nhiễu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy giáo, Thạc sĩ Võ Văn Tùng – Công tác Cục kỹ thuật nghiệp vụ I, Bộ công an, ngƣời trực tiếp hƣớng dẫn tận tình bảo em suốt trình làm tốt nghiệp Em xin chân thành cảm ơn tất thầy cô giáo khoa Công nghệ thông tin - Trƣờng ĐHDL Hải Phịng, ngƣời nhiệt tình giảng dạy truyền đạt kiến thức cần thiết suốt thời gian em học tập trƣờng, để em hoàn thành tốt đề tài Em xin chân thành cảm ơn Ban lãnh đạo, tất cô chú, anh chị Công ty Cổ phần Thiết bị Bƣu điện, giúp đỡ tạo điều kiện tốt cho em thời gian thực tập làm tốt nghiệp Trung tâm Trong trình làm tốt nghiệp có nhiều cố gắng nhƣng khơng thể tránh khỏi thiếu sót, em mong nhận đƣợc góp ý quý báu tất thầy cô giáo, hội đồng phản biện tất bạn Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2009 Sinh viên Trƣơng Ngọc Sơn MỤC LỤC LỜI CẢM ƠN MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU 1.1 Tín hiệu 1.2 Các tín hiệu rời rạc theo thời gian 1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc 1.2.2 Một vài tín hiệu rời rạc 1.2.3 Phân loại tín hiệu rời rạc 1.2.4 Các thao tác xử lý đơn giản tín hiệu rời rạc theo thời gian 13 1.2.5 Biểu diễn hệ thống rời rạc theo thời gian sơ đồ khối 14 1.2.6 Phân loại hệ thống rời rạc theo thời gian 16 CHƢƠNG 2: ĐẶC TRƢNG TIẾNG VIỆT 18 2.1 Đặc điểm Tiếng Việt 18 2.2 Đặc điểm ngữ âm 18 2.3 Đặc điểm từ vựng 18 2.4 Đặc điểm ngữ pháp 19 2.5 Âm tiết tiếng Việt 20 CHƢƠNG 3: BÀI TỐN NHẬN DẠNG TIẾNG NĨI 23 3.1 Một số khái niệm âm tiếng nói 25 3.1.1 Âm 25 3.1.2 Các đặc trƣng Tiếng nói 27 3.2 Một số phƣơng pháp nhận dạng tiếng nói 29 3.2.1 Một số khuynh hƣớng nghiên cứu nhận dạng tiếng nói 29 3.2.2 Các đơn vị xử lý tiếng nói 33 3.2.3 Một số kỹ thuật khử nhiễu 35 3.2.4 Một số phƣơng pháp nhận dạng tiếng nói 36 CHƢƠNG 4: CHƢƠNG TRÌNH DEMO 44 4.1 Thiết kế chức 44 4.2 Lựa chọn ngơn ngữ lập trình 45 4.3 Xây dựng mẫu nhận dạng 45 4.4 Một số hình ảnh chƣơng trình 46 ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 MỞ ĐẦU Ngày nay, với phát triến nhanh chóng cơng nghệ thơng tin, có cơng nghệ xử lý âm Đặc biệt lĩnh vực xử lý âm nhận dạng tiếng Việt có ý nghĩa quan trọng mang lại nhiều ứng dụng thiết thực cho xã hội, mang lại thay đổi mang tính cách mạng nhiều lĩnh vực, phát thanh, truyền hình, viễn thơng Trong vài thập kỷ gần đây, nhận dạng vấn đề hút nhiều nhà khoa học lĩnh vực khác : Toán học, điều khiển, điện tử, sinh học Trƣớc phát triển mạnh mẽ công nghệ thông tin, vấn đề nhận dạng đƣợc quan tâm nhiều nhằm nâng cao hiệu giao tiếp ngƣời - máy Trên giới, ngôn ngữ phổ biến nhƣ Anh, Pháp có nhiều phần mềm nhận dạng hiệu Ở Việt Nam có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng tiếng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm thƣơng mại nhƣ ViaVoice, Dragon , hệ thống bảo mật thơng qua nhận dạng tiếng nói hệ quay số điện thoại giọng nói Triển khai cơng trình nghiên cứu đƣa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa đặc biệt giai đoạn cơng nghiệp hố đại hố nƣớc ta Mục đích đề tài nghiên cứu xây dựng chƣơng trình nhận dạng tiếng nói tiếng Việt mơi trƣờng có nhiễu với đầu vào tập từ hạn chế tiếng việt sau so sánh với mẫu có sẵn để đƣa kết Ngoài phần mở đầu kết luận đồ án gồm chƣơng: Chƣơng : Tín hiệu – Cơ sở xử lý Tín hiệu Chƣơng : Đặc trƣng Tiếng Việt Chƣơng : Bài toán nhận dạng Tiếng nói Chƣơng 4: Chƣơng trình Demo CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU Cơ sở xử lý tín hiệu bƣớc đầu q trình nhận dạng tiếng nói, bạn nói từ máy thu giọng bạn, tiếng nói đƣợc biểu diễn dƣới dạng tín hiệu, qua q trình xử lý tín hiệu, tiếng nói đầu vào đƣợc đối chiếu với tập mẫu mà máy đƣợc học sẵn để đƣa kết Dƣới sơ cách nhìn tổng quan tín hiệu 1.1 Tín hiệu Tín hiệu mặt tốn học hàm biểu diễn trạng thái vật lý thơng tin Nói chung, tín hiệu hàm phức tạp nhiều thơng số Để đơn giản coi tín hiệu hàm biến thời gian - tín hiệu có dạng bản: - Tín hiệu liên tục (tƣơng tự) - Tín hiệu rời rạc (lấy mẫu) - Tín hiệu số Ba loại tín hiệu có mặt vị trí sơ đồ hình 1.1 Tín hiệu liên tục tín hiệu đƣợc biểu diễn hàm số có biến số thời gian độc lập (hình 1.2a) Tín hiệu rời rạc (cịn gọi tín hiệu trích mẫu) dãy giá trị tín hiệu liên tục thời điểm rời rạc tín hiệu đƣợc biểu diễn dƣới dạng dãy số (hình 1.2b) Tín hiệu rời rạc gặp đầu mạch lƣợng tử theo thời gian (mạch tríchmẫu) Tín hiệu rời rạc lƣợng tử theo biên độ tín hiệu đƣợc lƣợng tử theo biên độ, thực chất dãy giá trị mẫu đƣợc quy tròn theo mức lƣợng tử biên độ (hình 1.2c) Tín hiệu gặp đầu lƣợng tử biên độ Tín hiệu số tín hiệu lƣợng tử theo biên độ mã hố (hình 1.2d) Các dạng tín hiệu vừa nêu đƣợc mơ tả hình 1.2 a Tín hiệu tƣơng tự b Tín hiệu rời rạc (lấy mẫu) c Tín hiệu rời rạc lƣợng tử theo biên độ ( lƣợng tử hoá) d Tín hiệu số ( gán bít cho mẫu làm trịn) Các kiểu tín hiệu đƣợc biểu diễn hình Hình 1.2 mơ tả dạng tín hiệu 1.2 Các tín hiệu rời rạc theo thời gian 1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc Nhƣ ta biết, tín hiệu rời rạc theo thời gian x(n) thực chất hàm biến độc lập có kiểu số nguyên tín hiệu x(n) đƣợc định nghĩa giá trị nguyên n Trong nghiên cứu, giả sử tín hiệu rời rạc theo thời gian đƣợc định nghĩa giá trị nguyên n thuộc khoảng i E [ yn i yn j ] E [ yn yn j ] i Bài toán đƣa giải hệ phƣơng trình P ẩn để tìm i Để giải hệ ta cần tính đƣợc E [yn-i yn-j] Có hai phƣơng pháp cho phép ta tính E [yni yn-j] phƣơng pháp tự tƣơng quan (autocorrelation) phƣơng pháp hiệp biến (autocovariance) Trong phƣơng pháp tự tƣơng quan ta đƣợc : E [ yn-i yn-j] = Ryy(| i – j |) 41 Giả sử dãy tín hiệu {yn} ngồi đoạn tín hiệu ta cần tính hệ số dự báo Khi : N R yy (k ) yn yn k n k Bây ta mơ tả hệ phƣơng trình dạng ma trận nhƣ sau : R yy (0) R yy (1) R yy ( P 1) R yy (1) R yy (0) R yy ( P 2) R yy ( P 1) R yy ( P 2) R yy (0) P R yy (1) R yy (2) R yy ( P) Hệ phƣơng trình giải phƣơng pháp nghịch đảo ma trận ma trận Ryy ma trận Toeflitz (ma trận đối xứng qua đƣờng chéo đƣờng chéo song song với đƣờng chéo có phần tử giống nhau) Ma trận Toeflitz ln có định thức khác 0, có nghĩa ln tìm đƣợc ma trận nghịch đảo cho ma trận Toeflitz Nhƣng giải hệ phƣơng trình phƣơng pháp ma trận nghịch đảo không hiệu quả, độ sai số lớn Dƣới trình bày thuật tốn Levinson – Durbin cho phép ta tính hệ số dự báo i (i=1 P) mà khơng cần giải hệ phƣơng trình * Thuật toán Levinson – Durbin : Đặt E0 = Ryy(0) , i = i=1 i ( i 1) ki = ( j R yy ( i j 1) R yy (i) ) / Ei ) j Đặt j (i) i = (i) = ki (i-1) j ki2 + ki (i-1) j Ei = ( – Nếu i < P quay lại (với j = i-1) ) Ei-1 42 3.2.4.3.2 Nhận dạng tiếng nói phương pháp LPC-10 LPC viết tắt Linear Predictive Coder (mã hố dự báo tuyến tính) Chỉ số 10 có nghĩa hệ thống dự báo tuyến tính có số lƣợng hệ số từ 10 trở lên tốt nhất, hệ thống phải có tối thiểu 10 hệ số dự báo đảm bảo mức xác kết dự báo Số lƣợng hệ số cao hiệu dự báo cao Nhƣng ngƣợc lại thao tác tính tốn phức tạp tốn nhiều thời gian Chƣơng trình nhận dạng từ tiếng Việt chọn số lƣợng hệ số LPC-10 10 hệ số Qua thực nghiệm, tiêu chuẩn LPC-10 có đƣợc hệ số tốt ta lấy kích thƣớc frame từ 10 – 20 ms(dạng file WAVE 11.025kHz, mono, bits, kích thƣớc theo mẫu tín hiệu frame từ 110 đến 220 mẫu) Kỹ thuật nhận dạng tiếng nói phƣơng pháp LPC-10 thực tính tốn hệ số dự báo tuyến tính sau so sánh với mẫu hệ số dự báo đƣợc tính tốn trƣớc Xử lý tín hiệu âm phƣơng pháp dự báo tuyến tính (LPC) phổ biến Nó đáp ứng đƣợc yêu cầu đặt xử lý âm thanh: Tổng hợp tiếng nói, nhận dạng tiếng nói Nhận dạng tiếng nói dựa tiêu chuẩn LPC-10 vận dụng kỹ thuật dự báo tuyến tính nhằm tăng hiệu nhận dạng chƣơng trình 43 CHƢƠNG 4: 4.1 CHƢƠNG TRÌNH DEMO Thiết kế chức Với nhiệm vụ đồ án nghiên cứu xây dựng chƣơng trình nhận dạng từ tiếng Việt Trƣớc hết, chức chƣơng trình mơ đƣợc cơng việc nhận dạng từ đơn tiếng Việt Nó sở cho việc nhận dạng đơn vị tiếng Việt lớn nhƣ: từ ghép, cụm từ, câu… Chƣơng trình gồm chức chính: + Huấn luyện hệ thống: Chức nhằm mục đích tạo cập nhật vào sở liệu đặc trƣng từ, tức cho máy học để trích rút đặc trƣng từ nhiều ngƣời nói, phục vụ nhu cầu nhận dạng từ cho nhiều ngƣời khác Mỗi ngƣời thực cho máy học số từ tiếng Việt sau ghi âm từ lần nói khác cho hệ thống nhận dạng + Nhận dạng từ đơn (từ có tiếng) tiếng Việt từ file nguồn: Một từ đƣợc nhận dạng sau cho máy học từ đó, chức nhằm nhận dạng từ từ file âm Nếu chƣa có ta phải ghi âm từ cần nhận dạng trình SoundRecorder Window tích hợp sẵn hệ thống ghi vào file Wave, sau với nhận dạng file âm chức nhận dạng chƣơng trình Hoặc để kiểm tra khả nhận dạng chƣơng trình ta sử dụng từ ghi âm sẵn thƣ mục Data-forNhanDang, từ có tập hợp mẫu đƣợc học trƣớc lƣu đặc trƣng từ sở liệu + Nhận dạng trực tiếp qua Microphone: Trên sở từ đƣợc học Hệ thống thƣờng trực chờ ngƣời nói nói vào Micro hiển thị thơng tin nhận đƣợc dạng text lên hình Đồng thời sóng âm đƣợc hiển thị trực quan hộp ảnh + Ngồi cịn có chức khác nhƣ: - Ghi âm: để ghi âm từ mẫu để học từ để nhận dạng - Hiển thị thông tin file Wave đọc 44 - Hiển thị sóng âm đọc từ tệp - Hiển thị sóng âm sau đƣợc xử lý - Đƣa loa liệu âm xử lý (để kiểm tra) 4.2 Lựa chọn ngơn ngữ lập trình Trong thiết kế chƣơng trình nhận dạng từ tiếng Việt, chƣơng trình phải đọc liệu âm vào mảng Sau phải thực xử lý liệu âm thu đƣợc qua nhiều công đoạn để đƣa dạng chuẩn hố tính tốn đƣa tham số đặc trƣng Tiếp mở sở liệu so sánh với tất mẫu đƣa kết luận nhận dạng, cuối hiển thị từ nhận dạng đƣợc Để nhận dạng đƣợc từ phải xử lý nhiều thao tác, đặc biệt số lƣợng từ sở liệu lớn Do phức tạp hệ thống yêu cầu đồ án, lựa chọn ngôn ngữ Visual Basic với hệ quản trị sở liệu Access Ngơn ngữ lập trình có tốc độ xử lý không cao nhƣng lại hỗ trợ ngƣời lập trình tốt sở liệu có giao diện thân thiện, dễ sử dụng Đó ngơn ngữ có khả đáp ứng đƣợc yêu cầu hệ thống 4.3 Xây dựng mẫu nhận dạng Mơ hình nhận dạng từ tiếng Việt dựa phƣơng pháp dự báo tuyến tính LPC-10 Mỗi mẫu từ đƣợc chia thành frame nhỏ Sau thực tính toán hệ số LPC-10 cho frame, cho tất frame, tham số đƣợc lƣu trữ sở liệu Ta hình dung thao tác tạo liệu từ mẫu nhƣ sau : + File âm đƣợc cắt để trích lấy phần liệu âm có tiếng nói + Chuẩn hoá thời gian + Chuẩn hoá biên động 45 + Chia file âm thành 30 frame nhỏ (kích thƣớc frame 110 byte) Tính hệ số LPC-10 cho frame Sau lƣu trữ hệ số sở liệu 4.4 Một số hình ảnh chƣơng trình Lƣợc đồ quan hệ sở liệu chƣơng trình Dữ liệu đƣợc tổ chức gồm bảng: + Bảng bảng chính: gồm trƣờng, trƣờng thứ khóa ID autonumber Trƣờng thứ có dạng text để lƣu mẫu ký tự từ đƣợc học + bảng lại, bảng gồm trƣờng khóa ID 100 trƣờng dạng số double để lƣu 30 hệ số LPC-10 (mỗi hệ số LPC-10 gồm 10 số đặc trƣng, 30 hệ số 300 số tƣơng ứng với 300 trƣờng tổng bảng) Các trƣờng ID bảng đƣợc liên kết với Quan hệ bảng 1-1 Mỗi mẫu âm đƣợc học (1 từ đƣợc học) đƣợc lƣu vào CSDL ghi với số ID, tên, 300 số đặc trƣng Do số trƣờng lƣu trữ lớn nên ta tách thành bảng 46 Huấn luyện hệ thống học từ tiếng việt Giao diện gồm hộp ảnh thứ nhất, vẽ sóng âm file âm đƣợc mở để học Hộp ảnh bên dƣới để hiển thị sóng âm sau cắt lấy phần có tiếng nói Mục đích trực quan hoá liệu cắt đƣợc Một hộp TextBox để nhập từ cần học Ngồi cịn hiển thị thơng tin file âm thanh, phát loa tín hiệu âm file âm đƣợc mở 47 Nhận dạng từ tiếng việt từ file nguồn Nhận dạng từ tiếng Việt từ Microphone 48 ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN Với đề tài đƣợc giao, sau thời gian thực đồ án tốt nghiệp, vận dụng kiến thức đƣợc học với nỗ lực thân, bảo tận tình giáo viên hƣớng dẫn - Thạc Sĩ Võ Văn Tùng đồ án “ Nhận dạng tập từ hạn chế Tiếng Việt mơi trƣờng nhiễu” hồn thành Chƣơng trình đáp ứng đƣợc yêu cầu đặt Những vấn đề đạt được: + Đã đáp ứng đƣợc tên đề tài yêu cầu nhận dạng từ tiếng việt + Khi số lƣợng mẫu huấn luyện lớn kết nhận dạng đạt chất lƣợng + Thử nghiệm hệ thống cho kết nhận dạng tốt mà số lƣợng từ không lớn (hơn 20 từ) + Hệ thống nhận dạng tốt với ngƣời nói ngƣời tham gia huấn luyện mẫu + Khi ngƣời nói khơng tham gia huấn luyện mẫu kết nhận dạng chƣa đƣợc khả quan Các yêu cầu để tăng chất lượng hệ thống + Chọn mẫu huấn luyện phải mẫu chuẩn, nhiễu + Tăng số lƣợng mẫu học + Kiểm tra, nghe thử trƣớc cập nhật vào CSDL Hướng phát triển đồ án + Làm sở để thiết kế hệ thống nhận dạng cụm từ câu + Phát triển chƣơng trình để giao tiếp với máy tính trực tiếp qua Microphone thực số câu lệnh 49 TÀI LIỆU THAM KHẢO + Visual Basic Certification Exam Guide – Chaper 1- Dan mezick & Scot Hillier – Mcgraw- Hill – 1998 + “Digital Signal Processing: Principles, Algorithms, and Applications”- Prentice Hall John G Proakis, Dimitris G Manolakis + Xử lý tín hiệu lọc số - Nguyễn Quốc Trung + Visual Basic - Lập trình sở liệu- Nxb Lao động xã hội-2004Nguyễn Thị Ngọc Mai + “Digital Signal Processing: A Computer-Based Approach”- McGraw-Hill Sanjit K Mitra + Xử lý tín hiệu số- Nguyễn Hữu Phƣơng + Tài liệu tham khảo môn học Xử lý tiếng nói [Lê Bá Dũng- khoa CNTT- ĐH Hàng Hải Việt Nam] + Voice Processing - Gordon E Pelton năm 1993 50 ... án nghiên cứu xây dựng chƣơng trình nhận dạng từ tiếng Việt Trƣớc hết, chức chƣơng trình mơ đƣợc cơng việc nhận dạng từ đơn tiếng Việt Nó sở cho việc nhận dạng đơn vị tiếng Việt lớn nhƣ: từ ghép,... nghiệp hố đại hố nƣớc ta Mục đích đề tài nghiên cứu xây dựng chƣơng trình nhận dạng tiếng nói tiếng Việt mơi trƣờng có nhiễu với đầu vào tập từ hạn chế tiếng việt sau so sánh với mẫu có sẵn để đƣa... vụ nhu cầu nhận dạng từ cho nhiều ngƣời khác Mỗi ngƣời thực cho máy học số từ tiếng Việt sau ghi âm từ lần nói khác cho hệ thống nhận dạng + Nhận dạng từ đơn (từ có tiếng) tiếng Việt từ file nguồn:

Ngày đăng: 06/04/2021, 18:27

Tài liệu cùng người dùng

Tài liệu liên quan