Các cặp giá trị (Xi,Yi) vớ in học sinh trong một trường

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001 (Trang 30)

X (kg) x1 x2 x3 ….. xi ….. xn

Y (cm) y1 y2 y3 ….. yi ….. yn

Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng chỉ số như trongBảng 1.1:

Giải

Số phần tử của mẫu n = 15 như Bảng 1.3

Bảng 1.3: Số phần tử của mẫu n =15 i xi yi 𝒙𝒊− 𝒙𝒚𝒊− 𝒚 𝒙𝒊− 𝒙 𝟐 𝒚𝒊− 𝒚 𝟐 (𝒙𝒊 − 𝒙)(𝒚𝒊− 𝒚) 1 51.0 71.0 -6 -4.5 36 20.6 27.2 2 66.0 89.0 9 13.5 81 181.4 121.2 3 47.0 64.0 -10 -11.5 100 133.0 115.3 4 54.0 74.0 -3 -1.5 9 2.4 4.6 5 64.0 87.0 7 11.5 49 131.5 80.3 6 75.0 93.0 18 17.5 324 305.1 314.4 7 54.0 66.0 -3 -9.5 9 90.9 28.6 8 52.0 74.0 -5 -1.5 25 2.4 7.7 9 53.0 75.0 -4 -0.5 16 0.3 2.1 10 52.0 72.0 -5 -3.5 25 12.5 17.7 11 48.0 70.0 -9 -5.5 81 30.6 49.8 12 46.0 66.0 -11 -9.5 121 90.9 104.9 13 63.0 81.0 6 5.5 36 29.9 32.8 14 40.0 57.0 -17 -18.5 289 343.5 315.1 15 90.0 94.0 33 18.5 1089 341.0 609.4 Tổng: 855 1133 2290 1715.7 1831 𝑥 =855 15 = 57; 𝑦 =1133 15 = 75.5; n =15

r = (𝑥𝑖 − 𝑥 15 𝑖=1 )(𝑦𝑖 − 𝑦 ) 15 𝑥𝑖 − 𝑥 2 𝑖=1 15 𝑦𝑖 − 𝑦 2 𝑖=1 = 1831 2290∗1715.7= 0.92 r=0.92 tương quan mạnh.

CHƢƠNG 2.ÂM THANH, TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI 2.1.Âm thanh và tiếng nói 2.1.Âm thanh và tiếng nói

2.1.1.Khái niệm về âm thanh

Âm thanh về bản chất vật lý là sóng cơ học,sinh ra bởi nguồn âm được lan truyền trong môi trường vật chất gọi là môi trường truyền âm.

Người ta cảm nhận được âm thanh nhờ thính giác,trong môi trường không khí, sóng âm được lan truyền và đập vào màng nhĩ của tai người. Tuy nhiên không phải mọi âm thanh con người đều cảm nhận được. Người ta chỉ cảm nhận được âm thanh có dải tần số từ khoảng 20 Hz đến khoảng 20 kHz

2.1.2.Tiếng nói, các đặc tính cơ bản của tiếng nói

Tiếng nói là âm thanh phát ra khi người ta nói, cũng như âm thanh khác, tiếng nói có một số đặc tính vật lí cơ bản như:

Tốc độ lan truyền:Vận tốc dẫn truyền trong không khí là 344m/s ở nhiệt độ

200C vàở mực nước biển, tăng lên theo nhiệtđộ vàđộ cao  Khoảng cách nghe đƣợc: dưới 100m

Miền tần số cơ bản: 80–8000Hz

Dải tần trung bình: 300 – 3400 Hz. 2.2.Tổng quan về nhận dạng tiếng nói

2.2.1.Nhận dạng tiếng nói

Nhận dạng tiếng nói trong phạm vi của luận văn được hiểu là chuyển tiếng nói thành văn bản. Các mẫu âm thanh tiếng nói là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói của con người phụ thuộc vào rất nhiều yếu tố, với cùng một người nói thì tiếng nói phụ thuộc giới tính, tuổi tác, môi trường, … Vì vậy bài toán nhận dạng rất phức tạp. Do tính phức tạp của bài toán này người ta phải phân chia nó thành nhiều lớp bài toán khác nhau.

2.2.2.Phân loại các bài toán nhận dạng tiếng nói

Dựa vào tính phức tạp trong quá trình giải quyết các bài toán nhận dạng tiếng nói người ta phân ra các loại sau:

 Nhận dạng từ đơn

 Nhận dạng tiếng nói liên tục

 Nhận dạng một người nói với số từ hạn chế hoặc không hạn chế

 Nhận dạng không hạn chế số người nói với số từ hạn chế hoặc không hạn chế

 Nhận dạng tiếng nói trong môi trường có nhiễu hoặc không có nhiễu.

Trên cơ sở 5 lớp bài toán cơ bản trên, tùy thuộc vào yêu cầu thực tế người ta phải giải quyết các bài toán là sự kết hợp của các bài toán trên.

Ví dụ để nhận dạng tội phạm người ta phải giải quyết bài toán nhận dạng một người nói với từ hạn chế hay không hạn chế trong môi trường có nhiễu.

Để sử dụng trong sinh trắc học, dùng tiếng nói để khóa cửa, khóa máy tính người ta phải giải quyết bài toán nhận dạng một người nói với số từ đơn hạn chế trong môi trường có nhiễu, … .

Trong khuôn khổ của luận văn chúng ta sẽ khảo sát bài toán nhận dạng từ đơn với số người nói không hạn chế, số từ không hạn chế trong môi trường có nhiễu.

2.2.3.Quá trình nhận dạng tiếng nói

Hình 2.2là cấu trúc nguyên lý của một hệ thống nhận dạng tiếng nói. Tín hiệu tiếng nói trước hết được xử lý khử nhiễu, trích chọn đặc trưng, đối sánh.

Tiền xử lý Input tiếng nói

Trích chọn đặc trưng

Học mẫu Ghi đặc trưng vào

cơ sở dữ liệu

Đối sánh đặc trưng với các đặc trưng trong cơ sở dữ

liệu

Đánh giá kết quả đối sánh

Ra quyết định Stop Đúng

Sai Begin

Hình 2.1: Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói

Trong quá trình huấn luyện hệ thống học mẫu ta sử dụng các vector đặc trưng để đánh giá trước khi ra quyết định

Trong quá trình nhận dạng, dãy các vector đặc trưng đuợc đem so sánh với các vector đặc trưng của mẫu. Sau đó, hệ thống tính toán độ tương đồng (likelihood - độ giống nhau) của dãy vector đặc trưng và mẫu tham khảo hoặc chuỗi mẫu tham khảo.

Trong luận văn này các đặc trưng được xử dụng là dãy {xi,yi} i=1, 𝑛; xi là độ dài đoạn không điểm; yi là vị trí đạt max trên đoạn không điểm xi.

2.2.4. Một số hệ thống nhận dạng tiếng nói trên thị trường

Nhận dạng và điều khiển bằng giọng nói hay các câu lệnh đang là xu thế của các điện thoại tương lai.

Trên điện thoại di dộng, hầu hết các nền tảng hiện nay đều hỗ trợ công nghệ nhận dạng giọng nói cho riêng mình. Ngay cả những hãng vốn chậm đổi mới như BlackBerry cũng bắt đầu áp dụng nó vào BlackBerry OS 7. Tuy vẫn còn sơ khai nhưng điện thoại sử dụng BlackBerry OS 7có thể ra lệnh cho máy gọi cho ai đó, kiểm tra tình trạng sóng, tình trạng mạng...

Đối với Android OS, hệ điều hành được sử dụng nhiều nhất trên thị trường. Kể từ phiên bản Android 2.2, hệ điều hành này được bổ sung thêm tính năng voice command cho phép gửi tin nhắn, điều khiển nhạc, dẫn đường, truy cập một website nào đó. Hiện tại thì ở Android 4.1 Jelly Bean, Google đã giới thiệu một tính năng mới với tên gọi Google Now với tham vọng hơn rất nhiều, thay vì là trợ lý cá nhân hỏi gì đáp nấy như Siri, Google Now sẽ tự dự đoán bạn đang làm gì, ở đâu và cho các tùy chọn tương ứng. Ví dụ, khi bạn đang ở ga tàu nó sẽ báo mấy giờ tàu chạy...

Trên thực tế, không chỉ như vậy mà các tính năng khác của Google Now cũng được cải thiện triệt để, nhanh hơn rất nhiều so với Siri. Tuy vậy, Siri của Apple vẫn thông minh hơn, có “trí khôn” hơn là sản phẩm được lập trình kiểu Google Now. Chính nhờ Siri mà ngành công nghiệp nhận dạng giọng nói phát triển hơn. Trên iOS 5 cho iPad, Apple cũng cho ra mắt tính năng Voice Dictation giúp nhập liệu những đoạn văn bản lớn nhanh chóng. Giải pháp của Apple sẽ hoàn thiện hơn nếu bạn là người bản xứ vì Apple tối ưu từng khu vực một, cho kết quả tốt nhất ở quốc gia được hỗ trợ. Trong khi đó, các hệ điều hành còn lại dùng chung cho toàn thế giới, mức độ sai có thể lớn hơn nhưng chắc chắn sẽ tiện hơn với người Việt.

Trong khi đó, phiên bản Windows Phone 7.5 của hãng Microsoft cũng có thể ra lệnh bằng giọng nói với tên gọi Speech. Speech tương đương với tính năng trên Android 2.2 nhưng cao cấp và nhiều tính năng hơn một chút, không chỉ ngoài màn hình chủ mà khi thực hiện cuộc gọi nó cũng cho phép người dùng điều khiển, giữ cuộc gọi, mở loa ngoài hay đơn giản là nhấn phím nào đó...

Hiện nay, đa số các phần mềm nhận dạng tiếng nói được các hãng lớn trên thế giới phát triển đều chưa hỗ trợ ngôn ngữ tiếng Việt một cách đầy đủ. Do đó phần mềm nhận dạng tiếng Việt mới chỉ có một số do các cá nhân, tổ chức tự phát triển như:

 ViSearch chạy trên BlackBerry OS,phần mềm này có chức năng nhận dạng giọng Tiếng Việt và Tiếng Anh cùng một lúc, sau đó trả kết quả thành dạng văn bản và thực hiện tìm kiếm trên một số dịch vụ như: Google, YouTube, Wikipedia, ...

 Viet Voice chạy trên Windows Phone OS. Phần mềm nhận dạng giọng nói tiếng Việt gồm các chức năng chính: Tìm kiếm thông tin trên một số website thông dụng và tra cứu từ điển dùng giọng nói tiếng Việt.

 Dragon Dictation và Dragon Search dành cho thiết bị chạy iOS giúp người dùng soạn văn bản bằng giọng nói tiếng Việt, cũng như gửi email, tin nhắn văn bản, và tìm kiếm thông tin.Hai ứng dụng được Tập đoàn Công nghệ Nuance Communications phát triển.

Với khả năng nhận diện giọng nói bằng tiếng Việt, Dragon Dictation có thể chuyển nội dung lời nói của người dùng sang dạng văn bản, kết hợp với một thanh công cụ để truy cập và chuyển nội dung sang email, tin nhắn SMS, cập nhật trạng thái trên Facebook và Twitter hoặc chép vào bộ nhớ. Dragon Dictation còn được trang bị chức năng lưu tự động, giúp máy nhớ đoạn văn bản đã được chuyển từ giọng nói khi có cuộc gọi đến làm gián đoạn.

Với tính năng tìm kiếm bằng giọng nói tiếng Việt, Dragon Search sẽ giúp người dùng iOS có thể ra lệnh thiết bị tìm kiếm thông tin mong muốn dễ dàng. Phương thức này được giới thiệu là nhanh gấp 5 lần so với việc gõ trên bàn phím. Dragon Search hỗ trợ tìm kiếm từ các công cụ Google, Yahoo, Twitter, iTunes, Wikipedia và YouTube với tốc độ khá nhanh. Ngoài ra, người dùng có thể dễ dàng chuyển sang các ngôn ngữ cần nhận diện khác ngoài tiếng Việt - hiện tại Nuance hỗ trợ đến 38 ngôn ngữ trên thế giới.

CHƢƠNG 3.SỐ HÓA ÂM THANH 3.1.Âm thanh số 3.1.Âm thanh số

Tín hiệu âm thanh là một đại lượng liên tục theo thời gian kí hiệu là φ(t). Để có thể biểu diễn φ(t) trong máy tính người ta phải thực hiện quá trình rời rạc hóa bằng cách sau mỗi khoảng thời gian Δt sẽ lấy một mẫu là giá trị của hàm φ(t) với cách lấy như vậy nếu Δt càng bé số mẫu của hàm φ(t) lấy được càng nhiều và do đó việc biểu diễn hàm φ(t) trong máy tính càng chính xác. Công việc trên được gọi là quá trình rời rạc hóa (hay lượng tử hóa) tín hiệu âm thanh. Giá trị mẫu của tín hiệu có thể được biểu diễn bằng số ở dạng 8 bits, 16 bits, 24 bits, … việc biểu diễn giá trị mẫu hàm φ(t) bằng số có độ dài bao nhiêu bits được gọi là quá trình mã hóa, số bits càng lớn thì giá trị mẫu càng chính xác.

Tóm lại ta có thể mô tả quá trình số hóa âm thanh một cách ngắn gọn như hình 3.1:

Âm thanh φ(t) Lấy mẫu Lượng tử hóa Mã hóa Dãy số Sn

hay

Âm thanh ADC Dãy số Sn

(Analog to Digital Converer)

Hình 3.1: Quá trình số hóa âm thanh

Việc phát lại của âm thanh số sử dụng bộ chuyển đổi số sang analog (DAC – Digital to Analog Converter). Chúng lấy mẫu và xác định điện thế trong kết quả analog để tái tạo lại tín hiệu, bộ ADC làm nhiệm vụ này. DAC sử dụng các bộ lọc để nâng cao chất lượng tín hiệu âm thanh analog được tạo lại.

Chất lượng của bộ lọc trong DAC cũng giúp nâng cao chất lượng của âm thanh analog được tạo lại. Bộ lọc là một phần của các tầng tạo nên bộ DAC.

3.1.1.Một số khái niệm và định nghĩa

Sample (Mẫu): Là giá trị biểu diễn tín hiệu âm thanh analog được mã hóa

thành dạng số.

Sample rate (Tần số lấy mẫu): Là số sample (mẫu) được lấy trong một

khoảng thời gian nhất định (thường là 1 giây) tần số lấy mẫu, nó quyết định trực tiếp tới chất lượng âm thanh. Đơn vị của sample rate là hertz (Hz). Tốc

Bit per sample (Số bit/mẫu hay độ phân giải): Là số bit dùng để mã hóa

một mẫu.Hiện nay trong các hệ thống thực tế người ta thường dùng 8 bit/Sample, 16 bit/Sample; 24 bit/Sample; 32 bit/Sample; 44 bit/Sample. 3.1.2.Số hóa âm thanh

Nguyên lý để tạo ra âm thanh số được cho ở sơ đồ như trong hình 3.2: Nguồn âm

Analog Sound Card

Phần mềm mã hóa

File âm thanh số Mẫu

Hình 3.2: Nguyên lý số hóa âm thanh

 Sound Card có nhiệm vụ lấy giá trị mẫu tín hiệu.

 Phần mềm mã hóa có nhiệm vụ mã hóa giá trị mẫu tín hiệu thành con số. Khi số hóa, âm thanh được ghi dưới dạng tệp,có rất nhiều dạng tệp âm thanh khác nhau, nhưng có 3 dạng chính sau đây:

 Dạng tự nhiên: Như các tệp có đuôi WAV, AIF,…các tệp này cho âm thanh tốt song thời gian truyền lâu.

 Dạng nén: Các tệp Shock wave, Quick Time, MPEG,…để phát lại cần có phần mềm đặc biệt. Ưu điểm là kích thước nhỏ, nhưng mất thời gian giải nén, và chất lượng giảm.

 Dạng MIDI: là file chứa chương trình phát ra âm thanh do đó kích thước nhỏ, thuận lợi trong việc soạn thảo âm thanh, nhưng chất lượng phụ thuộc vào thiết bị chuyên dụng.

Nói chung, các tệp âm thanh số được lưu trữ trong một khuân dạng tương ứng với header của loại đó. Một số khuôn dạng lưu trữ như sau:

AU: Là các tệp có đuôi “.au”. Hỗ trợ các tệp dạng mono và stereo với độ

phân giải từ 8 bít tới 16 bít ,tần số lấy mẫu trong khoảng 8 KHz tới 48 KHz. Nguyên gốc trên nền UNIX, song cũng hỗ trợ bởi các ứng dụng PC và MAC.

AIFF: Là các tệp có đuôi “.aif “ (tức là audio interchange file format). Hỗ

trợ tệp âm thanh không nén dạng mono, stereo hoặc khuông dạng đa kênh (Multichanel). Độ phân giải và tần số lẫy mẫu trong phạm vi rất rộng đạt tới chất lượng CD (16 bít, lấy mẫu 44KHz). Nguyên gốc trên nền Macintosh nhưng cũng hỗ trợ trên PC và Unix.

WAV: Là các tệp có đuôi “.wav” (waveform audio). Hỗ trợ dạng mono,

stereo hoặc khuôn dạng đa kênh với tần số lấy mẫu 44 KHz, 16 bít lấy mẫu. Khuông dạng Wav nguyên gốc trên nền Windown, hiện nay đây là dạng tệp âm thanh phổ biến trên internet. WAV tương tự cấu trúc của “.aif “ nhưng khác phần đầu thông tin (Header).

3.2.File WAVE

Đây là dạng của Microsoft Windows. Các tệp của windows ứng dụng cho cả 2 dạng tệp âm thanh nổi (Stereo) và dạng đơn (mono) với độ phân giải và tần số lấy mẫu khác nhau. Kiểu tệp này cho phép sự định rõ RIFF (Resource Information File Format), và cho phép thông tin phụ của người sử dụng được nhúng vào cùng với tệp âm thanh. Dạng âm thanh PCM dùng cho Windows chuẩn chứa dữ liệu đã được mã hóa, dữ liệu đã được xác định theo kiểu điều biến mã xung dạng không bị nén.

3.2.1.Cấu trúcfile Wave

Đây là khuôn dạng phổ biến nhất để lưu trữ âm thanh số trong thế giới PC. Nó được thiết kế cho các ứng dụng Multimedia chạy dưới Microsoft Windows. Tệp wav tự mã hóa và mô tả dữ liệu của nó trong phần mềm mà ta sử dụng. Nó không giới hạn độ dài tệp, có thể lên tới 4 GB.

Một tệp Wave là một dạng đặc biệt của tệp RIFF, là nhóm nội dung của tệp tin thành các khối riêng biệt đồng thời mỗi khối sẽ gồm một Header (dùng đề qui định kiểu và kích thước của khối) và các byte dữ liệu, và mọi tệp RIFF đều bắt đầu với các ký tự RIFF. Tiếp theo đó là 4 byte độ dài và mã định dạng. Tệp Wav theo cấu trúc RIFF nên cấu trúc gồm các phần tử nhỏ gọi là khúc (chunk). Có 2 loại khúc được dùng trong tệp wav là khúc dữ liệu (data chunk), như một định danh biểu diễn độ dài và bản thân dữ liệu; và khúc định dạng (format chunk) chứa các dữ liệu mô tả thông tin trong nó.

Khuôn dạng chung tệp Wave như trong Hình 3.3:

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001 (Trang 30)