1. Trang chủ
  2. » Cao đẳng - Đại học

Bí kíp âm thanh hình ảnh

12 925 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 442,38 KB

Nội dung

- Mã hóa ABS: thực hiện các phép phân tích thông qua tổng hợp Analysic – by - Synthsis, sử dụng mô hìn bộ lọc dự đoán cho hệ thống phát âm và cố gắng giảm tối đa sai lệch giữa dạng sóng

Trang 1

Câu 2.4: Mô hình LPC: Phân tích, tổng hợp?

Giải: (+) Mô hình dự đoán tuyến tính LPC:

- Là kĩ thuật phân tích, tổng hợp tiếng

nói dựa trên mô hình cơ quan phát âm

của con người Phía phát phân tích tín

hiệu tiếng nói, thu đc các tsố và truyền

đi Phía thu sd các tham số dựa trên mô

hình để tổng hợp tiếng nói

- Thông thường, bộ dự đoán tuyến tính

đc sử dụng: (n) = x(n-k)

- Đáp ứng xung của bộ lọc:

H(z) =

- Sơ đồ khối bộ mã hóa – Giải mã LPC:

(+) Quá trình mã hóa:

- Lấy mẫu: + Tín hiệu tiếng nói đc lấy mẫu ở tần số f=8000 Hz -> sau đó đc chia -> các Segment (160 mẫu/20kbs)

+ Xác định âm vô thanh hay hữu thanh (căn cứ vào biên độ hay f t/h trong segment; dùng 1 bit để báo cho bộ giải mã biết)

+ Ước lượng tần số kênh (dựa vào hàm tự tg quan;gtri pitch đc lg tử mhoa dùng 6 bit)

+ Xác định các hệ thống số của bộ lọc (Các hệ số of bộ lọc G; {})

(+) Quá trình giải mã:

- Xác định tín hiệu kích thích & tần số Pitch

+ Nếu segment là âm vô thanh -> tín hiệu nguồn phát kích thích là nhiễu trắng

+ Nếu là âm hữu thanh -> tín hiệu là xung tuần hoàn

- Xác định các hệ số G;

- Tín hiệu kích thích qua bộ lọc -> tín hiệu thoại

- Segment đc giải mã độc lập, sau đó kết hợp với nhau

(+) Mô hình toán học:

- Quan hệ giữa 2 mô hình:

Cuống họng < -> Bộ lọc H(z)

Không khí < -> u(n)

Dao động của dây thanh âm < -> V (âm hữu thanh)

Chu kỳ dao động của dây thanh < ->T (độ cao âm thanh)

Các âm vô thanh < -> UV (vô thanh) Lượng không khí < -> G (độ tăng ích)

Ta có pt vào ra của bộ lọc:

S(n) + = u(a)

Mô hình LPC có thể đc biểu diễn dưới dạng vecto:

A = (a1, a2,… a10, G, v/uv, T) <=> S=(S(o), S(1),… S(159)) Cần phân biệt hai quá trình:

+ Tổng hợp LPC: Cho A, tạo S + Phân tích LPC: Cho S, tìm A tốt nhất

Trang 2

Câu 2.5: Mô hình ABS – Phân tích, tổng hợp?

+ Cấu trúc bộ mã hóa và giải mã: - Mã hóa dạng sóng có khả năng cung cấp thoại

với chất lượng tốt, tốc độ có thể xuống 16 kbps, nhưng bị giới hạn ở tốc độ thấp hơn

- Bộ mã hóa nguồn có thể hđ ở tốc độ xấp xĩ 2,4 kbps và thấp hơn nhưng không thể tạo ra

âm thanh trug thực ở bất kỳ tốc độ nào

- Mã hóa ABS: thực hiện các phép phân tích thông qua tổng hợp (Analysic – by - Synthsis),

sử dụng mô hìn bộ lọc dự đoán cho hệ thống phát âm và cố gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào vs dạng sóng tín hiệu đc xd lại

+ Hoạt động: - Trước tiên, bộ mã ABS phân tích tín hiệu thoại đầu vào -> các khung ngắn có độ dài 20 ms Các tham số của 1 khung sẽ xđ bộ lọc tổng hợp tương ứng và tín hiêu kích thích sẽ đc

xđ thông qua 1vòng lặp - Bộ mã hóa truyền đi những thông tin liên quan -> bộ lọc (các tham số và tín hiệu kích thích tương ứng)

+ Bộ giải mã: - Tín hiệu kích thích sẽ đc đưa qua bộ lọc tổng hợp để xđ lại tín hiệu thoại ban đầu (bộ lọc tổng hợp thường là bộ lọc tuyến tính ngắn hạn or 1 bộ loc độ cao tần âm thanh)

 Phương pháp này cung cấp thoại có chất lượng cao, tốc độ bit thấp nhưng phức tạp

Câu 2.7: MPEG – Cấu trúc mã hóa của MPEG?

Giải: Sơ đồ:

- Nguyên lý hoạt động:

+ Hoạt động của bộ mã hóa phụ thuộc vào loại hình ảnh;

Quá trình mã hóa theo chuẩn MPEG là sự kết hợp giữa

nén liên ảnh và nén trong ảnh

Tín hiệu đầu vào có dạng 4:2:2 or 4:2:0 đc nén liên ảnh nhằm tạo ra ảnh khác biệt ở bộ cộng Ảnh khác biệt này sau đó đc nén trong ảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hóa… Sau đó, các ảnh này đc trộn với các vecto chuyền động, đưa đến bộ

KĐ đệm và thu đc ảnh đã nén

Lưu ý: Tốc độ bit của tín hiệu video

nén không cố định, phụ thuộc nội dung ảnh đang xét; tuy nhiên tại đầu

ra bộ mã hóa dòng bit phải cố định để

xđ tốc độ cho dung lượng kênh truyền -> cần có bộ nhớ đệm tại đầu

ra bộ mã hóa; và bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Nếu số liệu trong bộ nhớ đệm gần bằng dung lượng cực đại,các hệ số biến đổi DCT ngược đc lượng tử hóa

ít chính xác hơn; và ngược lại, nếu ít

số liệu thì lg tử các hệ số tăng

2

Trang 3

Câu 4: Mô hình hóa âm thanh cảm nhận? (Lấy vd qua MPEG lớp 3)

Giải:

- MP3 – MPEG lớp 3, cung cấp chất lượng Audio gần giống đĩa CD ở tốc độ bit thấp

- MP3 hỗ trợ các tần số lấy mẫu khác nhau: 48KHz, 32KHz, 44,1 KHz, tốc độ bit có thể thay đổi

từ 32-48 Kbps

- Mã hóa Audio cảm quan là kỹ thuật lợi dụng những đặc điểm cảm quan của tai người để đạt đc tỉ

lệ nén cao vs chất lượng tốt [ bằng cách phân chia dải tần nghe đc thành các băng con và lượng tử hóa các mẫu trong từng băng với số lượng bit khác nhau]

- Xét các hiệu ứng liên quan:

+ Mặt nạ tần số: Một thành phần tín hiệu cao hơn mức nghe vẫn có thể bị che khuất bởi các thành phần lớn hơn, gần tín hiệu đó trong miền f (dịch ngưỡng nghe)

+ Mặt nạ thời gian: Âm thanh yếu hơn phát ra ngay trước hoặc sau âm thanh mạnh sẽ bị che khuất

- Bộ mã hóa MP3: Sơ đồ

- Giải thuật:

+ Dùng bộ lọc thông để chia tín hiệu âm thanh -> các băng con theo tần số, tương ứng 32 băng con giới hạn -> lọc băng con

+ Xđ số lượng che của mỗi băng gây ra bởi băng lân cận = kết quả b1 -> mô hình âm – tâm lý + Nếu độ lớn của một băng nhỏ hơn ngưỡng nghe -> k mã hóa

+ Ngược lại, xđ số bit cần thiết để mã hóa sao cho nhiễu sinh ra bởi việc lượng tử hóa thường thấp hơn đường cong che

+ Định dạng dòng bit dữ liệu

Trang 4

Câu 5: Chuỗi điểm ảnh 8 bits có giá trị 10, 14, 25, 240, 195, 32 được đưa tới bộ mã hóa

DPCM Thành phần sai số được lượng tử với 32 mức Tìm tín hiệu nhận được sau khi giải mã DPCM Không thực hiện mã hóa entropy Giá trị ban đầu trong bộ dự đoán bằng 0 Tìm sai số RMS giữa chuỗi kết quả và chuỗi điểm ảnh gốc

Giải:

Thang lượng tử: 0=> 256 Chia 32 mức: mỗi mức: 8

Ta có: xp= ^x(n-1), d(n)= x(n)- xp(n), ^x(n)= xp(n)+ ^d(n)

Bảng chuyển đổi:

x(n) xp(n) d(n) ^d(n) ^x(n)

Câu 2.18: Mã hóa chuỗi sau {3, 5, 2, 4, 7, 8, 6, 5, 3, 1,…} bằng việc sử dụng bộ mã hóa DPCM.

Ở đây, sử dụng bộ dự đoán

[ ( 1 ) ( 2 )] 2

1 ) (n = x n− +x n

x p

và bộ lượng tử 3 mức dưới đây:



<

=

1 2

1 0

1 2

)

(

d d

d d

Q

Giả sử rằng giá trị tạo lại của 2 mẫu đầu tiên là 3, 3 Mã sau được

sử dụng để mã hóa tín hiệu sai số: Error “0”-> “1”, Error “2” ->

“01”, Error “-2” -> 00”

Giải:

Mẫu vào x(n) Mẫu dự

đoán xp(n)

Sai số d(n)=x(n)-xp(n)

Lượng tử d’(n)= Q(d)

^x(n)= xp(n)+d’(n)

=> Chuỗi đầu ra: 101001010001010000

4

Trang 5

Câu 2.14: Một hệ thống LPC có hệ số a1= 1.793; a2= -1.401; a3= 0.566 và a4= -0.147 G= 2; P= 60. Coi như tín hiệu thoại Tổng hợp 10 mẫu thoại đầu tiên

Giải: Công thức: , với G=2; (k)=1 với k=1, (k)=0 với gt khác Ta có: S(k)= a1S(k-1) + a2S(k-2) + a3S(k-3) + a4S(k-4) +

Với k= 1, ta có: k= 1, S(0)= S(-1)= S(-2)= S(-3)= 0

=> S(1)= a1.S(0) + a2.S(-1) + a3.S(-2) + a4.S(-3) + 2= 2

=> S(2)= a1.S(1) + a2.S(0) + a3.S(-1) + a4.S(-2) + 0= 3,586

=> S(3)= a1.S(2) + a2.S(1) + a3.S(0) + a4.S(-1) + 0= 3,628

=> S(4)= a1.S(3) + a2.S(2) + a3.S(1) + a4.S(0) + 0= 2,606

=> S(5)= a1.S(4) + a2.S(3) + a3.S(2) + a4.S(1) + 0=…

Tương tự, ta có: => S(10)= a1.S(9) + a2.S(8) + a3.S(7) + a4.S(6) + 0=…

Câu 2.15: Khối dữ liệu thoại có: R(0)= 1, R1= 0,866, R(2)= 0,554, R3= 0,225 Tìm các hệ số dự đoán ai (i= 1->3)

Giải: * Sd giải thuật Levinson-Derbin:

- Giá trị khởi tạo: E(0)=R(0)= 1

- Hệ số phản xạ:

ai(i) = k(i), ,

Giải pt theo I, thiết lập ai= -ai(3) E là sai lệch bình phương tối thiểu Áp dụng giải bt:

E(0)= R(0)= 1

+ i= 1; k1= R1/E(0)= 0,866; a11= k(1); E(1)= (1-k12)E0= (1-0,8662).1= 0,25

=> k2= [R(2)- a11.R1]/E1= (0,554- 0,8662)/0,25= -0,7838

a2(2)= k(2)= -0,7838

a12= a11- k2.a11= 1,545

E22= (1- k22).E1= 0,0964

k3= (R3- a12.R2- a22.R1)/E(2)= 0,4969

a3(3)= k3= 0,4969= a3

a2(3)= a2(2)- k3.a1(2)= -1,552= a2

a1(3)= a1(2)- k3.a22= 1,9345= a1

Câu 2.8 : Cho bảng phân chia băng con và năng lượng cho mỗi băng khác nhau như sau:

Băng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Level (db) 0 8 12 10 6 2 20 60 14 20 15 2 3 5 3 1

Giả sử rằng mức của băng tần 8 là 60dB, mặt nạ cho băng 7 là 12dB và băng 9 là 15dB Vậy ta cần bao nhiêu bit để mã hóa băng 7 và 9 Coi tín hiệu gốc mã hóa 8 bit/mẫu/băng tần

Giải:

- Mức của băng 7 là 20 dB > 12 dB, băng 7 đc tiếp tục xử lý

Do 1 bit mã hóa <=> 6dB

=> Với băng 7, 12dB bị che, ko cần mã hóa => giảm đc 2bit => cần (8-2)=6 bit mã hóa

- Mức của băng 9 là 14 dB < 15 dB => băng 9 bị bỏ qua, ko mã hóa

Câu 10: Giả sử chúng ta có ảnh mầu sử dụng 24 bit mã hóa cho một điểm ảnh Mắt người nhạy

cảm với thành phần mầu đỏ và xanh lá cây hơn xanh lơ 1,5 lần Xác định số lượng bit mã hóa cho các thành phần mầu

Trang 6

Giải : Gọi số bit cần mã hóa cho 3 màu R-G-B là : nR, nG, nB

=> nR + nG + nB= 24 và nR = nG= 1,5nB => nR = nG= 9, nB=6

Vậy số lượng bit mã hóa cho thành phần Red là 9bits, Green là 9bits, Blue là 6bits

6

Trang 7

Câu 11 : Quá trình biến đổi giữa hai hệ mầu RGB và YCbCr được mô tả dưới đây:

a. Xác định các thành phần Y, Cb, Cr cho ảnh theo hệ mầu RGB với R=100, G=200, B=50

b. Xác định các thành phần R, G, B cho ảnh theo hệ mầu YCbCr với Y=100, Cb=50, Cr=30

Giải: (a)

 +

=

128 128 16 50

200 100 071 0 368 0 439 0

439 0 291 0 148 0

098 0 504 0 257 0

r

b

C

C

95 75 94 128 50

* 071 0 200

* 368 0 100

* 439 0

77 95 76 128 50

* 439 0 200

* 291 0 100

* 148 0

147 4 147 16 50

* 098 0 200

* 504 0 100

* 257 0

= +

=

= + +

=

= + +

+

=

r

b

C C Y

(b)

=

128 30

128 50

16 100 0

017 2 164

.

1

813 0 392 0 164

.

1

596 1 0

164

.

1

B

G

R

60 -59.55 )

128 30 (

* 0 ) 128 50 (

* 017 2 ) 16 100 (

* 164

.

1

208 208.026

) 128 30 (

* 813 0 ) 128 50 (

* 392 0 ) 16 100 (

* 164

.

1

59 632 58 ) 128 30 (

* 596 1 ) 128 50 (

* 0 ) 16 100 (

* 164

.

1

=

− +

− +

=

=

=

=

− +

− +

=

B

G

R

Câu 12: Giả sử, chúng ta có một ảnh mầu 24 bit với các thành phần mầu đỏ, xanh lá cây và xanh

lơ và mỗi một thành phần mầu được mã hóa bởi 8 bit cho một điểm ảnh (pixel) Nếu chúng ta muốn giảm xuống thành ảnh màu 8 bít bởi lượng tử hóa đều và các thành phần mầu đỏ và xanh lá cây dùng 3 bit mã hóa cho mỗi thành phần và thành phần mầu xanh lơ được mã hóa bởi 2 bit Xây dựng bộ lượng tử dùng cho các thành phần mầu khác nhau Giả sử một điểm ảnh có các giá trị mầu (R, G, B) = (200, 150, 40) Xác định các giá trị mầu sau khi lượng tử hóa

Giải:

Với mức R và G, ban đầu dùng 8bit => 256 mức biểu diễn (0->256) Giảm còn 3bit => có 8 mức biểu diễn các mức: => 1 khoảng lượng tử= 256/8= 32

Tương tự, với màu B, có 4 mức biểu diễn các mức: 1 khoảng lượng tử= 256/4= 64

=> Giá trị màu sau khi lượng tử: R= (192+224)/2=208, G= (128+160)/2=144, B= (0+64)/2=32 (R, G, B)= (208, 144, 32)

Trang 9

Câu 13: Cho ma trận ảnh :

124 124

36

36

36 124

124

124

124 36 36

36

124 124

36

36 1 Sử dụng mã hóa LZW xây dựng từ điển và mã hóa ảnh Tính tỷ số nén

2 Sử dụng mã hóa Huffman để mã hóa ảnh Tính tỷ số nén

Giải:

1 Ban đầu, coi từ điển chỉ có 2 ký hiệu: 36 và 124

=> Từ điển:

Bd2 36 124 36-36 36-124 124-124 124-36 36-36-36

36-124-124

124-124

124-36-36

36-124

=> Đầu ra: 36-36-124-124-258-259-260-261-258-260

Xác định tỷ lệ nén: Tổng số bit đầu vào: 16.8= 128 Kích thước đầu ra: 4.8 + 6.9= 86

=> tỷ lệ nén = đầu vào/đầu ra= 128/86= 1,5

2 Xs xuất hiện của 2 ký tự “36” và “124” như sau: P36= P124= 8/16= 0,5

=> mã hóa Huffman: “36”= 0, “124”= 1

=> Ảnh mã hóa:

Xác định tỷ số nén: Tổng số bit vào: 16.8=128, tổng số bit ra: 16.1=16

=> Tỷ số nén= 128/16= 8

Trang 10

Câu 14 : Giải mã bản tin 0.23355 theo tiến trình giải mã số học với mô hình mã hóa:

Giải :

Dải [0 ; 0,2) [0,2 ; 0,5) [0,5 ; 0,6) [0,6 ; 0,8) [0,8 ; 0,9) [0,9 ; 1)

Vì 0,23355 thuộc [0,2 ; 0,5) => Ký hiệu đầu tiên đc giải mã là e

- Xét 0,23355 trong khoảng [0,2 ;0,5) :

(0,23355- 0,2)/(0,5- 0,2)= 0,11185 thuộc [0 ;0,2] trong khoảng [0 ;1] => Bit tiếp theo là a

- Xét 0,11185 trong khoảng [0 ;0,2] :

(0,11185- 0)/(0,2- 0)= 0,55915 thuộc [0,5 ;0,6] => Bit tiếp theo là i

- Xét 0,55915 trong khoảng [0,5 ;0,6] :

(0,55915- 0,5)/(0,6- 0,5)= 0,5925 thuộc [0,5 ;0,6] => Bit tiếp theo là i

- Tương tự bit cuối cùng là !

Quá trình giải mã kết thúc => đầu ra là : e a i i !

Tổng quát : Rn+1= (Rn- Ln)/(Un- Ln) trong dải [Ln;Un]

Câu 15 :

(a) Tính entropy (η) của ảnh dưới đây với các số (0, 20,

50, 99) minh họa cường độ mức xám

(b) Minh họa từng bước xây dựng cây Huffman để mã

hóa cho bốn giá trị cường độ mức xám trong ảnh nói

trên

(c) Tính số bit trung bình cần thiết để mã hóa cho mỗi

một điểm ảnh và so sánh với entropy (η)

Giải: a) Công thức tính:

Xác suất tương ứng:

Xác suất 1/2 1/8 1/4 1/8 => H= -[1/2.log(1/2) + 2.1/8.log(1/8) + 1/4.log(1/4)]= 1,75 b) Mã hóa Huffman:

=> Bảng mã tương ứng:

c) Tính số bit TB để mã hóa cho 1 điểm ảnh và so sánh với Entropy

H = => mã hóa tối ưu, hiệu suất= 100% Tỷ số nén: (64.8)/(32.1+16.2+2.8.3)= 4,5

10

Trang 11

Câu 3.8: Cho ma trận ảnh S là 2x2 =3 9 

3 9

S

Sử dụng chuẩn nén ảnh JPEG ( bỏ qua bước trừ

128 điểm ảnh ) để mã hóa ảnh S và tính tỷ số nén và rms biết rằng ma trận lượng tử =2 5 

2 3

Q

DC của khối trước là 3 Xác định ma trận ảnh sau khi giải nén

Giải: Mã hóa ảnh s Ma trận f(u,v)=

* F(0,0): => u=v=0 => c(u)=c(v)=.

=> F(0,0)=

=

=

* F(0,1)=

=

=

* F(1,0)=

=

=

* F(1,1)=

=

=

=> F(u,v)= => Fq(u,v)=

Quét Zigzac (4 0 0 1) => [4; (2 1)]

DC0= 3

=> Loại 1 là 011, từ mã 4 bit nên cuối cùng từ mã DC = 0111

AC= (2 1) => là loại 1, 0 chạy 2, nên từ mã là 110111 (Tra bảng)

- Tỷ số nén: Cr= n1/n2= 32/(4+6)= 16/5, Rd=1- 1/Cr= 11/16

Sau khi tái tạo lại:

Giải nén: biến đổi DCT ngược

Áp dụng CT:

*

*

*

*

ma trận sau giải nén

Câu 17 : Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là 60

mành/giây (quét xen kẽ) Tín hiệu video được số hóa với độ phân giải giống nhau theo chiều ngang và chiều dọc Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2 Mức lượng tử là 256 cho thành

Trang 12

phần chói và 128 cho hai thành phần màu Tìm khối lượng thông tin số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ

Giải:

+ 256 mức cho chói => 8 bit biểu diễn chói, 128 mức cho màu => 7 bit biểu diễn màu

+ Kích thước ảnh 16:9, số dòng z= 1080 => Số cột: (108016)/9= 1920

=> Số điểm ảnh: (19201080) pixel

+ 1 điểm ảnh sử dụng: 8 bit chói, 14 bit màu (2 màu) => 22 bit

+ Tần số quét: 60/2=30(Hz) (do quét xen kẽ)

+ Lấy mẫu theo chuẩn: 4:2:2 => Tần số quét cho màu= 1/2 Tần số quét cho chói

=> Dung lượng trong 2h: 10801920(8.30 + 7.30/2 + 7.30/2).2.3600 =…

Câu 18 : Cho chuỗi video dài 9 phút , được mã hóa theo chuẩn H263 và lưu ảnh theo kiểu PB,

kích cỡ khung 4CIF, tốc độ quét 30 hình/s, biết rằng trung bình 2 khung I được nén trong 1 giây Chất lượng video yêu cầu tỷ số nén khung I là 10 :1, khung P gấp 2lần khung I, khung B gấp 2 lần khung P Tính kích cỡ đoạn video Nếu sửu dung ALSL 2+ để download tính thời gian để tải đoạn video Cho ALSL: 24Mbps; 4CIF: (704576) cho Y, (352288) cho CbCR

Giải:

+ Kích thước video là:

+ Quét 30 hình/s: Có 30 khung: có 2 khung I, 28 khung còn lại: 14 cặp PB (14P và 14B)

(mode PB: ảnh P và B luôn đi cạnh nhau, có 2 khung I)

Tỷ số nén khung I: 10:1 => 2.(kích thước 1 khung)/10

Tỷ số nén khung P: 20:1 => 14.(kích thước 1 khung)/20

Tỷ số nén khung B: 40:1 => 14.(kích thước 1 khung)/40

Ta có: trong 9 phút

[2.(kích thước 1 khung)/10 + 14.(kích thước 1 khung)/20 + 14.(kích thước 1 khung)/40].60.9

Sử dụng ALSL, tốc độ 24M: => t = (kích thước trong 9 phút)/(24.106) =…(s)

12

Ngày đăng: 20/08/2016, 20:18

TỪ KHÓA LIÊN QUAN

w