Có hai kỹ thuât nén chủ yếu sử dụng hiện nay là: 1.M hoá dự đoán trã ớc trong miền thời gian: Phơng pháp này sử dụng việc mã hoá khác nhau đối với các thành phần khácnhau của các mẫu li
Trang 1CHƯƠNG I: TỔNG QUAN VỀ AUDIO- VIDEO SỐ
1.1 TỔNG QUAN VỀ AUDIO SỐ:
1.1.1 Tín hiệu AUDIO:
Từ cuối thế kỷ 19, âm thanh điện tử đã được phát triển dưới dạng hệ thống máyđiện thoại Sang đầu thế kỷ 20, các máy quay đĩa và máy phát thanh đã mở ra nhữngứng dụng mới cho âm thanh điện tử, đến mức gần như các gia đình trong thế giới vănminh ngày nay đều sở hữu một vài thiết bị phục vụ đời sống tinh thần này
1 Âm thanh tự nhiên:
Âm thanh là những biến đổi áp suất nhanh xảy ra trong không khí do nhiều quá trình tự nhiên gây nên Tiếng gió thổi trên cành cây, tiếng sóng biển vỗ bờ, tiếng chim hót… tất cả đều là âm thanh tự nhiên Nhiều hệ thống do con người chế tạo cũng tạo ra những biến đổi áp suất tương tự, đôi khi là có chủ định song đôi khi là khách quan.
Tai con người phản ứng lại với những biến đổi áp suất không khí ở phạm vi tần số trong khoảng từ 30 Hz đến 15.000 Hz sau đó đưa đến não và đó chính là
âm thanh Độ lớn hay biên độ dao động của những biến đổi áp suất này tạo nên cảm giác về tiếng ồn.
2 Tái tạo âm thanh tự nhiên:
Âm thanh điện tử được gọi chung là Audio Âm được thu từ nguồn nhờ một hoặc nhiều micro và những tín hiệu audio thu được truyền qua hệ thống cho đến khi tới loa phát.
Hình 1.1: Hệ thống tái tạo âm thanh điện tử Mục đích tái tạo âm thanh điện tử là để tải các sóng âm thanh đến những khoảng cách xa cả về không gian và thời gian, để người nghe có thể tiếp nhận như thể họ đang nghe âm trực tiếp từ nguồn Một mục đích khác nữa là để chau chuốt âm thanh tự nhiên, làm cho âm thanh điện tử hay hơn âm gốc, hoặc tạo ra những âm thanh mới không có trong tự nhiên.
Loa
Trang 2Quá trình lấy mẫu thực hiện việc nhân tín hiệu audio tương tự với chuỗi xungcó thời gian lặp lại với tần số lấy mẫu Đó là quá trình điều biên xung (PAM) trongmiền thời gian hình 1.2 và trong miền tần số hình 1.3.
Hình 1.2: Quá trình điều biên trong miền thời gian
Khi tần số lấy mẫu fs 2fmax thì không có sự xuyên nhiễu giữa hai phổ, chỉcần một lọc (LPF) là tách được tín hiệu gốc
- Khi fs < fmax tín hiệu qua LPF bị xuyên nhiễu gọi là Aliasing noise khôngchấp nhận được Fmax là tần số cao nhất của tín hiệu nguyên thủy, ở Audio fmax = 20KHz chọn fs = 44.1 KHz, fs là tần số lấy mẫu
- Trước khi thực hiện ADC, phải giới hạn băng tần audio đến ½ fs, nếukhông có thể gây ra hiện tượng chồng phổ và méo tín hiệu khôi phục
- Xung lấy mẫu phải có thời gian hẹp, bằng một chu kỳ lấy mẫu
s
f
1
Hình 1.3: Quá trình điều biên trong miền tần số
Trong thực tế bộ ADC, giá trị biên độ xung của mỗi mẫu được giữ đến khinào đạt mẫu tiếp theo, hình 7.4, 7.5
Tín hiễu lấy mẫu PAM
Thời gian
Thời gian T/h Audio
Trang 3Hiện nay thường dùng 4 chuẩn tần số lấy mẫu cho tín hiệu Audio:
- 32 KHz (tiêu chuẩn chuyên dụng) dùng trong truyền dẫn và phát thanh FMstereo
- 44.1 KHz (tiêu chuẩn dân dụng ) : Dùng trong VCR, CD, R_DAT player
- 48 KHz (tiêu chuẩn phát thanh) : Tiêu chuẩn phát thanh băng tần rộng vàtruyền hình chất lượng cao
- Lấy mẫu tần số cao (over sampling) 4fs để giảm méo lượng tử
SNR[db] = 6.02n + 1.76 + 10log10d
Với d : hệ số lấy mẫu tần số cao (d = 4)
N : Số bit / mẫu lượng tử
2 Lượng tử hoá (Quantizing):
Sau quá trình lấy mẫu là quá trình lượng tử hoá Các mức biên độ được rờirạc từng mức biên độ với giá trị nhị phân tương ứng Nếu n bit lấy mẫu sẽ có 2nkhoảng lượng tử
Tín hiệu đã lấy mẫu
Thời gian
Thời gian T/h Audio
Trang 4Hình 1.6: Quá trình lượng tử hoá 4 bit
- Khoảng lượng tử là không đối xứng với các chuyển dịch dương và âm củatín hiệu audio gốc
- Số mức lượng tử càng tăng thì méo lượng tử càng tăng thì méo lượng tửcàng giảm
- Gọi Q là khoảng lượng tử hoá (Q2 Q2 ) ta có tỉ số tín hiệu / nhiễu lượngtử SNR là :
12 2
2 1
n n
Q
Q N
Trang 5Với n là số bit lượng tử hoá (số bit/mẫu lượng tử hoá)
3 Mã hoá (coding):
Mỗi giá trị lượng tử hoá nhị phân cần phải được mã hoá để phù hợp với loạitín hiệu lấy mẫu, truyền dẫn và ghi âm Hệ thống thường dùng là PCM (điều biếnmã xung), PWM (điều chế độ rộng xung), ADM (điều chế delta thích nghi), DPCM(điều xung mã vi sai), floating point (điểm di động )
Loại PCM được dùng nhiều vì đơn giản, tuy nhiên ít hiệu quả Đặc điểm củanó là thực hiện tuyến tính cho tấc cả các khoảng lượng tử hóa Các mức lượng tửhoá được gán bằng các từ mã theo một trật tự logic Hình 1.7 là sơ đồ khối là quátrình mã hoá và giải mã PCM
Hình 1.7 : Sơ đồ khối đơn giản hoá của hệ thống PCM
1.1.3 Giao diện số AES/EBU:
1 Câú trúc cơ bản của giao thức AES/EBU
Tiêu chuẩn tín hiêụ video số AES/EBU là một giao thức cho phép các thiết bị
số cĩ thể phát và thu tín hiệu audio số
Khung dữ liệu được tạo bởi hai khung con (khung con A và B) Mỗi mẫu dữliệu được phối hợp từ một nguồn audio hoặc một kênh, dữ liệu phụ, dữ liệu mở đầu,các thơng tin về giá trị (V), thơng tin thêm vào để trợ giúp người sử dụng dữ liệu (U),thơng tin về các tham số hệ thống (C) và bít chẵn lẻ (P) để phát hiện sai số truyền đểkiểm tra độ tin cậy của kênh
Các khung dữ liệu audio được nhĩm lại thành các khối (block) gồm 192 khung.Một tín hiệu cờ được gửi đi trong dịng dữ liệu cho phép nhận biết mỗi block Khoảngthời gian tồn tại một khung audio là 20,83 µs trong hệ thống lấy mẫu 48 KHz Do đĩthời gian tồn tại một khối AES/EBU là: 20,83 µs x 192=4000 µs
Bandpass filter and holdSample
Analog to digital converter
Digital to analog converter circuitHold
Low-pass filter
Transmission medium
PAM
PAM
Analog output Analog input
Trang 6Dữ liệu mở đầu gồm 4 bit, hay còn gọi là từ đồng bộ, được dùng để nhận biết sựbắt đầu của một mẫu mới và của một block mới Ba từ còn lại được sử dụng trong:
- Từ đồng bộ Z: dãy bít này cho biết sự bắt đầu của khung đầu tiên của một khối(block) audio mới Từ này tạo ra cờ Z
- Từ đồng bộ X: từ này cho biết sự bắt đầu của tất cả các khung con A
- Từ đồng bộ Y: từ này cho biết sự bắt đầu của mọi khung con B
Mỗi khung audio gồm 2 khung con, trong đó mỗi khung gồm 32 bit Mỗi mẫu tínhiệu audio, theo lý thuyết có thể gồm 16 đến 20 bít hoặc tới 24 bít khi 4 bít phụ đượccoi như các bít mẫu tín hiệu audio Bít phụ cho biết tình trạng các dãy bit trong kênh,
nó nằm trong byte 2, các bít 0-2
Mỗi khung con có 4 bit phụ:
- Bit giá trị (V): bit này cho biết các bit dữ liệu lấy mẫu âm thanh trước đó có
đúng hay không
- Bit sử dụng (U): bit này cho biết mọi thông tin thêm vào để trợ giúp người
sử dụng dữ liệu
- Bit kênh (C): cũng giống như bit sử dụng, bit kênh có mặt trong các khung
phụ, nó được gửi tới các hàng đợi được tạo bởi 28 hàng Nội dung của hàng đợi rấtquan trọng trong việc xác định nội dung của từ dữ liệu audio
- Bit parity (P): bit parity được đặt để chỉ định một parity chẵn Bit parity cho
phép phát hiện số lẻ của lỗi do quá trình truyền dẫn Một số thiết bị đã bỏ qua nhữngbit này hoặc thi hành không chính xác trong quá trình chỉ định
2 Các đặc điểm giao diện kênh chuẩn AES/EBU:
Đặc điểm của định dạng giao diện sử dụng AES/EBU được chỉ ra trong bảng sau:+ Định dạng: truyền dẫn nối tiếp của hai kênh số liệu được lấy mẫu và mã
hoá tuyến tính
+ Các thông số phát: tín hiệu ra không cân bằng.
Các bộ nối: giắc cắm âm thanh RCA
Biên độ tín hiệu ra: 500mVđỉnh-đỉnh ứng với tải 75 (không cân bằng).+ Các thông số thu: Tín hiệu vào không cân bằng
Các bộ giắc cắm âm thanh RCA
Z Channel A Y Channel B X Channel A Y Channel B X Channel A Y Channel B
1 Khối Audio
Z flag
Trang 71.2.2 Số hĩa tín hiệu VIDEO:
1 Lấy mẫu tín hiệu Video số
Tín hiệu vào fv có tần số fb sẽ được biến đổi từ hình bao dạng sóng qua cácxung hẹp với chu kỳ lấy mẫu TS Tần số lấy mẫu là :
S S
T
f 1
Do phổ của tín hiệu sau lấy mẫu có thể chồng lên nhau tạo thành nhiễualiasing nên tần số lấy mẫu phải thoả định lý lấy mẫu, tức là fs 2fb Với tần sốnày sẽ bảo đảm tái tạo lại được tín hiệu nguyên thuỷ khi thực hiện quá trình biếnđổi số – tương tự
Hình 7.8: Phổ của tín hiệu sau khi lấy mẫu
a Tần số lấy mẫu tín hiệu Video tổng hợp (Composite Video Signal)
Đối với tín hiệu video tổng hợp, tần số lấy mẫu tín hiệu video thông thườngbằng 2, 3 hoặc 4 lần tần số sóng mang màu fsc
Thông thường thì người ta chọn fs = 3fsc
NTSC : fs = 10.7 MHzPAL : fs = 13.3 MHz
Trang 8Thế nhưng người ta thường dùng fs = 4fsc
NTSC : fs = 14.32 MHzPAL : fs = 17.72 MHz
Do tín hiệu video số mang đầy đủ những khuyết điểm của video tương tựnên người ta thường sử dụng phương pháp số hoá tín hiệu thành phần
b Tần số lấy mẫu tín hiệu Video thành phần (Component Video Signal)
Với tín hiệu video thành phần, tần số lấy mẫu thường được lấy thông qua tỉlệ tần số giữa tín hiệu chói và tín hiệu màu Thông thường có các tỉ lệ 4:1:1; 4:2:2;4:4:4…, ta sẽ nghiên cứu kỹ ở phần sau
2 Lượng tử hoá biên độ tín hiệu video (Quantizing).
Đây là quá trình biến đổi tín hiệu sau lấy mẫu thành các khoảng rời rạc, gọilà khoảng lượng tử (Q)
Q = 2nVới n là số bit/mẫu
Nếu n = 8, thì sẽ có 28 = 256 khoảng lượng tử
Có hai cách lấy khoảng lượng tử:
- Tuyến tính: các khoảng lượng tử cách đều nhau không phụ thuộc tín hiệu
analog vào
- Không tuyến tính: Các khoảng lượng tử thay đổi theo biến đổi biên độ của
tín hiệu Các vùng ít biến đổi thì khoảng cách lượng tử thưa, các vùng biến đổinhiều thì khoảng cách lượng tử ngắn
Quá trình lượng tử là làm tròn các đỉnh xung vuông (biên độ tín hiệu đã lấymẫu so sánh với một mức lượng tử gần nhất) Như vậy sẽ có sai số trong quá trìnhlượng tử hĩa do làm tròn Sai số này sẽ Q
Giá trị trung bình (RMS – Root Mean Square) của mọi sai số lượng tử có giátrị :
12
Q RMS
Trang 9Giá trị của tín hiệu ra (bộ DAC) là:
(2n – 1)QNgười ta thường dùng tỷ số tín hiệu đỉnh trên nhiễu lượng tử
MRS
Q
S
để làmchỉ tiêu đánh giá một thiết bị số hoá
dB
n Q
Q Q
RMS
8 10 02 6 12 2
S
RMS
96 58
- Việc hạn chế fmax
- Khoảng lượng tử hoá tín hiệu video tích cực…
Do đó, thực tế tỷ số
q s
V f
f n
Q
S
10 max
10 20 log 2
log 10 8 10 02 6
q
V V
V
10
log
20 là ảnh hưởng của khoảng video tích cực
N : là số bit/mẫu
Fs :là tần số lấy mẫu
Fmax : là tần số video cực đại (4.2; 5; 5.5; 6 mhz)
Vq : là điện áp tín hiệu toàn bộ khoảng lượng tử [V]
Vw : là điện áp mức trắng [V]
Vb : là điện áp mức xoá
Vw – Vb =
3 Mã hoá (Coding)
0.7V đối với hệ PAL0.714V đối với hệ NTSC
Trang 10Đây là bước sắp xếp các giá trị số sau khi lượng tử hoá theo một khung thuộccấu trúc nào đó.
4 Tiêu chuẩn Composite số
a Tiêu chuẩn Digital Composite f s = 4f sc PAL (tiêu chuẩn PAL 4f sc )
3 Tần số lấymẫu fs Fs = 4fsc = 17.734475 mhz
4 Trạng thái pha lấy mẫu +450;+1350;+2250;+3150
6 Độ phân giải lượng tử hoá 8 hoặc 10 bit/mẫu
Bảng 7.1: Các thông số của tiêu chuẩn PAL 4f sc
- Tải màu fsc (Burst) được thay đổi pha lần lượt theo hai giá trị +1350 và +225và nó tạo ra xung lấy mẫu fs
- Tải màu PAL có chứa một tần số Offset là 25Hz Như vậy fsc sẽ là:
Fsc = n f H f V 285 75f H 25Hz 4 43361875MHz
2 4 1
- Số chu kỳ tải màu trong một ảnh (frame):
75 177344
MHz f
Sốdòng Dòng
Trang 11Hình 7.9: Quan hệ số mẫu PAL 4f sc và một dòng tín hiệu Analog
Cần chú ý rằng dòng thứ 313 và 625 nằm trong khoảng xoá mành
Trên hình 7.9 cho thấy các mẫu được tính từ 0 1134, trong đó đầu tiên làcác dòng tích cực chiếm 948 mẫu từ 0947, kế đến là mức đồng bộ chiếm 187mầu từ 948 1134
Điểm chuẩn đồng bộ nằm ở giữa mẫu 958
Thời gian một mẫu là: s 56 4ns
TT Thông số PAL composite Độ phân giải 8 bit Độ phân giải 10 bit
Đỉnh trắng Burst
Dòng tích cực số
984 khoảng mẫu từ 0,1 947 Mức đồng bộ
Mức đen Mức đồng bộ Xoá số
187 mẫu 948,949 …… 1134
4.7
Chuẩn đồng bộ
955 956 957 958 959 960
50%
Trang 12Bảng 7.2: Các mức chủ yếu của composite sọc màu tương tự 100/0/100/0 và các giá trị PAL 4f sc tương ướng với độ phân giải 8 bit và 10 bit.
Hình 7.10: Quan hệ giữa các mức của Analog PAL sọc màu 100% và PAL 4f sc
Bảng 7.2 và hình 7.10 minh hoạ một số thông số của tín hiệu sọc màucomposite tương tự và các mức PAL 4fsc tương ứng trong trường hợp độ phân giải 8bit và 10 bit
* Các mức lượng tử tương ứng với độ phân giải 10 bit gồm có 2n = 1024 mứctừ 0 1023 (hệ DEC) và từ 000 3FF (hệ HEX) với các chức năng như sau :
Từ 000 003 là mức bảo vệ, chứa thông tin dự phòng đồng bộ,không chứa dòng số
Từ 004 3FB (hay mức 4 1019 DEC)dùng biểu diễn tính hiệuvideo số
Mức 004 (HEXA) hay mức 4 (DEC) là đỉnh xung đồng bộ cũng làmức lượng tử hoá thấp nhất
Mức 100 hay 256 (DEC) là mức xoá cũng là mức đen, tương ứng 0mV
Mức 34C (HEXA) hay 844 (DEC) là mức trắng, tương ứng 700 mV
Mức 3FB là mức lượng tử hoá cao nhất
Như vậy, có 1016 mức số (004 3FB hay từ 4 1019 DEC) dùng để biểudiễn tín hiệu video tổng hợp
HEX 3FF 3FB 34C
100 016 004 003 002 001 000
Headroom
100% mức màu Mức lượng tử hoá cao nhất Mức trắng
Mức xoá = mức đen
Mức đồng bộ = Mức lượng tử hoá thấp nhất
HEX 3FF 3FB 34C
100 016 004 003 002 001 000
Headroom
100% mức màu Mức lượng tử hoá cao nhất Mức trắng
Mức xoá = mức đen
Mức đồng bộ = Mức lượng tử hoá thấp nhất Khoảng dự
phòng đồng bộ
Trang 13 Các mức từ 3FC 3FF là các mức bảo vệ.
Mức đỉnh tín hiệu màu vàng (Yellow) và xanh cẩm thạch (Cyan) là933.5mV, nhưng khi lấy mẫu tín hiệu vàng là 886mV nhỏ hơn mức lượng tử caonhất tương ứng 908.3mV, nên ở đây tồn tại một headroom âm tại đỉnh tín hiệu số
Ơû đây, với n = 10 bit/mẫu, fs = 17.73 MHz, fmax = 5 MHz, Vq = 1.2131 V, Vw –
b Tiêu Chuẩn Digital Composite f s = 4f sc NTSC (tiêu chuẩn NTSC 4f sc )
5 Trạng thái pha lấy mẫu +330;+1230;+2130;+3030
7 Độ phân giải lượng tử hoá 8 hoặc 10 bit/mẫu
Bảng 7.3: Các thông số cơ bản của NTSC 4f sc
* Tần số lấy mẫu chuẩn fs = 14.3118 MHz 14.32 MHz, fh = 15734.25 Hz,
số mẫu/dòng là : 910
* Khoảng xoá dòng là : 910 – 768 = 142 mẫu
Điểm chuẩn đồng bộ là điểm giữa sườn xung đồng bộ nằm giữa mẫu thứ
784 và 785
Khoảng video tích cực từ 0 767
Tiếp theo là khoảng xoá từ mẫu 768 909 (142 mẫu)
Chúng được minh hoạ trên hình 7.11
Giảng viên: PHẠM THỊ ÁNH HỒNG Biên soạn năm 201213
Kết thúc video số tích cực
Dòng chuẩn 747
748 782
784 785
Trang 14Hình 7.11: Khoảng xoá dòng số NTSC 4f sc
TT Thông số NTSC composite Độ phân giải 8 bit Độ phân giải 10 bit
Bảng 7.4: Các mức chủ yếu của Composite sọc tương tự 100/7.5/100/7.5 và
các giá trị NTSC 4f sc tương ứng với độ phân giải 8 bit và 10 bit
* Lượng tử hoá.
Các mức lượng tử hoá theo độ phân giải 10 bit gồm 210 = 1024 mức từ 0
1023 từ dưới lên có các mức như sau :
Từ 000 003 là khoảng dự phòng để chèn các mức đồng bộ, không chứacác dòng số
Từ 004 3FB (hay mức 1019 DEC) dùng cho tín hiệu số
Trang 15Hình 7.12: Quan hệ giữa các mức của analog NTSC và Các giá trị mẫu digital 10 bit các sọc màu 100%
Từ 0 04 010 (4 16 DEC) là mức headroom đồng bộ
Headroom đỉnh từ 3CC 3FB (927 1019)
Từ 3FC 3FF là mức bảo vệ đỉnh
Mức 3CC là mức tín hiệu cao nhất (Yellow và Cyan)
Mức 0F0 là mức xoá
Mức 11A là mức đen
Tỷ số tín hiệu trên nhiễu lượng tử được tính :
Ơû đây, với n = 10 bit/mẫu, fs = 14.33 MHz, fmax = 4.2 MHz, Vq = 1.3042 V, Vw– Vb = 0.7143 V, ta có Q S dB
RMS
09 68
800
282 240 16 4 3 0
3FF 3FC 3FB 3CC 320
11A 0F0 016 010 004 003 000
100% mức màu
Mức lượng tử hoá cao nhất Mức trắng
Mức đen
Mức đồng bộ Mức lượng tử hoá thấp nhất
Mức xoá Headroom
Trang 16 Tần số lấy mẫu càng tăng, chất lượng video càng cao, tuy nhiên tần số lấymẫu lớn đòi hỏi thiết bị, đường truyền phải có dải thông rộng và các bộ nhớ códung lượng lớn Chi phí cho toàn bộ hệ thống do vậy tăng lên nhiều lần Tần số lấymẫu thích hợp nằm trong khoảng từ 12 MHz 14 MHz.
Số hoá tín hiệu video tổng hợp có tốc độ bit thấp so với phương pháp sốhoá tín hiệu video thành phần
Tín hiệu số tổng hợp bộc lộ nhiều nhược điểm trong quá trình xử lý số, tạokỹ xảo, dựng hình…
5 Tiêu chuẩn Component số.
Tiêu chuẩn Component số được dùng ở châu Aâu và châu Mỹ theo chuẩnRecommendation 601 CCIR Tiêu chuẩn này tương thích với tiêu chuẩn quét625/50 và 525/60 với độ phân giải 8bit/mẫu và 10 bit/mẫu
a Tỷ lệ lấy mẫu
Các tổ chức phát thanh và truyền hình:
SMPTE (Society of Motion Picture ang Television Engineer) với chuẩnATSC (Advance Television standards Committee)
EBU (European Broadcasting Union) với chuẩn DVB (Digital VideoBroadcasting) đã thống nhất chọn chuẩn CCIR Rec 601 từ năm 1982 trên cơ sở tầnsố chuẩn 3.375 MHz
Tỷ lệ lấy mẫu ở tiêu chuẩn component số là tỉ lệ mà ở đó tín hiệuLuminance (Y) và hai tín hiệu màu CB và CR được lấy mẫu ở các tần số tương ứngvới bội số của tần số chuẩn 3.375 MHz Thông thường có các tỷ lệ lấy mẫu sau :
- 4:1:1, trong đó tín hiệu Y có tần số lấy mẫu fsy = 4 3 375 13 5MHz, haitín hiệu số màu được lấy mẫu ở tần số fscb = fscr = 1 3 375 = 3.375 MHz
- 4:2:2, trong đó tín hiệu Y có tần số lấy mẫu fsy = 4 3 375 13 5MHz, haitín hiệu số màu được lấy mẫu ở tần số fscb = fscr = 2 3 375 = 6.75 MHz
- 4:4:4, trong đó các tín hiệu Y, CB, CR có tần số là 4 3 375 13 5MHz
b Các tín hiệu mã hoá, thời gian và tần số lấy mẫu chuẩn 4:2:2.
Các tín hiệu mã hoá Y, CB, CR được mô tả như ở bảng sau:
* Các thông số mã hoá màu 4:2:2 của tiêu chuẩn 625/50 và 525/60.
Thông số Chuẩn 4:2:2 của 625/50 Chuẩn 4:2:2 của 525/60
Trang 17Các tín hiệu mã hoá
sau khi đã sửa
Y’ = 0.587G’ + 0.114B’ + 0.299R’
CB’ = 0.564(B’ – Y’)
CR’ = 0.713(R’ – Y’)Số mẫu/dòng
CB : 360
CR : 360Cấu trúc lấy mẫu Trực giao
Các mẫu CB, CR, lặp lại theo dòng, mành và ảnhcùng với các mẫu Y lẻ trên dòng
Tần số lấy mẫu Fsy = 846fh = 13.5 MHz
Fscb =fscr = 432fh =6.75MHz
Fsy = 858fh = 13.5MHz
Fscb=fscr=429fh=6.75MHz
Loại mã hố Điều xung mã (PCM), lượng tử hoá đều
Độ phân giải lượng tử 8 hoặc 10 bit/mẫu cho Y và các tín hiệu số màu
Bảng 7.5: Các thông số mã hoá 4:2:2 của tiêu chuẩn 625/50 và 525/60
* Thời gian và tần số lấy mẫu 4:2:2.
Hệ 625/50 có thời gian một dòng là 64s, thời gian một dòng tích cực là 52
s
, thời gian xoá dòng là 12s
Hệ 525/60 có thời gian một dòng là 63.56s, thời gian một dòng tích cựclà 52s, thời gian xoá dòng là 11.56s
Fsy = 13.5 của hai hệ được tạo từ bộ dao động PLL-CO (Phase Locked Loop– Controlled Oscillator) Với hệ 625/50 fsy = 864 15625 Hz = 13.5 MHz Còn hệ525/60 fsy =858fh = 858 15734.265 = 13.5 MHz
Chúng được đồng bộ từ tín hiệu video in Đặc tính của mạch lọc Y bằngchẳng đến 5.75 MHz, còn CB, CR đạt đến 2.75 MHz
c Lượng tử hoá
* Thành phần chói Y.
TT Thông số của Y
component
Độ phân giải 8 bit
Độ phân giải 10 bit
Trang 182 Mức lượng tử hoá cao nhất FE 3FB
Bảng 7.6: Một số thành phần Y tín hiệu sọc màu 100/0/100/0 và các tín hiệu
số Y trong hệ HEX tương ứng với 8 bit và 10 bit
Các mức lượng tử theo 10 bit gồm 210 = 1024 mức từ 0 1023 (hệ DEC) vàtừ 000 3FF (hệ HEX) với chức năng của các mức như sau:
Hình 7.13: Quan hệ giữa các mức tín hiệu Analog Component Y của
sọc màu 100% và các giá trị lấy mẫu 10 bit và 8 bit
Tứ 000 003 là 4 mức dự phòng dưới
Từ 004 3FB là dòng tín hiệu số
Mức 004 HEX hay 64 DEC là mức xoá
Mức 3AC HEX hay 940 DEC là mức đỉnh trắng
Phần xung đồng bộ của tín hiệu chói không được lấy mẫu
Headroom dưới nhỏ là khoảûng dự phòng cho phép chỉnh các mức analog, từmức 004 040 HEX hay 4 64 DEC
Từ 3AC 3FB HEX hay 940 1019 DEC là mức headroom trên
Mức 3FB HEX hay 1019 DEC là mức lượng tử cao nhất
10 01 00
10 bit
766.3 763.9 763.1 700
0 -47.9 -48.9 -51.1
1023 1020 1019 940
64 4 3 0
3FF 3FC 3FB 3AC
040 004 003 000
Headroom
Mức lượng tử cao nhất Mức đỉnh
Mức lượng tử thấp
Xung đồng bộ không lượng tử
4 mức dự phòng
Headroom
4 mức dự phòng
Trang 19 Từ 3FC 3FF HEX hay 1020 1023 DEC là 4 khoảng dự phòng.
Ơû đây, với n = 10 bit/mẫu, fs = 13.5MHz, fmax = 5.57 MHz, Vq = 0.8174 V, Vw
Bảng 7.7: Các mức analog component C B và C R của tín hiệu sọc màu 100/0/100/0 và các giá trị của C B và C R digital ứng với 8 bit và 10 bit
Cần chú ý rằng các tín hiệu CB và CR là lưỡng cực, do đó phải dịch mức350mV để đưa vào bộ ADC
Tương tự như thành phần chói, các mức lượng tử hoá của CB chỉrõ ở hình7.14a, của CR ở hình 7.14b
Trang 20RMS
74 70 151 1 889 0 71 7
0
7992 0 log 20 5 5
75 6 log 10 8 10 10 02
10 01 00
10 bit DEC HEX 1023 1020 1019 960 512
64 4 3 0
3FF 3FC 3FB 3C0 200
040 004 003 000
4 mức dự phòng
Headroom
Headroom
4 mức dự phòng
Mức lượng tử cao nhất Mức dương max
Mức xoá
Mức âm max Mức lượng tử thấp nhất
10 01 00
10 bit DEC HEX 1023 1020 1019 960 512
64 4 3 0
3FF 3FC 3FB 3C0 200
040 004 003 000
4 mức dự phòng
Headroom
Headroom
4 mức dự phòng
Mức lượng tử cao nhất Mức dương max
Mức xoá
Mức âm max Mức lượng tử thấp nhất
+C
-
Trang 21Với n = 8 bit/mẫu
dB dB
Q
S
RMS
7 58 698
.
d Cấu trúc lấy mẫu trực giao
Các mẫu được sắp xếp trên các dòng kề nhau, thành các hàng thẳng đứng.Cấu trúc này cố định theo mành (field) và theo frame
Các hàng thẳng theo chiều dọc gọi là cấu trúc mẫu trực giao
Hình 7.15: Cấu trúc mẫu trực giao
1 2 3 4
Trang 22CHƯƠNG II: XỬ Lí TRUYỀN DẪN AUDIO- VIDEO SỐ
2.1 NẫN TÍN HIỆU AUDIO SỐ
2.1.1 Giới thiệu chung
Tín hiệu audio số PCM đợc dùng nhiều trong truyền hình, multimedia và nhiềuứng dụng khác (các hệ thống đa đờng audio , nhà hát ) Tín hiệu âm thanh stereo
có độ phân giải 16 bit , lấy mẫu 48 KHz, sẽ cho tốc độ dữ liệu audio là 1,54 Mbit/s.Audio số có nén đợc sử dụng trên CD-ROM, mạng, phát thanh,truyền hình số vệtinh DBS
Các hệ thống nén thông tin audio dựa trên đặc trng tâm sinh lý nghe (âm học) vàcác giới hạn của tai ngời để loại bỏ các phần dữ liệu không cần thiết (d thừa ) trongtín hiệu audio
Hệ thống thính giác của con ngời hoạt động nh một bộ phân tích phổ, và phầnphổ của âm thanh nghe đợc độc lập sau khi qua bộ lọc thông giải, gọi là các dải băngchuẩn Các dải băng chuẩn có độ rộng 100Hz khi tần số dới 500 Hz, và khi tần sốtrên 500 Hz thì dải băng tỷ lệ với tần số Hiện nay chế độ sử dụng đợc tạo bởi 25 dảibăng con tơng ứng với 25 bộ lọc ốc tai theo quy luật tự nhiên Khi tín hiệu audio đ ợctạo ra từ các tần số gần nhau, hệ thống HAS tổ hợp chúng thành các nhóm tơng đ-
ơng với cùng một năng lợng Thờng thì các tần số cách xa nhau đợc xử lý riêng rẽ,các âm lợng tơng đơng của chúng đợc đánh giá và xác định
Độ nhạy của HAS giảm đi tại các tần số thấp và cao, thể hiện ở việc đ ờng viềnmức âm lợng trung bình tỷ lệ nghịch với các tần số âm thanh Có thể nhận thấy rằng,tại các mức âm lợng thấp, mức độ thay đổi độ nhạy của HAS là rất quan trọng và nógiảm đi tại các mức âm lợng cao
2.1.2 Kỹ thuật nén số liệu audio
Các kỹ thuật mã hoá nguồn đợc dùng để loại bỏ độ d thừa trong tín hiệu audio
và các kỹ thuật psychoacoustic- che mặt nạ tâm sinh lý nghe đ“ psychoacoustic- che mặt nạ tâm sinh lý nghe” đ ” đ ợc sử dụng dùng
để nhận biết và loại bỏ những thành phần không thích hợp (các mẫu âm thanh lỗi)
Có hai kỹ thuât nén chủ yếu sử dụng hiện nay là:
1.M hoá dự đoán trã ớc trong miền thời gian:
Phơng pháp này sử dụng việc mã hoá khác nhau đối với các thành phần khácnhau của các mẫu liên tiếp mà có thể khôi phục đợc Việc giảm tốc độ dòng bit sẽ đ-
ợc sử dụng để mã hoá và truyền dẫn các thông tin của tín hiệu audio
2 M chuyển đổi trong miền tần số:ã
Kỹ thuật này sử dụng các khối block của các mẫu audio ra từ bộ PCM đều đểchuyển từ miền thời gian sang miền thời gian sang miền tần số những dải băng khácnhau
a.Nén không tổn hao
Trang 23Nén không tổn hao cho phép khôi phục lại dòng bit những thông tin nguyênthuỷ sau bộ giải nén mà không gây ra tổn hao Hệ thống này loại bỏ độ d thừa thống
kê, nhng thông tin tồn tại trong tín hiệu audio có thể dự báo trớc từ những mẫu trớc
đó Bộ nén số liệu không tổn hao cho các tỷ số nén thấp, tỷ số tốt nhất đạt đ ợc là 2:1
nó phụ thuộc vào sự phức tạp của tín hiệu audio nguồn
Nén không tổn hao sử dụng những kỹ thuật mã dự đoán trớc trong miền thờigian bao gồm:
- Thuật toán vi sai: Các tín hiệu âm thanh có đặc tính là lặp đi lặp lại, vì vậy sẽxuất hiện lợng d thừa số liệu lớn, ngoài ra còn có những d thừa nh các tín hiệu âmthanh không liên quan đến giác quan con ngời Những thông tin lặp đi lặp lại sẽ đợcloại bỏ trong quá trình mã hoá và lại đa vào tại quá trình giải mã cuối cùng Kỹ thuậtDPCM thờng đợc sử dụng trong quá trình này Các tín hiệu audio đầu tiên đợc phântích thành tập hợp các dải băng con bao gồm một số lợng các âm thanh rời rạc Sau
đó, DPCM đợc sử dụng nhằm dự báo trớc các tín hiệu lặp theo một đoạn chu kỳ Quátrình mã hoá này tạo ra sự thích ứng trở lại năng lợng tín hiệu đầu vào nhằm sửa kích
cỡ bớc lợng tử phù hợp Bớc này cũng đợc gọi là bộ thích ứng DPCM ( ADPCM)
- Các mã entropy tận dụng độ d thừa trong cách miêu tả của các hệ số băngcon đã lợng tử hoá nhằm cải thiện tính hiệu quả của quá trình mã hoá Các hệ số l-ợng tử này đợc gửi đi theo sự tăng dần của tần số, kết quả là chúng có giá trị lớn tạinhững tần số thấp và tại những tần số cao là một dãy dài các hệ số nhỏ hoặc bằng 0.Mã có độ dài thay đổi đợc sử dụng nh Haffman sẽ tạo ra bảng mã tối u thống kê cácgiá trị miền tần số thấp và cao
- Các thông số quá tải khối dữ liệu : Các giá trị nhị phân từ quá trình biến đổiADC, đợc nhóm thành các khối dữ liệu trong miền thời gian, bằng cách lấy các mẫu
kề nhau tại đầu ra ADC, lẫn trong miền tần số, bằng cách lấy các hệ số tần số tại
đầu ra FDCT Các giá trị nhị phân trong một khối dữ liệu sau đó tạo thang độ tiếp,sao cho giá trị vừa dới giá trị toàn bộ thang Hệ số thang độ này là chung cho tất cảcác giá trị trong khối Cho nên, mỗi giá trị có thể biểu diễn bằng một định trị và bằngmột số mũ(chỉ thị biên độ rieng của mẫu) Đó là một quá trình lợng tử hoá không đều
độ lớn bớc lợng tử hoá đợc xác định bằng số bit chiếm trong khối Vị trí bit đợc tính từmô hình HAS Giảm độ rộng dữ liệu đợc thực hiện bằng cách gửi các giá trị mũ lần 1/khối dữ liệu Mặc dù nhiễu phụ thuộc vào nội dung tín hiệu , nh ng mã hoá đợc thựchiện tốt Kỹ thuật che mặt nạ giúp giảm nhiễu audio
Trang 24Hình 4.8 : Hệ thống mã hoá điểm quá tải khối dữ liệu Audio.
b Nén tín hiệu có tổn hao.
Nén có tổn hao đợc đề cập đến bởi sự kết hợp của hai hay nhiều hơn các côngnghệ xử lý mà nó lợi dụng đặc tính của hệ thống HAS là không thể phân biệt đ ợc cácthành phần phổ có biên độ nhỏ giữa các thành phần phổ có biên độ nhỏ giữa cácthành phần phổ có biên độ lớn Các phơng pháp giảm số liệu xử lý cao có hệ số nén
từ 2:1 đến 20:1, nó phụ thuộc vào quá trình nén và giải nén, và vào yêu cầu chất l ợngcủa audio Các hệ thống nén số liệu có tổn hao sử dụng công nghệ mã hoá tri giác.Nguyên lý cơ bản của nó là loại bỏ những thành phần d thừa trong tín hiệu audio sốbằng cách bỏ đi những tín hiệu nằm dới đờng cong ngỡng âm , điều này giải thích tạisao ngời ta gọi các hệ thống nén số liệu có tổn hao là mất các thành phần âm
Nén làm mất các thành phần âm đợc kết hợp từ các kỹ thuật nh:
- Kỹ thuật masking- che đối với các thành phần tín hiệu trong miền thời gian“ psychoacoustic- che mặt nạ tâm sinh lý nghe” đ ” đ
và miền tần số Tỷ lệ signal- mask đợc sử dụng để xác định số bit cho quá trình lợng
tử hoá mỗi băng với mục đích giảm thiểu khả năng nghe thấy của âm thanh
- Chặn mức tạp âm lợng tử cho từng âm độ của tín hiệu âm thanh bằng cáchchỉ định số bit vừa đủ để chắc chắn rằng mức nhiễu lợng tử luôn luôn nằm dới mứcgiá trị cần chặn Tại những tần số gần với tần số tín hiệu âm thanh thì tỉ số tín hiệutrên tạp âm SNR có thể chấp nhận đợc là từ 20 đến 30 dB, tơng đơng với độ phântích từ 4 đến 5 bit
- Mã hoá nối: Công nghệ này khai thác sự d thừa trong hệ thống audio đakênh, ngời ta thấy rằng có rất nhiều phần số liệu ở trong các kênh là giống nhau, do
Mô hình HAS
3 bit số mũ
Dòng bit
đ m hoáã ã
Trang 25đó ngời ta có thể nén số liệu bằng cách mã hoá một phần số liệu chung đó trên mộtkênh và chỉ định cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại.
2.1.3 Nén audio theo tiêu chuẩn MPEG
Số liệu phụHình 4.9: Sơ đồ cấu trúc mã hoá (a) và giải mã (b) MPEG cho tín hiệu Audio
Tiêu chuẩn MPEG-1 đợc phát triển chủ yếu dùng cho mã hoá ảnh động và“ psychoacoustic- che mặt nạ tâm sinh lý nghe” đ
tín hiệu audio kèm theo cho lu trữ với tốc độ 1,5Mbit/s Chuẩn MPEG-1 dựa trên” đ
nguyên lý nén tín hiệu audio của tiêu chuẩn MPEG-1 Hình vẽ mô tả cấu trúc cơ sởcủa bộ mã hoá và giải mã MPEG tín hiệu audio
Chuẩn MPEG sử dụng tần số lấy mẫu của CD-DA(compact Dise DigitalAudio) và DAT (Digital Audio Tape) Bên cạnh các tần số lấy mẫu này MPEGcòn sửdụng các tần số: 44,1kHz,48kHz,32kHz để lấy mẫu và tất cả đều sử dụng 16bits Đốivới số liệu audio trên đĩa compact thì các kênh đều có tần số lấy mẫu là 44,1kHz với16bit/mẫu, khi đó tốc độ số liệu audio là 1,4Mbit/s Bởi vậy,chúng cũng cần phải đợcnén lại Thuật toán nén tín hiệu MPEG bao gồm 3 bớc:
- Đầu tiên tín hiệu audio đợc chuyển về miền tần số và toàn bộ dải phổ của
nó đợc chia thành 32 băng con thông qua bộ lọc băng con
+ Lọc băng con: Phổ của tín hiệu đợc chia thành các băng con có độ rộngdải thông bằng nhau Nó tơng tự nh quá trình phân tích tần số của HAS, chia phổ tínhiệu audio thành các băng tới hạn Độ rộng của các băng tới hạn có thể thay đổi D ới500Hz, độ rộng dải băng là 100 Hz và nó tăng tới vài KHz khi tần số trên 10 KHz D ới
500 Hz một băng con có tới vài băng tới hạn Các bộ băng lọc băng con có một phầnnhỏ gối lên nhau và thông thờng sử dụng cho các mẫu kề nhau trong miền thời gian
Ví dụ : trong mức II chuẩn MPEG, một khung audio có 1152 mẫu gốc đợc chia thành
32 băng con có độ rộng bằng nhau ( 750 Hz tần số lấy mẫu 48 KHz ) , mỗi băng con
có 36 mẫu.Mỗi tín hiệu băng con sau đó đợc lợng tử hoá đều với các bit chỉ định đặctrng nhằm bảo vệ dải băng con bằng tỷ số tích cực masking trên tạp âm (MNR) Tỷ
số này có tính tích cực khi đờng cong các mức chặn ở trên mức tạp âm
+ Băng chuyển đổi: Thuật toán sửa đổi DCT (MDCT) thờng đợc sử dụng
để biến đổi tín hiệu audio từ miền thời gian sang miền tần số thành một số l ợng lớn
Trang 26các băng con ( từ 256 đến 1024) Giống nh lọc băng con , trong băng chuyển đổi cácbăng con nằm kề nhau.
+ Lọc băng ghép: đây là sự kết hợp giữa các bộ lọc băng con và các bộlọc băng chuyển đổi Đầu tiên tín hiệu đợc chia thành 32 băng con bởi bộ lọc băng,sau đó thuật toán MDCT đợc áp dụng cho 18 mẫu trong từng băng con, tạo ra tổngcộng 576 băng hẹp Đạt đợc độ phân tích về thời gian là 3,8 ms
- Với mỗi băng con ngời ta xác định mức biên độ tín hiệu và mức nhiễu bằngmô hình tâm sinh lý nghe Đây là thành phần chính của bộ mã hoá MPEG Audio vàchức năng của nó là phân tích tín hiệu vào
- Cuối cùng mỗi băng con đó đợc lợng tử hóa qua lợng tử các thành phầnnghe thấy trong mỗi băng Nó đi kèm với mã Hufman để mã hóa các giá trị phổ tínhiệu và cho nén số liệu tốt hơn và định dạng số liệu
- Chuẩn MPEG áp dụng với audio đa ra ba mức nén : Mức I đại diện cho thuậttoán nén cơ bản với tốc độ bit lớn nhất 448Kbit/s ,mức II và III là những mức mở rộngcủa mức I và tốc độ bit của chúng đạt đợc 384Kbit/s và 320Kbit/s.Tuy nhiên ,nếuchúng ta đạt đợc tỉ lệ nén cao thì bù vào đó chi phí cũng tăng cho bộ giải mã và mãhóa
Ba mức riêng biệt trong tiêu chuẩn MPEG audio này phụ thuộc theo từng chế độvới các ứng dụng khác nhau:
- Mức I: dùng trong các thiết bị dân dụng
- Mức II: dùng trong các thiết bị chuyên dụng và Multimedia
- Mức III: dùng trong hệ thống mã hoá tiếng nói 64Kbit/s và thấp hơn ,dùng mãhoá chất lợng cao cho tín hiệu âm nhạc
Mức I đợc tạo từ thuật toán cơ bản , trong khi đó mức II và III là sự kết hợp giữacác mức I Tiêu chuẩn này đợc định nghĩa hai mô hình ứng dụng cho tất cả cáclớp của việc nén tín hiệu
2 Chuẩn nén MPEG-2.
Năm 1994 tiêu chuẩn thứ 2 thành lập , có tên gọi MPEG-2(ISO/IEC 13818), là
sự mở rộng của tiêu chuẩn MPEG-1 đã đợc định nghĩa nhằm đáp ứng các nhu cầucủa các ứng dụng mới nh:
- Tiêu chuẩn MPEG là đa năng , cho phép đạt chất lợng cao, tốc độ truyền sốliệu nhanh và thiết bị phức tạp Chất lợng audio có thể thay đổi trong mộtphạm vi rộng tuỳ thuộc vào tốc độ dòng bit từ thấp đến cao, tốc độ số liệu từ
32 đến 1066 Kbit/s.Phạm vi rộng này đợc thực hiện bởi việc chia khung số liệuaudio MPEG-2 thành hai phần , một phần là dònh bit gốc thích ứng MPEG-1,
và phần còn lại là dòng bit mở rộng Với mức III cho tốc độ dòng bit là 64 Kbit/
s trên một kênh , có thể nén tín hiệu có tốc độ là 320 Kbit/s tức là có thể mãhoá đợc một tín hiệu có độ rộng dải thông bằng năm kênh audio Điều này nói
Trang 27lên rằng có các thuật toán mã hoá mới đợc dùng ở phía máy phát hình màkhông cần phải thay đổi ở phía máy thu.
- Trong miền chuẩn MPEG-2 có thêm các tần số lấy mẫu mới(16; 22,05; 24KHZ) Nó cho phép truyền băng tần trong khoảng 7,5 đến 11KHz và cho chấtlợng cao khi tốc độ dòng số liệu < 64 Kbit/s cho một kênh
- Khả năng ứng dụng đa kênh ( Tốc độ bit trong đa kênh có thể mở rộng từ trên
1 Mbit/s đến tốc độ cho chất lợng cao) Những số liệu này đợc gửi trongkhoảng trống dành cho số liệu phụ của cấu trúc khung số liệu audio MPEG-1 Tiêu chuẩn audio MPEG-2 phát triển sau và tơng thích với tiêu chuẩn MPEG-1.Nhng bộ giải mã MPEG-1 chỉ có thể giải mã đợc kênh trái và phải của dòng số liệuaudio MPEG-2 Tất cả các lớp MPEG-1 và MPEG-2 đều giống nhau
Ưu điểm của hai tiêu chuẩn MPEG:
- Dòng bit MPEG-1 có thể mở rộng thành dòng MPEG-2 một cách dễ dàng
- Từ dòng bit MPEG, mỗi bộ giải mã MPEG-1 có thể tách các tín hiệu Monohoặc các tín hiệu Stereo và các tín hiệu MPEG-2 còn lại
- Trong hệ thống MPEG có thể đồng thời truyền nhiều thông tin phụ , ví dụthông tin về RDS (Radio Date System= Hệ thống lịch của đài), lời các bài hát ,thông tin về các loại chơng trình , thông tin fax hoặc modem Dòng số liệu phụ
có thể thay đổi trong quá trình phát sóng Nó có thể liên kết hai chiều giữaphía phát và thu Hệ thống tơng tác cho phép thu chơng trình riêng mà mìnhyêu cầu
- MPEG-1 đợc dùng rộng rãi với kỹ thuật chuyên dụng , ví dụ truyền và phânphối số, Audio, chuyển đổi-I, Multimedia, dựng kinh tế số
- Tiêu chuẩn MPEG đợc sử dụng rộng rãi trong những năm sắp tới, cho phép sửdụng phát thanh số trên mặt đất và qua vệ tinh DAB ( Digital AudioBroadcasting) và DBV cho truyền hình vệ tinh , truyền hình cáp và phất sóngtrên mặt đất kỹ thuật số
Header CRC Phaõn boỏ
MC bit phaõn boỏ
MC SCFSI
MC SCF
MC Dửù baựo
Maóu baờng taàn con MC
Giảng viờn: PHẠM THỊ ÁNH HỒNG Biờn soạn năm 201227
Dửừ lieọu phuù 1
Dửừ lieọu phuù 2
Thoõng tin dửừ lieọu nhieàu keõnh
L0/R0 stereo cụ sụỷ
Chuự thớch ủa aõm
SCFSI : Scale Factor Selection Information = thoõng tin choùn heọ soỏ tổ leọ
Trang 28 Dòng bit sơ cấp (dòng bit gốc), tương thích với MPEG – 1 (384 Kb/s choPlayer II),
Dòng bit mở rộng
Với layer III, tại 64 Kb/s trên một kênh, 5 kênh audio đầy đủ băng tần có thểđược mã hoá với tốc độ 320 Kb/s
- Mã hoá 6 kênh audio, bao gồm một kênh phụ nâng cao tần số thấp, để làmâm thanh tròn nhiều kênh
- Sự mở rộng trên có thể thực hiện được nhờ công thêm vào mỗi layer :
2
1 tần số lấy mẫu (16; 22.05; 24 KHz) cho phép truyền băng tần trongkhoảng 7.5 – 11 KHz và cho chất lượng cao khi tốc độ dòng số liệu < 64 Kb/s chomột kênh
Dung lượng đa kênh ( tốc độ bit đa kênh mở rộng đến 1 Mb/s, cho phép đạtchất lượng cao) Các dữ liệu này được cấy vào không gian dữ liệu phụ của cấu trúcMPEG-1 Audio frame
Tiêu chuẩn MPEG-2 audio tương thích xuống tiêu chuẩn MPEG-1 Tuynhiên bộ giải mã MPEG-1 chỉ có thể giải mã các kênh trái và phải của dòng dữliệu MPEG-2 audio Tại tần số lấy mẫu thấp, độ phân giải tần số khoảng 21 Hz vớitần số lấy mẫu 24 KHz Nó cho phép các băng tần có hệ số thang đo phù hợp tốthơn với độ rộng băng tần tới hạn và cho chất lượng audio tốt hơn tại các tốc độ bitthấp, mặc dù độ rộng băng tần tín hiệu audio được giảm tối đa là 12 KHz
MPEG-2 Tần số lấy mẫu thấp Đa kênh
Layer I Layer II Layer III
16; 22.05; 24 KHz
Layer I Layer II Layer III 32; 44.1; 48 KHz
5 Kênh Mono và stereo
Trang 29Hình 7.17: Các chuẩn nén tín hiệu Audio theo tiêu chuẩn MPEG
Các lớp MPEG-2 giống như ở MPEG-1 và có đặc điểm như sau:
a Đặc điểm layer I
Tốc độ dữ liệu : 32 448 Kbps (tổng cộng)
Tín hiệu vào chia thành các khung bao gồm 348 mẫu trên một kênh
Chu kỳ khung là 8 ms (12 32 20 83 s ) cho kênh 48 KHz
32 băng tần con (Sub – band) có kích thước bằng nhau, tạo ra từ các khối(block) gồm 12 mẫu (32 12 384 mẫu)
Hệ số tỉ lệ 6 bit trên một băng (dải động âm thanh là 120 dB), hệ số tỉ lệkhác nhau cho mỗi băng
Phân phối bit theo phương thức thích ứng trước
Mỗi mẫu băng tần con được lượng tử hóa một cách chính xác bằng cáchtính toán phâán bố các bit
Kênh đơn hoặc kép, stereo hoặc joint stereo (mã hóa kết hợp kênh trái vàkênh phải của tín hiệu stereo audio)
Hầu hết thích hợp cho các ứng dụng như ghi âm hoặc trong studio vì kíchthước khung (frame) chỉ là 8 ms
Header CRC allocationBit factorsScale Sample Ancillary data (32) (0,16) (128-256) (0-384) (384)
Header CRC allocation SCFSIBit factorsScale Sample Ancillary data (32) (0,16) (128-256) (0-60) (0-1080) (384)
Header CRC informationSide Bit reservoir Ancillary data (32) (0,16) (128-256) (384)
Layer I
Layer II
Layer III
SCFSI : Scale Factor Selection Information = thông tin chọn hệ số tỉ lệ
CRC : Bit kiểm tra độ dư thừa tuần hoàn ; Header = Tiêu đề khung ; Bit allocation = Bit chỉ định; Scale factor = Hệ số tỉ lệ ; Ancillary data = Số liệu phụ ; Bit Reservoir = Bit cung cấp (các số liệu chính từ một hoặc hai khung trước)
Hình 7.18: Định dạng dòng bit số liệu audio lớp I, II, III tiêu chuẩn
Trang 30Hình 2.2: Cấu trúc Frame của Player I
b Đặc điểm của layer II
Loại này là kết quả nâng cao phương thức hoạt động của player I, tỉ lệ néncao hơn Tốc độ bit xấp xỉ xung quanh 128 Kb/s
Tốc độ dữ liệu 32 – 384 Kb/s
Tín hiệu vào chia thành các khung, chứa 1152 mẫu /kênh
32 băng tần con có kích thước bằng nhau, tạo các khối 36 mẫu (32 36 =
1152 mẫu)
Chu kỳ khung là 24 ms cho kênh 48 KHz (384 3 20 83 24ms)
Hệ thống thang độ 6 bit/băng (dải động 120 dB), mỗi băng khác nhau, cácnhóm 12, 24, 36 mẫu (8, 16 hoặc 24 ms) để loại trừ méo âm thanh
Vị trí bit tiến thích nghi, khung 24 ms cố định và sử dụng lượng tử hoá bitchia nhỏ
Phân bố Hệ số
bit thang đo
CRC
Dữ liệu phụ
CRC = Cyclic Redundancy Check (Kiểm tra đô dư thừa có chu kỳ)
1 frame của audio
Từ đồng bộ
10(MPEG = 1)
Layer
Tách lỗi
Chỉ sô tốc độ bit
Tần số lấy mẫu
Trang 31 Kênh đơn hoặc kênh kép, stereo hoặc joint stereo.
Dùng rộng rải tiêu chuẩn MPEG trong CD– ROM, DVB, DAB, DBS,multimedia…
c Đặc điểm player III
Tốc độ dữ liệu 32 – 384 Kb/s
Tín hiệu vào chia thành các khung, chứa 1152 mẫu /kênh
Tạo khung 24 ms
32 băng tần con có kích thước bằng nhau, được chia tiếp thành 18 băng tầnMDCT (tổng cộng 576 kênh), có khả năng chuyển mạch khối tức thời thành 192băng
Các hệ số thang độ được dùng để cải thiện cấu trúc và mức nhiễu lượng tử
Vị trí bit tiên thích nghi
Mã hoá VLC (Huffman) các giá trị lượng tử
Kênh đơn và kép, stereo hoặc joint stereo
Dùng cho tốc độ bit thấp, ví dụ như ISDN, viễn thông, đường truyền vệ tinhvà âm thanh chất lượng cao qua internet
Bảng 2.1: Chi tiết vệ hệ thống audio chung.
Tốc độ lấy mẫu Tốc độ lấy mẫu một nữa Aâm thanh đa kênh
32 KHz
44.1 KHz
48 KHz
16 KHz22.05 KHz
24 KHz
Mono
2 kênh stereoJoint stereo
Đa kênh âm thanh vòng
5 Sơ Đồ khối cơ bản nén MPEG
Hình 2.3: Cấu trúc cơ sở của bộ mã hoá MPEG tín hiệu Audio
Filter Bank Chuyển đổi qua miền tần số
Phân tán bit nhiễu Định dạng dòng bit
Mô hình tâm lý nghe
Digital
Audio
Input
Dòng bit nén Audio
Điều khiển tỉ lệ S/N Audio nhỏ nhất có thể
chấp nhận được
Trang 32BIT STREAM UNPACKING
FREQUENCY SAMPLE RECONSTRUCTION
FREQUENCY – TO – TIME MAPPING
ENCODER
BIT STREAM
DECODER PCM AUDIO
ANCILLARY (IF ENCODER)
Doứng bit audio ủaàu vaứo ủaàu tieõn ủửụùc chuyeàn tớn hieọu từ mieàn thụứi gian sangmiền tần số Tớn hieọu ngoừ vaứo ủửụùc sửỷ lyự khi so saựnh bụỷi moõ hỡnh taõm lyự nghe(Psychoacoutic modeler) ủeồ ủieàu khiểõn phaõn taựn bit loói Maùch naứy lửụùng tửỷ hoaự dửừlieọu vụựi sửù kieàm cheỏ giửừ cho tổ leọ S/N audio treõn mửực nhoỷ nhaỏt coự theồ chaỏp nhaọnủửụùc Cuoỏi cuứng, dửừ lieọu ủửụùc maừ hoaự thaứnh doứng bit cuoỏi cuứng
2.1.5 Sụ ủoà khoỏi ủụn giaỷn giaỷi neựn MPEG
Hỡnh 2.4: Caỏu truực ủụn giaỷn cuỷa boọ giaỷi maừ ủụn giaỷn MPEG tớn hieọu Audio
ẹaàu tieõn doứng bit maừ hoaự ủửụùc ủũnh daùng laùi thaứnh doứng bit maừ hoaự ủụngiaỷn, sau ủoự xaõy dửùng laùi nhửừng giaự trũ baờng taàn con ủaừ ủửụùc lửụùng tửỷ hoaự Cuoỏicuứng chuyeồn ủoồi nhửừng giaự trũ cuỷa phaàn baờng taàn con ủaừ ủửụùc lửụùng tửỷ hoaự thaứnhdaùng tớn hieọu audio ụỷ mieàn thụứi gian
2.2 NẫN TÍN HIỆU VIDEO SỐ
2.2.1 mục đích nén.
Với kỹ thuật số hoá truyền hình, tốc độ truyền và do vậy dải thông truyền là quá lớn
Do vậy đòi hỏi độ rộng kênh truyền là rất lớn Ví dụ : tín hiệu video số thành phần ( số hoá8bit – 625 dòng ) có tốc độ bit bằng 216 Mbit/s Dải phổ cần thiết để truyền tín hiệu này có
ii thực chất của nén video
Bản chất của nén video là một quá trình trong đó lợng số liệu biểu diễn lợng thông tin củamột ảnh hoặc nhiều ảnh đợc giảm bớt bằng cách loại bỏ những số liệu d thừa trong tín hiệuvideo Các chuỗi ảnh truyền hình có nhiều phần tử giống nhau Vậy tín hiệu truyền hình cóchứa nhiều dữ liệu d thừa, ta có thể bỏ qua mà không làm mất thông tin hình ảnh Đó là quátrình xoá dòng xoá mành, vùng ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhauhoặc khác nhau rất ít Thờng thì chuyển động trong ảnh truyền hình có thể dự báo, do đó chỉcần truyền các thông tin biến đổi Các hệ thống nén sử dụng đặc tính này của tín hiệu video vàcác đặc trng của mắt ngời ( là kém nhậy với sai số trong hình ảnh có nhiều chi tiết và các phần
tử chuyển động) Quá trình sau nén là giãn ảnh để tạo lại ảnh gốc hoặc một xấp xỉ ảnh gốc
1 Mô hình nén ảnh
Tầng đầu tiên của bộ mã hoá video, tín hiệu video đợc trình bầy dới dạng hiệu quả để nénhiệu quả nhất Điểm cốt yếu là phải xác định cái gì đợc mã hoá Sự biểu diễn có thể chứa
Trang 33nhiều mẩu thông tin để mô tả tín hiệu hơn chính là bản thân tín hiệu, nhng hầu hết các thôngtin quan trọng chỉ tập trung trong một phần nhỏ của sự mô tả này Trong cách biểu diễn hiệuquả, chỉ có phần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video.
Hình 2- 1 : Mô hình hệ thống nén video
Hoạt động thứ hai của bộ mã hoá là lợng tử hoá giúp rời rạc hoá thông tin đợc biểu diễn
Để truyền tín hiệu video qua một kênh số, những thông tin biểu diễn đợc lợng tử hoá thànhmột số hữu hạn mức ở công đoạn này xẩy ra sai số, sai số này đợc gọi là sai số hệ thống
Hoạt động thứ 3 là gán các từ mã Các từ mã này là một chuỗi các bit dùng để biểudiễn các mức lợng tử hoá Các quá trình sẽ ngợc lại trong bộ giải mã video
Mỗi hoạt động cố giắng loại bỏ phần d thừa trong tín hiệu video và lợi dụng sự giớihạn của hệ thống nhìn của mắt ngời Nhờ bỏ đi phần d thừa, Các thông tin giống nhau hoặc cóliên quan đến nhau sẽ không đợc truyền đi Những thông tin bỏ đi mà không ảnh hởng đếnviệc nhìn cũng sẽ không đợc truyền đi
2.Độ d thừa dữ liệu
Nén số liệu là quá trình giảm lợng số liệu cần thiết để biểu diễn cùng một lợng thôngtin cho trớc Cần phải phân biệt giữa số liệu và thông tin Thực tế giữa số liệu và thông tinkhông đồng nhất với nhau Số liệu( và do đó là tín hiệu) chỉ là phơng tiện để truyền tải thôngtin Cùng một lợng thông tin cho trớc có thể biểu diễn bằng các lợng số liệu khác nhau, nó baogồm số liệu hoặc từ không cho thông tin thích hợp lẫn xác định đã biết
Độ d thừa số liệu là trung tâm trong nén ảnh số Độ d thừa dữ liệu không phải là mộtkhái niệm trìu tợng mà là một thực tế có thể định lợng đọc bằng toán học
Nếu r1 và r2 là lợng số liệu trong hai tập hợp số liệu cùng đợc dùng để biểu diễn một ợng thông tin cho trớc thì độ d thừa số liệu tơng đối của tập hợp số liệu thứ nhất so với tập hợp
l-số liệu thứ hai có thể đợc định nghiã nh sau :
RD = 1- 1/CN
Trong đó CN : thờng đợc gọi là tỷ số nén, CN = r1/r2
Trong trờng hợp r1 = r2 thì CN = 1 và RD = 0, có nghĩa là so với tập hợp số liệu thứ haithì tập hợp số liệu thứ nhất không d thừa Khi r2<< r1 thì CN tiến tới vô cùng và RD tiến tới 1, cónghĩa là độ d thừa số liệu tơng đối của tập hợp số liệu thứ nhất là khá lớn hay tập hợp số liệuthứ hai đã đợc nén quá nhỏ
ở đây có sự kết hợp giữa tỷ lệ nén và chất lợng hình ảnh Tỷ lệ nén càng cao sẽ làmgiảm chất lợng hình ảnh và ngợc lại Chất lợng và quá trình nén có thể thay đổi tuỳ theo đặc
điểm của hình ảnh nguồn và nội dung ảnh Đánh giá chất lợng ảnh, ngời ta tính số bit cho một
điểm trong ảnh nén ( Nb)) Nó đợc xác định là tổng số bit ở ảnh nén chia cho tổng số điểm :
Nb = số bit nén / số điểmTrong nén ảnh số có ba loại d thừa số liệu :
a D thừa mã ( Coding Redundency )
Nếu các mức của tín hiệu video đợc mã hoá bằng các symbol nhiều hơn cần thiết thìkết quả có độ d thừa mã Để giảm độ d thừa mã, trong nén ảnh thờng sử dụng các mã có độ dàithay đổi (VLC) nh mã Huffman, mã RLC lợng thông tin về hình ảnh có xác xuất cao sẽ đợcmã hoá bằng từ mã ít bit hơn so với lợng thông tin có xác xuất thấp hơn
b D thừa trong pixel (Interpixel Redundancy)
Giá trị của bất kỳ pixel nào đó cũng có thể đợc dự báo từ các pixel lân cận nó, nênthông tin từ các pixel riêng là tơng đối nhỏ Sự tham gia của một pixel riêng vào ảnh là d thừa
Nhiều tên (bao gồm : d thừa không gian, d thừa hình học, d thừa trong ảnh) đợc đạt ra
để phân biệt sự phụ thuộc này của pixel Ta dùng độ d thừa của pixel để chỉ tất cả các tên trên
Để giảm độ d thừa trong pixel của một ảnh, dãy pixel hai chiều dùng cho việc nhìn vànội suy phải đợc biến đổi thành một dạng có hiệu quả hơn Trong các phơng pháp nén ảnh ng-
ời ta thờng sử dụng phơng pháp biến đổi Cosin rời rạc(DCT) để biến đổi pixel từ miền khônggian sang miền tần số, bằng cách này sẽ giảm đợc độ d thừa dữ liệu trong pixel ở miền tần sốcao
Biểu diễn
thuận lợi
L ợng tử hoá
Gán từ
mó mã
Mã hoá video
xử lýkênh
Biểu diễn thuận lợi
Nguồn
Videokhôi phục
Giải mã video
Trang 34c D thừa tâm sinh lý
Bằng trực quan ta thấy, sự thu nhận cờng độ sáng của mắt ngời thay đổi chỉ giới hạntrong một phạm vi nhất định Hiện tợng này xuất phát từ sự thật là mắt ngời không đáp ứngvới cùng độ nhậy của các thông tin thì thấy thông tin đơn giản có tầm quan trọng ít hơn thôngtin khác trong vùng nhìn thấy Thông tin này đợc gọi là độ d thừa tâm sinh lý nhìn Nó có thể
đợc loại bỏ mà không ảnh hởng đáng kể đến chất lợng ảnh
Khác với độ d thừa mã và độ d thừa trong pixel, độ d thừa tâm sinh lý có liên quan đếnthông tin định lợng, nó quan trọng tới việc lợng tử hoá Điều đó có nghĩa là ánh xạ mộtkhoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đâù ra Đó là toán tử không đảongợc ( mất thông tin) cho kết quả nén số liệu có tổn hao
2.2.2 các phơng pháp nén
Các hệ thống nén là sự phối hợp của rất nhiều các kỹ thuật xử lý nhằm giảm tốc độ bitcủa tín hiêụ số mà vẫn đảm bảo chất lợng ảnh Có hai kỹ thuật nén là nén không tổn hao vànén có tổn hao
1.Nén không tổn hao.
Nén không tổn hao là quá trình nén không mất thông tin, cho phép phục hồi lại đúngtín hiệu ban đầu sau khi giải nén Đây là quá trình mã hoá có tính thuận nghịch Hệ số nén phụthuộc vào chi tiết ảnh đợc nén Hệ số nén của phơng pháp này luôn luôn nhỏ hơn 2 : 1
Các kỹ thuật nén không mất thông tin bao gồm :
1.1.mã hoá với độ dài từ mã thay đổi(VLC).
Phơng pháp này còn đợc gọi là mã hoá Huffman và mã hoá entropy, dựa trên tínhthống kê của tín hiệu, khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh
và thiết lập một từ mã ngắn cho các từ mã có tần suất xuất hiện cao nhất và từ mã dài cho cácgiá trị còn lại Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ đợc sử dụng để tạo lại giátrị tín hiệu ban đầu Mã hoá và giải mã Huffman có thể đợc thực hiện một cách dễ dàng bằngcách sử dụng các bảng tìm kiếm
1.2.Mã hoá với độ dài của từ mã động (RLC).
Phơng pháp này dựa trên sự lặp lại của cùng một giá trị mẫu để tạo ra các mã đặc biệtbiểu diễn sự bắt đầu và kết thúc của giá trị lặp lại Chỉ có các mẫu có giá trị khác 0 mới đợcmã hoá Số mẫu có giá trị bằng 0 sữ đợc truyền đi cùng dòng quét Cuối cùng các chuỗi 0 đợctạo ra bằng quá trình giải tơng quan nh phơng pháp DCT hay DPCM
1.3.Sử dụng khoảng xoá dòng và mành
Vùng thông tin xoá đợc loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông tin tích cựccủa ảnh Trong kết hợp hai phơng pháp nén không tổn hao với nén có tổn hao
2.Nén có tổn hao
Nén có tổn hao chấp nhận mất mát một ít thông tin để tăng hiệu quả nén, nó rất thíchhợp với nguồn thông tin là hình ảnh và âm thanh Nó cho tỷ lệ nén ảnh cao để có thể truyềndẫn, phát sóng Đồng thời cũng cho một tỷ lệ nén thích hợp cho xử lý và lu trữ ảnh trongstudio
Nén tổn hao thực hiện trong ba bớc :
- Bớc 1 : Biến đổi tín hiệu từ miền thời gian sang miền tần số bằng cách sử dụng cácthuật toán biến đổi cosin rời rạc DCT Bớc này thực hiện việc giảm độ d thừa của pixel trong
ảnh, tuy nhiên quá trình này không gây tổn hao tín hiệu
-Bớc 2 : Thực hiện lợng tử hoá các hệ số DCT, làm tròn các số liệu Việc mất mát sốliệu xẩy ra ở giai đoạn làm tròn này
-Bớc 3 : Nén số liệu đã biến đổi và làm tròn bằng cách mã hoá entropy, ở đây dùng cácmã không tổn hao nh mã Huffman, RLC
2.2.3 Các loại mã dùng trong nén
1.Mã RLC( Run-Length Coding)
RLC là loại mã xây dựng trên cơ sở sử dụng số lần lặp lại của các điểm ảnh RLC táchchuỗi giá trị giống nhau và biểu diễn nh là một tổng Khi dãn giá trị này tạo lại số lần biểudiễn tổng Kỹ thuật này chỉ có thể áp dụng cho các chuỗi symbol tuyến tính Do đó, khi ápdụng cho số liệu ảnh hai chiều, hình ảnh đợc tách thành một chuỗi các dòng quét
Trang 35Một loại cải biên của mã RLC là mã VLC ( mã có độ dài thay đổi đợc ) mã này dùng
để biểu diễn các giá trị symbol cũng nh độ dài chạy Cách thực hiện là tính phân phân bố xácsuất của các độ dài chạy và các giá trị symbol
RLC không thích hợp trực tiếp cho các ảnh tự nhiên có tông ảnh liên tục đợc mã hoábằng một quá trình số hoá tuyến tính, vì RLC phải nén tập số liệu có bớc chạy tơng đối lớngiống nhau, trong khi đó ảnh có tông liên tục có tần số không gian thấp, việc thay đổi cácvùng rộng đợc làm đầy bằng các giá trị pixel giống nhau là tơng đối nhỏ RLC tự nó sữ khôngcho các mức nén có ý nghiã
RLC đợc dùng kết hợp với các kỹ thuật khác nh các chuẩn nén JPEG, MPEG sữ chokết quả nén tốt RLC đợc dùng cho các hệ số lợng tử hoá tốt hơn là dùng trực tiếp cho số liệu
Mã Huffman thuộc loại mã entropy hoặc mã thống kê T tởng chính là dùng mã VLC,
sử dụng ít bit để mã hoá các giá trị hay xẩy ra, và nhiều bit để mã hoá các giá trị ít xẩy ra Từ
4.Mã dự đoán (DPCM).
Phơng pháp mã dự đoán hay còn gọi là điều xung mã vi sai (DCPM) Phơng pháp nàykhông mã hoá biên độ thông tin ở mỗi mẫu, mà chỉ mã hoá các thông tin có biên độ chênhlệch giữa mẫu đã cho và mẫu dự báo Do phân bố chênh lệch về biên độ điểm ảnh có đồ thịhình chuông xung quanh điểm 0 Nếu dựa trên các đặc trng thống kê ảnh, thì sự khác nhaunày là không lớn lắm, do vậy để mã hoá nó chỉ cần giảm một số ít bit là đủ
Phơng pháp mã hoá dự đoán còn sử dụng đặc điểm của mắt ngời và cho phép dùng đặctrng phi tuyến về lợng tử hoá
Sau đây là sơ đồ mã hoá và giải mã DCPM :
Trang 36- P
Hình 2-2 : Sơ đồ bộ giải mã và mã hoá
Nhằm tránh các lỗi có thể xuất hiện trong khi truyền, một mẫu đầy đủ đợc giử đi theo chu
kỳ nhất định, cho phép cập nhật các giá trị chính xác Mã hoá DCPM cũng sử dụng thêm các
kỹ thuật dự đoán va lợng tử hoá thích nghi để hoàn thiện thêm kỹ thuật nén này
a.DCPM trong mành ( intraframe DCPM ).
Tín hiệu dự báo đợc tạo từ các mẫu nằm trong cùng một mành, các mẫu đợc biến đổinằm trên cùng một dòng quét (mã giữa các pixel) và cùng với các dòng quột lân cận ( mã giữacác dòng )
Việc tạo tín hiệu dự báo của DPCM trong mành dựa trên mối liên kết giữa các điểm
ảnh Các công trình nghiên cứu cho thấy hệ số liên kết giảm nhanh khi đi xa điểm ảnh quansát theo chiều ngang (các pixel trên cùng một dòng) và theo chiều đứng (các pixel của dòng kềnhau) do đó khi tạo tín hiệu dự báo cần chú ý đến các mẫu tín hiệu nằm kề nhau
Tín hiệu dự báo có thể là hàm tuyến tính hoặc có thể là hàm phi tuyến của các mẫu lâncận Việc tạo tín hiệu dự báo phi tuyến đòi hỏi thiết kế mạch phức tạp hơn, do đó trong thực tếkhông dùng cho tín hiệu video
b.DCPM giữa các mành.
Tín hiệu dự báo đợc tạo trên cơ sở các mẫu nằm ở các mành kề nhau trớc đó Phơngpháp DPCM giữa các mành tận dụng quan hệ chặt chẽ giữa mành của các ảnh tĩnh và mành tr-
ớc đó của các ảnh động
Nghiên cứu thống kê và cấu túc ảnh cho thấy rằng sự khác nhau giữa các ảnh kề nhau
là không lớn lắm Để tạo lại một ảnh trung thực chỉ cần truyền các điểm ảnh làm biến đổi vàkhôi phục lại (tại phía thu) tất cả các điểm ảnh còn lại từ mành trớc hoặc ảnh trớc trong bộnhớ
Phơng pháp DPCM giữa các mành thuận lợi cho truyền hình thoại Vì tín hiệu truyềnhình thoại có đặc điểm là ảnh chuyển động ít, tốc độ chuyển động chậm, do đó vùng ảnh rộng,
ít thay đổi giữa các mành kề nhau
Phơng pháp cơ bản của DPCM giữa các mành là mã hoá trực tiếp vi sai giữa các mành
kề nhau
Đặc trng lợng tử là phi tuyến nên sự chênh lệch nhỏ giữa các mức sẽ đợc khôi phục với
độ chính xác cao hơn so độ chênh lệch lớn Điều đó khẳng định việc khôi phục một cáchchính xác các vùng ảnh rộng, chuyển động chậm (mà trên đó tất cả các méo rất dễ nhận biết).Ngợc lại, tại vùng ảnh có nhiều chuyển động, khi khôi phục lại sẽ kém chính xác hơn vì do
đặc điểm của mắt ngời, độ phân giải của ảnh có thể thấp hơn.Các loại DPCM thờng dùngnhất :
@ Intraframe DVCPM
Đây là phơng pháp lấy mẫu từ phần ảnh chuyển động, chỉ truyền các phần ảnh chuyển
động và khôi phục các điểm ảnh còn lại bằng trị trung bình các anhr đợc truyền
@ Phơng pháp làm đầy có chọn lọc ( Selective replenishment )
Phơng pháp đan chéo các mành còn gọi là phơng pháp làm đầy có chọn khi ảnh truyền
ít chuyển động và tốc độ thấp Phơng pháp này dựa trên nguyên tắc chỉ truyền phần điểm ảnh
đợc chọn ở mỗi mành và nhận ảnh có độ chiếu sáng lâu
@ Phơng pháp chia thành những phần ảnh chuyển động và tĩnh.
Phơng pháp này là sự kết hợp của phơng pháp làm đầy có chọn lọc và phơng pháp lấymẫu từng phần trong ảnh chuyển động cùng với DPCM giữa mành với dự báo một phần tử.Mỗi ảnh đợc chia thành phần tử chuyển động và phần tử tĩnh, đối với phần ảnh tĩnh dùng ph-
ơng pháp làm đầy có chọn lọc, đối với các phần tử ảnh động thì sử dụng phơng pháp lấy mẫutừng phần
5.Mã chuyển vị ( Transform Coding )
Đối với việc mã hoá riêng rẽ từng điểm một sẽ không đạt đợc hiệu quả bởi vì khôngtận dụng hết đợc mối quan hệ giữa các khối điểm trong ảnh số Phơng pháp mã chuyển vị làmột cách có hiệu quả trong việc mã hoá khối điểm thông qua biến đổi tuyến tính các điểm nàythành các hệ số chuyển vị và mã hoá các hệ số chuyển vị đó
Trang 37Trong hệ thông PCM tuyến tính và DPCM ngời ta căn cứ vào biên độ tín hiệu để thựchiện, còn trong mã chuyển vị thì dựa vào việc chuyển đổi tín hiệu từ miền thời gian sang miềntần số ở đây không dùng phép biến đổi Fourier vì nó không phù hợp, mà ngời ta dùng phépbiến đổi tuyến tính
Phơng pháp gồm các bớc nh sau :
Chia ảnh thành các khối tiểu ảnh với kích thớc n n
Biến đổi tuyến tính các phần tử (mẫu) của tín hiệu mỗi tiểu ảnh
Mã hoá các phần tử của tín hiệu
Hệ thống mã hoá và giải mã mã chuyển vị :
a) Mã hoá
b) Giải mã
Hình 2-3 : Hệ thống giải mã và mã hoá mã chuyển vị
Trong mã chuyển vị, bớc đầu tiên là phải chọn một chuy nển đổi thích hợp để giảm sự đốilập giữa các điểm trong khối một cách hiệu quả Mặc dù bản thân quá trình chuyển đổi nàykhông làm giảm tốc độ bit đi chút nào nhng nó có hiệu quả trong việc giảm dữ liệu trong quátrình lợng tử hoá Hay nói cách khác, quá trình chuyển đổi thành mã chuyển vị không hề xẩy
ra nén dữ liệu mà chỉ là bớc chuẩn bị cho việc giảm dữ liệu trong quá trình lợng tử hoá Saukhi chọn đợc biến đổi trực giao thì bớc quan trọng nhất là xác định bit chỉ định và thiết kế hệthống lợng tử hoá cho các hệ số này để toàn bộ quá trình nén dữ liệu đợc thực hiện tại đây B-
ớc cuối cùng là sử dụng mã entropy để giảm tốc độ dữ liệu
Mục đích của việc chia ảnh thành các ảnh con n n là để tách liên kết các pixel củatừng ảnh con hoặc gói càng nhiều thông tin và một số ít các hệ số biến đổi
Sau đó trạng thái lợng tử hoá tách có chọn lọc hoặc lợng tử hoá thô hơn các hệ sốmang tin ít nhất Các hệ số này ít ảnh hởng tới chất lợng ảnh con đợc khôi phục Quá trình mãhoá xác định các hệ số lợng tử hoá đợc thực hiện bằng mã VLC
Chọn chuyển vị (biến đổi) : các hệ thống mã chuyển vị (biến đổi) trên cơ sở biến đổiKarhuman loeve (KLT), DFT, DCT, Walsh-Hadamard (WHT) Việc chọn một chuyển vị cụthể cho 1 ứng dụng nhất định phụ thuộc vào mức sai số khôi phục của nó và có thể tính bằngmáy tính Có thể nén trong khi lợng tử hoá các hệ số biến đổi (nhng ngoài thời gian chuyểnvị)
Hầu hết các hệ thống mã chuyển vị trên thực tế đều dựa trên cơ sở DCT, nó cho phépphối hợp tốt giữa khả năng gói thông tin và độ phức tạp tính toán
Một đặc tính quan trọng của DCT so với các biến đổi cosin khác là : nếu nh biến đổiDFT sẽ dẫn đến liên kết không liên tục trong nội dung cần chuyển vị các thành phần tần sốcao và nếu các hệ số này đợc trung chuyển, lợng tử hoá sẽ gây ra hiện tợng Gibbs và gây ra sai
số Còn DCT không tạo ra sự rời rạc trong liên kết, do đó nó hạn chế đợc sai số do Gibbs gâyra
Phơng pháp này tập trung vào một số các hệ số chuyển vị mà không phải là các điểm
ảnh của ảnh gốc và lợng thông tin chỉ trong một số ít các hệ số chuyển vị Nh vậy số bit dùngcho quá trình chuyển vị sẽ ít đi
Một lý do nữa là do hệ thống thị giác của con ngời không nhận biết đợc hoàn toàn cácchi tiết của ảnh khi các chi tiết đó biến đổi nhanh so với các chi tiết biến đổi chậm, do vậy đểmã hoá các hệ số chuyển vị ở tần số cao ta chỉ cần một số ít bit mà chất lợng hình ảnh vẫn cao
Trong hệ chuyển vị hai chiều cho các ảnh số, dựa tên cơ sở tơng quan giữa các mẫutrên dòng hình Trớc tiên một khối đợc chia thành nhiều khối hình chữ nhật với kích thớc p
q Sau đó các khối này đợc chuyển vị và các hệ số thu đợc sau quá trình chuyển vị đợc lợng
ng ợc
Tạo hợpnn ảnh con
ảnh đã
giải nén
ảnh đã
nén
Trang 38Phơng pháp chuyển vị xuất hiện méo do việc chia ảnh thành các khối ảnh con, kết quảgây nhoè và phản xạ ở các khối ảnh con.
2.2.4 Nén trong ảnh
1.Nguyên lý nén trong ảnh.
Sơ đồ nguyên lý quá trình nén trong ảnh
Điều khiển tốc độBảng lợng tử
Hình 2- 4 : Sơ đồ nguyên lý nén trong ảnh
Nén trong ảnh là loại nén nhằm làm giảm bớt thông tin d thừa trong miền không gian.Nén trong ảnh sử dụng cả hai quá trình nén có tổn hao và nén không tổn hao để giảm bớt dữliệu trong một ảnh Quá trình này không sử dụng các ảnh trớc và sau ảnh đang xét
Thuật ngữ ảnh ở đây cần đợc hiểu một cách chính xác, bởi vì trong kỹ thuật nén ảnhcho phép sử dụng hoặc mành (field) hoặc ảnh (frame) nh một ảnh gốc Nếu kỹ thuật nén dùngmành thì nén trong ảnh sẽ tạo ra hai ảnh trong mỗi ảnh
Tất cả các block có cùng kích thớc và mỗi block là một ma trận điểm ảnh kích thớc 88
đợc lấy từ một ảnh màn hình theo chiều từ trái sang phải từ trên xuống dới
Cấu trúc của MB cũng phụ thuộc vào loại quét ảnh Nếu quét liên tục thì các block baogồm các mẫu từ các dòng liên tục (quét theo ảnh frame) Ngợc lại trong trờng hợp quét xen kẽ,trong một block chỉ gồm các mẫu của một nửa ảnh (nén theo mành-field) Việc chia thành ảnhcon chỉ thực sự có ý nghĩa cho bớc chuyển vị tiếp theo
3.Biến đổi cosin rời rạc (DCT)
Công đoạn đầu tiên của hầu hết các quá trình nén là xác định các thông tin d thừatrong miền không gian của một mành hoặc một ảnh của tín hiệu video Nén không gian đợcthực hiện bởi phép biến đổi DCT (Discrete cosine trasform) DCT biến đổi dữ liệu dới dạngbiên độ thành dữ liệu dới dạng tần số Mục đích của quá trình biến đổi là
hoặc gói càng nhiều năng lợng của ảnh con vào một phần nhỏ các hệ số hàm truyền Việcmã hoá và truyền chỉ thực hiện đối với các hệ số năng lợng này, và có thể cho kết quả tốt khitạo lại tín hiệu video có chất lợng cao
DCT đã trở thành tiêu chuẩn quốc tế cho các hệ thống mã chuyển vị bởi nó có đặc tínhgói năng lợng tốt, cho kết quả là số thực và có thuật toán nhanh để thực hiện chúng
Tiền
xử lý
DCT thuận L ợngtử hoá Mã hoá
entropy
Mạch trộn
Khuếch
đại đệm Tín hiệu
ảnh nén
Nguồn
ảnh
Trang 39Các phép tính DCT đợc thực hiện trong phạm vi các khối 88 mẫu tín hiệu chói Y vàcác khối tơng ứng của tín hiệu mầu Việc chia hình ảnh thành các block đã đợc thực hiện ởkhối tiền xử lý.
Hiệu quả của việc chia này rất rễ thấy và đó là một trong các hớng quan trọng của mãhoá có chất lợng cao Nếu tính toán DCT trên toàn bộ frame thì ta xem toàn bộ frame có độ dthừa là nh nhau Nhờ đặc tính thay đổi của các ảnh khác nhau và các phần khác nhau của cùngmột ảnh, ta có thể cải thiện một cách đáng kể việc mã hoá nếu biết tận dụng Vì vậy, để sửdụng các đặc tính thay đổi của các phần tử d thừa trên cơ sở mở rộng không gian cuỉa ảnh,DCT đợc tính trên các MB và mỗi MB đợc xử lý riêng biệt
Để hiểu hết ứng dụng của DCT trong nén ảnh, ta tìm hiểu thuật toán biến đổi cosin rờirạc DCT là toán tử dùng để tính các thành phần tần số của một tín hiệu đợc lấy mẫu tại mộttốc độ lấy mẫu DCT của một tín hiệu hai chiều có thể tính đợc bằng cách dùng các DCT mộtchiều riêng biệt
a.DCT một chiều
DCT một chiều biến đổi một bảng số biểu diễn các biên độ tín hiệu của các điểm khácnhau theo thơì gian hoặc không gian thành một bảng khác của các số, mỗi số biểu diễn biên
độ của một thành phần tần số nhất định từ tín hiệu gốc Bảng kết quả các số chứa đựng cùng
số giá trị nh bảng gốc : phần tử thứ nhất là trung bình của tất cả các mẫu trong bảng đầu vào
và đợc coi nh hệ số điều chế-hệ số DC; còn các phần tử còn lại, mỗi phần tử biểu diễn biên độcủa một thành phần tần số đặc trng của bảng đầu vào và đợc gọi là hệ số AC
Tần số đợc biểu diễn bằng mỗi phần tử trong bảng kết quả là một hàm chỉ số bảng chophần tử đó Nội dung tần số của tập mẫu tại mỗi tần số đợc tính bằng trung bình có trọng sốcủa tập toàn thể Trọng số xấp xỉ cho mỗi đầu vào đợc xác định bằng cách : nhân chỉ số hiệntại của bảng kết quả với số thứ tự và chỉ số của mẫu đầu vào Điều này có tác dụng tạo ra mộtchuỗi các hệ số có trọng số là xấp xỉ của một sóng cosin, có tần số tỷ lệ với chỉ số của bảngkết quả Hàm tính các hệ số có trọng số của mẫu đợc tính theo công thức sau :
N - độ lớn của bảng của bảng của mẫu (block có N = 8 )
Hàm trung bình có trọng số đợc cho sau đây (DCT một chiều)
Với X(k) là bảng kết quả
x(m) là bảng mẫu
Hàm biến đổi ngợc ( DCT một chiều ngợc )
Mã hóa DCT thực hiện chia dải phổ thành 8 dải băng nhỏ hơn, tơng ứng với mỗi dải băngtần có một hệ số đặc trng cho năng của tín hiệu trong dải băng tần đó
b.DCT hai chiều
Để đạt đợc mức dải tơng quan cao hơn nội dung của một ảnh có thể sử dụng phép biến
đổi DCT hai chiều cho khối 88 giá trị các điểm chói Việc biến đổi DCT hai chiều dựa trêncơ sở sắp xếp các mẫu f(i,j) với i = 0, 1 7;
Phơng trình trên là một liên kết của hai phơng trình DCT một chiều một cho tần số
ngang và một cho tần số đứng Đặc điểm của hệ số DCT hai chiều là hệ số nằm ở góc trái trêncùng là hệ số (0,0) là hệ số điều chế của tín hiệu video trong ma trận 88
k m m
x k C N k
2 )
k m k
C k X k C N m
)12(cos),()()()
()(
u i v
u F v C u C v
C u C N
v
u
Trang 40Còn các hệ số khác, dới giá trị thành phần một chiều biểu thị các tần số cao hơn theochiều dọc các hệ số về phía phải của các thành phần một chiều biểu thị các tần số cao hơntheo chiều ngang Hệ số trên cùng ở cận phải (0,7) sẽ đặc trng cho tín hiệu có tần số cao nhấttheo phơng nằm ngang của ma trận 88 và hệ số hàng cuối cùng bên trái (7,0) sẽ đặc trng chotín hiệu có tần số cao nhất theo phơng thẳng đứng Còn các hệ số khác ứng với những phối hợpkhác nhau của các tần số theo chiều dọc và ngang.
Phép biến đổi DCT hai chiều là hoàn toàn đảo ngợc và luôn có thể tạo lại các giá trịmẫu f(i,j) trên cơ sở các hệ số F(u,v) thoả mãn công thức sau (với điều kiện độ chính xác vềtính toán đủ lớn) :
Nh vậy, biến đổi DCT giống nh biến đổi Fourier và các hệ số F(u,v) cũng giống nhau về ýnghĩa Bản thân phép biến đổi DCT không nén đợc số liệu, từ 64 mẫu ta nhận đợc 64 hệ số.Sau đó thay đổi phân bố giá trị các hệ số đối với phân bố các giá trị mẫu
4.Lợng tử hoá
Bớc tiếp theo của quá trình nén là lợng tử hoá các hệ số F(u,v) sao cho giảm đợc số ợng bit cần thiết Vì các hệ số có các giá trị khác nhau, cho nên các hệ số riêng có thể tínhbằng các phơng pháp khác nhau
Bất kỳ một sai sót nào trong quá trình lợng tử hoá, hệ số một chiều đều có khả năngnhận biết rễ dàng, vì nó làm thay đổi độ chói trung bình của khối Ngợc lại, với các hệ số tơngứng với tần số cao và có giá trị nhỏ thì biểu diễn bằng tập các giá trị nhỏ hơn hẳn các giá trịcho phép Quá trình này có thể thực hiện bằng cách cho những khoảng cách giữa các bớc lợng
tử hoá thay đoỏi theo hệ số
Lợng tử hoá đợc thực hiện bằng việc chia các hệ số F(u,v) cho các hệ số ở vị trí t ơngứng trong bảng lợng tử Q(u,v) để biểu diễn số lần nhỏ hơn các giá trị cho phép của hệ số DCT.Các hệ số có tần số thấp đợc chia cho các giá trị nhỏ, các hệ số ứng với tần số cao đợc chiacho các giá trị lớn hơn sau đó các hệ số đợc làm tròn (bỏ đi các phần thập phân)
Các giá trị F(u,v) sẽ đợc mã hoá trong các công đoạn tiếp theo
Cần phải xác định là trong quá trình lợng tử hoá có trọng số, có xẩy ra mất thông tin,
gây tổn hao Đây là bớc gây tổn hao duy nhất trong kỹ thuật nén Mức độ tổn hao phụ thuộcvào giá trị các hệ số trên bảng lợng tử Nhiễu lợng tử đối với tín hiệu mầu khó nhìn thấy hơn
đối với tín hiệu chói, cho nên có thể thực hiện lợng tử hoá thô tín hiệu mầu
Nh vậy, khối DCT đóng vai trò quang trong trong quá trình lợng tử hoá khi thiết kế hệthống nén video vì nó ảnh hởng trực tiếp đến việc khôi phục chất lợng hình ảnh tốt hay xấu.Việc dùng các mã biến đổi sao cho thu đợc kết quả tốt tuỳ thuộc vào thành phần tần số biến
đổi chi tiết ánh sáng tùng vùng trong miền không gian ảnh Các ảnh càng chi tiết thì hệ sốthành phần tần số cao càng lớn, Nếu hệ sopó trong các bảng lợng tử tơng ứng quá thấp có thểdẫn đến tràn bộ đệm Một thông tin hồi tiếp về bộ đệm cho phép điều khiển một hệ số cânbằng, qua đó điều khiển tối u trạng thái của bộ đệm Hệ số cân bằng này chỉ đa vào các thành
Bảng l ợng tử88
)12(cos),()()()
()(
2)
u i v
u F v C u C v
C u C N j
, (
) , ( )
,
(
v u Q v
u Q
v u F
v
u
Fq Gía trị nguyê n gần nhất F(u,v) Q(u,v)/2