Tín hiệu video số sau khi nén MPEG-2 có dạng một dòng dữ liệu cơ sở videoElementary Stream - ES với chiều dài gần như vô tận và chỉ chứa những thông tintối cần thiết để có thể khôi phục
Trang 1MỤC LỤC
MỤC LỤC -1
CHƯƠNG I -3
MÃ HÓA -3
I MÃ HÓA VIDEO - 3
1 Mã hóa MPEG–2 : - 3
1.1 Khái quát chung - 3
1.2 Cơ chế nén MPEG-2 - 5
II MÃ HÓA AUDIO - 10
1 Tín hiệu Audio số - 10
2 Nguyên tắc chuyển đổi A/D -10
2.1 Lấy mẫu - 10
2.2 Lượng tử hóa - 13
2.3 Mã hóa - 13
CHƯƠNG II -16
ĐÓNG GÓI -16
I Dòng cơ sở (elementary stream) -16
II Dòng cơ sở đóng gói (packetized elementary stream) -18
1 Giới thiệu chung về dòng cơ sở đóng gói -18
2 Cú pháp dòng cơ sở đóng gói -21
CHƯƠNG III -27
GHÉP KÊNH -27
Trang 21 Giới thiệu chung về dòng truyền tải: -29
2 Cấu trúc gói truyền tải - 31
3 Giải mã dòng truyền tải - 38
4 Thông tin đặc tả chương trình (PSI) -39
5 Hệ thống ghép các dòng truyền tải -41
6 Ưu điểm của dòng truyền tải MPEG-2 -42
Trang 3Chương I
MÃ HÓA
I MÃ HÓA VIDEO
1 Mã hóa MPEG -2 :
MPEG-2 là một tiêu chuẩn mã hóa nén (thường được gọi tắt là chuẩn nén)trong bộ tiêu chuẩn MPEG dùng để mã hóa luồng dữ liệu hình có kết hợp với cácthông tin về âm thanh Đây là một phương thức mã hóa dữ liệu có tổn hao cho phéplưu trữ và truyền phim ảnh trên nền hệ thống và băng thông hiện thời MPEG-2được mở rộng dựa trên chuẩn MPEG để hỗ trợ việc nén dữ liệu để truyền Video sốchất lượng cao Để hiểu được tại sao nén Video là rất quan trọng, ta cần tìm hiểubăng thông (Bandwidth) cần thiết để truyền các khung hình Video số không nén
Tín hiệu video số sau khi nén MPEG-2 có dạng một dòng dữ liệu cơ sở video(Elementary Stream - ES) với chiều dài gần như vô tận và chỉ chứa những thông tintối cần thiết để có thể khôi phục lại hình ảnh ban đầu
PAL (Phase Alternate Line) là chuẩn để truyền tín hiệu TV tuần tự (Analog)được sử dụng ở khá nhiều nước trên thế giới Khung hình TV dùng PAL không nénđòi hỏi băng thông rất lớn tới 216 Mbps, lớn hơn rất nhiều khả năng của truyềnsóng radio Một số nước dùng hệ thống Analog TV là NTSC Hệ thống này cungcấp các thông tin về màu sắc kém trung thực hơn với tỉ lệ truyền các khung khácnhau Tín hiệu NTSC không nén đòi hỏi dung lượng đường truyền thấp hơn khôngđáng kể ở mức 168 Mbps TV độ phân giải cao HDTV (High Definition TV) yêucầu băng thông tối thiểu là 1 Gbps
Do chuẩn MPEG-2 cung cấp khả năng nén rất cao bằng cách dùng các thuậttoán tiêu chuẩn, nó trở thành chuẩn cho TV số với các đặc tính:
Trang 4+Chế độ Full-screen kết hợp với cải tiến chất lượng Video (cho TV và mànhình PC).
+Cải tiến mã hoá Audio (chất lượng cao, mono, stereo )
+Truyền phối hợp nhiều thành phần
+Các dịch vụ khác
Các hệ thống sử dụng MPEG-2 đang rất phát triển như: TV số, VoD, DigitalVersatile Disc (DVD) Thuật toán nén Video MPEG-2 đạt được khả năng nén caonhờ lợi dụng sự dư thừa in thông tin Video MPEG-2 loại bỏ cả dư thừa về khônggian và dư thừa về thời gian trong các cảnh Video
Dư thừa thời gian xuất hiện khi các khung Video liên tiếp hiển thị hình ảnhcủa những hình ảnh giống nhau Nó chứa các hình ảnh gần như không đổi hoặc thayđối rất nhỏ giữa các khung hình liên tiếp Dư thừa không gian xảy ra khi một phầncủa ảnh được tái tạo lại (với thay đổi không đáng kể) trong một khung Video
Dữ liệu từ các Macroblock cần được mã hoá sẽ được đưa đến cả bộ trừ(Subtractor) và bộ đoán chuyển động (Motion Estimator) Bộ đoán chuyển động sẽ
so sánh các Macroblock mới được đưa vào này với các Macroblock đã được đưavào trước đó và được lưu lại dùng để tham khảo Kết quả là bộ đoán chuyển động sẽtìm ra các Macroblock trong khung hình tham khảo gần giống nhất với Macroblockmới này Bộ đoán chuyển động sau đó sẽ tính toán Vector chuyển động (MotionVector), Vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc và ngangcủa Macroblcok mới cần mã hoá so với khung hình tham khảo Lưu ý rằng Vectorchuyển động có độ phân giải bằng một nửa do thực hiện quét xen kẽ
Trang 5Bộ đoán chuyển động cũng đồng thời gửi các Macroblock tham khảo đượcgọi là các Macroblock tiên đoán (Predicted Macroblock) tới bộ trừ để trừ vớiMacroblock mới cần mã hoá Từ đó ta sẽ được các sai số tiên đoán (ErrorPrediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác giữa Macroblockcần tiên đoán và Macroblock thực tế cần mã hoá.
Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhậnđược sau biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cầntruyền Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưngcho các hệ số tiếp tục được làm giảm đi một cách đáng kể Dữ liệu từ đầu ra của mãhoá Huffman sẽ được kết hợp với Vector chuyển động và các thông tin khác (thôngtin về I, P, B-picture) để gửi tới bộ giải mã
Đối với trường hợp P-picture, các hệ số DCT cũng được đưa đến bộ giải mãnội bộ (nằm ngay trong bộ mã hoá) Tín hiệu dư hay sai số tiên đoán được biến đổingược lại dùng phép biến đổi IDCT và được cộng thêm vào khung hình đứng trước
để tạo nên khung hình tham khảo (tiên đoán) Vì dữ liệu khung hình trong bộ mãhoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay chính bên trong bộ mã hoá,
do đó có thể thực hiện thay đổi thứ tự các khung hình và dùng các phương pháp tiênđoán ở trên
Trang 6Hình 2: Mô hình sơ đồ khối bộ mã hóa MPEG-2
Các khung mã hóa Intra (các khung I) được phân chia thành các khối 8x8pixels Các khối này tiếp theo được nén sử dụng DCT, lượng tử hóa (Q), quétzigzag, mã hóa Entropy (sử dụng kỹ thuật mã hóa có độ dài từ mã thay đổi VLC).Các khung mã hóa Inter (các khung B và P) là kết quả của bù chuyển động bằngcách trừ đi một dự đoán đã được bù chuyển động Các khung dư (khung sai số) sau
đó được chia thành các khối 8x8 pixel và được nén theo cách giống như với cáckhối của khung I
- Biến đổi cosine rời rạc (DCT)
Biến đổi cosine rời rạc là một công cụ toán học xử lý các tín hiệu như ảnhhay video Nó sẽ chuyển đổi các tín hiệu từ miền không gian sang miền tần số vàbiến đổi ngược lại từ miền tần số quay trở lại miền không gian mà không gây tổnhao đến chất lượng Lý do chọn biến đổi cosine cho xử lý ảnh số là: đầu tiên, nó cóthể loại bỏ sự tương quan giữa các pixel ảnh trong miền không gian Thứ hai là biếnđổi cosine rời rạc yêu cầu ít sự phức tạp tính toán và tài nguyên hơn
- Lượng tử hóa các hệ số DCT
Sau khi biến đổi cosine rời rạc, sự tương quan giữa các pixel của một ảnh
Trang 7trong miền không gian đã được giải tương quan thành các tần số rời rạc khác nhautrong miền tần số Do sự cảm nhận thị giác của con người là rất nhạy với hệ số DC
và các tần số thấp, một phương pháp lượng tử hóa vô hướng được thiết kế cẩn thận
có thể giảm sự dư thừa dữ liệu mà vẫn dữ được tính trung thực của ảnh
- Quét zigzag các hệ số DCT.
Sau khi biến đổi DCT ta thu được các khối 8x8 biểu diễn cho các hệ số tần
số Trong khối này thì các hệ số tần số thấp sẽ tụm lại ở góc cao phía trái của matrận DCT Quét zigzag sẽ sắp xếp lại thứ tự của ma trận để các hệ số được sắp xếptheo tần số theo thứ tự tăng dần
- Mã hóa Entropy
Sau DCT và lượng tử hóa là các thuật toán miền mã Các thuật toán nàythường được gọi là mã hóa Entropy, bao gồm mã hóa Huffman, mã hóa số học…,đây là phương pháp mã hóa không tổn hao Ý tưởng cơ bản của mã hóa Entropy làcác biểu tượng thường xuyên xuất hiện sẽ được mã hóa bằng các bít ngắn, trong khi
đó các biểu tượng ít xuất hiện hơn sẽ được mã hóa bằng các bít dài hơn Phươngpháp này còn gọi là mã hóa có độ dài từ mã thay đổi (VLC), và một phương phápcho hiệu quả cao là mã hóa Huffman Điều này sẽ làm cho tốc độ bit của luồnggiảm đáng kể
- Ước lượng và bù chuyển động
Nén video có thể đạt được với việc lấy mẫu không gian màu, loại bỏ các hệ
số DCT tần số cao, lượng tử hóa, mã hóa không tổn hao, dự đoán và bù chuyểnđộng trong miền thời gian Chuẩn MPEG chấp nhận việc dự đoán và bù chuyểnđộng dựa trên khối trong miền không gian Thực tế, dự đoán và bù chuyển độngcũng làm việc trong miền DCT vì các biến vị trí trong miền không gian có thểchuyển đổi với các biến tần số trong miền DCT
Trang 8Remove Intra-Frame Redundancy
Rate Control
Quantise Sample
Run-Length Compress Buffer
Store
Remove Inter-Frame Redundancy
Không cần thiết phải luôn nén mọi khung hình Video cùng một mức độ, mộtphần của Clip có thể có độ dư thừa không gian thấp (ví dụ các hình ảnh phức tạp)trong khi đó các phần khác của Clip lại có độ dư thừa thời gian thấp (ví dụ các cảnhchuyển động nhanh) Vì thế dữ liệu Video đương nhiên sẽ ở các tỉ lệ nén (Bit rate)thay đổi trong khi việc truyền dữ liệu thường yêu cầu tốc độ cố định Chìa khoá đểđiều khiển tốc độ truyền là trật tự dữ liệu đã nén trong bộ đệm (Buffer).Việc nén cóthể được tiến hành với việc loại bỏ một vài thông tin đã được lựa chọn Ảnh hưởngnhỏ nhất đối với chất lượng toàn bộ khung hình có thể đạt được bằng cách bỏ bớtcác thông tin chi tiết Điều này đảm bảo giới hạn tỉ lệ nén dữ liệu trong khi chấtlượng của khung hình suy giảm tối thiểu
Hình 3: Cơ chế nén MPEG II.
MPEG-2 bao gồm cơ chế nén trong một phạm vi rộng Một bộ mã hoá với cơchế nén phải phù hợp với một hoặc đoạn cảnh riêng biệt Nói chung bộ mã hoá rấtphức tạp, nó phải lựa chọn được cơ chế nén thích hợp nhất bởi vậy tăng chất lượngkhung hình đối với tỉ lệ nén dữ liệu truyền Bộ giải mã MPEG-2 cũng có nhiều kiểu,khả năng đa dạng và các lựa chọn khi kết nối
Số lượng các Level và Profile được định nghĩa cho việc nén Video MPEG-2
Hệ thống MPEG-2 được phát triển trên một tập nào đó các Level và Profile:
Trang 9+Profile: chất lượng của Video.
+Level: độ phân giải của Video
Hệ thống cơ bản với tên MPML (Man Profile Man Level) nén dữ liệu Video
từ 1-15 Mbps Các Level khác nhau như: High Level, High Level 1440, Low Level
và các Profile như: Simple, SNR, Spatial, 4:2:2 & High
+ Service Information: thông tin về Video, Audio và Data truyền bởi 2
MPEG-+ Private Data: thông tin người sử dụng hoặc thiết bị thu
Trang 10II MÃ HÓA AUDIO
1 Tín hiệu Audio số
Hiện nay ,các thiết bị Audio số đã dần chiếm lĩnh và thay thế các thiết bịAudio tương tự trong phát sóng và sản xuất
Ưu điểm của tín hiệu Audio số như:
Độ méo tín hiệu nhỏ một cách lý tưởng (0.1%)
Dải động âm thanh lớn gần ở mức tự nhiên (> 90dB)
Tuyến tần số bằng phẳng (±0.5 dB)
Việc tìm kiếm dữ liệu nhanh chóng, dễ dàng, độ bền ổn định lâu dài… Kếtquả là đã cải thiện chất lượng ghi xử lý âm thanh, đồng thời nó đáp ứng được nhucầu lưu trữ và các hệ thống sản xuất chương trình bằng máy tính
Tiêu chuẩn Audio số ra đời với sự liên kết giữa hai Hiệp hội kỹ thuật : AudioAES và EBU (Hiệp hội truyền thanh truyền hình châu Âu) Nó hạn chế hiện tượngméo tín hiệu âm thanh trong hai quá trình biến đổi tương tự – số và ngược lại, từ đóchất lượng âm thanh được nâng cao rõ rệt
2 Nguyên tắc chuyển đổi A/D
Các bước của quá trình biến đổi A/D tín hiệu âm thanh là:
- Lấy mẫu (rời rạc hoá theo thời gian)
- Lượng tử hoá (rời rạc hoá theo biên độ)
- Mã hoá (gán giá trị nhị phân cho các mẫu)
2.1.Lấy mẫu
- Lấy mẫu lí tưởng
Nguyên lý lấy mẫu là quá trình lấy biên độ của dạng sóng tương tự tại từngthời điểm theo một chu kỳ nhất định
Thực chất quá trình lấy mẫu bao gồm việc nhận các tín hiệu tương tự với một
Trang 11Chúng ta sẽ tìm hiểu trường hợp lấy mẫu lý tưởng với khoảng thời gian xunglấy mẫu gần bằng 0.
Phổ của dãy PAM (trong miền tần số)
Biên
độ
t
Phổ tín hiệu Audio
biên độ
fs 2fs
3fst
Phổ tần số lấy mẫu “sóng mang”
fs
Trang 12Khôi phục tín hiệu Audio tương tự
Quá trình lấy mẫu và kết quả dãy PAM (trong miền thời gian)
- Lấy mẫu thực tế
Tín hiệu lấy mẫu
Lọc thông thấp
Biên độ Tín hiệu
Audio
t
Biên độ
t
Phổ tín hiệu Audio
Fmax
tBiên độ Tín hiệu Audio
t
Điều chếbiên độBiên độ
tXung lấy mẫu
Biên độ
Tín hiệu lấy mẫu
(PAM)
Trang 13Trong thực tế, trong thời gian cho phép của bộ chuyển đổi A/D, giá trị biên
độ xung cho mỗi mẫu sẽ được duy trì đến tận thời gian mẫu tiếp theo được lấy.Vìvậy, tạo ra tín hiệu Audio tương tự đã được lấy mẫu có dạng bậc thang, khoảng thờigian tồn tại này đúng bằng chu kỳ lấy mẫu (1/fsa)
Quá trình lấy mẫu thực tế
2.2 Lượng tử hóa
Từng mẫu của tín hiệu tương tự nguyên thuỷ được ấn định cho một giá trị mã
số nhị phân bởi một thiết bị còn gọi là bộ lượng tử hoá VD : 4 bít -> 16 bit giá trịnhị phân để mã hoá tương ứng biên độ xung cho mỗi mẫu
Tín hiệu Audio tương tự có biên độ thấp được lượng tử hoá với rất ít các mứcrời rạc Điều này gây nên lỗi lượng tử của các tín hiệu vào mức thấp Vì vậy, đểgiảm độ lớn của lỗi lượng tử có thể bằng cách tăng mức số rời rạc
Nếu biên độ tín hiệu Audio tương tự vượt qua vùng lượng tử, khi đó quátrình cắt số sẽ được thực hiện
Biên độ
Tín hiệu Audio
t
Điều chế biên độXung lấy mẫu
t
Biên độ
Tín hiệu đã lấy mẫu
tBiên độ
Trang 142.3 Mã hóa
Mỗi giá trị nhị phân sau khi lượng tử hoá được mã hoá theo một cấu trúcthích hợp để tạo nên cấu trúc mẫu tín hiệu phục vụ cho truyền dẫn và các thiết bịlưu trữ Hầu hết, các hệ thống mã hoá đều sử dụng phương pháp điều xung mã(PCM), điều chế xung rộng (PWM), mã hoá vi sai (DPCM), điểm di động
- Điều chế xung mã PCM
Điều xung mã PCM là quá trình biến đổi tương tự sang số ( A/D ) trong đóthông tin đầu vào dưới dạng các mẫu tín hiệu tương tự được biến đổi thành các tổhợp mã nối tiếp ở đầu ra
Điều xung mã PCM bao gồm 3 quá trình:
Trang 15Bước thứ ba mã hoá xung lượng tử thành từ mã nhị phân có m bit.
ra bộ dự đoán xn’ Giá trị dự đoán của mẫu tiếp theo có được là nhờ loại suy từ p giátrị mẫu cho trước
- Điều chế PWM
Điều chế PWM có tên tiếng anh là Pulse Width Modulation là phương phápđiều chỉnh điện áp ra tải hay nói cách khác là phương pháp điều chế dựa trên sựthay đổi độ rộng của chuỗi xung vuông dẫm đếm sự thay đổi điện áp ra
Trang 16Các PWM khi biến đổi thì có cùng 1 tần số và khác nhau về độ rộng củasườn dương hay hoặc là sườn âm.
Dòng cơ sở (elementary stream) và dòng cơ sở đóng
gói (packetized elementary stream)
Trang 17I Dòng cơ sở (elementary stream)
Tín hiệu video số dạng thức CCIR-601(tiêu chuẩn truyền hình số cơ bản) sau
khi nén MPEG có dạng một dòng dữ liệu video cơ sở (Elementary Stream - ES).
Dòng ES chỉ chứa những thông tin cần thiết để khôi phục lại hình ảnh ban đầu
Tương tự, tín hiệu audio số dạng thức AES/EBU (Tần số lấy mẫu 48kHz,
24bit/mẫu, tốc độ bít 1152kbps) được mã hóa thành dòng cơ sở audio (audio ES).
Dòng cơ sở về cơ bản là tín hiệu gốc tại đầu ra của bộ mã hóa và chỉ chứanhững thông tin cần thiết để giúp bộ giải mã tái tạo lại hình ảnh, âm thanh ban đầu
Sơ đồ dòng cơ sở
Mã hóa Video
Mã hóa audio(AES/EBU)
(REC 601)
Dữ liệu video
Dữ liệu audio
Dòng cơ sở Elementary Stream
ESDòng cơ sở Elementary Stream
ES
Trang 18Hình trên mô tả cách thức tạo ra dòng cơ sở Tín hiệu video sau khi qua bộ
mã hóa hai chiều, cho kết quả là các thông tin về các vector chuyển động, bảnglượng tử, và các dữ liệu về không gian Những dữ liệu này sau khi được mã hóa
bằng các phương thức khác nhau sẽ được trộn vào thành một dòng cơ sở duy nhất
Dữ liệu sau bộ ghép (mux) nhiều hay ít là tùy vào lượng thông tin có trong ảnh.
Nhưng tốc độ bit của dòng cơ sở là không đổi nhờ qua một bộ đệm Bộ đệm này cókhả năng cảm nhận tốc độ dữ liệu đi ra để điều khiển tốc độ mã hóa dữ liệu đầu vào
Tốc độ của dòng đi ra được qui định bởi thiết bị đồng hồ yêu cầu (demand clock).
Đồng hồ này là do kênh truyền hoặc thiết bị lưu trữ quyết định
Hình thành dòng cơ sở.
Cấu trúc dòng cơ sở được mô tả như sau:
Mã hóa 2 chiều
Điều khiển tốc độ Slice
Dữ liệu không gian
Bảng lượng tử
Dòng cơ sở
Trang 19Cấu trúc dòng cơ sở
Đầu tiên là một tập hợp hợp các hệ số biểu diến khối DCT Sáu hoặc tám
khối DCT tạo nên một macro block Ở ảnh B và ảnh P mỗi macro block sẽ tương ứng với một vector bù chuyển động Một số macro block sẽ tạo thành một lát ảnh (slice) biểu thị sọc ngang của hình ảnh từ trái sang phải Tập hợp các lát ảnh tạo
thành một ảnh, ảnh này thì cần biết giá trị cờ I/P/B để biết được loại ảnh tương ứng
Một số ảnh tạo thành một nhóm ảnh (GOP - Group of Picture) Một nhóm ảnh bắt
đầu bằng ảnh I, giữa hai ảnh I liền nhau là một số ảnh P và có thể có thêm ảnh B.Một tập hợp các nhóm ảnh tạo thành đoạn dữ liệu video Bắt đầu mỗi chuỗi videođều có phần tiêu đề chứa những thông tin quan trọng hỗ trợ cho bộ giải mã
II Dòng cơ sở đóng gói (packetized elementary stream)
1 Giới thiệu chung về dòng cơ sở đóng gói
Khối các hệ
Nhóm ảnh Video sequence
Tín hiệu đồng bộ I/P/B Tín hiệu định thời
Mở/ Đóng
Cỡ ảnh
Tỉ lệ khuôn hình
Đồng bộ Quét liên tuc/
Level
Profile
Trang 20Do dòng dữ liệu cơ sở là liên tục, có chiều dài tùy thuộc vào lượng dữ liệuđưa vào bộ mã hóa, để có thể truyền đi với độ tin cậy cao, dòng ES được đóng góithành dòng cơ sở đóng gói ( Packetized Elementary Stream - PES ) Mỗi gói PESgồm một tiêu đề và dữ liệu của dòng cơ sở
Hình 2.1: Dòng cơ sở đóng gói
Hình 2.2: Cấu trúc gói PES
Dòng cơ sở video là dòng bit liên tục mang thông tin về hình ảnh Trong việclưu trữ và truyền dẫn thì sẽ thích hợp hơn nhiều nếu sử dụng những khối dữ liệu rờirạc, do vậy dòng cơ sở được đóng gói tạo thành dòng cơ sở đóng gói PES
(packetized elementary stream) Tương tự như vậy, dữ liệu audio cũng cần được
đóng gói Cấu trúc của một gói được mô tả trong hình 2.2 Gói được bắt đầu bằngphần tiêu đề chứa một mã bắt đầu gói và một mã để phân biệt loại dữ liệu chứatrong gói Ngoài ra có thể có thêm một số nhãn thời gian để đồng bộ với bộ giải mãhình ảnh trong thời gian thực và đồng bộ với âm thanh
Hình 2.3 chỉ ra rằng nhãn thời gian thực chất là lấy mẫu trạng thái của một bộđếm được điều khiển bởi đồng hồ 90kHz Đồng hồ này có được nhờ chia tần một
Đóng gói
Đóng gói(Audio ES)
Start code Stream ID PTS DTS
Data
count
Trang 21đồng hồ chủ 27MHz cho 300 Có hai loại nhãn thời gian là nhãn thời gian trình diễn
PTS (presentation time stamp) và nhãn thời gian giải mã DTS (decode time stamp).
Nhãn thời gian trình diễn được dùng để xác định khi nào thì hình ảnh sẽ được thểhiện trên màn ảnh, còn nhãn thời gian giải mã xác định khi nào hình ảnh được giải
mã Trong mã hóa hai chiều, những nhãn thời gian này có thể không khác nhau
Hình 2.3: Nhãn thời gian
Gói dữ liệu âm thanh chỉ có nhãn thời gian trình diễn Vì khi có sự đồng bộ
âm thanh, thì dòng dữ liệu audio và video phải được gán nhãn từ cùng một bộ đếm
Một minh họa được cho ở hình 2.4 Nhóm ảnh được bắt đầu bởi ảnh I, sau đóảnh P được gửi trước ảnh B1 và B2 Ảnh P phải được giải mã trước khi B1 và B2 giải
mã Tại một thời điểm chỉ có một ảnh được giải mã, ảnh I được giải mã ở thời điểm
N nhưng phải tới thời điểm N+1 thì nó mới được thể hiện trên màn ảnh Khi ảnh Iđược thể hiện thì ảnh P1 được giải mã P1 sẽ được lưu giữ trong RAM Tại thời điểmN+2, ảnh B1 được giải mã và thể hiện ngay trên màn hình Vì lí do này mà nó khôngcần nhãn thời gian giải mã Tại thời điểm N+3, thì ảnh B2 được giải mã và thể hiện.Tại N+4, thì ảnh P1 mới được thể hiện Ta thấy P1 có sự khác nhau nhiều nhất củahai nhãn thời gian Cùng thời điểm này thì ảnh P2 được giải mã và lưu trữ để giải mãảnh B3 Quá trình giải mã và trình diễn cứ thế tiếp tục
Trang 22Hình 2.4: Sử dụng nhãn thời gian PTS/DTS trong việc đồng bộ giải mã 2 chiều.
Trên thực tế, khoảng thời gian giữa các hình ảnh đến bộ giải mã thường làkhông đổi, do vậy sẽ là thừa nếu gói nào cũng gán thêm nhãn thời gian PTS/DTS
Nhãn thời gian có thể chiếm một khoảng 700ms trong dòng chương trình (program stream) và 100ms trong dòng truyền tải (transport stream) Vì lí do đó mà không
phải mọi gói đều có nhãn PTS/DTS Vì trong dòng bit, mỗi loại ảnh (I, B hoặc P)đều được gán một cờ để xác định, do đó bộ giải mã có thể suy ra nhãn thời gian chomọi ảnh trong dòng bít
Trang 232 Cú pháp dòng cơ sở đóng gói
Hình 2.5: Cú pháp gói PES
1 Mã tiền tố khởi đầu (PES start code prefix): đây là mã 24-bit có giá trị là
0x000001 Mã này xác định điểm bắt đầu của một gói PES
2 Nhận dạng dòng (stream ID): mã 8-bit xác định loại của dữ liệu chứa trong dòng
cơ sở
3 Độ dài gói PES (PES packet length): trường 16-bit, chỉ ra số byte của gói cơ sở
đóng gói đi sau trường này
4 Các byte tiêu đề và đệm PES:
4.1 Các byte đệm (stuffing bytes): có giá trị cố định là 0xFF, được bộ mã hóa chèn
DATA ALIGNMENT INDICATOR (1 BIT)
COPYRIGHT (1 BIT)
ORIGINAL
OR COPY (1 BIT)
7 FLAGS (8 BIT)
PES HEADER DATA LENGTH (8 BIT)
“10”
(2 BIT)
OPTIONAL FIELDS
ESCR (48 BIT)
ES RATE (24 BIT)
PES EXTENSION
PTS DTS (40 BIT)
ADDITIONAL COPY INFO (8 BIT)
DSM TRICK MODE (8 BIT)
PES CRC (16 BIT)
5 FLAGS OPTIONAL
FIELDS
PES PRIVATE DATA
PACK HEADER FIELD
PROGRAM PACKET SEQ COUNTER (16 BIT)
P- STD BUFFER (16 BIT)
PES EXTENSION FIELD
STREAM ID (1BYTE)
PES HEADER
PES PACKET LENGTH (2 BYTE)
STUFFING BYTES PES START CODE
PREFIX (3 BYTE)
PES PACKET DATA