Điềunày có nghĩa rằng hình ảnh của bạn sẽ bị mất một số chitiết khi chuyển sang định dạng JPEG.Đường bao giữa các khối màu có thể xuất hiện nhiều điểm mờ, và các vùng sẽ mất sự rõ nét, t
Trang 1Mục lục
Mục lục 1
Phần 1 Công nghệ nén ảnh, video và các chuẩn 3
1.1 Nén ảnh 3
1.1.1 Chuẩn JPEG 3
1.1.2 Chuẩn JPEG-2000 12
1.2 Nén video 15
1.2.1 Cấu trúc lấy mẫu và số hóa tín hiệu video: 15
1.2.2 Chuẩn MPEG-1 16
1.2.3 So sanshh chuẩn ITU(H 261) và MPEG(MPEG-1) 18
Phần 2 Công nghệ nén âm thanh và các chuẩn 19
2.1 Các phương pháp mã hóa tiếng nói 19
2.1.1 Phương pháp mã hóa tín hiệu dạng sóng (waveform), 19
2.1.2 Phương pháp mã hóa nguồn: 19
2.1.3 Phương pháp mã hóa lai: 20
2.1.4 Đánh giá chung về 3 phương pháp: 20
2.2 Các yếu tố ảnh hưởng đến chất lượng âm thanh trong VoIP 20
2.3 Nén âm thanh chuẩn MPEG 21
2.4 Phân tích ảnh hưởng CODEC đến chất lượng âm thanh mp3 22
2.4.1 CODEC 22
2.4.2 CODEC ảnh hưởng đến chất lượng âm thanh mp3 22
Phần 3 Các giao thức và kỹ thuật truyền dữ liệu đa phương tiện 23
3.1 Các giao thức 23
3.1.1 RTP/RTCP 23
3.1.2 Giao thức thiết lập phiên SIP (Session Initiation Protocol ) 25
3.1.3 Chồng giao thức H323 25
3.2 RTP/RTCP 26
3.2.1 So sánh các điểm khác nhau cơ bản của truyền audio và truyền video dùng RTP/RTCP 26
3.3 Chồng giao thức H323: 27
Trang 23.3.1 Các thành phần của hệ thống H323: 28
3.3.2 Các giao thức trong bộ giao thức H323 30
3.3.3 Phương thức hoạt động 31
3.4 SIP: Session Initiation Protocol : Giao thức thiết lập phiên 33
3.4.1 Giới thiệu và SIP 33
3.4.2 Thông điệp SIP 35
3.4.3 Các loại bản tin SIP 37
3.4.4 Các thành phần chính trong SIP 41
3.5 SO SÁNH SIP VỚI H323 45
3.5.1 Giống nhau 45
3.5.2 Khác nhau 45
3.6 Kỹ thuật truyền dòng dữ liệu đa phương tiện 53
3.6.1 Phương pháp truyền file 56
3.6.2 Dòng dữ liệu 56
3.6.3 Truyền lũy tiến 56
3.6.4 Phương pháp truyền trang 56
Phần 4 Các ứng dụng 56
4.1 So sánh công nghệ truyền thông thoại VoIP dựa trên tổng đài mềm Asterisk – SIP so với công nghệ VoIP theo chuẩn khuyến nghị H323 56
4.2 Tìm hiểu giải pháp H323 với Videoconferencing(hội nghị truyền hình): 57
4.3 So sánh IPTV và Internet TV 57
Phần 5 Asterisk 58
5.1 Khái niệm 58
5.2 Cấu trúc của tổng đài Asterisk 59
5.3 Mô hình giải pháp công nghệ SIP-Asterisk và cách thức làm việc của SIP- Asterisk 61
Phần 6 Đề thi 65
6.1 Đề 20: 65
6.1.1 Câu 1: 65
2, 66
6.2 Đề 21: 67
6.2.1 Câu 1: 67
6.2.2 Câu 2: 69
Trang 36.3 Đề 8 70
6.3.1 Câu 1 70 6.3.2 Câu 2: 71
Câu 1: Phát biểu định luật về độ chói,
Trả lời:
Định luật về độ chói: Độ chói của màu tổng
Câu 2: Phân biệt lượng tử hóa và mã hóa:
Lượng tử hóa: Chuyến tín hiệu rời rạc thành tín hiệu rời rạc theo thời gian và biên độ
Mã hóa: Chuyển tín hiệu số thành tín hiệu liên tục có thể nghe được
Câu 3: Trình bày tóm tắt quá trình nén ảnh JPEG Tại sao cơ chế mã hóa của JPEG chiếm
ưu thế trong các ứng dụng thời gian thực?
Trả lời:
(Joint Photographic Experts Group)
- Chuẩn quốc tế về nén ảnh được phát triển phổ biến năm 1990
- Phương pháp nén: Dựa trên phép biến đổi Cosine rời rạc (DCT)
- Các quy định về chuẩn JPEG:
o Không gian màu YcrCb: Hệ màu YUV
o Các loại JPEC:
o Quy trình nén: Chia khối > thực hiện DCT cho mỗi khối > Sắp xếp ZigZag > Lượng
tử hóa > Mã hóa dữ liệu
o Cấu trúc số liệu:
o Định dạng file: jpg
Trang 41.1.1.1 Ưu nhược điểm của phương pháp nén ảnh JPEG
1.1.1.1.1 Ưu điểm
Phương pháp nén ảnh theo chuẩn JPEG có thể đạt hệ số nén tới 80:1 hay lớn hơn,nhưng phải chịu mất thông tin (ảnh sau khi giải nén khác với ảnh ban đầu), lượng thông tin mấtmát tăng dần theo hệ số nén Tuy nhiên sự mất mát thông tin này không bị làm một cách cẩuthả JPEG tiến hành sửa đổi thông tin ảnh khi nén sao cho ảnh mới gần giống như ảnh cũ, khiếnphần đông mọi người không nhận thấy sự khác biệt Và bạn hoàn toàn có thể quản lý sự mấtmát này bằng cách hạn chế hệ số nén Như thế người dùng có thể cân nhắc giữa cái lợi của việctiết kiệm bộ nhớ và mức độ mất thông tin của ảnh, để chọn phương án thích hợp
JPEG cho phép hiển thị các hình ảnh đầy đủ màu hơn (full-colour) cho định dạng di động
mà kích thước file lại nhỏ hơn JPEG cũng được sử dụng rất nhiều trên Web Lợi ích chính củachúng là chúng có thể hiển thị các hình ảnh với màu chính xác true-colour (chúng có thể lên đến
16 triệu màu), điều đó cho phép chúng được sử dụng tốt nhất cho các hình ảnh chụp và hình ảnhminh họa có số lượng màu lớn
1.1.1.1.2 Nhược điểm
Nhược điểm chính của JPEG là chúng được nén bằng thuật toán lossy (mất dữ liệu) Điềunày có nghĩa rằng hình ảnh của bạn sẽ bị mất một số chitiết khi chuyển sang định dạng JPEG.Đường bao giữa các khối màu có thể xuất hiện nhiều điểm mờ, và các vùng sẽ mất sự rõ nét, tỉ
số nén càng cao thì sự mất mát thông tin trên ảnh JPEG càng lớn Nói một cách khác định dạngJPEG thực hiện bảo quản tất cả thông tin màu trong hình ảnh đó, tuy nhiên với các hình ảnhchất lượng màu cao high-colour như hình ảnh chụp thì điều này sẽ không hề hấn gì Các ảnhJPEG không thể làm trong suốt hoặc chuyển động-trong trường hợp này bạn sẽ sử dụng địnhdạng GIF (hoặc định dạng PNG để tạo trong suốt)
1.1.1.2 Quá trình mã hóa và giải mã JPEG tuần tự
Các bước chủ yếu thực hiện nén ảnh:
- Xử lí màu chuyển về không gian màu YCbCr
- Ảnh đầu vào được phân chia thành các khối 8*8 để xử lí
- Thực hiện biến đổi Cosin (DCT) đối với mỗi khối và xử lí tuần tự các khối
- Lượng tử hóa : Dùng bảng lượng tử
- Quá trình mã hóa :
+ Thành phần DC: mã hóa dự đoán DPCM+ Thành phần AC sắp xếp lại theo zig-zag và mã hóa RLC, mã hóa Huffman
- Ghép các khối tạo thành các dòng dữ liệu, dòng bit
Trang 5Hình: Sơ đồ nén ảnh JPEG
1.1.1.2.1 Xử lý màu chuyền về không gian màu YcBCr
Bước tiền xử lý: Level Offset
- Để đơn giản việc thiết kế bộ mã hóa DCT
- Nếu dùng quá trình DCT cho các tín hiệu số thành phần Y, Cr,Cb thì các tín hiệu Cr,Cb
có biên độ cực đại ±128 ( giá trị nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một khoảng cực đại từ 0 đến 255 giá trị nhị phân Để đơn giản việc thiết kế bộ mã hóa DCT, tín hiệu
Y được dịch mức xuống dưới bằng cách trừ 128 từ từng giá trị pixel trong khối để có khoảng cực đại của tín hiệu giống như đối với các tín hiệu CR và CB Ở phần giải mã DCT, giá trị này (128) được cộng vào các giá trị pixel chói Giá trị hệ số DC của khối DCT có một khoảng từ –
1024 đến 1016 Đối với hệ số AC ( với u,v=1,2, ,7), C(u) và C(v)=1 và các giá trị cực đại của
nó nằm trong khoảng ±1020 theo phương trình FDCT Khối 8×8 các giá trị của hệ số DCT đưa
ra 1 giá trị DC lớn (ví dụ =591), biểu diễn độ sáng trung bình của khối 8×8 và các giá trị rất nhỏcủa các thành phần tần số cao theo chiều ngang và chiều đứng
Bước tiên xử lý: Chuyển đổi không gian màu
- Biến đổi ảnh từ không gian màu RGB sang YCbCr : tăng thành phần độ chói, giảm các thành phần màu sắc (mắt người nhạy cảm với độ sáng hơn màu sắc ), sử dụng các công thức biến đổi :
Y‘ = 0.299*R' + 0.587*G' + 0.114*B‘
U‘ = -0.147*R' - 0.289*G' + 0.436*B' = 0.492*(B'- Y')
V‘ = 0.615*R' - 0.515*G' - 0.100*B' = 0.877*(R'- Y')
R' = Y' + 1.140*V'
Trang 6G' = Y' - 0.394*U' - 0.581*V'B' = Y' + 2.032*U'
1.1.1.2.2 Ảnh đầu vào được phân thành các khối 8x8 để xử lý
Mục đích : Giảm thời gian tính toán cũng như làm tăng khả năng chính xác khi tính
toán Do các điểm ảnh lân cân có độ tương quan cao, do đó phép biến đổi DCT cho từngkhối nhỏ sẽ tập trung năng lượng vào một số ít các hệ biến đổi Việc loại bỏ một số nănglượng thấp trong các khối chỉ tạo ra mất mát thông tin cục bộ giúp nâng cao chất lượng ảnh
1.1.1.2.3 Biến đổi DCT
Vai trò : DCT (Discrete Cosine Transform) là phép biến đổi Cosin rời rạc để chuyển tín hiệu
từ miền không gian sang miền tần số
Đặc điểm của phép biến đổi này là tín hiệu ảnh trong miền không gian chuyển sang miền tần số
thì các thành phần DC và thành phần AC mang hầu hết các thông tin chứa trong ảnh gốc Trong
đó DC là thành phần quan trọng nhất mang độ chói trung bình của ảnh, các thành phần AC chứacác thông tin chi tiết của ảnh Sau đó khi đi qua tầng lượng tử hóa, các hệ số ít quan trọng sẽ bị loại bỏ và chỉ giữ lại một số hệ số đầu tiên gọi là hệ số DCT Vai trò chủ yếu của phương pháp DCT là giảm độ dư thừa dữ liệu trong pixcel ở miền tần số cao ( bởi vì bất kì một giá trị pixcel nào đó cũng có thể dự đoán từ các giá trị pixcel lân cân của nó nên thông tin từ các pixcel tươngđối nhỏ) Không những vậy, sau khi biến đổi DCT thì hàm giải tương quan giảm đi một các đáng kể Chính vì vậy mà hiệu suất nén đạt được tỉ số nén cao
Mục đích:
- Chuyển từ miền không gian sang miền tần số=> tín hiệu sẽ tập trung sang miền tần số thấp
- DCT làm giảm độ tương quan không gian block Điều đó cho phép biểu diễn thích hợp ở miềnDCT do các hệ số DCT có xu hướng có phần dư thừa ít hơn Điều này có nghĩa là DCT gói một phần lớn năng lượng tín hiệu vào các thành phần có thành phần tần số tương ứng để lưu trữa hoặc truyền dẫn tạo ) hoặc các giá trị thấp đối với các thành phần tần số cao, nhờ đặc tính của mắt người, các hệ số DCT có thể mã hóa phù hợp Chỉ các hệ số DCT quan trọng nhất mới được mã hóa và truyền đi DCT thuận kết hợp với video đầu vào được mãi hóa bằng các mẫu dài 8 bit Nếu hệ số được lượng tử hóa bằng 11 bit thì nén sẽ tổn hao Sau khi thực hiện DCT năng lượng thấp sẽ tập trung chủ yếu ở miền tần số thấp
Biến đổi DCT một chiều
Trang 7- Thuận:
- Ngược:
Trong đó :
+ X(k) là chuỗi kết quả
+ x(m) là giá trị của mẫu m
+ k là chỉ số của hệ số khai triển
+ m chỉ số của mẫu
+ N- số mẫu có trong tín hiệu
Biến đổi DCT 2 chiều
- Để tách tương quan nội dung ảnh cao hơn, mã hóa DCT 2 chiều được dùng cho các khối 8*8 giá trị điểm chói Quá trình biến đổi DCT tiến FDCT (forward DCT) dùng trong tiêu chuẩn JPEG được định nghĩa như sau:
- Biến đổi DCT là một trong những công đoạn quan trọng trong JPEG Nhiệm vụ của nó là tập trung năng lượng vào một số các giá trị để giải tương quan tất nhất nhằm nâng cao tỉ số nén
Trong đó :
+ f(i, k): các mẫu gốc trong khối 8*8
+ F(u,v) : các hệ số của khối DCT 8*8
Trang 8có tần số cao nhất theo phương thẳng đứng Còn các tần số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và chiều ngang
Trang 9Hình: Các bước của quá trình biến đổi DCT với 1 khối:
1.1.1.2.4 Lượng tử hóa: Dùng bảng lượng tử
sẽ được làm tròn ( bỏ đi các phần thập phân)
- Bảng lượng tử Q(u,v) thông dụng:
Ví dụ:
- Kết quả DCT(đầu vào):
- Kết quả thu được sau quá trình lượng tử hóa:
Trang 101.1.1.2.5 Quá trình mã hóa
Quét zig-zag: tạo ra đầu vào gồm nhiều số giống nhau Thông thường các hệ số tương ứng tần
số cao phần lớn giá trị bằng 0 dẫn đến tạo nhiều dãy hệ số 0 liên tiếp
+ Các hệ số DC là giá trị trung bình của các khối ảnh 8x8 Độ chói trung bình của các block ảnh gần nhau thường ít biến đổi, do đó trong chuẩn nén JPEG, các hệ số DC được mã hóa theo
Trang 11phương pháp DPCM Để tăng hiệu suất nén, kết quả nhận được sau đó được mã hóa tiếp bằng
1.1.1.2.6 Ghép các khối tạo thành các dòng dữ liệu, dòng bit
Sau khi mã hóa, ghép các khối tạo thành dòng bit, dòng dữ liệu Sau đó chuyển các dữ liệu đã mã hóa ra tệp để lưu trữ
Trang 121.1.2. Chuẩn JPEG-2000
1.1.2.1 Đặc điểm JPEG 2000
- Nén với tỷ lệ bit thấp: tiêu chuẩn JPEG 2000 đưa ra khả năng nén với tốc độ bit thấp hơn so
với tiêu chuẩn nén hiện tại (ví dụ dưới 0.25bpp cho ảnh xám chi tiết cao) Ý nghĩa của đặcđiểm này là đạt được tốc độ bit thấp mà không làm méo ảnh, hiệu quả tỷ số nén tăng 30% sovới JPEG
- Nén tổn hao và nén không tổn hao: JPEG 2000 có khả năng nén không tổn hao và nén tổn
hao Ví dụ ứng dụng sử dụng đặc tính nén không tổn hao: ảnh y tế , các ứng dụng mạng Nócũng yêu cầu tiêu chuẩn có đặc tính tạo ra dòng bit nhúng và cho phép cải thiện chất lượngảnh
- Tăng độ phân giải và độ chính xác pixel: tăng cường độ phân giải cho phép ảnh có thể khôi
phục với độ chính xác pixel tăng hoặc độ phân giải không gian cần thiết cho nhiều ứngdụng Đặc tính này cho phép khôi phục ảnh với các độ phân giải khác nhau và độ chính xácpixel theo yêu cầu và đòi hỏi, cho các thiết bị đầu cuối khác nhau như World Wide Web,ảnh lưu giữ và in ấn
- Mã hóa vùng quan tâm ROI: thông thường trong một ảnh người ta chỉ quan tâm đến một số
vùng của ảnh Đặc điểm này cho phép người sử dụng xác định chính xác vùng quan tâmtrong ảnh để mã hóa và truyền đi với chất lượng tốt hơn và ít méo hơn so với các vùng cònlại Phương pháp này có 2 phương pháp thực hiện là MAXSHIFT và Scale
- Xử lý và truy cập ngẫu nhiên: đặc điểm này cho phép người sử dụng xác định vùng quan
tâm của ảnh để truy nhập ngẫu nhiên hoặc giải nén ít méo hơn so với các vùng ảnh còn lại
Xử lý dòng mã ngẫu nhiên này cũng cho phép ta quay ảnh, dịch ảnh, lọc ảnh, khai triển cácđặc điểm và tỷ lệ ảnh
- Giảm khả năng lỗi bit: giảm khả năng lỗi bit trong khi thiết kế dòng mã hóa Một trong
những ứng dụng là truyền kênh viễn thông không dây Tỷ lệ của dòng mã hóa quan trọnghơn các dòng mã khác trong xác định chất lượng ảnh giải mã Dòng bit thiết kế đúng quytắc có thể trợ giúp hệ thống chỉnh sửa lỗi đến sau trong lỗi giải mã
- Kiến trúc mở: đặc điểm này cho kiến trúc mở để tối ưu hệ thống cho các ứng dụng và loại
ảnh khác nhau Với đặc tính này, giải mã chỉ thực hiện bộ công cụ lõi và phân tích để hiểudòng mã Nếu cần thiết, không xác định được công cụ có thể yêu cầu từ bộ giải mã để bênnguồn gửi sang
- Miêu tả nội dung: ảnh lưu giữ, index và tìm kiếm đặc điểm quan trọng trong xử lý ảnh.
Miêu tả nội dung của ảnh là một thành phần của hệ thống nén ảnh (ví dụ thông tin dữ liệuphụ metadata)
- Thông tin kênh không gian (trong suốt): thông tin kênh không gian như mặt phẳng alpha và
mặt phẳng trong suốt là hữu ích cho truyền thông tin cho xử lý ảnh như hiển thị, in ấn vàdựng
- Bảo mật ảnh: bảo vệ ảnh số có nhận được nhờ watermarking, label, tem và mã mật hóa
(Encryption) Nhãn được thực hiện trong SPIFF và phải dễ truyền đi truyền lại tới file ảnhJPEG 2000
- Nén hai mức và nén nhiều mức: đưa ra tiêu chuẩn mã hóa có khả năng mã hóa cả ảnh hai
mức, nhiều mức Nếu thực hiện, tiêu chuẩn này cố gắng đạt được với nguồn hệ thống tương
tự nhau Hệ thống này phải nén và giải nén với dải thông thay đổi (ví dụ 1 bit tới 16 bit) chomỗi thành phần màu Ví dụ sử dụng đặc tính này là: ảnh y học với một lớp chú thích, ảnh đồ
Trang 13họa và ảnh máy tính tạo ra với nhị phân và gần vùng nhị phân, mặt phẳng alpha và trongsuốt.
1.1.2.2 Tính năng JPEG 2000
JPEG 2000 có nhiều chức năng đặc biệt hơn mọi chuẩn nén ảnh tĩnh hiện tại Gồm có:
- Cho chất lượng ảnh tốt nhất khi áp dụng nén ảnh tĩnh có tổn thất
- Sử dụng được với truyền dẫn hiển thị lũy tiến về chất lượng, độ phân giải, các thành phần màu và có tính định vị về không gian
- Sử dụng cùng một cơ chế nén ảnh cho cả hai dạng thức nén
- Truy nhập và giải nén tại mọi thời điểm trong khi nhận dữ liệu
- Giải nén từng vùng trong ảnh mà không cần giải nén toàn bộ ảnh
- Có khả năng mã hóa ảnh với tỉ lệ nén theo từng vùng khác nhau
- Nén một lần nhưng lại có thể giải nén với nhiều cấp chất lượng tùy theo yêu cầu người sử dụng
- Hiện tại ISO và ủy ban JPEG đã đưa ra khuyến nghị thay thế JPEG bằng JPEG 2000
1.1.2.4 So sánh ảnh JPEG-2000 với ảnh JPEG
Một tính năng quan trọng và là ưu điểm rõ nét nhất của JPEG 2000 so với JPEG là JPEG
2000 đưa ra cả hai kĩ thuật nén ảnh có tổn thất và không tổn thất theo cùng một cơ chế mã hóa
Vì JPEG2000 sử dụng biến đổi wavelet 5/3 là biến đổi thuận nghịch trong bước DWT => cótính mềm dẻo Tuy nhiên với JPEG thì cơ chế mã hóa với hai dạng này là khác nhau và rất khó để sử dụng cả hai dạng này cùng lúc cho cùng một ứng dụng
Trang 14 Với cùng một tỉ lệ nén và một loại ảnh thì ảnh được nén bởi JPEG 2000 luôn có chất lượng tốt hơn so với JPEG
Tính năng ưu việt thứ 2 của JPEG 2000 so với JPEG là trong dạng thức nén có tổn thất thông tin, JPEG 2000 có thể đưa ra tỉ lệ nén cao hơn nhiều so với JPEG,lên tới 200:1 Sau đây là bảng so sánh tham số PSNR, cho thấy JPEG2000 nén ảnh tốt hơn JPEG Tốc độ dòngbit thấp, hiệu quả tỷ số nén tăng 30% so với ảnh JPEG nén dựa trên DCT
Tính năng ưu việt thứ 3 của JPEG 2000 so với JPEG là chuẩn nén ảnh này có thể hiển thị được các ảnh với độ phân giải và kích thước khác nhau từ cùng một ảnh nén Với JPEG thì điều này là không thể thực hiện Tính năng này chính là một lợi thế đặc biệt quan trọng của JPEG 2000, trong khi JPEG cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần
để thu được chất lượng với từng lần nén khác nhau, thì với JPEG 2000 ta chỉ cần nén một lần còn chất lượng ảnh sẽ được quyết định tùy theo người sử dụng trong quá trình giải nén ảnh theo JPEG2000
Tính năng ưu việt thứ 3 của JPEG 2000 so với JPEG là chuẩn nén ảnh này có thể hiển thị được các ảnh với độ phân giải và kích thước khác nhau từ cùng một ảnh nén Với JPEG thì điều này là không thể thực hiện Tính năng này chính là một lợi thế đặc biệt quan trọng của JPEG 2000, trong khi JPEG cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần
để thu được chất lượng với từng lần nén khác nhau, thì với JPEG 2000 ta chỉ cần nén một lần còn chất lượng ảnh sẽ được quyết định tùy theo người sử dụng trong quá trình giải nén ảnh theo JPEG2000
Một tính năng nổi bật nữa của JPEG 2000 là tính năng mã hóa ảnh theo vùng (ROI – Region
of Interest) Chất lượng của vùng ảnh được lựa chọn tăng cao hơn khi vùng đó được áp dụngphương pháp nén ảnh ROI
JPEG 2000 còn một tính năng đặc biệt ưu việt hơn JPEG, là khả năng vượt trội trong khôi phục lỗi Đó chính là khi một ảnh được truyền trên mạng viễn thông thì thông tin có thể bị nhiễu, với các chuẩn nén ảnh như JPEG thì nhiễu này sẽ được thu vào và hiển thị, tuy nhiên với JPEG 2000, do đặc trưng của phép mã hóa có thể chống lỗi, JPEG 2000 có thể giảm thiểu các lỗi này với mức hầu như không có
1.2.1 Cấu trúc lấy mẫu và số hóa tín hiệu video:
4:2:2
Trang 15Gồm 8 khối: 4 khối Y, 2 khối Cb và 2 khối Cr
Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tínhiệu video
Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số lấy mẫu tínhiệu chói
Cấu trúc lấy mẫu theo chuẩn 4:2:2
4:2:0
Gồm 6 khối: 4 khối Y, một khối Cb, một khối Cr
Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tínhiệu video Cách một điểm lấy mẫu một tín hiệu màu Tại dòng lẻ chỉ lấy mẫu tín hiệu màu
CR, tại dòng chẵn lấy mẫu tín hiệu CB Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, Thìtần số lấy mẫu tín hiệu màu sẽ là fD/2
Trang 16Cấu trúc lấy mẫu theo chuẩn 4:2:0
Cấu trúc lấy mẫu theo chuẩn 4:1:1
Sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai trò của bộ dự đoán
2.1) Màu sắc
Sau khi nén xong thì màu sắc MPEG1 chuyển sang Y'CbCr Trong đó thành phần Y được chú ý: vì mắt người nhạy với độ sáng hơn là màu sáng thành phần ( Cb, Cr )
2.2) Độ phân giải
- MPEG1 co thể hỗ trợ độ phân giải 4095*4095
- MPEG1 sử dụng các độ phân giải thấp hơn 352x240, 352x288, 320x240
Trang 17- Ngoài ra MPEG1 chọn chọn độ phân giải thấp với một dòng bít thấp hơn 1.5Mb/s Đây là thành phần Low Level trong profile trong MPEG2 Đây là các thông số tối thiểu để bộ giải mã có thể sử
lý
2.3) Frame
MPEG1 có các frame phục vụ mục đích khác nhau Mỗi frame sẽ có cách nén khác nhau, việc phân
ra các frame hình như vậy làm giảm đáng kể kích thước của video Các frame trong MPEG1 bao gồm:
- I-frame: Viết tăt của Intra- frame, là frame đầu tiên của mã hóa video được mã hóa JPEG Đặc điểm của I-fame: là nén nhanh, nhưng kích thước tập tin lớn
Chiều dài giữa các I-frame ( thường từ 15-18 ) là các frame P,b kết hợp Và được gọi là nhóm hình ảnh GOP
- P-frame: ( Predection frame) frame được sự đoán tiếp theo P frame cải thiện nén bằng cách khai thác thời gian dư thừa của một video P frame được lưu trữ sự khác nhau của các frame ngay trước
nó Sự khác nhau của giữa P-frame và một frame trước nó được tính toán trong mỗi vector chuyển động trên mỗi macroblock của khung hình Dữ liệu sẽ được nhúng vào P frame
- B-frame: Frame được dự đoán nội suy 2 chiều Một cách nào đó thì frame này được hiểu giống với P-frame Nhưng nó cần 2 frame trước và sau để so sánh Tuy nhiên trong quá trình giải mã cần
bộ đểm lớn để lưu trữ các frame trước và sau nó dẫn đến côngg kềnh và độ trễ thời gian Ngoài ra thì một số phần cứng không hỗ trợ
- D-frame: là một frame không có trong chuẩn của MPEG tuy nhiên D-frame được mã hóa với chấtlượng thấp được dùng để xem trước nhanh chóng video và tìm kiếm sử dụng trong các video cỡ lớn Tuy nhiên vì nhiều lý do mà D-frame đã không được sử dụng
1.2.3.1 Giống nhau
Các phương pháp nén theo chuẩn MPEG và H.26x có nhiều điểm giống nhau Có thể kể ra một
số điểm giống nhau cơ bản như:
- Sử dụng DCT để giảm thiểu độ dư thừa intraframe
- Nén interframe dựa trên kỹ thuật ước lượng chuyển động và kỹ thuật bù chuyển động
- Do mắt người có thể phân biệt sự thay đổi về độ sáng của ảnh (brightness) tốt hơn so với sựthay đổi về màu (chromaticity) nên hầu hết các sơ đồ nén theo chuẩn MPEG và H26Xđều tiến hành chia bức ảnh thành một thành phần về độ sáng Y (luminance) và hai thànhphần về độ màu UV (chrominance)
- Các tín hiệu video thành phần được lấy mẫu (samples) và số hoá (digitised) để tạo nên cácđiểm ảnh rời rạc theo tỷ lệ 4:2:2, 4:2:0 và 4:1:1
Trang 18- Các sơ đồ nén theo MPEG, H26X đều dùng kỹ thuật subsampling và lượng tử hoá trước khi
mã hoá nhằm giảm kích thước bức ảnh đầu vào theo cả chiều ngang và chiều dọc
- Đều tiến hành chia khung hình thành các khối điểm ảnh để việc xử lý các khung hình có thểđược thực hiện ở cấp độ block
- Giảm thời gian phụ thuộc giữa các khối trong các khung hình kế tiếp Điều này thực hiệnbằng các kỹ thuật ước lương chuyển động và bù chuyển động Đối với bất kì khối nào, việctìm kiếm được thực hiện trong các khung mã hóa trước đó để xác định vector chuyển động
mà sau đó được sử dụng bởi bộ mã hóa và giải mã để dự đoán khối chủ đề
- Giảm độ dư thừa không gian trong các khung hình video bằng cách mã hóa một số khối gốcthông qua việc dự báo về không gian, lượng tử hóa, các phép biến đổi và mã hóa dữ liệungẫu nhiên, mã hóa độ dài thay đổi
- Giảm không gian dư thừa còn lại tồn tại trong các khung hình video bằng cách mã hóa cáckhối còn lại… tức là sự sai khác giữa các khối tương ứng ban đầu và các khối dự đoán, mộtlần nữa thông qua biến đổi, lượng tử hóa và mã hóa dữ liệu ngẫu nhiên
1.2.3.2 Khác nhau
1 Cấu trúc phân lớp dữ liệu
Chuẩn nén H.261 tổ chức dữ liệu theo dòng các frame, với hai loại frame là: frame I và frame P,còn MPEG-1 sử dụng cả frame I, P, B
Trong mỗi frame của chuẩn H.261, dữ liệu được tổ chức thành các GOB (Group Of Block) cókích thước giống nhau theo từng chuẩn định dạng Mỗi frame của chuẩn MPEG-1 được tổ chứcthành các GOP (Group Of Picture) có kích thước có thể không giống nhau
2 Định dạng video
- H.261 sử dụng 2 chuẩn định dạng CIF (352x288 pixels) và QCIF (176x144 pixels)
- MPEG-1 sử dụng các chuẩn định dạng CIF, SIF (Source Input Format) và có thể thiết lập độphân giải lên đến 4095x4095 pixels
3 Quá trình lượng tử hóa
Chuẩn H.261 sử dụng một bảng lượng tử hóa cho tất cả các block Nhưng chuẩn MPEG-1 sửdụng hai bảng lượng tử hóa khác nhau cho các block của intraframe và các block của interframe
4 Độ chính xác của kỹ thuật bù chuyển động
Độ chính xác của kỹ thuật bù chuyển động trong chuẩn nén video MPEG-1 lên đến ½ pixel, cònchuẩn nén H.261 là 1 pixel
2.1 Các phương pháp mã hóa tiếng nói
Mã hóa tiếng nói gồm 3 phương pháp chính:
Trang 192.1.1 Phương pháp mã hóa tín hiệu dạng sóng (waveform),
+ Mã hóa dạng sóng là kỹ thuật duy trì hình dạng ban đầu cả các sóng tín hiệu.Nguyên lý của mã hóa dạng sóng : Tại phía phát sẽ nhận tín hiệu tiếng nói tương tụliên tục và mã hóa thành tín hiệu số Tại phía thu, bộ giải mã đảm nhận nhiệm vụ ngược lại
để khôi phục tiếng nói, khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục sẽgiống vơi tiếng nói gốc
+ Bao gồm 2 loại chính:
Mã hóa trong miền thời gian: bao gồm các chuẩn từ G.710 đến G.719
o Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử hóa đã được chuẩnhóa với chuẩn G.711
o Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code Modulation DPCM
- Mã hóa dự đoán thích nghi – điều xung mã sai phân thích nghi AdaptiveDifferential Pulse Code Modulation - ADPCM với chuẩn G.726
Mã hóa trong miền tần số:
o Mã hóa các dải tần con Subband Coding – SBC với chuẩn G.722
o Mã hóa dựa trên phép biến đổi Transform Coding
+ Ưu điểm là có khả năng cung cấp thoại tốt như tiếng nói gốc nhưng chỉ hiệu quả ởtốc độ bit cao
o Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm con ngườiVocoder, tạo ra âm thanh tiếng nói từ tập các tham số Vocoder làm việc với 2 kiểunguồn kích thích là nguồn xung tạo ra âm hữu thanh và nguồn nhiễu trắng tạo ra âm
vô thanh Từ đó, nó mô phỏng hệ thống phát âm bằng hệ thống lọc dự đoán tuyếntính LPC được kích thích bằng hai trạng thái nguồn
o Ưu điểm của phương pháp này là đạt được tốc độ dòng bit thấp, phân tích được cáctham số nguồn kích thích, có thể sửa đổi nội dung tiếng nói theo ý muốn Tuy nhiên,nhược điểm của nó là tiếng nói nhận được là tiếng nói tổng hợp không phải là giọngnói con người
o Mã hóa lai dùng để lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóanguồn vì mã hóa dạng sóng có khả năng cung cấp thoại tốt nhưng bị giới hạn về sửdụng tốc độ thấp hơn còn mã hóa nguồn có thể hoạt động ở tốc độ tấp nhưng khôngthể tạo ra âm thanh trung thực ở bất kì tốc độ nào
o Mã hóa lai phổ biến là mã hóa dựa trên kết hợp phân tích bằng cách tổng hợpAnalysis-by-Synthesis AbS:
+ Phương pháp này sử dụng mô hình dự đoán tuyến tính ( giống LPC) tạo ra
âm thanh tiếng nói nhờ tập các tham số nhưng không ứng dụng mô hình ở trạng tháiđơn giản ( hữu thanh- vô thanh)
Trang 20+ Mô hình này cố gắng giảm tối đa độ sai lệch với dạng sóng của tín hiệu vàobằng cách tìm kiếm tín hiệu kích thích ký tưởng
+ Thuật toán tìm ra sóng kích thích này quyết định độ phức tạp của bộ mãhóa
o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín hiệu kích thíchCELP, RPE-LTP, MPE…
Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit dưới 16Kbps Nhưng tiếng nói nhận được khá giống với tiếng nói ban đầu
Mã hóa Vocoder có thể đạt được tốc độ bit rất thấp nhưng tiếng nói nhận được là tiếng nói tổng hợp không giống với tiếng nói ban đầu
Mã hóa lai cải thiện được các nhược điểm của mã hóa sóng và mã hóa nguồn, nhưng tương đối phức tạp thường được dùng theo chuẩn GSM
2.2 Các yếu tố ảnh hưởng đến chất lượng âm thanh trong VoIP
- Băng thông: Là tốc độ truyền thông tin, băng thông càng lớn càng tốt Mạng VoIP thựchiện việc nén thoại để giảm băng thông so với chuyển mạch kênh truyền thống Chuẩn G.729 giảiquyết được vấn đề là giảm băng thông xuống mức cho phép mà vẫn đảm bảo chất lượng thoại
- Trễ: Có thể chia trễ trong mạng VoIP thành 3 loại trễ: trễ xử lý, trễ mạng và trễ bộ đệm.Trễ xử lý bao gồm trễ mã hoá & trễ đóng gói Bộ xử lý thuật toán mã hóa dự đoán tuyến tính mãđại số cấu trúc thích hợp (CS-ACELP) có độ trễ thấp với kích thước khung là 10ms, xem trước5ms, độ trễ thuật toán tổng cộng là 15ms
Trễ mạng hay là trễ truyền dẫn phụ thuộc vào khoảng cách, dung lượng và trạng thái củaliên kết trong mạng Trễ mạng thường thay đổi và khó biết trước, phụ thuộc vào nhiều phần tử trênmạng, khó xử lý
Trễ bộ đệm là trễ sinh ra tại bộ đệm ở phía thu, khi các gói tranh chấp nhau để giành quyềnđược đọc ra trước Điều này được khắc phục bằng việc nâng cấp năng lực bộ đệm
Trang 212.3 Nén âm thanh chuẩn MPEG
MPEG (The Moving Picture Experts Group Phase) là chuẩn mã hóa dữ liệu đa phương tiện, bao gồm chuẩn mã hóa hình ảnh, âm thanh, dữ liệu truyền hình, truyền hình HD…
Tiêu chuẩn MPEG-1 ( ISO/IEC 11172) là định dạng âm thanh, phim ảnh của nhóm chuyên
gia ảnh động là một tiêu chuẩn cho định dạng âm thanh, phim ảnh của tổ chức ISO/IEC phát triển nhằm hỗ trợ các thiết bị trình chiếu âm thanh, phim ảnh Mã hóa ảnh động và âm thanh kết hợp cho phương tiện lưu trữ thông tin số 1,5Mbit/s, bao gồm 05 phần:
- ISO/IEC-11172-1- Hệ thống (lưu trữ và đồng bộ\ âm thanh, phim ảnh và các dữ liệu khác)
- ISO/IEC-11172-2 - Phim ảnh (chứa nội dung của phim ảnh nén)
- ISO/IEC-11172-3 - Âm thanh (chứa nội dụng của âm thanh nén)
- ISO/IEC-11172-4 - Kiểm thử khả năng tương thích (kiểm tra việc triển khai tiêu chuẩn)
- ISO/IEC-11172-5 - Phần mềm tham chiếu (phần mềm mẫu thực hiện việc mã hóa và giải
mã như thế nào)
MPEG-1 phần Âm thanh (ISO/IEC-11172-3) được chia làm 03 lớp:
- Lớp I có tỉ lệ bitrate từ 32 – 448 kbit/s (32, 64, 96… 416, 448 kbit/s),
- Lớp II có tỉ lệ bitrate từ 32-384 kbit/s (32, 48, 56, 64, 80…256, 320, 384 kbit/s),
- Lớp III có tỉ lệ bitrate từ 32-320 kbit/s (32, 40, 48, 56, 64, 80…224, 256, 320 kbit/s) Việc
mã hóa/giải mã sẽ phức tạp hơn trong lớp cao hơn và sử dụng hiệu quả ở tỉ lệ bitrate thấp hơn
Trang 22MPEG-1 phần Âm thanh Lớp I có định dạng tệp tin là (.mp1) và định dạng tệp tin của Lớp
II là (.mp2), chủ yếu được sử dụng trong phát sóng truyền thanh, truyền hình MPEG-I phần Âm thanh Lớp III, thường được gọi là MP3, có định dạng tệp tin là (.mp3), là định dạng âm thanh phổ
biến trong ngành công nghiệp âm nhạc, giải trí trên Internet do kích thước nhỏ gọn và chất lượng
âm thanh của tệp tin.mp3
2.4 Phân tích ảnh hưởng CODEC đến chất lượng âm thanh mp3.
Codec là từ được kết hợp từ Coder-Decoder (hoặc là CompressorDecompressor),một chương trình phần mềm cho phép mã hóa và giải mã các luồng dữ
liệu số hoặc là tín hiệu Ta thấy có 2 tham số ảnh hưởng đến chất lượng âm thanh khi mã hóa mp3
là bitrate và tần số lấy mẫu
Khi bitrate giảm và tần số lấy mẫu không đổi sẽ làm cho dung lượng file giảm theo ,thành phần tần số cao thu được sẽ ít hơn , thành phần tần số thấp sẽ thu được nhiều hơn Khi đấy
âm thanh sẽ nghe trầm hơn , và khó nghe do chất lượng âm thanh giảm Không có thanh phần tần
số cao sẽ làm không phân biệt được 1 số âm sắc
Khi tần số lấy mẫu giảm và bitrate không đổi thì dung lượng file cũng sẽ nhỏ hơn ,thành phần tần số cao giảm mạnh , các thành phần tần số thấp sẽ thu được nhiều hơn Chất lượng
âm thanh giảm mạnh là do chu kì lấy mẫu lớn , chênh lệch biên độ lấy mẫu thu được sẽ nhận sẽ lớnhơn Nếu đem nguyên dạng đi mã hóa thì âm thanh của chúng ta thu được sẽ rất khó nghe Dothành phần tần số cao lúc này đóng vai trò như là tạp âm Bắt buộc chúng ta phải lọc các thànhphần tần số cao Lúc này , chúng ta sẽ thu được các thành phần tần số thấp hơn Khi đó số mức để
mã hóa trong huffman sẽ ít đi rất nhiều Nên dung lượng file sẽ giảm đi nhanh chóng
Trang 23RTP được sử dụng kết hợp với RTCP (Realtime Transport Control Protocol) Trong khiRTP được dùng để truyền dòng dữ liệu đa phương tiện truyền thông (âm thanh và video) thì RTCPđược dùng để giám sát QoS và thu thập các thông tin về những người tham gia phiên truyền RTPđang thực hiện.
Giao thức RTP chạy trên nền UDP để sử dụng các chức năng ghép kênh và checksum
Cả hai giao thức RTP và UDP tạo nên một phần chức năng của lớp giao vận Tuy nhiênRTP cũng có thể được sử dụng với những giao thức khác của lớp mạng và lớp giao vận bên dướimiễn là các giao thức này cung cấp được các dịch vụ mà RTP đòi hỏi Một điều cần lưu ý là bảnthân giao thức RTP không cung cấp một cơ chế nào đảm bảo việc phân phát kịp thời dữ liệu tới cáctrạm, mà nó dựa trên các dịch vụ của lớp thấp hơn để thực hiện điều này RTP cũng không đảm bảoviệc truyền các gói theo đúng thứ tự Tuy nhiên số thứ tự trong header cho phép bên thu điều chỉnhlại thứ tự dòng gói tin của bên phát gữi đến
RTP không chỉ hỗ trợ các dịch vụ phổ biến của hầu hết các ứng dụng truyền thông hội nghị
đa phương tiện mà còn có khả năng mở rộng cho phù hợp với dịch vụ mới Khả năng mở rộng, các
mã tương ứng trong trường PT của header ứng với các loại payload trong gói RTP được mô tả trongprofile đi kèm
Cấu trúc giao thức RTP:
Theo cấu trúc trên:
- Phần header cố định
Version: 2 bit Trường vesion để chỉ phiên bản của giao thức Có 3 phiên bản 0,1,2 Phiên bản
hiện tại được sử dụng là 2
P (Padding): 1 bit Nếu trường P được thiết lập thì gói tin sẽ có một hoặc nhều octets P (nhữngoctets này không phải một phần của payload) được thêm vào cuối gói tin Octet P cuối cùng chỉkích thước của tổng octect được thêm vào Mục đích của việc thêm octect P là để dùng cho thuậttoán mã hóa cần kích thước gói cố định hoặc được dùng cho việc cách ly các gói RTP trong trườnghợp nhiều gói thông tin được mang trong cùng một đơn vị dữ liệu của giao thức lớp dưới
X (Extension): 1 bit Nếu trường X được thiết lập thì phần header cố định phải được liên kết
với phần header mở rộng
CC (CSRC count): 4 bits Chứa các giá trị của trường CSRC ID trong header cố định.
M (Marker): 1 bit Được sử dụng ở lớp ứng dụng để xác định một profile.
PT (Payload type): 7 bits Xác định và nêu ý nghĩa các dạng payload của RTP RTP có thể hỗ
trợ đến 27 = 128 loại payload khác nhau Với một luồng âm thanh hay video trường PT được sửdụng để kí hiệu các mã âm thanh hay video Ví dụ: mã PT của một số định dạng âm thanh và video:
Trang 24PCM (0),GSM(3), LPC (7), G.722 (9), MPEG Audio(14), G.728(15), JPEG(26), H.261(31),MPEG1(32), MPEG2(33) Nếu máy phát quyết định thay đổi mã ở phần giữa của một phiên làmviệc, thì máy phátcó thể thông báo cho máy thuvề sự thay đổi trường PT Máy phát có thể thay đổi
mã để tăng chất lượng âm thanh hay video hoặc giảm tốc độ luồng RTP
Sequence Number: 16 bits Trường mang số thứ tự của các gói tin RTP Số thứ tự này được
tăng lên 1 sau mỗi lần gói tin RTP được máy phát gửi đi và còn được dùng để máy thu phát hiệnmất gói và khôi phục lại trình tự chuỗi gói tin Giá trí khởi đầu của trường này là một giá trị ngẫunhiên Vd: máy phát nhận được luồng gói tin RTP có khoảng trống giữa 2 hai số thứ tự 86, 89 thìmáy phát sẽ biết rằng gói tin có số thự tự 87, 88 đã bị mất
Timestamp: 32 bits Trường xác định thời điểm lấy mẫu của octets đầu tiên trong gói tin RTP.
Thời điểm lấy mẫu phải được đo bằng một đồng hồ tăng đều đặn và tuyến tính về mặt thời gian đểcho phép việc đồng bộ và tính toán độ jitter Tần số đồng hồ này là không cố định mà phụ thuộcvào loại định dạng của payload Giá trị khởi đầu trường timestamp cũng được chọn một cách ngẫunhiên Một vài gói tin RTP có thể mang cùng một giá trị của trường này nếu như chúng được phát
đi cùng một lúc về mặt logic (ví dụ như các gói của cùng một khung hình video) Trong trường hợpcác gói dữ liệu được phát ra sau những khoảng thời gian bằng thì giá trị timestamp được tăng mộtcách đều đặn Ngược lại, trong trường hợp khác giá trị timestamp sẽ tăng không đều đặn
SSRC (Synchronization Source Identifier): 32 bits Giá trị của trường SSRC chỉ ra nguồn
đồng bộ (nguồn phát gói tin RTP từ micro, camera hay RTP mixer) của gói tin RTP, giá trị nàyđược chọn ngẫu nhiên Trong một phiên kết nối RTP thì có nhiều nguồn đồng độ phát ra nhiềudòng gói tin RTP Máy thu sẽ nhóm các dòng gói tin RTP cùng nguồn để phát lại tín hiệu thời gianthực (real-time)
CSRC (Contributing Source List): từ 0 đến 15 items, 32 bits Trường CSRC xác định các
nguồn đóng góp payload cho gói tin (CSRC cho phép xác định tối đa 15 nguồn đóng góp tương ứng
vớ 15 items) Giá trị của CSRC được cho bởi trường CC và giá trị này được chèn vào mỗi itemsbằng các bộ trộn (mixer)
- Phần header mở rộng:
Cơ chế mở rộng của RTP cho phép những ứng dụng riêng lẻ của giao thức RTP thực hiệnđược với những chức năng mới đòi hỏi những thông tin thêm vào phần header của gói tin Cơ chếnày được thiết kế để một vài ứng dụng có thể bỏ qua một số ứng dụng khác lại có thể sử dụng đượcphần nào đó Nếu như trường X (bit X) trong phần header cố định được đặt bằng 1 thì theo sauphần header cố định là phần header mở rộng có chiều dài thay đổi 16 bit đầu tiên của trong phầntiêu đề được sử dụng với mục đích riêng cho từng ứng dụng được định nghĩa bởi profile (thường nóđược sử dụng để phân biệt các loại tiêu để mở rộng) 16 bits kế tiếp mang giá trị chiều dài của phầnheader mở rộng tính theo đơn vị là 32 bits (Giá trị này không bao gồm 32 bit đầu tiên của phầnheader mở rộng)
RTP được sử dụng kết hợp với RTCP (Realtime Transport Control Protocol) Trong khi
RTP được dùng để truyền dòng dữ liệu đa phương tiện truyền thông (âm thanh và video) thì RTCPđược dùng để giám sát QoS và thu thập các thông tin về những người tham gia phiên truyền RTPđang thực hiện
RTCP cung cấp thông tin về các gói tin nhận được,cung cấp thông tin phản hồi để theo dõi vềchất lượng dịch vụ hội nghị và thông tin về các thành viên tham gia hội nghị để giúp kiểm soátphiên làm việc
3.1.2 Giao thức thiết lập phiên SIP (Session Initiation Protocol )
Trang 25SIP (Session Initiation Protocol) là một giao thức điều khiển và đã được chuẩn hóa bởiIETF Nhiệm vụ của nó là thiết lập, hiệu chỉnh và kết thúc các phiên làm việc giữa người dùng Cácphiên làm việc cũng có thể là hội nghị đa phương tiên, cuộc gọi điện thoại điểm-điểm,…
SIP được sử dụng kết hợp với các chuẩn giao thức IETF khác như là SAP, SDP và MGCP(MEGACO) để cung cấp cho các dịch vụ VoIP
Cấu trúc của SIP tương tự với cấu trúc của HTTP (giao thức client-server) Nó bao gồm cácyêu cầu được gởi đến từ người sử dụng SIP client đến SIP server Server xử lý các yêu cầu và đápứng đến client Một thông điệp yêu cầu, cùng với các thông điệp đáp ứng tạo nên sự thực thi SIP
H323 là bộ giao thức báo hiệu ( signaling ), có chức năng thiết lập, ngắt và thay đổi cuộcgọi H323 cung cấp nền tảng kỹ thuật cho việc truyền thoại, hình ảnh và số liệu đồng thời qua mạngIP
Khuyến nghị của ITU-T về chuẩn H.323 đã đưa ra tiêu chuẩn H.323 gồm các giao thức:
Khuyến nghị này bao gồm giao thức RTP/RTCP và các thủ tụcđiều khiển cuộc gọi Q.931(DSS 1)
Các chuẩn nén tín hiệu video
3.2 RTP/RTCP
RTP/RTCP
Trang 26Truyền audio Truyền Video
Trong cùng một phiên RTP, Mỗi gói
RTP-audio gửi đi từ một nguồn đông bộ
thường chứa lượng dữ liệu audio như nhau, độ
dài gói tin là như nhau
Trong cùng một phiên RTP, mỗi góiRTP-video gửi đi từ một nguồn đồng bộ có thểchứa lượng dữ liệu video khác nhau, độ dài góitin là khác nhau
Độ dài gói RTP-audio thường nhỏ hơn
gói RTP-video rất nhiều
Độ dài gói RTP-video lớn hơn độ dàigói RTP- audio rất nhiều
Gói RTP-audio được gửi đi đều đặn
theo thời gian, tùy vào cách phân gói(khoảng
cách 10-15ms là đảm bảo chất lượng với người
nghe phía nhận)
Cần nhiều gói tin để truyền hết mộtkhung hình, các gói tin này chứa dữ liệu ở cùngmột thời điểm, chúng được cố gắng gửi đinhanh nhất có thể, khoản thời gian rất sát nhau
Sau khi truyền hết các gói tin thuộccùng một khung hình, sender nghỉ một quãngthời gian dài hơn rồi truyền tiếp các gói tinthuộc khung hình mới Quãng thời gian giữacác khung hình này phụ thuộc vào số khunghình /s (ví dụ với 30 khung hình /s, thời giannày sẽ gần bằng 1/30s)
Timestamp của mỗi gói tin tang đều
đặn sau mỗi gói
Các gói tin liên tiếp thuộc cùng mộtkhung hình sẽ có timestamp giống nhau,trường timestamp chỉ thay đổi khi các gói tinRTP truyền một khung hình mới
H.323 là một chuẩn quốc tế về hội thoại trên mạng được đưa ra bởi hiệp hội viễn thông quốc
tế ITU(International Telecommunication Union) chuẩn H.323 xác định các thành phần, các giao thức, các thủ tục cho phép truyền các dữ liệu đa phương tiện(Multimedia) âm thanh, hình ảnh và số liệu thời gian thực thông qua mạng IP mà không cần quan tâm tới chất lượngdịch vụ(QoS)
Tuân theo chuẩn H.323 các sản phẩm và các ứng dụng đa phương tiện của nhiều hãng khác nhau có thể giao tiếp được với nhau
Các dòng thông tin trong hệ thống H323 được chia ra làm các loại:
Trang 27Audio ( thoại): là tín hiệu thoại được số hóa và mã hóa Để giảm tốc độ trung bình của tín hiệu thoại, cơ chế phát hiện tích cực thoại có thể được sử dụng Tín hiệu thoại được đi kèm với tín hiệu điều khiển thoại.
Video( hình ảnh): là tín hiệu hình ảnh động cũng được số hóa và mã hóa Tín hiệu video cũng
đi kèm với tín hiệu điều khiển video
Số liệu: bao gồm tín hiệu fax, tài liệu văn bản, ảnh tĩnh, file
Tín hiệu điều khiển truyền thông( Communication control signals): là các thông tin điều khiển trao đổi giữa các thành phần chức năng trong hệ thống để thực hiện điều khiển truyền thông giữa chúng như: trao đổi khả năng, đóng mở các kênh logic, các thông điệp điều khiển luồng và các chứcnăng khác
Tín hiệu điều khiển cuộc gọi( Call control signals): được sử dụng cho các chức năng điều khiểncuộc gọi như là thiết lập cuộc gọi, kết thúc cuộc gọi
Tín hiệu kênh RAS: được sử dụng để thực hiến các chức năng: đăng ký tham gia vào một vùng H323, kết nạp/tháo gỡ một điểm cuối(endpoint) khỏi vùng, thay đổi băng thông và các chức năng khác liên quan đến chức năng quản lý hoạt động của các điểm cuối trong một vùng H323
H323 Gatekeeper: Là một thành phần không bắt buộc, đóng vai trò là điểm trung tâm trong mô hình mạng H.323, quản lý hoạt động hệ thống, quyết định việc cung cấp địa chỉ (addressing),phân phát băng thông (bandwidth), cung cấp tài khoản, thẩm định quyền (authentication) cho các
terminal và gateway…
MCU ( Multipoint control unit): Thực hiện chức năng tạo kết nối đa điểm, hỗ trợ các ứng dụng truyền thông nhiều bên
Sơ đồ cấu trúc hệ thống H323
Trang 28RTP/RTCP được dung để truyền các gói tin audio, video Ngoài ra một đầu cuối H.323 cũng có thể được trang bị thêm một số tính năng như: mã hoá và giải mã các tín hiệu audio, video, hỗ trợ giao thức T120 được dung để trao đổi thông tin số liệu, tương thích với MCU
để hỗ trợ các liên kết đa điểm
3.3.1.2.Gateway:
- Nhiệm vụ: thực hiện việc kết nối giữa 2 mạng khác nhau
Gateway mang các tính năng phục vụ cho hoạt động tương tác của các thiết bị trong hệ thống H323với các thiết bị trong mạng chuyển mạch kênh như PSTN, ISDN, Gateway H323 được bố trí nằm giữa các thành phần trong hệ thống H323 với các thiết bị nằm tỏng các hệ thống khác ( các mạng chuyển mạch kênh SCN) Nó phải cung cấp tính năng chuyển đổi khuyên dạng dữ liệu truyền và chuyển đổi thủ tục một cách thích hợp giữa mạng LAN các loại mạng mà gateway kết nối tới, cụ thể:
Thực hiện chuyển đổi khuôn dạng dữ liệu thoại, video, số liệu nếu cần
Thực hiện chức năng thiết lập cuộc gọi, hủy cuộc gọi đối với cả 2 phía mạng LAN và mạng chuyển mạch kênh SCN
Trang 29Các Gateway có thể liên kết với nhau thông qua mạng chuyển mạch kênh để cung cấp khảnăng truyền thông giữa các thiết bị đầu cuối H323 không nằm trong cùng 1 mạng LAN.
Các thiết bị cuối H323 trong cùng 1 mạng LAN có thể thông tin trực tiếp với nhau mà khôngphải thông qua Gateway Do vậy khi hệ thống không có yêu cầu thông tin với các terminal trongcác mạng chuyển mạch kênh thì có thể bỏ qua vai trò của Gateway
Cấu trúc của Gateway H323 bao gồm:
Khối chức năng của thiết bị H323, khối chức năng này có thể là chức năng đầu cuối để giao tiếp với một terminal trong hệ thống H323, hoặc chức năng MCU để giao tiếp với nhiều terminal
Khối chức năng của thiết bị chuyển mạch kênh, mang chức năng giao tiếp với một hay nhiều thiết bị đầu cuối trong mạng chuyển mạch kênh
Khối chức năng chuyển đổi, bao gồm chuyển đổi khuôn dạng dữ liệu và chuyển đổi thủ tục
Gateway liên kết với máy điện thoại thông thường phải tạo và nhận biết được tín hiệu DTMF(Dual Tone Multiple Frequency) tương ứng với các phím nhập từ bàn phím điện thoại
3.3.1.3 Gatekeeper
Gatekeeper là một thành phần quan trọng trong mạng H.323 nó được xem như là bộ não của mạng Gatekeeper cung cấp các chức năng như:
- Dịch địa chỉ: dịch từ địa chỉ hình thức của 1 đầu cuối sang địa chỉ IP tương ứng
- Điều khiển kết nạp: Gatekeeper sẽ chấp nhận một truy nhập mạng LAN bằng cách sử dụng các bản tin H.225 là ARQ/ACF/ARJ
- Điểu khiển băng thông: điều khiển cấp hoặc từ chối cấp một phần băng thông cho các cuộc gọi của các thiết bị trong hệ thống thông qua các bản tin H.225 là BRQ/BCF/BRJ
- Quản lý vùng: một vùng là một nhóm các đầu cuối H.323, các gateways, MCU được quản
lý bới gatekeeper Thông qua các chức năng như: dịch địa chỉ, điều khiển truy nhập, điều khiển độ rộng băng tần gatekeeper cung cấp khả năng quản lý miền
Ngoài ra gatekeeper còn có thể cung cấp các chức năng tuỳ chọn sau:
- Điều khiển báo hiệu cuộc gọi: Gatekeeper có thể nhận và xử lý báo hiệu cuộc gọi để điều khiển hoạt động của các thiết bị đầu cuối hoặc định hướng các thiết bị đầu cuối nối trực tiếp với nhau qua kênh báo hiệu cuộc gọi
- Hạn chế truy nhập: Gatekeeper có thể sử dụng báo hiệu trên kênh H.225 để từ chối một cuộc gọi của một thiết bị đầu cuối khi nhận thấy có lỗi trong việc đăng ký
- Quản lý cuộc gọi: Gatekeeper có thể duy trì một danh sách các cuộc gọi đang được tiến hành nhờ đó biết được thiết bị nào đang bận
3.3.1.4.MCU(Multipoint Control Unit):
MCU hỗ trợ việc thực hiện các cuộc đàm thoại hội nghị giữa nhiều thiết bị đầu cuối Trongchuẩn H323, MCU bắt buộc phải có một bộ điều khiển đa điểm MC (Multipoint Controller) và cóhoặc không một vài MP (Multipoint Processor)
- MC và MP là các thành phần của MCU nhưng chúng có thể không tồn tại trong một thiết bị độc lập mà phân tán trong các thiết bị khác Ví dụ : một Gateway có thể mang trong nó một MC và
Trang 30một vài MP để thực hiện kết nối tới nhiều thiết bị đầu cuối, một thiết bị đầu cuối có thể mang một
MC để có thể thực hiện nhiều cuộc gọi cùng lúc
- MC điều khiển việc liên kết giữa nhiều điểm cuối trong hệ thống bao gồm:
Xử lý việc đàm phán giữa các thiết bị đầu cuối để quyết định một khả năng xử lý dòng dữ liệumedia chung giữa các thiết bị đầu cuối
Quyết định dòng dữ liệu nào sẽ là dòng dữ liệu multicast
- MC không xử lý trực tiếp một dòng dữ liệu media nào Việc xử lý các dòng dữ liệu sẽ do các
MP đảm nhiệm MP sẽ thực hiện việc trộn, chuyển mạch, xử lý cho từng dòng dữ liệu thời gian thực trong cuộc hội nghị
- Việc truyền thông tin trong mạng IP tồn tại dưới 3 hình thức: Unicast, multicast và broadcast
- Trong hệ thoogns H323, cuộc hội nghị nhiều bên có thể có ba loại cấu hình hội nghị sau:
Cấu hình tập trung (Centralized Multipoint Conference)
Cấu hình phân tán (Decentralized Multipoint Conference)
Cấu hình lai (Hybrid Multipoint Conference)
H323 cung cấp nhiều loại hình dịch vụ từ thoại đến video và dữ liệu, thông tin đa phương tiện.H323 có đặc điểm kỹ thuật giống như một chiếc dù chứa đựng một số lượng lớn bộ máy có tác động qua lại với nhau bằng nhiều cách thức khác nhau dựa vào bộ dạng, sựvắng mặt, mối quan hệ mô hình của những thực thể tham gia và loại session (ví dụ như là audio và video) Có nhiều giao thức con bên trong đặc điểm của giao thức H323:
Với dịch vụ audio có giao thức lớp ứng dụng là các chuẩn G (G.711, G.722, G.723.1, G.728, G.729) Với dịch vụ video có các giao thức chuẩn H( H261, H263) Chúng cùng với các giao thức RTCP, RAS, RTP dựa trên nền UDP ở lớp vận chuyển
Với dịch vụ truyền dữ liệu/fax: có chuẩn riêng, không dựa trên nền UDP, đó là T120 cho truyền dữ liệu và T138 cho fax
RAS: quản lý việc đăng kí, chấp nhận và trạng thái dùng cho truyền thông giữa một điểm cuối H323 với một Gatekeeper
Q931: Quản lý việc thiết lập và điều khiển/kết thúc cuộc gọi
H225: Điều khiển cuộc gọi
H245: Các giao thức điều khiển truyền thông ( Medio Control)
H235: Giao thức bảo mật và chứng thực
H450.x: Các dịch vụ bổ trợ như chuyển hướng cuộc gọi, giữ cuộc gọi, dừng cuộc gọi, chỉ dẫn tin nhắn chờ
Trang 31Mô hình giao thức H323 tương quan với mô hình OSI
- Khi 1 phiên kết nối được thực hiện, việc dịch địa chỉ (address translation) sẽ được 1 gateway đảm nhận Khi địa chỉ IP của máy đích được xác nhận, 1 kết nối TCP sẽ được thiết lập từ địa chỉ nguồn tới người nhận thông qua giao thức Q.931 Ở bước này, cả 2 nơi đều tiến hành việc trao đổi các tham số bao gồm các tham số mã hoá (encoding parameters) và các thành phần tham số liên quan khác Các cổng kết nối và phân phát địa chỉ cũng được cấu hình 4 kênh RTCP và RTP được kết nối, mỗi kênh có 1 hướng duy nhất RTP là kênh truyền dữ liệu âm thanh (voice data) từ 1 thực thể sang 1 thực thể khác Khi các kênh đã được kết nối thì dữ liệu âm thanh sẽ được phát thông qua các kênh truyền này thông qua các RTCP instructions
- Kênh RAS dùng để truyền tải các bản tin sử dụng trogn quá trình đăng ký điểm cuối và tìm kiếm Gatekeeper mà liên kết một địa chỉ định danh của điểm cuối với địa chỉ lớp giao vận kênh báohiệu cuộc gọi của nó Kênh RAS là kênh không tin cậy, vì thế trong khuyến nghị H225 đã khuyến nghị thời gian giới hạn định trước và số lần gửi yêu cầu cho một vài loại bản tin:
1 Tìm kiếm Gatekeeper: Điểm cuối sẽ tìm kiếm Gatekeeper mà nó đăng ký, việc tìm kiếm này
có thể được thực hiện bằng thủ công hoặc tự động
2 Đăng ký điểm cuối: là quá trình điểm cuối liên kết vào vùng dịch vụ và thông báo cho
Gatekeeper địa chỉ định danh cũng như địa chỉ lớp giao vận của nó Sau khi tìm được Gatekeeper, tất cả các điểm cuối sẽ đăng ký với Gatekeeper này Việc đăng ký phải được thực hiện trước khi một cuộc gọi nào đó bắt đầu ĐIểm cuối sẽ gửi yêu cầu đăng ký RRQ (Registration Request) tới Gatekeeper Nếu chấp nhận sự đăng ký của điểm cuối, Gatekeeper sẽ trả lời lại bằng xác nhận đăng
ký RCF (Registration COnfirmation), ngược lại nó sẽ trả lời bằng tín hiệu từ chối RRJ (RegistrationReject)
3 Định vị điểm cuối: Điểm cuối hoặc Gatekeeper có địa chỉ đinh danh của một điểm cuối khác
và muốn liên lạc với nó, thì có thể dùng bản tin yêu cầu định vị LRQ Bản tin này được gửi tới bộ nhận dạng TSAP kênh RAS của Gatekeeper định trước Gatekeeper tương ứng sẽ gửi trả lời bản tin
Trang 32LCF chứa thông tin cần thiết của điểm cuối hoặc Gatekeeper của điểm cuối Thông tin này bao gồmđịa chì kênh báo hiệu cuộc gọi và kênh RAS.
4 Mã thông báo truy nhập: là một xâu đã được kiểm tra ở bản tin cài đặt và các bản tin RAS
Các thủ tục báo hiệu:
Người ta chia một cuộc gọi ra làm 5 giai đoạn gồm:
- Giai đoạn 1: thiết lập cuộc gọi
- Giai đoạn 2: thiết lập kênh điều khiển
- Giai đoạn 3: thiết lập kênh thoại ảo
- Giai đoạn 4: dịch vụ
- Giai đoạn 5: kết thúc cuộc gọi
Thiết lập cuộc gọi: việc thiết lập cuộc gọi sử dụng các bản tin định nghĩa trong khuyến nghị H225 Có thể xảy ra 6 trường hợp:
- Cuộc gọi cơ bản: cả 2 thiết bị đầu cuối đều không đăng ký
- Cả 2 thuê bao đều đăng ký tới một Gatekeeper
- Chỉ thuê bao chủ gọi đăng ký với Gatekeeper
- Chỉ thuê bao bị gọi đăng ký với Gatekeeper
- Hai thuê bao đăng ký tới hai Gatekeeper khác nhau
- Thiết lập cuộc gọi qua Gateway
Thiết lập kênh điều khiển: khi kết thúc giai đoạn 1 tức là cả bên gọi và bị gọi đã hoàn thành việc trao đổi các bản tin thiết lập cuộc gọi, thì các đầu cuối sẽ thiết lập kênh điều khiển h245 Bảm tin đầu tiên được trao đổi là terminalCapabilitySet để các bên thông báo cho nhau khả năng làm việc của mình Mỗi thiết bị đầu cuối đều có đặc tính riêng nói lên khả năng chế độ mã hóa, truyền nhận và giải mã tín hiệu Kênh điều khiển này có thể do thuê bao bị gọi thiết lập sau khi nó nhận được bản tin Setup hoặc do thuê bao chủ gọi thiết lập khi nó nhận được bản tin Connect hoặc một đầu cuối gửi Release Complete, thì kênh điều khiển H245 được giải phóng
Thiết lập kênh truyền thông: Sau khi trao đổi khả năng và xác định mối quan hệ master-slave
ở giai đoạn 2, thủ tục điều khiển kênh H245 sẽ thực hiện việc mở kênh logic để truyền số liệu Các kênh này là kênh H225 Sau khi mở kênh logic để truyền tín hiệu là âm thanh và hình ảnh thì mỗi đầu cuối sẽ truyền đi một bản tin H225.0 MaximumSkewIndication để xác định thông số truyền
Dịch vụ cuộc gọi: Có một số dịch vụ được thực hiện trên mạng H323 như: thay đổi độ rộng băng tần, giám sát trạng thái hoạt động, hội nghị đặc biệt, các dịch vụ bổ sung
Kết thúc cuộc gọi: một thiết bị đầy cuối kết thúc cuộc gọi theo các bước:
Dừng truyền tín hiệu video khi kết thúc truyền ảnh, sau đó giải phóng tất cả các kênh logic phục vụ truyền video
Dừng truyền dữ liệu và đóng tất cả các kênh logic dùng để truyền dữ liệu
Dừng truyền audio và đóng tất cả các kênh logic dùng để truyền audio
Truyền bản tin H245 endSessionCommand trên kênh điều khiển H245 để báo cho thuê bao đầu kia biết nó muốn kết thúc cuộc gọi Sau đó nó dừng truyền các bản tin H245 và đóng kênh điều khiển H245
Nó sẽ chờ nhận bản tin endSessionCommand từ thuê bao đầu kia và sẽ đóng kênh điều khiển H245
Nếu kênh báo hiệu cuộc gọi đang mở, thì nó sẽ truyền đi bản tin Release Complete sau đó đóng kênh báo hiệu
Trang 33Trong cuộc gọi có sự tham gia của Gatekeeper cần có hoạt động giải phóng băng tần Mỗi đầu cuối sẽ truyền đi bản tin DRQ tới Gatekeeper, sau đó Gatekeeper trả lời bằng bản tin DCF Sau khi gửi DRQ, đầu cuối sẽ không gửi bản tin IRR tới Gatekeeper nữa và khi đó cuộc gọi kết thúc.
3.4. SIP: Session Initiation Protocol : Giao thức thiết lập phiên
3.4.1 Giới thiệu và SIP
SIP (Session Initiation Protocol) được nghiên cứu và phát triển từ năm 1996 bởi IETF (Internet Engineering Task Force).
SIP có các phiên bản: SIP 1.0 RFC 2543, SIP 2.0 RFC 3261 được công bố
năm2002
SIP là giao thức ở tầng ứng dụng theo mô hình OSI để thiết lập phiên truyền thông bao gồm các chức năng:
User location and name translation: xác định vị trí người sử dụng
User availability: xác định người dùng sẵn sàng tham gia phiên truyền thông và các tham số truyền tải dữ liệu media
User capabilities: xác định khả năng
Session setup: thiết lập tham số phiên giao tiếp của hai đầu cuối
Session management: thay đổi các tham số phiên và gọi các dịch vụ.SIP được thiết kế dưới dạng các thành phần cho phép kết hợp với các giao thức
để tạo nên kiến trúc truyền thông hoàn chỉnh SIP được kết hợp với RTP/RCTP, SDP, SAP, RSVP,…
Kiến trúc của SIP tương tự kiến trúc HTTP Sử dụng mô hình request-response cho truyền thông
SIP sử dụng chủ yếu UDP trên nền IPv4, IPv6
Trang 341.2 Kiến trúc hệ thống SIP
Kiến trúc hệ thông SIP gồm 2 thành phần cơ bản:
User Agent (UA)
Network Server (NS)
Hình 2: Kiến trúc hệ thống SIP
User Agent là thiết bị đầu cuối của SIP, gồm 2 loại:
User Agent Client (UAC): gửi các yêu cầu SIP
User Agent Server (UAS): tiếp nhận và giải quyết yêu cầu SIP
Network Server:
Proxy Server (PS): nhận và xử lý các yêu cầu trước khi tiếp tục truyền
Redirect Server (RS): trả địa chỉ người nhận cho người tạo yêu cầu
Trang 35 Location Server (LS): định vị, cung cấp các địa chỉ miền, địa chỉ người dùng.
Registrar Server (RS): server đăng ký, thường được cài đặt cùng với
PS hoặc RS
3.4.2 Thông điệp SIP
Hoạt động của SIP dựa trên việc trao đổi các thông điệp giữa các thành phần của
hệ thống