Ghi và lưu trữ audio số

Việc ghi âm vào băng là một ví dụ của kiểu ghi analog. Trong kiểu ghi số, các mẫu được ghi sao cho chúng có thể sử dụng bằng thiết bị số. Việc ghi âm số có nhiều lợi ích hơn so với ghi âm analog. Các tệp số có thể được sao chép bao nhiêu lần cũng được, mà không giảm chất lượng, và chúng có thể được ghi vào một audio CD hoặc chia sẻ qua mạng viễn thông. Các tệp âm thanh số cũng có thể được chỉnh sửa dễ dàng hơn so với băng từ analog.

Thiết bị chính sử dụng trong ghi âm số là bộ chuyển đổi từ tương tự sang số (ADC-Analog Digital Conversion). Bộ ADC thu nhận những tín hiệu của điện thế trên đường audio và tái hiện lại bằng các số có thể được gởi cho máy tính. Bằng cách thu nhận điện thế hàng nghìn lần trên giây, chúng ta có thể lấy được sự xấp xỉ rất tốt của tín hiệu âm thanh ban đầu.

Có 2 nhân tố xác định chất lượng của việc ghi số :

 Tỉ lệ mẫu: Tỷ lệ mẫu được thu nhận hoặc được phát lại, đo bằng Hz, hoặc

mẫu trên giây. Ví dụ một audio CD có tỷ lệ mẫu là 44.100 Hz, thường được ghi

Nguồn âm Nguồn âm thanh Micro Bộ chuyển đổi điện từ   Dao động sóng cơ học Dao động điện Tín hiệu từ được ghi vào băng từ Bộ chuyển đổi từ  điện Tín hiệu từ Tín hiệu điện

ngắn gọn là 44 KHz. Đó cũng là tỷ lệ mẫu mặc định thường được sử dụng, vì audio CD rất thịnh hành.

 Định dạng mẫu hoặc lượng tử mẫu : Về bản chất đó là số con số trong sự

tái hiện số của mỗi mẫu. Nghĩ về tỷ lệ mẫu như sự chính xác theo chiều dọc của dạng sóng số và định dạng mẫu như sự chính xác theo chiều ngang. Một đĩa audio có độ chính xác là 16 bits.

Lượng tử mẫu càng cao cho phép việc phục hồi âm thanh càng chính xác. Tỷ lệ mẫu có thể ít nhất gấp hai lần tần số lớn nhất của tín hiệu mà chúng ta muốn số hoá (định lý lấy mẫu). Con người không thể nghe thấy tần số khoảng 20.000 Hz, do đó 44.100 Hz đã được chọn như tỷ lệ cho các audio CD để bao gồm tất cả các tần số tiếng nói của con người. Tỷ lệ mẫu 96 và 192 KHz đang bắt đầu trở nên phổ biến hơn, thường là trong các DVD-audio, nhưng nhiều người, một cách thành thực, không thể nghe thấy sự khác biệt.

1.4 Đồng bộ tín hiệu audio và video số tránh hiện tượng lip-sync

1.4.1 Hiện tượng lip-sync

Công nghệ số đã giúp cho công nghiệp truyền hình chuyên dụng tiến bộ trên nhiều mặt. Như hiệu suất sử dụng băng thông, lưu trữ chương trình và phân bố tín hiệu đã và đang được cải thiện; khả năng của thiết bị tạo ra các hiệu ứng kỹ xảo đặt biệt, điều không thể đạt được trong những năm trước đây, thì nay là một thực tế hiển nhiên. Tuy nhiên, việc chuyển dịch từ tương tự sang số cũng gặp nhiều thách thức. Trên hết, giai đoạn nén/giải nén, ghép/tách kênh và mã hoá/giải mã. Trong thiết bị quảng bá, các tín hiệu video và audio được xử lý riêng, sau đó liên kết lại để tạo thành một dòng chương trình. Các chu trình mã hoá và giải mã cùng với việc tín hiệu video audio được truyền theo các nhánh riêng biệt thường tạo ra lỗi thời gian tích luỹ đáng kể giữa các tín hiệu này. Nếu các lỗi này đủ lớn và không được sửa chúng có thể gây ra vấn đề lip-sync (không đồng bộ giữa người nói và tiếng phát ra) làm khó chịu cho người xem truyền hình.

Thực ra tầm quan trọng của đồng bộ giữa audio và video không phải là mới. Ngay từ khi phim có âm thanh kèm theo được trình diễn, đôi khi người xem cảm thấy khó chịu khi có lỗi đồng bộ. Tất nhiên khi đó vấn đề dễ được nhận thấy và sửa là đơn giản. Truyền hình tương tự cũng có vấn đề trễ audio - video. Ngay cả khi các tín hiệu audio và video được ghi đồng thời, chúng vẫn có thể được truyền theo các nhánh khác nhau và được sử lý riêng biệt. Audio đi theo các nhánh thẳng thường có thời gian trễ nhỏ hơn video vì thiết bị đồng bộ frame được sử dụng để định lại thời gian tín hiệu video, đồng bộ chúng với tham chiếu thời gian của trạm. Các bộ đồng bộ frame làm việc bằng cách điều chỉnh độ trễ (có thể tới vài frame

video) cho tín hiệu video. Do đó có thể thấy rằng sau vài quá trình chuyển dịch và các bước đồng bộ, thời gian trễ audio - video có thể được tích luỹ qua hệ thống.

Hiện nay các bộ đồng bộ audio được gắn kèm theo các bộ đồng bộ video, giúp duy trì quan hệ thời gian cố định giữa audio - video. Tuy nhiên phương pháp này chỉ bù được độ trễ cho riêng video, không thể sửa được những thay đổi về độ trễ audio - video tại bất cứ nơi nào. Khi tín hiệu tới không đồng bộ đúng, người khai thác phải đánh giá và điều chỉnh bằng tay. Phương pháp này đòi hỏi sự chú ý liên tục, vì độ trễ A/V của tín hiệu có thể thay đổi theo thời gian. Thực tế cho thấy một người có kinh nghiệm có thể phát hiện sai khác về thời gian nhỏ tới 33 ms (khoảng 1 frame NTSC). Thực tế cũng cho thấy người xem có thể giảm hứng thú khi xem chương trình có thời gian trễ bằng một frame trở lên.

1.4.2 Khắc phục hiện tượng lip-sync

Giải pháp khắc phục lip-sync là thiết lập dạng quan hệ không thể xoá được (indelible relationship) giữa audio và video. Hãng Tektronix đã phát triển một giải pháp mới kiểm soát lip - sync. Đó là công nghệ đánh dấu nước (watermaking technology) vào tín hiệu video số. Dấu nước là các thông tin phụ, được cài vào tín hiệu video trong từng frame, được dùng cho các mục đích riêng.

Công nghệ dấu nước của Tektronix dùng nhiều giản đồ bit mức thấp để biểu diển các bit số phụ vào tín hiệu video. Với 16 giản đồ bit trong video frame sẽ tạo kênh dữ liệu phụ (kênh dấu nước) 480 Baud trong tín hiệu video. Dấu nước được cài trong dữ liệu video, có thể giải mã dễ dàng, cho phép phục hồi dữ liệu (payload) trong kênh dấu nước. Payload có thể có dạng bất kỳ, tuy nhiên dung lượng của nó không vượt quá khả năng tốc độ của kênh dấu nước.

Giải pháp sửa lỗi lip-sync này đòi hỏi cài vài dạng tham chiếu thời gian audio vào tín hiệu video khi làm chương trình. Tín hiệu audio tương tự này cũng được xử lý số (lấy mẫu, số hoá và nén) để phù hợp với kênh dấu nước, tạo payload và được cài vào tín hiệu video. Payload được cài sẵn này là điểm tham chiếu, được giải mã và được dùng làm chuẩn để so sánh với dạng sóng tín hiệu audio gốc ở bất kỳ điểm nào của dòng tín hiệu nguồn. Nguồn này có thể có định dạng bất kỳ với tín hiệu audio hoặc video đi qua.

Thời gian trễ giữa tham chiếu audio được đánh dấu và tín hiệu audio gốc là do độ trễ audio-video. Thông tin về lỗi này được sử dụng để tự động điều khiển mạch gây trễ audio phụ. Công nghệ này loại bỏ được vấn đề lip-sync hình thành từ các tín hiệu audio và video dẫn tới studio và video bằng nhiều đường khác nhau.

Một trong các thiết bị sửa tự động lỗi lip-sync và hiển thị các trạng thái video và audio là AVDC 100 của hãng Tektronik. Thiết bị này vừa thực hiện vai trò của bộ mã hoá dấu nước ở phía thu.

Trên đây là tổng quan về lỗi lip-sync và phương pháp khắc phục. Kinh nghiệm cho biết người xem coi lip-sync là yếu tố đầu tiên về chất lượng chương trình. Với truyền hình số, đảm bảo lip-sync cho thiết bị mã hoá và giải mã trong phạm vi hợp lý là vấn đề rất phức tạp, đặc biệt khi tín hiệu video dùng định dạng surround 5.1 số hoặc nhiều loại audio trong mỗi chương trình. Đó là vì mỗi bộ giải mã MPEG-2 dựa vào chuẩn thời gian cài trong dòng truyền tải (Transport Stream - TS) nhằm đồng bộ các thành phần audio và video trong chương trình. Nếu bộ mã hoá không dán đúng nhãn thời gian chuẩn trong dòng truyền, hoặc nếu bộ giải mã đọc nhầm nhãn thời gian do bộ mã hoá truyền đến, nó không khôi phục lại chương trình đồng bộ.

1.4.3 Kiểm soát lip-sync

Chu kỳ xác định thời gian khá phức tạp và nhạy với lỗi của bộ mã hoá và bộ giải mã. Ba nguyên nhân gây ra lỗi lip-sync là:

 Xác định trễ mã hoá video trong bộ mã hoá không chính xác.

 Dán nhãn PCR sai hoặc jitter PCR.

 Giải mã các giá trị PCR và PTS/DTS không chính xác.

Việc mã hoá cặp video và audio với nhãn thời gian đúng không phải là vấn đề dễ dàng vì các dòng video chứa nhiều dữ liệu hơn dòng audio tương ứng, do vậy đòi hỏi thời gian mã hoá nhiều hơn. Thời gian vượt trội này được gọi là độ trễ mã hoá video. Khi tạo nhãn thời gian audio, bộ mã hoá phải tính toán chính xác độ trễ video giữa các gói audio và video. Lỗi rất nhỏ trong các giá trị PTS cũng có thể gây ra các vấn đề lip-sync. Nếu bộ mã hoá dán nhãn PCR với thời gian không đúng, bộ giải mã sẽ không thể khôi phục lại chính xác đồng hồ 27 MHz. Vì tất cả các giá trị PTS/DTS được chuẩn theo PCR nên toàn bộ chương trình sẽ bị hỏng vì có lỗi lip-sync. Jitter quá lớn trên xung đồng hồ 27 MHz cũng có thể gây ra lip-sync và giảm chất lượng video. Thậm chí ngay cả khi bộ mã hoá cho ra PCR, PTS và DTS chính xác, thì bộ giải mã xấu cũng có thể gây ra lip-sync. Nếu bộ giải mã tính nhầm PCR, nó sẽ khôi phục lại đồng hồ 27 MHz không chính xác, và tất cả các giá trị thời gian trong dòng truyền sẽ bị ảnh hưởng. Cũng như vậy, nếu sử dụng các giá trị PTS và DTS không đúng, các bộ nhớ đệm audio và video trong bộ giải mã sẽ bị tràn hoặc vơi, làm mất đồng bộ hoặc chất lượng giảm. Việc phân tích và kiểm soát lip-sync có thể được thực hiện ở đầu ra bộ giải mã.

1.4.4 Đồng bộ

Đồng bộ giữa các thành phần trong dòng truyền dựa trên cơ sở đồng hồ hệ thống của bộ mã hoá. Trên cơ sở đồng hồ, bộ mã hoá dán nhãn chuẩn thời gian, được gọi là chuẩn thời gian chương trình (PCR-Program Clock Reference). Khi dòng truyền tới, bộ giải mã sử dụng PCR để tạo đồng hồ 27 MHz, đồng nhất với đồng hồ

cấp. Các nhãn thời gian này, gọi là nhãn thời gian giải mã (DTS-Decoding Time Stamp) và nhãn thời gian biểu diển (PTS-Presentation Time Stamp), báo cho bộ giải mã biết cần phải giải mã và cung cấp frame hoặc phần audio riêng lẽ cho người xem ở thời gian nào. Nén MPEG-2 truyền các frame video không theo thứ tự; một số frame phải được giải mã trước khi biểu diển chúng. DTS trong header của mỗi gói video thông báo cho bộ giải mã biết thời gian mà frame phải được giải mã. Nếu DTS vượt trước PTS đối với một frame nào đó, frame được giải mã và nằm trong bộ nhớ đệm cho đến thời gian biểu diển nó. Ở phía mã hoá, mỗi chương trình được dán nhãn PCR, PTS và DTS tương ứng. Ở phía giải mã, các PCR được đưa tới vòng khoá pha (PLL-Phase Lock Loop) để tạo lại đồng hồ hệ thống của bộ mã hoá. Điều này đảm bảo rằng bộ mã hoá được đồng bộ với bộ mã hoá, do vậy bộ nhớ đệm trong bộ giải mã không bị tràn hoặc vơi. Cứ mỗi lần đồng hồ hệ thống gốc được phục hồi, bộ giải mã dùng DTS và PTS trong header của mỗi gói audio và video để xác định thời gian giải mã và thời gian biểu diển chính xác cho gói đó.

Kỹ thuật Genlock đã được sử dụng để đồng bộ nhiều nguồn chương trình vào. Tuy nhiên nó chưa phải là cách đồng bộ tín hiệu tốt nhất. Với công nghệ số phát triển, các đồng bộ frame gốc chỉ giải quyết duy nhất phần video của chương trình. Khi chúng được nối kết với nhau, độ trễ video so với audio sẽ tăng lên.

Trong thực tế, tín hiệu video luôn được sử lý nhiều hơn tín hiệu audio. Độ trễ A/V của từng khối xử lý là nhỏ, nhưng trong một hệ thống chúng được cộng lại và tích luỹ. Video và audio được nén bằng nhiều phương pháp và mức độ khác nhau sẽ cho độ trễ khác nhau.

Nếu tín hiệu video đi qua thiết bị có độ trễ biết trước, thì việc khắc phục trễ sẽ đơn giản. Tuy nhiên điều này hầu như khó thực hiện được trong công nghệ số.

Timecode (mã thời gian) hoạt động không tốt có thể gây ra sự dịch chuyển đột ngột hoặc thay đổi thời gian tương đối giữa tín hiệu audio và video. Nếu chỉ riêng tín hiệu audio được xử lý thì bản thân nó lại trễ so với video. Để bù lại độ trễ audio do thiết bị và mã hoá audio gây ra, thiết bị tạo ra độ trễ cho riêng tín hiệu video. Ví dụ, bộ mã hoá Dolby Digital (AC-3) đa kênh (5.1) DP 569 có độ trễ bên trong tối thiểu là 179 ms. DP 569 cho phép người sử dụng điều chỉnh độ trễ video lớn hơn 179 ms, cho phép điều chỉnh audio đồng bộ với video.

Khi trộn các tín hiệu có và không có mã hoá để ghi kỹ thuật số, tín hiệu không mã hoá phải được làm chậm để duy trì đồng bộ với tín hiệu mã hoá. Các chuyển mạch thuận và nghịch giữa các nguồn audio, các hệ thống giảm nhiễu và mã hoá audio khác cũng có thể gây ra vấn đề. Do đó trạm truyền hình số vẫn có thể nãy sinh vấn đề lip - sync.

Tiêu chuẩn nén video MPEG-

Cấu trúc dòng bit video MPEG-