Tối ưu hóa lưu trữ dữliệu.

Một phần của tài liệu Giáo trình Quản trị mạng máy tính (Nghề Kỹ thuật sửa chữa, lắp ráp máy tính): Phần 2 - CĐ nghề Vĩnh Long (Trang 86 - 89)

- Các dạng sao lưu

5. Tối ưu hóa lưu trữ dữliệu.

Hiện nay các tổ chức đang tạo ra nhiều dữ liệu hơn bất kỳ lúc nào khác trong lịch sử. Và sự cần thiết phải tuân thủ các quy định của pháp luật và chính phủ có nghĩa rằng họ phải lưu giữ dữ liệu đó trong các khoảng thời gian dài hơn. Kết quả là, các cơ sở dữ liệu đang phát triển với một tốc độ đáng kinh ngạc. Trong thực tế, theo các nhà phân tích của ngành cơng nghiệp phần mềm, các cơ sở dữ liệu doanh nghiệp đang phát triển 125 phần trăm mỗi năm. Sự bùng nổ về khối lượng dữ liệu này đặt áp lực rất lớn lên các doanh nghiệp để lưu trữ, bảo vệ, phân phối và phát huy giá trị từ tất cả dữ liệu đang được tạo ra ấy. Trong năm 2007, IBM® đã đáp lại địi hỏi này bằng cách giới thiệu cơng nghệ nén mới, đưa ra các khuyến cáo về các cách thực hành tốt nhất để giúp ta đạt được mức tiết kiệm vùng lưu trữ tối đa khi ta chọn bất kỳ trong số các kỹ thuật nén có sẵn nào.

5.1. Giới thiệu nén dữ liệu

5.1.1 Nguyên tắc của nén dữ liệu

Thơng thường, hầu hết các tập tinh trong máy tính có rất nhiều thơng tin dư thừa, việc thực hiện nén tập tin thực chất là mã hoá lại các tập tin để loại bỏ các thông tin dư thừa.

Nhìn chung khơng thể có phương phát nén tổng qt nào cho kết quả tốt đối với tất cả các loại tập tin vì nếu khơng ta sẽ áp dụng n lần phương pháp nén này để đạt được một tập tin nhỏ tuỳ ý! Kỹ thuật nén tập tin thường được áp dụng cho các tập tin văn bản (Trong đó có một số kí tự nào đó có xác suất xuất hiện nhiều hơn các kí tự khác), các tập tin ảnh bitmap (Mà có thể có những mảng lớn đồng nhất), các tập tin dùng để biểu diễn âm thanh dưới dạng số hố và các tín hiệu tương tự (analog signal) khác (Các tín hiệu này có thể có các mẫu được lặp lại nhiều lần). Ðối với các tập tin nhị phân như tập tin chương trình thì sau khi nén cũng khơng tiết kiệm được nhiều.

Ngoài ra, trong một số trường hợp để nâng cao hệ số nén người ta có thể bỏ bớt một số thơng tin của tập tin (Ví dụ như kỹ thật nén ảnh JPEG).

5.1.2 Tầm quan trọng của nén dữ liệu trong truyền tin nối tiếp

Trong kỹ thuật truyền tin nối tiếp, do các bit dữ liệu được truyền đi nối tiếp, lại bị giới hạn về dãi thông của kênh truyền và giới hạn về các chuẩn ghép

189

nối...nên tốc độ truyền tin tương đối chậm. Ðể tăng tốc độ truyền ta có thể dùng nhiều phương pháp như sử dụng kỹ thuật điều chế pha nhiều mức, điều chế QAM, TCM...

Nén dữ liệu trước khi truyền đi cũng là một trong các phương pháp nhằm tăng tốc độ truyền dữ liệu. Trong các modem hiện đại, việc thực hiện nén dữ liệu trước khi truyền đi có thể được thực hiện ngay trong modem theo các giao thức V42bis, MNP5. Phương pháp này đòi hỏi hai modem phải có cùng một giao thức nén dữ liệu, điều này nhiều khi khó thỗ mãn.

Có một phương pháp khác là thực hiện nén các tập tin ngay tại các máy vi tính trước khi truyền đi, tại các máy tính nhận, các tập tin lại được giải nén để phục hồi lại dạng ban đầu. Phương pháp này có ưu điểm là bên phát và bên thu chỉ cần có chung phần mềm nén và giải nén, ngồi ra cịn có thể áp dụng được để truyền dữ liệu qua các modem không hỗ trợ nén dữ liệu hoặc truyền dữ liệu trực tiếp qua cổng COM của máy tính. Nhược điểm của phương pháp này là các máy vi tính phải tốn thêm thời gian nén và giải nén, nhưng do sự phát triển nhanh chóng của các bộ vi xử lý mà thời gian thực hiện nén và giải nén được giảm nhỏ hơn rất nhiều thời gian để truyền dữ liệu. Ví dụ, khi truyền một tập tin có kích thước là 100Kbyte với dạng thức của một SDU là: 8 bits dữ liệu, 2 bit STOP và 1 bit START, không dùng bit chẵn lẻ, tốc độ truyền là 9600bits/giây thì mất khoảng 120 giây, trong khi một máy vi tính với bộ vi xử lí 80386 có thể thực hiện nén tập tin trên xuống cịn 50Kbyte chỉ mất chưa đến 10 giây

5.2. Thực hiện nén: Compact

* Nén mất dữ liệu (lossy compression): Hay gặp nhất trong cơng nghệ thơng tin

là nén hình ảnh và âm thanh. Có nhiều giải thuật được đặt ra để đáp ứng yêu cầu giảm thiểu kích thước của file ảnh sao cho vẫn duy trì được chất lượng ở mức độ chấp nhận được. Những giải thuật này đều dựa trên nền tảng là loại bớt những màu mà mắt người khơng hoặc khó cảm nhận được, chỉ giữ lại những màu chủ yếu thực sự ảnh hưởng tích cực lên khả năng cảm nhận màu của mắt. Nếu đã từng biên tập hình ảnh bằng Photoshop, ta sẽ dễ dàng nhận thấy sự khác biệt khá lớn giữa bảng màu chuẩn và bảng màu dùng cho hình ảnh tải lên web, tức là hình nén đấy. Trong bảng màu web, các màu trung gian, chuyển tiếp đã bị lược bỏ mất, thay vào đó là các màu tương đương cận kề. Tuy 2 bảng màu này dễ phân biệt như vậy nhưng khi xem một hình ảnh ta khơng dễ dàng nhận biết được đó là file .bmp (chưa nén), .gif hay .jpg (ảnh nén). Còn một cách nữa cũng sử dụng kiểu mất dữ liệu để nén hình là giảm độ phân giải, tức là bớt số điểm ảnh trên một inch (dots per inch - dpi). Cách

190

này khi được sử dụng, tùy trường hợp mà phải gia giảm cho phù hợp. Độ phân giải cao q thì phí chỗ, nhưng giảm đi nhiều q thì bị “bể hình”.

Đối với âm thanh, có nhiều chuẩn nén khác nhau như: Windows Media, MP3, Real G2, Liquid Audio, ACC, nhưng thông dụng nhất hiện nay là MP3. Nén theo chuẩn MP3, kích thước file audio có thể được thu nhỏ đi 8 lần so với kích thước ban đầu. Để làm được như vậy, người ta sử dụng một kỹ thuật gọi là lấy mẫu âm, thử nghiệm rồi bỏ bớt những tone mà tai người không nghe được hoặc kém nhạy. Do đó, chất lượng âm của MP3 rất khó phân biệt với âm của đĩa CD chuẩn. Hiện nay một chuẩn cải tiến của MP3 là MP3pro cịn làm hơn thế. Nó tiến hành mã hóa sóng âm có tần số thấp bằng kỹ thuật mp3 và tạo phần sóng có tần số cao bằng kỹ thuật SBR. Khi phát lại sẽ kết hợp 2 phần sóng này với nhau thành nguồn âm đầy đủ, khắc phục được tình trạng file MP3 mất âm tần số cao khi truyền tải bằng modem quay số.

* Nén không mất dữ liệu (lossless compression): Dữ liệu, đặc biệt là văn bản, đồ

họa ln chứa trong nó những chuỗi thơng tin giống hệt nhau lặp đi lặp lại. Việc nén dữ liệu được thực hiện bằng cách thay thế nhiều ký tự thông tin lặp đi lặp lại bằng các ký tự khác, và tạo ra chỉ một bản sao của những đoạn dữ liệu bị lặp lại này. Cũng có cách khác tỉ mỉ hơn dùng những mã có độ dài khác nhau mã hóa cho các ký tự khác nhau giúp cho các ký tự này chiếm ít chỗ hơn. Cách gì thì cách nhưng phải làm sao vừa thu nhỏ được kích thước file vừa giữ được sự tồn vẹn của dữ liệu.

Đĩa nén: Ngoài việc nén file, người ta cũng dùng phương pháp nén ổ đĩa. Khác với

việc dùng các phần mềm sao lưu dạng nén để nén nguyên một ổ đĩa, ổ đĩa bị nén theo phương pháp này tạo cho ta có cảm giác như vẫn làm việc với ổ đĩa không nén, nghĩa là ta có thể làm mọi thao tác với file và thư mục. Đĩa nén sẽ giảm được không gian cho tất cả các file và thư mục lưu trên đó. Chương trình DoubleSpace của DOS 6.0 trước kia và Windows 2000/XP hỗ trợ kiểu nén này. Hệ điều hành sẽ có các giải pháp tạo cho người dùng cảm giác như vẫn đang làm việc với ổ đĩa không nén. Với phương pháp nén này, ngoài việc dùng các giải thuật nén dữ liệu thông thường, giải thuật cơ bản được dùng ở đây là bó lại (consolidate) tất cả các file thành một file duy nhất để loại bỏ được khoảng trống giữa byte chót của file và byte tận cùng của liên cung cuối được cấp phát cho file. Để hiểu rõ hơn, ta nhắp chuột phải vào một file chọn Properties, hiệu số giữa Size on disk và Size chính là kích thước khoảng trống này.

191

Nén khi dịch sang mã máy: Khi một file được biên dịch sang mã máy dưới dạng

một file thi hành (.exe) thì nó xem như đã được nén vì khi ở dạng mã máy có rất ít thơng tin bị trùng lắp. Khi nén thêm nó một lần nữa thì kích thước thu nhỏ lại được nhiều hay ít tùy thuộc vào giải thuật nén của các trình sao lưu và cách hoạt động của trình biên dịch, đóng gói ứng dụng để tạo nên file .exe này. Với file Bkav2002.exe kích thước 223KB khi dùng WinRAR để nén sẽ còn lại 226KB, chỉ được 3%, nhưng với UnikeyNT.exe 76KB, sẽ chỉ còn 63KB - 17%.

Tăng mật độ thông tin: Kiểu nén này gần với cách chúng ta hình dung nhất. Cơng

nghệ chế tạo công cụ lưu trữ dữ liệu ngày càng cao cho phép thông tin lưu trữ ngày càng lớn với cùng một đơn vị diện tích như trước. Đĩa CD là một điển hình của kiểu nén tăng mật độ thông tin. Cái tên CD, Compact Disk - đĩa nén, đã tự nó nói lên điều này. Ban đầu người ta dùng đĩa mềm 5,25 inch để trữ dữ liệu với sức chứa 360KB. Sau đó, đĩa 5,25 inch bị kiểu đĩa 3,5 inch 1,44MB mà ta dùng ngày nay thay thế hoàn toàn, bởi dù nhỏ hơn nhưng dung lượng lại gấp tư. Với đĩa CD chuẩn, người ta có thể lèn vào đấy đến 650MB dữ liệu. Mật độ thông tin trên đĩa CD lớn đến mức lúc bấy giờ người ta phải gọi nó với cái tên như ta đã biết. Sau này đĩa DVD còn “siêu” hơn với sức chứa 4,7GB (đĩa DVD chuẩn).

Nén kiểu Access: Trong khi thiết kế ứng dụng với Access, ta thường xuyên xóa

các dữ liệu thừa, xóa các đối tượng trong cơ sở dữ liệu (như query, table), xóa các đối tượng của ứng dụng (form, report), hoặc bỏ đi một hình nền trên form. Khi ấy, ứng dụng Access của ta trở nên bị phân mảnh, việc sử dụng không gian đĩa trở nên kém hiệu quả. Các đường dẫn, các thơng tin để Access tìm đến dữ liệu, đến đối tượng của CSDL hoặc ứng dụng vẫn cịn đó mặc dù các thành phần này đã bị xóa đi. Để khắc phục tình trạng này Access trang bị cho ta công cụ Compact (nén). Thực hiện lệnh này, Access tiến hành loại bỏ các phân mảnh, xóa các đường dẫn, thơng tin lạc địa chỉ, giúp cho kích thước ứng dụng của ta giảm đi đáng kể. Kể từ phiên bản 2000 trở đi, Access cịn hỗ trợ tính năng tự động nén mỗi khi ta đóng ứng dụng. Tuy chức năng Compact cũng làm nhiệm vụ đúng với nghĩa của nó là thu nhỏ kích thước ứng dụng nhưng thực chất của vấn đề khơng hồn tồn như vậy

Một phần của tài liệu Giáo trình Quản trị mạng máy tính (Nghề Kỹ thuật sửa chữa, lắp ráp máy tính): Phần 2 - CĐ nghề Vĩnh Long (Trang 86 - 89)