LƯU TRỮ VÀ CẤU TRÚC TẬP TIN (Storage and File Structure)

39 841 1
LƯU TRỮ VÀ CẤU TRÚC TẬP TIN  (Storage and File Structure)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LƯU TRỮ VÀ CẤU TRÚC TẬP TIN (Storage and File Structure)

HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN (Storage and File Structure) MỤC ĐÍCH Chương trình bày vấn đề liên quan đến vấn đề lưu trữ liệu (trên lưu trữ ngoài, chủ yếu đĩa cứng) Việc lưu trữ liệu phải tổ chức cho cất giữ lượng lớn, lớn liệu quan trọng lưu trữ phải cho phép lấy lại liệu cần thiết mau chóng Các cấu trúc trợ giúp cho truy xuất nhanh liệu trình bày là: mục (indice), B+ (B+-tree), băm (hashing) Các thiết bị lưu trữ (đĩa) bị hỏng hóc khơng lường trước, kỹ thuật RAID cho giải pháp hiệu cho vấn đề YÊU CẦU Hiểu rõ đặc điểm thiết bị lưu trữ, cách tổ chức lưu trữ, truy xuất đĩa Hiểu rõ nguyên lý kỹ thuật tổ chức hệ thống đĩa RAID Hiểu rõ kỹ thuật tổ chức mẩu tin file Hiểu rõ kỹ thuật tổ chức file Hiểu vận dụng kỹ thuật hỗ trợ tìm lại nhanh thông tin: mục (được sắp, B+-cây, băm) CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 34 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU KHÁI QUÁT VỀ PHƯƠNG TIỆN LƯU TRỮ VẬT LÝ Có số kiểu lưu trữ liệu hệ thống máy tính Các phương tiện lưu trữ phân lớp theo tốc độ truy xuất, theo giá theo độ tin cậy phương tiện Các phương tiện có là: • Cache: dạng lưu trữ nhanh đắt phương tiện lưu trữ Bộ nhớ cache nhỏ; sử dụng quản trị hệ điều hành • Bộ nhớ (main memory): Phương tiện lưu trữ dùng để lưu trữ liệu sẵn sàng thực Các thị máy mục đích chung (general-purpose) hoạt động nhớ Mặc dầu nhớ chứa nhiều megabytes liệu, nhỏ (và đắt giá) để lưu trữ toàn sở liệu Nội dung nhớ thường bị mất cấp nguồn • Bộ nhớ Flash: Được biết nhớ đọc lập trình, xố (EEPROM: Electrically Erasable Programmable Read-Only Memory), Bộ nhớ Flash khác nhớ chỗ liệu cịn tồn nhớ flash cấp nguồn Đọc liệu từ nhớ flash 100 ns , nhanh đọc liệu từ nhớ Tuy nhiên, viết liệu vào nhớ flash phức tạp nhiều Dữ liệu viết (một lần khoảng đến 10 μs) viết đè trực tiếp Để viết đè nhớ viết, ta phải xố trắng tồn bộ nhớ sau viết lên • Lưu trữ đĩa từ (magnetic-disk): (ở đây, hiểu đĩa cứng) Phương tiện để lưu trữ liệu trực tuyến, lâu dài Thường toàn sở liệu lưu trữ đĩa từ Dữ liệu phải chuyển từ đĩa vào nhớ trước truy nhập Khi liệu nhớ bị sửa đổi, phải viết lên đĩa Lưu trữ đĩa xem truy xuất trực tiềp đọc liệu đĩa theo thứ tự Lưu trữ đĩa tồn cấp nguồn Lưu trữ đĩa bị hỏng hóc, khơng thường xun • Lưu trữ quang (Optical storage): Dạng quen thuộc đĩa quang học loại đĩa CD-ROM : Compact-Disk Read-Only Memory Dữ liệu lưu trữ đĩa quang học đọc laser Các đĩa quang học CD-ROM dọc Các phiên khác chúng loại đĩa quang học: viết lần, đọc nhiều lần (write-once, read-many: WORM) cho phép viết liệu lên đĩa lần, không cho phép xố viết lại, đĩa viết lại (rewritable) v v • Lưu trữ băng từ (tape storage): Lưu trữ băng từ thường dùng để backup liệu Băng từ rẻ đĩa, truy xuất liệu chậm (vì phải truy xuất tuần tự) Băng từ thường có dung lượng lớn Các phương tiện lưu trữ tổ chức phân cấp theo tốc độ truy xuất giá Mức cao nhanh đắt nhất, giảm dần xuống mức thấp Các phương tiện lưu trữ nhanh (cache, nhớ chính) xem lưu trữ sơ cấp (primary storage), thiết bị lưu trữ mức thấp đĩa từ xem lưu trữ thứ cấp hay lưu trữ trực tuyến (on-line storage), thiết bị lưu trữ mức thấp gần thấp đĩa quang học, băng từ kể đĩa mềm xếp vào lưu trữ tam cấp hay lưu trữ không trực tuyến (off-line) Bên cạnh vấn đề tốc độ giá cả, ta cịn phải xét đến tính lâu bền phương tiện lưu trữ CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 35 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU C h M i M Fl h M M i di k O i l di k M i Phân cấp thiết bị lưu trữ ĐĨA TỪ ĐẶC TRƯNG VẬT LÝ CỦA ĐĨA Mỗi đĩa có dạng hình trịn, hai mặt phủ vật liệu từ tính, thơng tin ghi bề mặt đĩa Đĩa gồm nhiều đĩa Ta sử dụng thuật ngữ đĩa để đĩa cứng Khi đĩa sử dụng, động ổ đĩa làm quay tốc độ không đổi Một đầu đọc-viết định vị bề mặt đĩa Bề mặt đĩa chia logic thành rãnh, rãnh lại chia thành sector, sector đơn vị thơng tin nhỏ đọc, viết lên đĩa Tuỳ thuộc vào kiểu đĩa, sector thay đổi từ 32 bytes đến 4095 bytes, thông thường 512 bytes Có từ đến 32 sectors rãnh, từ 20 đén 1500 rãnh bề mặt Mỗi bề mặt đĩa có đầu đọc viết, chạy dọc theo bán kính đĩa để truy cập đến rãnh khác Một đĩa gồm nhiều đĩa, đầu đọc-viết tất rãnh gắn vào gọi cánh tay đĩa, di chuyển Các đĩa gắn vào trục quay Vì đầu đọc-viết đĩa di chuyển nhau, nên đầu đọc-viết đĩa rãnh thứ i đầu đọc-viết đĩa khác rãnh thứ i , rãnh thứ i tất đĩa gọi trụ (cylinder) thứ i Một điều khiển đĩa giao diện hệ thống máy tính phần cứng thời ổ đĩa Nó chấp nhận lệnh mức cao để đọc viết sector, khởi động hành động di chuyển cánh tay đĩa đến rãnh đọc viết liệu điều khiển đĩa tham gia vào checksum sector viết Checksum tính từ liệu viết lên sector Khi sector đọc lại, checksum tính lại từ liệu lấy so sánh với checksum lưu trữ Nếu liệu bị sai lạc, checksum tính khơng khớp với checksum lưu trữ Nếu lỗi xảy ra, điều khiển lặp lại việc đọc vài lần, lỗi xảy ra, điều khiển thông báo việc đọc thất bại Bộ điều khiển đĩa cịn có CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 36 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU chức tái ánh xạ sector xấu: ánh xạ sector xấu đến vị trí vật lý khác Hình bày tỏ đĩa nối với hệ thống máy tính: System bus Disk controller Disks Các đĩa nối với hệ thống máy tính điều khiển đĩa qua hợp tốc độ cao Hợp hệ thống máy tính nhỏ (Small Computer-System Interconnect: SCSI) thường sử dụng để nối kết đĩa với máy tính cá nhân workstation Mainframe hệ thống server thường có bus nhanh đắt để nối với đĩa Các đầu đọc-viết giữ sát với bề mặt đĩa để tăng độ dày đặc (density) Đĩa đầu cố định (Fixed-head) có đầu riêng biệt cho rãnh, xếp cho phép máy tính chuyển từ rãnh sang rãnh khác mau chóng, di chuyển đầu đọc-viết Tuy nhiên, cần số lớn đầu đọc-viết, điều làm nâng giá thiết bị ĐO LƯỜNG HIỆU NĂNG CỦA ĐĨA Các tiêu chuẩn đo lường chất luợng đĩa dung lượng, thời gian truy xuất, tốc độ truyền liệu độ tin cậy - Thời gian truy xuất (access time): khoảng thời gian từ yêu cầu đọc/viết phát đến bắt đầu truyền liệu Để truy xuất liệu sector cho đĩa, cánh tay đĩa phải di chuyển đến rãnh đúng, sau phải chờ sector xuất nó, thời gian để định vị cánh tay gọi thời gian tìm kiếm (seek time), tỷ lệ với khoảng cách mà cánh tay phải di chuyển, thời gian tìm kiếm nằm khoảng 30 ms tuỳ thuộc vào rãnh xa hay gần vị trí cánh tay - Thời gian tìm kiếm trung bình (average seek time): Thời gian tìm kiếm trung bình trung bình thời gian tìm kiếm, đo luờng dãy yêu cầu ngẫu nhiên (phân phối đều), khoảng 1/3 thời gian tìm kiếm trường hợp xấu - Thời gian tiềm ẩn luân chuyển (rotational latency time): Thời gian chờ sector truy xuất xuất đầu đọc/viết Tốc độ quay đĩa nằm khoảng 60 120 vòng quay giây, trung bình cần nửa vịng quay để sector cần thiết nằm đầu đọc/viết Như vậy, thời gian tiềm ẩn trung bình (average latency time) nửa thời gian quay vòng đĩa Thời gian truy xuất tổng thời gian tìm kiếm thời gian tiềm ẩn nằm khoảng 10 40 ms - Tốc độ truyền liệu: tốc độ liệu lấy từ đĩa lưu trữ vào đĩa Hiện tốc vào khoảng1 Mbps CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 37 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU - Thời gian trung bình khơng cố (mean time to failure): lượng thời gian trung bình hệ thống chạy liên tục khơng có cố Các đĩa có thời gian khơng cố trung bình khoảng 30000 800000 nghĩa khoảng từ 3,4 đến 91 năm TỐI ƯU HÓA TRUY XUẤT KHỐI ĐĨA (disk-block) Yêu cầu I/O đĩa sinh hệ thống file lẫn quản trị nhớ ảo hầu hết hệ điều hành Mỗi yêu cầu xác định địa đĩa tham khảo, địa dạng số khối Một khối dãy sector kề rãnh Kích cỡ khối khoảng 512 bytes đến vài Kbytes Dữ liệu truyền đĩa nhớ theo đơn vị khối Mức thấp quản trị hệ thống file chuyển đổi địa khối sang số trụ, mặt sector mức phần cứng Truy xuất liệu đĩa chậm nhiều so với truy xuất liệu nhớ chính, cần thiết chiến lược nhằm nâng cao tốc độ truy xuất khối đĩa Dưới ta thảo luận vài kỹ thuật nhằm vào mục đích - Scheduling: Nếu vài khối trụ cần truyền từ đĩa vào nhớ chính, ta tiết kiệm thời gian truy xuất yêu cầu khối theo thứ tự mà chạy qua đầu đọc/viết Nếu khối mong muốn trụ khác nhau, ta yêu cầu khối theo thứ tự cho làm tối thiểu di chuyển cánh tay đĩa Các thuật toán scheduling cánh tay đĩa (Disk-arm-scheduling) nhằm lập thứ tự truy xuất rãnh theo cách làm tăng số truy xuất xử lý Một thuật toán thường dùng thuật toán thang máy (elevator algorithm): Giả sử ban đầu cánh tay di chuyển từ rãnh hướng phía ngồi đĩa, rãnh có yêu cầu truy xuất, dừng lại, phục vụ yêu cầu rãnh này, sau tiếp tục di chuyển phía ngồi đến tận khơng có u cầu chờ rãnh xa phía ngồi Tại điểm này, cánh tay đổi hướng, di chuyển vào phía trong, lại dừng lại rãnh yêu cầu, đến tận khơng cịn rãnh u cầu, lại đổi hướng v v Bộ điều khiển đĩa thường làm nhiệm vụ xếp lại yêu cầu đọc để cải tiến hiệu - Tổ chức file: Để suy giảm thời gian truy xuất khối, ta tổ chức khối đĩa theo cách tương ứng gần với cách mà liệu truy xuất Ví dụ, Nếu ta muốn file truy xuất tuần tự, ta bố trí khối file cách trụ kề Tuy nhiên việc phân bố khối lưu trữ kề bị phá vỡ trình phát triển file ⇒ file khơng thể phân bố khối kề nữa, tượng dược gọi phân mảnh (fragmentation) Nhiều hệ điều hành cung cấp tiện ích giúp suy giảm phân mảnh (Defragmentation) nhằm làm tăng hiệu truy xuất file - Các buffers viết không hay thay đổi: Vì nội dung nhớ bị mất nguồn, thông tin sở liệu cập nhật phải ghi lên đĩa nhằm đề phòng cố Hiệu ứng dụng cập nhật cường độ cao phụ thuộc mạnh vào tốc độ viết đĩa Ta sử dụng nhớ truy xuất ngẫu nhiên không hay thay đổi (nonvolatile RAM) để nâng tốc độ viết đĩa Nội dung nonvolatile RAM không bị mất nguồn Một phương pháp chung để thực nonvolatile RAM sử dụng RAM pin dự phòng (battery-back-up RAM) Khi sở liệu yêu cầu viết khối lên đĩa, điều khiển dĩa viết khối lên buffer nonvolatile RAM, thông báo cho hệ điều hành việc viết thành cơng Bộ điều khiển viết liệu đến đích đĩa, đĩa rảnh buffer nonvolatile RAM đầy Khi hệ sở liệu yêu cầu viết khối, chịu khoảng lặng chờ đợi buffer nonvolatile RAM đầy CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 38 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU - Đĩa log (log disk): Một cách tiếp cận khác để làm suy giảm tiềm viết sử dụng log-disk: Một đĩa tận hiến cho việc viết log Tất truy xuất đến log-disk tuần tự, nhằm loại bỏ thời gian tìm kiếm, vài khối kề viết lần, tạo cho viết vào log-disk nhanh viết ngẫu nhiên vài lần Cũng trường hợp sử dụng nonvolatile RAM, liệu phải viết vào vị trí thời chúng đĩa, việc viết tiến hành mà hệ sở liệu không cần thiết phải chờ hồn tất Log-disk sử dụng để khôi phục liệu Hệ thống file dựa log phiên cách tiếp cận log-disk: Dữ liệu khơng viết lại lên đích gốc đĩa; thay vào đó, hệ thống file lưu vết nơi khối viết log-disk, hồn lại chúng từ vị trí Log-disk "cô đặc" lại (compacting) theo định kỳ Cách tiếp cận cải tiến hiệu viết, song sinh phân mảnh file cập nhật thường xuyên RAID Trong hệ thống có nhiều đĩa, ta cải tiến tốc độ đọc viết liệu cho chúng hoạt động song song Mặt khác, hệ thống nhiều đĩa giúp tăng độ tin cậy lưu trữ cách lưu trữ dư thừa thông tin đĩa khác nhau, đĩa có cố liệu không bị Một đa dạng kỹ thuật tổ chức đĩa, gọi RAID (Redundant Arrays of Inexpensive Disks), đề nghị nhằm vào vấn đề tăng cường hiệu độ tin cậy CẢI TIẾN ĐỘ TIN CẬY THÔNG QUA SỰ DƯ THỪA Giải pháp cho vấn đề độ tin cậy đưa vào dư thừa: lưu trữ thông tin phụ, bình thường khơng cần thiết, sử dụng để tái tạo thông tin bị gặp cố hỏng hóc đĩa, thời gian trung bình khơng cố tăng lên (xét tổng thể hệ thống đĩa) Đơn giản nhất, cho đĩa Kỹ thuật gọi mirroring hay shadowing Một đĩa logic bao gồm hai đĩa vật lý, việc viết thực hai đĩa Nếu đĩa bị hư, liệu đọc từ đĩa Thời gian trung bình khơng cố đĩa mirror phụ thuộc vào thời gian trung bình khơng cố đĩa phụ thuộc vào thời gian trung bình sửa chữa (mean time to repair): thời gian trung bình để đĩa bị hư thay phục hồi liệu CẢI TIẾN HIỆU NĂNG THÔNG QUA SONG SONG Với đĩa mirror, tốc độ đọc tăng lên gấp đơi u cầu đọc gửi đến hai đĩa Với nhiều đĩa, ta cải tiến tốc độ truyền phân nhỏ (striping data) liệu qua nhiều đĩa Dạng đơn giản tách bít byte qua nhiều đĩa, phân nhỏ gọi phân nhỏ mức bit (bit-level striping) Ví dụ, ta có dàn đĩa, ta viết bít thứ i byte lên đĩa thứ i dàn đĩa xử lý đĩa với sector lần lớn kích cỡ thông thường, quan trọng tốc dộ truy xuất tăng lên tám lần Trong tổ chức vậy, đĩa tham gia vào truy xuất (đọc/viết), vậy, số truy xuất xử lý giây tương tự đĩa, truy xuất đọc/viết nhiều liệu tám lần Phân nhỏ mức bit tổng quát cho số đĩa bội ước 8, Ví dụ, ta có dàn đĩa, ta phân phối bít thứ i bít thứ 4+i vào đĩa thứ i Hơn nữa, phân nhỏ không thiết phải mức bit byte Ví dụ, phân nhỏ mức khối, khối file phân nhỏ qua nhiều đĩa, với n đĩa, khối thứ i phân phối qua đĩa (i mod n) + Ta CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 39 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU phân nhỏ mức byte, sector sector khối Hai đích song song hệ thống đĩa là: Nạp nhiều truy xuất nhỏ cân (truy xuất trang) cho lượng liệu nạp đơn vị thời gian truy xuất tăng lên Song song hoá truy xuất lớn cho thời gian trả lời truy xuất lớn giảm CÁC MỨC RAID Mirroring cung cấp độ tin cậy cao, đắt giá Phân nhỏ cung cấp tốc độ truyền liệu cao, không cải tiến độ tin cậy Nhiều sơ đồ cung cấp dư thừa với giá thấp cách phối hợp ý tưởng phân nhỏ với "parity" bit Các sơ đồ có thoả hiệp giá-hiệu khác phân lớp thành mức gọi mức RAID • Mức RAID : Liên quan đến dàn đĩa với phân nhỏ mức khối, khơng có dư thừa • Mức RAID : Liên quan đến mirror đĩa • Mức RAID : Cũng biết tên mã sửa lỗi kiểu nhớ (memory-style error-correcting-code : ECC) Hệ thống nhớ thực phát lỗi bit parity Mỗi byte hệ thống nhớ có bit parity kết hợp với Sơ đồ sửa lỗi lưu hai nhiều bit phụ, dựng lại liệu bit bị lỗi ý tưởng mã sửa lỗi sử dụng trực tiếp dàn đĩa thông qua phân nhỏ byte qua đĩa Ví dụ, bít byte lưu đĩa 1, bit thứ hai đĩa 2, vậy, bit thứ đĩa 8, bit sửa lỗi lưu đĩa thêm vào Nếu đĩa bị hư, bít cịn lại byte bit sửa lỗi kết hợp đọc từ đĩa khác giúp tái tạo bít bị đĩa hư, ta dựng lại liệu Với dàn đĩa liệu, RAID mức cần thêm đĩa để lưu bit sửa lỗi (các đĩa thêm vào gọi đĩa overhead), so sánh với RAID mức 1, cần đĩa overhead • Mức RAID : Cịn gọi tổ chức parity chen bit (bit-interleaved parity) Bộ điều khiển đĩa phát sector đọc hay sai, sử dụng bit parity để sửa lỗi: Nếu sector bị hư, ta biết xác sector nào, Với bit sector ta hình dung bít hay bit cách tính parity bit tương ứng từ sector đĩa khác Nếu parity bit lại với parity lưu, bit 0, bit RAID mức tốt mức it tốn (chỉ cần đĩa overhead) • Mức RAID : Còn gọi tổ chức parity chen khối (Block-interleaved parity), lưu trữ khối đĩa quy, khơng phân nhỏ chúng qua đĩa lấy khối parity đĩa riêng biệt khối tương ứng từ N đĩa khác Nếu đĩa bị hư, khối parity dùng với khối tương ứng từ đĩa khác để khôi phục khối đĩa bị hư Một đọc khối truy xuất đĩa, cho phép yêu cầu khác xử lý đĩa khác Như vậy, tốc độ truyền liệu truy xuất chậm, nhiều truy xuất đọc xử lý song song, dẫn đến tốc độ I/O tổng thể cao Tốc độ truyền đối vớí đọc liệu lớn (nhiều khối) cao tất đĩa đọc song song; viết liệu lớn (nhiều khối) có tốc độ truyền cao liệu parity viết song song Tuy nhiên, viết khối đơn phải truy xuất đĩa khối lưu trữ, đĩa parity (do khối parity phải cập nhật) Như vậy, viết khối đơn yêu cầu truy xuất: hai để đọc hai khối cũ, hai để viết lại hai khối CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 40 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU • Mức RAID : Cịn gọi parity phân bố chen khối (Block-interleaved Distributed Parity), cải tiến mức phân hoạch liệu parity tồn N+1 đĩa, thay lưu trữ liệu N đĩa parity đĩa riêng biệt RAID Trong RAID 5, tất đĩa tham gia làm thoả mãn yêu cầu đọc, làm tăng tổng số yêu cầu đặt đơn vị thời gian Đối với khối, đĩa lưu trữ parity, đĩa khác lưu trữ liệu Ví dụ, với dàn năm đĩa, parity khối thứ n lưu đĩa (n mod 5)+1 Các khối thứ n đĩa khác lưu trữ liệu hành khối • Mức RAID : Còn gọi sơ đồ dư thừa P+Q (P+Q redundancy scheme), giống RAID lưu trữ thông tin dư thừa phụ để canh chừng nhiều đĩa bị hư Thay sử dụng parity, người ta sử dụng mã sửa lỗi CHỌN MỨC RAID ĐÚNG Nếu đĩa bị hư, Thời gian tái tạo liệu đáng kể thay đổi theo mức RAID dùng Sự tái tạo dễ dàng mức RAID Đối với mức khác, ta phải truy xuất tất đĩa khác dàn đĩa để tái tạo liệu đĩa bị hư Hiệu tái tạo một hệ thống RAID nhân tố quan trọng việc cung cấp liệu liên tục yêu cầu (thường xảy hệ CSDL hiệu cao trao đổi) Hơn nữa, hiệu tái tạo ảnh hưởng đến thời gian trung bình khơng cố Vì RAID mức gộp lại RAID mức 5, Việc lựa chọn mức RAID thu hẹp lại mức RAID lại Mức RAID dùng ứng dụng hiệu cao việc liệu khơng có trầm trọng RAID mức thông dụng cho ứng dụng lưu trữ log-file hệ CSDL Do mức có overhead cao, mức thường ưa thích việc lưu trữ khối lượng liệu lớn Sự khác mức mức tốc độ truyền liệu đối lại với tốc độ I/O tổng thể Mức ưa thích truyền liệu cao yêu cầu, mức ưa thích việc đọc ngẫu nhiên quan trọng Mức 6, áp dụng, có độ tin cậy cao mức MỞ RỘNG Các quan niệm RAID khái quát hoá cho thiết bị lưu trữ khác, bao hàm dàn băng, chí quảng bá liệu hệ thống không dây Khi áp dụng RAID cho dàn băng, cấu trúc RAID cho khả khôi phục liệu băng bị hư hại Khi áp dụng quảng bá liệu, khối liệu phân thành đơn vị nhỏ quảng bá với đơn vị parity; đơn vị khơng nhận được, dựng lại từ đơn vị lại LƯU TRỮ TAM CẤP (tertiary storage) ĐĨA QUANG HỌC CR-ROM có ưu điểm có khả lưu trữ lớn, dễ di chuyển (có thể đưa vào lấy khỏi ổ đĩa đĩa mềm), giá lại rẻ Tuy nhiên, so với ổ đĩa cứng, thời gian tìm kiếm ổ CD-ROM chậm nhiều (khoảng 250ms), tốc độ quay chậm (khoảng 400rpm), từ dẫn đến độ trễ cao hơn; tốc độ truyền liệu chậm (khoảng 150Kbytes/s) Gần đây, định dạng đĩa quang học - Digital video disk (DVD) - chuẩn hố, đĩa có dung lượng khoảng 4,7GBytes đến 17 GBytes Các đĩa WORM, REWRITABLE trở thành phổ biến Các WORM jukeboxes thiết bị lưu trữ số lớn đĩa WORM nạp tự động đĩa theo yêu cầu đến một vài ổ WORM CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 41 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU BĂNG TỪ Băng từ lưu lượng lớn liệu, nhiên, chậm so với đĩa từ đĩa quang học Truy xuất băng buộc phải truy xuất tuần tự, khơng thích hợp cho hầu hết đòi hỏi lưu trữ thứ cấp Băng từ sử dụng cho việc backup, cho lưu trữ thông tin không sử dụng thường xuyên phương tiện ngoại vi (off-line medium) để truyền thông tin từ hệ thống đến hệ thống khác Thời gian để định vị đoạn băng lưu liệu cần thiết kéo dài đến hàng phút Jukeboxes băng chứa lượng lớn băng, với vài ổ băng lưu trữ nhiều TeraBytes (1012 Bytes) TRUY XUẤT LƯU TRỮ Một sở liệu ánh xạ vào số file khác trì hệ điều hành Các file lưu trú thường trực đĩa với backup băng Mỗi file phân hoạch thành đơn vị lưu trữ độ dài cố định gọi khối - đơn vị cho cấp phát lưu trữ truyền liệu Một khối chứa vài hạng mục liệu (data item) Ta giả thiết không hạng mục liệu trải hai khối Mục tiêu trội hệ CSDL tối thiểu hoá số khối truyền đĩa nhớ Một cách để giảm số truy xuất đĩa giữ nhiều khối nhớ Mục đích để khối truy xuất, nằm sẵn nhớ không cần truy xuất đĩa Do lưu tất khối nhớ chính, ta cần quản trị cấp phát khơng gian sẵn có nhớ để lưu trữ khối Bộ đệm (Buffer) phần nhớ sãn có để lưu trữ khối đĩa Ln có đĩa cho khối, song đĩa khối phiên cũ so với phiên buffer Hệ thống đảm trách cấp phát không gian buffer gọi quản trị buffer BỘ QUẢN TRỊ BUFFER Các chương trình hệ CSDL đưa yêu cầu cho quản trị buffer chúng cần khối đĩa Nếu khối sẵn sàng buffer, địa khối nhớ chuyển cho người yêu cầu Nếu khối chưa có buffer, quản trị buffer cấp phát không gian buffer cho khối, rút số khối khác, cần thiết, để lấy không gian cho khối Khối rút viết lại đĩa có bị sửa đổi kể từ lần viết lên đĩa gần Sau quản trị buffer đọc khối từ đĩa vào buffer, chuyển địa khối nhớ cho người u cầu Bộ quản trị buffer khơng khác nhiều so với quản trị nhớ ảo, điểm khác biệt kích cỡ CSDL lớn khơng đủ chứa tồn nhớ quản trị buffer phải sử dụng kỹ thuật tinh vi sơ đồ quản trị nhớ ảo kiểu mẫu • Chiến luợc thay Khi khơng có chỗ buffer, khối phải xoá khỏi buffer trước khối đọc vào Thông thường, hệ điều hành sử dụng sơ đồ LRU (Least Recently Used) để viết lên đĩa khối dùng gần nhất, xố bỏ khỏi buffer Cách tiếp cận cải tiến ứng dụng CSDL • Khối chốt (pinned blocks) Để hệ CSDL khơi phục sau cố, cần thiết phải hạn chế thời gian viết lại lên đĩa khối Một khối không cho phép viết lại lên đĩa gọi khối chốt • Xuất bắt buộc khối (Forced output of blocks) Có tình cần phải viết lại khối lên đĩa, cho dù không gian buffer mà chiếm khơng cần đến Việc CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 42 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU viết gọi xuất bắt buộc khối Lý ngắn gọn yêu cầu xuất bắt buộc khối nội dung nhớ bị có cố, ngược lại liệu dĩa cịn tồn sau cố CÁC ĐỐI SÁCH THAY THẾ BUFFER (Buffer-Replacement Policies) Mục đích chiến lược thay khối buffer tối thiểu hoá truy xuất đĩa Các hệ điều hành thường sử dụng chiến lược LRU để thay khối Tuy nhiên, hệ CSDL dự đốn mẫu tham khảo tương lai u cầu người sử dụng hệ CSDL bao gồm số bước Hệ CSDL xác định trước khối cần thiết cách xem xét bước yêu cầu để thực hoạt động yêu cầu người sử dụng Như vậy, khác với hệ điều hành, hệ CSDL có thơng tin liên quan đến tương lai, chí tương lai gần Trong nhiều trường hợp, chiến lược thay khối tối ưu cho hệ CSDL lại MRU (Most Recently Used): Khối bị thay khối dùng gần nhất! Bộ quản trị buffer sử dụng thơng tin thống kê liên quan đến xác suất mà yêu cầu tham khảo quan hệ riêng biệt Tự điển liệu phần truy xuất thường xuyên CSDL Như vậy, quản trị buffer khơng nên xố khối tự điển liệu khỏi nhớ nhân tố khác chế làm điều Một mục (Index) file truy xuất thường xun thân file, quản trị buffer khơng nên xố khối mục khỏi nhớ có lựa chọn Chiến luợc thay khối CSDL lý tưởng cần hiểu biết hoạt động CSDL thực Không chiến lược đơn lẻ biết nắm bắt tồn viễn cảnh Tuy vậy, điều đáng ngạc nhiên phần lớn hệ CSDL sử dụng LRU bất chấp khuyết điểm chiến lược Chiến lược sử dụng quản trị buffer để thay khối bị ảnh hưởng nhân tố khác nhân tố thời gian khối tham khảo trở lại Nếu hệ thống xử lý yêu cầu vài người sử dụng cạnh tranh, hệ thống (con) điều khiển cạnh tranh (concurrency-control subsystem) phải làm trễ số yêu cầu để đảm bảo tính quán CSDL Nếu quản trị buffer cho thông tin từ hệ thống điều khiển cạnh tranh mà nêu rõ yêu cầu bị làm trễ, sử dụng thơng tin để thay đổi chiến lược thay khối Đặc biệt, khối cần thiết yêu cầu tích cực (active requests) giữ lại buffer, toàn bất lợi đổ dồn lên khối cần thiết yêu cầu bị làm trễ Hệ thống (con) khôi phục (crash-recovery subsystem) áp đặt ràng buộc nghiêm nhặt lên việc thay khối Nếu khối bị sửa đổi, quản trị buffer không phép viết lại phiên khối buffer lên đĩa, điều phá huỷ phiên cũ Thay vào đó, quản trị khối phải tìm kiếm quyền từ hệ thống khơi phục trước viết khối Hệ thống khơi phục địi hỏi số khối định khác xuất bắt buộc (forced output) trước cấp quyền cho quản trị buffer để xuất khối yêu cầu TỔ CHỨC FILE Một file tổ chức logic dãy mẩu tin (record) Các mẩu tin ánh xạ lên khối đĩa File cung cấp xây dựng sở hệ điều hành, ta giả thiết tồn hệ thống file Ta cần phải xét phương pháp biểu diễn mơ hình liệu logic thuật ngữ file CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang 43 ... tin độ dài thay đổi CSDL bởi: o Việc lưu trữ nhiều kiểu mẩu tin file o Kiểu mẩu tin cho phép độ dài trường thay đổi o Kiểu mẩu tin cho phép lặp lại trường CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN. .. bị chiếm cấu trúc mục Một file thường kèm với vài mục Thuộc tính tập hợp thuộc tính dùng để tìm kiếm mẩu tin file gọi khố tìm kiếm Chú ý định nghĩa CHƯƠNG III LƯU TRỮ VÀ CẤU TRÚC TẬP TIN trang... bị lưu trữ mức thấp đĩa từ xem lưu trữ thứ cấp hay lưu trữ trực tuyến (on-line storage), thiết bị lưu trữ mức thấp gần thấp đĩa quang học, băng từ kể đĩa mềm xếp vào lưu trữ tam cấp hay lưu trữ

Ngày đăng: 15/09/2012, 09:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan