Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
1,16 MB
Nội dung
8/25/2017 Nội dung Chương Cấu trúc lưu trữ phương pháp truy xuất GV: Lê Thị Minh Nguyện Email: nguyenltm@huflit.edu.vn Tổ chức liệu Các phận tổ chức tổ chức liệu Mẫu tin (record) Sắp xếp mẫu tin vào block Tổ chức mẫu tin tập tin Tổ chức băm Tổ chức B Chỉ mục (index) Hệ quản trị Cơ sở liệu Tổ chức liệu 1.1 Khái niệm 1.1 Khái niệm • Tổ chức liệu tiến trình phân tích cấu trúc lại liệu (đôi giá trị liệu, phức tạp sở liệu) hệ thống • Kết việc tổ chức liệu có hệ thống tổ chức quản lý liệu tốt hơn, có sở liệu chuẩn với mơ hình liệu cài đặt 1.2 Sự cần thiết tổ chức liệu 1.3 Các thuận lợi khó khăn tổ chức liệu 1.4 Các giải pháp tổ chức liệu Hệ quản trị Cơ sở liệu Hệ quản trị Cơ sở liệu 8/25/2017 1.1 Khái niệm (tt) 1.2 Sự cần thiết tổ chức liệu • Các hoạt động tổ chức liệu thường gặp: • Tổ chức dạng tập tin đơn giản hệ thống • Tổ chức thành sở liệu quản lý DBMS • Chuyển hệ thống dùng DBMS sang hệ thống dùng DBMS khác • Chuyển đổi liệu toàn cục dùng chung cho toàn hệ thống thành đối tượng hay dạng liệu với cấu trúc trừu tượng Hệ quản trị Cơ sở liệu Hệ quản trị Cơ sở liệu 1.2 Sự cần thiết tổ chức liệu (tt) 1.3 Các thuận lợi khó khăn tổ chức liệu • Đối với hệ thống cũ, khó khan bao gồm: • Thuận lợi • Những người tham gia tổ chức liệu khơng cịn làm việc cơng ty • Một số hệ thống hoạt động máy tính lớn, liệu lưu trữ nơi, khó khan cho việc khai thác phân bố nhiều nơi khác • Một số hệ thống sử dụng sở liệu cũ hay tập tin lỗi thời có gia tang lớn trùng lắp liệu Hệ quản trị Cơ sở liệu • Tăng tính hiệu khai thác liệu • Giảm thiểu rủi ro tương lai • Tận dụng tri thức tích lũy hệ thống cũ,… • Khó khăn • Vấn đề chi phí • Đối với hệ thống cũ, thay đổi cách tiếp cận phân tích, thiết kế nhằm phục vụ cho việc tổ chức liệu gần xây dựng lại từ đầu • Đào tạo nhân tiếp cận công nghệ mới,… Hệ quản trị Cơ sở liệu 8/25/2017 1.4 Các giải pháp tổ chức liệu Các phận tổ chức tổ chức liệu • Tổ chức Dữ liệu theo tập tin • Tổ chức liệu theo sở liệu 2.1 Bộ phận quản lý tập tin (File Manager) 2.2 Bộ phận quản lý đĩa (magnetic disk) 2.3 Tổ chức vật lý Tổ chức vật lý • Nêu ứng dụng, ưu khuyết điểm chức liệu????? loại tổ Hệ quản trị Cơ sở liệu Bộ phận quản lý tập tin (File Manager) Hệ quản trị Cơ sở liệu 10 2.1 Bộ phận quản lý đĩa (magnetic disk) • Lưu trữ thông tin đĩa từ dạng file Các file có trỏ xác định điểm vào sector chứa thông tin Các file quản lý dạng gọi thư mục CPU Registers C A C H E Memory Bus I/O Bus I/O Devices Memory Size Speed Virtural Memory Disk File System Second storage Tertiary storage 11 Hệ quản trị Cơ sở liệu 12 8/25/2017 2.1 Bộ phận quản lý đĩa (magnetic disk) (tt) 2.1 Bộ phận quản lý đĩa (magnetic disk) (tt) • Dung lượng lớn • Dữ liệu không bị hệ thống điện hay gặp cố (non-volatile) • Tốc độ truy xuất • Làm bố trí liệu đĩa????? • Muốn lưu trữ liệu • • • • • Thời gian định vị track (seek time): ? ms • Thời gian định vị sector (rotational delay): ? ms • Thời gian chuyển liệu (transfer time): ? kb • Dữ liệu biểu diễn chuỗi bytes • Truy xuất liệu • Đọc trực tiếp liệu vị trí đĩa • Theo đơn vị lưu trữ - block hay page Hệ quản trị Cơ sở liệu Mã tài khoản Tên chi nhánh Số dư Ngày rút tiền bits 13 2.3 Tổ chức vật lý Hệ quản trị Cơ sở liệu 14 Tổ chức SQL Server • Hai cách tổ chức lưu trữ liệu hệ thống lưu trữ dạng văn (text) nhị phân (binary) • Thường tổ chức dạng nhị phân Hệ quản trị Cơ sở liệu 15 Hệ quản trị Cơ sở liệu 16 8/25/2017 Tổ chức Oralce Mẫu tin (record) • Tập hợp liệu có liên quan với tạo thành mẫu tin • Ví dụ • Mẫu tin account có thơng tin • Account-number • Branch-name • Balance • Có loại mẫu tin • Mẫu tin có chiều dài cố định (Fixed-Length Record) • Mẫu tin có chiều dài động (Variable-Length Record) Hệ quản trị Cơ sở liệu 17 3.1 Mẫu tin có chiều dài cố định Hệ quản trị Cơ sở liệu 18 3.1 Mẫu tin có chiều dài cố định(tt) • Ví dụ • Mỗi mẫu tin có thêm bit (tương tự dbf) • =0: Xóa • =1: Đang dùng type deposit = record account-number: char(10); branch-name: char(22); balance: real; end Hệ quản trị Cơ sở liệu • Danh sách mẫu tin trống (free list) 1011 3233 40 A-102 Perryridge 400 A-215 Mianus 700 A-222 Redwood 700 A-217 Brighton 750 A-218 Perryridge 700 19 Hệ quản trị Cơ sở liệu 41 1 1 0 A-305 A-101 A-201 A-110 Round Hill Downtown Perryridge Downtown 350 500 900 600 20 8/25/2017 3.1 Mẫu tin có chiều dài cố định(tt) 3.1 Mẫu tin có chiều dài cố định(tt) • Hủy mẫu tin • Thêm mẫu tin • Hoặc thêm vào mẫu tin bị đánh dấu xóa thêm vào cuối tập tin • Cập nhật lại free list • Đánh dấu xóa vào bit thơng tin • Đưa mẫu tin bị đánh dấu xóa vào free list FH FH A-102 Perryridge 400 A-305 Round Hill 350 A-215 Mianus 700 A-101 Downtown 500 A-222 Redwood 700 A-201 Perryridge 900 A-217 Brighton 750 A-110 Downtown 600 A-218 Perryridge 700 A-111 800 Redwood 1 A-102 A-111 Perryridge Downtown 400 700 1 A-305 A-101 Round Hill Downtown 350 500 1 A-222 A-217 A-218 Redwood Brighton Perryridge 700 750 700 1 A-201 A-110 Perryridge Downtown 900 600 0 • Tìm kiếm • Qt tập tin Hệ quản trị Cơ sở liệu 21 3.2 Mẫu tin có chiều dài động Hệ quản trị Cơ sở liệu 22 3.2 Mẫu tin có chiều dài động (tt) • Trong DBMS, mẫu tin có chiều dài động • Byte-String Representation • Lưu trữ nhiều loại mẫu tin tập tin • Các loại mẫu tin chứa trường có chiều dài động • Cuối mẫu tin có byte ký tự đặc biệt cho biết kết thúc mẫu tin • Có cách biểu diễn • Byte-String • Fixed-Length • Ví dụ: type account-list = record branch-name: char(22); account-info: array [1 n] of record account-number: char(10); balance: real; end end Hệ quản trị Cơ sở liệu 23 Perryridge A-102 400 A-201 Round Hill A-305 350 - Downtown A-101 500 A-110 Mianus A-215 700 - Redwood A-222 700 - 900 A-218 Brighton 600 A-217 700 750 - - Hệ quản trị Cơ sở liệu 24 8/25/2017 3.2 Mẫu tin có chiều dài động (tt) 3.2 Mẫu tin có chiều dài động (tt) • Byte-String Representation • Cuối mẫu tin có byte ký tự đặc biệt cho biết kết thúc mẫu tin • Sử dụng lại khơng gian trống sau xóa mẫu tin khơng hiệu • Dẫn đến tình trạng phân mãnh Perryridge A-102 400 A-201 Round Hill A-305 350 - Downtown A-101 500 A-110 Mianus A-215 700 - Redwood A-222 700 - 900 A-218 Brighton 600 A-217 700 - 750 - Byte-String Representation Tốn nhiều chi phí chiều dài mẫu tin thay đổi Perryridge A-102 400 A-201 Round Hill A-305 350 Brighton A-202 950 A-217 Downtown A-101 500 A-110 900 A-218 Mianus A-215 700 - Redwood A-222 700 - 600 700 750 - - - Hệ quản trị Cơ sở liệu 25 Hệ quản trị Cơ sở liệu 26 3.2 Mẫu tin có chiều dài động (tt) 3.2 Mẫu tin có chiều dài động (tt) • Fixed-Length Representation • Fixed-Length Representation • Sử dụng hay nhiều mẫu tin có chiều dài cố định biểu diễn cho mẫu tin có chiều dài động • Có kỹ thuật • Reserved space • Point Hệ quản trị Cơ sở liệu 27 • Reserved space • Sử dùng độ dài lớn mẫu tin cài đặt cho tất mẫu tin cịn lại • Độ dài phải đảm bảo không dài thêm Perryridge A-102 400 Round Hill A-305 350 Mianus A-215 700 Downtown A-101 500 Redwood A-222 700 Brighton A-217 750 A-201 900 A-110 600 Hệ quản trị Cơ sở liệu A-218 700 28 8/25/2017 3.2 Mẫu tin có chiều dài động (tt) Sắp xếp mẫu tin vào block • Fixed-Length Representation records Anchor block • Pointer • Các mẫu tin có chiều dài động móc xích với thơng qua danh sách mẫu tin có chiều dài cố định • Có loại blocks tập tin • Anchor block – Chứa mẫu tin mảng accountinfo • Overflow block – Chứa mẫu tin mảng account-info Perryridge Round Hill Mianus Downtown Redwood Brighton Overflow block A-102 A-305 A-215 A-101 A-222 A-217 400 350 700 500 700 750 A-201 A-218 A-110 900 700 600 Hệ quản trị Cơ sở liệu Kích thước cố định blocks a file 29 Tổ chức mẫu tin tập tin 30 • Các mẫu tin tổ chức lưu trữ theo thứ tự đó, thơng thường theo trường khóa tìm kiếm (searchkey) • Khóa tìm kiếm khơng thiết khóa hay siêu khóa • Tổ chức mẫu tin tập tin nào? Sequential Clustering Indexing Hashing B-Tree Hệ quản trị Cơ sở liệu Hệ quản trị Cơ sở liệu Giả sử có file 5.1 Tuần tự (Sequential) • Cho tập mẫu tin • • • • • … 31 Hệ quản trị Cơ sở liệu 32 8/25/2017 5.1 Tuần tự (Sequential) (tt) 5.1 Tuần tự (Sequential) (tt) • Các mẫu tin tổ chức lưu trữ theo thứ tự đó, thơng thường theo trường khóa tìm kiếm (searchkey) • Khóa tìm kiếm khơng thiết khóa hay siêu khóa • Xóa mẫu tin • Sử dụng danh sách trỏ trỏ đến vùng trống • Thêm mẫu tin Hệ quản trị Cơ sở liệu Tìm vị trí thích hợp tập tin Nếu có vị trí trống block thêm vào Ngược lại thêm vào vùng overflow block Cập nhật lại trỏ theo thứ tự khóa tìm kiếm 33 Hệ quản trị Cơ sở liệu 34 5.2 Clustering 5.1 Tuần tự (Sequential) (tt) • Nhận xét • Xét quan hệ depositor customer • Thực câu truy vấn • Giảm tối thiểu khối lượng block cần đọc truy xuất tập tin • Tốn nhiều chi phí di chuyển mẫu tin sau thêm xóa mẫu tin select account-number, customer-name, customer-street from depositor, customer where depositor.customer-name=customer.customer-name • Nếu quan hệ depositor customer nằm gần tập tin câu truy vấn thực cách hiệu • Khi customer đọc nguyên khối chứa đưa vào nhớ • Lúc depositor có liên quan đến customer có sẳn xử lý Hệ quản trị Cơ sở liệu 35 Hệ quản trị Cơ sở liệu 36 8/25/2017 5.2 Clustering (tt) Chỉ mục • Tổ chức clustering lưu trữ mẫu tin tương ứng hay nhiều quan hệ block • Nhận xét • Chỉ mục dùng để truy xuất liệu nhanh • Một tập tin liệu có nhiều tập tin mục kèm theo • Tập tin mục gồm Có hiệu truy vấn có phép kết Chưa thật tốt truy vấn quan hệ Một block có nhiều loại mẫu tin Hệ quản trị Cơ sở liệu search-key pointer • Tập tin mục nhỏ nhiều so với tập tin liệu ban đầu • Tập tin mục xếp thứ tự theo khóa tìm kiếm 37 Hệ quản trị Cơ sở liệu Chỉ mục (tt) Chỉ mục (tt) • Nếu tập tin chứa mẫu tin thứ tự • Chỉ mục dày (Dense index) • Chỉ mục sơ cấp (Primary index) 38 • Tập tin gốc có mẫu tin tập tin mục có nhiêu • Là mục có khóa tìm kiếm định nghĩa thứ tự xếp mẫu tin tập tin gốc • Cịn gọi clustering index • Chỉ mục thứ cấp (Secondary index) • Là mục có khóa tìm kiếm đưa thứ tự xếp khác với thứ tự tập tin gốc • Cịn gọi nonclustering index Hệ quản trị Cơ sở liệu 39 Hệ quản trị Cơ sở liệu 40 10 8/25/2017 Chỉ mục (tt) Chỉ mục (tt) • Chỉ mục thưa (Sparse index) • Cú pháp: CREATE INDEX ON (,,…) • Ví dụ: CREATE INDEX ON MonHoc(TenMH) • Tập tin mục lưu lại số khóa tập tin gốc • Để xác định vị trí khóa k • Tìm tập tin mục khóa lớn bé k • Tìm tập tin gốc địa vừa xác định tập tin mục Hệ quản trị Cơ sở liệu 41 Hệ quản trị Cơ sở liệu 42 43 Hệ quản trị Cơ sở liệu 44 Chỉ mục (tt) • Nhận xét • Tìm kiếm nhanh trường hợp so sánh với số phép kết • Làm chậm thao tác thêm, xóa sửa • Tốn chi phí • Lưu trữ mục • Truy xuất đĩa nhiều • Chọn lựa cài đặt mục hợp lý??? Hệ quản trị Cơ sở liệu 11