Mơ hình chi phí phân tán

Một phần của tài liệu bài giảng cơ sở dữ liệu phân tán chuẩn (Trang 84 - 86)

- Một câu vấn tin gọi là sai nghĩa nếu các thành phần của nó khơng tham gia vào việc tạo ra kết quả.

3.4.3Mơ hình chi phí phân tán

PROJ EMP (c)

3.4.3Mơ hình chi phí phân tán

Mơ hình chi phí của thể tối ưu hóa gồm có các hàm chi phí để dự đốn chi phí của các toán tử, số liệu thống kê, dữ liệu cơ sở và các cơng thức để ước lượng kích thước các kết quả trung gian.

Hàm chi phí

Chi phí của một chiến lược thực thi phân tán có thể được diễn tả ứng với tổng thời gian hoặc với thời gian đáp ứng. Tổng thời gian (total time) là tổng tất cả các thành phần thời gian (cịn được gọi là chi phí), cịn thời gian đáp ứng ( response time) là thời gian tính từ khi khởi hoạt đến lúc hồn thành câu vấn tin. Cơng thức tổng quát để xác định tổng chi phí được mơ tả như sau:

Total_time = TCPU * #insts + TI/O * #I/Os + TMSG * #msgs + TTR * #bytcs

Hai thành phần đầu tiên là thời gian xử lý cục bộ, trong đó TCPU là thời gian của

một chỉ thị CPU và TI/O là thời gian cho một thao tác xuất nhập đĩa. Thời gian truyền được biểu thị qua hai thành phần cuối cùng. TMSG là thời gian cố định cần để khởi hoạt và nhận một thơng báo, cịn TTR là thời gian cần để truyền một đơn vị dữ liệu từ vị trí này đến vị trí khác. Đơn vị dữ liệu ở đây tính theo byte (#byte là tổng kích thước của

tất cả các thơng báo), nhưng cũng có thể tính theo những đơn vị khác (thí dụ theo gói). Thông thường chúng ta giả thiết TTR là một giá trị khơng đổi. Điều này có thể khơng đúng trong các mạng WAN, trong đó một số vị trí nằm xa hơn so với một số khác. Tuy nhiên giả thiết này làm đơn giản quá trình tối ưu hóa rất nhiều. Vì thế thời gian truyền #byte dữ liệu từ vị trí này đến vị trí khác được giả thuyết là một hàm tuyến tính theo #bytes:

CT(#bytes) = TMSG + TTR * #bytes

Các chi phí nói chung được diễn tả theo đơn vị thời gian, và từ đó có thể chuyển thành các đơn vị khác (thí dụ như đơ la).

Giá trị tương đối của các hệ số chi phí đặc trưng cho mơi trường CSDL phân tán. Topo mạng có ảnh hưởng rất lớn đến tỷ số giữa các thành phần này. Trong mạng WAN như Internet, thời gian truyền thường là hệ số chiếm đa phần. Tuy nhiên trong các mạng LAN thì các hệ số thành phần cân bằng hơn. Những nghiên cứu ban đầu đã chỉ ra rằng tỷ số giữa thời gian truyền và thời gian xuất nhập một trang vào khoảng 20:1

đối với mạng WAN, đối với các mạng Ethernet điển hình (10Mbds) thì vào khoảng 1:1,6. Vì thế phần lớn các hệ DBMS phân tán được thiết kế trên các mạng WAN đều bỏ qua chi phí xử lý cục bộ và tập trung vào vấn đề cực tiểu hóa chi phí truyền. Ngược lại các DBMS phân tán được thiết kế cho mạng LAN đều xét đến cả ba thành phần chi phí này. Các mạng nhanh hơn cả mạng WAN lẫn mạng LAN đã cải thiện các tỷ lệ nêu trên thiên về chi phí truyền khi tất cả mọi thứ khác đều như nhau. Tuy nhiên thời gian truyền vẫn là một yếu tố chiến đa phần trong các mạng WAN như Internet bởi vì dữ liệu cần phải được di chuyển đi đến các vị trí xa hơn.

Khi thời gian đáp ứng vấn tin là hàm mục tiêu của thể tối ưu hóa, chúng ta cần phải xét đến vấn đề xử lý cục bộ song song và truyền song song. Công thức tổng quát của thời gian đáp ứng là:

Response_time = TCPU * seq_ #insts + TI/O * seg_ #I/Os + TMSG * seg_ #msgs + TTR * seg_ #bytes

Trong đó seq_ #x, với x có thể là các chỉ thị (insts), các xuất nhập I/O, các thông báo (msgs) hoặc bytes, là số lượng x tối đa phải được thực hiện một cách tuần tự khi thực hiện vấn tin. Vì vậy mọi xử lý và truyền dữ liệu thực hiện song song đều được bỏ qua.

Thí dụ 3.15:

Chúng ta minh họa sự khác biệt giữa tổng chi phí và thời gian đáp ứng qua thí dụ trong Hình 6, trong đó kết quả trả lời được tính tại vị trí 3, dữ liệu được lấy từ vị trí 1 và 2. Để đơn giản, chúng ta phải giả sử rằng chỉ xét đến chi phí truyền.

Giả sử rằng TMSG và TTR được diễn tả theo đơn vị thời gian. Tổng chi phí truyền x

Một phần của tài liệu bài giảng cơ sở dữ liệu phân tán chuẩn (Trang 84 - 86)