CTỌ HCBQ co ọ'

Một phần của tài liệu Giáo trình hệ cơ sở dữ liệu phân tán và suy diễn phần 1 nguyễn văn huân, phạm việt bình (Trang 67 - 71)

- Đặc tính thứ hai của tậpcác vỊ tìr là tính cực tiểu Đây là một đặc tính cảm tính Vị từ đơn giản phải cĩ liên đới (relevant) trong việc xác định một mảnh M ột vị tìr khơng tham gia

zCTỌ HCBQ co ọ'

là lớn nhất. Đặc trưng quan trọng của biểu thức này là nĩ định nghĩa hai mảnh sao cho giá trị của CTỌ và CBỌ càng gần bằng nhau càng tốt. Điều này cho phép cân bằng tài trọng xử lý khi các mảnh được phân tán đên các vị trí khác nhau. Tluiật tốn phân hoạcli cĩ độ phức tạp tuvẻn tính theo số thuộc tính của quan hệ. nghĩa là 0(n).

Thuật tốn PARTITION

Input: CA: ma trận ái lực tụ; R: quan hệ; ref; ma trận sử dụng thuộc tính; acc: ma trận tần sổ truy xuất;

Output: F: tập các mảnh;

Begin {xác định giá trị z cho cột thứ nhất}

{các chỉ mục trong phương trinh chi phí chỉ ra điểm tách} tính CTỌ„.| tính CBQ„.| tính COQ„_i b e s t< - C T Q ,,|* C B Q „ .|- ( C 0 Q ,,,) ' do {xác định cách phân hoạch tốt nhất} begin for i from n-2 to 1 by - 1 do begin tính CTQj tính CBQ, tính COQi z<^ CTỌ,*CBỌ, (COQ,)’ if z > best then begin best <- z

ghi nhận điểm tách bên vào trong hành động xê dịch end-if

end-for

gọi SHIFT(CA) end-begin

until khơng thể thirc hiện SHIFT được nữa Xây dựng lại ma trận theo vị trí xê dịch

R| <-riTA(R-) K. {K là tập thuộc tính khố chính của R} R2< - r iB A ( R ) u K

{ R i,R2} End. {partition}

Áp dụng cho ma trận CA từ quan hệ D ự án, kết quả là định nghĩa các mảnh "= {Dự ári|, Dự knj]

trong đĩ: Dự ári| = {A|, A3} và Dự áĩ\i = {A|, A2, A4} . Vì thế Dự áiii = {Mã dự án, Ngân sách}

Kiêm tra tính đủng đắn

Tính đầy đù: được bảo đảm bằng thuật tốn PARTITION vì mỗi thuộc tính của quan hệ

tồn cục được đưa vào một trong các mảnh.

Tỉỉih ỉcìi thiéí đirợc: đối với quan hệ R cĩ phân mảnh dọc Fr {R|, R,} và các

thuộc tính khố K.

R = \ X ị K R,, V R ,eF R

Do vậy nếu điều kiện mồi Rj là đầy đủ phép tốn nối sẽ tái thiết lại đúng R. Một điềm quan trọng Ịà mỗi mảnh R, phải chứa các thuộc tính khố của R.

2 .3 .5 . P h â n m ả n h h ỗn h ọ p

Trong đa số các trường hợp, phân mành ngang hoặc phân mảnh dọc đơn giản cho một lược đồ CSDL khơng đủ đáp ứng các yêu cầu từ ứng dụng. Trong trường hợp đĩ phân mảnh dọc cĩ thể thực hiện sau một số mảnh ngang hoặc ngược lại, sinh ra một lối phân hoạch cĩ cấu trúc cây. Bởi vì hai chiến lược này được áp dụng lần lưọt, chọn lựa này được gọi là phân mảnh hỗn hợp.

R

2 .3 .6 . C ấ p p h á t

Cấp phát tài nguyên cho các nút của một mạng máy tính là một bài tốn được nhiều người quan tâm và nghiẻn cứu rộng rãi. Tuy nhiên, phần lớn các nghiên cửu này đều khơng tập trung vào bài tốn thiết kế cơ sờ dữ liệu phân tán, nhưng lại tập trung vào cách thức đặt các tập tin trên một mạng máy tính. Trong thực tế để cĩ được một mạng máy tính hoạt động một cách cĩ hiệu quả với thịi gian và chi phí nhị nhất thì rất khĩ. Tuy nhiên, chúng ta vẫn cỏ thể làm được điều này bằng cách ứng dụng bài tốn cấp phát (thiết kế sự sắp chỗ dữ iiẻ L i) vào việc thiết

kế CO' sở d ữ liệu phán tán, khi đ ĩ n gư ời ta tim c á c h bố trí giữa cá c tập tin và c á c trạm m á y tính

sao cho đạl hiệu quả cao tức là thời gian và chi phi nhỏ nhất nhưng vẫn đàm bảo hệ thống hoạt dộng vĩi lưu lượng nhanh nhất. Hay nĩi cách khác, ứng dụng bài tốn cấp phát cho phép chúng ta đạt được cực đại tính địa phương và tối thiểu hố việc tham chiếu từ xa.

2 ,3 .6 .1 B à i tốn cap p h á t

Giả sử đã cỏ một tập các manh F - {F|, F„Ị và một mạng bao gồm các vị trí s == {Si, S2,..., s,„} trên đĩ cĩ một tập các ứng dụng ọ ỉqi, q^,} đang chạy. Bài tốn cấp phát là tìm một phân phối “tối ưu" của F cho s.

Tính tối ưu cĩ thể được định nghĩa ứng với hai số đo [Dowdy and Foster, 1982]: (adsbygoogle = window.adsbygoogle || []).push({});

- Chi p h í ììhỏ nhất: Hàm chi phí cĩ chi lưu mảnh F, vào vị trí S|, chi phí vấn tin mành F, vào vị trí Sị, chi phí cập nhật F, tại tất cá mọi vị trí GĨ chứa chi phí tryền dữ liệu. Vì thé bài tốn cấp phát cố gang tìm một lược đồ cắp phát với liàni chi phí tỏ hợp nliĩ nhất.

- Hiện năng: Chiến lược cấp phát được thiết kế nhằm duy trì một hiệu quả lớn đĩ là hạ thấp thịi gian đáp ứng và tăng tối đa lưu lượng hệ thống tại mỗi vị trí.

Nĩi chung bài tốn cấp phát tổng quát là một bài tốn phức tạp và cĩ độ phức tạp là NP- đầy đủ (NP-complete). Vi thế các nghiên cửu đã đirọc dành cho việc tìm ra các tluiật giài heuristec tốt để cĩ lịi giải gần tối ưu.

2.3.6.2, Cách tiếp cận 1

a). Yêu cầu về thơng tin

ở giai đoạn cấp phát, chúng ta cần các thơng tin định iượng về CSDL, về các ứng dụng chạy trên đĩ, về cấu trúc mạng, khả năng xử lý và giới hạn lưu trữ của mỗi vị trí trẽn mạng.

Thơng tin về CSDL

Độ tuyến của một mánh F| ứng với câu vấn tin q,.‘ Đáy là số lưọng các bộ của F| cần được truy xuất để xử lý qi. Giá trị này ký hiệu là selí(F|).

Kích thước của một mảnh Fj được cho bởi: Size (Fj) ^ card (F|)* length(F,)

trong đĩ: Length(F|) là chiều dài (tính theo byte) cua một bộ trong mảnh F,.

Thơng tin về ứng d m g

Hai số liệu quan trọng là số truy xuất đọc do câu vấn tin qj thực hiện trên mảnh F, trong mỗi lần chạy của nĩ (ký hiệu là RR,|), và tương ứng là các truy xuất cập nhật (URy). Thí dụ chúng cĩ thể đếm số truy xuất khối cần phải thực hiện theo yêu cầu vấn tin.

Chúng ta định nghĩa hai ma trận UM và RM với các phần tử tương ừng U ,J và r,, được đặc tả tương ứng như sau:

1 nếu vấn tin q,cĩ cập nhật mảnh F,

0 trong trường họp ngược lại ! nếu vấn tin q,cĩ cập nhật mảnh F,

Mộí véctơ o gồm các giá trị o(i) cùng đưọc định nghĩa, với o(i) đặc tả vị trí đưa ra câu vấn tin qi .

Thơng tin về vị trí

Vĩi mỗi vị trí (trạm) chíin^ ta cần biết về khá năng lưu trữ và xử lý cúa nĩ. Hiến nhiên là những 2;iá trị này cĩ thế tính được bàiiũ. các hàm thích họp hoặc bằng phương pháp đánh giá đon giản.

+ Chi phí đơn vị tính để lưu dữ liệu tại vj trí Si. sẽ được kỷ hiệu là VSCỵ,

+ Đặc tả sổ đo chi phí LPCk, là chi phí xử lý một đơn vị cơng việc tại vị trí Sị,. Đơn vị cơng việc cần phải giống với đon vị ciia RR và UR.

Thỏrìg tin về m ang

Chúng ta giả sử tồn tại một mạng đon íiiản, g„ biếu thị cho chi phí truyền mỗi bĩ giừa hai vị tn' s, và S|. Đế cĩ thể tính được số lượng thơng báo, chủng ta dủn^ fsize làm kích thước (tính theo byte) của một bĩ dữ liệu.

Một phần của tài liệu Giáo trình hệ cơ sở dữ liệu phân tán và suy diễn phần 1 nguyễn văn huân, phạm việt bình (Trang 67 - 71)