Cơ sở dữ liệu phân tán Demo thuật toán phân mảnh dọc

25 491 0
Cơ sở dữ liệu phân tán Demo thuật toán phân mảnh dọc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I H C QU C GIA THÀNH PH H CHÍ MINHĐẠ Ọ Ố Ố Ồ CH NG TRÌNH ÀO T O TH C S CNTT QUA M NGƯƠ Đ Ạ Ạ Ĩ Ạ ________________ BÀI THU HO CH MÔN H CẠ Ọ C S D LI U NÂNG CAOƠ Ở Ữ Ệ tàiĐề : C s d li u phân tán ơ ở ữ ệ Demo thu t toán phân m nh d cậ ả ọ GVHD: PGS.TS. PhúcĐỗ H c viên th c hi nọ ự ệ : Tr nh Th Thanh Nhànị ị MSHV: CH1101113 TP. HCM, n m 2012ă C s d li u nâng caoơ ở ữ ệ GVHD: PGS.TS. PhúcĐỗ Trang 2 C s d li u nâng caoơ ở ữ ệ MỤC LỤC GVHD: PGS.TS. PhúcĐỗ Trang 3 C s d li u nâng caoơ ở ữ ệ Ch ng 1. ươ C S D LI U PHÂN TÁNƠ Ở Ữ Ệ 1.1 Gi i thi u ớ ệ C s d li u phân tán (Distributed Database) là c s d li u c phân o n và c l uơ ở ữ ệ ơ ở ữ ệ đượ đ ạ đượ ư tr trên các tr m trong h th ng m ng. Hình 1 d i ây là m t ví d v c s d li u phân tán.ữ ạ ệ ố ạ ướ đ ộ ụ ề ơ ở ữ ệ Hình 1: Ví d c s d li u phân tánụ ơ ở ữ ệ • Thi t k h th ng thông tin có CSDL phân tán bao g m:ế ế ệ ố ồ o Phân tán và ch n nh ng v trí t d li u;ọ ữ ị đặ ữ ệ o Các ch ng trình ng d ng t i các i m;ươ ứ ụ ạ đ ể o Thi t k t ch c khai thác h th ng ó trên n n m ng.ế ế ổ ứ ệ ố đ ề ạ • Khi thi t k các h th ng CSDL phân tán ng i ta th ng t p trung xoay quanh các câuế ế ệ ố ườ ườ ậ h i?ỏ o T i sao l i c n ph i phân m nh?ạ ạ ầ ả ả o Làm th nào th c hi n phân m nh?ế để ự ệ ả o Phân m nh nên th c hi n n m c nào?ả ự ệ đế ứ độ o Có cách gì ki m tra tính úng n c a vi c phân m nh?ể đ đắ ủ ệ ả o Các m nh s c c p phát trên m ng nh th nào?ả ẽ đượ ấ ạ ư ế o Nh ng thông tin nào s c n thi t cho vi c phân m nh và c p phát?ữ ẽ ầ ế ệ ả ấ • H qu n tr c s d li u phân tán (DDBMS)ệ ả ị ơ ở ữ ệ o Cho phép ng i dùng t o, s d ng csdl. ườ ạ ử ụ o m b o an ninh (c p phát quy n, 1 nhóm ng i c s d ng, …) Đả ả ấ ề ườ đượ ử ụ o m b o tính trong su t c a csdl (Transperence): Đả ả ố ủ o Ng i dùng s d ng nh csdl t p trung. ườ ử ụ ư ậ o Truy v n t p trung -> Truy v n phân tán.ấ ậ ấ • Các ng d ng:ứ ụ o ng d ng c c b (Local App): Ch quan tâm t i d li u 1 tr mỨ ụ ụ ộ ỉ ớ ữ ệ ở ạ GVHD: PGS.TS. PhúcĐỗ Trang 4 C s d li u nâng caoơ ở ữ ệ o ng d ng toàn c c (Global App): Liên quan n nhi u tr m.Ứ ụ ụ đế ề ạ • Các b c thi t k c s d li u phân tánướ ế ế ơ ở ữ ệ o Thi t k l c quan ni m: i t ng + M i quan h -> ER (Gi ng csdl t pế ế ượ đồ ệ Đố ượ ố ệ ố ậ trung). o Thi t k logic – v t lý:ế ế ậ  Thi t k phân o n: Chia các quan h thành các o n -> L phân o nế ế đ ạ ệ đ ạ Đồ đ ạ CSDL.  Thi t k nh v : t các o n lên các tr m -> L nh v .ế ế đị ị Đặ đ ạ ạ Đồ đị ị 1.2 u nh c i m c a c s d li u phân tánƯ ượ đ ể ủ ơ ở ữ ệ • u i m:Ư đ ể o D li u g n v i n i x lý -> Hi u su t cao.ữ ệ ầ ớ ơ ử ệ ấ o Tính s n sàng c a h th ng cao: N u m t tr m b l i s không nh h ng t i cácẵ ủ ệ ố ế ộ ạ ị ỗ ẽ ả ưở ớ tr m khác trong h th ng.ạ ệ ố o Vi c t ng các tr m s d ng trong h th ng là n gi n nên vi c m r ng CSDL làệ ă ạ ử ụ ệ ố đơ ả ệ ở ộ d dàng.ễ • Nh c i m:ượ đ ể o L u tr : Ngoài l c CSDL nh trong CSDL t p trung (Thu c tính, ki u d li u, …)ư ữ ượ đồ ư ậ ộ ể ữ ệ còn thêm các l c phân o n CSDL, l c nh v CSDL (cho bi t các o n cượ đồ đ ạ ượ đồ đị ị ế đ ạ đượ l u tr âu). ư ữ ở đ o X lý: Truy v n t p trung là n gi n còn truy v n phân tán ph c t p. ử ấ ậ đơ ả ấ ứ ạ o An toàn: CSDL c l u tr nhi u n i n y sinh v n : m b o an toàn d li uđượ ư ữ ở ề ơ ả ấ đề đả ả ữ ệ khi truy n qua m ng.ề ạ 1.3 C u trúc chung c a m t c s d li u phân tánấ ủ ộ ơ ở ữ ệ C u trúc m u c a m t c ấ ẫ ủ ộ ơ sở d li u phân tán có d ng:ữ ệ ạ GVHD: PGS.TS. PhúcĐỗ Trang 5 C s d li u nâng caoơ ở ữ ệ Hình 2: C u trúc m u c a m t c s d li u phân tánấ ẫ ủ ộ ơ ở ữ ệ • L c toàn c c: ượ đồ ụ o Xác nh toàn b d li u c l u tr trong CSDLPT. đị ộ ữ ệ đượ ư ữ o c nh ngh a nh trong CSDL t p trung. Đượ đị ĩ ư ậ o Trong mô hình quan h : l c toàn c c là các quan h và m i liên k t gi a chúng. ệ ượ đồ ụ ệ ố ế ữ • L c phân o n: ượ đồ đ ạ o M i quan h t ng th có th c chia thành các ph n không giao nhau g i là phânỗ ệ ổ ể ể đượ ầ ọ o n (Fragment). đ ạ o Có nhi u cách khác nhau phân o n: Phân o n d c, phân o n ngang, phân o nề để đ ạ đ ạ ọ đ ạ đ ạ h n h p. ỗ ợ o Các o n cđ ạ đượ mô t b ng tên c a quan h t ng th cùng v i ch m c o n. Víả ằ ủ ệ ổ ể ớ ỉ ụ đ ạ d Ri là o n th i c a quan h toàn c c R. ụ đ ạ ứ ủ ệ ụ • L c nh v : ượ đồ đị ị o Xác nh o n d li u nào c nh v t i tr m nào trên m ng.đị đ ạ ữ ệ đượ đị ị ạ ạ ạ o Rij: Cho bi t o n th i c a quan h t ng th R c nh v trên tr m j. ế đ ạ ứ ủ ệ ổ ể đượ đị ị ạ • L c ánh x a ph ng: ượ đồ ạ đị ươ o Ánh x các nh v t lý và các i t ng c l u tr t i m t tr m.ạ ả ậ đố ượ đượ ư ữ ạ ộ ạ GVHD: PGS.TS. PhúcĐỗ Trang 6 C s d li u nâng caoơ ở ữ ệ Hình 3: Các o n và hình nh v t lý c a m t quan h t ng thđ ạ ả ậ ủ ộ ệ ổ ể 1.4 Các ki u phân m nhể ả M t công ty có các v n phòng Paris, London, NewYork, Toronto. Công ty này có các c sộ ă ở ơ ở d li u sau ây: ữ ệ đ C s d li u v nhân viên: EMP (ENo, EName, Title) ơ ở ữ ệ ề C s d li u v các d án: PROJ (PNo, PName, Budget, Loc) ơ ở ữ ệ ề ự C s d li u v l ng: PAY (Title, Sal) ơ ở ữ ệ ề ươ C s d li u v phân công: ASG (ENo, PNo, Dur, Resp) ơ ở ữ ệ ề Gi i thích v các thu c tính: Sal: L ng; Title: Ch c v ; Budget: Ngân sách c a d án; Loc:ả ề ộ ươ ứ ụ ủ ự a i m; Dur: Duration – Th i h n; Resp: Responsibility – Trách nhi m.Đị đ ể ờ ạ ệ Do tính phân tán c a các v n phòng nên t i m i v n phòng có l u tr d li u tác nghi p c aủ ă ạ ỗ ă ư ữ ữ ệ ệ ủ chính các v n phòng ó, có th là các nhân viên t i ó và các d án mà v n phòng ó ang qu n lý. Ta có să đ ể ạ đ ự ă đ đ ả ơ l u tr ã phân tán và phân m nh gi nh nh sau:đồ ư ữ đ ả ả đị ư GVHD: PGS.TS. PhúcĐỗ Trang 7 C s d li u nâng caoơ ở ữ ệ Hình 4: S l u tr phân tánơ đồ ư ữ Ta xét h c s d li u phân tán d a trên các l c quan h (các b ng), nh v y s phân m nhệ ơ ở ữ ệ ự ượ đồ ệ ả ư ậ ự ả chính là ho t ng chia m t b ng thành các b ng nh h n. phân tích s phân m nh ta l y các quan hạ độ ộ ả ả ỏ ơ Để ự ả ấ ệ EMP, PROJ,PAY, ASG GVHD: PGS.TS. PhúcĐỗ Trang 8 C s d li u nâng caoơ ở ữ ệ 1.4.1 Phân m nh ngangả Gi s ta có m t yêu c u phân m nh quan h PROJ thành hai b ng PROJ1 và PROJ2 sao choả ử ộ ầ ả ệ ả m t b ng ch a các d án có ngân sách l n h n 100000 và cái kia ch a các d án có ngân sách nh h n 100000.ộ ả ứ ự ớ ơ ứ ự ỏ ơ 1.4.2 Phân m nh d cả ọ C ng quan h PROJ ta phân m nh thành hai b ng PROJ3 và PROJ4, khóa c a quan h PNo cóũ ệ ả ả ủ ệ m t c hai b ng con.ặ ở ả ả Trong th c t s phân m nh s x y ra vi c k t h p c hai lo i phân m nh và ta g i là s phânự ế ự ả ẽ ả ệ ế ợ ả ạ ả ọ ự m nh h n h p. M c phân m nh tùy theo yêu c u c a ng d ng, phân m nh quá l n hay quá nh u gâyả ỗ ợ ứ độ ả ầ ủ ứ ụ ả ớ ỏ đề ra các hi u ng ph khó ki m soát.ệ ứ ụ ể GVHD: PGS.TS. PhúcĐỗ Trang 9 C s d li u nâng caoơ ở ữ ệ 1.4.3 Các quy t c phân m nh.ắ ả Các quy t c này nh m m b o tính nh t quán c a c s d li u, c bi t v ng ngh a c a dắ ằ đả ả ấ ủ ơ ở ữ ệ đặ ệ ề ữ ĩ ủ ữ li u.ệ  Quy t c 1: Tính y .ắ đầ đủ N u m t quan h R c phân m nh thành các m nh con Rế ộ ệ đượ ả ả 1 , R 2 , , R n thì m i m c d li u ph iỗ ụ ữ ệ ả n m trong m t ho c nhi u các m nh con. ây trong phân ngang thì m c d li u c hi u là các b cònằ ộ ặ ề ả Ở đ ụ ữ ệ đượ ể ộ trong phân m nh d c là các thu c tính. Quy t c này m b o không b m t d li u khi phân m nh.ả ọ ộ ắ đả ả ị ấ ữ ệ ả  Quy t c 2: Tính tái thi t c.ắ ế đượ N u m t quan h R c phân m nh thành các m nh con Rế ộ ệ đượ ả ả 1 , R 2 , , R n thì ph i nh ngh a cả đị ĩ đượ m t toán t quan h ộ ử ệ sao cho  Quy t c 3: Tính tách bi t.ắ ệ Gi s m t quan h R c phân m nh thành các m nh con Rả ử ộ ệ đượ ả ả 1 , R 2 , , R n . i v i phân m nh ngang m c dĐố ớ ả ụ i ã n m trong m nh Rđ ằ ả j thì nó s không n m trong m nh Rẽ ằ ả k v iớ k j. ≠ i v i phân m nh d c thì khóa chính ph i c l p l i trong các m nh con, còn các thu c tính khácĐố ớ ả ọ ả đượ ặ ạ ả ộ ph i tách r iả ờ 1.4.4 Ph ng pháp phân m nh ngang.ươ ả 1.4.4.1 Các yêu c u v thông tinầ ề ph c v cho các ho t ng phân m nh ta c n có các lo i thông tin sau ây:Để ụ ụ ạ độ ả ầ ạ đ  Thông tin v c s d li u.ề ơ ở ữ ệ ây là thông tin v l c d li u toàn c c, ch ra các m i liên k t gi a các quan h . Ta mô hình hóaĐ ề ượ đồ ữ ệ ụ ỉ ố ế ữ ệ s liên k t này b ng m t th có h ng, các cung ch m t liên h k t n i b ng, m i nút là m t l c quanự ế ằ ộ đồ ị ướ ỉ ộ ệ ế ố ằ ỗ ộ ượ đồ h . Quan h u ng n i g i là quan h ch nhân (Owner) còn quan h cu i ng n i g i là quanệ ệ ở đầ đườ ố ọ ệ ủ ệ ở ố đườ ố ọ h thành viên (Member). ta nh ngh a hai hàm Owner và Member t t p các ng n i n t p các quanệ đị ĩ ừ ậ đườ ố đế ậ h .ệ GVHD: PGS.TS. PhúcĐỗ Trang 10 [...]... GVHD: PGS.TS.Đỗ Phúc Trang 16 Cơ sở dữ liệu nâng cao đặt vấn đề như vậy thì việc phân mảnh dọc không chỉ là bài toán của hệ cơ sở dữ liệu phân tán mà còn là bài toán của ngay cả hệ cơ sở dữ liệu tập trung Phân mảnh dọc là một bài toán hết sức phức tạp, người ta đã ch ứng minh được rằng n ếu quan h ệ có m thuộc tính không phải là thuộc tính khóa thì số lượng các mảnh dọc được phân ra là s ố Bell th ứ m... nhân thì vấn đề sẽ trở nên ph ức tạp hơn + Phân mảnh dẫn xuất sẽ gây nên phân mảnh lan truyền 1.4.6 Phương pháp phân mảnh dọc Ý nghĩa của phân mảnh dọc là tạo ra các quan hệ nhỏ h ơn để sao cho gi ảm t ối đa th ời gian th ực hiện của các ứng dụng chạy trên mảnh đó Việc phân mảnh dọc là hoạt động chia m ột quan h ệ R thành các mảnh con R1, R2, , Rn sao cho mỗi mảnh con chứa tập con thuộc tính và chứa... cấp PAY1 và PAY2 PAY1 = δSal ≤ 3500 (PAY) PAY2 = δSal > 3500 (PAY) Ta có các mảnh ngang dẫn xuất: EMP1 = EMP θ PAY1 EMP2 = EMP θ PAY2 GVHD: PGS.TS.Đỗ Phúc Trang 15 Cơ sở dữ liệu nâng cao Sơ đồ liên kết của cơ sở dữ liệu sau khi phân mảnh: Ta có một số nhận xét quan trọng sau đây: + Thuật toán phân mảnh dẫn xuất cần có tập các phân ho ạch quan hệ ch ủ nhân - thành viên, t ập v ị t ừ liên k ết quan hệ... m4, m5, m6} Phân mảnh ngang nguyên thủy quan hệ PROJ theo M (lưu ý là PROJ1 và PROJ6 là r ỗng) chúng ta có: 1.4.5 Phân mảnh ngang dẫn xuất: Phân mảnh ngang dẫn xuất được định nghĩa dựa trên một sự phân mảnh ngang một quan hệ thành viên của một đường nối dựa theo phép toán chọn trên quan hệ ch ủnhân c ủa đường n ối đó, hay ta còn g ọi đó là sự phân mảnh quan hệ thành viên dựa trên cơ sở phân mảnh quan... làm điểm phân chia vì tại vị trí này giá trị chi phí là cao nh ất Như v ậy chúng ta có PROJ 1 = {A1, A3} và PROJ2 = {A1, A2, A4} Tức là PROJ1 = {PNo, Budget} và PROJ2 = M{PNo, PName, Loc} Chương 2 Demo Phân mảnh dọc Giao diện chương trình: GVHD: PGS.TS.Đỗ Phúc Trang 23 Cơ sở dữ liệu nâng cao Chương trình được load lên từ file txt có format như sau: Tài liệu tham khảo: 1 Giáo trình môn Cơ sở dữ liệu nâng... Giáo trình môn Cơ sở dữ liệu nâng cao của PGS.TS Đỗ Phúc – Trường ĐH Công nghệ thông tin 2 Bài giảng cơ sở dữ liệu nâng cao của Trường ĐH Hàng Hải – Khoa công nghệ thông tin 3 Forum http://www.uit.edu.vn/forum/index.php? Môn cơ sở dữ liệu nâng cao, Đào tạo sau đại học GVHD: PGS.TS.Đỗ Phúc Trang 24 Cơ sở dữ liệu nâng cao GVHD: PGS.TS.Đỗ Phúc Trang 25 ... ứng dụng nào truy xuất đến mảnh do nó sinh ra GVHD: PGS.TS.Đỗ Phúc Trang 12 Cơ sở dữ liệu nâng cao Khi một tậ p vị từ là cực tiểu thì tất cả các vị từ trong đó đều sinh ra phân m ảnh được truy xu ất b ởi ít nhất một ứng dụng, ta gọi những vị từ đó là có liên đới Bước 1: Thu ậ t toán tìm tập vị từ đầy đủ và cực tiểu Quy tắc cơ bản về DD&CT: Một quan hệ hoặc một mảnh được phân hoạch thành ít nh ất hai... th ấy có nhiều tụ hơn vì vậy sẽ dẫn đến có nhiều phân hoạch để lựa chọn hơn Thuật toán phân hoạch thuộc tính Xét ma trận tụ, một điểm nằm trên đường chéo sẽ xác định hai tập thu ộc tính Giả sử điểm đó n ằm ở c ột i thì các tập đó là {A1, , Ai} và {Ai+1, , An}, ta gọi là tập đỉnh (top) TA và tập đáy (bottom) BA GVHD: PGS.TS.Đỗ Phúc Trang 21 Cơ sở dữ liệu nâng cao Xét tập ứng dụng Q = {q 1, q2, ,... gọi fi của PR là mảnh fi được sinh ra từ một vị từ hội sơ cấp trong PR Thuật toán COM_MIN Đầu vào R là quan hệ; PR là tập vị từ đơn giản Đầu ra PR’ là tập vị từ đơn giản và cực tiểu Begin Tìm một vị từ pi ∈PR sao cho pi phân hoạch R theo quy tắc cơ bản DD&CT; P R’ = {pi}; PR = PR –{pi}; F = {fi} /* fi là mảnh hội sơ cấp sinh ra bởi pi*/ Do Begin Tìm một pj∈PR sao cho pj phân hoạch một mảnh f k của PR’... V1) ∧ ⌈ (Att = V2) Các vị từ m1 và m4 mâu thuẫn với các phép kéo theo chúng ta đã xác định ở trên và vì thế chúng ta s ẽ lo ại nó ra khỏi PR’ Bước 4: Thuật toán tìm tập vị từ hội sơ cấp có nghĩa Thuật toán PHORIZONTAL GVHD: PGS.TS.Đỗ Phúc Trang 13 Cơ sở dữ liệu nâng cao Đầu vào R là môt quan hệ Đầu ra M là tập các vị từ hội sơ cấp có nghĩa Begin PR’ = COM_MIN (R, PR) ; Tính tập M các vị từ hội sơ cấp . t ví d v c s d li u phân tán. ữ ạ ệ ố ạ ướ đ ộ ụ ề ơ ở ữ ệ Hình 1: Ví d c s d li u phân tán ơ ở ữ ệ • Thi t k h th ng thông tin có CSDL phân tán bao g m:ế ế ệ ố ồ o Phân tán và ch n nh ng v trí. u phân tán ủ ộ ơ ở ữ ệ C u trúc m u c a m t c ấ ẫ ủ ộ ơ sở d li u phân tán có d ng:ữ ệ ạ GVHD: PGS.TS. PhúcĐỗ Trang 5 C s d li u nâng caoơ ở ữ ệ Hình 2: C u trúc m u c a m t c s d li u phân tán . l u tr ã phân tán và phân m nh gi nh nh sau:đồ ư ữ đ ả ả đị ư GVHD: PGS.TS. PhúcĐỗ Trang 7 C s d li u nâng caoơ ở ữ ệ Hình 4: S l u tr phân tán đồ ư ữ Ta xét h c s d li u phân tán d a trên

Ngày đăng: 10/04/2015, 14:34

Từ khóa liên quan

Mục lục

  • Chương 1. CƠ SỞ DỮ LIỆU PHÂN TÁN

    • 1.1 Giới thiệu

    • 1.2 Ưu nhược điểm của cơ sở dữ liệu phân tán

    • 1.3 Cấu trúc chung của một cơ sở dữ liệu phân tán

    • 1.4 Các kiểu phân mảnh

      • 1.4.1 Phân mảnh ngang

      • 1.4.2 Phân mảnh dọc

      • 1.4.3 Các quy tắc phân mảnh.

      • 1.4.4 Phương pháp phân mảnh ngang.

        • 1.4.4.1 Các yêu cầu về thông tin

        • 1.4.4.2 Phân mảnh ngang nguyên thủy

        • 1.4.5 Phân mảnh ngang dẫn xuất:

        • 1.4.6 Phương pháp phân mảnh dọc

        • Chương 2. Demo Phân mảnh dọc

Tài liệu cùng người dùng

Tài liệu liên quan