mô hình tối ưu hóa truy vấn hai pha trong cơ sở dữ liệu và ứng dụng

77 534 0
mô hình tối ưu hóa truy vấn hai pha trong cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN CHUNG MÔ HÌNH TỐI ƢU HÓA TRUY VẤN HAI PHA TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: PGS.TS LÊ HUY THẬP Thái Nguyên - 2013 i S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan luận văn này là do bản thân tự nghiên cứu và thực hiện theo sự hƣớng dẫn khoa học của thầy PGS. TS. Lê Huy Thập Tôi hoàn toàn chịu trách nhiệm về tính pháp lý quá trình nghiên cứu khoa học của luận văn này. Ngƣời Cam Đoan Nguyễn Văn Chung ii S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn đến thầy giáo PGS. TS. Lê Huy Thập đã định hƣớng, hƣớng dẫn và giúp đỡ tôi rất nhiều về mặt chuyên môn trong quá trình tìm hiểu và thực hiện luận văn. Tôi xin gửi lời biết ơn sâu sắc đến các thầy, các cô đã dạy dỗ và truyền đạt những kinh nghiệm quý báu cho chúng tôi trong suốt hai năm cao học ở trƣờng Đại học Công nghệ thông tin và truyền thông Thái Nguyên. Cuối cùng, xin chân thành cảm ơn gia đình và bạn bè đã động viên, quan tâm, giúp đỡ tôi hoàn thành khóa học và luận văn. Thái nguyên, tháng 09 năm 2013 Tác giả Nguyễn Văn Chung iii S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU 1 1. Đặt vấn đề 1 2. Đối tƣợng và phạm vi nghiên cứu 1 3. Hƣớng nghiên cứu của đề tài 1 4. Những nội dung nghiên cứu chính 1 Chƣơng 1: CƠ SỞ LÝ THUYẾT 3 1.1. Giới thiệu về logic 3 1.2. Tổng quan về CSDL phân tán 9 1.2.1. Không gian tìm kiếm 10 1.2.2. Các chiến lƣợc tìm kiếm 13 1.2.3. Mô hình chi phí phân tán 15 1.2.4. Các dạng chi phí song song và mô hình chi phí song song trên bộ tối ƣu hóa truy vấn 22 1.3. Kết luận chƣơng 1 25 Chƣơng 2: MÔ HÌNH TỐI ƢU HÓA TRUY VẤN HAI PHA 26 2.1. Mô hình tối ƣu hóa truy vấn hai pha JOQR 26 2.1.1. Cây truy vấn tiền xử lý 26 2.1.2. Cây toán tử 29 2.2. Tối ƣu hóa giai đoạn JOQR 31 iv S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 2.2.1. Cực tiểu hóa chi phí phân mảnh lại 32 2.2.2. Khả phân mảnh và toán tử cảm thuộc tính 34 2.2.3. Bài toán tối ƣu hóa 37 2.3. Kết luận chƣơng 2 48 Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM 49 3.1. Ứng dụng tại trƣờng Cao đẳng kinh tế - kỹ thuật Vĩnh Phúc (Dạng demo) 49 3.1.1. Giới thiệu CSDL của trƣờng Cao đẳng kinh tế - kỹ thuật Vĩnh Phúc 49 3.1.2. Cực tiểu hóa chi phí phân mảnh lại CSDL tại mục 3.1.1 62 3.2. Kết luận chƣơng 3 66 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA LUẬN VĂN 67 TÀI LIỆU THAM KHẢO 68 v S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT DBMS (Database management system) ESPS (Executor Sever Process) JOQR (Join Ordering and Query Rewriting) LAN (Local Area Network) QEP (Query Execution Plan) SPJ (Selection Projection Joint) SQL (Structured Query Language) WAN (Wide area network) TW (Total Work) RT (Response Time) MC (Memory Consumption) vi S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn DANH MỤC CÁC BẢNG Bảng 1-1. Bảng chân trị các phép toán mệnh đề 4 Bảng 1-2. Thứ tự ưu tiên của các phép toán 4 vii S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1-1. Quá trình tối ưu hoá vấn tin 9 Hình 1-2. Sơ đồ kết nối các quan hệ 11 Hình 1-3. Các cây nối tương đương 12 Hình 1-4. Các loại cây 13 Hình1–5. Xây dựng tối ưu hoá một cách đơn định theo kiểu quy hoạch động 14 Hình 1-6. Hành động của thể tối ưu hoá trong một chiến lược ngẫu nhiên hoá 15 Hình 1-7. Truyền dữ liệu trong câu vấn tin 17 Hình 2-1. Cây truy vấn tiền xử lý 27 Hình 2-2. Cây toán tử tương ứng với cây trong hình 2-1 31 Hình 2-3. Sơ đồ phân mảnh ngang dữ liệu tại các nút 33 Hình 2-4. Các cây truy vấn khác nhau về phân hoạch dữ liệu, đường nét đứt cho thấy phải phân bố lại quan hệ 33 Hình 2-5. Cây toán tử tương ứng với câu truy vấn 37 Hình 2-6. Cây gốc và các phương án tô màu 39 Hình 2-7. Đồ thị vấn tin 42 Hình 2-8. Cây nối của đồ thị vấn tin trên hình 2-7 43 Hình 2-9. Ảnh hưởng của thứ tự phép nối đến chi phí phân mảnh ngang 43 Hình 3-1. Sơ đồ kết nối các quan hệ 53 Hình 3-2. Màn hình chính của chương trình 54 Hình 3-3. Cây truy vấn ban đầu của ví dụ 1 55 Hình 3-4. Cây sau khi sắp lại phép nối ví dụ 1 55 Hình 3-5. Màn hình nhập câu truy vấn 56 Hình 3-6. Câu truy vấn ban đầu và sau biểu diễn lại ví dụ 1 56 Hình 3-7. Kết quả của câu truy vấn ví dụ 1 57 Hình 3-8. Cây truy vấn ban đầu của ví dụ 2 58 viii S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn Hình 3-9. Cây sau khi sắp lại phép nối ví dụ 2 58 Hình 3-10. Giao diện câu truy vấn ban đầu và sau biểu diễn lại ví dụ 2 59 Hình 3-11. Kết quả của câu truy vấn ví dụ 2 59 Hình 3-12. Cây truy vấn ban đầu của ví dụ 3 60 Hình 3-13. Cây sau khi xếp lại phép nối của ví dụ 3 61 Hình 3-14. Giao diện câu truy vấn ban đầu và sau biểu diễn lại ví dụ 3 61 Hình 3-15. Kết quả của câu truy vấn ví dụ 3 62 Hình 3-16. Sơ đồ phân mảnh ngang dữ liệu tại các nút của ví dụ 1 62 Hình 3-17. Cây gốc và các phương án tô màu của ví dụ 1 63 Hình 3-18. Giao diện pha 2 của ví dụ 1 63 Hình 3-19. Giao diện kết quả pha 2 của ví dụ 1 64 Hình 3-20. Sơ đồ phân mảnh ngang dữ liệu tại các nút của ví dụ 2 64 Hình 3-21. Cây gốc và các phương án tô màu của ví dụ 2 65 Hình 3-22. Giao diện pha 2 của ví dụ 2 65 Hình 3-23. Giao diện kết quả pha 2 của ví dụ 1 66 1 S ố hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn MỞ ĐẦU 1. Đặt vấn đề Tối ƣu hóa vấn tin là quá trình tìm một phƣơng án thực hiện câu vấn tin QEP (Query Execution Plan) tối ƣu (theo nghĩa hạ thấp tối đa hàm chi phí, hoặc cực đại hàm lợi ích ở một dạng nào đó). Tối ƣu câu truy vấn trong cơ sở dữ liệu song song bằng mô hình tối ƣu hóa truy vấn hai pha bao gồm: i. Sắp xếp lại thứ tự các phép nối ii. Biểu diễn lại cây truy vấn. Bộ tối ƣu hóa thực hiện hai bƣớc này để tạo ra một cây truy vấn tiền xử lý, xác định những yếu tố nhƣ thứ tự thực hiện các phép toán và chiến lƣợc thực hiện mỗi phép toán. Bộ tối ƣu sẽ triển khai các mô hình và giải thuật song song để tìm kiếm một phƣơng án tốt nhất cho việc thi hành song song. 2. Đối tƣợng và phạm vi nghiên cứu Các biểu thức logic Cơ sở dữ liệu phân tán Xử lý song song và phân tán 3. Hƣớng nghiên cứu của đề tài Các dạng chi phí song song Nghiên cứu mô hình tối ƣu hóa hai pha. 4. Những nội dung nghiên cứu chính Luận văn đƣợc trình bày trong 3 chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo. Chƣơng 1: Cơ sở lý thuyết Chƣơng 2: Mô hình tối ƣu hóa truy vấn hai pha Chƣơng 3: Chƣơng trình thử nghiệm Kết luận và hƣớng phát triển của luận văn [...]... văn Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 26 Chƣơng 2: MÔ HÌNH TỐI ƢU HÓA TRUY VẤN HAI PHA 2.1 Mô hình tối ƣu hóa truy vấn hai pha JOQR Pha đầu:JOQR (Join Ordering and Query Rewriting) i Sắp xếp lại thứ tự các phép nối ii Biểu diễn lại câu truy vấn Bộ tối ƣu hóa thực hiện hai bƣớc này để tạo ra một cây truy vấn tiền xử lý, xác định những yếu tố nhƣ thứ tự thực hiện các phép toán và chiến... Nghiên cứu các mô hình chi phí song song và mô hình chi phí song song trên bộ tối ƣu hóa truy vấn Nắm vững các kiến thức cơ bản của tối ƣu hóa hai pha 6 Ý nghĩa khoa học của đề tài Luận văn giúp cho việc tối ƣu hóa câu truy vấn phân tán bằng phƣơng pháp hai pha Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 3 Chƣơng 1: CƠ SỞ LÝ THUYẾT 1.1 Giới thiệu về logic 1.1.1 Khái niệm về mệnh đề và chân trị... chỉ xét đến chi phí truy n Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 17 Vị trí 1 Vị trí 3 Vị trí 2 Hình 1-7 Truy n dữ liệu trong câu vấn tin Giả sử rằng TMSG và TTR đƣợc diễn tả theo đơn vị thời gian Tổng chi phí truy n x đơn vị dữ liệu từ vị trí 1 đén vị trí 3 và y đơn vị dữ liệu từ vị tri 2 đến vị trí 3 là: Total_time = 2 * TMSG + TTR * (x + y) Thời gian đáp ứng cho câu vấn tin này có thể... nhớ Truy n thông từ xa: Truy n thông từ xa xảy ra khi dữ liệu ra của tiến trình này gửi cho một tiến trình khác dùng dữ liệu này để xử lý trên các bộ xử lý khác nhau Trong hệ thống mạng, truy n thông từ xa chia dữ liệu thành các gói rồi vận chuyển thông qua mạng truy n thông Truy n thông phân bố lại: Truy n thông phân bố lại bao gồm một tập các bộ sản xuất gửi dữ liệu đến một tập các bộ tiêu thụ dữ liệu. .. tiến trình có thể sử dụng lại mà không phải tạo mới 1.2.4.2 Chi phí truy n thông Chi phí chuyển giao dữ liệu giữa các tiến trình Ba loại truy n thông giữa các tiến trình Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 23 Truy n thông cục bộ: Truy n thông cục bộ xảy ra khi dữ liệu ra của tiến trình này gửi cho một tiến trình khác dùng dữ liệu này để xử lý trên cùng một bộ xử lý Truy n thông cục bộ... thức tuyển cơ bản Ei = q1 q2 qn với qi = pi hoặc qi = p i (i = 1, n ) 1.2 Tổng quan về CSDL phân tán Tối ƣu hóa vấn tin là tìm phƣơng án thực hiện câu vấn tin để tiêu tốn ít nhất thời gian hoặc kinh phí (một hàm mục tiêu nào đó) Thể tối ƣu hóa vấn tin, là một phần mềm chịu trách nhiệm thực hiện tối ƣu hóa câu vấn tin, nó đƣợc tạo ra bới ba thành phần: Không gian tìm kiếm, mô hình chi phí và chiến lƣợc... công thức này giả thiết R và S không chứa các bộ giống nhau Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 22 Ước lượng qua phép hiệu Giống nhƣ phép hợp, chúng ta chỉ trình bày các cận trên và dƣới Cận trên của card(R – S) là card(R), Còn cận dƣới là 0 1.2.4 Các dạng chi phí song song và mô hình chi phí song song trên bộ tối ƣu hóa truy vấn Trong môi trƣờng song song, hai loại chi phí làm ảnh hƣởng... án Trong thực tế, để ƣớc lƣợng chi phí một phƣơng án ngƣời ta thƣờng ƣớc lƣợng hai thành phần đầu Khó khăn chính trong đánh giá chi phí là xác định giá trị cho TW và RT Những đại lƣợng này phụ thuộc vào trạng thái của hệ thống (ví dụ tải trọng của hệ thống và số lƣợng truy vấn đƣợc đặt ra đối với hệ thống) mà về mặt lý thuyết chỉ xác định đƣợc vào lúc thực hiện Tính toán chi phí truy vấn trong môi... cách thăm dò các lân cận của QEP đã có, ví dụ ở hình 1-6 là một cách biến đổi điển hình bằng cách hoán đổi hai quan hệ toán hạng đƣợc chọn ngẫu nhiên từ QEP hình 1-6(a) sang QEP hình 1-6(b) Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn 15 R3 R1 R2 R2 R1 (a) R3 (b) Hình 1-6 Hành động của thể tối ưu hoá trong một chiến lược ngẫu nhiên hoá 1.2.3 Mô hình chi phí phân tán 1.2.3.1 Hàm chi phí (hàm mục... hiện mỗi phép toán Bộ tối ƣu sẽ triển khai các mô hình và giải thuật song song để tìm kiếm một phƣơng án tốt nhất cho việc thi hành song song Pha thứ hai Chuyển cây truy vấn tiền xử lý thành phƣơng án thi hành song song Giai đoạn này cũng đƣợc chia làm hai bƣớc: i Trích ra cây toán tử và lập lịch Trích cây toán tử là tạo ra một cây toán tử trong đó nhận biết các phép toán sơ cấp và các ràng buộc về thời . đó). Tối ƣu câu truy vấn trong cơ sở dữ liệu song song bằng mô hình tối ƣu hóa truy vấn hai pha bao gồm: i. Sắp xếp lại thứ tự các phép nối ii. Biểu diễn lại cây truy vấn. Bộ tối ƣu hóa thực. Mô hình chi phí phân tán 15 1.2.4. Các dạng chi phí song song và mô hình chi phí song song trên bộ tối ƣu hóa truy vấn 22 1.3. Kết luận chƣơng 1 25 Chƣơng 2: MÔ HÌNH TỐI ƢU HÓA TRUY VẤN HAI. VẤN HAI PHA 26 2.1. Mô hình tối ƣu hóa truy vấn hai pha JOQR 26 2.1.1. Cây truy vấn tiền xử lý 26 2.1.2. Cây toán tử 29 2.2. Tối ƣu hóa giai đoạn JOQR 31 iv S ố hóa bởi Trung tâm Học liệu

Ngày đăng: 22/11/2014, 21:17

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan