Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
834,94 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM VĂN TUÂN TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01( Khoa học máy tính) TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – NĂM 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Lê Huy Thập Phản biện 1:…………………………………… Phản biện 2: ………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày .tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng PHẦN MỞ ĐẦU Lý chọn đề tài Xã hội ngày phát triển kèm theo yêu cầu khối lượng thông tin cần xử lý, lưu trữ tăng lên Trên thực tế, doanh nghiệp, đơn vị tổ chức phải phân bố vùng rộng lớn mặt vật lý, dàn trải phạm vi nhiều thành phố toàn quốc gia hay đến vài quốc gia, chí tồn cầu Do đó, liệu khơng thể lưu trữ tập trung địa điểm định mà giải khắp địa điểm mà quan, tổ chức hay doanh nghiệp hoạt động Khi liệu khơng cịn lưu trữ tập trung vấn đề làm để quản lý, tốc độ truy xuất liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng, không bị gián đoạn đặt Đó tiền đề để sở liệu phân tán đời Khi khối lượng thông tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt xử lý thông tin để giảm chi phí đến mức tối thiểu Một giải pháp có khả khả thi phải tối ưu hóa câu lệnh truy vấn liệu nên chọn nghiên cứu “ Truy vấn sở liệu phân tán ứng dụng” làm đề tài luận văn tốt nghiệp Phạm vi nghiên cứu đề tài Đề tài nghiên cứu vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề truy vấn cài đặt thử nghiệm thuật toán truy vấn phân tán Ý nghĩa khoa học Trên sở nghiên cứu mơ hình CSDL phân tán chế truy vấn để xây dựng thuật toán truy vấn tối ưu Những kết dự kiến luận văn góp phần vào việc thiết kế CSDL phân tán phục vụ cho việc truy vấn hiệu CHƯƠNG I: TỔNG QUAN 1.1 Giới thiệu chương 1.2.1 Nội dung 1.2.1 Giới thiệu hệ quản trị cở sở liệu phân tán 1.2.1.1 Khái niệm Cơ sở liệu phân tán tập hợp liệu phụ thuộc logic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán làm tăng khả truy cập tới sở liệu lớn mạng Trong hệ thống máy tính quản lý sở liệu thành phần gọi nute site Hệ quản trị sở liệu phân tán(DBMS) phần mềm quản trị sở liệu đảm bảo suốt người sử dụng cho phép tính tự trị Định nghĩa nhấn mạnh hai khía cạnh quan sở liệu phân tán - Tính phân tán - Sự tương quan logic 1.2.1.2 Những ưu điểm sở liệu phân tán - Cho phép quản lý liệu với nhiều mức suốt - Tăng độ tin cậy khả sẵn sàng - Cải thiện hiệu - Dễ dàng mở rộng 1.2.1.3 Những nhược điểm sở liệu phân tán - Tăng độ phức tạp thiết kế cài đặt hệ thống - Hệ thống phần cứng phức tạp cần có nhiều trạm trạm phải kết nối mạng - Các phần mềm hệ thống đảm bảo quản trị, trì kết nối, trao đổi liệu mạng - Bảo mật khó khăn 1.2.1.4 Các đặc trưng suốt sơ liệu phân tán 1.2.1.4.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán sở liệu tập trung - Trong suốt phân tán thể hiện: + Trong suốt địa điểm + Trong suốt tên + Trong suốt + Trong suốt phân mảnh 1.2.1.4.2 Trong suốt giao dịch Cơ sở liệu phân tán cho phép giao dịch cập nhật, sửa chữa liệu máy trạm khác 1.2.1.4.3 Trong suốt thất bại Đảm bảo trạm hệ thống bị hỏng hệ thống làm việc bình thường 1.2.1.4.4 Trong suốt thao tác Cho phép câu lệnh thao tác liệu đơn giản để truy cập sở liệu trạm cục trạm từ xa 1.2.1.4.5 Trong suốt tính khơng Cho phép tự động kết hợp nhiều hệ quản trị sở liệu khác với khả trao đổi liệu, xử lý cập nhật liệu, xử lý giao tác phân tán toàn hệ thống 1.2.1.4.6 Kiến trúc tham chiếu sở liệu phân tán - Lược đồ tổng thể - Phân mảnh - Lược đồ vị trí - Lược đồ ánh xạ cục 1.2.2 Các phương pháp phân mảnh Phân mảnh chia bảng liệu thành bảng liệu Có ba kiểu phân mảnh quan hệ tổng thể: Phân mảnh ngang, phân mảng dọc phân mảnh hỗn hợp Ba yêu cầu phân mảnh: - Điều kiện không thông tin - Điều kiện xây dựng lại - Điều kiện rời 1.2.2.1 Phân mảnh ngang Phân mảnh ngang phân chia quan hệ thành tập bộ, tập xác định phép chọn với tân từ p quan hệ tổng thể R: Ri = σ pi với pi tân từ Ri Để khơi phục R ta dùng phép hợp quan hệ R = R1 Rn R2 … 1.2.2.2 Phân mảnh ngang dẫn xuất Phân mảnh ngang dẫn xuất phân mảnh quan hệ dựa theo cách phân mảnh quan hệ cha mẹ 1.2.2.3 Phân mảnh dọc Phân mảnh dọc chia quan hệ thành quan hệ con, với tập thuộc tính khóa: Ri = Π{ATTRI} R, ATTRi tập thuộc tính R, với khóa R Tiêu chuẩn cho phân mảnh dọc đắn: - Điều kiện đầy đủ - Điều kiện xây dựng lại - Điều kiện rời 1.2.2.4 Phân mảnh hỗn hợp Là kết hợp phân mảnh dọc phân mảnh ngang 1.2.2.5 Nhân - Nhân liệu đầy đủ - Khơng có nhân liệu - Nhân liệu phần 1.2.2.6 Định vị Là trình gán mảnh, phân mảnh cho trạm cụ thể hệ thống phân tán 1.2.3 Giới thiệu số thuật toán hệ sở liệu tập trung 1.2.3.1 Nguyên lý chung tối ưu hóa truy vấn Một câu vấn tin bậc cao dạng SQL có nhiều câu vấn tin dạng đại số quan hệ tương đương Phương pháp để tìm câu vắn tin đại số quan hệ có chi phí nhất, sau chuyển câu vấn tin đại số tìm trở lại dạng SQL, gọi “Sự tối ưu hóa” 1.2.3.2 Các chiến lược tối ưu Các chiến lược bao gồm - Thực phép chọn sớm - Tổ hợp phép chọn xác định với phép tích Decartes thành phép kết nối - Tổ hợp dãy phép tốn ngơi phép chọn phép chiếu - Tìm biểu thức chung biểu thức - Xử lý tệp trước - Đánh giá trước thực phép toán 1.2.3.3 Phân rã câu truy vấn thành câu truy vấn - Đồ thị nối quan hệ - Tách câu truy vấn thành câu truy vấn - Dùng phép nửa kết nối để giảm kích thước quan hệ - Phương pháp thay n – 1.2.3.4 Thuật toán INGRES Thuật toán: INGRES – QOA Input: MVQ: Truy vấn đa biến với n biến Output: output: Kết thưc Begin Output If n =1 then run(MVQ) { Thực truy vấn biến} Output Else begin {tách MVQ thành m truy vấn biến truy vấn nhiều biến } OVQ1,…, OVQm, MVQ’ MVQ to m For I Begin Output’ run(OVQi) {Thực thi OVQi} Output output output’ {hợp tất kết } Endfor V CHOOSE – VARIABLE(MVQ’) { V chọn cho phép toàn bộ} For t V Begin MVQ’’ thay giá trị cho t MVQ’ output INGRES – QOA(MVQ’’) {gọi đệ quy} output output output’{ hợp tất kết quả} end Endif END 1.2.3.5 Thuật toán SYSTEM R Thuật toán: R – QOA 10 CHƯƠNG : CÁC THUẬT TOÁN TỐI ƯU TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 2.1 Giới thiệu chương 2.2 Nội dung Phân rã câu truy vấn a Chuẩn hố b Phân tích c Loại bỏ dư thừa d Viết lại Định vị liệu phân tán a Rút gọn phân mảnh ngang nguyên thuỷ b Rút gọn phân mảnh dọc c Rút gọn phân mảnh gián tiếp d Rút gọn phân mảnh hỗn hợp Khái quát xử lý câu truy vấn a Vấn đề xử lý truy vấn b Các mục tiêu xử lý câu truy vấn c Các giai đoạn xử lý câu truy vấn Tối ưu hoá câu truy vấn phân tán Đầu vào tối ưu hoá câu truy vấn Các thuật tốn tối ưu hố truy vấn mơi trường phân tán 2.2.1 Thuật toán INGRES phân tán Thuật toán : D- INGRES – QOA Input : MVQ : Truy vấn đa biến với n biến 11 Output : output : Kết truy vấn đa biến cuối BEGIN For OVQi tách in MVQ {chạy tất truy vấn biến} Run(OVQi) (1) Endfor MVQ’ _ list REDUCE(MVQ) {thay MVQ n truy vấn rút gọn} (2) While n (3) {n – số truy vấn rút gọn } Begin {Chọn truy vấn rút gọn liên quan đến mảnh nhỏ } MVQ’ (3.1) select _ query(MVQ’_list); {Xác định đoạn để truyền trạm xử lý MVQ’} Fragmen- site- list SELECT _ RATEGY(MVQ’); (3.2) {truyền mảnh chọn tới trạm chọn} For cặp (F,S) Fragnemt – site – list (3.3) Chuyển đoạn F tới trạm S; End – for Run(MVQ’); n n-1; (3.4) End – while {đầu thuật toán kết MVQ’ cuối cùng} 12 End (D- INGRES - QOA) Bước : Xử lý địa phương tất truy vấn biến (phép chọn phép chiếu) Bước 2: Thuật toán thu gọn áp dụng cho truy vấn ban đầu, tách truy vấn rút gọn truy vấn biến Bỏ qua truy vấn biến vị xử lý bước Bước 3: Áp dụng cho câu truy vấn rút gọn Bước 3.1: Chọn truy vấn chưa xử lý liên quan đến mảnh nhỏ Bước 3.2: Chọn chiến lược tốt để xử lý truy vấn MVQ’ (truy vấn rút gọn có hai biến) Chiến lược mơ tả danh sách cặp (F,S), F mảnh để truyền tới trạm xử lý S Bước 3.3: Truyền tất mảnh tới trạm xử lý chúng Bước 3.4: Thực MVQ’ Nếu có truy vấn cịn lại, thuật tốn quay lại bước thực bước lặp tiếp theo, ngược lại thuật toán kết thúc 2.2.2 Thuật toán R* Thuật toán : R* - QOA Input : QT : Câu truy vấn Output : strat : Chiến lược chi phí tối thiểu BEGIN For quan hệ Ri QT begin for đường truy nhập APij to Ri 13 Xác đinh cost(APij) endfor best_APi APij với chi phí tối thiểu ; endfor For thứ tự (Ri1,Ri2, ,Rin) với i = 1,2, ,n! Do Begin Xây dựng chiến lược ( (best APi1 Rin) ) Ri2 Ri3) ; tính tốn chi phí chiến lược ; endfor strat chiến lược với chi phí tối thiểu ; For trạm k chứa quan hệ liên quan QT Begin LSk chiến lược cục (strategy, k); Send(LSk, site k) { chiến lược cục tối ưu hoá trạm k} Endfor END {R* - QOA} Thuật toán diễn giải sau: Bộ tối ưu hoá phải chọn thứ tự kết nối, đường truy cập vào mảnh thẳng (chẳng hạn mục nhóm, quét tuần tự, ) Các định dựa thống kê thông tin đường truy nhập 2.2.3 Thuật toán SDD -1 Thuật toán SDD – – QOA 14 Input : QG : Đồ thị truy vấn với n quan hệ, thống kê quan hệ Output : ES : Chiến lược thực BEGIN ES local- operations(QG); Sửa đổi thống kê để phản ánh kết xử lý địa phương ; {Tập phép nửa kết nối có lợi }; BS For phép nửa kết nối SJ QG If cost(SJ) < benefit(SJ) then BS BS SJ; End-if End-for While BS {Chọn phép kết nối có lợi} Begin SJ most_benefit(BS) {SJ: semijoin có benefit_cost lớn nhất} BS BS – SJ; ES ES + SJ; {Loại SJ khỏi BS} Sửa đổi thống kê để phản ánh kết SJ thêm vào; BS BS – phép nửa kết nối khơng có lợi; BS BS End-while Các phép nửa kết nối có lợi mới; 15 {chọn trạm thực hiện} AS(ES) chọn trạm i mà i chứa số lượng liệu lớn sau tất phép toán cục bộ; ES ES truyền quan hệ trung gian tới AS(ES); {Tối ưu hoá sau} For quan hệ Ri AS(ES) For phép nửa kết nối SJ Ri Rj If cost(ES) > cost(ES – SJ) then ES ES – SJ; End-if End-for End-for End {SDD -1- QOA} Giai đoạn khởi đầu: sinh tập phép nửa kết nối có lợi (BS), vào chiến lược thực thi(ES) bao gồm xử lý địa phương Giai đoạn tiếp theo: Lặp lại lựa chọn phép nửa kết nối có lợi (SJi) từ BS, sửa đổi thống kê sở liệu BS Sự sửa đổi ảnh hưởng đến thống kê quan hệ R liên quan SJi phép nửa kết nối lại BS mà sử dụng quan hệ R Vòng lặp kết thúc tất phép nửa kết nối thêm vào ES thứ tự thực thi chúng 16 Giai đoạn chọn trạm thực hiện: Với trạm đề cử đánh giá chi phí truyền tất liệu yêu cầu tới chọn trạm có chi phí nhỏ Giai đoạn tối ưu hố sau: Loại bỏ phép kết nối chiến lược thực thi ảnh hưởng đến quan hệ lưu trữ trạm thực 2.3 Kết luận chương - Sự phân rã : Dịch câu truy vấn diễn đạt ngôn ngữ bậc cao kiểu SQL thành câu truy vấn tương đương diễn đạt biến thanis đại số quan hệ - Sự cục hoá: Là phép biến đổi theo lược đồ đặt câu truy vấn phân tán thành câu truy vấn tương đương diễn đạt mảnh - Việc thực thao tác câu truy vấn tối ưu hoá để thu kết 17 CHƯƠNG : ỨNG DỤNG 3.1 Giới thiệu chương 3.2 Nội dung 3.2.1 Giới thiệu công ty TNHH HOMETECH 3.2.2 Cơ sở liệu hàng hóa tập trung công ty TNHH HOMETECH Table : InternetSales Tên cột Kiểu liệu Giải thích ProductKey Int Khóa ngoại(bảng Product) CustomerKey Int Khóa ngoại SalesOrderNumber Nvarchar(20) Mã đơn đặt hang OrderQuantity Smallint Chất lượng yêu cầu UnitPrice Money Giá đơn vị sản phẩm DiscountAmount Float Lượng giảm giá ProductStandardCosst Money Giá chuẩn sản phẩm TotalProductCost Money Tổng giá trị phẩm 18 Table : Geography Tên cột Kiểu Giải thích liệu GeographyKey Int Khóa StateProvinceCode Nvarchar(3) Mã thành phố StareProvinceName Nvarchar(50) Tên tỉnh, thành phố CountryRegionName Nvarchar(50) Tên vùng PostalCode Nvarchar(15) Mã vùng quốc tế Table : Product Tên cột Kiểu Giải thích liệu ProductKey Int Khóa ProductAlternateKey Nvarchar(25) Mã sản phẩm EnglishProductName Nvarchar(50) Tên sản phẩm StandardCost Money Giá chuẩn Color Nvarchar(15) Màu sắc SafetyStockLevel Smallint Mức độ lưu trữ hang ListPrice Money Giá ghi bao bì Ze Nvarchar(50) Kích thước Eight Float Cân nặng EnglishDescription Nvarchar(400) Ghi thêm StartDate Datetime Ngày nhập EndDate Datetime Ngày kết thúc 19 Table : Customer Tên cột Kiểu Giải thích liệu CustomerKey Int Khóa GeographyKey Int Khóa ngoại FirstName Nvarchar(50) Tên MiddleName Nvarchar(50) Tên đệm LastName Nvarchar(50) Tên họ BirthDate Datetime Ngày sinh MaritalStatus Nchar(1) Tình trạng nhân Gender Nvarchar(1) Giới tính EmailAddress Nvarchar(50) Địa Email AddressLine1 Nvarchar(120) Địa Phone Nvarchar(20) Điện thoại DateFirstPurchase Datetime Ngày mua hàng 3.2.3 Phân mảnh sở liệu hàng hóa cơng ty TNHH HomeTech 20 3.2.4 Ứng dụng thuật toán INGRES để giải toán truy vấn sở liệu hàng hóa phân mảnh Các bảng liệu gồm có Customer, Geography, InternetSales, Product Giao diện : Giao diện kết nối Truy vấn với câu hỏi sau : Select Customer.GeographyKey, InternetSales.ProductKey, Customer, InternetSales InternetSales.TotalProductCost from Where Customer.CustomerKey - Thời gian thực : 0,0930054s - Số lượng ghi : Customer.FirstName, InternetSales.CustomerKey = 21 Truy vấn với câu truy vấn sau : Select Customer.GeographyKey, InternetSales.ProductKey, Customer.FirstName, InternetSales.TotalProductCost, Product.EnglishProductName From Customer, InternetSales, Product Where internetSales.CustomerKey = Customer.CustomerKey And Product.ProductKey = Customer.GeographyKey = - Thời gian thực : 0,005s - Số lượng ghi : InternetSales.ProductKey and 22 3.3 Kết luận chương Đề tài cài đặt thuật toán INGRES phân tán để xử lý phân tán câu truy vấn lựa chọn phương án xử lý câu truy vấn phân tán với chi phí nhỏ từ trạm Ứng dụng cho phép thực hiện: - Thực truy vấn máy trạm - Cho phép thực câu truy vấn đơn giản phân tán máy trạm thực cài đặt với thuật toán INGRES phân tán Hiện đề tài thực câu truy vấn đơn giản chưa thực câu truy vấn phân tán lồng Q trình tích hợp liệu có từ máy trạm chưa tối ưu nên thời gian thực câu truy vấn phân tán chưa nhanh Do cần giúp đỡ thầy, để hoàn thiện tương lai 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Kết luận Việc lựa chọn giải pháp khả thi để thực phân tán sở liệu cho phù hợp với yêu càu thực tế bước quan trọng khởi đầu xây dựng hệ phân tán Một giải pháp phân tán liệu phù hợp làm tăng tốc độ xử lý liệu mang lại hiệu kinh tế cao Trên mơ hình thực tế lý thuyết sở liệu phân tán việc tìm hiểu biện pháp tối ưu hóa truy vấn vấn đề cần thiết Luận văn phần đáp ứng nhu cầu Hướng phát triển đề tài Phân tích sâu sắc thuật tốn INGRES phân tán, R*,SDD-1 đánh giá mức độ phức tạp thuật tốn khuyến cáo trường hợp nên dùng thuật toán hiệu 24 TÀI LIỆU THAM KHẢO [1] Lê Huy Thập, Cơ sở lý thuyết song song, NXB THÔNG TIN VÀ TRUYỀN THÔNG, 2010, 300 p [2] Lê Huy Thập, Giáo trình Kỹ thuất lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ, Hà Nội 10 năm 2008, 298 p [3] Robert Sedgewick, Cẩm nang thuật toán Vol.1 and vol.2, NXB Khoa học Kỹ thuật, 2001 [4] M.Tamer Ozsu, Patrick Valduriez Nguyên lý hệ liệu phân tán Trần Đức Quang biên dịch NXB Thống kê, 1999 [5] Đỗ Xuân Lôi, Cấu trúc liệu giải thuật, NXB Khoa học Kỹ thuật, 1996 [6] Phạm Thế Quế(2009), “Giáo trình Cơ sở liệu phân tán ”, NXB Thông tin truyền thông [7] Nguyễn Bá Tường (2005), “Nhập môn sở liệu phân tán”, NXB khoa học kỹ thuật [8] Seyed H Roo, Parallel processing and Parallel Algorithms, Theory and Coputation, Springer 1999 [9] Japan Information Processing Development Corporation, Central Academy of Information Technology, Internal Design And Programming, 1978 ... cở sở liệu phân tán 1.2.1.1 Khái niệm Cơ sở liệu phân tán tập hợp liệu phụ thuộc logic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán làm tăng khả truy cập tới sở liệu lớn mạng Trong. .. trao đổi liệu mạng - Bảo mật khó khăn 1.2.1.4 Các đặc trưng suốt sơ liệu phân tán 1.2.1.4.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán sở liệu tập trung - Trong suốt phân tán thể... phân tán để xử lý phân tán câu truy vấn lựa chọn phương án xử lý câu truy vấn phân tán với chi phí nhỏ từ trạm Ứng dụng cho phép thực hiện: - Thực truy vấn máy trạm - Cho phép thực câu truy vấn