Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 98 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
98
Dung lượng
2,33 MB
Nội dung
HONG TH LIấN CHI giáo dục đào tạo trờng đại học bách khoa hà nội - HOàNG THị LIÊN CHI CễNG NGH THễNG TIN THIếT Kế Cơ Sở Dữ LIệU PHâN TáN THUầN NHấT Sử DụNG CáC Kỹ THUậT KHAI PHá Dữ LIệU LUậN VĂN THạC Sĩ khoa học 20072009 Hà nội 2009 Hà Nội - Năm 2009 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205162221000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HOÀNG THỊ LIÊN CHI THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT SỬ DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Chuyên ngành : CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC PGS.TS NGUYỄN THỊ KIM ANH Hµ Néi – Năm 2009 Trang MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ PHẦN MỞ ĐẦU Chương 1.TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm sở liệu phân tán 1.1.1 Định nghĩa sở liệu phân tán 1.1.2 Hệ quản trị sở liệu phân tán (Distribute DBMS) 10 1.1.3 Mơ hình kiến trúc hệ quản trị sở liệu phân tán .12 1.2 Các đặc điểm sở liệu phân tán so với sở liệu tập trung15 1.2.1 Điều khiển tập trung 15 1.2.2 Độc lập liệu 16 1.2.3 Giảm dư thừa 16 1.2.4 Các lợi ích sở liệu phân tán 16 1.3 Kiến trúc tham khảo dùng cho sở liệu phân tán 19 1.4 Các loại phân đoạn liệu .23 1.4.1 Phân đoạn ngang dẫn xuất .24 1.4.2 Phân đoạn dọc 25 1.4.3 Phân đoạn hổn hợp 26 1.5 Tổng kết chương 1: .26 Chương 2.THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT 27 2.1 Giới thiệu 27 2.2 Các phương pháp tiếp cận: .28 2.2.1 Phương pháp thiết kế từ xuống 28 2.2.2 Phương pháp thiết kế từ lên 28 2.3 Thiết kế phân đoạn 29 2.3.1 Thiết kế phân đoạn ngang 29 2.3.2 Thiết kế phân đoạn dọc 35 2.3.3 Thiết kế phân đoạn hổn hợp 42 2.4 Thiết kế định vị .43 2.4.1 Đặt vấn đề toán định vị .43 2.5 Tổng kết chương 48 Chương 3.CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 49 3.1 Tổng quan phát tri thức khai phá liệu 49 3.1.1 Phát tri thức 49 3.1.2 Quá trình phát tri thức .50 Trang 3.1.3 Khai phá liệu 51 3.2 Luật kết hợp thuật toán Apriori 53 3.2.1 Tập mục phổ biến 53 3.2.2 Luật kết hợp 54 3.2.3 Bài tốn tìm luật kết hợp 56 3.2.4 Thuật toán Apriori 57 3.2.5 Thuật toán sinh luật kết hợp 62 3.2.6 Thuật toán sinh luật 63 3.3 Phân cụm liệu 64 3.3.1 Khái niệm 64 3.3.2 Đo độ tương tự .65 3.3.3 Các giải thuật phân cụm 65 3.4 Tổng kết chương 3: .68 Chương 4.ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT 69 4.1 Giới thiệu 69 4.2 Thiết kế phân đoạn dọc với kỹ thuật ứng dụng luật kết hợp 70 4.2.1 Phương pháp phân đoạn dọc dựa luật kết hợp 70 4.2.2 Giải thuật phân đoạn 73 4.3 Thiết kế phân đoạn ngang dựa kỹ thuật phân cụm liệu .79 4.3.1 Giới thiệu .79 4.3.2 Phương pháp phân đoạn ngang dựa kỹ thuật phân cụm 81 KẾT LUẬN 92 TÀI LIỆU THAM KHẢO 94 Trang DANH MỤC CÁC KÝ HIỆU CHỮ VIẾT TẮT CSDL - DB - Database : Cơ sở liệu HQTCSDL - DBMS - Database Managerment System: Hệ quản trị sở liệu DDBMS - Distribute Database Managerment System: Hệ quản trị sở liệu phân tán LIS - Local Internal Schema GCS - Global Conceptual Schema LCS - Local Conceptual Schema KPDL - Datamining - Khai phá liệu CA – Clustered Afinity matrix - ma trận tương quan gom tụ KDD - Knowledge Discovery and Data Mining – Phát tri thức khai phá liệu Trang DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Hệ sở liệu tập trung mơi trường mạng .9 Hình 1.2 Mơi trường hệ sở liệu phân tán Hình 1.3 Các thành phần DDBMS .11 Hình 1.4 Kiến trúc Client/Server 13 Hình 1.5 Kiến trúc Peer to Peer 14 Hình 1.6 Một kiến trúc tham khảo dùng cho sở liệu phân tán 20 Hình 1.7 Các đoạn hình ảnh vật lý quan hệ tồn cục .21 Hình 2.2 Biễu diễn mối liên kết quan hệ 30 Hình 2.3 Ví dụ lược đồ toàn cục phân đoạn ngang 32 Hình 2.4 Ma trận sử dụng thuộc tính 38 Hình 2.5 Ma trận tương quan thuộc tính .40 Hình 2.6 Tính tốn ma trận tương quan gom tụ (CA) 42 Hình 3.1 Quá trình phát tri thức 50 Hình 3.2 Các giai đoạn gom cụm .65 Hình 4.1 Phát tập mục phổ biến, chọn lọc tập mục 78 Trang PHẦN MỞ ĐẦU Hiện công nghệ truyền thông mạng Internet ngày phát triển mạnh mẽ có nhiều ứng dụng chạy mạng cục mạng diện rộng Dữ liệu lưu trữ nhiều nơi khác mạng máy tính chương trình ứng dụng có nhu cầu truy xuất nhiều nơi, công nghệ hệ thống sở liệu phân tán phát triển lãnh vực sở liệu, có hệ quản trị sở liệu phân tán thương mại hóa Oracle, Microsoft SQL Server Vì u cầu cơng ty, doanh nghiệp, đơn vị kinh doanh vấn đề tổ chức cho kinh doanh có hiệu nắm bắt thông tin nhanh sở công ty địa điểm xa xây dựng hệ thống làm vi ệc sở liệu phân tán phù hợp xu hướng vấn đề thiết kế CSDL phân tán giải pháp lựa chọn tự nhiên Lợi điểm tổ chức kỹ thuật xu hướng phát triển sở liệu phân tán là: giải hạn chế sở liệu tập trung phù hợp xu hướng phát triển tự nhiên với cấu không tập trung tổ chức, công ty doanh nghiệp Tuy thực tế việc thiết kế sở liệu phân tán vơ phức tạp khó nhiều vấn đề tổ chức kỹ thuật khó khăn so với thiết kế sở liệu đặt nơi Do làm nào, sử dụng kỹ thuật để thiết kế sở liệu phân tán cho tốt vấn đề đặt cần quan tâm nghiên cứu Một sở liệu phân tán muốn tối ưu hóa việc thực ứng dụng cần phải có phân đoạn liệu phân phối đoạn nơi phân tán để cực tiểu việc truyền liệu Phân đoạn liệu hướng nghiên cứu CSDL, kỹ thuật thiết kế CSDL mức logic nhằm giảm bớt truy xuất không cần thiết đến liệu, cho phép thực song song truy vấn cách chia thành tập truy vấn tác động lên đoạn Trang nhằm nâng cao việc thực ứng dụng Trong mơ hình quan hệ có kiểu phân đoạn: phân đoạn ngang, phân đoạn dọc, phân đoạn hổn hợp Phân đoạn ngang việc phân chia quan hệ thành tập quan hệ con, quan hệ chứa quan hệ ban đầu Phân đoạn dọc việc phân chia quan hệ thành tập quan hệ con, quan hệ định nghĩa tập thuộc tính quan hệ ban đầu Hiện có nhiều hướng tiếp cận phân đoạn sử dụng phương pháp gộp nhóm, phân tách, phương pháp mang tính heuristic trình bày [6], [17], [27],….Tuy hướng tiếp cận phức tạp chủ quan, có phần phụ thuộc vào trực quan người thiết kế Do mục tiêu đề tài luận văn tiếp cận, nghiên cứu kỹ thuật khai phá liệu - hướng nghiên cứu áp dụng rộng rãi nhiều lĩnh vực kinh doanh đời sống khác - để ứng dụng thiết kế xây dựng sở liệu phân tán Kết đề tài hướng đến việc nghiên cứu tiếp cận dựa việc phát luật kết hợp để phát triển phương pháp phân đoạn dọc, phân chia thuộc tính tập thuộc tính sở liệu tồn cục, xây dựng lược đồ phân đoạn liệu trạm đặt sở liệu cục sử dụng kết có từ kỹ thuật phân cụm liệu để phát triển phương pháp phân đoạn ngang thiết kế phân đoạn CSDL phân tán Trên sở nghiên cứu sở lý thuyết thiết kế sở liệu phân tán, đề tài đưa nhằm nghiên cứu lĩnh vực sau: Nghiên cứu khái niệm thiết kế sở liệu phân tán định nghĩa sở liệu phân tán, giới thiệu kiến trúc hệ phân tán, đặc điểm sở liệu phân tán so sánh với hệ sở liệu tập trung, nêu ích lợi số nhược điểm sử dụng hệ sở liệu phân tán, nghiên cứu Trang phương pháp tiếp cận để thiết kế bàn luận thiết kế phân đoạn ngang, phân đoạn dọc, thiết kế định vị trạm Đề tài nghiên cứu giới thiệu kỹ thuật khai phá liệu phát luật kết hợp, giới thiệu thuật toán Apriori giải toán phát luật kết hợp có sở liệu, giới thiệu phương pháp gom cụm, đặc biệt giới thuật thuật toán gom cụm k-means để thực phân cụm liệu cuối việc ứng dụng kỹ thuật khai phá liệu để thiết kế CSDL phân tán nhất, cụ thể ứng dụng luật kết hợp với giải thuật Apriori hổ trợ thiết kế phân đoạn dọc, đồng thời đề tài nghiên cứu ứng dụng việc phân cụm liệu để thiết kế phân đoạn ngang nhằm làm tăng hiệu suất hệ thống CSDL việc phân đoạn rút gọn số truy xuất giao dịch thực CSDL, đồng thời đề tài tìm hiểu thu thập sở liệu ứng dụng thực tế CSDL quản lý doanh nghiệp địa bàn TPHCM, quản lý Công ty Bảo minh làm số liệu thực nghiệm để trình bày k ết minh họa demo thuật toán khai phá liệu (Datamining) ứng dụng hổ trợ thiết kế phân đoạn thiết kế sở liệu phân tán Với mục tiêu nêu trên, luận văn bao gồm chương cụ thể nêu chương sau Trang Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm sở liệu phân tán Những năm gần việc phát triển mô hình lý thuyết cho hệ sở liệu phát triển hệ thống ứng dụng có nhiều kinh nghiệm hình thành dựa sở kết nối máy tính khác nhau, hệ sở liệu phân tán phát triển dựa sở liệu mạng máy tính Cơ sở liệu phân tán bao gồm nhiều sở liệu tích hợp lại với thơng qua mạng máy tính để trao đổi thông tin liệu Cơ sở liệu tổ chức lưu trữ vị trí khác mạng máy tính chương trình ứng dụng làm việc dựa sở truy cập liệu điểm khác Hiện khái niệm xử lý phân tán (Distributed processing), tính tốn phân tán (Distributed computing) thuật ngữ có từ “phân tán” hay dùng để hệ thống rải rác hệ thống máy tính có đa xử lý (multiprocessor system) x lý mạng máy tính Cơ sở liệu phân tán khái niệm không bao gồm trường hợp xử lý liệu hệ thống sử dụng nhớ chung, kể nhớ hay nhớ thứ cấp (đĩa từ), thiết phải hệ có sử dụng giao tiếp mạng với trạm làm việc độc lập 1.1.1 Định nghĩa sở liệu phân tán Theo tác giả [6],[17]: sở liệu phân tán tập nhiều sở liệu nhỏ có quan hệ logic với phân tán nhiều nơi mạng máy tính Tại trạm mạng có khả xử lý tự quản thực ứng dụng cục bộ, trạm tham gia vào nh ất ứng dụng tồn cục, có u cầu truy xuất liệu nhiều trạm Định nghĩa nhấn mạnh ba khía cạnh quan trọng sở liệu phân tán là: