Thiết kế cơ sở dữ liệu phân tán thuần nhất sử dụng các kỹ thuật khai phá dữ liệu

98 61 1
Thiết kế cơ sở dữ liệu phân tán thuần nhất sử dụng các kỹ thuật khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thiết kế cơ sở dữ liệu phân tán thuần nhất sử dụng các kỹ thuật khai phá dữ liệu Thiết kế cơ sở dữ liệu phân tán thuần nhất sử dụng các kỹ thuật khai phá dữ liệu Thiết kế cơ sở dữ liệu phân tán thuần nhất sử dụng các kỹ thuật khai phá dữ liệu luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

HONG TH LIấN CHI giáo dục đào tạo trường đại học bách khoa hà nội - HOàNG THị LIÊN CHI CễNG NGH THễNG TIN THIếT Kế Cơ Sở Dữ LIệU PHâN TáN THUầN NHấT Sử DụNG CáC Kỹ THUậT KHAI PHá Dữ LIệU LUậN VĂN THạC Sĩ khoa học 20072009 Hà nội 2009 Hà Nội - Năm 2009 B GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HOÀNG THỊ LIÊN CHI THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT SỬ DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Chuyên ngành : CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS NGUYỄN THỊ KIM ANH Hµ Néi – Năm 2009 Trang MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ PHẦN MỞ ĐẦU Chương 1.TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm sở liệu phân tán 1.1.1 Định nghĩa sở liệu phân tán 1.1.2 Hệ quản trị sở liệu phân tán (Distribute DBMS) 10 1.1.3 Mơ hình kiến trúc hệ quản trị sở liệu phân tán .12 1.2 Các đặc điểm sở liệu phân tán so với sở liệu tập trung15 1.2.1 Điều khiển tập trung 15 1.2.2 Độc lập liệu 16 1.2.3 Giảm dư thừa 16 1.2.4 Các lợi ích sở liệu phân tán 16 1.3 Kiến trúc tham khảo dùng cho sở liệu phân tán 19 1.4 Các loại phân đoạn liệu .23 1.4.1 Phân đoạn ngang dẫn xuất .24 1.4.2 Phân đoạn dọc 25 1.4.3 Phân đoạn hổn hợp 26 1.5 Tổng kết chương 1: .26 Chương 2.THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT 27 2.1 Giới thiệu 27 2.2 Các phương pháp tiếp cận: .28 2.2.1 Phương pháp thiết kế từ xuống 28 2.2.2 Phương pháp thiết kế từ lên 28 2.3 Thiết kế phân đoạn 29 2.3.1 Thiết kế phân đoạn ngang 29 2.3.2 Thiết kế phân đoạn dọc 35 2.3.3 Thiết kế phân đoạn hổn hợp 42 2.4 Thiết kế định vị .43 2.4.1 Đặt vấn đề toán định vị .43 2.5 Tổng kết chương 48 Chương 3.CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 49 3.1 Tổng quan phát tri thức khai phá liệu 49 3.1.1 Phát tri thức 49 3.1.2 Quá trình phát tri thức .50 Trang 3.1.3 Khai phá liệu 51 3.2 Luật kết hợp thuật toán Apriori 53 3.2.1 Tập mục phổ biến 53 3.2.2 Luật kết hợp 54 3.2.3 Bài tốn tìm luật kết hợp 56 3.2.4 Thuật toán Apriori 57 3.2.5 Thuật toán sinh luật kết hợp 62 3.2.6 Thuật toán sinh luật 63 3.3 Phân cụm liệu 64 3.3.1 Khái niệm 64 3.3.2 Đo độ tương tự .65 3.3.3 Các giải thuật phân cụm 65 3.4 Tổng kết chương 3: .68 Chương 4.ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THUẦN NHẤT 69 4.1 Giới thiệu 69 4.2 Thiết kế phân đoạn dọc với kỹ thuật ứng dụng luật kết hợp 70 4.2.1 Phương pháp phân đoạn dọc dựa luật kết hợp 70 4.2.2 Giải thuật phân đoạn 73 4.3 Thiết kế phân đoạn ngang dựa kỹ thuật phân cụm liệu .79 4.3.1 Giới thiệu 79 4.3.2 Phương pháp phân đoạn ngang dựa kỹ thuật phân cụm 81 KẾT LUẬN 92 TÀI LIỆU THAM KHẢO 94 Trang DANH MỤC CÁC KÝ HIỆU CHỮ VIẾT TẮT CSDL - DB - Database : Cơ sở liệu HQTCSDL - DBMS - Database Managerment System: Hệ quản trị sở liệu DDBMS - Distribute Database Managerment System: Hệ quản trị sở liệu phân tán LIS - Local Internal Schema GCS - Global Conceptual Schema LCS - Local Conceptual Schema KPDL - Datamining - Khai phá liệu CA – Clustered Afinity matrix - ma trận tương quan gom tụ KDD - Knowledge Discovery and Data Mining – Phát tri thức khai phá liệu Trang DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Hệ sở liệu tập trung môi trường mạng .9 Hình 1.2 Mơi trường hệ sở liệu phân tán Hình 1.3 Các thành phần DDBMS .11 Hình 1.4 Kiến trúc Client/Server 13 Hình 1.5 Kiến trúc Peer to Peer 14 Hình 1.6 Một kiến trúc tham khảo dùng cho sở liệu phân tán 20 Hình 1.7 Các đoạn hình ảnh vật lý quan hệ tồn cục .21 Hình 2.2 Biễu diễn mối liên kết quan hệ 30 Hình 2.3 Ví dụ lược đồ tồn cục phân đoạn ngang 32 Hình 2.4 Ma trận sử dụng thuộc tính 38 Hình 2.5 Ma trận tương quan thuộc tính .40 Hình 2.6 Tính tốn ma trận tương quan gom tụ (CA) 42 Hình 3.1 Quá trình phát tri thức 50 Hình 3.2 Các giai đoạn gom cụm .65 Hình 4.1 Phát tập mục phổ biến, chọn lọc tập mục 78 Trang PHẦN MỞ ĐẦU Hiện công nghệ truyền thông mạng Internet ngày phát triển mạnh mẽ có nhiều ứng dụng chạy mạng cục mạng diện rộng Dữ liệu lưu trữ nhiều nơi khác mạng máy tính chương trình ứng dụng có nhu cầu truy xuất nhiều nơi, công nghệ hệ thống sở liệu phân tán phát triển lãnh vực sở liệu, có hệ quản trị sở liệu phân tán thương mại hóa Oracle, Microsoft SQL Server Vì u cầu cơng ty, doanh nghiệp, đơn vị kinh doanh vấn đề tổ chức cho kinh doanh có hiệu nắm bắt thông tin nhanh sở công ty địa điểm xa xây dựng hệ thống làm việc sở liệu phân tán phù hợp xu hướng vấn đề thiết kế CSDL phân tán giải pháp lựa chọn tự nhiên Lợi điểm tổ chức kỹ thuật xu hướng phát triển sở liệu phân tán là: giải hạn chế sở liệu tập trung phù hợp xu hướng phát triển tự nhiên với cấu không tập trung tổ chức, công ty doanh nghiệp Tuy thực tế việc thiết kế sở liệu phân tán vô phức tạp khó nhiều vấn đề tổ chức kỹ thuật khó khăn so với thiết kế sở liệu đặt nơi Do làm nào, sử dụng kỹ thuật để thiết kế sở liệu phân tán cho tốt vấn đề đặt cần quan tâm nghiên cứu Một sở liệu phân tán muốn tối ưu hóa việc thực ứng dụng cần phải có phân đoạn liệu phân phối đoạn nơi phân tán để cực tiểu việc truyền liệu Phân đoạn liệu hướng nghiên cứu CSDL, kỹ thuật thiết kế CSDL mức logic nhằm giảm bớt truy xuất không cần thiết đến liệu, cho phép thực song song truy vấn cách chia thành tập truy vấn tác động lên đoạn Trang nhằm nâng cao việc thực ứng dụng Trong mô hình quan hệ có kiểu phân đoạn: phân đoạn ngang, phân đoạn dọc, phân đoạn hổn hợp Phân đoạn ngang việc phân chia quan hệ thành tập quan hệ con, quan hệ chứa quan hệ ban đầu Phân đoạn dọc việc phân chia quan hệ thành tập quan hệ con, quan hệ định nghĩa tập thuộc tính quan hệ ban đầu Hiện có nhiều hướng tiếp cận phân đoạn sử dụng phương pháp gộp nhóm, phân tách, phương pháp mang tính heuristic trình bày [6], [17], [27],….Tuy hướng tiếp cận phức tạp chủ quan, có phần phụ thuộc vào trực quan người thiết kế Do mục tiêu đề tài luận văn tiếp cận, nghiên cứu kỹ thuật khai phá liệu - hướng nghiên cứu áp dụng rộng rãi nhiều lĩnh vực kinh doanh đời sống khác - để ứng dụng thiết kế xây dựng sở liệu phân tán Kết đề tài hướng đến việc nghiên cứu tiếp cận dựa việc phát luật kết hợp để phát triển phương pháp phân đoạn dọc, phân chia thuộc tính tập thuộc tính sở liệu toàn cục, xây dựng lược đồ phân đoạn liệu trạm đặt sở liệu cục sử dụng kết có từ kỹ thuật phân cụm liệu để phát triển phương pháp phân đoạn ngang thiết kế phân đoạn CSDL phân tán Trên sở nghiên cứu sở lý thuyết thiết kế sở liệu phân tán, đề tài đưa nhằm nghiên cứu lĩnh vực sau:  Nghiên cứu khái niệm thiết kế sở liệu phân tán định nghĩa sở liệu phân tán, giới thiệu kiến trúc hệ phân tán, đặc điểm sở liệu phân tán so sánh với hệ sở liệu tập trung, nêu ích lợi số nhược điểm sử dụng hệ sở liệu phân tán, nghiên cứu Trang phương pháp tiếp cận để thiết kế bàn luận thiết kế phân đoạn ngang, phân đoạn dọc, thiết kế định vị trạm  Đề tài nghiên cứu giới thiệu kỹ thuật khai phá liệu phát luật kết hợp, giới thiệu thuật toán Apriori giải tốn phát luật kết hợp có sở liệu, giới thiệu phương pháp gom cụm, đặc biệt giới thuật thuật toán gom cụm k-means để thực phân cụm liệu cuối việc ứng dụng kỹ thuật khai phá liệu để thiết kế CSDL phân tán nhất, cụ thể ứng dụng luật kết hợp với giải thuật Apriori hổ trợ thiết kế phân đoạn dọc, đồng thời đề tài nghiên cứu ứng dụng việc phân cụm liệu để thiết kế phân đoạn ngang nhằm làm tăng hiệu suất hệ thống CSDL việc phân đoạn rút gọn số truy xuất giao dịch thực CSDL, đồng thời đề tài tìm hiểu thu thập sở liệu ứng dụng thực tế CSDL quản lý doanh nghiệp địa bàn TPHCM, quản lý Công ty Bảo minh làm số liệu thực nghiệm để trình bày kết minh họa demo thuật toán khai phá liệu (Datamining) ứng dụng hổ trợ thiết kế phân đoạn thiết kế sở liệu phân tán Với mục tiêu nêu trên, luận văn bao gồm chương cụ thể nêu chương sau Trang Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm sở liệu phân tán Những năm gần việc phát triển mơ hình lý thuyết cho hệ sở liệu phát triển hệ thống ứng dụng có nhiều kinh nghiệm hình thành dựa sở kết nối máy tính khác nhau, hệ sở liệu phân tán phát triển dựa sở liệu mạng máy tính Cơ sở liệu phân tán bao gồm nhiều sở liệu tích hợp lại với thơng qua mạng máy tính để trao đổi thơng tin liệu Cơ sở liệu tổ chức lưu trữ vị trí khác mạng máy tính chương trình ứng dụng làm việc dựa sở truy cập liệu điểm khác Hiện khái niệm xử lý phân tán (Distributed processing), tính tốn phân tán (Distributed computing) thuật ngữ có từ “phân tán” hay dùng để hệ thống rải rác hệ thống máy tính có đa xử lý (multiprocessor system) xử lý mạng máy tính Cơ sở liệu phân tán khái niệm không bao gồm trường hợp xử lý liệu hệ thống sử dụng nhớ chung, kể nhớ hay nhớ thứ cấp (đĩa từ), thiết phải hệ có sử dụng giao tiếp mạng với trạm làm việc độc lập 1.1.1 Định nghĩa sở liệu phân tán Theo tác giả [6],[17]: sở liệu phân tán tập nhiều sở liệu nhỏ có quan hệ logic với phân tán nhiều nơi mạng máy tính Tại trạm mạng có khả xử lý tự quản thực ứng dụng cục bộ, trạm tham gia vào ứng dụng tồn cục, có yêu cầu truy xuất liệu nhiều trạm Định nghĩa nhấn mạnh ba khía cạnh quan trọng sở liệu phân tán là: Trang 82 Chúng ta thu từ CM(R) vector đặc trưng cho tất giá trị (dòng liệu) quan hệ R Vector đặc trưng cho dòng ti wi = (wi1, wi2, , win), wij tỉ lệ số dòng R liên quan đến vị từ pj  Pred(R) Ma trận gọi VM(R) Các đối tượng (mẫu tin) gộp nhóm với phân đoạn cho đối tượng phân đoạn có độ tương tự cao độ tương tự so với đối tượng nhóm khác thấp, độ tương tự đối tượng đo hàm khoảng cách, áp dụng cho vector đặc trưng mô tả đối tượng Độ đo khoảng cách Chúng ta sử dụng khoảng cách Euclide để đo độ tương tự đối tượng: dE(wei,wej) = s  l 1 iiiiiiiiii (weil –iiiiii we jl) ớ; wei, wej vector đặc trưng ti, tj  R wei = (v1,v2, ,vn) v giá trị thuộc tính R dòng i Giữa hai dòng ti, tj định nghĩa độ tương tự chúng sau SimE(ti,tj) = (1- dE(wei,wej)) m Giải thuật phân đoạn k-means Giải thuật k-means có tham số vào k phân chia tập m đối tượng vào k cụm kết tương tự cao cho cụm tương tự lớp thấp Sự tương tự cụm độ đo liên quan đến giá trị có ý nghĩa đối tượng cụm (như tâm cụm) Đầu tiên giải thuật k-means chọn tùy ý k đối tượng làm điểm khởi tạo tâm cụm, đối tượng lại đưa vào cụm tương đồng với ý nghĩa có khoảng cách đối tượng với trung tâm cụm gần nhất, sau tính tốn lại tâm cụm phân tán đối tượng theo tâm Trang 83 mới, việc xử lý lặp lại khụng có thay đổi lớp điểm liệu (nghĩa điểm tâm không thay đổi mét sai sè cho phÐp) Các bước thực sau: Bước 1: Chọn k điểm tâm Bước 2: Với dòng quan hệ đo độ tương đồng với tâm chọn Phân chia vào cụm dịng có độ tương đồng với tâm lớn B-íc 3: Tính lại điểm tâm cụm Một cách đơn giản để tính lại điểm tâm cụm xác định trung bình cộng tất điểm cụm Trang 84 Lặp lại trình bước khơng có thay đổi cụm điểm liệu (nghĩa điểm tâm không thay đổi sai số cho phép) Trang 85 Giải thuật phân đoạn ngang dựa vào kỹ thuật gom cụm sau: Phần nhập: - Quan hệ R gồm thuộc tính U ={A1, A2, , An} tập mẫu tin có R T = {t1, t2, , tm} - Hàm đo độ tương đồng sim: TxT -> {0,1} -  k  m : số đoạn phân chia Phần xuất: Tập đoạn F ={F1, F2, , Ff}, f  k Bước 1: Trang 86 centr = {c1 , , ck}= InitCentr (T, CM(R), VM(R), k); // Chọn k điểm tâm Bước 2: For all ti Fcandidates = {argmaxcentr (sim(ti , cl ), l = k)}; Fu∗ = argmaxsim (sim(ti , fc ), fc Fcandidates); Fu∗ = Fu∗{ti }; End For // Phân chia vào cụm dòng có độ tương đồng với tâm lớn Bước 3: While F’ F For all Fj  F tính lại tâm điểm cj ; // Trung bình cộng đối tượng cụm Fj F’=F; For all ti // Fcandidates = {argmaxcentr (sim(ti , cl ), l = k)}; (i) Fu∗ = argmaxsim (sim(ti , Fc ), Fc  Fcandidates ); (ii) F’u∗ = F’u∗  {ti }; F’ = F’ − {Fl |Fl = ∅}; // loại trừ cụm rỗng; End For; End While; Function InitCentr(T= {t 1, t2, , tm},CM(R),VM(R),k) // Hàm khởi gán tâm cụm Begin Centr=∅; n = |Pred(C )|; Trang 87 For i=1 to k ci = argmin[dM (CM (tj ), ui )], tj  Centr, i ≤ n; (iii) ci = argmin(sim(tj , Centr)), tj  Centr, i > n; (iv) Centr = Centr  {ci }; End for; Return Centr; End Function; Hàm InitCentr chọn tâm điểm khởi gán mô tả Trong dòng (iii) ui vector nhận diện mức i, nhận giá trị vị trí thứ i nhận giá trị vị trí khác Mỗi ui cung cấp vị từ tương ứng từ Pred(R) Dòng (iii) chọn tâm điểm đại diện vị từ Ở ta chọn tâm điểm với số vị từ Pred(R) Nếu muốn chọn số tâm nhiều số vị từ chọn dịng (iv), dùng dòng (i) (ii) độ tương đồng đối tượng ti với cụm Fc định nghĩa độ đo tương đồng trung bình đối tượng cụm Ví dụ minh họa: Cho quan hệ cần phân đoạn sau Dòng T1 T2 T3 T4 T5 T6 T7 Mã sinh viên SV01 SV02 SV03 SV04 SV05 SV06 SV07 Tuổi 20 18 22 18 20 21 19 Chiều cao 170 160 150 150 160 165 160 Trang 88 Tập vị từ : p1 = tuoi

Ngày đăng: 13/02/2021, 06:25

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • MỞ ĐẦU

  • CHƯƠNG 1

  • CHƯƠNG 2

  • CHƯƠNG 3

  • CHƯƠNG 4

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan