thiết kế cơ sở dữ liệu phân tán sử dụng các kỹ thuật khai phá dữ liệu

58 526 1
thiết kế cơ sở dữ liệu phân tán sử dụng các kỹ thuật khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Văn Rạng THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN SỬ DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Chuyên ngành: Công nghệ Thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS Nguyễn Kim Anh Hà Nội – Năm 2015 LỜI CAM ĐOAN Tên Nguyễn Văn Rạng, học viên lớp Cao học lớp 13BCNTT1, chuyên ngành Công nghệ Thông tin, trƣờng Đại học Bách Khoa Hà Nội Tôi xin cam đoan hoàn toàn chịu trách nhiệm lời cam đoan này:  Toàn nội dung Luận văn Thạc sỹ thực dƣới hƣớng dẫn tận tình PGS.TS Nguyễn Thị Kim Anh  Trong trình thực Luận văn có kế thừa kiến thức tài liệu tham khảo (phần tài liệu tham khảo)  Các kết công bố sử dụng để kết luận đánh giá Luận văn hoàn toàn chân thực Hà Nội, Tháng 12 năm 2014 LỜI CÁM ƠN Để hoàn thành luận văn này, trƣớc hết tác giả xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Nguyễn Thị Kim Anh, công tác Viện Công nghệ Thông tin Truyền thông, Trƣờng Đại học Bách khoa Hà Nội tận tình hƣớng dẫn, động viên suốt thời gian nghiên cứu Xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Đức Thuần, Trƣờng Đại học Nha Trang có nhiều đóng góp quý báu, hỗ trợ tài liệu, định hƣớng nghiên cứu, cung cấp kết khoa học TS giúp tác giả hoàn thành luận văn Xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Hữu Trọng, Trƣờng Đại học Nha Trang có nhiều đóng góp quý báu, quan tâm, động viên tác giả để hoàn thành luận văn Cũng xin gửi lời cám ơn chân thành đến lãnh đạo, quý thầy cô Viện Công nghệ Thông tin Truyền thông, Viện đào tạo Sau Đại học, Trƣờng Đại học Bách khoa Hà Nội, lãnh đạo quý thầy cô trƣờng Đại học Nha Trang có nhiều góp ý, động viên, khích lệ tác giả thời gian nghiên cứu vừa qua NGUYỄN VĂN RẠNG MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC CỤM TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG MỞ ĐẦU CHƢƠNG CSDL PHÂN TÁN VÀ BÀI TOÁN THIẾT KẾ PHÂN ĐOẠN 11 1.1 Tổng quan CSDL phân tán 11 1.2 Các toán thiết kế phân tán 11 1.3 Các kỹ thuật thiết kế phân đoạn 12 1.4 Kỹ thuật phân đoạn ngang 14 1.4.1 Giới thiệu 14 1.4.2 Thông tin cần thiết phân đoạn ngang 15 1.4.3 Phân đoạn ngang sở 18 1.4.4 Phân đoạn ngang dẫn xuất 22 CHƢƠNG KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM 28 2.1 Tổng quan khai phá liệu 28 2.2 Các mô hình khai phá liệu 28 2.3 Bài toán phân cụm liệu 29 2.3.1 Tổng quan kỹ thuật phân cụm 29 2.3.2 Các kỹ thuật phân cụm liệu 29 CHƢƠNG THIẾT KẾ PHÂN ĐOẠN NGANG CSDL PHÂN TÁN ỨNG DỤNG MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 33 3.1 Đặt vấn đề 33 3.2 Các vấn đề thiết kế phân đoạn 33 3.3 Kỹ thuật phân đoạn ngang cổ điển 34 3.4 Phân đoạn ngang sử dụng kỹ thuật phân cụm liệu k-Medoids 34 3.4.1 Đặt vấn đề 34 3.4.2 Mô hình liệu 35 3.4.3 Thuật toán phân cụm 35 3.4.4 Thuật toán phân đoạn ngang sử dụng kỹ thuật phân cụm k-Medoids 37 3.4.5 Kết thực nghiệm đánh giá 39 3.5 Phân đoạn ngang sử dụng kỹ thuật phân cụm liệu với số cụm tự động đƣợc phát trình thực phân cụm 44 3.5.1 Đặt vấn đề 44 3.5.2 Khái quát lý thuyết tập thô 44 3.5.3 Thuật toán phân đoạn ngang sở phân cụm dựa vào lý thuyết tập thô 45 3.5.4 Kết thực nghiệm đánh giá 53 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 56 Những kết đạt đƣợc 56 Nhƣợc điểm hƣớng phát triển 56 Tài liệu tham khảo 57 DANH MỤC CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CSDL Database Cơ sở liệu KPDL Data mining Khai phá liệu KDD Knowledge Discovery in Khám phá tri thức CSDL Database PCDL Data Clustering Phân cụm liệu DBMS Database Management System Hệ quản trị CSDL DDBMS Distributed Database Hệ quản trị CSDL phân tán Management System KO Knowledge-Oriented Hƣớng tri thức RST Rough Set Theory Lý thuyết tập thô DANH MỤC CÁC HÌNH Hình Một mô hình CSDL quan hệ thực thể ER 13 Hình Các quan hệ tƣơng ứng mô hình liệu hình .13 Hình Một ví dụ kết phân đoạn dọc 14 Hình Một ví dụ kết phân đoạn ngang 14 Hình Phân đoạn ngang sở quan hệ PROJ 19 Hình Phân đoạn ngang cho quan hệ PAY 21 Hình Phân đoạn ngang quan hệ PROJ 22 Hình Phân đoạn ngang dẫn xuất quan hệ EMP 23 Hình Đồ thị đơn giản nối đoạn .24 Hình 10 Phân đoạn dẫn xuất ASG ứng với PROJ 25 Hình 11 Phân đoạn dẫn xuất ASG ứng với EMP .26 Hình 12 Các chiến lƣợc phân cụm phân cấp 31 DANH MỤC CÁC BẢNG Bảng Ma trận OCM 35 Bảng Sự kiện cho biến nhị phân 36 Bảng Dữ liệu mẫu cho ví dụ 3.1 39 Bảng Ma trận OCM ví dụ 3.1 40 Bảng Kết phân đoạn ví dụ 3.1 .40 Bảng Kết phân đoạn [6] .41 Bảng Dữ liệu mẫu cho ví dụ 3.2 42 Bảng Ma trận OCM ví dụ 3.2 43 Bảng Kết phân đoạn ví dụ 3.2 .43 MỞ ĐẦU Trong năm gần đây, phát triển nhanh chóng khoa học kỹ thuật nói chung phát triển công nghệ thông tin nói riêng, đặc biệt đời Internet giúp cho việc chia sẻ, khai thác thông tin toàn cầu dễ dàng nhanh chóng Chính mà kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Bên cạnh đó, việc đời phát triển nhanh chóng công nghệ mạng máy tính với mục tiêu chia sẻ tài nguyên, khai thác tài nguyên thông tin, tích hợp trao đổi loại liệu thành phần mạng đặt nhiệm vụ cho nhà tin học phải thiết kế hệ CSDL phân tán nhằm tích hợp CSDL nhiều vị trí khác mạng phân tán CSDL từ trạm đến vị trí khác cho việc khai thác thông tin đạt hiệu cao Bài toán thiết kế CSDL phân tán toán quan trọng ảnh hƣởng đến hiệu hệ CSDL sau Các giải pháp thiết kế CSDL phân tán phụ thuộc nhiều vào nguồn liệu đầu vào vấn đề khai thác nguồn liệu đầu vào kỹ thuật thiết kế phân tán Bài toán đƣợc nhiều nhà tin học quan tâm nhƣng chƣa có đƣợc giải pháp thiết kế tối ƣu cho CSDL phân tán Mục tiêu luận văn nghiên cứu cài đặt thử nghiệm giải pháp thiết kế CSDL phân tán sử dụng kỹ thuật khai phá liệu Bố cục luận văn gồm nội dung sau:  Chƣơng trình bày tổng quan CSDL phân tán; toán thiết kế phân tán; kỹ thuật thiết kế phân đoạn ngang giải pháp đề xuất gần  Chƣơng trình bày khái quát khai phá liệu; mô hình khai phá liệu; kỹ thuật phân cụm giải pháp đề xuất gần  Chƣơng tác giả đề xuất số giải pháp thiết kế phân đoạn CSDL phân tán sở kỹ thuật phân cụm liệu cài đặt thuật toán thử nghiệm Cụ thể, tác giả đề xuất giải pháp cài đặt thử nghiệm thuật toán phân đoạn ngang CSDL phân tán sử dụng thuật toán phân cụm k-Medoids Tuy nhiên với k-Medoids, số cụm ngƣời định, nên chƣa thực phù hợp với toán phân đoạn ngang cổ điển số đoạn tự sinh trình phân đoạn Để khắc phục nhƣợc điểm trên, chƣơng này, tác giả đề xuất giải pháp cài đặt thuật toán phân cụm hƣớng tri thức với số cụm tự động sinh trình phân cụm  Cuối phần kết luận hƣớng phát triển, tác giả tổng kết kết đạt đƣợc luận văn nhƣ hƣớng phát triển cho giải pháp đề xuất thời gian tới 10 Nhận xét: Căn kết phân đoạn bảng 9, với k=7 8, kết trùng khớp với thuật toán phân đoạn ngang cổ điển (với kết phân đoạn ngang cổ điển nhƣ ví dụ 3.2, ta có logic hội vị từ, m5 phân đoạn rỗng) 3.5 Phân đoạn ngang sử dụng kỹ thuật phân cụm liệu với số cụm tự động đƣợc phát trình thực phân cụm 3.5.1 Đặt vấn đề Một nhƣợc điểm thuật toán phân đoạn ngang CSDL phân tán sử dụng kỹ thuật phân cụm k-Medoids phần kết trùng khớp số cụm đầu vào thuật toán phân cụm trùng với số đoạn sinh thực tế thuật toán phân đoạn ngang cổ điển Để khắc phục nhƣợc điểm trên, tác giả nghiên cứu giải pháp tự phát cụm kỹ thuật phân cụm cài đặt thuật toán đề xuất áp dụng để thiết kế phân đoạn ngang CSDL phân tán Cụ thể, phần tác giả đề xuất kỹ thuật phân cụm nhằm giảm thiểu can thiệp chủ quan ngƣời (đƣa vào số cụm) dựa yếu tố lý thuyết tập thô Mục đích thuật toán đƣa giải pháp phân cụm với số cụm tự phát trình thực thuật toán 3.5.2 Khái quát lý thuyết tập thô Lý thuyết tập thô (Rough Set Theory - RST) lần đƣợc đề xuất Z.Pawlak nhanh chóng đƣợc xem nhƣ công cụ xử lý thông tin mơ hồ, không chắn Lý thuyết tập thô dựa giả thiết để định nghĩa tập hợp, cần phải có thông tin đối tƣợng tập phổ dụng Ví dụ, đối tƣợng bệnh nhân bị bệnh định triệu chứng bệnh tạo thành thông tin bệnh nhân Nhƣ tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống tập hợp, tập hợp đƣợc định nghĩa phần tử 44 mà không cần biết thông tin phần tử tập hợp Rõ ràng, tồn số đối tƣợng giống số thông tin đó, ta nói chúng có quan hệ bất khả phân biệt với Đây quan hệ mấu chốt điểm xuất phát lý thuyết tập thô: biên giới tập thô không rõ ràng, để xác định phải xấp xỉ tập hợp khác nhằm mục đích cuối trả lời đƣợc (tất nhiên xác tốt) đối tƣợng có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận nhƣ đƣợc ứng dụng nhiều lĩnh vực đời sống xã hội RST tập trung ý tƣởng việc sử dụng liệu toàn cục để thiết lập độ tƣơng tự đối tƣợng, kỹ thuật phân cụm phân hoạch sử dụng liệu địa phƣơng để đạt đƣợc giải pháp phân cụm tối ƣu[3] 3.5.3 Thuật toán phân đoạn ngang sở phân cụm dựa vào lý thuyết tập thô Dựa ý tƣởng thuật toán phân cụm trình bày [3], với kết hợp liệu toàn cục theo RST liệu địa phƣơng theo kỹ thuật phân cụm truyền thống, tác giả xin đề xuất thuật toán phân đoạn ngang sở kỹ thuật phân cụm hƣớng tri thức KO (Knowledge-Oriented Clustering)[3] nhƣng với tập liệu cần phân cụm đƣợc biểu diễn biến nhị phân nhƣ trình bày công thức 3.1 (ma trận OCM) [3] sử dụng tập liệu có biến kiểu số kiểu chuỗi phân loại Để xác định quan hệ bất khả phân biệt ban đầu (bƣớc thuật toán), tác giả đề xuất giải pháp tính toán đơn giản [3] theo công thức (3.6) cho phù hợp với tập liệu đặc thù (ma trận nhị phân OCM) Một khác biệt thuật toán đề xuất sử dụng độ đo tƣơng tự theo công thức 3.4 độ đo khoảng cách theo công thức 3.2 Ý tƣởng thuật đoán đề xuất mong muốn áp dụng giải pháp phân cụm với số cụm tự động đƣợc phát trình xử lý, nhằm áp dụng cho việc thiết kế phân đoạn ngang CSDL phân tán cách hiệu 45 Dƣới thuật toán phân đoạn ngang CSDL phân tán đề xuất sở ý tƣởng thuật toán phân cụm hƣớng tri thức KO: Cho: r(R)={t1, t2, …, tn) quan hệ n (đối tƣợng) cần phân đoạn Pr={p1, p2, …,pm} tập vị từ đơn giản r(R) Thuật toán 3.2: Input: OCM ma trận n hàng tƣơng ứng n đối tƣợng r(R), m cột tƣơng ứng m vị từ đơn giản Pr Output: Các phân đoạn ngang r(R) thông qua OCM Method: Bƣớc : Xây dựng ma trận độ tương tự S=s(ti, tj) tất cặp đối tượng OCM Bƣớc : Chỉ định quan hệ bất khả phân biệt ban đầu Ri cho đối tượng OCM Tổng hợp để có phân cụm ban đầu Bƣớc 3: Xây dựng ma trận bất khả phân biệt Γ=γ(ti, tj) để đánh giá chất lượng phân cụm Bƣớc : Sửa đổi phân cụm theo quan hệ bất khả phân biệt Rmodi cho đối tượng OCM để đạt phân cụm sửa đổi Bƣớc : Lặp lại bước thu phân cụm ổn định 46 Sau trình bày kỹ thuật áp dụng cho bƣớc thuật toán đề xuất Bƣớc : Xây dựng ma trận độ tương tự S=s(ti,tj) tất cặp đối tượng OCM Để xây dựng ma trận độ tƣơng tự, ta áp dụng độ đo đối tƣợng với biến nhị phân (vì đầu vào thuật toán ma trận nhị phân OCM) Cụ thể, độ tƣơng tự áp dụng công thức 3.4 với khoảng cách đối tƣợng tính theo công thức 3.2 Bƣớc 2: Chỉ định quan hệ bất khả phân biệt ban đầu Ri cho đối tượng ti OCM Tổng hợp để có phân cụm ban đầu Bƣớc 2.1: Chỉ định quan hệ bất khả phân biệt ban đầu Ri cho đối tượng ti OCM Ta định nghĩa quan hệ bất khả phân biệt ban đầu nhƣ sau: Cho A = (U, A) hệ thông tin với tập vũ trụ hữu hạn không rỗng U={t1, t2,… ,tn} tập thuộc tính A = {a1, a, …, am} Các quan hệ bất khả phân biệt ban đầu Ri gán cho đối tượng ti tập vũ trụ xác định sau: Ri = {(ti, tj) ∈ U x U:d(ti, tj) -1, i=1 n) Bƣớc 3: Xây dựng ma trận bất khả phân biệt Γ=γ(ti, tj) để đánh giá chất lượng phân cụm Ma trận bất khả phân biệt Định nghĩa: Cho A = (U, A) hệ thông tin với tập vũ trụ hữu hạn không rỗng U={t1, t2,…, tn} tập thuộc tính A = {a1, a2, , am} Đối với phân cụm định tập vũ trụ, ma trận bất khả phân biệt Γ=γ(ti, tj) đại diện cho tỷ lệ toàn cục đối tượng xem cặp đối tượng tập vũ trụ nhận rõ, độ bất khả phân biệt γ(ti, tj) cho cặp đối tượng xác định sau[3]: Trong 49 Và γkindis(ti, tj) đánh giá độ bất khả phân biệt hai đối tƣợng ti tj Nó đƣợc gán ti, tj, tk nằm lớp bất khả phân biệt theo quan hệ Rk Ngƣợc lại γkdis(ti, tj) đƣợc gán ti, tj phân biệt dựa quan hệ Rk (dựa quan hệ Rk chúng không nằm lớp) Theo định nghĩa này, đối tƣợng đƣợc coi bất khả phân biệt giá trị tƣơng tự chúng vƣợt ngƣỡng xác định trƣớc (0 = X}, độ xác cụm cho phân vùng U/R định nghĩa sau : 52 accbetwen(U/R) = μ(B) (3.14) Trong μ(B) giá trị trung bình tập B Giá trị ngƣỡng gamma đƣợc chọn tự động theo đề xuất[3] nhƣ sau: Đề xuất: Nếu U/R phân vùng tập vũ trụ U { Thγi },i=1 n tập giá trị gamma xác định trước Sau ngưỡng Thγ sử dụng để đạt phân cụm sửa đổi U/Rmod chọn từ tập { Thγi },i=1 n tương ứng với giá trị accγi nhỏ nhất, với accγi xác định sau: accγi = 0.1accwithin(U/Rγi) + 0.9 accbetween(U/Rγi) (3.15) Trong { U/Rγi}, i=1 n phân vùng đƣợc tạo nên giá trị { Thγi },i=1 n Thγ đƣợc chọn cho độ xác acc tƣơng ứng min(accγi) Quá trình sửa đổi đƣợc lặp hội tụ đến giá trị acc ổn định đạt đƣợc theo công thức (3.15), lúc phân cụm tƣơng ứng đƣợc coi phân cụm cuối tối ƣu tập vũ trụ 3.5.4 Kết thực nghiệm đánh giá Ví dụ 3.3 Lấy liệu cần phân đoạn ví dụ 3.1 tập vị từ đơn giản tƣơng ứng, thực phân đoạn thuật toán phân đoạn với số cụm tự phát (thuật toán 3.2) đề xuất, kết phân đoạn nhƣ sau: Đoạn 1: t1, t3, t6, t7 Đoạn 2: t2, t5, t8 Đoạn 3: t4 Nhận xét:  Kết trùng khớp với kết thuật toán phân đoạn ngang sử dụng kỹ thuật phân cụm k-Medoids k=3 thuật toán phân đoạn ngang cổ điển  Trùng khớp với kết [6] nhƣng OCM sử dụng vị từ đơn giản dạng khẳng định, [6] sử dụng dạng khẳng định phủ định 53 Ví dụ 3.4 Lấy liệu cần phân đoạn ví dụ 3.2 tập vị từ đơn giản tƣơng ứng, thực phân đoạn thuật toán phân cụm với số cụm tự phát (thuật toán 3.2) đề xuất, kết phân đoạn nhƣ sau: Đoạn 1: t1, t8 Đoạn 2: t2, t13 Đoạn 3: t3, t6 Đoạn 4: t4 Đoạn 5: t5 Đoạn 6: t7, t9 Đoạn 7: t10, t11, t12 Đoạn 8: rỗng Nhận xét:  Kết trùng khớp với kết thuật toán phân đoạn ngang sử dụng kỹ thuật phân cụm k-Medoids k=7 k=8 trùng khớp thuật toán phân đoạn ngang cổ điển  Dữ liệu mẫu lấy từ báo [1], nhƣng báo này, tác giả [1] sử dụng kMeans để phân đoạn ngang CSDL, kết phân đoạn đƣa với k=4, không so sánh với kỹ thuật phân đoạn ngang cổ điển (có cụm) Kết chƣơng Trên sở lý thuyết nghiên cứu trình bày hai chƣơng đầu luận văn, chƣơng 3, tác giả tìm hiểu, đề xuất số giải pháp thiết kế phân đoạn ngang CSDL phân tán dựa kỹ thuật phân cụm liệu cài đặt, chạy kiểm tra tập liệu mẫu lấy từ số báo liên quan Kết cài đặt cho thấy, với giải pháp mà tác giả đề xuất, mẫu liệu thực nghiệm, có tƣơng đƣơng kết phân đoạn ngang CSDL phân tán sử dụng kỹ thuật phân đoạn ngang cổ điển kỹ thuật phân đoạn ngang sở thuật toán phân 54 cụm KPDL Mặc dù chạy mẫu liệu thực nghiệm nhỏ, nhƣng với kết đạt đƣợc chứng minh hƣớng tiếp cận đầy tiềm thiết kế CSDL phân tán: sử dụng kỹ thuật khai phá liệu 55 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Những kết đạt đƣợc Trên sở tìm hiểu tổng quan CSDL phân tán; toán thiết kế phân tán; kỹ thuật thiết kế phân đoạn chƣơng 1; tìm hiểu khái quát khai phá liệu; toán khai phá liệu; kỹ thuật phân cụm chƣơng 2, chƣơng tác giả nghiên cứu, đề xuất số giải pháp thiết kế phân đoạn ngang CSDL phân tán sở kỹ thuật phân cụm liệu cài đặt thuật toán thử nghiệm Cụ thể, tác giả đề xuất giải pháp cài đặt thử nghiệm thuật toán phân đoạn ngang CSDL phân tán sử dụng thuật toán phân cụm k-Medoids Kết thuật toán đề xuất CSDL thực nghiệm trùng khớp với kết phân đoạn ngang cổ điển số cụm đầu vào trùng với số đoạn phát sinh thực tế phân đoạn ngang cổ điển Cũng chƣơng 3, tác giả đề xuất giải pháp cài đặt thuật toán phân cụm với số cụm tự động sinh trình phân cụm sở nghiên cứu số giải pháp phân cụm số báo, đặc biệt báo [3], báo trình bày giải pháp phân cụm, không liên quan đến phân đoạn liệu CSDL phân tán Kết thuật toán đề xuất CSDL thực nghiệm trùng khớp với kết phân đoạn ngang cổ điển, khắc phục đƣợc phụ thuộc số cụm đầu vào thuật toán phân đoạn dựa k-Medoids Nhƣợc điểm hƣớng phát triển Đề tài cài đặt thuật toán thử nghiệm số tập liệu mẫu báo tham khảo, nên chƣa thể đánh giá đƣợc tính hiệu xác so với kỹ thuật khác thiết kế phân tán, đặc biệt thiết kế phân đoạn liệu Vì mối quan tâm tác giả thời gian tới tối ƣu thuật toán cài đặt, đƣa số giải pháp kỹ thuật khai phá liệu để thiết kế CSDL phân tán Đồng thời chứng minh tính hiệu giải pháp đề xuất so với giải pháp khác vấn đề thiết kế CSDL phân tán 56 Tài liệu tham khảo Adrian Sergiu Darabant, Alina Campan (2004), Semi-supervised learning techniques: k-means clustering in OODB fragmentation, Computational Cybernetics, 2004 ICCC 2004 Second IEEE International Conference on, pp.333-338 ISBN: 0-7803-8588-8 Adrian Sergiu Darabant, Laura Databant (2011), Clustering methods in data fradmentation, Romanian Journal of Information Science and Technology, Vol.14 (No.1) pp.81-97 C.L Bean, C.Kambhampati (2008), Automonous Clustering Using Rough Set Theory, International Journal of Automation and Computing, Vol.5 (No.1) pp 90-102 ISSN 1476-8186 Đỗ Phúc (2006), Giáo trình khai thác liệu, NXB Đại học Quốc gia TP Hồ Chí Minh Jiawei Han, Micheline Kamber (2012), Data Mining: Concepts and Techniques, 3rd ed, Morgan Kaufmann Lƣơng Văn Nghĩa (2013), Phân đoạn dọc, ngang thiết kế sở liệu phân tán dựa kỹ thuật phân cụm, đƣợc chấp nhận đăng Tạp chí Khoa học Công nghệ Đại học Đà Nẵng – số (64).2013 M Tamer Özsu, Patrick Valduriez (2011), Principles of Distributed Database Systems, Third Edition, Springer Science+Business Media, LLC Nguyễn Hữu Trọng (2007), Phát triển số thuật toán khai phá luật kết hợp sở liệu gia tăng, Luận án tiến sĩ toán học, Viện Công nghệ Thông tin Oren Zamir and Oren Etzioni (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM 57 10 Pawan Lingras (2002), Rough Set Clustering for Web mining, IEEE 11 Phạm Thế Quế (2010), Giáo trình CSDL phân tán, NXB Thông tin Truyền thông 12 Ulrich Guntzer, Jochen Hipp, Gholamreza (2000), Algorithms for Association Rule Mining – A General Survey and Comparison, ACM SIGKDD Explorations Newsletter, Volume Issue 1, pp 58 - 64 58 [...]... văn Thiết kế cơ sở dữ liệu phân tán sử dụng các kỹ thuật khai phá dữ liệu , chƣơng này tác giả đã trình bày sơ lƣợc về KPDL, các mô hình KPDL, các kỹ thuật phân cụm dữ liệu, đặc biệt trình bày ý tƣởng của 3 kỹ thuật phân cụm có liên quan đến giải pháp thiết kế phân đoạn CSDL phân tán mà tác giả sẽ đề xuất trong chƣơng 3 32 CHƢƠNG 3 THIẾT KẾ PHÂN ĐOẠN NGANG CSDL PHÂN TÁN ỨNG DỤNG MỘT SỐ KỸ THUẬT PHÂN... phân tán Trong chƣơng này, tác giả đã trình bày khái quát về CSDL phân tán, các bài toán thiết kế phân tán Đặc biệt tác giả trình bày tƣơng đối chi tiết kỹ thuật phân đoạn ngang cổ điển, vốn sử dụng các hội vị từ kết hợp từ các vị từ đơn giản làm nền tảng cơ bản để thiết kế phân đoạn Trên cơ sở đó, tác giả sẽ đề xuất một số giải pháp thiết kế CSDL phân tán (chƣơng 3) sử dụng các kỹ thuật khai phá dữ liệu. .. nhƣng vẫn chƣa có đƣợc các giải pháp thiết kế tối ƣu cho các CSDL phân tán Trên cơ sở lý thuyết về nguyên lý thiết kế phân đoạn ngang CSDL phân tán nhƣ đã trình bày ở chƣơng 1, cũng nhƣ lý thuyết về phân cụm trong khai phá dữ liệu đã đề cập ở chƣơng 2 của luận văn, tác giả đề xuất một giải pháp thiết kế phân đoạn CSDL phân tán trên cơ sở các kỹ thuật phân cụm dữ liệu và cài đặt các thuật toán thử nghiệm... KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 3.1 Đặt vấn đề Nhƣ đã đề cập ở phần đầu luận văn, bài toán thiết kế CSDL phân tán là một trong các bài toán quan trọng ảnh hƣởng đến hiệu quả của hệ CSDL phân tán sau này Các giải pháp thiết kế CSDL phân tán phụ thuộc rất nhiều vào các nguồn dữ liệu đầu vào và vấn đề khai thác các nguồn dữ liệu đầu vào trong các kỹ thuật thiết kế phân tán Bài toán này mặc dù... toán thiết kế CSDL phân tán là một trong các bài toán quan trọng ảnh hƣởng đến hiệu quả của hệ CSDL sau này Các giải pháp thiết 26 kế CSDL phân tán phụ thuộc rất nhiều vào các nguồn dữ liệu đầu vào và vấn đề khai thác các nguồn dữ liệu đầu vào trong các kỹ thuật thiết kế phân tán Bài toán này mặc dù đã đƣợc nhiều nhà tin học quan tâm nhƣng vẫn chƣa có đƣợc các giải pháp thiết kế tối ƣu cho các CSDL phân. .. dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu Suy diễn là quá trình dựa trên dữ liệu hiện thời để dự đoán những quy luật đƣợc phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu Có nhiều cách khai phá dữ liệu đƣợc nghiên cứu, trong đó có ba cách đƣợc các nhà nghiên cứu sử dụng nhiều nhất là: Luật kết hợp, phân lớp dữ liệu và phân cụm dữ. .. hiện của thuật toán Tuy nhiên, các kỹ thuật PCDL có thể đƣợc phân loạithành một số loại cơ bản dƣa trên các phƣơng pháp tiếp cậnkhác nhau[12]: phân cụm phân hoạch, phân cụm phân cấp (đây là 2 kỹ thuật phân cụm phổ biến), ngoài racòn có các kỹ thuật phân cụm dựa trên mật độ, phân cụm dựa trên lƣới, phân cụm dựa trên mô hình, phân cụm dữ liệu mờ Gần đây còn xuất hiện một kỹ thuật mới đó là phân cụm dựa... ba kỹ thuật phân cụm: a .Phân cụm phân hoạch Ý tƣởng chính của kỹ thuật này là phân một tập dữ liệu có n phần tử cho trƣớc thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phầntử dữ liệu Các thuật toán phân hoạch có độ phức tạp rất lớn khi xác định nghiệm tối ƣu toàn cục cho vấn đề PCDL, vì nó phải tìm kiếm tất cả các cách phân. .. xuất áp dụng kỹ thuật phân cụm phân hoạch kMedoids để xây dựng thuật toán phân đoạn ngang trong CSDL phân tán 3.4.2 Mô hình dữ liệu Mấu chốt của kỹ thuật phân đoạn ngang cổ điển là xây dựng các hội vị từ từ các vị từ đơn giản để tạo ra các đoạn mong muốn nhằm định vị chúng đến những trạm thích hợp trong hệ thống phân tán Việc xác định các vị từ đơn giản căn cứ vào các truy vấn xuất phát từ các ứng dụng. .. 1.2 Các bài toán thiết kế phân tán Thiết kế cơ sở dữ liệu phân tán là bài toán tối ƣu hóa bao gồm các bài toán: phân đoạn và sắp chỗ Có nhiều phƣơng pháp tiếp cận khác nhau để giải quyết các bài toán này Đối với bài toán phân đoạn, có 2 bài toán con: phân đoạn ngang và phân đoạn dọc Phân đoạn ngang là phân chia tập các bản ghi thành các tập bản ghi nhỏ hơn Phân đoạn dọc là phân rã tập thuộc tính của

Ngày đăng: 23/11/2016, 02:58

Từ khóa liên quan

Mục lục

  • Trang bia

  • Loi cam doan

  • Loi cam on

  • Muc luc

  • Danh muc cac cum tu viet tat

  • Danh muc cac hinh

  • Danh muc cac bang

  • Mo dau

  • Chuong 1

  • Chuong 2

  • Chuong 3

  • Ket luan va huong phat trien

  • Tai lieu tham khao

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan