Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
5,34 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ******** NGUYỄN THÀNH PHƯƠNG CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ỨNG DỤNG TRONG HỆ THỐNG PHÂN TÁN LỚN KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60480101 TP HỒ CHÍ MINH - 2015 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ******** NGUYỄN THÀNH PHƯƠNG CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ỨNG DỤNG TRONG HỆ THỐNG PHÂN TÁN LỚN KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN PHI KHỨ TP HỒ CHÍ MINH – NĂM 2015 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết thực nghiệm nêu khóa luận trung thực chưa công bố cơng trình khác Tác giả Nguyễn Thành Phương MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1 Mục tiêu tính cần thiết đề tài 1.2 Tổng quan tình hình nghiên cứu 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 1.2.7 Tổng quan khai phá liệu Các hướng tiếp cận kỹ thuật Khai phá liệu Các vấn đề khai phá liệu Tính khoa học tính đề tài Mục tiêu, đối tượng phạm vi nghiên cứu Nội dung, phương pháp dự định nghiên cứu 10 Phương pháp nghiên cứu 11 CHƯƠNG 2: THUẬT TOÁN SONG SONG VỚI DỮ LIỆU LỚN 13 2.1 Thuật toán song song 13 2.1.1 2.1.2 2.1.3 2.1.4 2.2 Khái niệm 13 Tính cần thiết xử lý song song 13 Phân loại hệ thống tính tốn song song 14 Tiêu chí thuật tốn song song 15 Môi trường phân tán 15 CHƯƠNG 3: HIỆN THỰC CÁC THUẬT TOÁN SONG SONG 16 3.1 Dijkstra 16 3.1.1 3.1.2 3.1.3 3.1.4 3.2 K-means 20 3.2.1 3.2.2 3.2.3 3.2.4 3.3 Giới thiệu 16 Thuật toán 16 Thuật toán song song 19 Nhận xét 20 Giới thiệu 20 Thuật toán 21 Thuật toán song song 21 Nhận xét 22 Apriori 22 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 Giới thiệu 22 Thuật toán 24 Các nghiên cứu thuật toán song song liên quan 25 Giải thuật song song đề xuất 27 Nhận xét 31 3.4 Tổng quan cơng nghệ, khả tích hợp, mở rộng 32 CHƯƠNG 4: CHẠY THỬ VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 35 4.1 Dijkstra 35 4.2 K-means 36 4.3 Apriori 38 CHƯƠNG 5: KẾT LUẬN 41 5.1 Kết khóa luận 41 5.2 Hạn chế 41 DANH MỤC HÌNH VẼ Hình 3.1: Kết tính tốn đồ thị 17 Hình 3.2: Quá trình loại bỏ phần tử khơng phổ biến giải thuật ODAM 29 Hình 3.3: Cấu trúc lưu trữ liệu thông thường (row-wise) 30 Hình 3.4: Cấu trúc lưu trữ liệu columnar storage 31 Hình 3.5: Hệ thống phân tán chạy thử thuật toán Apriori 32 Hình 3.6: Hệ thống phân tán chạy thử thuật toán K-means, Dijkstra 33 Hình 4.1: Thuật tốn Dijkstra – thí nghiệm 36 Hình 4.2: Thuật tốn Dijkstra – thí nghiệm 36 Hình 4.3: Thuật tốn K-means – thí nghiệm 37 Hình 4.4: Thuật tốn K-means – thí nghiệm 38 Hình 4.5: Thuật tốn Apriori – Thí nghiệm 39 Hình 4.6: Thuật tốn Apriori – Thí nghiệm 40 Chương 1: Tổng quan CHƯƠNG 1: TỔNG QUAN 1.1 Mục tiêu tính cần thiết đề tài Ngày thời đại bùng nổ Công Nghệ Thông Tin, hoạt động người ngày tin học hóa Càng nhiều hoạt động sống hàng ngày người dần chuyển sang hình thức lưu trữ kĩ thuật số Với bùng nổ khối lượng thông tin đó, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ Cơ sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp nhanh, phù hợp xác, hiệu để lấy thơng tin bổ ích Khai phá liệu ln đề tài nóng lĩnh vực khoa học máy tính, đặc biệt tính chất toàn cầu rộng lớn hệ thống công nghệ thông tin giới đại, mà liệu lưu trữ cách phân tán khai phá liệu gặp phải nhiều thách thức khó khăn cần giải Do đó, đề tài hướng đến vấn đề nghiên cứu thuật toán quan trọng lĩnh vực khai phá liệu môi trường hệ thống phân tán với lượng liệu lớn Cụ thể hơn, đề tài thực thuật tốn khai phá liệu mơi trường phân tán, đề xuất cải tiến để tối ưu thuật tốn này, xây dựng mơ hình liệu, mơ hình kĩ thuật theo tiêu chuẩn tổ chức kĩ thuật giới để đảm bảo thực tiếp tục phát triển tích hợp vào sản phẩm thực tế Các thuật toán thực đề tài này: thuật toán phân cụm k-Means, thuật toán khai thác luật kết hợp Apriori, thuật toán khai phá liệu đồ thị tìm đường ngắn Dijkstra Chương 1: Tổng quan 1.2 Tổng quan tình hình nghiên cứu 1.2.1 Tổng quan khai phá liệu Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm bước sau: • Trích chọn liệu (data selection): bước trích chọn tập liệu cần khai phá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định • Tiền xử lý liệu (data preprocessing): bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán, v.v.), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hóa • Biến đổi liệu (data transformation): bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau • Khai phá liệu (data mining): bước áp dụng kỹ thuật khai phá (phần nhiều kỹ thuật machine learning) để khai phá, trích chọn mẫu (patterns) thông tin, mối liên hệ (relationships) đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian toàn trình KDD 1.2.2 Các hướng tiếp cận kỹ thuật Khai phá liệu Các hướng tiếp cận Khai phá liệu phân chia theo chức hay lớp toán khác Sau số hướng tiếp cận chính: Phân lớp dự đốn (classification & prediction): xếp đối tượng vào lớp biết trước Phân lớp tốn thơng dụng Khai phá liệu Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại Chương 1: Tổng quan (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước Nhận dạng toán thuộc kiểu Phân lớp Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (decision tree), mạng nơron nhân tạo (neural network), v.v Phân lớp gọi học có giám sát (học có thầy – supervised learning) Luật kết hợp (association rules): Các giải thuật Tìm luật kết hợp tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng thường mua kèm với siêu thị Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao Phân cụm (clustering/segmentation): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Phân cụm gọi học khơng giám sát (học khơng có thầy – unsupervised learning) Mô tả khái niệm (concept description & summarization): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.2.3 Các vấn đề khai phá liệu a Các dạng liệu khai phá Do Khai phá liệu ứng dụng rộng rãi nên làm việc với nhiều kiểu liệu khác Sau số kiểu liệu điển hình CSDL quan hệ (relational databases) CSDL đa chiều (multidimensional structures, data warehouses) CSDL dạng giao dịch (transactional databases) Chương 1: Tổng quan CSDL quan hệ - hướng đối tượng (object-relational databases) Dữ liệu không gian thời gian (spatial and temporal data) Dữ liệu chuỗi thời gian (time-series data) CSDL đa phương tiện (multimedia databases) âm (audio), hình Ảnh (image), phim ảnh (video), v.v Dữ liệu Text Web (text database & www) Khai phá liệu lĩnh vực thu hút nhiều quan tâm nhà nghiên cứu nhờ vào ứng dụng thực tiễn Chúng ta liệt kê số ứng dụng điển hình: Phân tích liệu hỗ trợ định (data analysis & decision support) Điều trị y học (medical treatment): mối liên hệ triệu chứng, chẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật …) Text mining & Web mining: phân lớp văn trang web, tóm tắt văn bản, v.v Tin-sinh (bio-informatics): tìm kiếm, đối sánh hệ gene thông tin di truyền, mối liên hệ số hệ gene số bệnh di truyền, v.v Tài thị trường chứng khốn (finance & stock market): phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán, v.v Khai phá liệu lĩnh vực mới, nhiều vấn đề chưa nghiên cứu cách trọn vẹn Sau số hướng nghiên cứu thu hút ý nhà tin học OLAM (Online Analytical Mining) - Sự tích hợp CSDL, kho liệu Khai phá liệu Hiện số hệ quản trị CSDL Oracle, MS SQL Server, DB2 tích hợp tính xây dựng kho liệu phân tích trực tuyến (OLAP) Khám phá nhiều dạng tri thức khác từ nhiều kiểu liệu Chương 3: Hiện thực thuật toán song song 2) Bộ xử lý Pi tìm kiếm tập liệu cục Dj tính độ hỗ trợ cho Ck 3) Bộ xử lý Pi trao đổi Ck cục với xử lý khác để tính dược Ck toàn cục Các vi xử lý cần phải đồng liệu bước 4) Mỗi xử lý Pi sau tính Lk từ Ck 5) Mỗi xử lý Pi định dừng hay tiếp tục thuật toán dựa vào trạng thái duyệt liệu nội b ODAM Trong mục khóa luận trình bày việc áp dụng giải thuật ODAM công bố M Z Ashrafi, D Taniar, K A Smith [4] Hiệu suất thuật toán Apriori ARM giảm nhiều lý khác Thuật tốn thơng thường đòi hỏi n lần qt sở liệu để tạo tập phổ biến n-itemset Hơn nữa, khơng nhận biết giao dịch trùng sở liệu Vì thuật tốn thơng thường tốn chi phí để ta tập ứng viên dựa theo liệu trùng Để khắc phục vấn đề này, bỏ qua việc tạo tập ứng cử viên từ liệu thô ban đầu pha Kỹ thuật khơng làm giảm độ lớn bình quân giao dịch sét mà làm giảm kích thước tập liệu đáng kể, tích lũy nhiều giao dịch nhớ Số lượng item tập hợp liệu lớn, có vài item đáp ứng ngưỡng hỗ trợ, phổ biến Ta xem ví dụ mẫu hình Thay load liệu thơ, load liệu sau cắt tỉa vào nhớ Kĩ thuật giảm bớt độ dài giao dịch, mà loại bỏ nhiều giao dịch giống 28 Chương 3: Hiện thực thuật tốn song song Hình 3.2: Q trình loại bỏ phần tử không phổ biến giải thuật ODAM ODAM loại bỏ tập item khơng phổ biến tồn cục khỏi giao dịch, làm giảm kích thước giao dịch Sau mã giả thuật toán ODAM: NF = {Non-frequent global 1-itemset} for all transaction t £ D { for all 2-subsets s of t if (s £ C2) s.sup++: t'= delete_nonfrequent_items(t); Table.add(t'); } Send_to_receiver (C2); F2=receive_from_receiver(Fα); C3=(Candidate itemset); T=Table.getTransactions(); k=3; While (Ck ≠{}) { For all transaction t £ T For all k-subsets s of t If (s £ Ck) s.sup++; k++; send_to_receiver(Ck); Ck+1={Candidate itemset); } 29 Chương 3: Hiện thực thuật toán song song c Columnar Storage Columnar storage Áp dụng columnar storage cho sở liệu yếu tố quan trọng việc tăng tốc độ truy xuất liệu từ đĩa làm giảm tối đa lượng liệu cần truy vấn cho câu truy vấn cụ thể Các minh họa minh họa ưu điểm vượt trội columnar storage Trong hình biểu diễn việc lưu trữ dòng liệu theo cấu trúc thơng thường (row-wise) xuống đĩa cứng Hình 3.3: Cấu trúc lưu trữ liệu thông thường (row-wise) Trong lưu trữ thông thường – dạng hàng, hàng bao gồm nhiều giá trị cột Khi lưu xuống đĩa, giá trị lưu theo block liên tiếp hình Khi số cột hàng lớn nhỏ độ rộng block đĩa cứng, việc phân chia block ổ cứng thực cách không tối ưu Đối với giao dịch online (OLTP), thông thường liệu hàng đọc lần tất cột, nên cách lưu trữ thơng thường có tác dụng tối ưu trở thành thông dụng Tuy nhiên, truy vấn phân tích liệu, lượng liệu trở nên lớn, phân tán hàng trăm đến hàng ngàn máy chủ việc phân chia block, đọc đĩa cứng, tối ưu mang lại hiệu lớn Ngồi ra, truy vấn phân tích liệu phục vụ cho data mining, bảng liệu thường có nhiều cột, truy vấn riêng lẻ thường dùng số cột, columnar storage phát huy hiệu Hình minh họa việc lưu trữ theo dạng comlumnar storage 30 Chương 3: Hiện thực thuật tốn song song Hình 3.4: Cấu trúc lưu trữ liệu columnar storage Trong hình trên, block lưu trữ giá trị cột liệu cho nhiều hàng khác nhau, việc phân chia kích thước block diễn hiệu quả, ngồi truy vấn đọc giá trị nhiều hàng tốc độ thực thi cao, giá trị nằm kề Bên cạnh đó, giá trị kiểu liệu nằm block khối block nên thực việc nén liệu cách dễ dàng, đem lại tốc độ cao cho việc truyền tải liệu Đề xuất lợi ích tận dụng thực thuật tốn Apriori Khóa luận đề xuất sử dụng columnar storage để thực thuật toán Apriori song song, lợi điểm lớn cột (các item giao dịch) truy vấn cách độc lập tối ưu Ngoài ra, số lượng item có luật phổ biến số tương đối thấp so với tổng item có tồn giao dịch, vậy, tận dụng khả đọc nhanh columnar storage số cột làm tăng tốc độ thuật toán 3.3.5 Nhận xét Thuật toán Apriori song song thực theo mơ hình MIMD, song song hóa hồn tồn Các tiến trình chạy nhân vi xử lý, vi xử lý hay mở rộng máy tính cụm máy tính Về mặt lưu trữ, khóa luận đề xuất áp dụng phương pháp lưu trữ tiên tiến, phù hợp với tính chất thuật tốn 31 Chương 3: Hiện thực thuật tốn song song 3.4 Tổng quan cơng nghệ, khả tích hợp, mở rộng Hình sau minh họa hệ thống phân tán mà khóa luận xây dựng để kiểm thử độ hiệu thuật toán khóa luận: Hình 3.5: Hệ thống phân tán chạy thử thuật toán Apriori 32 Chương 3: Hiện thực thuật tốn song song Hình 3.6: Hệ thống phân tán chạy thử thuật tốn K-means, Dijkstra Trong đó: Mỗi node algorithm máy thực tác vụ tính tốn, chạy máy ảo Amazon EC2 (medium instance) – vCpu, 4Gb Ram Số lượng node tăng lên theo yêu cầu thời gian thực cách dễ dàng Mỗi node data source máy thực khả lưu trữ liệu Dữ liệu lưu định dạng khác nhau, file text, file XML, file Json, hệ thống tập tin phân tán theo chuẩn đại Hadoop, Avro, Parquet … Trong thử nghiệm chương 4, khóa luận chạy thử với cluster gồm node tính tốn node lưu trữ liệu 33 Chương 3: Hiện thực thuật toán song song Hệ thống thuật toàn triển khai Amazon Cloud, mở rộng từ vài đến hàng ngàn node cách dễ dàng để đáp ứng nhu cầu tính tốn cao Định dạng nguồn liệu thuật toán thực cách tổng qt, hệ thống thuật tốn đọc liệu từ tệp tin đơn giản, file Json, file Xml, đến hệ thống file phân tán hdfs hadoop framework, amazon S3, Microsoft Azure distributed file system 34 Chương 4: Chạy thử đánh giá thuật toán CHƯƠNG 4: CHẠY THỬ VÀ ĐÁNH GIÁ CÁC THUẬT TỐN 4.1 Dijkstra Khóa luận chạy thử với hai thí nghiệm, thí nghiệm thí nghiệm chạy lần để lấy kết trung bình làm kết cuối Trong thí nghiệm 1, so sánh tốc độ thực thi thuật toán Dijkstra song song thuật toán Dijkstra tuần tự, hệ thống chạy thử với xử lý, số lượng đỉnh tập liệu tăng dần qua thí nghiệm (50 đỉnh, 100 đỉnh, 150 đỉnh) Trong thí nghiệm 2, so sánh độ tăng tốc độ thuật toán Dijkstra song song thuật toán Dijkstra mở rộng số lượng vi xử lý, hệ thống chạy thử với liệu gồm 100 đỉnh, số lượng vi xử lý (core) tăng dần thí nghiệm (1 core, core, core) Hình sau minh họa kết hai thí nghiệm: 35 Chương 4: Chạy thử đánh giá thuật tốn Hình 4.1: Thuật tốn Dijkstra – thí nghiệm Hình 4.2: Thuật tốn Dijkstra – thí nghiệm 4.2 K-means Khóa luận chạy thử với hai thí nghiệm, thí nghiệm thí nghiệm chạy lần để lấy kết trung bình làm kết cuối Trong thí nghiệm 1, so sánh tốc độ thực thi thuật toán K-means song song thuật toán K-means tuần tự, hệ thống chạy thử với xử lý, số lượng điểm tập liệu tăng dần qua thí nghiệm (500 điểm, 1000 điểm, 1500 điểm) Trong thí nghiệm 2, so sánh độ tăng tốc độ thuật toán K-means song song thuật toán K-means mở rộng số lượng vi xử lý, hệ thống chạy thử với liệu gồm 1500 điểm, số lượng vi xử lý (core) tăng dần thí nghiệm (1 core, core, core) Hình sau minh họa kết hai thí nghiệm: 36 Chương 4: Chạy thử đánh giá thuật tốn Hình 4.3: Thuật tốn K-means – thí nghiệm 37 Chương 4: Chạy thử đánh giá thuật tốn Hình 4.4: Thuật tốn K-means – thí nghiệm 4.3 Apriori Khóa luận chạy thử với hai thí nghiệm, thí nghiệm thí nghiệm chạy lần để lấy kết trung bình làm kết cuối Trong thí nghiệm 1, so sánh tốc độ thực thi thuật toán Apriori song song thuật toán Apriori tuần tự, hệ thống chạy thử với xử lý, số lượng giao dịch tập liệu tăng dần qua thí nghiệm (1000 giao dịch, 4000 giao dịch, 8000 giao dịch) Trong thí nghiệm 2, so sánh độ tăng tốc độ thuật toán Apriori song song thuật toán Apriori mở rộng số lượng vi xử lý, hệ thống chạy thử với liệu gồm 8000 điểm, số lượng vi xử lý (core) tăng dần thí nghiệm (1 core, core, core) Hình sau minh họa kết hai thí nghiệm: 38 Chương 4: Chạy thử đánh giá thuật tốn Hình 4.5: Thuật tốn Apriori – Thí nghiệm 39 Chương 4: Chạy thử đánh giá thuật tốn Hình 4.6: Thuật tốn Apriori – Thí nghiệm 40 Chương 5: Kết luận CHƯƠNG 5: KẾT LUẬN 5.1 Kết khóa luận Tổng hợp kiến thức tổng quan tính tốn song song, thuật tốn song song hệ thống phân tán Hiện thực phiên song song thuật toán lĩnh vực khai phá liệu, nghiên cứu tìm hiểu cơng trình khoa học liên quan đến thuật tốn Tổng hợp thực nghiệm công nghệ đại lãnh vực hệ thống phân tán, tính tốn song song Các phiên thực thuật toán tuân theo chuẩn đại, mở rộng tích hợp dễ dàng với hệ thống khác 5.2 Hạn chế Các phiên song song thuật toán đơn giản, 1/3 phiên thuật tốn song song (Apriori) hệ thống song song thực (MIMD) Các thực thuật toán song song chưa đề xuất phương án học thuật mới, chủ yếu thực kết hợp thuật toán xuất lĩnh vực Kết thử nghiệm chưa chạy thử với cấu hình phân tán cao với số lượng lớn máy tính 41 TÀI LIỆU THAM KHẢO [1] R Agrawal and J C Shafer Parallel mining of association rules IEEE Trans On Knowledge and Data Engineering, 8:962–969, 1996 [2] R Agrawal and R Srikant Fast Algorithms for Mining Association Rules In J B Bocca, M Jarke, and C Zaniolo, editors, Proc 20th Int Conf Very Large Data Bases, VLDB, pages 487–499 Morgan Kaufmann, 1994 [3] Grid’5000: A Large Scale, Reconfigurable, Controlable and Monitorable Grid Platform In GRID 2005, 6th IEEE/ACM international workshop on Grid Computing SuperComputing, 2005 [4] M Z Ashrafi, D Taniar, and K A Smith ODAM: An Optimized Distributed Association Rule Mining Algorithm IEEE Distributed Systems Online, 5(3), 2004 [5] L M Aouad, N.-A Le-Khac, and T M Kechadi Grid-based approaches for distributed data mining applications In DCABES 2007, the sixth International Conference on Distributed Computing and Applications for Business, Engineering and Sciences., 2007 [6] Dijkstra, E W (1959) "A note on two problems in connexion with graphs," Numerische Mathematik 1: 269–271 doi:10.1007/BF01386390 [7] A Crauser, K Mehlhorn, U Meyer, P Sanders, “A parallelization of Dijikstra’s shortest path algorithm”, in Proc of MFCS’98, pp 722-731, 1998 [8] Y Tang, Y Zhang, H Chen, “A Parallel Shortest Path Algorithm Based on GraphPartitioning and Iterative Correcting”, in Proc of IEEE HPCC’08, pp 155161, 2008 [9] M.-F Balcan, A Blum, S Fine, and Y Mansour Distributed learning, communication complexity and privacy In Proceedings of the Conference on Learning Thoery, 2012 [10] J Considine, F Li, G Kollios, and J Byers Approximate aggregation techniques for sensor databases In Proceedings of the International Conference on Data Engineering, 2004 [11] S Dutta, C Gianella, and H Kargupta K-means clustering over peer-topeer networks In Proceedings of the International Workshop on High Performance and Distributed Mining, 2005 [12] Ian Foster The Grid CLUSTERWORLD [13] Cao Tùng Anh Cơ sở liệu phân tán [14] Bart Jacob How Grid infrastructure affects application design, RedBooks 42 ... là: thuật toán phân cụm k-Means, thuật toán khai thác luật kết hợp Apriori, thuật tốn khai phá liệu đồ thị - tìm đường ngắn Dijkstra Các hệ thống phân tán xây dựng theo chuẩn đại hệ thống phân tán, ... tốn dẫn tới việc phân tán nguồn liệu tất yếu Và với phát triển thuật tốn khai phá liệu phân tán Mặc dù có số thuật toán khai phá luật kết hợp sở liệu phân tán đề xuất, để đáp ứng nhu cầu ngày... thiệu Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực Đặc biệt, năm gần với số lượng liệu vượt khả xử lý hệ thống sở liệu truyền thống việc khai phá xử lý liệu lớn cách hiệu thách thức thực Trong khai