(Luận văn) kết hợp r và hadoop trong khai phá dữ liệu

87 1 0
(Luận văn) kết hợp r và hadoop trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG, BIỂU DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ MỞ ĐẦU 1 Lý chọn đề tài Tổng quan tình hình nghiên cứu đê tài lu an Mục tiêu nhiệm vụ nghiên cứu n va Đối tƣợng phạm vi nghiên cứu tn to Phƣơng pháp nghiên cứu gh CHƢƠNG KIẾN THỨC TỔNG QUAN p ie 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU nl w 1.1.1 Giới thiệu chung 1.1.2 Khai phá liệu oa d 1.1.3 Các bƣớc trình khám phá tri thức an lu 1.1.4 Các kỹ thuật Khai phá liệu va 1.1.5 Những thách thức Khai phá liệu 18 oi lm ul nf 1.1.6 Ứng dụng khai phá liệu 19 1.2 KHAI PHÁ DỮ LIỆU BẰNG CÔNG CỤ R 20 nh 1.2.1 Giới thiệu công cụ R 20 at 1.2.2 R khai phá liệu 22 z z 1.3 DỮ LIỆU LỚN 25 gm @ 1.3.1 Khái niệm Dữ liệu lớn 25 1.3.2 Đặc trƣng Dữ liệu lớn 26 l.c om 1.3.3 Sự khác biệt liệu lớn liệu truyền thống 28 Lu 1.3.4 Ứng dụng liệu lớn lĩnh vực 29 an 1.3.5 Những thách thức liệu lớn 31 n va ac th si 1.3.6 Hạn chế R liệu lớn 32 1.4 MƠ HÌNH LẬP TRÌNH MAPREDUCE 32 1.4.1 Hoạt động MapReduce 33 1.4.2 Ƣu nhƣợc điểm MapReduce 36 1.4.3 Apache Hadoop Framework 36 1.5 KẾT LUẬN CHƢƠNG 43 CHƢƠNG KẾT HỢP R VÀ HADOOP TRONG KHAI PHÁ DỮ LIỆU 44 2.1 TẠI SAO PHẢI KẾT HỢP R VÀ HADOOP 44 2.2 CÁC CÁCH KẾT HỢP R VÀ HADOOP 46 lu an 2.2.1 R Streaming 48 n va 2.2.2 RHipe 49 tn to 2.2.3 RHadoop 50 2.3 KẾT HỢP R VỚI HADOOP BẰNG RMR2 51 gh p ie 2.2.1 Cài đặt RHadoop 52 2.2.2 Các gói thƣ viện hỗ trợ mơ hình lập trình MapReduce R 53 nl w 2.4 CÁCH VIẾT CHƢƠNG TRÌNH R SỬ DỤNG RHADOOP 56 oa 2.5 THỰC THI CHƢƠNG TRÌNH MAPREDUCE TỪ R 58 d an lu 2.6 MINH HỌA MỘT SỐ CHƢƠNG TRÌNH R THEO MƠ HÌNH va MAPREDUCE 60 oi lm ul nf 2.7 KẾT LUẬN CHƢƠNG II 62 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 63 3.1 THUẬT TOÁN KMEANS ÁP DỤNG HADOOP MAPREDUCE nh at TRÊN R 63 z 3.2 THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ 65 z gm @ 3.2.1 Thực nghiệm 65 3.2.2 Thực nghiệm 71 l.c KẾT LUẬN 75 om DANH MỤC TÀI LIỆU THAM KHẢO 77 Lu an n va ac th si BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN CAO MINH THƢỞNG lu an n va KẾT HỢP R VÀ HADOOP TRONG KHAI PHÁ DỮ LIỆU tn to gh Chuyên ngành: Khoa học máy tính ie p Mã số: 8.48.01.01 oa nl w d va an lu oi lm ul nf Ngƣời hƣớng dẫn : TS Trần Thiên Thành at nh z z om l.c gm @ Lu an n va ac th si LỜI CẢM ƠN Trƣớc tiên em xin chân thành cảm ơn Thầy TS.Trần Thiên Thành tận tình hƣớng dẫn, bảo em thời gian qua Em xin bày tỏ lịng biết ơn tới Thầy Cơ giáo khoa Cơng nghệ thơng tin nói riêng Trƣờng Đại học Quy Nhơn nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trƣờng Em gửi lời cảm ơn tới gia đình, bạn bè, ngƣời cổ vũ, lu an quan tâm giúp đỡ em suốt thời gian học tập nhƣ làm luận văn n va Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi tn to thiếu sót định Em mong nhận đƣợc góp ý quý báu gh Thầy Cô bạn p ie oa nl w d oi lm ul nf va an lu at nh z z om l.c gm @ Lu an n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn sản phẩm riêng cá nhân tơi Trong tồn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm theo quy định cho lời cam đoan Quy nhơn, ngày 30 tháng năm 2019 lu an Ngƣời cam đoan n va tn to gh Cao Minh Thƣởng p ie oa nl w d oi lm ul nf va an lu at nh z z om l.c gm @ Lu an n va ac th si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT tự tắt KPDL Khai phá liệu CSDL Cơ sở liệu KDD Knowlegde Discovery in Database Khai phá tri thức HDFS Hadoop Distributed File System KHDL Khoa học liệu CDR Call Detail Record WHO World Health Organization lu Từ viết gh Tên đầy đủ Số thứ Ý nghĩa Hệ thống tệp phân tán Hadoop an n va Phân tích chi tiết tn to gọi Tổ chức y tế giới p ie nl w ORCH Phƣơng thức kết Oracle R Connector for Hadoop oa hợp R Hadoop d oi lm ul nf va an lu at nh z z om l.c gm @ Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu DANH MỤC CÁC BẢNG, BIỂU Bảng 1.1 Các thƣ viện hỗ trợ phân lớp R 22 Bảng 1.2 Các hàm, thƣ viện hỗ trợ phân cụm R 22 Bảng 1.3 Các hàm, thƣ viện hỗ trợ khai phá luật kết hợp R 23 Bảng 1.4 Các thƣ viện hỗ trợ khai phá văn R 23 Bảng 1.5 Các hàm, thư viện hỗ trợ phân tích chuỗi thời gian R 24 Bảng 1.6 Các hàm, thƣ viện hỗ trợ phân tích mạng xã hội R 24 Bảng 1.7 Các thƣ viện hỗ trợ xử lý Big Data R 24 lu an Bảng 2.1 Các gói thƣ viện tƣơng tác R Hadoop 51 n va Bảng 2.2 Các thao tác thƣ viện rhdfs 53 tn to Bảng 2.3 Các tham số hàm MapReduce thƣ viện rmr2 54 gh Bảng 2.4 Các tham số hàm keyval thƣ viện rmr2 55 p ie Bảng 2.5 Các tham số hàm to.dfs from.dfs thƣ viện rmr2 55 nl w Bảng 2.6 Các tham số hàm to.map to.reduce thƣ viện rmr2 56 oa Bảng 3.1 Thời gian chạy Kmeans Kmeans Hadoop MapReduce d máy máy với liệu Twitter 66 an lu Bảng 3.2 Thời gian chạy Kmeans Kmeans Hadoop MapReduce va oi lm ul nf máy máy với liệu Train 67 Bảng 3.3 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Phones_gyroscope 68 nh at Bảng 3.4 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop z z MapReduce với liệu Twitter 70 gm @ Bảng 3.5 Thời gian chạy Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 72 l.c om Bảng 3.6 Chỉ số chất lƣợng phân cụm Kmeans Hadoop MapReduce Lu tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 73 an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Hình 1.1 Các bƣớc trình khám tri thức [13] Hình 1.2 Giao diện mơi trƣờng làm việc R Ubuntu 21 Hình 1.3 Giao diện mơi trƣờng làm việc RStudio Server Ubuntu 22 Hình 1.4 Đặc trƣng 5Vs Dữ liệu lớn 26 Hình 1.5 Quá trình thực thi MapReduce [15] 35 Hình 1.6 Thành phần Hadoop 1: HDFS MapReduce [10] 37 Hình 1.7 Thành phần Hadoop [10] 37 lu an Hình 1.8 Mô tả cách chia khối HDFS 40 n va Hình 1.9 Cách thức hoạt động HDFS 41 tn to Hình 1.10 Cách thức hoạt động MapRedcue Hadoop 42 gh Hình 2.1 Hadoop cơng cụ phân tích liệu 47 p ie Hình 2.2 Định dạng liệu CEnetBig 57 Hình 3.1 Quá trình thực phân cụm Kmeans Hadoop Reduce 63 nl w oa Hình 3.2 Sơ đồ thể thuật toật xác định k tâm Hadoop Mapreduce 64 d Hình 3.3 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce an lu máy máy với liệu Twitter 66 va oi lm ul nf Hình 3.4 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy với liệu Train 67 Hình 3.5 Biểu đồ chất lƣợng phân cụm Kmeans Kmeans HM với nh at liệu Twitter 70 z Hình 3.6 Biểu đồ tốc độ Kmeans Hadoop MapReduce tăng số z gm @ lƣợng mẫu đại diện cho tập với liệu Twitter 72 Hình 3.7 Biểu đồ chất lƣợng phân cụm Kmeans Hadoop MapReduce l.c om tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 73 Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Ngày lƣợng liệu ngày nhiều trở thành thách thức khai phá liệu Khai phá liệu mang lại nhiều lợi ích kinh tế, xã hội đặt biệt đƣợc doanh nghiệp ứng dụng để mang lại hiệu kinh doanh Dữ liệu ngày lớn đặt thách thức hệ quản trị sở liệu việc lƣu trữ, xử lý phân tích liệu lu R công cụ mã nguồn mở đƣợc dùng phổ biến việc an phân tích xử lý liệu Tuy nhiên công cụ R gặp nhiều khó khăn xử lý n va liệu lớn to tn Hadoop tảng mã nguồn mở đƣợc xây dựng để tổ chức lƣu trữ gh xử lý liệu lớn Trong Hadoop bao gồm HDFS (Hadoop Distributed File ie p System) dùng để quản lý file phân tán, MapReduce dùng để lập trình xử lý nl w song song liệu phân tán, sở liệu Hbase dùng để lƣu trữ đƣợc oa liệu lớn hệ thống phân tán HDFS,… d an lu Với mong muốn tăng cƣờng khả phân tích xử lý liệu R oi lm ul nf va nên chọn đề tài “Kết hợp R với Hadoop Khai phá liệu” TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ĐÊ TÀI nh Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông at tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua z z đồng nghĩa với lƣợng liệu đƣợc quan thu thấp lƣu trữ ngày gm @ tích lũy nhiều lên Họ lƣu trữ liệu cho ẩn chứa l.c giá trị định Tuy nhiên, theo thống kê có lƣợng om nhỏ liệu (khoảng từ 5% đến 10%) ln đƣợc phân tích, số Lu cịn lại họ khơng biết phải làm làm với chúng nhƣng họ an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu tiếp tục thu thập lƣợng liệu với ý nghĩ lo sợ có quan trọng bị bỏ qua, sau có lúc cần đến Mặt khác, mơi trƣờng cạnh tranh, ngƣời ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Với lý nhƣ vậy, phƣơng pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng đƣợc cần phải thay kỹ thuật Khai phá liệu (Data Mining - KPDL) lu Khai phá liệu đƣợc nghiên cứu, ứng dụng nhiều lĩnh an n va vực khác nƣớc giới, Việt Nam kỹ thuật đƣợc nghiên cứu đƣa vào ứng dụng nhiều lĩnh vực từ kinh doanh đến tn to tài chính, nghiên cứu khoa học, Khai phá liệu, giúp ngƣời sử dụng thu đƣợc gh p ie tri thức hữu ích từ sở liệu (Database - CSDL) nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới oa nl w ứng dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn d an lu Năm 1996, hai nhà thống kê học Ross Ihaka Robert Gentlan phác họa nf va ngôn ngữ cho phân tích thống kê đƣợc đặt tên R Theo [3] “Về chất, oi lm ul R ngôn ngữ lập trình, sử dụng cho nhiều mục đích, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân at nh tích thống kê phức tạp” Việc hƣớng đến mã nguồn mở, miễn phí R nhanh z chóng phát triển vƣợt qua phần mềm thống kê xuất trƣớc z gm @ Hadoop framework mã nguồn mở Apache phát triển để lƣu trữ, thao tác liệu lớn sử dụng mơ hình lập trình MapReduce Theo [27][28], phát triển kỹ thuật khai phá liệu lớn R om l.c có thƣ viện để tích hợp Hadoop MapReduce R sở để Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 65 xử lý song song k' tâm điểm đại diện cho tập liệu đầu vào hàm Map Tập đại diện có kích thƣớc n*k' phần tử, phải đảm bảo không vƣợt khả xử lý Node Chúng chọn số lƣợng mẫu 2*k tâm thực nghiệm Hàm Reduce nhận kết từ hàm Map, thực thuật toán K-means để xác định k tâm [4] THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ 3.2 Dƣới làm thực nghiệm lu Thực nghiệm 1: So sánh đánh giá thuật toán Kmeans thuật tốn an Kmeans áp dụng mơ hình Hadoop MapReduce R (tham khảo [4]) n va Thực nghiệm 2: So sánh đánh giá thuật toán Kmean Hadoop tn to MapReduce ta tăng số lƣợng mẫu đại diện cho tập gh p ie 3.2.1 Thực nghiệm nl w Ở thực nghiệm 1, tơi thực nghiệm thuật tốn máy tính Core Duo oa E8400 3.00GHz, Ram 4GB, hệ điều hành Ubuntu 14.04, Hadoop 2.7.3, R 3.3.3 d an lu Bộ liệu thực nghiệm gồm có Buzz in social media Data Set (Twitter) 583.249 thƣớc 270,13MB; Repeat Consumption va điểm 78 thuộc tính với kích oi lm ul nf Matrices Data Set (Train) 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB; Heterogeneity Activity Recognition Data Set (Phones_gyroscope) UCI Machine Repository z l.c gm @ Đánh giá tốc độ Learning z http://archive.ics.uci.edu/ml/index.php at tải nh 13.932.632 điểm 10 thuộc tính với kích thƣớc 1,28 GB Các liệu đƣợc om Để đánh giá tốc độ thuật tốn, tơi tiến hành thực nghiệm so sánh thuật Lu toán Kmeans Hadoop MapReduce với thuật toán K-means cổ điển an máy (1MasterNode 2NameNode) máy (1MasterNode NameNode) n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 66 với liệu: Twitter, Train Phones_gyroscope Đối với thuật tốn Kmeans Hadoop MapReduce, tơi thực nghiệm với số lƣợng mẫu đại diện cho tập liệu 2*k tâm Với liệu Twitter 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB Bảng 3.1 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter lu Kmeans Hadoop MapReduce (Trên máy với 1MasterNode 2NameNode) MapReduce (Trên máy với 1MasterNode 4NameNode) K Kmeans 356,753s 135,659s 78,841s 10 392,449s 449,194s 551,143s 143,713s 147,253s 147,509s 82,146s 85,475s 85,744s 153,827s 158,590s 87,503s 88,524s an n va Kmeans Hadoop tn to gh p ie oa nl w 631,074s 767,965s d oi lm ul nf va an lu at nh z z gm @ om l.c Hình 3.3 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter Qua thực nghiệm với liệu Twitter, ta thấy thời gian Lu an thực thuật toán Kmeans Hadoop MapReduce giảm đáng kể so với thời gian n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 67 thực thuật toán K-means cổ điển máy máy Đồng thời ta thấy đƣợc tăng số lƣợng máy từ máy lên máy thời gian thực đƣợc rút ngắn lại nhiều Bây ta thử thực nghiệm với liệu lớn liệu Train Với liệu Train 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB Bảng 3.2 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Train lu an n va K Kmeans Kmeans Hadoop MapReduce (Trên máy MapReduce (Trên với 1MasterNode máy với 1MasterNode 2NameNode) 4NameNode) Null 442,514s 266,209s Null 453,976s 271,631s Null 477,425s 275,280s Null 486,388s 276,216s oa 492,590s 284,561s 525,833s 294,119s gh ie tn to Kmeans Hadoop p nl w Null 10 Null d oi lm ul nf va an lu at nh z z gm @ om l.c Hình 3.4 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy với liệu Train Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 68 Qua thực nghiệm với liệu Train, ta thấy Thuật tốn Kmeans cổ điển khơng thực đƣợc cấp phát nhớ khơng đủ Đồng thời ta thấy đƣợc tăng số lƣợng máy từ máy lên máy thời gian thực đƣợc rút ngắn lại nhiều Từ liệu Twitter Train ta thấy đƣợc, xử lý lớn thời gian thực tăng theo Bây ta thử thực nghiệm liệu lớn với liệu Phone_goscone lu Với liệu Phones_gyroscope 13.932.632 điểm 10 thuộc tính với kích an n va thƣớc 1,28 GB tn to Bảng 3.3 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Phones_gyroscope Kmeans Hadoop MapReduce (Trên máy MapReduce (Trên với 1MasterNode máy với 1MasterNode 2NameNode) 4NameNode) Không Không thực thực gh Kmeans Hadoop p ie Kmeans oa nl w K d đƣợc đƣợc đƣợc at 10 nh thực oi lm ul nf Không va an lu z z gm @ Ta thấy đƣợc tăng lƣợng liệu lớn (bộ liệu Phones_gyroscope), Kmeans cổ điển Kmeans Hadoop om l.c MapReduce với máy máy không chạy đƣợc kết cấp phát nhớ khơng đủ lƣợng liệu vƣợt khả xử lý 1Node Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 69 Đánh giá chất lƣợng Việc đánh giá chất lƣợng phân cụm khó khăn Theo [4], có loại độ đo chất lƣợng phân cụm: đánh giá (internal evaluation), đánh giá (external evaluation), đánh giá quan hệ (relative evalution) Để so sánh chất lƣợng phân cụm hai thuật tốn, tơi sử dụng số Davies-Bouldin (DBI) kỹ thuật đánh giá (đƣợc David L Davies Donald W Bouldin đƣa vào năm 1979) xác nhận tính hợp lệ việc phân cụm đƣợc thực cách sử dụng số liệu đặc tính vốn có liệu lu Chỉ số Davies-Bouldin đƣợc tính theo cơng thức: an n va ( ) tn to ∑ gh p ie Trong đó: nl w + n số cụm + cx trọng tâm cụm x oa d + σx trung bình khoảng cách tất phần tử cụm x tới trọng tâm va an lu cx + d(ci,cj) khoảng cách hai trọng tâm cụm i j nf oi lm ul Giá trị DBI nhỏ chất lƣợng phân cụm tốt Để đánh giá chất lƣợng phân cụm thuật tốn, tơi tiến hành thực at nh nghiệm so sánh thuật toán K-means cổ điển với thuật toán Kmeans Hadoop z MapReduce máy (1MasterNode 2NameNode) máy (1MasterNode z gm @ NameNode) với liệu: Twitter, Train Phones_gyroscope 270,13MB om l.c Với liệu Twitter 583.249 điểm 78 thuộc tính với kích thƣớc Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 70 Bảng 3.4 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop MapReduce với liệu Twitter K Kmeans Kmeans Hadoop MapReduce 1,002665 0,6098392 1,027724 0,8799377 1,135387 0,9366521 1,091517 0,891491 1,156139 0,937796 10 1,253712 1,039523 lu an n va tn to gh p ie oa nl w d va an lu oi lm ul nf Hình 3.5 Biểu đồ chất lƣợng phân cụm Kmeans Kmeans HM với liệu Twitter at nh z z om l.c gm @ Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 71 Với liệu Train 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB liệu Phones_gyroscope 13.932.632 điểm 10 thuộc tính với kích thƣớc 1,28 GB Bảng 3.5 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop MapReduce với liệu Train Phone_gyroscope K Kmeans Kmeans Hadoop MapReduce Không Không thực thực hiện đƣợc đƣợc lu an n va to tn 10 gh p ie Qua thực nghiệm, với liệu Twitter ta thấy số DBI nl w thuật toán Kmeans Hadoop MapReduce thấp Kmeans cổ điển Chứng tỏ thuật toán cải tiến Kmeans Hadoop MapReduce có chất lƣợng phân cụm oa d tốt K-means Nhƣng ta thực nghiệm liệu lớn Train lu an Phone_gyrpe ta khơng chạy đƣợc kết số DBI lƣợng vƣợt oi lm ul nf va khả xử lý 1Node 3.2.2 Thực nghiệm at nh Ở thực nghiệm 2, tơi thực nghiệm thuật tốn máy tính Core Duo z E8400 3.00GHz, hệ điều hành Ubuntu 14.04, Hadoop 2.7.3, R 3.3.3 Bộ liệu z gm @ thực nghiệm Buzz in social media Data Set (Twitter) 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB Bộ liệu đƣợc tải UCI Machine om l.c Learning Repository http://archive.ics.uci.edu/ml/index.php Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 72 Đánh giá tốc độ Để đánh giá tốc độ thuật toán, tơi tiến hành thực nghiệm so sánh thuật tốn Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt 2*k tâm, 3*k tâm, 4*k tâm, 5*k tâm, máy (1MasterNode NameNode) với liệu: Twitter Bảng 3.6 Thời gian chạy Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter lu an n va tn to 2*ktam 3*ktam 4*ktam 5*ktam 78,841s 82,146s 85,197s 86,022s 81,897s 83,911s 83,515s 87,354s 85,475s 85,744s 87,503s 88,524s 86,287s 88,723s 89,074s 92,647s 84,599s 86,057s 90,364s 91,429s 87,769s 87,859s 89,545s 90,277s gh K p ie 10 oa nl w d oi lm ul nf va an lu at nh z z gm @ Hình 3.6 Biểu đồ tốc độ Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại l.c diện cho tập với liệu Twitter om Qua thực nghiệm với liệu Twitter, ta thấy thời gian Lu thực thuật toán Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại an diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k lƣợng n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 73 thời gian tăng dần theo ta tăng số lƣợng mẫu đại diện tập con, cho dù thay đổi không qua lớn Đánh giá chất lƣợng Để đánh giá chất lƣợng thuật tốn, tơi tiến hành thực nghiệm so sánh thuật toán Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt 2*k tâm, 3*k tâm, 4*k tâm, 5*k tâm, máy (1MasterNode NameNode) với liệu: Twitter Bảng 3.7 Chỉ số chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter lu 3*ktam 4*ktam 5*ktam 0,6098392 0,6190088 0,6278463 0,6251682 0.8799377 0,8823779 0,8761086 0,8589957 0,9366521 0,9373436 0,9359596 0,8196449 0,891491 0,8872345 0,8860482 0,8556716 0,937796 0,9354825 0,916741 0,9349708 1,039523 1,035517 1,017023 1,058182 n va 2*ktam gh an K tn to oa nl w 10 p ie d oi lm ul nf va an lu at nh z z om l.c gm @ Lu Hình 3.7 Biểu đồ chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 74 Qua thực nghiệm với liệu Twitter, ta thấy số DBI thuật toán Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k số DBI giảm dần theo ta tăng số lƣợng mẫu đại diện tập con, thay đổi nhỏ Ở thực nghiệm ta thấy đƣợc tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k chất lƣợng phân cụm tốt dần theo nhƣng lƣợng thời gian thực thi tăng theo lu an n va tn to gh p ie oa nl w d oi lm ul nf va an lu at nh z z om l.c gm @ Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 75 KẾT LUẬN Mơ hình lập trình MapReduce đời mở hƣớng để cải tiến thuật toán làm việc với tập liệu lớn Đặc biệt thuật tốn tìm kiếm khai phá liệu, lĩnh vực đặt yêu cầu khắt khe tốc độ xử lý với đầu vào lớn R công cụ, ngôn ngữ lập trình độc đáo, năm 2011 Revolution Analytics phát triển tập gói thƣ viện giúp R có khả tƣơng tác với Hadoop Để có đánh giá khả R tích hợp với MapReduce, định chọn đề tài “Kết hợp R Hadoop lu Khai phá liệu” Đến nay, luận văn đạt đƣợc số kết cụ thể an n va hƣớng phát triển nhƣ sau: tn to Về kết đạt đƣợc: gh - Trình bày khái quát trình khám phá tri thức, khai phá liệu p ie hƣớng đƣợc tập trung nghiên cứu khai phá liệu nl w Thuật toán kinh điển phân cụm kết số nghiên cứu vài năm trở lại oa d - Giới thiệu R, ƣu nhƣợc điểm, khái niệm R, cách thức lu va an khai phá liệu R chế R liệu lớn oi lm ul nf - Giới thiệu dƣ liệu lớn, khái niệm liệu lớn hạn - Giới thiệu MapReduce, cách thức hoạt động, ƣu nhƣợc điểm mơ nh at hình nhƣ Hadoop Framework mã nguồn mở tảng z MapReduce z gm @ - Giới thiệu cách kết hợp Hadoop vào R, cài đặt thuật toán Kmeans cổ điển Kmeans cải tiến áp dụng mơ hình lập trình MapReduce R Lu thuật tốn phân cụm đƣợc trình bày luận văn om l.c - Sử dụng liệu phân cụm sẵn có để thực nghiệm đánh giá an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 76 Về hƣớng phát triển: - Trong luận văn sử dụng liệu có sẵn để thực nghiệm đánh giá thuật tốn Trong tƣơng lai, tơi nghiên cứu tận dụng khả xử lý liệu R để thực nghiệm liệu thực tế - Nghiên cứu đƣa đánh giá ƣu nhƣợc điểm việc kết hợp mơ hình lập trình MapReduce với R so với kết hợp mơ hình lập trình MapReduce với ngơn ngữ khác - Tìm hiểu, nghiên cứu cải tiến thuật toán phân cụm, phân lớp, lu khai phá luật kết hợp khai phá liệu áp dụng mơ hình lập trình an n va MapReduce Kmeans áp dụng mơ hình lập trình MapReduce đăng lên trang web thức tn to - Chuẩn hóa hồn thiện cài đặt, xây dựng gói thƣ viện Kmeans gh p ie R để ngƣời đóng góp ý kiến, xây dựng sử dụng chúng oa nl w d oi lm ul nf va an lu at nh z z om l.c gm @ Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 77 DANH MỤC TÀI LIỆU THAM KHẢO Lê Thị Việt Hoa (2008), “Khai phá liệu thuật toán khai phá luật [1] kết hợp song song” Luận văn thạc sĩ, Trƣờng Đại học Thái Nguyên Vũ Lan Phƣơng (2006), “Nghiên cứu cài đặt số giải thuật phân [2] cụm, phân lớp”, Khoa Công nghệ thông tin, Đại học Bách Khoa Hà Nội Nguyễn Văn Tuấn (2006), “Phân tích liệu tạo biểu đồ R”, [3] Trƣờng Đại học Quy Nhơn, NXB Khoa học kỹ thuật Nguyễn Thị Tuyết, Trần Hoàng Việt, Trần Thiên Thành, (12/2017), “Một lu [4] an n va cải tiến thuật toán -means song song sử dụng phương pháp lấy mẫu”, to Kỷ yếu Hội thảo quốc gia Công nghệ thông tin amp; ứng dụng tn lĩnh vực lần thứ 6, trang 196-203 gh Tổng hợp theo Kỷ yếu Hội thảo khoa học, (07/10/2015), “Thống kê Nhà p ie [5] nl w nước với Dữ liệu lớn”, Trung tâm Thông tin Khoa học thống kê, Viện Khoa học thống kê oa Agrawal R and Srikant R (1994), “Fast algorithm for mining d [6] lu va an associantion rules in large databases”, VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases, Pages 487-499 nf Bogdan Oancea, Raluca Mariana Dragoescu, (2014), “Integrating R and oi lm ul [7] Hadoop for Big Data Analysis”, Nicolae Titulescu University of nh Bucharest, The Bucharest University of Economic Studies at Crawley M.J, (2005), “Statistics: An Introduction using R”, Wiley [9] G Piatetsky, Kdnuggets polls, “Primary programming language for z [8] z Data gm @ Analytics Mining” at om l.c http://www.kdnuggets.com/polls/index.html Available [10] Garry Turkington, Gabriele Modena, (2015), Boo : “Learning Hadoop Lu an 2”, Published by Packt Publishing Ltd., pp 8-16 n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu 78 [11] Ihaka R and Gentleman R, (1996): “R: A language for data analysis and graphics”, Journal of Computational and Graphical Statistics, 5(3): 299314 [12] Information on See5/C5.0, (2011), “RuleQuest Research Data Mining Tools”, Available at: http://www.rulequest.com/see5-info.html [13] Jiawei Han, Micheline Kamber (2006), “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers [14] J A Hartigan and M A Wong, (1979), “A K-means clustering lu algorithm”, Applied Statistics, Vol 28, pp 100-108 an n va [15] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: “Simlified Data Processing on Large Clusters”, OSDI 2004 tn to [16] L Breiman, J.H Friedman, R Olshen and C.J Stone, (1984), gh p ie “Classification and Regression Trees”, Wadsworth International Group, Belmont, California oa nl w [17] Maindonald J and Braun J., (2003), “Data Analysis and Graphics Using R”, Cambridge University Press d an lu [18] Qiankun Zhao, Sourav S Bhowmick, “Association Rule Mining: A nf va Survey” oi lm ul [19] 12.Revolution Analytics (2011), Leveraging R in Hadoop Environments [20] Spector P., (2004): “An Introduction to R”, Statistical Computing at nh Facility, University of California, Berkeley z [21] 13.Tom White (2015), “Hadoop The Definitive Guide, 4th Edition”, z gm @ O’Reilly [22] T Mitchell, Vol 42 (1999), “Machine Learning and Data Mining”, om l.c Communications of the ACM, No 11, pp 30-36 Lu an n va ac th (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu si (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu (Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu(Luận.văn).kết.hợp.r.và.hadoop.trong.khai.phá.dữ.liệu

Ngày đăng: 28/10/2023, 22:00

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan