1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Kết hợp r và hadoop trong khai phá dữ liệu

87 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 2,7 MB

Nội dung

MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG, BIỂU DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ MỞ ĐẦU 1 Lý chọn đề tài Tổng quan tình hình nghiên cứu đê tài Mục tiêu nhiệm vụ nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu CHƢƠNG KIẾN THỨC TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Giới thiệu chung 1.1.2 Khai phá liệu 1.1.3 Các bƣớc trình khám phá tri thức 1.1.4 Các kỹ thuật Khai phá liệu 1.1.5 Những thách thức Khai phá liệu 18 1.1.6 Ứng dụng khai phá liệu 19 1.2 KHAI PHÁ DỮ LIỆU BẰNG CÔNG CỤ R 20 1.2.1 Giới thiệu công cụ R 20 1.2.2 R khai phá liệu 22 1.3 DỮ LIỆU LỚN 25 1.3.1 Khái niệm Dữ liệu lớn 25 1.3.2 Đặc trƣng Dữ liệu lớn 26 1.3.3 Sự khác biệt liệu lớn liệu truyền thống 28 1.3.4 Ứng dụng liệu lớn lĩnh vực 29 1.3.5 Những thách thức liệu lớn 31 1.3.6 Hạn chế R liệu lớn 32 1.4 MƠ HÌNH LẬP TRÌNH MAPREDUCE 32 1.4.1 Hoạt động MapReduce 33 1.4.2 Ƣu nhƣợc điểm MapReduce 36 1.4.3 Apache Hadoop Framework 36 1.5 KẾT LUẬN CHƢƠNG 43 CHƢƠNG KẾT HỢP R VÀ HADOOP TRONG KHAI PHÁ DỮ LIỆU 44 2.1 TẠI SAO PHẢI KẾT HỢP R VÀ HADOOP 44 2.2 CÁC CÁCH KẾT HỢP R VÀ HADOOP 46 2.2.1 R Streaming 48 2.2.2 RHipe 49 2.2.3 RHadoop 50 2.3 KẾT HỢP R VỚI HADOOP BẰNG RMR2 51 2.2.1 Cài đặt RHadoop 52 2.2.2 Các gói thƣ viện hỗ trợ mơ hình lập trình MapReduce R 53 2.4 CÁCH VIẾT CHƢƠNG TRÌNH R SỬ DỤNG RHADOOP 56 2.5 THỰC THI CHƢƠNG TRÌNH MAPREDUCE TỪ R 58 2.6 MINH HỌA MỘT SỐ CHƢƠNG TRÌNH R THEO MƠ HÌNH MAPREDUCE 60 2.7 KẾT LUẬN CHƢƠNG II 62 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 63 3.1 THUẬT TOÁN KMEANS ÁP DỤNG HADOOP MAPREDUCE TRÊN R 63 3.2 THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ 65 3.2.1 Thực nghiệm 65 3.2.2 Thực nghiệm 71 KẾT LUẬN 75 DANH MỤC TÀI LIỆU THAM KHẢO 77 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN CAO MINH THƢỞNG KẾT HỢP R VÀ HADOOP TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 Ngƣời hƣớng dẫn : TS Trần Thiên Thành LỜI CẢM ƠN Trƣớc tiên em xin chân thành cảm ơn Thầy TS.Trần Thiên Thành tận tình hƣớng dẫn, bảo em thời gian qua Em xin bày tỏ lịng biết ơn tới Thầy Cơ giáo khoa Cơng nghệ thơng tin nói riêng Trƣờng Đại học Quy Nhơn nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trƣờng Em gửi lời cảm ơn tới gia đình, bạn bè, ngƣời cổ vũ, quan tâm giúp đỡ em suốt thời gian học tập nhƣ làm luận văn Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Em mong nhận đƣợc góp ý quý báu Thầy Cô bạn LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn sản phẩm riêng cá nhân Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm theo quy định cho lời cam đoan Quy nhơn, ngày 30 tháng năm 2019 Ngƣời cam đoan Cao Minh Thƣởng DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên đầy đủ Số thứ Từ viết Ý nghĩa tự tắt KPDL Khai phá liệu CSDL Cơ sở liệu KDD Knowlegde Discovery in Database Khai phá tri thức HDFS Hadoop Distributed File System KHDL Khoa học liệu CDR Call Detail Record WHO World Health Organization ORCH Oracle R Connector for Hadoop Hệ thống tệp phân tán Hadoop Phân tích chi tiết gọi Tổ chức y tế giới Phƣơng thức kết hợp R Hadoop DANH MỤC CÁC BẢNG, BIỂU Bảng 1.1 Các thƣ viện hỗ trợ phân lớp R 22 Bảng 1.2 Các hàm, thƣ viện hỗ trợ phân cụm R 22 Bảng 1.3 Các hàm, thƣ viện hỗ trợ khai phá luật kết hợp R 23 Bảng 1.4 Các thƣ viện hỗ trợ khai phá văn R 23 Bảng 1.5 Các hàm, thư viện hỗ trợ phân tích chuỗi thời gian R 24 Bảng 1.6 Các hàm, thƣ viện hỗ trợ phân tích mạng xã hội R 24 Bảng 1.7 Các thƣ viện hỗ trợ xử lý Big Data R 24 Bảng 2.1 Các gói thƣ viện tƣơng tác R Hadoop 51 Bảng 2.2 Các thao tác thƣ viện rhdfs 53 Bảng 2.3 Các tham số hàm MapReduce thƣ viện rmr2 54 Bảng 2.4 Các tham số hàm keyval thƣ viện rmr2 55 Bảng 2.5 Các tham số hàm to.dfs from.dfs thƣ viện rmr2 55 Bảng 2.6 Các tham số hàm to.map to.reduce thƣ viện rmr2 56 Bảng 3.1 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter 66 Bảng 3.2 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Train 67 Bảng 3.3 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Phones_gyroscope 68 Bảng 3.4 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop MapReduce với liệu Twitter 70 Bảng 3.5 Thời gian chạy Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 72 Bảng 3.6 Chỉ số chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 73 DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Hình 1.1 Các bƣớc q trình khám tri thức [13] Hình 1.2 Giao diện mơi trƣờng làm việc R Ubuntu 21 Hình 1.3 Giao diện môi trƣờng làm việc RStudio Server Ubuntu 22 Hình 1.4 Đặc trƣng 5Vs Dữ liệu lớn 26 Hình 1.5 Quá trình thực thi MapReduce [15] 35 Hình 1.6 Thành phần Hadoop 1: HDFS MapReduce [10] 37 Hình 1.7 Thành phần Hadoop [10] 37 Hình 1.8 Mơ tả cách chia khối HDFS 40 Hình 1.9 Cách thức hoạt động HDFS 41 Hình 1.10 Cách thức hoạt động MapRedcue Hadoop 42 Hình 2.1 Hadoop cơng cụ phân tích liệu 47 Hình 2.2 Định dạng liệu CEnetBig 57 Hình 3.1 Quá trình thực phân cụm Kmeans Hadoop Reduce 63 Hình 3.2 Sơ đồ thể thuật toật xác định k tâm Hadoop Mapreduce 64 Hình 3.3 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter 66 Hình 3.4 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy với liệu Train 67 Hình 3.5 Biểu đồ chất lƣợng phân cụm Kmeans Kmeans HM với liệu Twitter 70 Hình 3.6 Biểu đồ tốc độ Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 72 Hình 3.7 Biểu đồ chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 73 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Ngày lƣợng liệu ngày nhiều trở thành thách thức khai phá liệu Khai phá liệu mang lại nhiều lợi ích kinh tế, xã hội đặt biệt đƣợc doanh nghiệp ứng dụng để mang lại hiệu kinh doanh Dữ liệu ngày lớn đặt thách thức hệ quản trị sở liệu việc lƣu trữ, xử lý phân tích liệu R cơng cụ mã nguồn mở đƣợc dùng phổ biến việc phân tích xử lý liệu Tuy nhiên cơng cụ R gặp nhiều khó khăn xử lý liệu lớn Hadoop tảng mã nguồn mở đƣợc xây dựng để tổ chức lƣu trữ xử lý liệu lớn Trong Hadoop bao gồm HDFS (Hadoop Distributed File System) dùng để quản lý file phân tán, MapReduce dùng để lập trình xử lý song song liệu phân tán, sở liệu Hbase dùng để lƣu trữ đƣợc liệu lớn hệ thống phân tán HDFS,… Với mong muốn tăng cƣờng khả phân tích xử lý liệu R nên chọn đề tài “Kết hợp R với Hadoop Khai phá liệu” TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ĐÊ TÀI Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lƣợng liệu đƣợc quan thu thấp lƣu trữ ngày tích lũy nhiều lên Họ lƣu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lƣợng nhỏ liệu (khoảng từ 5% đến 10%) ln đƣợc phân tích, số cịn lại họ khơng biết phải làm làm với chúng nhƣng họ tiếp tục thu thập lƣợng liệu với ý nghĩ lo sợ có quan trọng bị bỏ qua, sau có lúc cần đến Mặt khác, môi trƣờng cạnh tranh, ngƣời ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Với lý nhƣ vậy, phƣơng pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng đƣợc cần phải thay kỹ thuật Khai phá liệu (Data Mining - KPDL) Khai phá liệu đƣợc nghiên cứu, ứng dụng nhiều lĩnh vực khác nƣớc giới, Việt Nam kỹ thuật đƣợc nghiên cứu đƣa vào ứng dụng nhiều lĩnh vực từ kinh doanh đến tài chính, nghiên cứu khoa học, Khai phá liệu, giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ sở liệu (Database - CSDL) nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Năm 1996, hai nhà thống kê học Ross Ihaka Robert Gentlan phác họa ngôn ngữ cho phân tích thống kê đƣợc đặt tên R Theo [3] “Về chất, R ngơn ngữ lập trình, sử dụng cho nhiều mục đích, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp” Việc hƣớng đến mã nguồn mở, miễn phí R nhanh chóng phát triển vƣợt qua phần mềm thống kê xuất trƣớc Hadoop framework mã nguồn mở Apache phát triển để lƣu trữ, thao tác liệu lớn sử dụng mơ hình lập trình MapReduce Theo [27][28], có thƣ viện để tích hợp Hadoop MapReduce R sở để phát triển kỹ thuật khai phá liệu lớn R 65 xử lý song song k' tâm điểm đại diện cho tập liệu đầu vào hàm Map Tập đại diện có kích thƣớc n*k' phần tử, phải đảm bảo không vƣợt khả xử lý Node Chúng chọn số lƣợng mẫu 2*k tâm thực nghiệm Hàm Reduce nhận kết từ hàm Map, thực thuật toán K-means để xác định k tâm [4] 3.2 THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ Dƣới làm thực nghiệm Thực nghiệm 1: So sánh đánh giá thuật toán Kmeans thuật tốn Kmeans áp dụng mơ hình Hadoop MapReduce R (tham khảo [4]) Thực nghiệm 2: So sánh đánh giá thuật toán Kmean Hadoop MapReduce ta tăng số lƣợng mẫu đại diện cho tập 3.2.1 Thực nghiệm Ở thực nghiệm 1, tơi thực nghiệm thuật tốn máy tính Core Duo E8400 3.00GHz, Ram 4GB, hệ điều hành Ubuntu 14.04, Hadoop 2.7.3, R 3.3.3 Bộ liệu thực nghiệm gồm có Buzz in social media Data Set (Twitter) 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB; Repeat Consumption Matrices Data Set (Train) 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB; Heterogeneity Activity Recognition Data Set (Phones_gyroscope) 13.932.632 điểm 10 thuộc tính với kích thƣớc 1,28 GB Các liệu đƣợc tải UCI Machine Learning Repository http://archive.ics.uci.edu/ml/index.php Đánh giá tốc độ Để đánh giá tốc độ thuật tốn, tơi tiến hành thực nghiệm so sánh thuật toán Kmeans Hadoop MapReduce với thuật toán K-means cổ điển máy (1MasterNode 2NameNode) máy (1MasterNode NameNode) 66 với liệu: Twitter, Train Phones_gyroscope Đối với thuật tốn Kmeans Hadoop MapReduce, tơi thực nghiệm với số lƣợng mẫu đại diện cho tập liệu 2*k tâm Với liệu Twitter 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB Bảng 3.1 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter K Kmeans Kmeans Hadoop MapReduce (Trên máy với 1MasterNode 2NameNode) Kmeans Hadoop MapReduce (Trên máy với 1MasterNode 4NameNode) 356,753s 135,659s 78,841s 10 392,449s 449,194s 551,143s 631,074s 767,965s 143,713s 147,253s 147,509s 153,827s 158,590s 82,146s 85,475s 85,744s 87,503s 88,524s Hình 3.3 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy máy với liệu Twitter Qua thực nghiệm với liệu Twitter, ta thấy thời gian thực thuật toán Kmeans Hadoop MapReduce giảm đáng kể so với thời gian 67 thực thuật toán K-means cổ điển máy máy Đồng thời ta thấy đƣợc tăng số lƣợng máy từ máy lên máy thời gian thực đƣợc rút ngắn lại nhiều Bây ta thử thực nghiệm với liệu lớn liệu Train Với liệu Train 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB Bảng 3.2 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Train K Kmeans Kmeans Hadoop Kmeans Hadoop MapReduce (Trên máy MapReduce (Trên với 1MasterNode máy với 1MasterNode 2NameNode) 4NameNode) Null 442,514s 266,209s Null 453,976s 271,631s Null 477,425s 275,280s Null 486,388s 276,216s Null 492,590s 284,561s 10 Null 525,833s 294,119s Hình 3.4 Biểu đồ tốc độ Kmeans Kmeans Hadoop MapReduce máy với liệu Train 68 Qua thực nghiệm với liệu Train, ta thấy Thuật tốn Kmeans cổ điển khơng thực đƣợc cấp phát nhớ không đủ Đồng thời ta thấy đƣợc tăng số lƣợng máy từ máy lên máy thời gian thực đƣợc rút ngắn lại nhiều Từ liệu Twitter Train ta thấy đƣợc, xử lý lớn thời gian thực tăng theo Bây ta thử thực nghiệm liệu lớn với liệu Phone_goscone Với liệu Phones_gyroscope 13.932.632 điểm 10 thuộc tính với kích thƣớc 1,28 GB Bảng 3.3 Thời gian chạy Kmeans Kmeans Hadoop MapReduce máy máy với liệu Phones_gyroscope K Kmeans Kmeans Hadoop Kmeans Hadoop MapReduce (Trên máy MapReduce (Trên với 1MasterNode máy với 1MasterNode 2NameNode) 4NameNode) Không Không Không thực thực thực hiện đƣợc đƣợc đƣợc 10 Ta thấy đƣợc tăng lƣợng liệu lớn (bộ liệu Phones_gyroscope), Kmeans cổ điển Kmeans Hadoop MapReduce với máy máy khơng chạy đƣợc kết cấp phát nhớ không đủ lƣợng liệu vƣợt khả xử lý 1Node 69 Đánh giá chất lƣợng Việc đánh giá chất lƣợng phân cụm khó khăn Theo [4], có loại độ đo chất lƣợng phân cụm: đánh giá (internal evaluation), đánh giá (external evaluation), đánh giá quan hệ (relative evalution) Để so sánh chất lƣợng phân cụm hai thuật tốn, tơi sử dụng số Davies-Bouldin (DBI) kỹ thuật đánh giá (đƣợc David L Davies Donald W Bouldin đƣa vào năm 1979) xác nhận tính hợp lệ việc phân cụm đƣợc thực cách sử dụng số liệu đặc tính vốn có liệu Chỉ số Davies-Bouldin đƣợc tính theo cơng thức: ∑ ( ) Trong đó: + n số cụm + cx trọng tâm cụm x + σx trung bình khoảng cách tất phần tử cụm x tới trọng tâm cx + d(ci,cj) khoảng cách hai trọng tâm cụm i j Giá trị DBI nhỏ chất lƣợng phân cụm tốt Để đánh giá chất lƣợng phân cụm thuật tốn, tơi tiến hành thực nghiệm so sánh thuật toán K-means cổ điển với thuật toán Kmeans Hadoop MapReduce máy (1MasterNode 2NameNode) máy (1MasterNode NameNode) với liệu: Twitter, Train Phones_gyroscope Với liệu Twitter 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB 70 Bảng 3.4 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop MapReduce với liệu Twitter K Kmeans Kmeans Hadoop MapReduce 1,002665 0,6098392 1,027724 0,8799377 1,135387 0,9366521 1,091517 0,891491 1,156139 0,937796 10 1,253712 1,039523 Hình 3.5 Biểu đồ chất lƣợng phân cụm Kmeans Kmeans HM với liệu Twitter 71 Với liệu Train 6.253.544 điểm 38 thuộc tính với kích thƣớc 404,41 MB liệu Phones_gyroscope 13.932.632 điểm 10 thuộc tính với kích thƣớc 1,28 GB Bảng 3.5 Chỉ số chất lƣợng phân cụm Kmeans Kmeans Hadoop MapReduce với liệu Train Phone_gyroscope K Kmeans Kmeans Hadoop MapReduce Không Không thực thực hiện đƣợc đƣợc 10 Qua thực nghiệm, với liệu Twitter ta thấy số DBI thuật toán Kmeans Hadoop MapReduce thấp Kmeans cổ điển Chứng tỏ thuật toán cải tiến Kmeans Hadoop MapReduce có chất lƣợng phân cụm tốt K-means Nhƣng ta thực nghiệm liệu lớn Train Phone_gyrpe ta khơng chạy đƣợc kết số DBI lƣợng vƣợt khả xử lý 1Node 3.2.2 Thực nghiệm Ở thực nghiệm 2, thực nghiệm thuật tốn máy tính Core Duo E8400 3.00GHz, hệ điều hành Ubuntu 14.04, Hadoop 2.7.3, R 3.3.3 Bộ liệu thực nghiệm Buzz in social media Data Set (Twitter) 583.249 điểm 78 thuộc tính với kích thƣớc 270,13MB Bộ liệu đƣợc tải UCI Machine Learning Repository http://archive.ics.uci.edu/ml/index.php 72 Đánh giá tốc độ Để đánh giá tốc độ thuật toán, tơi tiến hành thực nghiệm so sánh thuật tốn Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt 2*k tâm, 3*k tâm, 4*k tâm, 5*k tâm, máy (1MasterNode NameNode) với liệu: Twitter Bảng 3.6 Thời gian chạy Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter K 2*ktam 3*ktam 4*ktam 5*ktam 78,841s 82,146s 85,197s 86,022s 81,897s 83,911s 83,515s 87,354s 10 85,475s 85,744s 87,503s 88,524s 86,287s 88,723s 89,074s 92,647s 84,599s 86,057s 90,364s 91,429s 87,769s 87,859s 89,545s 90,277s Hình 3.6 Biểu đồ tốc độ Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter Qua thực nghiệm với liệu Twitter, ta thấy thời gian thực thuật toán Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k lƣợng 73 thời gian tăng dần theo ta tăng số lƣợng mẫu đại diện tập con, cho dù thay đổi không qua lớn Đánh giá chất lƣợng Để đánh giá chất lƣợng thuật toán, tơi tiến hành thực nghiệm so sánh thuật tốn Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt 2*k tâm, 3*k tâm, 4*k tâm, 5*k tâm, máy (1MasterNode NameNode) với liệu: Twitter Bảng 3.7 Chỉ số chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter K 2*ktam 3*ktam 4*ktam 5*ktam 0,6098392 0,6190088 0,6278463 0,6251682 0.8799377 0,8823779 0,8761086 0,8589957 0,9366521 0,9373436 0,9359596 0,8196449 0,891491 0,8872345 0,8860482 0,8556716 0,937796 0,9354825 0,916741 0,9349708 10 1,039523 1,035517 1,017023 1,058182 Hình 3.7 Biểu đồ chất lƣợng phân cụm Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập với liệu Twitter 74 Qua thực nghiệm với liệu Twitter, ta thấy số DBI thuật tốn Kmeans Hadoop MapReduce tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k số DBI giảm dần theo ta tăng số lƣợng mẫu đại diện tập con, thay đổi nhỏ Ở thực nghiệm ta thấy đƣợc tăng số lƣợng mẫu đại diện cho tập liệu lần lƣợt: 2*k tâm, 3*k tâm, 4*k tâm, 5*k chất lƣợng phân cụm tốt dần theo nhƣng lƣợng thời gian thực thi tăng theo 75 KẾT LUẬN Mơ hình lập trình MapReduce đời mở hƣớng để cải tiến thuật toán làm việc với tập liệu lớn Đặc biệt thuật tốn tìm kiếm khai phá liệu, lĩnh vực đặt yêu cầu khắt khe tốc độ xử lý với đầu vào lớn R công cụ, ngơn ngữ lập trình độc đáo, năm 2011 Revolution Analytics phát triển tập gói thƣ viện giúp R có khả tƣơng tác với Hadoop Để có đánh giá khả R tích hợp với MapReduce, tơi định chọn đề tài “Kết hợp R Hadoop Khai phá liệu” Đến nay, luận văn đạt đƣợc số kết cụ thể hƣớng phát triển nhƣ sau: Về kết đạt đƣợc: - Trình bày khái quát trình khám phá tri thức, khai phá liệu hƣớng đƣợc tập trung nghiên cứu khai phá liệu Thuật toán kinh điển phân cụm kết số nghiên cứu vài năm trở lại - Giới thiệu R, ƣu nhƣợc điểm, khái niệm R, cách thức khai phá liệu R - Giới thiệu dƣ liệu lớn, khái niệm liệu lớn hạn chế R liệu lớn - Giới thiệu MapReduce, cách thức hoạt động, ƣu nhƣợc điểm mơ hình nhƣ Hadoop Framework mã nguồn mở tảng MapReduce - Giới thiệu cách kết hợp Hadoop vào R, cài đặt thuật toán Kmeans cổ điển Kmeans cải tiến áp dụng mơ hình lập trình MapReduce R - Sử dụng liệu phân cụm sẵn có để thực nghiệm đánh giá thuật tốn phân cụm đƣợc trình bày luận văn 76 Về hƣớng phát triển: - Trong luận văn sử dụng liệu có sẵn để thực nghiệm đánh giá thuật toán Trong tƣơng lai, nghiên cứu tận dụng khả xử lý liệu R để thực nghiệm liệu thực tế - Nghiên cứu đƣa đánh giá ƣu nhƣợc điểm việc kết hợp mơ hình lập trình MapReduce với R so với kết hợp mơ hình lập trình MapReduce với ngơn ngữ khác - Tìm hiểu, nghiên cứu cải tiến thuật toán phân cụm, phân lớp, khai phá luật kết hợp khai phá liệu áp dụng mơ hình lập trình MapReduce - Chuẩn hóa hồn thiện cài đặt, xây dựng gói thƣ viện Kmeans Kmeans áp dụng mơ hình lập trình MapReduce đăng lên trang web thức R để ngƣời đóng góp ý kiến, xây dựng sử dụng chúng 77 DANH MỤC TÀI LIỆU THAM KHẢO [1] Lê Thị Việt Hoa (2008), “Khai phá liệu thuật toán khai phá luật kết hợp song song” Luận văn thạc sĩ, Trƣờng Đại học Thái Nguyên [2] Vũ Lan Phƣơng (2006), “Nghiên cứu cài đặt số giải thuật phân cụm, phân lớp”, Khoa Công nghệ thông tin, Đại học Bách Khoa Hà Nội [3] Nguyễn Văn Tuấn (2006), “Phân tích liệu tạo biểu đồ R”, Trƣờng Đại học Quy Nhơn, NXB Khoa học kỹ thuật [4] Nguyễn Thị Tuyết, Trần Hoàng Việt, Trần Thiên Thành, (12/2017), “Một cải tiến thuật toán -means song song sử dụng phương pháp lấy mẫu”, Kỷ yếu Hội thảo quốc gia Công nghệ thông tin amp; ứng dụng lĩnh vực lần thứ 6, trang 196-203 [5] Tổng hợp theo Kỷ yếu Hội thảo khoa học, (07/10/2015), “Thống kê Nhà nước với Dữ liệu lớn”, Trung tâm Thông tin Khoa học thống kê, Viện Khoa học thống kê [6] Agrawal R and Srikant R (1994), “Fast algorithm for mining associantion rules in large databases”, VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases, Pages 487-499 [7] Bogdan Oancea, Raluca Mariana Dragoescu, (2014), “Integrating R and Hadoop for Big Data Analysis”, Nicolae Titulescu University of Bucharest, The Bucharest University of Economic Studies [8] Crawley M.J, (2005), “Statistics: An Introduction using R”, Wiley [9] G Piatetsky, Kdnuggets polls, “Primary programming language for Analytics Data Mining” Available at http://www.kdnuggets.com/polls/index.html [10] Garry Turkington, Gabriele Modena, (2015), Boo : “Learning Hadoop 2”, Published by Packt Publishing Ltd., pp 8-16 78 [11] Ihaka R and Gentleman R, (1996): “R: A language for data analysis and graphics”, Journal of Computational and Graphical Statistics, 5(3): 299314 [12] Information on See5/C5.0, (2011), “RuleQuest Research Data Mining Tools”, Available at: http://www.rulequest.com/see5-info.html [13] Jiawei Han, Micheline Kamber (2006), “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers [14] J A Hartigan and M A Wong, (1979), “A K-means clustering algorithm”, Applied Statistics, Vol 28, pp 100-108 [15] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: “Simlified Data Processing on Large Clusters”, OSDI 2004 [16] L Breiman, J.H Friedman, R Olshen and C.J Stone, (1984), “Classification and Regression Trees”, Wadsworth International Group, Belmont, California [17] Maindonald J and Braun J., (2003), “Data Analysis and Graphics Using R”, Cambridge University Press [18] Qiankun Zhao, Sourav S Bhowmick, “Association Rule Mining: A Survey” [19] 12.Revolution Analytics (2011), Leveraging R in Hadoop Environments [20] Spector P., (2004): “An Introduction to R”, Statistical Computing Facility, University of California, Berkeley [21] 13.Tom White (2015), “Hadoop The Definitive Guide, 4th Edition”, O’Reilly [22] T Mitchell, Vol 42 (1999), “Machine Learning and Data Mining”, Communications of the ACM, No 11, pp 30-36 79 [23] U M Fayyad, G Piatetsky-Shapiro, P Smyth and R Uthurusamy, (1996), “Advances in Knowledge Discovery and Data Mining”, AAAI Press, Menlo Park, CA [24] Venables W.N and Smith D.M., (2002): “An Introduction to R”, Network Theory [25] Yanchang Zhao, (2012) “R and Data Mining: Examples and Case Studies” Academic Press, Elsevier, ISBN: 978-0-123-96963-7 [26] Yanchang Zhao, (2015) “Introduction to Datamining with R and Data import/export in R” R and Datamining workshop for the Master of Business analytics course, Deakin University, Melbourne [27] https://github.com/andrie/RHadoop-tutorial/ [28] https://github.com/RevolutionAnalytics/RHadoop [29] https://www.r-project.org/; http://adv-r.had.co.nz/Rcpp.html ... 43 CHƢƠNG KẾT HỢP R VÀ HADOOP TRONG KHAI PHÁ DỮ LIỆU 44 2.1 TẠI SAO PHẢI KẾT HỢP R VÀ HADOOP 44 2.2 CÁC CÁCH KẾT HỢP R VÀ HADOOP 46 2.2.1 R Streaming 48 2.2.2 RHipe ... 1.2.2.3 Khai phá luật kết hợp với R Dƣới số hàm thƣ viện có sẵn R để hỗ trợ kỹ thuật khai phá luật kết hợp khai phá liệu với R Bảng 1.3 Các hàm, thƣ viện hỗ trợ khai phá luật kết hợp R Kỹ thuật khai. .. khai phá liệu R đƣợc phát triển thuật toán chạy máy đơn nên hạn chế khả khai phá liệu lớn tốc độ khai phá liệu Với phát triển tảng Hadoop mơ hình lập trình song song MapReduce, đƣợc kết hợp vào

Ngày đăng: 11/08/2021, 15:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Lê Thị Việt Hoa (2008), “Khai phá dữ liệu và thuật toán khai phá luật kết hợp song song” Luận văn thạc sĩ, Trường Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: “Khai phá dữ liệu và thuật toán khai phá luật kết hợp song song”
Tác giả: Lê Thị Việt Hoa
Năm: 2008
[2] Vũ Lan Phương (2006), “Nghiên cứu và cài đặt một số giải thuật phân cụm, phân lớp”, Khoa Công nghệ thông tin, Đại học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: “Nghiên cứu và cài đặt một số giải thuật phân cụm, phân lớp”
Tác giả: Vũ Lan Phương
Năm: 2006
[3] Nguyễn Văn Tuấn (2006), “Phân tích dữ liệu và tạo biểu đồ bằng R”, Trường Đại học Quy Nhơn, NXB Khoa học kỹ thuật Sách, tạp chí
Tiêu đề: “Phân tích dữ liệu và tạo biểu đồ bằng R”
Tác giả: Nguyễn Văn Tuấn
Nhà XB: NXB Khoa học kỹ thuật
Năm: 2006
[4] Nguyễn Thị Tuyết, Trần Hoàng Việt, Trần Thiên Thành, (12/2017), “Một cải tiến thuật toán -means song song sử dụng phương pháp lấy mẫu”, Kỷ yếu Hội thảo quốc gia Công nghệ thông tin amp; ứng dụng trong các lĩnh vực lần thứ 6, trang 196-203 Sách, tạp chí
Tiêu đề: “Một cải tiến thuật toán -means song song sử dụng phương pháp lấy mẫu”
[5] Tổng hợp theo Kỷ yếu Hội thảo khoa học, (07/10/2015), “Thống kê Nhà nước với Dữ liệu lớn”, Trung tâm Thông tin Khoa học thống kê, Viện Khoa học thống kê Sách, tạp chí
Tiêu đề: “Thống kê Nhà nước với Dữ liệu lớn”
[6] Agrawal R. and Srikant R (1994), “Fast algorithm for mining associantion rules in large databases”, VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases, Pages 487-499 Sách, tạp chí
Tiêu đề: Fast algorithm for mining associantion rules in large databases”
Tác giả: Agrawal R. and Srikant R
Năm: 1994
[7] Bogdan Oancea, Raluca Mariana Dragoescu, (2014), “Integrating R and Hadoop for Big Data Analysis”, Nicolae Titulescu University of Bucharest, The Bucharest University of Economic Studies Sách, tạp chí
Tiêu đề: “Integrating R and Hadoop for Big Data Analysis”
Tác giả: Bogdan Oancea, Raluca Mariana Dragoescu
Năm: 2014
[8] Crawley M.J, (2005), “Statistics: An Introduction using R”, Wiley Sách, tạp chí
Tiêu đề: “Statistics: An Introduction using R”
Tác giả: Crawley M.J
Năm: 2005
[9] G. Piatetsky, Kdnuggets polls, “Primary programming language for Analytics Data Mining”. Available athttp://www.kdnuggets.com/polls/index.html Sách, tạp chí
Tiêu đề: “Primary programming language for "Analytics Data Mining”
[10] Garry Turkington, Gabriele Modena, (2015), Boo : “Learning Hadoop 2”, Published by Packt Publishing Ltd., pp. 8-16 Sách, tạp chí
Tiêu đề: Boo : “Learning Hadoop 2”
Tác giả: Garry Turkington, Gabriele Modena
Năm: 2015
[11] Ihaka R. and Gentleman R, (1996): “R: A language for data analysis and graphics”, Journal of Computational and Graphical Statistics, 5(3): 299- 314 Sách, tạp chí
Tiêu đề: “R: A language for data analysis and graphics”
Tác giả: Ihaka R. and Gentleman R
Năm: 1996
[12] Information on See5/C5.0, (2011), “RuleQuest Research Data Mining Tools”, Available at: http://www.rulequest.com/see5-info.html Sách, tạp chí
Tiêu đề: “RuleQuest Research Data Mining Tools”
Tác giả: Information on See5/C5.0
Năm: 2011
[13] Jiawei Han, Micheline Kamber (2006), “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: “Data Mining: Concepts and Techniques”
Tác giả: Jiawei Han, Micheline Kamber
Năm: 2006
[14] J. A. Hartigan and M. A. Wong, (1979), “A K-means clustering algorithm”, Applied Statistics, Vol. 28, pp. 100-108 Sách, tạp chí
Tiêu đề: “A K-means clustering algorithm”
Tác giả: J. A. Hartigan and M. A. Wong
Năm: 1979
[15] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: “Simlified Data Processing on Large Clusters”, OSDI 2004 Sách, tạp chí
Tiêu đề: Mapreduce: “Simlified Data Processing on Large Clusters”
Tác giả: Jeffrey Dean and Sanjay Ghemawat
Năm: 2004
[16] L. Breiman, J.H. Friedman, R. Olshen and C.J. Stone, (1984), “Classification and Regression Trees”, Wadsworth International Group, Belmont, California Sách, tạp chí
Tiêu đề: “Classification and Regression Trees”
Tác giả: L. Breiman, J.H. Friedman, R. Olshen and C.J. Stone
Năm: 1984
[17] Maindonald J. and Braun J., (2003), “Data Analysis and Graphics Using R”, Cambridge University Press Sách, tạp chí
Tiêu đề: “Data Analysis and Graphics Using R”
Tác giả: Maindonald J. and Braun J
Năm: 2003
[18] Qiankun Zhao, Sourav S. Bhowmick, “Association Rule Mining: A Survey” Sách, tạp chí
Tiêu đề: Association Rule Mining: A Survey
[20] Spector P., (2004): “An Introduction to R”, Statistical Computing Facility, University of California, Berkeley Sách, tạp chí
Tiêu đề: “An Introduction to R”
Tác giả: Spector P
Năm: 2004
[21] 13.Tom White (2015), “Hadoop The Definitive Guide, 4th Edition”, O’Reilly Sách, tạp chí
Tiêu đề: “Hadoop The Definitive Guide, 4th Edition”
Tác giả: 13.Tom White
Năm: 2015

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w