Tìm hiều mô hình xử lý dữ liệu mapreduce và hệ thống file phân tán hadoop

73 4 0
Tìm hiều mô hình xử lý dữ liệu mapreduce và hệ thống file phân tán hadoop

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC VÕ THANH PHI TÌM HIỂU MƠ HÌNH XỬ LÝ DỮ LIỆU MAPREDUCE VÀ HỆ THỐNG FILE PHAN TAN HADOOP CHUYEN NGANH: KHOA HOC MAY TINH MA SO: 8.48.01.01 LUAN VAN THAC SI KHOA HOC DINH HUONG UNG DUNG Người hướng dẫn khoa học: TS NGUYỄN ĐÌNH HOA CƯƠNG PGS.TS NGUYEN MAU HAN Thừa Thiên Huế, 2020 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu cá nhân tơi Tất số liệu, kết nghiên cứu luận văn trung thực, chưa người khác công bố cơng trình nghiên cứu Học viên Võ Thanh Phi LOI CAM ON Luận văn thạc sĩ khoa học kết trình học tập tiếp thu kiến thức nhà trường Trong trình thực luận văn tốt nghiệp, tơi ln nhận giúp đỡ hỗ trợ tận tình Quý Thầy Cô đồng nghiệp Tôi xin chân thành bày tỏ lòng biết ơn: - TS NGUYEN DINH HOA CUONG, PGS TS NGUYEN MAU HAN tận tình hướng dẫn, truyền đạt kinh nghiệm, khuyến khích, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp - Quý Thầy Cô Khoa Công nghệ thơng tin Phịng Đào tạo Sau đại học, Trường Đại học Khoa học Huế tận tình hướng dẫn, truyền đạt kiến thức, tạo điều kiện thuận lợi suốt trinh học tập - Ban Giám hiệu, Ban Giám đốc Thư viện Trường Đại học An Giang hỗ trợ tạo điều kiện thuận lợi để hồn thành khóa học Xin nhận lời cảm ơn sâu sắc nhat! Học viên Võ Thanh Phi nút nhanh thực hàm Reduce thứ nhất, hoàn thành khởi động hàm Reduce thứ hai Với hệ số này, việc cân tải xử lý cơng việc tốt nhiễu, giảm phí thất bại lại tăng chi phí khung (MapReduce framework) Chores Dữ liệu ae SẠP đầu vào (khoa, gia ` ỗ Cac cap Ket qua Ham tr) trung , (khoa, téng Fe Reduce lan dt Các giá trỊ a hed có khóa) Hình 2.7 Mơ hình hoạt động hàm Reduce 2.4.4 Nguyên tắc hoạt động MapReduce xử ly liệu lưu trữ hệ thống file sở liệu, hoạt động cách phân chia liệu đầu vào từ nút worker, thực song song nhiệm vụ Map Khi trình ánh xạ hoàn thành, kết chuyên đến máy khác chạy nhiệm vụ Reduce Dữ liệu đầu vào hàm Reduce lay từ hàm Map nên nhiệm vụ Reduce, thực sau nhiệm vụ Map MapReduce hoạt động= T giai đoạn hình 2.8: T T T K3x k3 k2 | KS k5 k2 T — Đâu vào & + @ @ be = | KIxkiy kế | Nhóm theo khóa kivwy | k2vvv | 3xx IE Khóa trung gian Request deleastion, We ossepi-keyex euthentication Username Initial method IV store encrypted password in profile CKerberos Save profile as Authentication Proxy settinas Host key manager Clent key manager (9) 22:00:59.261 First key exchange completed using diffie-heliman-group16-sha512 (group 16, 4096-bit) Session encryption and integrity: es256-gem, compression: none )22:00:59.270 Attempting password authentication 7) 22:00:59,302 Authentication completed Help =f §)22:00:59.357 Terminal channel opened 1) 22:00:59,357 1) 23:00:59.402 7)23:00:59.869 $)23:17:08.978 SFTP channel opened, Key exchange #2 started by dient: Key exchange #2 completed Terminal channel dosed by cient 9) 23:17:12,022 SFTP channel dosed by user #)23:17:14.973 Session disconnected on user's request #)23:17:14.973 The SSH session has been terminated 7)23:31:30.000 Leading profile 'C: Users Administrator \Pocuments\Jocalhest tip’ 7)23:31:30.012 Profile loaded successfully Legin Lưu ý: SSH đến Sandbox Host sử dụng Ề Ext Port 22, muốn SSH đến Hadoop, sử dụng Port 2222 Đến coi như, Hortonworks Sandbox HDP 3.0 chạy thành cơng Mở trình duyệt web (Chrome, Firefox với phiên nhất) truy cập vào địa http://sandbox-hdp.hortonworks.com: 1080 ta thấy xuất giao diện sau: A x + eGR ROR, [se sano NEW cod Cl HDP 3.0 TO HDP ADVANCED Mill 91]a) HDP —- 59 Cài đặt toán Hortonworks Sandbox HDP 3.0 Bước 1: Khởi động máy ảo Hortonworks Sandbox HDP 3.0 Bước 2: Mở trình duyệt web, truy cập vào địa http://sandbox- hdp.hortonworl:s.com: 1080, ta thấy giao diện sau: Ee a a ` cnr RRR sanp(đ HDP 3.0 NEW TO HDP ADVANCED HDP === =] sol OL S|) Sl) — Bước 3: Chọn “LAUNCH DASHBOARD” để truy cập vào Hortonworks Sandbox Bộ đc ý n/a 1⁄1 0.44 ms eel OL S| I 1d 5h n/a n⁄a HN I8| 1⁄1 — - 60 Buéc 4: Ty Ambari Dashboard, chon File View totes Cg rene Ơ Kơng bo nột | ønlhochlphotomolsrom3 Oe Aadmin~ Dr EATMAPS CONFIG HISTORY HouruA» Views Nameiode CPU WIO n/a Chọn Upload để tải file 1⁄ “2013-04-10.csv” (rong liệu download) vào HDFS L =.s.Ố x EF mat | sandbo-hphotonwors com 308 Sie) LaStModfRd} Owner> T Group} uth Permission Erasure Cocing Encrypted nang tes Size) LastModified> 2) Owner? Group? Permission Erasure Coding admin hats ne aomn hats we Encrypted Tuong tu, tai cac file lai (tổng cộng 2.273 file) vào HDFS 61 vừa Bước 5: Tạo table lưu liệu lớn công cụ Data AnalytIcs Studio - Tu Ambari Dashboard/ chon Data Analytics Studio/ chon Data Analytics Studio UI #0 - Ta tạo table tam “temp failure rates” lưu liệu Thực câu lệnh (CREATE thấy table “temp failure rates” 62 TABLE BO HE tenn- voi định dạng TEXTFILE để temp failure rates ), ta Compose “ - Tải liệu (dữ liệu tải lên HDFS Bước 4) vào table “temp faiure rates” Compose & 00 DiTA TEEN - Sau tai dé liéu tr HDFS vao table “temp_failure rates”, ta tao table “failure rates” voi dinh dang ORC 63 Don Compose “ default - Trích xuat di ligu tr table “temp failure rates” vao copy vao table “failure rates” Thực việc này, ta xây dựng truy vấn nhiều dòng với lệnh gọi regexp_extract (mỗi dòng regexp_extract tương ứng với cột liệu vừa download) Compose & defautt Khi thực câu truy vấn thành công, liệu chuyền “failure rates”, nhu vay ta da hoan tất việc Sandbox HDP 3.0 64 cài đặt toán trén vào table Hortonworks

Ngày đăng: 11/01/2024, 22:45

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan