Tìm hiểu về bigtable và giải pháp lưu trữ dữ liệu phân tán có cấu trúc

74 7 0
Tìm hiểu về bigtable và giải pháp lưu trữ dữ liệu phân tán có cấu trúc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC HUE TRUONG DAI HOC KHOA HOC TRÂN NGỌC THUẬN (KHOA HỌC MÁY TÍNH) - HUÉ, 2018 TRAN NGOC THUAN TIM HIEU VE BIGTABLE VA GIAI PHAP LUU TRU DU LIEU PHAN TAN CO CAU TRUC LUAN VAN THAC SI KHOA HOC MAY TINH Thira Thién Hué, 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUE TRƯỜNG ĐẠI HỌC KHOA HỌC TRẢN NGỌC THUẬN TIM HIEU VE BIGTABLE VA GIAI PHAP LUU TRU DU LIEU PHAN TAN CO CAU TRUC CHUYEN NGANH: KHOA HOC MÁY TÍNH MA SO: 60.48.01.01 LUAN VAN THAC Si KHOA HOC DINH HUONG UNG DUNG NGUOI HUONG DAN KHOA HOC PGS.TS NGUYEN MAU HAN Thừa Thiên Hué, 2018 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng tơi, khơng chép nội dung cơng trình khoa học trước Các kết đạt nêu luận văn trình thực nghiệm đúc kết trích dẫn đầy đủ Tơi xin hồn tồn chịu trách nhiệm luận văn Học viên Trần Ngọc Thuận LOI CAM ON Lời đầu tiên, xin gởi lời cảm ơn chân thành sâu sắc đến quý thầy cô giáo Khoa Công nghệ thơng tin Phịng Đào tạo Sau đại học - Trường Đại học Khoa học Huế Trường Đại học An Giang tận tình hướng dẫn, truyền đạt kiến thức, tạo điều kiện thuận lợi trình học tập thực luận văn tốt nghiệp Tôi xin chân thành gởi lời biết ơn đến thầy giáo PGS.TS Nguyễn Mậu Hân, người hướng dẫn vô tận tình có nhiều góp ý sâu sắc, nhận xét đắn cho tơi suốt q trình nghiên cứu, kịp thời cho nhiều lời động viên hướng dẫn q báu để tơi hoàn thành tốt đề tài Trong trình thực để tài, xin chân thành gửi lời cám ơn đến giúp đỡ, lời động viên từ phía gia đình, đồng nghiệp, bạn bè động lực to lớn giúp tơi hồn thành tốt dé tài nghiên cứu Bản thân tơi cố gắng trình thực đề tài chắc khơng tránh khỏi thiếu sót Kính mong q thầy bạn góp ý chân tỉnh để hoàn thiện nghiên cứu Một lần nữa, tơi xin cảm ơn mong nhận tình cảm chân thành từ tất moi ngwoi Xin chan cam on! An Giang, ngày 20 tháng năm 2018 Học viên Trần Ngọc Thuận MỤC LỤC 09)09.90 60970085 d,.H,AA , i 090990 090077 .Ỏ ii MUC LUC icessccsssssssssssessecssscssscsssccsscsssccsscssscsssessscssscsssccsscsssessscssscssscssscsscssesseesseeessees ii DANH MUC CAC BANG cacsngunsbstiisttädrdsttätridsitägidlsitäg1L20188102018810301881 0.0188 q80 vi DANH MỤC CÁC HÌNH 6-55 5+2 2x2 EEk1111111211111111111 1c, vii DANH MỤC CÁC TỪ VIẾT TẮTT ¿s2 ©2se©c+++Exetrxeerxeerxerrkerrserree viii )9E )H,A Chuong 1.TONG QUAN VE TINH TOAN PHAN TAN VA BIG DATA 1.1 GIGI THIEU VE TINH TỐN PHÂN TÁN -©222222222222222222222-e2 12 CÁC MƠ HÌNH LẬP TRÌNH PHÂN TÁN VÀ SONG SONG 1.2.1 Lập trình song song với nhớ chia SẺ St St Sshsrersrrerrrrerree 1.2.2 Lập trình song song với nhớ phân tán -.- :cccSccscssccerrrrerrees 13 CÁC MƠ HÌNH LẬP TRÌNH PHÂN TÁN -52222222212221222.2 e6 12 1.3.1 Mơ hình MPI 1.3.2 Mơ hình CORBA 52 2222222221221122111211221112122122112121222 xe 12 1.3.3 Mơ hình MapReduce 1.4 GIỚI THIỆU VẺ BIG DATA VÀ TẬP TIN CÓ KÍCH THƯỚC LỚN 18 1.5 TIỂU KẾT CHƯƠNG I . -22222122212221221211222.2122 xe 21 Chương 2.CÔNG CỤ LƯU TRỮ DỮ LIỆU BIGTA.BLE 22 2.1 GIỚI THIỆU CHUNG VẺ BIGTABLE .©22-222222122212221222122122e ?2 22 MƠ HÌNH DỮ LIỆU CỦA BIGTABLE -©22-22222212221221222.x2e 22 2.2.1 Hàng 2.2.2 Họ cột 221 2212221222221 Q.20 2222212221221222222112212222222 222222222 2.2.3 Nhãn thời gian 23 L1 SH nh HH Hà HH ea 22 rrea 23 He 24 CÁCH THỨC HOẠT DONG CỦA BIGTABLE 2222222222222 24 2.3.1 Giao diện API .25 222 2212221222122222112211222122222222 24 2.3.2 Xây dựng khối -22 222 221122122212221211221122222222ee 26 ili 2:4: THỤG THEBIGTABIE:seesessroseinsstsoaidiidoagnigoogtioottitrsosnsaitwGonstgal 27 24.1 Định wị bằng: pPhỤ:zszecseseesrreimnenrssrienirisrsritnins215011010EEEL81300010EES0E010103502002 00020 2.4.2 Chỉ định bảng phụ 2.4.3 Phục vụ bảng phụ S1 HH HH Hà He treo 30 Hình 2.2 Mơ hình phục vụ bảng phụ c St nhe 31 "` 32 2.5 TIỂU KẾT CHƯƠNG 2252222222222 tt trrrrrrreo 32 Chương LƯU TRỮ DỮ LIỆU PHAN TAN CO CAU TRUC VA MO PHONG33 3.1 HE THONG FILE PHAN TAN HDFS TREN NEN TANG HADOOOP 33 3.1.1 Giới thiệu HDES 55: c2 22221 2222 tre 33 3.1.2 Kiến trúc cách hoạt động HDFES cà cseiherererres 33 EM //10109)00/02 0n -‹aẲẰII L.I.I Ả 37 3.2.1 Giới thiệu MapReduee 22 2222212221221122112121222ee 37 3.2.2 Giới thiệu Hadoop . 52 222221222112211211121112112112122 e6 37 3.3 CÔNG CỤ LƯU TRỮ BIG DATTA -. ©222222222222222122231122312222122x2 38 nS nhàng tre 3.3.1 Công cụ lưu trữ HBase - 38 8.322 MOthink dtl Gs ceserenamncaersrsrorr sneer mernormererersn nercerrenrennmrsramnsenrenties 3.3.3 Khung nhin khai niém 3.3.4 Khung nbin lou trit vat ly eee eeeeeeeeeeneeeeeeeneeneeeeeeeneeneeesreeens 40 BPS aes tthe yar thane itll resem remmnoenenan neers 3.4 CÔNG CỤ LƯU TRỮ HORTONWORKS eennuerson man eunemseempmmusmmeens 4I DATA PLATFORM 45 - St n1 3.4.1 Giới thiệu HDP 46 3.4.2 Những đặc tính quan trọng HDP - St Scsiisrrrrerrrrerree 46 3.4.3 Các thành phần HDP -222 2222221222122211211121122121212 e6 46 3.4.4 Cài đặt HortonWorks 2.6.5 Hệ điều hành Window -s5¿ 48 3.5 MÔ PHỎNG LƯU TRỮ DỮ LIỆU -2¿222c¿22222Sv2cccccrrrrree 48 3.5.1 Mô tả toán ch HH re, 48 3.5.2 Dữ liệu đầu vào, đầu toán -s 22s 221 21211151115x E2 xee 48 3.5.3 Thực truy vấn với Big Dafa 22-222 22222122221.2222ee 51 iv Hình 3.6 Câu lệnh truy vấn tinh thời gian trễ trung bình chuyến bay 51 Hình 3.7 Kết truy vấn thời gian trễ trung bình chuyến bay 52 3.6 TIỂU KÉT CHƯƠNG 22.222 2221222112221122112211211 211cc 53 KẾT LUAN VÀ KIÊN NGH[czccninzt n0 Hồn gi Hãng Hãng gi t1381g3111881g3111381g34pta8xg4 54 TAI LIEU THAM KHẢO .5 555c52+2+SE2vvtEEEtttErktttrkrttrrrrrrrrrrrree 55 DANH MỤC CÁC BẢNG Bang 1.1 Bang so sánh tiến trình luồng Bảng 3.1 Mô ta cấu trúc liệu đầu vào VI DANH MỤC CÁC HÌNH Hình 1.1 Hoạt động luồng Pthread 22-222 2222252221122312111211 2112 xe Hình 1.2 Mơ hình lập trình song song với chia sẻ nhớ dựa luỗng Hinh, 1,3: M6 hinh FORK, JOIN seem Hinh 1.4 Sự trao đổi thơng điệp hai tiến trình . -222 2222222222226 12 Hình 1.5 Cấu trúc chương trình MPI .- 2222222221221222112212212212212122.2 e6 13 Hình 1.6 Mơ hình kiến trúc CORBA -222-2222 2221 2211221122121 21 e6 15 Hình 1.7 Truy cap internet CORBA thong qua IIOP ee eeceeeeeeeteneeteereneenes 17 Hình 1.8 Hinh anh don giản hóa q trình xử lý MapReduee 17 Hình 1.9 Biểu diễn thuộc tính Big Data 5522222 22122212222222 e6 19 Hình 1.10 Các thành phần Big Datfa -225 2222221222122222222ee 20 Hình 2.1 Hệ thứ bậc cấp - 22222 222222122122121121121121222222 2222 e 27 Hình 2.2 Mơ hình phục vụ bảng phụ ccc c 2S nh Hrehereeee 31 Hình 3.1 Quá trình client đọc tập tin HDES St se sisirerrrrrrreres 34 Hình 3.2 Quá trình client ghi tập tin HDES c se sisieirrrereres 36 Hình 3.3 Mơ hình lữu trữ Big Data với Hbase eeeeceeeeeeteeeteeeeeeneeees 39 Hình 3.4 Các thành phần HDP 22222 22222212221222122122221,22 e6 47 Hình 3.5 Trang tải tập liệu chuyến bay -.- 222222212221222122122 e6 49 Hình 3.6 Câu lệnh truy vấn tính thời gian trễ trung bình chuyến bay 51 Hinh 3.7 Két qua truy vấn thời gian trễ trung bình chuyến bay 32 Hình 3.8 Kết truy vấn trả hãng hàng khơng có thời gian trễ lớn 32 Vii DANH MỤC CÁC TỪ VIẾT TẮT HDFS — Hadoop Data File System HDP — Hadoop Data Platform Vili |CRSArrTime Thoi gian dén du kién (local, hhmm) |UniqueCarrier Mã nhà cung cấp riêng 10 |FlighfNum Số chuyến bay 11 [TalNum Số đuôi máy bay 12 |ActualElapsedTime |Tính phút 13 |CRSElapsedTime Tính phút 14 |AirTime Tinh bang phut 15 |ArrDelay Đến trễ, tính phút 16 |DepDelay Chậm trễ khởi hành, tính phút 17 |Ongin Nguồn gốc 18 |Dest Điểm đến 19 |Distance Khoảng cách tính dặm 20 |Taxiln Thời gian taxi vào, tính phút 21 |TaxiOut Thời gian taxi ra, tính phút 22 |Cancelled Các chuyến bay bị hủy bỏ? ÌCaneclidderEode Lý hủy (A = tàu sân bay, B = thời tiết, C = hệ thống lưu trữ mạng, D = an ninh) 24 |Diverted Chuyển hướng (1=yes, 0=no) 25 |CarrerDelay Thời gian trễ vận chuyên, tính phút 50 26 |WeatherDelay Thời gian trễ thời tiết, tính phút 27 |NASDelay Thời gian trễ mạng hệ thống, tính phút 28 |SecurityDelay Thoi gian tré an ninh, tinh bang phut 29 |LateAircraftDelay | Thoi gian trễ cuối, tính phút b Đầu tốn: - Mơ việc lưu trữ liệu vào Bigtable - Thực câu truy vấn để thực hiện: + Xác định ngun nhân làm ảnh hưởng đến việc trì hỗn hủy chuyến bay hãng + Xác định hãng hàng khơng có trì hỗn hủy bỏ chuyến nhiều 3.5.3 Thực truy vấn với Big Data default Add Query Editor Query select uniquecarrier ,avg(arrdelay) fron delay_air group by uniquecarrier Ade Add # Enable Parameterization Email me on completion Hinh 3.6 Cau lénh truy van tinh thoi gian tré trung binh cdc chuyén bay Cho thoi gian truy vấn đề thực kết thực 51 Results $ Query Log uniquecarrier _e1 NULL, NULL AA AS 4.914672619596701 12.430301310250226 co 11.17253163079898 DL 11.92380158898709 EA 9.150126937213445 HP UA us §.538308657689646 8.782627987495378 9.861507577290493 NW 10.716904833722946 a Hình 3.7 Kết truy vấn thời gian trễ trung bình chuyén bay Thời gian trễ trung bình hãng máy bay Sau xử lý liệu, toán chia làm 23 hàm map ham reduce tự động hệ thống Tổng thời gian thực câu truy vấn 29 phút 28 giây 620 mili giây bo 2016941090 618138062 «+ _8 5ø ớ18]w|ớ] BE TT 5) s50 i0 010, 0T) Hình 3.8 Kết truy vấn trả hãng hàng khơng có thời gian trễ lớn Kết toán trả hãng hàng khéng co ma PS tén la Pacific Southwest Airlines có thời gian chậm trễ lớn 17,293 phút Như xử lý liệu Big Data để dự đoán hãng máy bay chậm trễ nhiều nhất, để từ có phương án lựa chọn chuyến máy bay cho phù hợp Chúng ta mở rộng tốn cho phù hợp với thực tế nhu cầu người sử dụng đặt như: Hãng máy bay có thời gian đến xác nhất? 52 Nguyên nhân làm máy bay trì hỗn cao nhất? mà cần thay đổi câu truy vấn cho phù hợp với toán người sử dụng đặt 3.6 TIỂU KẾT CHƯƠNG3 Trong chương giới thiệu HortonWorks Sanbox để mơ tốn công cụ lưu trữ diệu liệu chuyến bay, thực truy vấn để lay liệu từ Hbase 53 Hbase, KẾT LUẬN VÀ KIÊN NGHỊ Kếtluận Lưu trữ truy xuất đữ liệu lớn với cấu trúc lưu trữ Bigtable vấn để cần nghiên cứu ứng dụng vào thực tế Sau thời gian tìm hiểu, nghiên cứu cài đặt thử nghiệm đến luận văn hoàn thành, luận văn đáp ứng mục tiêu đề ra: - Tìm hiểu mơ hình lập trình song song phân tán - Tìm hiểu cấu trúc lưu trữ liệu lớn Bigtable cách thức hoạt động - Tìm hiểu cơng cụ mơ xử ly Big data Hadoop MapReduce - Ứng dụng thành công mô lưu trữ liệu vào Bigtable - Thực câu truy vấn Bigtable trả kết chuyến bay có thời gian trễ trung bình nhiều Một số hạn chế đề tài - Chưa thực đưa liệu trực tiếp từ tập tin liệu truyền thống vào Bigtable - Chưa cài đặt nhiều cụm máy phân tán hiệu suất cao Hướng phát triển - Thực cài đặt hệ thống nhiều máy để thực mô hiệu hơn, cho kết nhanh 54 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] PGS TS Doan Văn Ban, PGS TS Nguyễn Mậu Hân (2006), “Xử lý song song phân tán”, Nhà xuất khoa học kỹ thuật [2] Trần Cao Đệ (2013), “Điện toán đám mây toán xử lý đữ liệu lớn theo mơ hình ánh xạ - rút gọn”, Tạp chí Khoa học Trường Đại học Cần Thơ [3] Lê Thị Quỳnh Nga, Nguyễn Mạnh Tuấn, “Tập san tin hoc quan ly — Big Data: Bức tranh toàn cảnh, tập 03, số 1&2, 2014, 53-73” Tiếng Anh: [6] Bloom, B., H Space/time trade-offs in hash coding with allowable errors [7] Dean, J., and Ghemawat, S., MapReduce: Simplified data processing on large clusters In Proc Of the 6th OSDI (Dec 2004), pp 137-150 [8] Fay Chang, A.Wallach, Jeffrey Dean, Sanjay Ghemawat, Wilson C.Hsieh, Deborah Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E Gruber Bigtable : A Distributed Storage System for Structured Data OSDI’06: [9] Seventh Symposium on Operating System Design and Implementation,Seattle, WA, November, 2006 [10] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung The Google File System 19th ACM Symposium on Operating Systems Principles, Lake George, NY, October, 2003 55 PHỤ LỤC CÀI ĐẶT Cai dat HortonWorks 2.6.5 Oracle VirtualBox - Cai dat VirtualBox 5.2.6 - M6 VirtualBox Manager bang cach click vào shortcut & - Giao dién ctra s6 VirtualBox Manager @ Croce Vil Vitus Boe tianage a= & Generat FT) Ẻ 8" Pg [I somsune Galaxy 95 6.0.0- APL23- 144032560 (fectry backup) ÔPme=oF m= PoveresoF loudera-quickstart-vm-5.13.0-0-virtualbox (vores or & Preview ane Hertonnorks Sandbox HOP 2.6.5 Co Adctes ts Ine RO/ICC0 NT Deskin AT) /2 usa Usa controler: OH Dever ates: O(Dacie) Shared folders None © deception None - Chon File\Import Appliance Hle 6- MazineTedg — Zb37sde Hortonworks C1 ee WP Network TÌ [sie] Oracle VM VirtualBox Manager Machine Help @ Preferences Ctl+G ® Export Appliance Ctrl+E - Chọn đường dẫn đến tập tin HDP 2.6.5 56 # L# € » > ThisPC Organize + > Downloads vo Pp New folder & Downloads oa Decne ©) dloudera-quickstart-vm-5.13.0-0virtualbox ©) Pictures E¡ ucteop LY, Google Drive |) 17221420302 _files [> LENHDIEUXE 2018 |) [2018-06-13]thong-bao-trien-khai-noi-dung-thi-dua-2017-2018 [Cec biew mau Bi ssi @ “Name (|) 181210420301 files Tons H Bieu mau gui kem thong bao tong ket nam hoc | Music len Bi Programs 4â OneDrive || Video | basic-ielts-listening! a This PC Be- TB 30Objects Bl tin I Desktop SH HDP_2.6.5 virtualbox 180626.0va Documents we Filename: [HOP 265 vieuaboc NBBbsous —_ „| [Open Vidualznion Format © Open Cancel Appliance to import VirtualBox currently supports importing appliances saved in the Open Virtualization Format (OVF) To continue, select the file to import below [C:serstranthuan \Downloads\HDP_2.6.5_virtualbox_180626.0va part ode | wa Conca - Cấu hình chi tiét cho may Ao HortonWorks va chon Import 57 Appliance settings These are the virtual machines contained in the appliance and the suggested settings of the imported VirtualBox machines You can change many of the properties shown by double-clicking on the items and disable others using the check boxes below Virtual System & Name Hortonworks Sandbox HDP 2.6.5_1 E Guest 0S Type G cru Bram Ss Ge Red Hat (64-bit) 8192 MB USB Controller {PR Sound Card ee v Network Adapter Intel PRO/1000 MT Desktop (82540EM) > Storage Controller (IDE) PILX4 > Storage Controller (IDE) PIIX4 Virtual Disk Image CO CH ACS7 C:\Users\Tranthuan\VirtualBox VMs\Horton Reinitialize the MAC address of all network cards Appliance is not signed Restore Defaults Cancel - Qua trinh Import dang dién % a Importing virtual disk image 'Hortonworks Sandbox HOP 2.6 5-diskOO1.vmdk' (2/2) a 30 seconds remaining T% - Giao dién cai dat Horton Works 58 fy lease uait uhile the Hortonworks Sandbox is extracted and deploued hís process will onlu occur once Grab a drink - this may take a few minutes hile you wait, read up on interesting data articles here: lhttps://community.hortonworks.com/kb/List html extracting and loading the Hortonworks Sandbox BP SAEED Ow ratcn Hortonworks HDP Sandbox https: /hortonworks comproducts/sandbox To quickly get started with the Hortonworks Sandbox, follow this tutorial: https :/hortonworks com/tutor ial/hadoop-tutor ial-gett ing-started-with-hdpTo For initiate VirtualBox: Welcome SSH: For your Hortonworks screen: Sandbox session, open a browser to this address: httn:⁄⁄zlocalhost:188B http://localhost : 4266 UHMane: Welcome screen: http:7716.8.2.15:1888 SSH: http:7/18.8.2.15:4266 Baas BB Owe cu - Giao dién sau cai dat hoan - Mé trinh duyét web va nhap vao dia chi localhost: 1080 Giao diện sau 59 €— Ơ [@ loeahestio3o/plaeh hi Ei Ứng dung ⁄Ð CảctebmGiđeng / ApacheE3.e-lm GY HD RAMBCHorgk @ Liem Chim Be Nhs MM NAMBINH DAN (TS GE} Ek6:Vrcutdagnc san wma»lj Phim Hanh Bong 21 e > + HDP2.6.5 NEW TO HDP ADVANCED HDP Explore the Hortonworks Data Platform (HDP) Walk through a typical use case with the tutorial Expand your Hortonworks Data Platform (HDP) experience Access components in Sandbox LAUNCH DASHBOARD QUICK LINKS Cai dat bai toan - Khởi động HortonWorks 2.6.5 cài đặt - Mở trình duyệt web nhập vào địa chỉ: localhost: 1080 Giao diện hình bên € > Ơ [@ beahostt086/splsshihoni HÍ Ủng dung D Cactsb ma: déng / Apschekðse-ln WEB HD RAVE Hong ik: E Liém Chinh DE Nhs HN] NAMBÍNHOĂN(( {TÄ 836V/dutểnghe wwmaixljle WEB Phm Hành Đồng, HORTONWORKS: sano QQ NEW TO HDP Explore the Hortonworks Data Platform (HDP) HDP2.6.5 ADVANCED HDP Expand your Hortonworks Data Platform (HDP) experience Walk through a typical use case with the tutorial Access components in Sandbox LAUNGH QUICK LINKS - Chon Quick Link dé truy cp vao cac phan cha HDP Sỹ ADVANCED HDP Expand your Hortonworks Data Platform (HDP) experience Access components in Sandbox » + - Chọn AMBARI đăng nhập vào hệ thống với username password: raj_ops LÊ san) HELP ADVANCED HDP QUICK LINKS ATLAS WORKFLOW MANAGER ZEPPELIN WEB SHELL CLIENT (SHELL-IN-A-BOX) - Truy cập vào File để upload liệu lên hệ thống Name > se > owner > Group > Comaprea a 2018-06-18 21.62 mapred hats Hive View Hive View 2.0 py Pia View ~ Tez View 4) yworkflow Manager Dapp-ogs - 2018-08-18 22-18, yam hadoop druncrvcrnx nadoop dre xrx Dats Last Moaitied > 2018-06-18 21:62 Congp PAfwy2+ecoveny sử 2018-06-18 21:82 ats nơ: anwerxrx s 2018-08-18 22-11 iy hats dx 2018-06-18 28:18 ats nafs dre rx Dapps Comenisiory > 2018-06-18 21:52 mapred adoop ` Granger = 2016-06-16 22:59 hats hfs: diExrx 2018-06-18 23:19 spark hadoop diiynutoi hats anwar nfs: druxrrx Di spark2-nistory Paimp - 2018-08-18 23.06 Buser = 2018-06-18 23:08 hats - Tài lên tất tập tin thông tin chuyến bay từ năm 1987 đến năm 2008 [ERED Tả xuẽng estonia Sones x [tearing he Ron eK |S Ambar Sandbox x [fl Enterpase-ReacyA X |L#R ManageDekratll X_# S/auto files instance wetSogho (Phim Hanh Bing 2) 84122: PHP tag © Big Vu Miens Ph € > SO tocaoss8030/4/main Ứgdựg Ø2 Cictabrsising [] B59 & Upload file to 2a geay x Cancel x + o wemeego x - Tạo bảng liệu chứa toàn liệu Bước 4: Tạo bảng liệu chứa tập tin mục Hive “ Table Name ACTIONS heatsmokeida8c06538_date402512 Createa new table from file sample_O7 Create a new table sample_08 manually Zzxzx Điển vào trường Name Table với 'delay_air’ Sau bam vao nut Chon mét tập tin Chọn tập tin vừa tải lên “1987) ACTIONS Create a new table from afile Create a new table manually Choose Delimiter Name Your Table and Step 3: Define Columns Choose A File Table Name detay_airt Name of the new table Table names must be globally unique Table names tend to correspond as well to the directory where the data will be stored Description Optional Use a table comment to describe your table For example, you might note the data's provenance and any caveats users need to know Input File Import data from file fuserisandbox/1987.csv This field is required The HOFS path to the file that you would like to base this new table definition on It can be compressed (gzip) or not ø Check this box if you want to import the data in this file after creating the table demnition Leave i unchecked if you want to define an empty table Hoan dat tén cho bang va vi trí đầu vào liệu nhắn Next đề tiếp file Leave it unchecked if your input file contains the simple csv-formatted data (non double-quoted values, etc) Table preview Year 1967 1987 1987 1967 1967 1887 1887 1967 1887 62 Month DayofMonth 1014 1016 10 17 10 16 10 19 10 21 10 22 10 23 10 24 DayOfWeek 5 DepTime CRSDepTime 71 730 ms 730 71730 ms 730 746 730 72B T30 ms T30 TẠI — T30 TÁA T30 AnTime 912 903 s18 ey 922 B48 — 852 — S02 S08 CF 84 84 94 04 84 84 84 84 mm Chọn create bảng liệu HCatalog: Query Results: delay_air Resuts owntoans Download as sv Download as xis Query Log year © month dayofmonth ~ dayofweek © deptime © crsdeptime © artime © crsarrtime © uniquecarier - flghtnum ee | Year MoNN DayoĐonh O3/OfWek DepTime CRSOspTme AnTime CRSAnTime UniqueCarier FigtNum TaiNum save wn sons Koise, sec ceic running tis query ower mo 187 10 67 1987 10 TẾ 1U wer mF 1967 11 T97 10 mm." A 5 16 17 18 18 28 TT ™ T0 ma 780 74730 19 T0 HH TH0 TO 730 TH 74 TH Bg S8 — B40 sO eg 8M ee H49 a2 H49 — 89 SƠ HA Ps Ps PS P Ps Ps Ps Ps Ps HƠI ust HƠI HỘI ust ust at Met ust NA NA NA NA NA NA NA NA NA , Backtto first row | Next page —- HCatalog: Table List * Table Name Create a new tape rom ne Create a new able manvaly oe deay_air ufo Baty Browse Data delay_ai2007 nyse_stocks sampe 0T sample 08 Browse Browse Browse Browse Data Data Data Data Xuất hién bang delay_air HCatalog Table Metadata: delay_air columns Import Data Browse Data rep Tate View in He ng Wee actualeapsectime anime TH amime ‘canceatoncode canceled camerdely tramime crsdeptine crelapsedime dayotmonin đay0fweek epdetay mee sting sting mg string sưng sting sưng sting sưng string sưng sting sting Chon import Data xuất giao diện 63 _ a = Import data Note that l ing data will move storage location data from its location into the table's Path Overwrite existing data user / sandbox = Upload a file Chọn file liệu năm 1988 nhấn Submit (tương tự ta làm cho năm 1989 đến 2008) Tiến hành xử lý bảng liệu vừa tạo với Hive 64

Ngày đăng: 11/01/2024, 22:46

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan