Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)

96 195 0
Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)

B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁN T T NGHI P NGÀNH CÔNG NGH THÔNG TIN H I PHÒNG 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG CÁC K THU T TRONG BIG DATA D LI U ÁN T T NGHI I H C H CHÍNH QUY Ngành: Cơng Ngh Thơng Tin H I PHỊNG - 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG CÁC K THU T TRONG BIG DATA VÀO D LI U ÁN T T NGHI I H C H CHÍNH QUY Ngành: Công Ngh Thông Tin Sinh viên th c hi n: Nguy n Chí Thanh ng d n: Nguy n Tr Mã s sinh viên: 1212101002 H I PHÒNG - 2016 B GIÁO D O I H C DÂN L P H I PHÒNG C NG HÒA XÃ H I CH T NAM c l p T H nh phúc -o0o - NHI M V THI T K T T NGHI P Sinh viên: Nguy n Chí Thanh Mã sinh viên: 1212101002 L p: CT1601 Ngành: Công Ngh Thông Tin tài: Áp d ng k thu d li u NHI M V TÀI N i dung yêu c u c n gi i quy t nhi m v tài t t nghi p a N i dung: - Tìm hi u v thành ph n cơng ngh qu n lý Big data - Tìm hi u mơ hình x lý d li u phân tán MapReduce - Tìm hi u h th ng Hadoop ng h th ng - Th nghi m v i công c gi i quy t toán b Các yêu c u c n gi i quy t - N c thành ph n công ngh Big data - N c ngun lý ho ng mơ hình Map Reduece - N c quy trình ho n c a h th ng Hadoop - Áp d ng ki n th c xây d ng ph n m m th nghi m Các s li u c n thi thi t k , tính tốn m th c t p CÁN B NG D TÀI T T NGHI P ng d n th nh t: H tên: Nguy n Tr H c hàm, h c v : Th i h c Dân l p H i Phòng N ng d n: - Tìm hi u v thành ph n công ngh qu n lý Big data Tìm hi u mơ hình x lý d li u phân tán MapReduce Tìm hi u h th ng Hadoop ng h th ng Th nghi m v i cơng c gi i quy t tốn tài t t nghi c giao ngày Yêu c u ph c ngày 30 n nhi m v Sinh viên n nhi m v Cán b ng d H HI NG n H u Ngh PH N NH N XÉT TÓM T T C A CÁN B NG D N Tinh th c tài t t nghi p: ng c tài t t nghi p (so v i n i dung yêu c nhi m v tài t t nghi p) m c a cán b ng d n m ghi b ng s ch ) Cán b ng d n (Ký, ghi rõ h tên) PH N NH t thuy A CÁN B CH M PH N BI TÀI T T NGHI P tài t t nghi p (v m th c t lý lu n, m c a cán b ph n bi n m ghi b ng s ch ) Ngày Cán b ch m ph n bi n (Ký, ghi rõ h tên) L IC Qua th i gian h c t p nghiên c u t i h c Dân l p H i Phòng, u tiên em xin chân thành c c t i th y giáo GS.TS NG n H u Ngh hi u ki n v v t ch t trang thi t b giúp chúng em h c t p nghiên c u th i gian qua Em xin chân thành c i t t c th y giáo, cô giáo nhà ng.Em xin chân thành c ác th y giáo cô giáo B môn Tin h c tr c ti p gi ng d y cho em nh ng ki n th c b ích c bi t em xin chân thành c th i gian làm t t nghi p v a qua, th ng d n em th c hi tài y giáo Nguy n Tr u th i gian tâm huy t qu c a trình tìm hi u nghiên c t c th i gian v a qua M c dù r t c g c th u bi t kinh nghi m c a cịn h n ch nên có th ph i k t qu mà th i t em Em r t mong nh c nh ng l i nh a th lu c hoàn thi u kinh nghi m cho công vi c sau Em xin chân thành c H i Phòng, tháng 12 16 Sinh viên th c hi n Nguy n Chí Thanh M CL C M C L C DANH M C HÌNH DANH M C B NG DANH M C T L IM VIÊT T T U CÔNG NGH QU N LÝ D LI U L N 1.1 Công ngh n n t ng áp d ng cho Big data 1.1.1 Tìm hi u thành ph n công ngh Big data 1.1.2 o hóa h tr tính tốn phân tán 16 1.1.3 Ki 24 1.2 Qu n lý d li u l n 36 1.2.1 d li u ho ng 36 1.2.2 Thi t b kho d li u l n 49 XÂY D NG KHO D LI N 51 2.1 Khám phá d li u phi c u trúc 51 2.2 Tìm hi u v n 52 2.3 Phân tích k thu t khai thác 54 2.3.1 Tìm hi u thu th p thơng tin 56 2.3.2 Nguyên t c phân lo i 57 2.4 t qu v i d li u có c u trúc 57 2.5 li u l n s d ng 58 2.6 Công c n cho Big data 60 2.6.1 Attensity 60 2.6.2 Clarabridge 60 2.6.3 IBM 61 2.6.4 OpenText 61 2.6.5 SAS 62 b L p Mapper ng v i ki u Float Java ng v i ki u Double Java p h tr th c hi n trình Map h th ng L p trình viên s vi t m t l p m i, th a k l i l p Mapper Có th c l p Mapper cho phù h c qua tr ng c n ph i quan tâm là: - c run(): L p trình viên có th c ki m soát vi c phân phát d li u t input split c quan tr ng nh t, h u h t ng h p L p trình viên ph c này, ng th c thi t k m i l n nh n vào x lý m t c p c L p Partitioner S d ng l p Partitioner giúp có th tùy bi n, phân nhóm c p u c a trình Mapper m i map task N u không s d ng l p tron li u c a trình Mapper s c gom l i thành m t nhóm nh t d L p h tr Combiner Combiner có th c ho c s d MapReduce, m a tác v gi ng d li u g map task t i reduce task B n ch t c a tác v Combiner th c hi n tác v Reducer t i t c g c hi n Reducer m t l n n a t i reduce task M i map task s th c hi n m t ho c nhi u tác v Combiner, m i Combiner s ph trách x lý m t nhóm d li u c a Mapper Vi c xây d ng l ng l p Reducer e L p Reduce L p Reducer h tr th c hi L p trình viên s thi t k l p m i th a k l i l c có s n n u c n thi là: - nh p Mapper, i i c run(): L p trình viên có th c ki m soát vi c phân phát d li u t trình Map g i t i 74 - c reduce() c map() l p Mapper, L p ng ph c c thi t k m i l n nh n vào x lý m t lo t c p có chung thu c tính key f L p WritableComparator D li c t o t tác v c phân nhóm, Combine vào b nh c c b c a máy ch y map task, s c reduce task chép v b nh c c b c a mình, m i reduce task ch chép v nh ng d li u thu c phân công x lý T li u c x lý t i c reduce() s c gom nhóm l i m t l n n a theo thu c tính key t ch c s p x p t ng nhóm n u có yêu c u L p WritableComparator cho i hàm compare() t o tiêu chí s p x p cho c p N u không khai báo s d ng l p m nh c p c gom nhóm s c s p x p theo b t k tiêu chí 3.1.3.2 Quy trình ho ng cn pm - m t job, JobTracker s th c hi n vi c kh i t o m t job m i h th ng Nó s cs ng input file n th c thi, th c hi n vi c chia thành input split Tùy theo s ng input split, JobTracker s yêu c u TaskTracker kh i t s ng map task c n thi t cho vi c x lý Th c thi t i Map Task M i map task s c vào m t input split phân thành nh ng record hàm run(), m i record m t c c cg th c hi n vi c tính tốn x lý t ng c p K t qu c x lý s c chuy tr t i b nh c c b c c d li ng quy nh, map task th c hi phân nhóm d li u N u t l p s d ng l p Combine, map task s th c hi n vi c Combiner cho t ng nhóm d li u K t qu sau th c hi n s c ghi vào m tt ct l ns th c hi n vi c chuy n d li u sang reduce task 75 Th c thi t i Reduce Task u tiên reduce task s chép d li u t map task v b nh c c b c a M i reduce task ch th c hi n vi c chép nh ng d li u thu c m t nhóm nh t nh Ti p theo, d li u s c gom nhóm theo key, m i nhóm có d ng , n c yêu c u s p x p, d li u m i nhóm s cs p x c g x lý ghi d li u HDFS Hình 3-11: Quá trình ho 3.2.1 ng d ng c a m t tác v MapReduce Hadoop t Hadoop cluster Nh ng phiên b n ph n m m, h Nh t: H u hành Ubuntu-16.04-1-desktop-amd64 Java SSH cài s n h u hành Hadoop phiên b n 2.2.0 t thi t l p chung h th ng c th c hi n Terminal) 76 3.2.1.1 t Java Hadoop yêu c u máy tính cluster ph c cài Java v i phiên b n th p nh t 1.5, phiên b h th ng ho ng m t cách t t nh t, phiên b n Java 1.6 s ng d ng d n sau, vi t Java s c th c hi n thông qua m t nhà phân ph i, n u th n có th t ng d n t i trang ch c a Oracle - Ki t ubuntu b ng câu l nh: - N - t java, ta s t ssh: 3.2.1.2 T - T - t b ng câu l nh: i dùng riêng cho Hadoop i dùng hadoop: i dùng hduser thu p vào tài kho i dùng hadoop: i dùng hduser: 3.2.1.3 C u hình ssh T o khóa ch ng th c SSH cho hduser: Ki m tra b ng l nh: 3.2.1.4 t c u hình Hadoop - Gi i nén gói Hadoop: - Di chuy t hadoop v - Chuy n quy n s d c /usr/local: i dùng hduser: - Chèn n i dung sau vào cu i t thi t l ng d i dùng hduser: thêm 77 - Chèn n i dung sau vào cu i t p tin hadoop/conf/hadoopthi t l ng d n Java cho Hadoop export JAVA_HOME = /usr/lib/jvm/java-9-openjdk thêm - Thêm vào gi a th t p tin hadoop/etc/hadoop/core-site.xml - Thêm vào gi a th t p tin hadoop/etc/hadoop/hdfs-site.xml - Thêm vào gi a th t p tin hadoop/etc/hadoop/yarn-site.xml 78 - Thêm vào gi a th t p tin hadoop/etc/hadoop/mapred-site.xml - T c ch a namenode datanode - Chuy n quy - i dung hduser nh d ng namenode 79 3.2.2 Kh ng h th ng p vào tài kho Hình 3-12 i dùng hduser: p vào tài kho i dùng hduser Start Hadoop: Hình 3-13: Kh ng Hadoop 80 Ki c ch y thành cơng: Hình 3-14: Ki m tra Hadoop Các trang qu n lý c a Hadoop: - All Aplications: localhost:8088 Hadoop Namenode: localhost:50070 Secondary Namenode: localhost:50090 Content of directory: localhost:50075 81 Hình 3-15: Trang qu n lý Hadoop All Aplications Hình 3-16: Trang qu n lý Hadoop Namenode 82 Hình 3-17: Trang qu n lý Hadoop SecondaryNamenode Hình 3-18: Trang qu n lý Hadoop Directory 83 Stop Hadoop: Hình 3-19: T t Hadoop T c tên vidu: Hình 3-20: T c vidu 84 c vidu nh p n i n: $ cat > vidu/vanban.txt Hình 3-21 Hình 3-22 b c vidu ct o 85 c vidu vào hdfs: Hình 3-23 c vidu vào hdfs 86 K T LU N Trong trình nghiên c u, tìm hi án t t nghi p ng k thu d li thu nh c thêm r t nhi u ki n th c v Big data Big data m tài r ng l ng m nh m nm i s ng xã h i Trong th i gian t i ch c ch n Big data s ngày th hi c s c m nh t m nh ng án t t nghi v công ngh n n t ng qu n lý d li u l n, mơ hình phân tán d li u Mapreduce mơ hình Hadoop Do th i gian th c hi án h n ch nên v n r t nhi u nh ng ki n th u khai thác Trong th i gian t i em s c g ng ti p t c nghiên c u tìm hi c Sinh viên Nguy n Chí Thanh 87 TÀI LI U THAM KH O Tài li u ti ng Vi t [1] Nguy n Minh Thu n, Nguy n Tr ng Th c - Nghiên c u n n t ng tính tốn song song v i MapReduce Hadoop Áp d ng cho vi c xây d ng wordnet ti ng Vi t t o ch m c tài li u, C [2] Bùi Th H ng Phúc - Xây d ng m t ng d ng minh h a cho kh MongdoDB , C a Tài li u Ti ng Anh [3] Tom White - Hadoop The Definitive Guide 3rd Edition [4] Judith S Hurwitz, Alan F Nugent, Dr.Fern Halper, Marcia A Kaufman Big data for dummies [5] Marcello Trovati, Richard Hill, Ashiq Anjum, Shao Ying Zhu, Lu Liu - Big data Analytics and Cloud Computing Tài li u tr c n [6] Website Hadoop: https://hadoop.apache.org/ [7] https://dinhnn.com/category/big-data/ 88 ... - ÁP D NG CÁC K THU T TRONG BIG DATA D LI U ÁN T T NGHI I H C H CHÍNH QUY Ngành: Cơng Ngh Thơng Tin H I PHÒNG - 2016 B GIÁO D O I H C DÂN L P H I PHÒNG -o0o - ÁP D NG CÁC K THU T TRONG BIG. .. N LÝ D LI U L N 1.1 Công ngh n n t ng áp d ng cho Big data 1.1.1 Tìm hi u thành ph n công ngh Big data 1.1.2 o hóa h tr tính tốn phân tán 16 1.1.3 Ki 24 1.2 Qu n... thi t b thông minh (hay cịn g mang c u trúc khơng c nh .Big data CÔNG NGH QU N LÝ D LI U L N 1.1.1 Tìm hi u thành ph n cơng ngh Big data Big data có s l ng d li li u có ki u khác t cao Nhi nhà phát

Ngày đăng: 24/02/2018, 20:57