Hadoop là một Apache framework mã nguồn mở cho phép phát triển các ứng dụng phân tán đề lưu trữ và quản lý các tập dữ liệu lớn.. Hadoop hiện thực mô hình MapReduce, mô hình mà ứng dụng s
Chức năng nhiệm vu ctta Hadoop ce ccecececceseesessesseesecesecseveseeseceseessesseseesseseeesenes 6
Thiết lập biến môi trường cho Java JDK 5-55 S2 2E E211 reo 19
Cần cầu hình biến môi trường JAVA_ HOME cho Java JDK
: : 8.6jar MongoDB Rosa Visual Studio 2020
Pin to Quick access ) : = ` ` nh
ie MongoDB ru 1.exe Visual Studio LuyenKorea
Disconnect network drive Soi 5 Gyaptaiit Gone
Rename : a: uPhan Mytikas.exe - Snipping Too Vysor
Bấm chuột phải vào Computer / chon Properties
About Your PC is monitored and protected This page hes a few new settings
Some settings from Control Panel
See details in Windows Security have moved here, and you can copy your PC info so it's easier to share
Device name thanhtran Related settings 4} Sound Processor intel(R) Core(TM) i7-8565U CPU @ 180GHz 199 BitLock ttLocker settings © Notifications & actions stated 160GB (15.8 Gb usable) Device Manager ĐÔ ro Davice ID 2F38152D-7F01-48CE-8FD6-78A27F4F7871 Remote desktop
Product ID 00328-00102-31099-AAS60 Ôn ai System type 64-bit operating system, x64-based processor System protection
Pen andtouch ?en and touch support with 10 touch points Advanced system settings © Battery
Copy Rename this PC (advanced) ©= Storage
@ Projecting to this PC Version 20H2
Màn hình Environment Variables sẽ xuất hiện như dưới đây:
IntelliJ IDEA Community Edit C:\Program Files\etBrains\IntelliJ IDEA Community Edition 2019.1 MOZ_PLUGIN_PATH C:\Program Files (x86)\Foxit Software\Foxit PhantomPDF\plugins\ OneDrive C:\Users\admin\OneDrive
Path C:\Users\admin\AppData\Local\Programs\Microsoft VS Code\bin, PyCharm C:\Program Files\JetBrains\PyCharm 2020.2\bin;
TEMP C:\Users\admin\AppData\Local\Temp
TMP C:\Users\admin\AppData\Local\Temp
ComSpec CWINDOWS\system32\cmd.exe
DriverData C\Windows\System32\Drivers\DriverData
GOOGLE_APPLICATION_ CRE D:\UBTech\train\CruzrSpeak\My First Project-3e2110b059fe.json NUMBER_OF_PROCESSORS 8
Path C:\Program Files (x86)\Common 2 ee ¥
Trong mục user và system variables ta cầu hình JAVA_HOME trỏ tới noi cai dat JDK
(bằng cách nhắn vào nút New )
Browse Directory Browse File Cancel
132371028191684116 C:\Program Files\JetBrains\IntelliJ IDEA Community Edition 2019.1 C:\jdk1.8.0_201
C:\Program Files (x86)\Foxit Software\Foxit PhantomPDF\plugins\ C:\Users\admin\OneDrive
C:\Users\admin\AppData\Local\Programs\Microsoft VS Code\bin; C:\Program Files\JetBrains\PyCharm 2020.2\bin;
C:\Users\admin\AppData\Local\Temp
Value D:\apache-tomcat-9.0.20 C:\ProgramData\chocolatey C:\WINDOWS\system32\cmd.exe C:\Windows\System32\Drivers\DriverData D:\UBTech\train\CruzrSpeak\My First Project-3e2110b059fe.json C:\jdk1.8.0_201
Sau do bam OK lién tuc dé dong cac cửa sô cũng như xác nhận sự thay đôi
Tiếp theo cầu hinh Path (cho ca user va system variable) Tìm tới biến Path, nhan Edit:
User variables for a| Edit environment variable
Chocolatevl astP; C:\Users\admin\AppData\Local\Programs\Microsoft VS Code\bin
Thém lénh: %JAVA_HOME%)\bin nhắn OK
Kiểm tra lại quá trình cầu hình bằng cách Gõ phím Windows +R—>gõ cmd:
Trong màn hình command line lên gõ các lệnh trên dé thay ket qua: java -version javac -version
Vào link sau tải hadoop 3.3.6 về: https: //mirror.downloadvn.com/apache/hadoop/common/hadoop-3 3.6/hadoop-3.3.6 tar.gz
Bấm chuột phải vào '“hadoop-3.3.6.tar.gz”
HEB Extraction path and options ?
Destination path (will be created if does not exist) Display c\ Y New folder
Extract and replace files + % admin
Extract and update files ~_ Thịs PC
Fresh existing files only + 53 3D Objects
Overwrite mode + 2 Documents © Ask before overwrite + &y Downloads co +) Music
O Overwrite without prompt a Bs Pictures
Extract archives to subfolders + TheNho (F:)
[_] Keep broken files + Ing Libraries
+ & Network [_] Display files in Explorer -em
Chinh qua O C réi bam OK:
Mở ô C lên->thấy thư mục hadoop-3.3.6
Thiết lập biến môi trường cho Hadoop - 5s 5s SE 2E Errrrre 27
Tuong ty nhu JAVA JDK, ta cần cấu hình biến môi trường cho Hadoop (HADOOP_HOME)
Lân lượt trong user và system variable thêm biến HADOOP_HOME có giá trị là CAhadoop- 3.3.6 mà †a giải nén ở trên
Sau đó chỉnh sửa biên path cho ca user va system variable BO sung thém:
CAUsers\admin\AppData\Local\Programs\MIcrosoft VS Code\bin
CAUsers\admin\AppData\Local\GitHubDesktop\bin
C:\Users\admin\AppData\Roaming\npm
%USERPROFILE%\AppData\Local\Microsoft\WindowsApps
Nhan Ok dé dong tat cả các cửa số
Mé CMD để test lai:
| BE C\WINDOWS\system32\ermd exe 5
Source code repository https://gitbox.epache.org/repos/asf/hadoop.git -r aa96f1871bfd858f9bac59cf2a81ec470da649af Compiled by brahma on 2020-97-96T18:44Z
|From source with checksum 5dc29b892d6CCd77b262ef9d94d19c4
|This command was run using /C: /hadoop-3 3.6/share/hadoop/common/hadoop - comwon- 3 3.8 jar
Cầu hình các tập tin cho Hadoop - 5c 1E E2 1211211121212 E1 Enernrye 30
Trong thư mục C:/Hadoop-3.3.6/etc/hadoop lần lượt chỉnh sửa các file:
= mapred-site.xml ằ hdfs-site.xml
= yarn-site.xml ô hadoop-env.cmd
Cấu hình core-site.xml như dưới đây:
Cấu hình mapred-site.xml như dưới đây:
mapreduce.framework.name
Cấu hình hdfs-site.xml như dưới đây:
Tao thư mục “data” trong “C:/Hadoop-3.3.6”
Tao thư mục con “datanode” trong “C:/Hadoop-3.3.6/data”” Tao thư mục con “namenode” trong “C:/Hadoop-3.3.6/data'”
Sau đó cầu hình hdfs-site.xml như sau:
dfs.namenode.name.dir
/hadoop-3.3.6/data/namenode
dfs.datanode data.dir
/hadoop-3 3.6/data/datanode
Cấu hình yarn-site.xml như dưới đây:
yarn.nodemanager.aux-services
yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
Cau hinh hadoop-env.cmd:
Mở file nảy lên và tìm tới lệnh:
._ setJAVA HOME=%JAVA HOME% sửa %IAVA_HOME% thành đường dẫn cài JDK trong ô C: ô set JAVA_HOME= C:/jdk1.8.0_201
Sau do format lai namenode va datanode: mo command line lén, g6 lénh sau: ô hdfs namenode —format ô hdfs datanode -format
Bước format này chỉ cần làm 1 lần
*Tiép theo sao chép file:
“C:/hadoop-3.3.6/share/hadoop/yarn/timelineservice/ hadoop-yarn-server-timelineservice- 3.3.6.Jar”
Hoàn thành cài đặt Hadoop và test thử nghiệm với start-all.cmd 35 1.3 Các thuật toán ứng dụng cho thư viện MPI và Map_ Reduce cccccsccss° 37
Đề test Hadoop, ta mở command line và di chuyên tới thư mục C:/hadoop-3.3.6/sbin Sau đó gõ lệnh: ô Start-all.cmd
Chỉ tiết xem hình các lệnh dưới đây:
Gia C:\WINDOWS\system32\cmd.exe = n x
(c) 2020 Microsoft Corporation All rights reserved C: \Users\admin>cd\
C:\hadoop-3.3.@\sbin>start-all.cmd,
Sau khi gõ lệnh trên, hệ thống sẽ chạy Hadoop
Phải đảm bảo các ứng dụng sau được chạy:
Như vậy ta đã khởi động thành công: vao http://localhost:8088 vao http://localhost:9870
Như vậy ta đã test thành công
Ngoài ra ta có thê tách chạy 2 lệnh:
— Khởi động namenode và datanode : start-dfs.cmd
— Khoi déng yarn bang lénh: start-yarn.cmd
1.3 Các thuật toán ứng dụng cho thư viện MPI va Map_Reduce 1.3.1 Tìm hiểu về các thuật toán a) Các thành phần Hadoop MapReduce
Khi lập trình với MapReduce các bạn chỉ cần phải đề ý tới 3 lớp sau:
3 Reducer b) Tổng quan thực thi
Record on =o L—„Enumerson * Reduce -—*| Record
Record >|] Map Task | Shuffle/Sort | ees >| Record ô May master phõn phối M Map task cho cỏc mỏy vào theo dừi tiến trỡnh của chỳng ô - Cỏc Map task đọc dữ liệu và tiến hành xử lý, kết quả được lưu trữ tại local buffer ¢ Pha Shuffle chi dinh cac reducers toi cac ving nhớ đệm nơi mà chúng được đọc từ xa va xu ly boi cac reducers ¢ Reducer xuat két quả và lưu trữ trên HDFS c) Mapper
Day là pha đầu tiên của chương trình Có hai bước trong pha nay: splitting and mapping Mot tập đữ liệu được chia thành các đơn vị bằng nhau được gọi là chunks trong bước phân tách (splitting) Hadoop bao gồm mét RecordReader str dung TextInputFormat dé chuyén déi các phân tách đầu vào thành các cặp key-value d) Shuffle Đây là pha thứ hai diễn ra sau khi hoàn thành Mapper Nó bao gồm hai bước chính: sắp xếp và hợp nhất (sorting and merging) Trong pha nay, cac cap key-value duge sap xép bang cach sử dụng các key Việc hợp nhất đảm bảo rằng các cặp key-value được kết hợp e) Reduce
Trong pha Reduce, đầu ra của pha Shuffle được sử dụng làm đầu vào Reducer xử lý đầu vào nảy hơn nữa đề giảm các giá trị trung gian thành các giá trị nhỏ hơn Nó cung cấp một bản tóm tắt của toản bộ tập dữ liệu, ví dụ như là tính tông, tìm max, min, Đầu ra của pha nảy được lưu trữ trong HDFS
?) Ưu điểm của Hadoop MapReduce
Hỗ trợ xử lý và tính toán song song (Parallel Processing)
Trong MapReduce, công việc được phân chia giữa nhiều node và mỗi node hoạt động đồng thời với một phần công việc Mô hình MapReduce cho phép công việc được phân chia ra thành các công việc nhỏ hơn hoản toàn riêng biệt
Mặc dù các máy đã kết hợp với nhau thành một cụm, tuy nhiên khi đữ liệu càng lớn lên thì việc di chuyên đữ liệu giữa các máy là rất mat thoi gian và có thê gây ra các van dé như tắc nghẽn đường truyền.
Hadoop khắc phục vấn đề trên bằng cách phân phối dữ liệu ở nhiều node và mỗi node xử lý các phân dữ liệu nằm trên chính nó
Khả năng mở rộng (Scalability)
Hadoop có khả năng mở rộng cao, có thê lên tới hàng nghìn node mà không ảnh hưởng tới hiệu năng cũng như phát sinh lỗi
Ví dụ để scan 1000TB đữ liệu trên 1 node với tốc độ 100MB4s thì sẽ mắt 24 ngày, và khi mở rộng cụm lên 1000 node chúng ta cũng mắt tương đương 35 phút để scan xong 1000TB dữ liệu này (hiệu năng hoàn toàn không bị giảm sút và không có phát sinh lỗi trong quá trình mở rộng)
Tính sẵn có và khả năng chịu lỗi (Availability & Fault Tolerance) _ Hadoop lưu trữ các bản sao của đữ liệu trên các node khác nhau, vì thê trong trường hợp bị lỗi ban sao dữ liệu luôn săn sàng sử dụng bât cứ khi nào được yêu câu đề đảm bảo tính săn có của dữ liệu
Nhờ tính năng sẵn có của dữ liệu mà Hadoop có khả năng chịu lỗi cao, khi một Task bị kill hay là một node bị mắt kết nói dẫn tới Task đó không được hoản thành thì Hadoop sẽ nhanh chóng phát hiện và chỉ định một node mới có chứa bản sao dữ liệu thực hiện Task đó (đảm bao tinh /ocality)
Chi phi thap (Cost-effective)
Như đã được đề cập tới trong bai Gidi thiéu tong quan vé Hadoop, Hadoop chay trén cac may cé phan ctmg phé thong (commodity hardware), la các máy rẻ, băng thông không cao Hadoop có khả năng chịu lỗi cao vì vậy cần ít các quản trị viên hơn Hadoop là dé hoc, dé str dụng nên cũng tốn ít chỉ phí trong việc đảo tạo cũng như thuê nhân công
Bảo mật và xác thực (Security & Authentication)
Mô hình lập trình MapReduce giải quyết rủi ro về bảo mật bằng cách làm việc với HDFS và HBase có tính mật cao chỉ cho phép người dùng được phê duyệt mới có thê thao tác trên dữ liệu được lưu trữ trong hệ thống
Mô hình lập trình đơn giản
Các bạn có thê thấy mô hình lập trình MapReduce là cực kì đơn giản, ngoài ra thì Hadoop MapReduce sur dung ngôn ngữ Java là một ngôn ngữ phô bien và dé hoc
CHUONG 2 : BIEN DICH VA KHOI CHAY CAC THUAT
2.1 Biên dịch và chạy chương trình MultiMatrix
Mở cửa số lệnh dưới quyền Administrator và chuyên vào thư mục thư mục hiện hành
* Khai báo biến môi trường chỉ đường dẫn set HADOOP_LIB=c:\hadoop\hadoop-3.3.6\share\hadoop set HADOOP_CLASSPATH=%HADOOP_LIB%\mapreduce\hadoop-mapreduce-client- core-3.3.6 jar;“HADOOP_LIB%\common\hadoop-common-3.3.6 jar;
Biên dịch mã nguồn java thành các file classes\*.class
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>md classes
A subdirectory or file classes already exists
C: \hadoop\Nhan_Hai_Ma_Tran_MxN>javac -cLasspath %HADOOP_CLASSPATH% -d cLasses * java MatrixMultiply.java:1: error: package org.apache.hadoop.conf does not exist import org.apache.hadoop.conf.Configuration;
MatrixMultiply.java:2: error: package org.apache.hadoop.fs does E> a import org.apache.hadoop.fs.FSDataInputStream;
MatrixMultiply.java:3: error: package org.apache.hadoop.fs does import org.apache.hadoop.fs.FileStatus;
MatrixMultiply.java:4: error: package org.apache.hadoop.fs does import org.apache.hadoop.fs.FileSystem;
MatrixMultiply.java:5: error: package org.apache.hadoop.fs does import org.apache.hadoop.fs.Path;
MatrixMultiply.java:7: error: package org.apache.hadoop.io does import org.apache.hadoop.io.LongWritable;
MatrixMultiply.java:8: error: package org.apache.hadoop.io does import org.apache.hadoop io Text;
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>dir classes
Volume in drive C is Win
Directory of C:\hadoop\Nhan_Hai_Ma_Tran_MxN\cLasses
Xoa file * jar néu đã có trước đó Đóng gói file * Jar
Xóa thư mục /InputXY Z nếu đã có, tạo mới và chép đữ liệu vào
C:\hadoop\Nhan_Hai_Ma_Tran_MxN > hadoop fs -rm -r /inputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN > hadoop fs -mkdir /inputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN > hadoop fs -put M /inputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN > hadoop fs -put N AnputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN > hadoop fs -ls AnputX YZ
C:\hadoop\Nhan_Hai_Ma_ Tran _MxN >type M
C:\hadoop\Nhan Hai Ma Tran MxN >type N
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -mkdir /inputXYZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -put M /inputXYZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -put N /inputXYZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -Ls /inputXYZ
-rw-r r—- 1 ndbao supergroup 49 2024-05-23 12:15 /inputXYZ/N op\Nhan_Hai_Ma_Tran_MxN>type M
:\hadoop\Nhan_Hai_Ma_Tran_MxN>type N
Xóa thư mục /outputXY i Z nếu đã có hadoop fs -rm —r /outputX YZ
C: \hadoop`\Nhan_Hai_Ma_Tran_MxN>hadoop fs -rm -r /outputXYZ rm: ‘?r': No such file or directory rm: ‘/outputXYZ': Is a directory
Chạy chương trình Mapreduce với đữ liệu trong thư mục /inputXYZ„ kết quả xuất ra
C:\hadoop\Nhan Hai Ma Tran MxN > hadoop jar MatnixMultiplyXYZ.jar MatrixMultiply /inputX YZ /outputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop jar MatrixMultiplyXYZ.jar MatrixMultiply , outputXYZ
282U-85-23 12:16:36,20U TNFO impL.MetricsConfig: Loaded properties from hadoop-net
2024-05-23 12:16:36,264 INFO impL.MetricsSystemImpL: ScheduLed Metric snapshot period at 18 oi
2821-85-23 12:16:36,261 TNFO impL.MetricsSystemTmp1: JobTracker metrics system started
2021-05-23 12:16:36,181 WARN mapreduce.JobResourceUpLoader: Hadoop command-Lline option parsing not performed TImpL ement the Tool interface and execute your application with ToolRunner to remedy this
2024-05-23 12:16:36,614 INFO input.FileInputFormat: Total input files to process : 2
2024-95-23 12:16:36,649 INFO mapreduce.JobSubmitter: number of splits:2
2024-05-23 12:16:36,784 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local21043195_0001
-23 12:16:36,784 INFO mapreduce.JobSubmitter: Executing with tokens
12:16:36,925 INFO mapreduce.Job: The url to track the job //localhost:8080/
3 12:16:36,927 INFO mapreduce.Job: Running job: job_Local 996 -23 12:16:36, 927 TNFO mapred.LocaLJobRunner: OutputComnitter set in config nuLL
-23 12:16:36,935 INFO output.PathOutputCommitterFactory: No output committer factory defined, defaulting to FileOutputCommitterFactory
2624-95-23 12:16:36,937 INFO output.FileOutputCommitter: File Output Committer Algorithm version
2821: -23 12:16:36,937 TNFO output FiLeOutputCommitte FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
2624-85-23 12:16:36,938 INFO mapred.LocalJobRunner: OutputCommitter is org.apache.hadoop.mapreduce Lib output File OutputCommitter
2024-85-23 12:16:36,992 INFO mapred.LocalJobRunner: Waiting for map tasks
2024-05-23 12:16:36,992 INFO mapred.LocalJobRunner: Starting task: attempt_lLocal21043195_0001_m_000000_0 2024-95-23 12:16:37,026 INFO output PathOutputCommitterFactory: No output committer factory defined, defaulting to FileOutputCommitterFactory
2024 3 12:16:37,026 INFO output.FileOutputCommitter: File Output Committer Algorithm version 2
2024-05-23 12:16:37,627 INFO output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under coutput director alse, ignore cleanup failures: false
2624-95-23 12:16:37,635 INFO util.ProcfsBasedProcessTree: ProcfsBasedProcessTree currently is supported only on Li
Xem két qua trong /outputX YZ
C:\hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -Ls /outputXYZ
-rw-r r— 1 ndbao supergroup ® 2024-05-23 12:16 /outputXYZ/_SUCCESS
-rw-r r—- 1 ndbao supergroup 35 2024-05-23 12:16 /outputXYZ/part-r-00000 hadoop\Nhan_Hai_Ma_Tran_MxN>hadoop fs -cat /outputXYZ/part-r-00000
2.2 Biên dịch và chạy chương trình MapRcduce
Mở cửa số lệnh dưới quyền Administrator, Cd C:\hadoop\hadoop-3.3.6\
MapReduceShortestPath khởi động các tién trinh hadoop: chay start-all.emd
Khai báo biến môi trường chỉ đường dẫn set HADOOP_LIB=c:\hadoop\hadoop-3.3.6\share\hadoop set HADOOP_CLASSPATH=%HADOOP_LIB%\mapreduce\hadoop-mapreduce- client-core-3.3.6.jar;“”oHADOOP_LIB%\common\hadoop-common-3.3.6.jar;
Biên dịch mã nguồn java thành các file classes\*.class md classes javac -classpath “%HADOOP_CLASSPATH™% -d classes *.java dir classe
Xóa file *.jar nếu đã có trước đó del ShortestPathXYZ7.jar Đóng gói file * Jar
Jar -cvf ShortestPathXYZ.jar -C classes
C:\hadoop\hadoop-3 3.6\MapReduceShortestPath>del ShortestPathxYZ jar
C:\hadoop\hadoop-3 3.6\MapReduceShortestPath>jar -cvf ShortestPathXYZ.jar -C classes added manifest adding: AlgorithmMapper.class(in = 3682) ( 1610)(deflated 56%) adding: AlgorithmOutputKeyComparator.class(in = 1414) (out= 766)(deflated 45%) adding: AlgorithmOutputValueGroupingComparator.class(in = 1247) (out= 671)(deflated 46%) adding: AlgorithmPartitioner.class(in = 1056) (out= 554)(deflated 47%) adding: AlgorithmReducer.class(in = 1981) (out= 852)(deflated 56%) adding: ShortestPath.class(in = 3416) (out= 1637)(deflated 52%)
Xóa thư mục /inputX YZ nếu đã có, tạo mới và chép đữ liệu vào hadoop fs -rm -r /AnputX YZ hadoop fs -mkdir /inputX YZ hadoop fs -put inputl.txt /AnputX YZ hadoop fs -cat /inputX YZ/input1.txt
C: \hadoop`\hadoop-3 3 6\MapReduceShortestPath>hadoop fs -rm -r /inputXYZ
C:\hadoop\hadoop-3.3.6\MapReduceShortestPath>hadoop fs -mkdir /inputXYZ
C:\hadoop\hadoop-3.3.6\MapReduceShortestPath>hadoop fs -put input1.txt /inputXYZ
C: \hadoop`\hadoop-3 3 6\MapReduceShortestPath>hadoop fs -cat /inputXYZ/input1.txt {1,0,UNMARKED} {2,10} {3,18} {U,7}
C: \hadoop\hadoop-3 3 6\MapReduceShortestPath>hadoop fs -rm -r /outputXYZ*
‘?r': No such file or directory
Xóa thư mục /outputXY Z nếu đã có hadoop fs -rm —r /outputXYZ*