MapReduce trên Eclipse
Trước tiên cần tải về và cài đặt java 1.6 hay phiên bản cao hơn.
Môi trường cài đặt thử nghiệm của bài viết: Ubuntu 13.04 , Apache™ Hadoop® 1.1.2 và Eclipse JUNO. Không có ràng buộc phiên bản, có thể sử dụng phiên bản mới hơn.
Để cấu hình môi trường Hadoop, ta cần thiết lập hadoop cluster. Chi tiết cho việc thiết lập single node Hadoop cluster có thể tìm ở địa chỉ: http://www.michael-
noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
Sau khi thiết lập xong hadoop cluster. Ta cần thực hiện các bước sau:
Bước 1: khởi động Single node hadoop cluster
pingax@wepingax:/usr/local/hadoop$ bin/start-all.sh
Bước 2: Cài đặt plugin: sao chép “Hadoop Eclipse Plugin” vào thư mục Plugins của eclipse (1.1.2 là phiên bản eclipse plugin. Ở đây cần tùy chình một chút đến thư mục Plugin nếu bạn đang sử dụng phiên bản eclipse khác)
root@wepingax:~# sudo cp /home/pingax/Desktop/hadoop-eclipse-plugin- 1.1.2.jar /opt/eclipse/plugins
Bước 3: Khởi động Eclipse IDE. Open perspective bên góc phải và chọn “Map/Reduce”
Khởi tạo “New Hadoop Location” và thiết lập các ports cho MapReduce và dfs.
Bước 4: Khời tạo MapReduce project
Bước 5: Sau khi chọn creating a project, chọn tiếp “MapReduce driver”. Đặt tên cho ứng dụng. Giờ ta có bắt đầu lập trình trong project.
Bước 6: Sao chép dữ liệu từ thư mục local vào Hadoop distributed file system.
pingax@wepingax:/usr/local/hadoop$ bin/hadoop fs -copyFromLocal
/home/pingax/Desktop/pingax_1.txt /user/pingax/pingax_text_input/pingax_1.txt pingax@wepingax:/usr/local/hadoop$ bin/hadoop fs -copyFromLocal
/home/pingax/Desktop/pingax_2.txt /user/pingax/pingax_text_input/pingax_2.txt pingax@wepingax:/usr/local/hadoop$ bin/hadoop fs -copyFromLocal
/home/pingax/Desktop/pingax_3.txt /user/pingax/pingax_text_input/pingax_3.txt
Tiến trình chạy Map and Reduce processing được thể hiện ở màn hình console bên dưới.
Trên thực tế, ta có thể xây dựng ứng dụng cả trong môi trường windows, không nhất thiết là chỉ trong ubuntu.