Cài đặt Hadoop

Nhu cầu tìm kiếm thông tin quý giá từ khối lƣợng lớn dữ liệu phi cấu trúc đƣợc tạo ra bởi các trang web, blog, mạng truyền thông xã hội.. là rất cao. Chính yếu tố đó dẫn làm tăng sự quan tâm đến công nghệ mã nguồn mở Hadoop.

Phần mềm mã nguồn mở Hadoop, một dự án phần mềm quản lý dữ liệu Apache có 2 thành phần chủ yếu là hệ thống file phân tán Hadoop (Hadoop Distributed File System – HDFS [4]) và MapReduce [8], đƣợc thiết kế để hỗ trợ các ứng dụng sử dụng đƣợc số lƣợng lớn dữ liệu cấu trúc và phi cấu trúc.

Số hóa bởi Trung tâm Học liệu 60 http://www.lrc-tnu.edu.vn/

3.2 Cấu hình Hadoop giả phân tán

Hadoop có thể chạy các ứng dụng với lƣợng dữ liệu lớn một cách nhanh chóng, chính xác, hiệu quả cao bằng cách lƣu và tính toán dữ liệu trên nhiều node một cách độc lập, giúp xử lý khối lƣợng c terabyte và thậm chí là petabytes dữ liệu phức tạp tƣơng đối hiệu quả với chi phí thấp hơn

Không giống nhƣ các hệ quản trị cơ sở dữ liệu truyền thống, Hadoop đƣợc thiết kế để làm việc với nhiều loại dữ liệu và dữ liệu nguồn. Công nghệ HDFS của Hadoop cho phép khối lƣợng lớn công việc đƣợc chia thành các khối dữ liệu nhỏ hơn đƣợc nhân rộng và phân tán trên các phần cứng của một nhóm để xử lý nhanh hơn. Công nghệ này đã đƣợc sử dụng rộng rãi bởi một số trang web lớn nhất thế giới, chẳng hạn nhƣ Facebook, eBay, Amazon, Baidu, và Yahoo. Các nhà quan sát nhấn mạnh rằng Yahoo là một trong những nhà đóng góp lớn nhất đối với Hadoop.

Số hóa bởi Trung tâm Học liệu 61 http://www.lrc-tnu.edu.vn/

3.3

Nhìn từ bên ngoài, files lƣu trên HDFS cũng giống nhƣ lƣu trong Windows hay Linux. Có thể Tạo mới, xóa, di chuyển, thay đổi tên… Nhƣng trên thực tế, dữ liệu đƣợc chia ra thành các block lƣu trữ trên rất nhiều Node dữ liệu (DataNode), mỗi block có nhiều bản sao, nhƣng thông thƣờng, mặc định là 3, lƣu trên nhiều DataNode khác nhau, phòng khi một DataNode nào đó có sự cố thì hệ thống vẫn hoạt động bình thƣờng. Ngoài ra còn có 1 (và chỉ 1) NameNode làm nhiệm vụ quản lí dữ liệu và điều tiết các lệnh đòi hỏi thao tác đúng.

Dữ liệu đầu vào đƣợc phân chia thành nhiều phần theo cách để cho nó có thể đƣợc phân phối trong một cụm các máy cho phép xử lý song song. Theo cách nhƣ vậy, dữ liệu trung gian đã tạo ra đƣợc xử lý song song [4], làm cho cách tiếp cận này là lý tƣởng đối với việc xử lý số lƣợng dữ liệu rất lớn. Khi dữ liệu đầu vào đƣợc cung cấp (vào trong hệ thống tệp của Hadoop [HDFS]), đầu tiên nó đƣợc chia thành các phần và sau đó đƣợc phân phối tới các nút [7] trong cụm ảo đám mây và đƣợc lƣu trữ tại đây. Còn MapReduce giúp cho việc xử lí song song đƣợc thuận lợi, ít nhất gồm 3 bộ phận: hàm Map để phân tích dữ liệu thành các cặp (khóa, giá trị); hàm Reduce căn cứ vào các khóa để gom tập

Số hóa bởi Trung tâm Học liệu 62 http://www.lrc-tnu.edu.vn/

hợp các cặp nhƣ vậy lại với nhau và đƣa ra kết quả; hàm Main để điều tiết. Mỗi một thao tác Map hoặc Reduce đƣợc gọi là TaskTracker (theo dõi nhiệm vụ). Thông thƣờng TaskTrackers đƣợc chạy trên DataNode (nút dữ liệu) để giảm đƣờng truyền. Tasktrackers đƣợc JobTracker (theo dõi công việc) căn cứ vào thông tin của blocks để khởi tạo trên DataNode phù hợp. JobTracker không nhất thiết chạy trên cùng máy với NameNode.

Kỹ thuật cân bằng tải

Các thuật toán cân bằng tải