Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,97 MB
Nội dung
LOGO DistributedFileSystem GVHD: TS. Hồ Bảo Quốc Nhóm học viên thực hiện: • Dương Hữu Thành – 1212035 • Phạm Ngọc Vân Anh – 1212001 • Nguyễn Thanh Tòng – 1212039 1 Nội dung Tổng quan hệ thống tập tin phân tán1 2.2 2 Google File System2 Hadoop distributedfile system4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán1 Google FileSystem 3 2 3 Hadoop4 Map reduce3 Tổng quan hệ thống tập tin phân tán (DFS) (1/2) DFS là một mô hình phân lớp hệ thống tập tin được phân tán trên nhiều máy. DFS hổ trợ việc chia sẻ tập tin của các tập tin thông qua môi trường mạng. Client thao tác trên DFS giống như thao tác trên hệ thống FS (hệ thống tập tin cục bộ). Hệ thống tập tin cung cấp các dịch vụ cho client truy cập các tập tin trên server: tạo, đọc, tập tin. 4 Tổng quan hệ thống tập tin phân tán (DFS) (2/2) DFS Đặt tên (naming): • Kết hợp tên local và host • Các thư mục từ xa gắn kết vào thư mục cục bộ • Cấu trúc tên toàn cục duy nhất của hệ thống Tính trong suốt (Transparency): • Trong suốt truy cập • Trong suốt vị trí • Trong suốt khả năng thực thi • Trong suốt phạm vi (scaling) • Độc lập vị trí Caching và caching location: • Vấn đề là bảo đảm tính nhất quan giữa cache và tập tin chính: tiếp cận từ client hay từ server • Ví trí cache: trên đĩa (đáng tin cậy) hay vùng nhớ (tốc độ nhanh) Truy cập đồng thời: việc thay đổi một tập tin không nên bị cản trở bởi hoạt động các client khác Stateful và stateless: • Stateful là server lưu tất cả thông tin request từ client • Stateless là mỗi yêu cầu client phải cung cấp đầy đủ thông tin cho server Nhân bản tập tin: mỗi tập tin có thể có nhiều bản sao nằm ở các vị trí khác nhau • Tăng khả năng thực thi và tính sẵn sàng. • Tăng khả năng chịu lỗi 5 Có khả năng chịu lỗi. Hoạt động trên nhiều hệ điều hành khác nhau. Nội dung Tổng quan hệ thống tập tin phân tán1 6 Google FileSystem 2 Hadoop4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán 1 7 Google FileSystem 3 2 Hadoop4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán 1 8 Google FileSystem 3 2 Hadoop distributedfile system4 Map reduce3 Hadoop (1/3) Hadoop distributedfilesystem Map Reduce 9 • Hadoop là một dự án Apache, tất cả các thành phần tồn tại thông qua bản quyền nguồn mở của Apache. • Hadoop cung cấp một hệ thống tập tin phân tán và một framework để phân tích và sự biến đổi của tập dữ liệu rất lớn sử dụng MapReduce. • Đặc tính quan trọng của Hadoop là phân vùng dữ liệu và tính toán trên nhiều (hàng ngàn) máy chủ, và thực thi tính toán ứng dụng song song. Hadoop (2/3) Tại sao chọn Hadoop? • Cần xử lý tập dữ liệu khổng lồ trên các cluster lớn của máy tính. • Tốn chi phí xây dựng tính tin cậy trong mỗi ứng dụng. • Cần kiến trúc hạ tầng chung: hiệu quả, đáng tín cậy, dễ dùng, nguồn mỡ, bản quyền apache. 10 [...]... danh sách các block thuộc về mỗi tập tin 18 HDFS – Kiến trúc (4/10) NameNode cũng lưu trữ nhật ký sửa đổi của image gọi là journal trong native file system của các host cục bộ 19 HDFS – Kiến trúc (5/10) Mẫu cố định của image được lưu trữ trong system file của local gọi là checkpoint 20 HDFS – Kiến trúc (6/10) CheckpointNode: • Là NameNode trong HDFS, nhưng trách nhiệm chính của nó là phục vụ . hệ thống tập tin phân tán1 2.2 2 Google File System2 Hadoop distributed file system4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán1 Google File System 3 2 3 Hadoop4 Map reduce3 Tổng. tán1 6 Google File System 2 Hadoop4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán 1 7 Google File System 3 2 Hadoop4 Map reduce3 Nội dung Tổng quan hệ thống tập tin phân tán 1 8 Google File System 3 2 Hadoop. thống tập tin phân tán 1 8 Google File System 3 2 Hadoop distributed file system4 Map reduce3 Hadoop (1/3) Hadoop distributed file system Map Reduce 9 • Hadoop là một dự án Apache, tất cả các