Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,63 MB
Nội dung
Distributed File System GVHD: TS Hồ Bảo Quốc Nhóm học viên thực hiện: • Dương Hữu Thành – 1212035 • Phạm Ngọc Vân Anh – 1212001 • Nguyễn Thanh Tịng – 1212039 LOGO LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System Map reduce Hadoop distributed file system 2.2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System 33 Map reduce Hadoop LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tổng quan hệ thống tập tin phân tán (DFS) (1/2) DFS mơ hình phân lớp hệ thống tập tin phân tán nhiều máy DFS hổ trợ việc chia sẻ tập tin tập tin thông qua môi trường mạng Client thao tác DFS giống thao tác hệ thống FS (hệ thống tập tin cục bộ) Hệ thống tập tin cung cấp dịch vụ cho client truy cập tập tin server: tạo, đọc, tập tin LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tổng quan hệ thống tập tin phân tán (DFS) (2/2) Tính suốt (Transparency): • Trong suốt truy cập • Trong suốt vị trí • Trong suốt khả thực thi • Trong suốt phạm vi (scaling) • Độc lập vị trí Stateful stateless: • Stateful server lưu tất thông tin request từ client • Stateless yêu cầu client phải cung cấp đầy đủ thông tin cho server Nhân tập tin: tập tin có nhiều nằm vị trí khác • Tăng khả thực thi tính sẵn sàng • Tăng khả chịu lỗi Hoạt động nhiều hệ điều hành khác DFS Có khả chịu lỗi Đặt tên (naming): • Kết hợp tên local host • Các thư mục từ xa gắn kết vào thư mục cục • Cấu trúc tên toàn cục hệ thống Caching caching location: • Vấn đề bảo đảm tính quan cache tập tin chính: tiếp cận từ client hay từ server • Ví trí cache: đĩa (đáng tin cậy) hay vùng nhớ (tốc độ nhanh) Truy cập đồng thời: việc thay đổi tập tin không nên bị cản trở hoạt động client khác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System Map reduce Hadoop LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System 33 Map reduce Hadoop LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System 33 Map reduce Hadoop distributed file system LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hadoop (1/3) Hadoop distributed file system Map Reduce • Hadoop dự án Apache, tất thành phần tồn thông qua quyền nguồn mở Apache • Hadoop cung cấp hệ thống tập tin phân tán framework để phân tích biến đổi tập liệu lớn sử dụng MapReduce • Đặc tính quan trọng Hadoop phân vùng liệu tính tốn nhiều (hàng ngàn) máy chủ, thực thi tính tốn ứng dụng song song LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hadoop (2/3) Tại chọn Hadoop? • Cần xử lý tập liệu khổng lồ cluster lớn máy tính • Tốn chi phí xây dựng tính tin cậy ứng dụng • Cần kiến trúc hạ tầng chung: hiệu quả, đáng tín cậy, dễ dùng, nguồn mỡ, quyền apache 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (2/10) NameNode meta-data: • Tồn meta-data lưu nhớ • Các meta-data bao gồm: Danh sách tập tin Danh sách block tập tin Danh sách DataNode block • Nhật ký giao tác: tháo tác tạo, xóa tập tin, 17 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (3/10) Image chứa liệu NameNode danh sách block thuộc tập tin 18 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (4/10) NameNode lưu trữ nhật ký sửa đổi image gọi journal native file system host cục 19 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (5/10) Mẫu cố định image lưu trữ system file local gọi checkpoint 20 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (6/10) CheckpointNode: • Là NameNode HDFS, trách nhiệm phục vụ u cầu client Nó vai trị CheckpointNode hay BackupNode, vai trò định giai đoạn startup • CheckpointNode định kỳ kết hợp checkpoint tồn với journal để tạo journal checkpoint rỗng • CheckpointNode thường chạy máy chủ khác NameNode 21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (7/10) BackupNode: • BackupNode có khả tạo checkpoint định kỳ, trì nhớ cập nhật image khơng gian tên hệ thống tập tin luôn đồng với trạng thái NameNode • Nếu NameNode gặp cố image BackupNode nhớ checkpoint đĩa hồ sơ trạng thái cuối namespace • BackupNode xem NameNode 22 đọc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (8/10) DataNode (slaves): • Quản lý yêu cầu input/output từ client • Xử lý block, tạo di chuyễn liệu thị thực NameNode • Phục vụ việc lưu trữ block liệu • Định kỳ gửi report tất block tồn cho NameNode (Block Report) • Gửi định kỳ heartbeat tới namenode • Phục vụ yêu cầu đọc, ghi, thực tạo block, xóa chép theo thị từ namenode 23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (9/10) DataNode – bắt tay (hand-shake): • Trong suốt q trình bắt đầu DataNode kết nối với NameNode thực “bắt tay” (hand-shake) • Mục đích để xác minh namespace ID software version DataNode 24 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Kiến trúc (10/10) DataNode – heartbeat: DataNode gửi heartbeat tới NameNode để xác nhận DataNode hoạt động block sẵn sàng 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Các thao tác đọc ghi tập tin (1/4) ôSingle writer, multi readersằ ã Cựng mt lúc có nhiều người đọc, có người phép ghi 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Các thao tác đọc ghi tập tin (2/4) Đọc tập tin: • Khi ứng dụng muốn đọc tập tin, HDFS client phải hỏi NameNode để có danh sách DataNode giữ block tập tin Danh sách xếp khoảng cách kiến trúc mạng từ client Client liên hệ trực tiếp với DataNode yêu cầu chuyển block mong muốn 27 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Các thao tác đọc ghi tập tin (3/4) Ghi tập tin: • Khi client ghi liệu, phải hỏi NameNode để chọn DataNode để nạp block tập tin Client tổ chức ống (pipeline) theo node gửi data Khi Block điền vào, client yêu cầu DataNode để nạp block Ống tổ chức, client gửi byte tập tin Sự lựa chọn DataNode block tương tự khác 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Các thao tác đọc ghi tập tin (4/4) Sự toàn vẹn liệu: • Sử dụng checksum để xác nhận liệu (CRC32) • Khi tạo tập tin Client tính checksum (512 byte) DataNode lưu trữ checksum • Khi truy cập tập tin Client tìm kiếm liệu checksum từ DataNode Nếu xác nhận fail, Client cố gắng tạo khác 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com HDFS – Sao chép tập tin (Replication) (1/1) Sao chép Hadoop mức block Có ba mức độ chép đề cập: • Cùng máy > Cùng rack > Khác rack NameNode phát DataNode có cố: • Chọn DataNode cho • Cân sử dụng đĩa • Cân lưu lượng truyền thông với DataNode 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LOGO 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tin phân tán Google File System 33 Map reduce Hadoop distributed file system LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hadoop (1/3) Hadoop distributed file system Map Reduce •... tán Google File System Map reduce Hadoop distributed file system 2.2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System 33... tập tin phân tán Google File System Map reduce Hadoop LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung Tổng quan hệ thống tập tin phân tán Google File System 33 Map reduce Hadoop