1. Trang chủ
  2. » Tất cả

bản trình bày

16 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

The Hadoop Distributed Filesystem Giới Thiệu Qua Về The Hadoop Distributed Filesystem Hadoop kèm với hệ thống tệp phân tán gọi HDFS, viết tắt Hadoop Distributed Filesystem (Đơi bạn thấy tham chiếu đến “DFS” - thông thường tài liệu cấu hình cũ - điều giống vậy.) HDFS hệ thống tệp hàng đầu Hadoop trọng tâm chương này, Hadoop thực có hệ thống tệp tin có mục đích chung trừu tượng, xem cách Hadoop tích hợp với hệ thống lưu trữ khác (chẳng hạn hệ thống tệp cục Amazon S3) The Hadoop Distributed Filesystem Thiết kế HDFS(The Design of HDFS) HDFS hệ thống tệp thiết kế để lưu trữ tệp lớn với mẫu truy cập liệu trực tuyến, chạy cụm phần cứng hàng hóa Và chia thành mục sau: • Tệp lớn(Very large files) • Truyền liệu truy cập(Streaming data access) • Phần cứng thương mại(hàng hóa) (Commodity hardware) • Truy cập liệu độ trễ thấp • Rất nhiều tệp nhỏ • Nhiều người viết, sửa đổi tệp tùy ý Các khái niệm HDFS(HDFS Concepts) *Blocks Đĩa có kích thước khối, lượng liệu tối thiểu mà đọc ghi Hệ thống tập tin cho đĩa xây dựng dựa điều cách xử lý liệu khối, bội số khơng thể tách rời kích thước khối đĩa Các khối hệ thống tập tin thường có kích thước vài kilobyte, khối đĩa thường 512 byte Điều nói chung minh bạch người dùng hệ thống tệp, người đọc ghi tệp — có độ dài Tuy nhiên, có cơng cụ liên quan đến bảo trì hệ thống tệp, chẳng hạn df fsck, hoạt động cấp khối hệ thống tệp HDFS có khái niệm khối, đơn vị lớn nhiều — mặc định 64 MB Giống hệ thống tệp cho đĩa nhất, tệp HDFS chia thành phần có kích thước khối, lưu trữ đơn vị độc lập Không giống hệ thống tệp cho đĩa nhất, tệp HDFS nhỏ khối đơn lẻ không chiếm dung lượng lưu trữ không tồn khối Khi khơng đủ tiêu chuẩn, thuật ngữ "khối" sách đề cập đến khối HDFS Có khối trừu tượng cho hệ thống tệp phân tán mang lại số lợi ích Lợi ích rõ ràng nhất: tệp lớn đĩa đơn mạng Khơng có u cầu khối từ tệp lưu trữ đĩa, họ tận dụng đĩa cụm Trên thực tế, khơng bình thường, Giống người anh em hệ thống tệp đĩa, lệnh fsck lưu trữ tệp cụm HDFS có khối lấp đầy tất đĩa cụm Thứ hai, việc biến đơn vị HDFS hiểu khối Ví dụ, chạy: % hadoop fsck -files -blocks liệt kê trừu tượng thành khối thay tệp đơn giản hóa hệ thống lưu trữ Sự đơn giản điều cần phải khối tạo nên tệp hệ thống tệp (Xem thêm phấn đấu cho tất tất hệ thống, lại “Kiểm tra hệ thống tập tin (fsck)” trang 281.) quan trọng hệ thống phân tán chế độ lỗi đa dạng Hệ thống lưu trữ xử lý khối, đơn giản hóa việc quản lý lưu trữ (vì khối có kích thước cố định, nên dễ dàng tính tốn số lượng lưu trữ đĩa định) loại bỏ mối quan tâm siêu liệu (các khối phần liệu lưu trữ— siêu liệu tệp, chẳng hạn thông tin quyền không cần lưu trữ với khối, hệ thống khác xử lý siêu liệu cách trực giao) Các khái niệm HDFS(HDFS Concepts) Namenodes Datanodes(Nút tên nút liệu) * Một cụm HDFS có hai loại nút hoạt động theo mơ hình master-worker: nút tên (chính) số nút liệu (công nhân) Nút tên quản lý khơng gian tên hệ thống tệp Nó trì hệ thống tệp siêu liệu cho tất tệp thư mục Thông tin lưu trữ liên tục đĩa cục dạng hai tệp: hình ảnh vùng tên nhật ký chỉnh sửa Nút tên biết nút liệu nơi đặt tất khối cho tệp định, nhiên, khơng lưu trữ vị trí khối liên tục, thơng tin tạo lại từ nút liệu hệ thống khởi động Một máy khách truy cập hệ thống tệp thay mặt cho người dùng cách giao tiếp với nút tên nút liệu Máy khách trình bày giao diện hệ thống tệp giống POSIX, mã người dùng không cần biết nút tên nút liệu để hoạt động Các nút liệu ngựa công việc hệ thống tệp Họ lưu trữ truy xuất khối chúng yêu cầu (bởi khách hàng nút tên), họ báo cáo lại định kỳ cho nút tên với danh sách khối mà chúng lưu trữ Nếu khơng có nút tên, hệ thống tệp sử dụng Trên thực tế, máy chạy nút tên bị xóa, tất tệp hệ thống tệp bị khơng có cách biết cách tạo lại tệp từ khối nút liệu Vì lý này, điều quan trọng phải làm cho nút tên có khả chống lại cố Hadoop cung cấp hai chế cho việc này.* Giao diện dòng lệnh(The Command-Line Interface) *Chúng ta xem xét HDFS cách tương tác với từ dịng lệnh Có nhiều giao diện khác cho HDFS, dòng lệnh giao diện đơn giản nhiều nhà phát triển quen thuộc Chúng tơi chạy HDFS máy, trước tiên làm theo hướng dẫn để thiết lập Hadoop chế độ phân phối giả Phụ lục A Sau đó, bạn thấy cách chạy nhóm máy để cung cấp cho khả mở rộng khả chịu lỗi Có hai thuộc tính mà chúng tơi đặt cấu hình phân phối giả khơng cung cấp giải thích thêm Đầu tiên là: fs.default.name, đặt thành: hdfs: // localhost /, sử dụng để đặt hệ thống tệp mặc định cho Hadoop Hệ thống tệp định URI sử dụng URI hdfs để định cấu hình Hadoop sử dụng HDFS theo mặc định Daemon HDFS sử dụng thuộc tính để xác định máy chủ cổng cho nút tên HDFS.Chúng chạy máy chủ cục bộ, cổng HDFS mặc định, 8020 Và máy khách HDFS sử dụng thuộc tính để tìm nơi nút tên chạy để họ kết nối với Chúng tơi đặt thuộc tính thứ hai, dfs.replication, thành để HDFS không chép khối hệ thống tệp theo mặc định thông thường ba Khi chạy với nút liệu,HDFS chép khối thành ba nút liệu, vậy, cảnh báo vĩnh viễn khối chép mức Cài đặt giải vấn đề Giao diện dòng lệnh(The Command-Line Interface) * Hoạt động Hệ thống Tệp Cơ bản(Basic Filesystem Operations) + Hệ thống tệp sẵn sàng để sử dụng thực tất hoạt động thơng thường hệ thống tệp đọc tệp, tạo thư mục, di chuyển tệp, xóa liệu liệt kê thư mục Bạn gõ hadoop fs -help để nhận trợ giúp chi tiết lệnh Bắt đầu cách chép tệp từ hệ thống tệp cục sang HDFS: % hadoop fs -copyFromLocal input / docs / quangle.txt hdfs: //localhost/user/tom/quangle.txt Lệnh gọi lệnh trình bao hệ thống tệp Hadoop, lệnh hỗ trợ số lệnh — trường hợp này, chạy -copyFromLocal Tệp cục quangle.txt chép vào tệp /user/tom/quangle.txt phiên HDFS chạy máy chủ cục Trên thực tế, bỏ qua lược đồ máy chủ URI chọn mặc định, hdfs: // localhost, định coresite.xml % hadoop fs -copyFromLocal input / docs / quangle.txt /user/tom/quangle.txt Chúng tơi sử dụng đường dẫn tương đối chép tệp vào thư mục chúng tơi HDFS, trường hợp / user / tom: % hadoop fs -copyFromLocal input / docs / quangle.txt quangle.txt Giao diện dịng lệnh(The Command-Line Interface) + Thơng tin trả giống với lệnh Unix ls -l, với vài khác biệt nhỏ Cột hiển thị chế độ tệp Cột thứ hai hệ số nhân tệp (điều mà hệ thống tệp Unix truyền thống khơng có) Hãy nhớ chúng tơi đặt hệ số chép mặc định cấu hình tồn trang 1, lý chúng tơi thấy giá trị Mục nhập cột trống cho thư mục khái niệm chép không áp dụng cho chúng — thư mục coi siêu liệu lưu trữ nút tên, nút liệu Cột thứ ba thứ tư hiển thị nhóm chủ sở hữu tệp Cột thứ năm kích thước tệp tính byte khơng thư mục Cột thứ sáu thứ bảy ngày sửa đổi cuối Cuối cùng, cột thứ tám tên tuyệt đối tệp thư mục Hệ thống tệp Hadoop(Hadoop Filesystems) • Hadoop có khái niệm trừu tượng hệ thống tệp, HDFS phần triển khai Lớp trừu tượng Java org.apache.hadoop.fs.FileSystem đại diện cho hệ thống tệp Hadoop có số triển khai cụ thể, mơ tả Bảng 3-1 Hệ thống tệp Hadoop(Hadoop Filesystems) • Hadoop có khái niệm trừu tượng hệ thống tệp, HDFS phần triển khai Lớp trừu tượng Java org.apache.hadoop.fs.FileSystem đại diện cho hệ thống tệp Hadoop • Hadoop cung cấp nhiều giao diện cho hệ thống tệp thường sử dụng lược đồ URI để chọn cá thể hệ thống tệp xác để giao tiếp Ví dụ: shell hệ thống tệp mà gặp phần trước hoạt động với tất hệ thống tệp Hadoop Để liệt kê tệp thư mục gốc hệ thống tệp cục bộ, nhập: • % hadoop fs -ls file: /// Mặc dù (và đơi thuận tiện) để chạy chương trình MapReduce truy cập hệ thống tệp số này, bạn xử lý khối lượng lớn liệu, bạn nên chọn hệ thống tệp phân tán có tối ưu hóa cục liệu, chẳng hạn HDFS KFS (xem “Mở rộng quy mô” trang 27) Hệ thống tệp Hadoop(Hadoop Filesystems) • Giao diện(Interfaces) + Hadoop viết Java tất tương tác với hệ thống tệp Hadoop dàn xếp thông qua Java API Các giao diện hệ thống tệp khác thảo luận ngắn gọn phần Các giao diện sử dụng phổ biến với HDFS, hệ thống tệp khác Hadoop thường có cơng cụ có để truy cập hệ thống tệp nằm (máy khách FTP cho FTP, công cụ S3 cho S3, v.v.), nhiều số chúng hoạt động với hệ thống tệp Hadoop *Tiết kiệm(Thrift) Bằng cách để lộ giao diện hệ thống tệp dạng API Java, Hadoop khiến ứng dụng khơng phải Java khó truy cập vào hệ thống tệp Hadoop API Thrift mô-đun đóng góp “tiết kiệm” khắc phục thiếu hụt cách hiển thị hệ thống tệp Hadoop dạng dịch vụ Apache Thrift, giúp ngơn ngữ có ràng buộc Thrift dễ dàng tương tác với hệ thống tệp Hadoop, chẳng hạn HDFS Để sử dụng Thrift API, chạy máy chủ Java hiển thị dịch vụ Thrift hoạt động proxy cho hệ thống tệp Hadoop Ứng dụng bạn truy cập dịch vụ Thrift, dịch vụ thường chạy máy với ứng dụng bạn API Thrift kèm với số sơ khai tạo sẵn cho nhiều ngôn ngữ khác nhau, bao gồm C ++, Perl, PHP, Python Ruby Thrift có hỗ trợ lập phiên bản, vậy, lựa chọn tốt bạn muốn truy cập phiên khác hệ thống tệp Hadoop từ mã ứng dụng khách (tuy nhiên, bạn cần chạy proxy cho phiên Hadoop để đạt điều này) Để biết hướng dẫn cài đặt sử dụng, vui lòng tham khảo tài liệu thư mục src / Contrib / retftfs phân phối Hadoop Hệ thống tệp Hadoop(Hadoop Filesystems) *C Hadoop cung cấp thư viện C gọi libhdfs phản chiếu giao diện Java FileSystem (nó viết thư viện C để truy cập HDFS, bất chấp tên nó, sử dụng để truy cập hệ thống tệp Hadoop nào) Nó hoạt động cách sử dụng Java Native Interface (JNI) để gọi ứng dụng khách hệ thống tệp Java C API giống với Java, thường trễ Java, tính khơng hỗ trợ Bạn tìm thấy tài liệu tạo cho API C thư mục libhdfs / docs / api phân phối Hadoop Hadoop kèm với tệp nhị phân libhdfs dựng sẵn cho Linux 32-bit, tảng khác, bạn cần tự xây dựng chúng cách sử dụng hướng dẫn http://wiki.apache.org/hadoop/LibHDFS *FUSE (CẦU CHÌ) Hệ thống tệp khơng gian người dùng (FUSE) cho phép hệ thống tệp triển khai khơng gian người dùng tích hợp hệ thống tệp Unix Mơ-đun đóng góp Fuse-DFS Hadoop cho phép hệ thống tệp Hadoop (nhưng thường HDFS) gắn kết hệ thống tệp tiêu chuẩn Sau đó, bạn sử dụng tiện ích Unix (chẳng hạn ls cat) để tương tác với hệ thống tệp, thư viện POSIX để truy cập hệ thống tệp từ ngơn ngữ lập trình Fuse-DFS thực C cách sử dụng libhdfs làm giao diện cho HDFS Tài liệu để biên dịch chạy Fuse-DFS nằm thư mục src / Contrib / fuse-dfs phân phối Hadoop Hệ thống tệp Hadoop(Hadoop Filesystems) *WebDAV WebDAV tập hợp phần mở rộng cho HTTP để hỗ trợ chỉnh sửa cập nhật tệp Chia sẻ WebDAV gắn kết dạng hệ thống tệp hầu hết hệ điều hành, cách hiển thị HDFS (hoặc hệ thống tệp Hadoop khác) qua WebDAV, bạn truy cập HDFS hệ thống tệp tiêu chuẩn Tại thời điểm viết này, hỗ trợ WebDAV Hadoop (được triển khai cách gọi Java API tới Hadoop) phát triển theo dõi https://issues.apache.org/jira/browse/HADOOP-496 *Các giao diện HDFS khác(Other HDFS Interfaces) Có hai giao diện dành riêng cho HDFS: *HTTP HDFS định nghĩa giao diện đọc để truy xuất danh sách thư mục liệu qua HTTP Danh sách thư mục cung cấp máy chủ web nhúng nút tên (chạy cổng 50070) định dạng XML, liệu tệp truyền trực tuyến từ nút liệu máy chủ web chúng (chạy cổng 50075) Giao thức không bị ràng buộc với phiên HDFS cụ thể, giúp bạn viết ứng dụng khách sử dụng HTTP để đọc liệu từ cụm HDFS chạy phiên Hadoop khác HftpFileSystem ứng dụng khách vậy: hệ thống tệp Hadoop nói chuyện với HDFS qua HTTP (HsftpFileSystem biến thể HTTPS) Hệ thống tệp Hadoop(Hadoop Filesystems) *FTP Mặc dù chưa hoàn thành thời điểm viết (https://issues.apache.org/jira/browse/HADOOP-3199), có giao diện FTP cho HDFS, cho phép sử dụng giao thức FTP để tương tác với HDFS Giao diện cách thuận tiện để truyền liệu vào HDFS ứng dụng khách FTP có Khơng nên nhầm lẫn giao diện FTP với HDFS với FTPFileSystem, giao diện hiển thị máy chủ FTP dạng hệ thống tệp Hadoop Kết thúc Bản trình bày Nghiên cứu ... HDFS với FTPFileSystem, giao diện hiển thị máy chủ FTP dạng hệ thống tệp Hadoop Kết thúc Bản trình bày Nghiên cứu ... truy cập hệ thống tệp thay mặt cho người dùng cách giao tiếp với nút tên nút liệu Máy khách trình bày giao diện hệ thống tệp giống POSIX, mã người dùng khơng cần biết nút tên nút liệu để hoạt... -copyFromLocal input / docs / quangle.txt hdfs: //localhost/user/tom/quangle.txt Lệnh gọi lệnh trình bao hệ thống tệp Hadoop, lệnh hỗ trợ số lệnh — trường hợp này, chạy -copyFromLocal Tệp cục

Ngày đăng: 28/12/2021, 10:57

HÌNH ẢNH LIÊN QUAN

Namenodes và - bản trình bày
amenodes và (Trang 6)
được mô tả trong Bảng 3-1. - bản trình bày
c mô tả trong Bảng 3-1 (Trang 10)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN