1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hdfs là gì hdfs (hadoop distributed file system) là một hệ thống lưu trữ phân tán được thiết kế để chạy trên nền tảng hadoop

20 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 2,5 MB

Nội dung

  TRƯỜNG ĐẠI HỌC MỎ ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN -     - HỌC PHẦN DỮ LIỆU LỚN VÀ ỨNG DỤNG Giảng viên: Lê hồng Anh Sinh viên thực hiện: Nguyễn Văn Toàn Mã sv: 2021050813  Nhóm 100 Hà Nội, năm 2023   Thành phần HDFS Nút tên Nút tên phụ Hệ thống tập n 10 Siêu liệu .12 Nút liệu 13 Kiến trúc chép khối 13 Phương pháp chép 14 Cấu trúc liên kết chép liệu 15 Cấu trúc liên kết chép liệu - Ví dụ 16 Tệp lưu trữ nào? 17 HDFS hoạt động - Ví dụ 18 Dòng lệnh HDFS 20 Trình duyệt tệp Hue .20   HDFS gì? HDFS (Hadoop Distributed File System) hệ thống lưu trữ phân tán thiết kế để chạy tảng Hadoop Nó cho phép lưu trữ xử lý tập liệu lớn cụm máy tính phân tán HDFS thiết kế để chịu cố hệ thống xử lý liệu node mạng Nó hoạt động cách phân tách tập liệu thành phần nhỏ hơn, lưu trữ nhiều node khác cụm máy tính, đảm bảo tính tồn vẹn độ tin cậy liệu Các tập liệu chép nhiều node để đảm bảo tính sẵn sàng truy xuất nhanh chóng HDFS sử dụng chế đọc ghi đơn giản cho phép nhiều ứng dụng truy xuất liệu cách hiệu Nó hỗ trợ tính cân tải, đa luồng, phục hồi liệu tự động, xác thực người dùng mã hóa liệu Với HDFS, cơng ty lưu trữ xử lý tập liệu lớn cách hiệu đáng tin cậy HDFS phần quan trọng hệ sinh thái Hadoop, cung cấp tảng cho ứng dụng phân tán xử lý liệu Tại chọn HDFS? Trước năm 2011, việc lưu trữ truy xuất petabyte zettabyte liệu có ba thách thức lớn sau: Chi phí, Tốc độ, Độ tin cậy Hệ thống tệp truyền thống có giá xấp xỉ $ 10,000 đến $ 14,000, terabyte Tìm kiếm phân tích liệu tốn thời gian tốn Ngồi ra, thành phần tìm kiếm lưu máy chủ khác nhau, việc tìm nạp liệu khó khăn Dưới cách HDFS giải tất ba vấn đề hệ thống tệp truyền thống: Chi phí HDFS phần mềm mã nguồn mở để sử dụng với chi phí cấp phép hỗ trợ khơng Nó thiết kế để chạy máy tính thơng thường   Tốc độ Các cụm Hadoop lớn đọc ghi terabyte liệu giây Một cụm bao gồm nhiều hệ thống kết nối hợp lý với mạng HDFS dễ dàng cung cấp hai gigabyte liệu giây, máy tính cho MapReduce, khung xử lý liệu Hadoop Độ tin cậy HDFS chép liệu nhiều lần phân phối cho nút riêng lẻ Nút máy chủ hàng hóa kết nối với thông qua thiết bị mạng HDFS sau đặt liệu máy chủ khác Trong trường hợp, liệu bị xóa khỏi nút nào; tìm thấy cụm Một hệ thống tệp thông thường, giống hệ thống tệp Linux, khác với HDFS kích thước liệu Trong hệ thống tệp thông thường, khối liệu nhỏ, thường khoảng 51 byte Tuy nhiên, HDFS, khối 128 Megabyte theo mặc định Một hệ thống tệp thông thường cung cấp quyền truy cập vào liệu lớn gặp cố đầu vào / đầu đĩa chủ yếu nhiều hoạt động tìm kiếm Mặt khác, HDFS đọc lượng lớn liệu sau thao tác tìm kiếm Điều làm cho HDFS trở nên độc đáo tất hoạt động thực chế độ phân tán Hãy để liệt kê đặc điểm HDFS Đặc điểm HDFS Dưới số đặc điểm HDFS:        HDFS có khả chịu lỗi cao HDFS bao gồm hàng ngàn máy chủ Mỗi máy lưu trữ phần liệu hệ thống tệp HDFS phát lỗi xảy máy khơi phục cách nhanh chóng tự động HDFS có thơng lượng cao HDFS thiết kế để lưu trữ quét hàng triệu hàng liệu đếm thêm số tập hợp liệu Thời gian cần thiết trình phụ thuộc vào phức tạp liên quan  Nó thiết kế để hỗ trợ liệu lớn công việc kiểu hàng loạt Tuy nhiên, trọng tâm thông lượng truy cập liệu cao độ trễ thấp HDFS tiết kiệm HDFS thiết kế theo cách mà xây dựng phần cứng hàng hóa tảng khơng đồng nhất, có giá thấp dễ dàng có sẵn Tương tự ví dụ giải thích phần trước, HDFS lưu trữ tệp số khối Mỗi khối chép sang vài máy tính riêng biệt Số lượng chép sửa đổi quản trị viên Dữ liệu chia thành 128 Megabyte khối chép đĩa cục nút cụm Siêu liệu kiểm sốt vị trí vật lý khối chép khối cụm Nó lưu trữ NameNode HDFS hệ thống lưu trữ cho đầu vào/đầu tác vụ MapReduce Hãy hiểu cách HDFS lưu trữ tệp với ví dụ   HDFS hoạt động nào? Đây cách HDFS lưu trữ tệp Ví dụ - Một người bảo trợ tặng sưu tập sách phổ  biến cho thư viện đại học Thủ thư định xếp sách giá đỡ nhỏ sau phân phát nhiều sách giá đỡ khác Bằng cách này, học sinh dễ dàng nhặt sách từ giá đỡ Tương tự, HDFS tạo nhiều khối liệu giữ chúng hệ thống riêng biệt để dễ dàng truy cập Hãy thảo luận Kiến trúc HDFS Các thành phần phần Kiến trúc HDFS thành phần  Nhìn chung, kiến trúc HDFS gọi kiến trúc chủ kiến trúc nơ lệ hiển thị Một nút chính, NameNode, chịu trách nhiệm chấp nhận cơng việc từ khách hàng Nhiệm vụ đảm bảo liệu cần thiết cho hoạt động tải tách biệt thành khối liệu   HDFS hiển thị không gian tên hệ thống tệp cho phép liệu người dùng lưu trữ tệp Một tệp chia thành nhiều khối, lưu trữ chép nút phụ gọi DataNodes hiển thị phần bên   Các khối liệu sau phân phối đến hệ thống DataNode cụm Điều đảm bảo liệu trì DataNode phục vụ cho yêu cầu đọc ghi Nó tạo, xóa chép khối hướng dẫn từ NameNode Chúng tơi thảo luận chủ đề trước siêu liệu lưu trữ vị trí khối chép Nó giải thích sơ đồ Có NameNode phụ thực tác vụ cho NameNode coi nút Trước Hadoop 2.0.0, NameNode Điểm thất bại nhất, SPOF, cụm HDFS Mỗi cụm có NameNode Trong trường hợp xảy kiện kế hoạch, chẳng hạn lỗi hệ thống, cụm không khả dụng nhà điều hành khởi động lại NameNode  Ngoài ra, kiện bảo trì theo kế hoạch, chẳng hạn nâng cấp phần mềm phần cứng hệ thống NameNode, dẫn đến thời gian ngừng hoạt động cụm Tính khả dụng cao HDFS, HA, tính giải vấn đề cách cung cấp tùy chọn chạy hai NameNodes dự phòng cụm cấu hình Chủ động / Thụ động với chế độ chờ nóng Điều cho phép chuyển đổi dự phịng nhanh chóng sang NameNode trường hợp hệ thống gặp cố quản trị viên bắt đầu chuyển đổi dự phịng cho mục đích bảo trì theo kế hoạch   Trong cụm HA, hai hệ thống riêng biệt cấu hình NameNodes Tại trường hợp nào, NameNodes trạng thái Hoạt động lại trạng thái Chờ Active NameNode chịu trách nhiệm cho tất hoạt động máy khách cụm, Chế độ chờ hoạt động nô lệ, trì trạng thái đủ để cung cấp khả chuyển đổi dự phịng nhanh chóng cần Một cụm HDFS quản lý tính sau:   Lưu trữ dựa Quorum: Lưu trữ dựa Quorum đề cập đến việc triển khai HA sử dụng Trình quản lý Tạp chí Quorum, QJM Trong trình triển khai này, nút Standby giữ trạng thái đồng hóa với nút Hoạt động thơng qua nhóm daemon riêng  biệt gọi JournalNodes Daemons quy trình chạy lâu dài thường khởi động với hệ thống lắng nghe yêu cầu từ quy trình máy khách Mỗi daemon chạy Máy ảo Java (JVM) riêng Khi sửa đổi khơng gian tên thực nút Active, ghi lại ghi sửa đổi phần lớn JournalNodes Nút Standby đọc chỉnh sửa từ JournalNodes liên tục theo dõi thay đổi nhật ký chỉnh sửa Khi nút Standby chỉnh sửa, áp dụng chúng cho khơng gian tên riêng Trong trường hợp chuyển đổi dự phòng, Chế độ chờ đảm bảo đọc tất chỉnh sửa từ JournalNodes trước tự quảng bá lên trạng thái hoạt động Điều đảm bảo trạng thái không gian tên đồng hóa hồn tồn trước xảy chuyển đổi dự phòng Lưu trữ chia sẻ Hệ thống tệp mạng: Trong nhớ dùng chung cách triển khai NFS, nút Standby giữ trạng thái đồng hóa với nút Hoạt động thông qua quyền truy cập vào thư mục thiết bị lưu trữ dùng chung Thành phần HDFS Các thành phần HDFS là:   Nút tên   Nút tên phụ  Hệ thống tập tin  Siêu liệu   Nút liệu   Nút tên Máy chủ NameNode thành phần cốt lõi cụm HDFS Chỉ có máy chủ  NameNode tồn cụm Namenode trì thực thi hoạt động khơng gian tên hệ thống tệp mở, đóng đổi tên tệp thư mục, có HDFS Hình ảnh khơng gian tên nhật ký chỉnh sửa lưu trữ thông tin liệu siêu liệu  NameNode xác định việc liên kết khối với DataNodes Hơn nữa, NameNode điểm thất bại DataNode máy chủ nhiều phiên Có thể có số lượng máy chủ DataNode Số lượng phụ thuộc vào loại mạng hệ thống lưu trữ Các máy chủ DataNode, lưu trữ trì khối liệu NameNode Server cung cấp khối liệu sở loại công việc gửi khách hàng DataNode lưu trữ truy xuất khối khách hàng NameNode yêu cầu Hơn nữa, đọc / ghi yêu cầu thực tạo, xóa chép khối lệnh từ NameNode Chỉ có máy chủ NameNode phụ cụm Lưu ý bạn coi máy chủ NameNode phụ máy chủ khôi phục sau thảm họa Tuy nhiên, khơi phục phần máy chủ NameNode trường hợp xảy lỗi Nút tên phụ Máy chủ NameNode phụ trì nhật ký chỉnh sửa thơng tin hình ảnh khơng gian tên đồng  bộ với máy chủ NameNode Đơi khi, hình ảnh không gian tên từ máy chủ NameNode không   cập nhật; đó, bạn khơng thể hồn tồn dựa vào máy chủ NameNode phụ cho q trình khơi phục Hệ thống tập tin HDFS hiển thị không gian tên hệ thống tệp cho phép liệu người dùng lưu trữ tệp HDFS có hệ thống tệp phân cấp với thư mục tệp NameNode quản lý không gian tên hệ thống tệp, cho phép khách hàng làm việc với tệp thư mục 10   Hệ thống tệp hỗ trợ thao tác tạo, xóa, di chuyển đổi tên NameNode, ngồi việc trì khơng gian tên hệ thống tệp, ghi lại thay đổi thông tin siêu liệu Bây tìm hiểu thành phần HDFS, xem NameNode hoạt động với thành phần khác  Namenode: Hoạt động  NameNode trì hai tệp liên tục; nhật ký giao dịch gọi Nhật ký chỉnh sửa hình ảnh không gian tên gọi FsImage Nhật ký chỉnh sửa ghi lại thay đổi xảy siêu liệu hệ thống tệp, chẳng hạn tạo tệp 11    NameNode hệ thống tệp cục lưu trữ Nhật ký chỉnh sửa Tồn khơng gian tên hệ thống tệp bao gồm ánh xạ khối, tệp thuộc tính hệ thống tệp lưu trữ FsImage Điều lưu trữ hệ thống tệp cục NameNode Siêu liệu Khi DataNodes tham gia cụm, siêu liệu tải khối nằm DataNode cụ thể vào nhớ khởi động Siêu liệu sau định kỳ tải liệu theo khoảng thời gian người dùng xác định mặc định Khi NameNode khởi động, truy xuất Nhật ký chỉnh sửa FsImage từ hệ thống tệp cục  bộ Sau đó, cập nhật FsImage với thơng tin Edit Log lưu trữ FsImage hệ thống tệp làm điểm kiểm tra Kích thước siêu liệu giới hạn RAM có sẵn NameNode Một số lượng lớn tệp nhỏ yêu cầu nhiều siêu liệu số lượng nhỏ tệp lớn Do đó, vấn đề quản lý siêu liệu nhớ giải thích lý HDFS ủng hộ số lượng nhỏ tệp lớn  Nếu NameNode hết RAM, gặp cố ứng dụng sử dụng HDFS NameNode hoạt động trở lại Phân tách khối liệu trình quan trọng kiến trúc HDFS Như thảo luận trước đó, tệp chia thành nhiều khối lưu trữ chép DataNodes 12   Nút liệu DataNodes quản lý tên vị trí khối tệp Theo mặc định, khối tệp 128 Megabyte Tuy nhiên, điều có khả làm giảm số lượng song song đạt số lượng khối tệp giảm Mỗi tác vụ ánh xạ hoạt động khối, tác vụ nút cụm, tác vụ chạy chậm Tuy nhiên, vấn đề cơng việc MapReduce trung bình liên quan đến nhiều tệp tệp riêng lẻ lớn Hãy để xem xét số lợi ích phương pháp tiếp cận khối liệu Phương pháp tiếp cận khối liệu cung cấp:  Sao chép đơn giản hóa  Khả chịu lỗi  Độ tin cậy  Nó giúp cách bảo vệ người dùng khỏi chi tiết hệ thống phụ lưu trữ Kiến trúc chép khối 13   Sao chép khối đề cập đến việc tạo khối nhiều nút liệu Thông thường, liệu chia thành dạng phần phần phần HDFS thực chép khối nhiều nút liệu để có lỗi máy chủ nút liệu Dịch vụ theo dõi công việc gửi lại công việc đến máy chủ nút liệu khác Dịch vụ theo dõi cơng việc có mặt máy chủ nút định danh Phương pháp chép Trong phương thức chép, tệp chia thành chuỗi khối Tất khối ngoại trừ khối cuối tệp có kích thước Các khối chép để có khả chịu lỗi 14   Hệ số chép khối thường cấu hình cấp cụm cấu hình cấp độ tệp  Nút tên nhận nhịp tim báo cáo khối từ nút liệu cụm Nhịp tim biểu thị nút liệu hoạt động bình thường Báo cáo khối liệt kê khối nút liệu Cấu trúc liên kết chép liệu Cấu trúc liên kết quan trọng để đảm bảo độ tin cậy HDFS Thông thường, liệu chép ba lần cấu trúc liên kết chép đề xuất sau 15   Đặt nút với nút máy khách Đặt thứ hai giá đỡ khác với Đặt thứ ba giá đỡ với thứ hai nút khác Hãy hiểu chép liệu thơng qua ví dụ đơn giản Cấu trúc liên kết chép liệu - Ví dụ Sơ đồ minh họa cụm Hadoop với ba giá đỡ Dưới sơ đồ chép nhận thức giá đỡ Hadoop 16   Mỗi giá đỡ bao gồm nhiều nút R1N1 đại diện cho nút giá đỡ Giả sử giá đỡ có tám nút Nút tên định nút liệu thuộc giá đỡ Khối B1 lần ghi vào nút giá đỡ Một sau ghi vào nút khác giá đỡ khác nút giá đỡ Bản thứ ba cuối khối ghi vào giá đỡ thứ hai đến nút khác giá đỡ nút Và bạn tìm hiểu cấu trúc liên kết vị trí chép liệu, thảo luận cách tệp lưu trữ HDFS Tệp lưu trữ nào? 17   Giả sử có tệp liệu lớn chia thành bốn khối Mỗi khối chép ba lần sơ đồ Bạn nhớ lại kích thước mặc định khối 128 megabyte  Nút tên sau mang thơng tin siêu liệu tất khối phân phối Hãy làm việc ví dụ HDFS giúp hiểu sâu sắc tất điểm thảo luận HDFS hoạt động - Ví dụ Giả sử bạn có tệp nhật ký mà bạn muốn lưu từ hệ thống tệp cục vào cụm HDFS Cụm có nút liệu: nút A, nút B, nút C, nút D nút E Bây nhật ký chia thành ba khối: b1 b2 b3 nhật ký khác chia thành hai khối: b4 b5 Bây khối b1 b2 b3 b4 b5 phân phối cho nút A, nút B, nút C khơng có D tương ứng sơ đồ 18   Mỗi khối chép ba lần năm nút liệu Tất thông tin liên quan đến danh sách khối gọi thông tin siêu liệu năm khối lưu trữ namenode Bây giả sử khách hàng yêu cầu nhật ký mà bạn lưu trữ Cuộc điều tra đến namenode máy khách nhận thông tin tệp nhật ký thể sơ đồ Dựa thông tin từ namenode, client nhận thông tin file từ nút liệu tương ứng HDFS cung cấp chế truy cập khác API Java sử dụng cho ứng dụng Ngồi cịn có trình bao bọc ngơn ngữ Python AC cho ứng dụng không  phải java GUI web sử dụng thơng qua trình duyệt HTTP Một vỏ FS có sẵn để thực lệnh HDFS Hãy xem lệnh cho HDFS giao diện dòng lệnh 19   Dòng lệnh HDFS Sau vài dòng lệnh HDFS: Để chép tệp simplilearn.txt từ đĩa cục vào thư mục người dùng, nhập dòng lệnh: $ hdfs dfs -put Simplilearn.txt Simplilearn.txt Thao tác chép tệp vào /user/username/simplilearn.txt Để lấy danh sách thư mục thư mục người dùng, nhập dòng lệnh: $hdfs dfs –ls Để tạo thư mục có tên testing thư mục người dùng, nhập dòng lệnh: $hdfs dfs –mkdir  Để xóa kiểm tra thư mục tất thành phần nó, nhập dịng lệnh: HDFS DFS -RM -R  Trình duyệt tệp Hue Trình duyệt tệp Huế cho phép bạn xem quản lý thư mục tệp HDFS  Ngồi ra, bạn tạo, di chuyển, đổi tên, sửa đổi, tải lên, tải xuống xóa thư mục tệp Bạn xem nội dung tệp 20

Ngày đăng: 24/05/2023, 18:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w