Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 117 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
117
Dung lượng
4,54 MB
Nội dung
TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU LỚN Giảng viên: Nguyễn Tu Trung, Trần Mạnh Tuấn BM HTTT, Khoa CNTT, Trường ĐH Thủy Lợi Hà Nội, 2019 Nội dung Cách mạng công nghiệp lần thứ Cơng nghệ số Dữ liệu lớn Dữ liệu lớn đến từ đâu? Đặc trưng liệu lớn Ứng dụng liệu lớn Tiếp cận liệu lớn Cơng nghệ xử lý liệu lớn NTTrung Bài giảng PTDLL 2/38 Cách mạng công nghiệp lần thứ Đặc trưng cách mạng cơng nghiệp: Có đột phá khoa học công nghệ Tạo thay đổi chất sản xuất Các cách mạng công nghiệp NTTrung Bài giảng PTDLL 3/38 Cách mạng công nghiệp lần thứ Cách mạng công nghiệp lần 4: Sản xuất thông minh dựa tiến công nghệ thông tin, công nghệ sinh học, công nghệ nano… Với tảng đột phá công nghệ số Hệ kết nối không gian số-thực thể (cyber-physical systems) Cách mạng số hoá: ‘Phiên số’ thực thể: Biểu diễn thực thể ‘0’ ‘1’ máy tính (digitalization) Thí dụ: bệnh án điện tử… Hệ kết nối không gian số‐thực thể (cyber‐physical system): hệ kết nối thực thể ‘phiên số’ chúng => Thay đổi phương thức sản xuất: Hành động giới thực thể Tính tốn, điều khiển khơng gian số NTTrung Bài giảng PTDLL 4/38 Cơng nghệ số Số hố (thí dụ máy ảnh, in ấn, truyền hình…) Xử lý liệu số hoá NTTrung Bài giảng PTDLL 5/38 Công nghệ số - Đột phá gần NTTrung Bài giảng PTDLL 6/38 Dữ liệu lớn Theo wikipedia: Dữ liệu lớn (Big data) thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu Theo Gartner: NTTrung Dữ liệu lớn nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình Bài giảng PTDLL 7/38 Dữ liệu lớn đến từ đâu? Đến từ nhiều nguồn khác NTTrung Bài giảng PTDLL 8/38 Dữ liệu lớn đến từ đâu? “Chỉ ngày em bé sinh đời, số lượng liệu thu thập tương đương với 70 lần thông tin Thư viện Quốc hội Mỹ (The Library of Congress)” NTTrung Bài giảng PTDLL 9/38 Dữ liệu lớn đến từ đâu? NTTrung Bài giảng PTDLL 10/38 Tổng quan thiết kế HDFS Metadata mà Namenode lưu trữ gồm có: File System Namespace: hình ảnh thư mục hệ thống file thời điểm đó, thể tất các file, thư mục có hệ thống file quan hệ chúng Thông tin để ánh xạ từ tên file thành danh sách block: với file, ta có danh sách có thứ tự block (đại diện Block ID) file Thơng tin nơi lưu trữ block: Mỗi block ta có danh sách DataNode lưu trữ block Datanode Chịu trách nhiệm lưu trữ block thật file hệ thống file phân tán lên hệ thống file cục Datanode Mỗi block lưu trữ file riêng biệt hệ thống file cục DataNode NTTrung Bài giảng PTDLL 8/22 Tổng quan thiết kế HDFS Khi client hệ thống muốn đọc file hệ thống HDFS Client thực request đến Namenode để lấy metadata file cần đọc => biết danh sách block file vị trí Datanode chứa block Client kết nối trực tiếp với Datanode để thực request đọc liệu block Định kỳ, DataNode báo cáo cho NameNode biết danh sách tất block mà lưu trữ Namenode dựa vào thông tin để cập nhật lại Metadata Metadata namenode đạt tình trạng thống với liệu Datanode Metadata trạng thái thống dùng để nhân metadata dùng cho mục đích phục hồi lại NameNode NameNode bị lỗi NTTrung Bài giảng PTDLL 9/22 Tổng quan thiết kế HDFS NTTrung Bài giảng PTDLL 10/22 Quá trình đọc file NTTrung Bài giảng PTDLL 11/22 Quá trình ghi file NTTrung Bài giảng PTDLL 12/22 Các tính NameNode Nhận biết cấu trúc cụm Hadoop Sắp xếp block lên DataNode Cân cluster Quản lý rác NTTrung Bài giảng PTDLL 13/22 Nhận biết cấu trúc cụm Hadoop Mức cụm Gồm rack ? Gồm rack ? Mỗi rack Gồm node ? Gồm node ? Rack: Tập node switch NTTrung Bài giảng PTDLL 14/22 Sắp xếp block lên DataNode Trên HDFS, file chia thành nhiều block Mỗi block lưu trữ thành N N DataNode khác N gọi số mức độ chép (replication level) Mỗi file quy định số replication level khác Chỉ số cao file “an tồn” Nếu ghi tất node => Băng thông ghi tối ưu nhất, độ tin cậy thấp node bị hỏng Nếu rải node cụm => Băng thơng ghi độ tin cậy cao node thuộc rack có khả hỏng cao thuộc rack khác (node hỏng switch hỏng) => Đảm bảo cân ba yếu tố: độ tin cậy, băng thông đọc ghi liệu: Các thường lưu rack NTTrung Bài giảng PTDLL 15/22 Cân cluster Theo thời gian phân bố block liệu DataNode trở nên cân đối: số node lưu trữ nhiều block liệu số node khác lại Một cluster cân Ảnh hưởng tới tối ưu hoá MapReduce Tạo áp lực lên DataNode lưu trữ nhiều block liệu (lưu lượng truy cập từ client, dung lượng lưu trữ lớn) Một chương trình tên balancer (chạy daemon NameNode) thực việc cân lại cluster Balancer định phân tán lại block liệu: Bằng cách di chuyển từ DataNode tải sang DataNode trống Vẫn đảm bảo chiến lược xếp block lên DataNode NTTrung Bài giảng PTDLL 16/22 Quản lý rác Một file HDFS, sau bị xóa người dùng ứng dụng, khơng bị xố bỏ khỏi HDFS Trước hết, HDFS di chuyển file bị xóa đến thư mục rác có tên /trash Các tập tin phục hồi nhanh chóng cịn thư mục rác Sau thời hạn định (có thể cấu hình lại thời hạn này), NameNode thực xoá file thư mục rác Việc xoá file kèm theo việc block thuộc file thực bị xố DataNode Người dùng lấy lại tập tin bị xoá cách vào thư mục /trash di chuyển ra, miễn chưa thực bị xoá khỏi /trash NTTrung Bài giảng PTDLL 17/22 Khả chịu lỗi HDFS Khả phục hồi nhanh chóng Nhân block Nhân metadata NameNode với SecondaryNameNode NTTrung Bài giảng PTDLL 18/22 Khả phục hồi nhanh chóng NameNode DataNode thiết kế để phục hồi nhanh chóng NameNode DataNode liên lạc thơng qua HeartBeat HeartBeat tín hiệu gửi DataNode đến NameNode sau khoảng thời gian thông thường để biểu thị diện (tức cịn sống) Nếu sau khoảng thời gian định, NameNode không nhận phản hồi từ DataNode, DataNode ngưng hoạt động NTTrung Bài giảng PTDLL 19/22 Khả phục hồi nhanh chóng Trường hợp NameNode ngừng hoạt động Chỉ cần phục hồi lại NameNode mà không cần phải restart tất DataNode NameNode sau phục hồi tự động liên lạc lại với DataNode => hệ thống lại phục hồi (thực chất NameNode đứng yên lắng nghe HeartBeat từ DataNode) Nếu DataNode bị ngừng hoạt động Chỉ cần khởi động lại DataNode DataNode tự động liên lạc với NameNode thông qua HeartBeat để cập nhật lại tình trạng NameNode NTTrung Bài giảng PTDLL 20/22 Nhân block Mỗi block liệu HDFS lưu trữ trùng lặp DataNode khác thuộc rack khác Người dùng (hoặc ứng dụng) gán số mức độ nhân (replication level) khác cho file khác nhau, tuỳ vào mức độ quan trọng file đó, số mặc định Khi hay số DataNode bị ngừng hoạt động, ta cịn block NTTrung Bài giảng PTDLL 21/22 Nhân metadata NameNode với SecondaryNameNode Từ kiến trúc cụm Hadoop, ta thấy tầm quan trọng NameNode: lưu giữ tất metadata hệ thống Nếu Namenode gặp phải cố (cả phần cứng hay phần mềm) tất file hệ thống HDFS bị mất, ta khơng có cách để tái cấu trúc lại file từ block lưu DataNode => Lý có tồn SecondaryNamenode SecondaryNamenode node Hadoop cluster Nhiệm vụ SecondaryNamenode lưu trữ lại checkpoint (trạng thái thống metadata) NameNode Khi NameNode gặp cố, checkpoint import vào NameNode => NameNode trở lại hoạt động thời điểm SecondaryNamenode tạo checkpoint SecondaryNamenode thực nhiệm vụ thơng qua daemon tên secondarynamenode NTTrung Bài giảng PTDLL 22/22 ... Bear, (1, 1); Car, (1, 1 ,1) ; Dear, (1, 1); River, (1, 1) B4: Reducing: Tính tổng giá trị từ Bear, (1, 1) -> (Bear, 2) Car, (1, 1 ,1) -> (Car,3) Dear, (1, 1) -> (Dear,2) River, (1, 1) -> (River,2)... mạng công nghiệp lần thứ Công nghệ số Dữ liệu lớn Dữ liệu lớn đến từ đâu? Đặc trưng liệu lớn Ứng dụng liệu lớn Tiếp cận liệu lớn Cơng nghệ xử lý liệu lớn NTTrung Bài giảng PTDLL 2/38 Cách... PTDLL 11 /38 Dữ liệu lớn đến từ đâu? Dữ liệu lớn hình thành chủ yếu từ nguồn: NTTrung … (4) Dữ liệu từ thiết bị theo dõi Ví dụ theo dõi liệu từ điện thoại di động, GPS; (5) Dữ liệu