1. Trang chủ
  2. » Tất cả

Giao tác và nhân bản tìm hiểu một số dịch vụ hệ thống phổ biến

11 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BÁO CÁO MÔN HỌC HỆ PHÂN BỐ ĐỀ TÀI GIAO TÁC VÀ NHÂN BẢN TÌM HIỂU MỘT SỐ DỊCH VỤ HỆ THỐNG PHỔ BIẾN GVHD TS NGUYỄN THIÊN BẢO 1 Giao tác Giao tác phân tán là gì? Giao tác là sự thực hiện trọn vẹn mà k[.]

BÁO CÁO MÔN HỌC: HỆ PHÂN BỐ ĐỀ TÀI: GIAO TÁC VÀ NHÂN BẢN TÌM HIỂU MỘT SỐ DỊCH VỤ HỆ THỐNG PHỔ BIẾN GVHD: TS NGUYỄN THIÊN BẢO Giao tác Giao tác phân tán gì? Giao tác thực trọn vẹn mà không giao tác chen vào Các tính chất giao tác + Tính ngun tử (Atomicity): tồn thao tác giao tác thực không thao tác chúng thực Một giao tác đơn vị công việc khơng thể phân chia + Tính bền vững (Durability): giao tác phải chuyển CSDL từ trạng thái quán sang trạng thái quán khác + Tính (Serializability): Các giao tác phải thực cách độc lập với Nói cách khác tác động giao tác thấy giao tác khác, giao tác chưa thực xong hoàn toàn + Tính biệt lập (Isolation): thay đổi CSDL tác động giao tác thành công bền vững, khơng bị Có nhóm giao tác chính:  Giao tác tuần tự: giao tác thực mà không giao mặt thời gian  Giao tác song song: lệnh thao tác khác xen kẽ trục thời gian 2.Nhân 2.1 Nhân gì? Trong hệ phân bố, nhân hành động tạo thêm cho loại liệu lưu nơi khác Để đảm bảo an tồn thơng tin cho hệ thống phân bố, người ta thường tổ chức lưu trữ liệu nhiều vị trí vật lý khác đồng thời tạo cho liệu 2.2 Các mơ hình nhân Các mơ hình nhân bản: Khơng có mơ hình nhân liệu tốt Phải thỏa hiệp tiêu chí nhân để đạt mục tiêu u cầu 2.2.1 Mơ hình thống liên tục: - Thống chặt - Thống - Thống tuyến tính - Thống nhân - Thống FIFO - Thống yếu - Thống (Release consistency) - Thống vào (Entry consistency) Tìm hiểu dịch vụ hệ thống phổ biến 3.1 Hadoop 3.1.1 Khái niệm Hadoop Apache framework mã nguồn mở viết bằng java cho phép phát triển ứng dụng phân tán (distributed processing) để lưu trữ quản lý tập liệu lớn Hadoop thực mơ hình MapReduce, mơ hình mà ứng dụng chia nhỏ thành nhiều phân đoạn khác chạy song song nhiều node khác Hadoop viết bằng Java nhiên hỗ trợ C++, Python, Perl bằng chế streaming 3.1.2 Đặc điểm Hadoop - Thích hợp cho phân tích liệu lớn: Vì Dữ liệu lớn có xu hướng phân tán khơng có cấu trúc chất, cụm hadoop phù hợp để phân tích Dữ liệu lớn Vì xử lý logic (khơng phải liệu thực tế) chảy đến nút máy tính, băng thơng mạng tiêu thụ - Khả mở rộng: Các cụm hadoop dễ dàng mở rộng mức độ bằng cách thêm nút cụm bổ sung cho phép tăng trưởng Dữ liệu lớn Ngoài ra, việc mở rộng quy mô không yêu cầu sửa đổi logic ứng dụng - Khả chịu lỗi: Hệ sinh thái hadoop có điều khoản để chép liệu đầu vào sang nút cụm khác Bằng cách đó, trường hợp có cố nút cụm, việc xử lý liệu tiến hành bằng cách sử dụng liệu lưu trữ nút cụm khác - Cấu trúc liên kết mạng Hadoop: Cấu trúc liên kết (Arrangment) mạng, ảnh hưởng đến hiệu suất cụm Hadoop kích thước cụm Hadoop lớn lên Ngoài hiệu suất, người ta cần quan tâm đến tính sẵn sàng cao xử lý hỏng hóc Để đạt Hadoop này, việc hình thành cụm sử dụng cấu trúc liên kết mạng 3.1.3 Ưu điểm Hadoop - Robus and Scalable – Có thể thêm node thay đổi chúng cần - Affordable and Cost Effective – Không cần phần cứng đặc biệt để chạy Hadoop - Adaptive and Flexible – Hadoop xây dựng với tiêu chí xử lý liệu có cấu trúc khơng cấu trúc - Highly Available and Fault Tolerant – Khi node lỗi, tảng Hadoop tự động chuyển sang node khác 3.1.3 Kiến trúc hadoop Hadoop có cấu trúc liên kết master-slave Trong cấu trúc này, có node master nhiều node slave Chức node master gán tác vụ cho node slave khác quản lý tài nguyên Các node slave máy tính thực tế khơng mạnh Các node slave lưu trữ liệu thực master có metadata  Hadoop Distributed File System (HDFS) HDFS thành phần lưu trữ quan trọng nhất, Hệ sinh thái Hadoop Hệ thống tệp phân tán Hadoop (HDFS) hệ thống tệp dựa java cung cấp khả mở rộng, khả chịu lỗi, lưu trữ liệu đáng tin cậy tiết kiệm chi phí cho liệu lớn HDFS gồm hai thành phần NameNode DataNode  NameNode NameNode chạy máy chủ Master NameNode không lưu trữ liệu thực tế tập liệu NameNode lưu trữ Siêu liệu, tức số khối, vị trí chúng, có Rack, Datanode lưu trữ liệu chi tiết khác Nó bao gồm tệp thư mục Nhiệm vụ NameNode: - Quản lý không gian tên hệ thống tệp - Kiểm soát quyền truy cập khách hàng vào tệp - Thực thực thi hệ thống tệp đặt tên, đóng, mở tệp thư mục  DataNode DataNode chạy nút Slave HDFS Datanode chịu trách nhiệm lưu trữ liệu thực tế HDFS Datanode thực thao tác đọc ghi theo yêu cầu clients Khối Datanode bao gồm tệp hệ thống tệp Tệp dành cho liệu tệp thứ hai để ghi lại siêu liệu khối Siêu liệu HDFS bao gồm tổng kiểm tra liệu Khi khởi động, Datanode kết nối với Namenode tương ứng thực q trình bắt tay Việc xác minh ID khơng gian tên phiên phần mềm DataNode diễn bằng cách bắt tay Tại thời điểm không khớp tìm thấy, DataNode tự động ngừng hoạt động Nhiệm vụ DataNode: - DataNode thực hoạt động tạo, xóa chép khối theo hướng dẫn NameNode - DataNode quản lý việc lưu trữ liệu hệ thống - Đây tất HDFS thành phần Hệ sinh thái Hadoop 3.2 MapReduce MapReduce thành phần cốt lõi hệ sinh thái Hadoop cung cấp khả xử lý liệu MapReduce khung phần mềm để dễ dàng viết ứng dụng xử lý lượng lớn liệu có cấu trúc phi cấu trúc lưu trữ hệ thống tệp phân tán Hadoop Các chương trình MapReduce có tính chất song song, hữu ích để thực phân tích liệu quy mô lớn bằng cách sử dụng nhiều máy cụm Do đó, cải thiện tốc độ độ tin cậy cụm xử lý song song Các tính MapReduce - Tính đơn giản: Các cơng việc MapReduce dễ chạy Ứng dụng viết bằng ngôn ngữ java, C ++ python - Khả mở rộng: MapReduce xử lý hàng petabyte liệu - Tốc độ: Các vấn đề xử lý song song nhiều ngày để giải quyết, MapReduce giải vài vài phút - Khả chịu lỗi: MapReduce xử lý lỗi Nếu liệu không khả dụng, máy khác có cặp khóa sử dụng để giải nhiệm vụ 3.3 Yarn Yarn (Yet-Another-Resource-Negotiator) thành phần quan trọng Hệ sinh thái Hadoop cung cấp công tác quản lý tài nguyên Yarn gọi hệ điều hành Hadoop chịu trách nhiệm quản lý giám sát khối lượng cơng việc Nó cho phép nhiều cơng cụ xử lý liệu phát trực tuyến thời gian thực xử lý hàng loạt để xử lý liệu lưu trữ tảng Các tính YARN là: - Flexibility: Cho phép mơ hình xử lý liệu xây dựng theo mục đích khác ngồi MapReduce (hàng loạt), chẳng hạn tương tác phát trực tuyến Do tính YARN, ứng dụng khác chạy với chương trình Map Reduce Hadoop2 - Efficiency: Do nhiều ứng dụng chạy cụm, Do đó, hiệu Hadoop tăng lên mà không ảnh hưởng nhiều đến chất lượng dịch vụ - Shared: Cung cấp tảng ổn định, đáng tin cậy, an toàn dịch vụ hoạt động chia sẻ nhiều khối lượng cơng việc Các mơ hình lập trình bổ sung xử lý đồ thị mơ hình lặp lại xử lý liệu 3.4 Spark 3.4.1 Apache Spark gì? Là cơng cụ tính tốn thống tập hợp thư viện để xử lý liệu song song cụm máy tính Spark cơng cụ mã nguồn mở phát triển tích cực cho nhiệm vụ này; biến thành thật cơng cụ cho nhà phát triển nhà khoa học liệu quan tâm đến liệu lớn Spark hỗ trợ nhiều chương trình sử dụng rộng rãi ngôn ngữ (Python, Java, Scala R), bao gồm thư viện cho tác vụ đa dạng khác nhau, từ SQL đến phát trực tuyến máy học chạy nơi từ máy tính xách tay đến cụm hàng nghìn máy chủ Điều làm cho trở thành hệ thống dễ dàng khởi động với mở rộng quy mô xử lý liệu lớn quy mô cực lớn Tốc độ xử lý Spark có việc tính tốn thực lúc nhiều máy khác Đồng thời việc tính tốn thực nhớ (in-memories) thực hoàn toàn RAM Spark cho phép xử lý liệu theo thời gian thực, vừa nhận liệu từ nguồn khác đồng thời thực việc xử lý liệu vừa nhận ( Spark Streaming) Spark khơng có hệ thống file riêng mình, sử dụng hệ thống file khác như: HDFS, Cassandra, S3,… Spark hỗ trợ nhiều kiểu định dạng file khác (text, csv, json…) đồng thời hồn tồn khơng phụ thuộc vào hệ thống file 3.4.2 Thành phần Spark Apache Spark gồm có thành phần : Spark Core, Spark Streaming, Spark SQL, MLlib GraphX, đó:  Spark Core tảng cho thành phần lại thành phần muốn khởi chạy phải thơng qua Spark Core Spark Core đảm nhận vai trị thực cơng việc tính tốn xử lý nhớ (In-memory computing) đồng thời tham chiếu liệu lưu trữ hệ thống lưu trữ bên  Spark SQL cung cấp kiểu data abstraction (SchemaRDD) nhằm hỗ trợ cho kiểu liệu có cấu trúc (structured data) liệu nửa cấu trúc (semi-structured data – thường liệu có cấu trúc khơng đồng cấu trúc liệu phụ thuộc vào nội dung liệu ấy) Spark SQL hỗ trợ DSL (Domain-specific language) để thực thao tác DataFrames bằng ngôn ngữ Scala, Java Python hỗ trợ ngơn ngữ SQL với giao diện command-line ODBC/JDBC server  Spark Streaming sử dụng để thực việc phân tích stream bằng việc coi stream mini-batches thực kỹ thuật RDD transformation liệu mini-batches Qua cho phép đoạn code viết cho xử lý batch tận dụng lại vào việc xử lý stream, làm cho việc phát triển lambda architecture dễ dàng Tuy nhiên điều lại tạo độ trễ xử lý liệu (độ trễ bằng mini-batch duration) nhiều chuyên gia cho rằng Spark Streaming không thực công cụ xử lý streaming giống Storm Flink  MLlib (Machine Learning Library): MLlib tảng học máy phân tán bên Spark kiến trúc phân tán dựa nhớ Theo so sánh benchmark Spark MLlib nhanh lần so với phiên chạy Hadoop (Apache Mahout)  GraphX: GraphX API Apache Spark dành cho đồ thị tính tốn song song đồ thị GraphX thống quy trình ETL (Trích xuất, Biến đổi & Tải), phân tích khám phá tính tốn đồ thị lặp lại hệ thống 3.4.3 Những điểm bật Spark  Xử lý liệu: Spark xử lý liệu theo lơ thời gian thực  Tính tương thích: Có thể tích hợp với tất nguồn liệu định dạng tệp hỗ trợ cụm Hadoop  Hỗ trợ ngôn ngữ: hỗ trợ Java, Scala, Python R  Phân tích thời gian thực: o Apache Spark xử lý liệu thời gian thực tức liệu đến từ luồng kiện thời gian thực với tốc độ hàng triệu kiện giây Ví dụ: Data Twitter chẳng hạn lượt chia sẻ, đăng Facebook Sức mạnh Spark khả xử lý luồng trực tiếp hiệu o Apache Spark sử dụng để xử lý phát gian lận thực giao dịch ngân hàng Đó vì, tất khoản toán trực tuyến thực thời gian thực cần ngừng giao dịch gian lận q trình tốn diễn  Mục tiêu sử dụng: o Xử lý liệu nhanh tương tác o Xử lý đồ thị o Công việc lặp lặp lại o Xử lý thời gian thực o joining Dataset o Machine Learning o Apache Spark Framework thực thi liệu dựa Hadoop HDFS Apache Spark không thay cho Hadoop framework ứng dụng Apache Spark đời sau nhiều người biết đến Apache Hadoop khả xử lý hàng loạt thời gian thực 3.5 Bảo mật 3.5.1 Bảo mật thông tin gì? Dịch vụ bảo mật hệ thống liệu máy chủ, liệu người dùng,… bằng cách đánh giá bảo mật, kiểm tra, cổng giao thức, kiểm tra khắc phục lỗ hổng bảo mật, giao thức vật lý an tồn… để từ tích hợp giải pháp phù hợp, giải pháp tường lửa – Firewall, mã hóa liệu… 3.5.2 Mục đích việc bảo mật thông tin Doanh nghiệp cần bảo vệ thơng tin liệu để:  Phịng tránh tình trạng tin tặc đánh cắp liệu  Đảm bảo hoạt động trao đổi thông tin, giao dịch online ln an tồn  Tránh hậu dính tới pháp luật 3.5.3 Vì doanh nghiệp cần loại dịch vụ này? Máy chủ chủ yếu chịu trách nhiệm đảm bảo tạo môi trường làm việc, cung cấp công cụ cần thiết cho nhân viên, quản lý, khách hàng đối tác trạng thái liên tục truy xuất liệu doanh nghiệp Máy chủ trung tâm hoạt động kinh doanh, trao đổi liệu, tối ưu hóa quy trình làm việc Bởi máy chủ coi trái tim hệ thống CNTT cho doanh nghiệp máy chủ trở thành mục tiêu hấp dẫn hacker Nếu máy chủ ngừng hoạt động, tồn cơng ty bị tê liệt : · Gián đoạn hệ thống IT gây gián đoạn trình kinh doanh · Mất mát liệu quyền truy cập liệu · Gây lỗi ứng dụng phần mềm Kế toán, CRM, ERP, Quản lý nhân sự… · Gián đoạn kết nối, liên kết tương tác, tài khoản khách hàng · Đối diện với nguy bị phạt hợp đồng, chấm dứt hợp đồng với khách hàng Đó lý bảo mật máy chủ phải tối ưu hóa để giảm thiểu rủi ro cố Máy chủ phải xây dựng có phương án phòng chống, đảm bảo trước rủi ro Phải bảo mật hệ thống môi trường Internet – Vì nguồn nguy lớn cho hệ thống ...1 Giao tác Giao tác phân tán gì? Giao tác thực trọn vẹn mà không giao tác chen vào Các tính chất giao tác + Tính ngun tử (Atomicity): tồn thao tác giao tác thực không thao tác chúng thực Một giao. .. khác tác động giao tác thấy giao tác khác, giao tác chưa thực xong hoàn toàn + Tính biệt lập (Isolation): thay đổi CSDL tác động giao tác thành công bền vững, khơng bị Có nhóm giao tác chính:  Giao. .. tiêu chí nhân để đạt mục tiêu u cầu 2.2.1 Mơ hình thống liên tục: - Thống chặt - Thống - Thống tuyến tính - Thống nhân - Thống FIFO - Thống yếu - Thống (Release consistency) - Thống vào (Entry

Ngày đăng: 25/02/2023, 10:40

Xem thêm:

w