1. Trang chủ
  2. » Tất cả

Giao tác và nhân bản tìm hiểu một số dịch vụ hệ thống phổ biến

16 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 658,53 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHƯƠNG 3 GIAO TÁC VÀ NHÂN BẢN TÌM HIỂU MỘT SỐ DỊCH VỤ HỆ THỐNG PHỔ BIẾN GVHD TS Nguyễn Thiên Bảo Họ tên[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHƯƠNG GIAO TÁC VÀ NHÂN BẢN TÌM HIỂU MỘT SỐ DỊCH VỤ HỆ THỐNG PHỔ BIẾN GVHD: TS Nguyễn Thiên Bảo Họ tên : Hoàng Minh Nhật TP Hồ Chí Minh, ngày 31 tháng năm 2022 Mục lục Giao tác hệ thống phân tán .3 1.1 Khái niệm 1.2 Các trường hợp xảy giao dịch phân tán 1.3 Các giao dịch phân tán cần thiết và không cần thiết .3 1.4 Giao dịch phân tán cho liệu truyền trực tuyến Nhân và thống hệ thống phân bố 2.1 Giới thiệu .4 2.1.1 Vì phải nhân liệu? .4 2.1.2 Thống liệu 2.1.3 Khó khăn 2.2 Các mơ hình nhân 2.2.1 Mơ hình thống liên tục 2.2.2 Mơ hình thống theo thứ tự thao tác .6 Giới thiệu dịch vụ hệ thống phổ biến .10 3.1 Kiến trúc Hadoop 10 3.2 HDFS (Hadoop Distributed File System) 10 3.3 Map-Reduce 11 3.4 Yarn .13 3.5 Apache Spark 13 3.6 Bảo mật thông tin .13 3.6.1 Khái niệm bảo mật thông tin 13 3.6.2 Các loại bảo mật thông tin 14 3.6.3 Mục tiêu và nguyên tắc bảo mật thông tin 14 3.6.4 Rủi ro bảo mật thông tin 15 3.6.5 Các giải pháp bảo mật thông tin .15 DỊCH VỤ HỆ THỐNG PHÂN BỐ Giao tác hệ thống phân tán 1.1 Khái niệm Giao dịch phân tán tập hợp thao tác liệu thực hai nhiều kho liệu (đặc biệt sở liệu) Nó thường điều phối qua nút riêng biệt kết nối mạng, mở rộng nhiều sở liệu máy chủ 1.2 Các trường hợp xảy giao dịch phân tán Tính ngun tố (Atomicity) : tồn thao tác giao tác thực không thao tác chúng thực Một giao tác đơn vị cơng việc khơng thể phân chia Tính qn (Consistency) : giao tác phải chuyển CSDL từ trạng thái quán sang trạng thái qn khác Tính lập (Isolation) : Các giao tác phải thực cách độc lập với Nói cách khác tác động giao tác thấy giao tác khác, giao tác chưa thực xong hồn tồn Tính bền vững (Durability) : thay đổi CSDL tác động giao tác thành công bền vững, không bị Hoạt động giao dịch phân tán Các giao dịch phân tán có u cầu hồn thành xử lý giống giao dịch sở liệu thông thường, chúng phải quản lý nhiều tài nguyên, khiến việc triển khai chúng trở nên khó khăn nhà phát triển sở liệu Nhiều tài nguyên làm tăng thêm nhiều điểm lỗi, chẳng hạn hệ thống phần mềm riêng biệt chạy tài nguyên (ví dụ: phần mềm sở liệu), máy chủ phần cứng bổ sung lỗi mạng Điều làm cho giao dịch phân tán dễ bị thất bại, lý biện pháp bảo vệ phải thực để trì tính tồn vẹn liệu 1.3 Các giao dịch phân tán cần thiết và không cần thiết Các giao dịch phân tán cần thiết bạn cần cập nhật nhanh chóng liệu liên quan trải rộng nhiều sở liệu Ví dụ: bạn có nhiều hệ thống theo dõi thơng tin khách hàng bạn cần thực cập nhật chung (như cập nhật địa gửi thư) tất ghi, giao dịch phân tán đảm bảo tất ghi cập nhật Và xảy lỗi, liệu đặt lại trạng thái ban đầu việc gửi lại giao dịch tùy thuộc vào ứng dụng gốc 1.4 Giao dịch phân tán cho liệu truyền trực tuyến Các giao dịch phân tán ngày đặc biệt quan trọng mơi trường truyền liệu khối lượng liệu đến Ngay lỗi ngắn hạn tài nguyên thể lượng lớn liệu bị Xử lý dịng tinh vi cơng cụ hỗ trợ xử lý “chính xác lần” giao dịch phân tán bao gồm việc đọc liệu từ nguồn liệu, xử lý ghi liệu tới đích đích (“bồn chứa liệu”) Nhân và thống hệ thống phân bố 2.1 Giới thiệu 2.1.1 Vì phải nhân liệu? + Để tăng tín tin cậy (tính sẵn sàng) cho hệ thống: Trong q trình đọc ghi liệu, liệu bị lỗi hay ngun nhân mà khơng thể dùng được, ta dùng liệu để hệ thống khơng phải dừng lại tránh tình trạng sử dụng liệu khơng xác + Để tăng hiệu hệ thống: Tăng quy mô hệ thống số lượng lẫn phạm vi địa lý 2.1.2 Thống liệu 2.1.3 Khó khăn Khó khăn cho việc trì tính thống liệu Các phân tán diện rộng , vấn đề đặt xác định đâu cập nhật cách nhanh chóng + Tần suất truy cập cập nhật liệu + Mục đích sử dụng 2.2 Các mơ hình nhân 2.2.1 Mơ hình thống liên tục Mơ hình hoạt động dựa việc xác định xem việc ko thống chấp nhận dựa vào việc xác định thông tin sau:  Độ lệch số  Độ lệch theo trạng thái  Độ lệch thứ tự lần cập nhật Như hệ thống quy định độ lệch Nếu phiên cập nhật mà độ lệch chưa đạt tới giá trị quy định khác coi thống ko phải thực cập nhật Độ lệch số sao: - Thường sử dụng với chương trình có liệu số - Có dạng độ lệch là: độ lệch tương đối độ lệch tuyệt đối - Có thể xác định số số lượng cập nhật cho Độ lệch trạng thái sao: - Liên quan đến thời gian cuối cập nhật - Với số ứng dụng chấp nhận liệu cũ , miễn không cũ - Ví dụ: dự báo thời tiết , máy chủ liên tục nhận thông tin thời tiết đồng 30’/lần … Độ lệch thứ tự cập nhật: - Thứ tự cập nhật phép khác khác khác giới hạn - Khi nhận yêu cầu cập nhật tạm thời cập nhật chờ đồng ý khác trình cập nhật - Như cần có thêm phụ để khơng nhận đồng ý cập nhật khác quay lại cũ - Có thể sau nhiều lần cập nhật tạm thời cập nhật lâu dài 2.2.2 Mơ hình thống theo thứ tự thao tác Thống chặt Là mơ hình thỏa mãn điều kiện sau:  Thao tác đọc mục liệu x trả giá trị tương ứng với kết thao tác ghi gần x  Sử dụng khái niệm thời gian tuyệt đối  Thời gian tuyệt đối tổng thể cho hệ thống để xác định khái niệm "gần nhất" => Điều khó khả thi với hệ phân tán  Các kí hiệu: o Wi(x)a: thao tác ghi thực tiến trình P(i) lên mục liệu x với giá trị a o Ri(x)b: thao tác đọc thực tiến trình P(i) lên mục liệu x cho kết b o Giá trị khởi tạo liệu NIL (x = null) Do việc lan truyền cục P1 chưa tới P2 nên P2 đọc liệu x giá trị null ban đầu => Mơ hình khơng khả thi *Thống  Là mơ hình lỏng lẻo hơn, yếu mơ hình thống chặt  Các tiến trình có chuỗi thao tác cục  Nó thỏa mãn yêu cầu sau: o Kết thực thao tác đọc ghi tiến trình thực kho liệu cách thao tác tiến trình xuất chuỗi thao tác chương trình o Khi tiến trình chạy đồng thời máy khác cho phép đan xen thao tác tất tiến trình phải nhận biết đan xen thao tác  Tất tiến trình nhìn thấy thứ tự thao tác ghi  (a) Mơ hình qn  (b) Khơng mơ hình quán *Thống tuyến tính  Là mơ hình yếu mơ hình thống chặt mạnh mơ hình thống  Mơ hình thỏa mãn điều kiện sau: o Kết thực thao tác (đọc ghi) tất tiến trình lên liệu thực cách thao tác tiến trình xuất chuỗi thao tác phải theo thứ tự chương trình *Thống nhân  Đây mơ hình lỏng lẻo mơ hình thống  Mơ hình phân biệt kiện có quan hệ nhân kiện khơng có quan hệ nhân  Nếu kiện b gây bị tác động kiện a xảy sớm tính nhân địi hỏi thực thể khác phải "nhìn" thấy a trước thấy b sau  Các thao tác ghi đồng thời nhận biết theo thứ tự khác máy khác  Hai thao tác ghi coi có quan hệ nhân với việc thực thao tác có khả gây ảnh hưởng đến liệu ghi thao tác  Mơ hình thống nhân thỏa mãn điều kiện sau: o Một thao tác đọc có quan hệ nhân với thao tác ghi cung cấp liệu cho o Một thao tác ghi có quan hệ nhân với thao tác đọc xảy trước tiến trình  Nếu thao tác khơng có quan hệ nhân với chúng coi xảy đồng thời  Các thao tác đọc đồng thời thực theo trật tự miễn chúng tuân theo trình tự chương trình *Thống FIFO Thống FIFO gọi qn PRAM  Đây mơ hình yếu mơ hình bỏ qua giới hạn trật tự thao tác đồng thời  Mơ hình thỏa mãn điều kiện: o Các thao tác ghi tiến trình đơn phải tất tiến trình khác nhìn thấy theo trật tự mà chúng đề o Nhưng thao tác ghi nhiều tiến trình khác thấy theo trật tự khác tiến trình khác *Thống yếu Mơ hình khơng tập trung vào thao tác liệu mà chúng quan tâm đến trật tự nhóm lệnh việc sử dụng biến đồng  Mơ hình có ba đặc tính sau: o Việc truy cập đến biến đồng hóa kết hợp với kho liệu thống o Không có thao tác lên biến đồng hóa phép thực tất thao tác ghi trước hồn thành nơi o Khơng có thao tác đọc hay ghi liệu lên mục liệu phép thực tất thao tác trước lên biến đồng hóa thực  (a) Mơ hình qn yếu  (b) Khơng mơ hình qn yếu *Thống (Release consistency)  Sử dụng thêm hai lệnh: o Lệnh acquired: để báo muốn vào vùng tới hạn (critial region) o Lệnh release: để báo giải phóng vùng tới hạn  Hai lệnh có hai cách thực thi khác như: biến lệnh đặc biệt  Hai thao tác thực với liệu dùng chung không áp dụng cho tất liệu  Điều kiện thỏa mãn: o Trước thực thao tác đọc hay ghi lên liệu chia sẻ tất thao tác acquire tiến trình thực trước phải hồn tất o Trước thao tác release phép thực tất thao tác đọc ghi tiến trình thực trước phải hồn tất o Truy cập vào biến đồng hóa quán FIFO (Không yêu cầu quán tuần tự) *Thống vào (Entry consistency)  Giống mơ hình thống ra, mơ hình thống vào sử dụng hai lệnh acquired release muốn sử dụng vào vùng tới hạn  Tuy nhiên lệnh thao tác mục liệu vùng liệu chia sẻ Tiến trình muốn sử dụng mục liệu phải đợi cho tất tiến trình khác giải phóng mục liệu  Để ghi lên mục liệu, client phải có biến đồng hố mục chế độ dành riêng Điều có nghĩa khơng client khác sử dụng biến Khi client cập nhật xong mục liệu, giải phóng biến  Khi client muốn đọc mục liệu đó, phải có biến đồng hóa kết hợp chế độ không dành riêng  Nhiều client giữ biến đồng hóa chế độ không dành riêng  Khi thực thao tác acquire, client lấy phiên mục liệu từ tiến trình cuối thực thao tác acquire biến  Điều kiện sau: o Một thao tác acquire để truy cập vào biến đồng hóa khơng phép thực tiến trình tất cập nhật lên mục liệu tiến trình thực o Trước truy cập chế độ dành riêng tiến trình tới biến đồng hóa phép thực khơng tiến trình khác cịn giữ biến đồng hóa, chế độ khơng dành riêng khơng cần yêu cầu o Sau truy cập chế độ dành riêng lên biến đồng hóa thực truy cập tiến trình khác chế độ khơng dành riêng lên biến khơng thực chủ nhân biến đồng thực xong việc truy cập Giới thiệu dịch vụ hệ thống phổ biến 3.1 Kiến trúc Hadoop Hadoop có cấu trúc liên kết master-slave Trong cấu trúc này, có node master nhiều node slave Chức node master gán tác vụ cho node slave khác quản lý tài nguyên Các node slave máy tính thực tế khơng mạnh Các node slave lưu trữ liệu thực master có metadata Kiến trúc Hadoop gồm có ba lớp : + HDFS (Hadoop Distributed File System) + Map-Reduce + Yarn 3.2 HDFS (Hadoop Distributed File System) Có kiến trúc Master-Slave + NameNode chạy máy chủ Master, có tác vụ quản lý Namespace điều chỉnh truy cập tệp client + DataNode chạy nút Slave có tác vụ lưu trữ business data thực tế + Một tập tin với định dạng HDFS chia thành nhiều block block lưu trữ tập DataNodes + Kích thước block thơng thường 64MB, kích thước thay đổi việc cấu hình 3.3 Map-Reduce Map-Reduce framework dùng để viết ứng dụng xử lý song song lượng lớn liệu có khả chịu lỗi cao xuyên suốt hàng ngàn cluster(cụm) máy tính - MapReduce gồm thành phần chính: Map: có nhiệm vụ lấy liệu chuyển thành liệu khác, liệu chia thành cặp key-value  Redure: có nhiệm vụ đầu Map, tiếp nhận (key, value) trộn cặp (key, value) trung gian , lấy value có key   Input Phase: đọc liệu chia thành khối liệu có kích thước thích hợp (64 MB đến 128 MB) Mỗi khối liệu liên kết với chức Map Khi đầu vào đọc liệu, tạo cặp key-value trị tương ứng Các tệp đầu vào nằm HDFS  Map Phase xử lý cặp key-value tới tạo cặp khóa-giá trị đầu tương ứng Loại đầu vào đầu Map khác  Intermediate Keys gán kết đầu hàm Map cho Reducer thích hợp Key value có sẵn cung cấp chức Nó trả số Reducer  Combiner loại cục nhóm liệu tương tự từ giai đoạn Map thành nhận dạng Phải key trung gian từ Map làm đầu vào áp dụng mã người dùng xác định để tổng hợp giá trị phạm vi nhỏ đồ Nó khơng phải phần thuật tốn MapReduce chính; tùy chọn  ·Shuffle and Sort Dữ liệu xáo trộn nút để di chuyển khỏi Map sẵn sàng xử lý cho chức Reduce Đơi khi, việc xáo trộn liệu nhiều thời gian tính tốn Thao tác xếp thực liệu đầu vào cho chức Reduce Ở đây, liệu so sánh cách sử dụng chức so sánh xếp theo dạng xếp  Reducer: Quá trình Shuffle diễn nhiều máy sử dụng chung tiêu chí định trước, nên việc phân nhóm liệu máy có thống Các nhóm liệu tương ứng với tất máy chạy Shuffle gom lại chuyển cho máy xử lý, cho kết cuối Tồn q trình gọi Reduce, trình xử lý máy trình Reduce trình Reducer  Output Phase Trong giai đoạn đầu ra, có định dạng đầu dịch cặp giá trị key-value cuối từ hàm Reducer ghi chúng vào tệp cách sử dụng trình ghi Ví dụ:  MapReduce sử dụng nhiều thuật toán học để chia nhiều vụ thành nhiều phần nhỏ là:  Sorting  Searching  Indexing  TF-IDF 3.4 Yarn YARN (Yet-Another-Resource-Negotiator) framework hỗ trợ phát triển ứng dụng phân tán YARN cung cấp daemons APIs cần thiết cho việc phát triển ứng dụng phân tán, đồng thời xử lý lập lịch sử dụng tài ngun tính tốn (CPU hay memory) giám sát trình thực thi ứng dụng 3.5 Apache Spark Apache Spark in-memory clusters ý nhiều doanh nghiệp việc ứng dụng cơng nghệ vào phân tích xử lý liệu nhanh chóng Bài viết tơi trình bày cách tổng quan Apache Spark, giải pháp địi hỏi phải có xử lý Big data Apache Spark open source cluster computing framework phát triển sơ khởi vào năm 2009 AMPLab đại học California Sau này, Spark trao cho Apache Software Foundation vào năm 2013 phát triển Nó cho phép xây dựng mơ hình dự đốn nhanh chóng với việc tính tốn thực nhóm máy tính, có tính tốn lúc tồn tập liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm Tốc độ xử lý Spark có việc tính tốn thực lúc nhiều máy khác Đồng thời việc tính tốn thực nhớ (in-memories) hay thực hoàn toàn RAM 3.6 Bảo mật thông tin 3.6.1 Khái niệm bảo mật thông tin Bảo mật thông tin (Information Security) không đơn bảo vệ thông tin cá nhân người dùng mà loạt chiến lược nhằm ngăn chặn truy cập, hành vi trái phép liên quan tới tài sản, liệu, thông tin riêng tổ chức/ cá nhân 3.6.2 Các loại bảo mật thông tin + Bảo mật mặt vật lý (Physical Security): Nếu bạn hiểu bảo mật thơng tin dễ nhận hình thức bảo mật vật lý Đó việc bảo vệ thơng tin khỏi yếu tố thiên nhiên/ người/ hành vi vật lý thực đột nhập trái phép, trộm cắp, đánh đập yếu tố tự nhiên điện, mưa, bụi, lửa,… + Bảo mật mặt kỹ thuật: Là việc ứng dụng khoa học kỹ thuật vào để bảo mật hệ thống dựng “tường lửa”, cài đặt phần mềm chống virus, thiết lập hệ thống bảo mật liệu, hệ thống phân quyền,… 3.6.3 Mục tiêu và nguyên tắc bảo mật thông tin + Ngăn chặn: Thiết lập biện pháp để ngăn chặn công từ tác nhân vật lý, tác nhân kỹ thuật hành vi vi phạm sách bảo mật + Phát hiện: Nhanh chóng phát hành vi vi phạm ảnh hưởng tới cá nhân/ hệ thống + Phục hồi: Sửa chữa, khắc phục hậu kịp thời để đảm bảo thứ hoạt động bình thường Bên cạnh đó, bạn cần đánh giá hành vi vi phạm để không bị lặp lại tương lai + Hoạt động: Và mục tiêu lớn bảo mật thơng tin gì? Đó đảm bảo hệ thống, cá nhân ln trạng thái tốt nhất, bị ảnh hưởng nhiều phần mềm độc hại Những nguyên tắc xây dựng hệ thống bảo mật thông tin doanh nghiệp + Nguyên tắc CIA: Là nguyên tắc đảm bảo đủ tính chất việc bảo vệ thơng tin tính bảo mật (Confidentiality); tính sẵn sàng (Availability); tính ngun vẹn tính khơng thể từ chối (Integrity and non – repudiation) + Nguyên tắc 3A (Authentication, Authorization, Accounting): cho phép chuyên viên bảo mật biết biết thơng tin quan trọng tình mức độ an tồn mạng, đồng thời xác thực – phân quyền – tính cước người dùng; + Nguyên tắc giá trị thông tin: Trong hệ thống, bạn đảm bảo bảo mật tuyệt đối tất thơng tin Bởi thế, bạn cần phân chia cấp độ thông tin dựa mức độ quan trọng để có kế hoạch xây dựng hệ thống bảo mật phù hợp + Nguyên tắc đặc quyền tối thiểu: Nguyên tắc quy định chủ thể nên có đặc quyền cần thiết để thực nhiệm vụ mà không nên cấp quyền bổ sung không cần thiết Việc giúp hạn chế rò rỉ thông tin không cần thiết 3.6.4 Rủi ro bảo mật thông tin + Đối với cá nhân: Việc rị rỉ hay bị đánh cắp thơng tin làm ảnh hưởng vơ nghiêm trọng đến tài chính, uy tín, mối quan hệ cá nhân Đặc biệt hành vi đánh cắp liệu, tung lên mạng nhằm mục đích bơi xấu cá nhân hack hệ thống tài khoản ngân hàng gây thiệt hại lớn + Đối với doanh nghiệp: Nếu chẳng may bị tin tặc công, doanh nghiệp phải đối mặt với nguy liệu, thất tài chính, gián đoạn hoạt động công ty, thiệt hại điện tử vật lý Đó cịn chưa kể đến việc hình ảnh thương 3.6.5 Các giải pháp bảo mật thông tin + Thiết lập phần mềm diệt virus, update phần mềm thường xuyên; + Thực phân quyền giới hạn quyền hệ thống với cá nhân; + Không tiết lộ thông tin liên quan tới danh tính bí mật riêng tư ngồi, không lưu trữ thiết bị không chắn khả bảo mật; + Sử dụng phần mềm lưu trữ chuyên nghiệp đặt bảo mật lớp cho ứng dụng chứa thông tin quan trọng; + Cẩn thận tải phần mềm ấn vào nguồn link khơng đảm bảo, mã hố tồn thông tin quan trọng trước chia sẻ; + Kiểm tra thiết bị đầu vào đầu nhằm bảo mật thông tin doanh nghiệp tốt + Bên cạnh đó, đội ngũ bảo mật thơng tin cần liên tục cập nhật công nghệ để loại bỏ lỗ hổng bảo mật tồn hệ thống mạng ... liệu ghi thao tác  Mơ hình thống nhân thỏa mãn điều kiện sau: o Một thao tác đọc có quan hệ nhân với thao tác ghi cung cấp liệu cho o Một thao tác ghi có quan hệ nhân với thao tác đọc xảy trước... : Các giao tác phải thực cách độc lập với Nói cách khác tác động giao tác thấy giao tác khác, giao tác chưa thực xong hồn tồn Tính bền vững (Durability) : thay đổi CSDL tác động giao tác thành... Các giải pháp bảo mật thông tin .15 DỊCH VỤ HỆ THỐNG PHÂN BỐ Giao tác hệ thống phân tán 1.1 Khái niệm Giao dịch phân tán tập hợp thao tác liệu thực hai nhiều kho liệu (đặc biệt sở liệu)

Ngày đăng: 24/02/2023, 12:17

TỪ KHÓA LIÊN QUAN

w