1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng đại số tiến trình để đặc tả và kiểm chứng hệ thống tập tin phân tán Hadoop.pdf

43 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 2,85 MB

Nội dung

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự — Hạnh phúc Cơ quan chủ trì : Trường Đại Học Nguyễn Tất Thành BÁO CÁO TỔNG KẾT ĐỀ TÀI NCKH DÀNH CHO CÁN Bộ - GIẢNG VIÊN 2017 TÊN ĐỀ TÀI: SỬ DỤNG ĐẠI Số TIẾN TRÌNH ĐỂ ĐẶC TẢ VÀ KIỂM CHỨNG HỆ THỐNG TẬP TIN PHÂN TÁN HADOOP SỐ hợp đồng: 2017.01.73/HĐ-KHCN Chù nhiệm đề tài: PGS.TS Phan Công Vinh Dơn vị công tác: Khoa Công nghệ Thông tin Thời gian thực : 12 tháng (Từ tháng 04/2017 đến tháng 04/2018) TP HÔ CHÍ MINH, Ngày 10 Tháng Năm 2018 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự — Hạnh phúc Cơ quan chủ trì : Trường Đại Học Nguyền Tất Thành BÁO CÁO TỔNG KẾT ĐỀ TÀI NCKH DÀNH CHO CÁN Bộ - GIẢNG VIÊN 2017 TÊN ĐỀ TÀI: SỬ DỤNG ĐẠI Số TIẾN TRÌNH ĐỂ ĐẶC TẢ VÀ KIỂM CHỨNG HỆ THỐNG TẬP TIN PHÂN TÁN HADOOP SỐ hợp đồng: 2017.01.73/HĐ-KHCN Chủ nhiệm đề tài: PGS.TS Phan Công Vinh Dơn vị công tác: Khoa Công nghệ Thông tin Thời gian thực : 12 thống (Từ tháng 04/2017 đến tháng 04/2018) CÁC THÀNH VIÊN PHốI Hộp cộng TÁC: TT Họ tên Chuyên Cơ quan công tác ngành Huibiao Zhu CNTT Đại học Sư phạm Hoa đông, Trung Quốc Ký tên Mục lục Chương KHẢO SÁT TổNG QUAN Chương KIẾN THỨC NEN tảng 2.1 Tổng Quan HTTTPT 2.2 Giới Thiệu Tổng Quan CSP PAT 11 Chương ĐẶC TẢ HỆ THốNG TẬP TIN PHÂN TÁN HADOOP 14 3.1 Tổng Quan Mơ Hình 14 3.2 ClientNode 14 3.2.1 ClientRead 15 3.2.2 Client Write 17 3.3 DataNode 19 3.3.1 DataRead 20 3.3.2 Data Write 20 DataHBeat 23 3.3.3 SA.NameNode 24 3-4.1 NameRead 25 3.4.2 NameWrite 25 3.4.3 NameHBeat 26 Chương CÀI ĐẬT MƠ HÌNH CSP TRONG PAT 27 4.1 Các Bảng 27 4.2 Các Tiến Trình 29 Chương KIỂM CHỨNG 32 5.1 Các Tính Chất 32 MỤC LỤC 5.2 Kết Quả Đánh Giá 35 Chương KẾT LUẬN 37 Chương BÀI BÁO ĐÃ XUẤT 38 Mở đầu Hệ thống Tập tin Phân tán Hadoop (HTTTPT)là hệ thống tập tin phân tán có khả chịu lỗi cao, cung Cấp truy xuất thơng lượng cao tối liệu ứng dụng phù hợp cho ứng dụng có liệu lớn Vì HTTTPT dùng rộng rãi, nên việc đặc tả kiểm chứng khung tham chiếu hình thức có ý nghĩa lớn Trong đề tài này, chúng tơi sử dụng đại số tiến trình CSP (Communicating Sequential Processes)để đặc tả kiểm chứng HTTTPT Chúng tập trung chủ yếu vào chức đọc ghi tập tin HTTTPT hình thức hóa chúng chi tiết Hơn nữa, đặc tả chế nhịp đập trái tim HTTTPT Cuối cùng, chúng tơi sử dụng kiểm chứng mơ hình PAT (Process Analysis Toolkit)để mơ mơ hình xây dựng kiểm chứng xem có hiệu lực hay khơng đối vối việc đặc tả số tính chất quan trọng Deadlock-freeness, Minimal Distance Scheme, Mutual Exclusion, Write-Once Scheme Robustness Mục tiêu tổng quát nhằm xây dựng đặc tả xác kiểm chứng hình thức Hệ thống Tập tin Phân tán Hadoop (HTTTPT) cơng cụ đại số tiến trình CSP dễ hiểu giảng viên sinh viên ngành CNTT cách cung cấp kết nghiên cứi xu hưởng tương lai Mục tiêu cụ thể nhằm tạo báo khoa học chất lượng cao HTTTPT xuất tạp chí khoa học quốc tế tiếng có danh mục ISI Chương KHẢO SÁT TỔNG QUAN Hadoop khung tham chiếu mã nguồn mở phân tán dành cho ứng dụng tính tốn liệu qui mơ lớn [28, 29] Lấy cảm hứng từ nghiên cứu Google [5, 8], cung cấp mơ hình lập trình MapReduce hệ thống tập tin phân tán Hadoop (HTTTPT) Hiện nay, nhiều công ty, Amazon, AOL, Yahoo!, Facebook New York Times [4], sử dụng thành công Hadoop HTTTPT [1, 19], khung tham chiếu ứng dụng Hadoop, cung cấp khả truy xuất thông lượng cao cho liệu ứng dụng thích hợp cho ứng dụng có tập liệu lớn Dưởi khung tham chiếu này, liệu phân tán số lượng 1ĨÌ1 máy dược xử lý cách hiệu Trong vài năm vừa qua, số nghiên cứu dã hoàn thành HTTTPT [6, 7, 18, 26, 3, 25] Chẳng hạn như, Dong et al [6] nghiên cứu mô hình hiệu cho tác vụ ghi/đọc HTTTPT tính chất động hiệu ghi/đọc chi tiết Trong báo nhóm tác giả, tác giả sử dụng cách tiếp cận dựa nhận dạng hệ thống để thiết lập mơ hình hiệu cho tác vụ ghi/đọc HTTTPT vối trợ giúp lý thuyết mơ hình động lực học Ngoài ra, tác giả phân tích tính chất động hiệu ghi/đọc HTTTPT dựa mơ hình hiệu xác định Shafter et al [18] phân tích hiệu HTTTPT phát ba Vấn đề quan trọng bao gồm tắc nghẽn kiến trúc, hạn chế tính di động giả định tính di động Tian et al [25] đề xuất phương pháp ước lượng mơ hình hiệu tự động CHƯƠNG KHẢO SÁT TổNG QUAN dựa PWLM (piecewise-linear multi-model modeling) cho hiệu ghi/đọc HTTTPT Tít nghiên cứu trên, thấy tác giả tập trung nhiều vào việc phân tích hiệu tương tác giĩta thành phần HTTTPT Đây thử thách để tìm đặc tả hình thức tương tác thành phần HTTTPT Trong đề tài này, chúng tơi đề xuất đặc tả hình thức cho tác vụ đọc tập tin ghi tập tin HTTTPT đại số tiến trình CSP (Communicating Se­ quential Processes) [15, 9, 16], nhằm mục đích phản ảnh cách rõ ràng tương tác giữa, thành phần Ngồi ra, chúng tơi đặc tả chế nhịp đập trái tim Với trợ giúp chế này, DataNode cụm theo định kỳ gởi nhịp đập trái tim tới NameNode Cuối cùng, chúng tơi sử dụng kiếm chứng mơ hình PAT (Process Analysis Toolkit) [23, 21] để kiểm chứng xem mô hình đạt có phục vụ cho đặc tả số tính chất quan trọng hay khơng, bao gồm Deadlock-freeness, Minimal Distance Scheme, Mutual Exclusion, Write-Once Scheme Robustness Trong HTTTPT có ba thành phần tham gia vào truyền thông, gồm NameNode, DataNodes HTTTPT Clients, mô tả tiến trình CSP NameNode, DataNode CỉientNode đặc tả chúng tơi NameNode có trách nhiệm quản lý siêu liệu tập tin qui định việc truy xuất tập tin cho HTTTPT clients DataNodes lưu trữ liệu thật tập tin thơng tin trực tiếp vói HTTTPT clients cho việc đọc tập tin ghi tập tin Hơn nữa, NameNode định kỳ nhận nhịp đập trái tim từ DataNodes cụm gởi lệnh theo nhịp đập trái tim tới datanote tương ứng Phần lại báo cáo tổ chức saư: Chương 2, chúng tơi giói thiệu tóm tắt HTTTPT gồm kiến trúc HTTTPT tác vụ đọc, tác vụ ghi chế nhịp đập trái tim, giới thiệu đại số tiến trình CSP kiểm chứng mơ hình PAT Chúng tơi hình thức hóa tác vụ đọc, ghi chế nhịp đập trái tim HTTTPT CSP Chương Hơn nữa, Chương 4, chúng tơi dùng kiểm chứng mơ hình PAT để cài đặt mơ hình đạt Chúng tơi kiểm chứng mơ hình xây dựng vối năm tính chất Chương Cuối cùng, Chương phần kết luận đề tài thảo luận việc nghiên cứu tương lai Chương KIẾN THỨC NỀN TẢNG Trong chương này, giới thiệu tóm tắt HTTTPT gồm kiến trúc HTTTPT, tác vụ đọc, tác vụ ghi chế nhịp đập trái tim Ngồi ra, chúng tơi giới thiệu đại số tiến trình CSP kiểm chứng mơ hình PAT 2.1 Tổng Quan HTTTPT HTTTPT hệ thống tập tin phân tán ring dụng Hadoop sử dụng Hình 2.1 minh họa cấu trúc HTTTPT [1] Như thấy Hình 2.1, HTTTPT có kiến trúc kiểu master/slave Trong chương này, chủ yếu tập trung vào cụm HTTTPT với NameNode đơn máy chù master quản lý siêu liệu tập tin quy định việc truy xuất tập tin cùa người dùng HTTTPT, nhiều DataNodes lưu trử liệu thật Trong HTTTPT, tập tin chia thành nhiều khối khối lưu DataNodes NameNode xác định ánh xạ khối vào DataNodes Nó thực tác vụ hên quan đến hệ thống tập tin mở, đóng đặt lại tên tập tin DataNodes có trách nhiệm xử lý yêu cầu đọc ghi từ người dùng HTTTPT DataNodes thực việc tạo ra, xóa bỏ chép khối dựa theo thị từ NameNode Kế tiếp, chứng mô tả luồng tác vụ đọc, ghi chế nhịp đập trái tim HTTTPT hên quan đến đặc tả chúng tơi Hình 2.2 thể luồng tác vụ đọc Có ba nodes đại diện cho ba thành CHƯƠNG KIẾN THỨC NEN táng Hình 2.1: Tổng quan kiến trúc HTTTPT phần HTTTPT tương tác Khi chương trình người dùng yêu cầu đọc tập tin, chuỗi hành động sau xảy ra: Chương trình bắt đầu người dùng yêu cầu đọc tập tin Để có vị trí khối bao gồm tập tin, CỉientNode gởi fileinfo tói NameNode NameNode tìm khối datanodes lưu khối xếp datanodes theo khoảng cách tăng dần với người dùng Sau xếp, NameNode gởi blockLocation tới ClientNode ClientNode chọn datanode khả dụng phụ thuộc vào blockLocation gởi blockinfo tới datanode chọn DataNode gởi blockData tới ClientNode CHƯƠNG KIẾN THỨC NEN táng ClientNode gởi thông điệp checksumOk tới Data Node, thông báo liệu đọc thành cơng Hình 2.2: Tổng quan tác vụ đọc tập tin Hình 2.3 thể luồng tác vụ ghi Có ba nodes đại diện cho ba thành phần HTTTPT tương tác đây, xuống đến thơng tin liên lạc hai DataNodes Khi chương trình người dùng yêu cầu ghi tập tin, chuỗi hành động sau xảy ra: Chương trình bắt đầu với yêu cầu ghi Dể tạo tập tin ClientNode gởi file Name tới NameNode NameNode kiếm tra xem coi tập tin có hệ thống tập tin hay không Nếu tập tin không tồn tạo thành công, NameNode tạo khế ước tập tin với ClientNode cấp phát datanodes để lưu khối tập tin Sau đó, NameNode gởi DInfo tối ClientNode ClientNode chọn datanode khả dụng phụ thuộc vào DInfo gởi blockinfo tói DataNode chọn Nhận xong blockinfo, DataNode chọn gởi Ok để báo ClientNode gởi liệu ... Trường Đại Học Nguyền Tất Thành BÁO CÁO TỔNG KẾT ĐỀ TÀI NCKH DÀNH CHO CÁN Bộ - GIẢNG VIÊN 2017 TÊN ĐỀ TÀI: SỬ DỤNG ĐẠI Số TIẾN TRÌNH ĐỂ ĐẶC TẢ VÀ KIỂM CHỨNG HỆ THỐNG TẬP TIN PHÂN TÁN HADOOP SỐ hợp... rãi, nên việc đặc tả kiểm chứng khung tham chiếu hình thức có ý nghĩa lớn Trong đề tài này, chúng tơi sử dụng đại số tiến trình CSP (Communicating Sequential Processes )để đặc tả kiểm chứng HTTTPT... trái tim Ngồi ra, chúng tơi giới thiệu đại số tiến trình CSP kiểm chứng mơ hình PAT 2.1 Tổng Quan HTTTPT HTTTPT hệ thống tập tin phân tán ring dụng Hadoop sử dụng Hình 2.1 minh họa cấu trúc HTTTPT

Ngày đăng: 13/11/2022, 08:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w