CÔNG NGHỆ GRID VÀ ỨNG DỤNG TRONG DM

11 271 1
CÔNG NGHỆ GRID  VÀ ỨNG DỤNG TRONG DM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CÔNG NGHỆ GRID VÀ ỨNG DỤNG TRONG DM

NGUYỄN TRẦN MINH KHUÊ – CH0401022 CÔNG NGHỆ GRID ỨNG DỤNG TRONG DM Nguyễn Trần Minh Khuê sưu tầm giới thiệu oOo I. Khái niệm Grid I.1. Dẫn nhập (ngược dòng lịch sử) - Mặc dù công nghệ Grid Computing được nhắc đến rất nhiều trong thời gian gần đây về sau, nhưng thực ra nhiều ý tưởng cơ bản về Grid đã xuất hiện dưới dạng này hay dạng khác trong lịch sử tính toán. - Ví dụ như Ý tưởng chia sẻ năng lực tính toán đã xuất hiện từ những năm 60-70 của thế kỷ XX, lúc đó toàn bộ năng lực tính toán được chia sẻ từ máy mainframe. - Năm 1965, những người phát triển hệ điều hành Multics (tiền thân của hệ điều hànhUnix) đã đề cập đến việc sử dụng năng lực tính toán như là một tiện ích, một quan điểm rất gần với quan điểm về Grid hiện nay. Đó là một hệ thống cung cấp năng lực tính toán tương tự như hệ thống cung cấp điện, nước hiện nay. Người dùng khi muốn sử dụng tài nguyên tính toán để xử công việc, chỉ cần cắm thiết bị vào hệ thống cung cấp, sử dụng trả tiền giống như khi cắm thiết bị điện vào lưới điện. - Tuy trước đó đã có nhiều ý tưởng về Grid nhưng khởi nguồn của Grid được xác định là vào năm 1990, khi thuật ngữ “metacomputing” ra đời, dùng để mô tả các dự án kết nối các trung tâm siêu máy tính của Mỹ nhằm kết hợp sức mạnh xử lý của nhiều siêu máy tính lại với nhau. - Đến năm 1995, 2 dự án metacomputing quan trọng, ảnh hưởng lớn đến các công nghệ nền tảng trong các dự án Grid đang phát triển ngày nay là FAFNER(Factoring via Network-Enabled Recursion) I-WAY(Information Wide Area Year) ra đời. - Khái niệm Grid ra đời ở phòng thí nghiệm Argonne National Laboratory vào tháng 7/1997, sau đó được đưa vào quyển sách "The Grid: Blueprint for a New Computing Infrastructure" viết bởi Ian Foster (Argonne National Laboratory) Carl Kesselman (University of Southern California) năm 1998. Ian Foster đã từng tham gia dự án I-WAY, Carl Kesselman là người tham gia dự án Globus Toolkit, một dự án nền tảng của công nghệ Grid metacomputing. - Từ đó đến nay, việc phát triển công nghệ Grid trở nên rất sôi động với sự tham gia nghiên cứu, đầu tư của nhiều tổ chức, tập đoàn công nghệ thông tin, nhiều quốc gia, đã thu được những thành tựu bước đầu. - Có thể nói, việc phát triển xây dựng hệ thống Grid là sự kế thừa phát triển các ý tưởng ở mức cao hơn, sự phát triển không ngừng của cơ sở hạ tầng phần cứng máy tính, mạng đã giúp các hệ thống Grid ngày nay thực hiện được nhiều điều hơn những ý tưởng trước đây. Ứng dụng Công nghệ Grid trong DM - 1 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 I.2. Khái niệm - Grid là một loại hệ thống song song, phân tán cho phép chia sẻ, lựa chọn, kết hợp các tài nguyên phân tán theo địa lý, thuộc nhiều tổ chức khác nhau dựa trên tính sẵn sàng, khả năng, chi phí của chúng yêu cầu về QoS của người dùng để giải quyết các bài toán, ứng dụng quy mô lớn trong khoa học, kỹ thuật thương mại. Từ đó hình thành nên các “tổ chức ảo” (VO), một liên minh tạm thời giữa các tổ chức tập đoàn, nhằm liên kết với nhau để chia sẻ tài nguyên và/hoặc kỹ năng nhằm đáp ứng tốt hơn các cơ hội kinh doanh hoặc các dự án có nhu cầu lớn về tính toán dữ liệu, toàn bộ việc liên minh này dựa trên các mạng máy tính. -Một hệ thống Grid có những đặc trưng sau: +. Có sự kết hợp, chia sẻ các tài nguyên không được quản lý tập trung - Grid tích hợp phối hợp tài nguyên người dùng thuộc nhiều vùng quản lý khác nhau, nhiều đơn vị khác nhau trong một tổ chức, hay nhiều tổ chức khác nhau. Công nghệ Grid tập trung giải quyết các vấn đề về bảo mật, chính sách quản trị, chi phí, thành viên,… nảy sinh trong quá trình chia sẻ sử dụng tài nguyên. +. Sử dụng các giao diện giao thức chuẩn, mang tính mở, đa dụng. Grid được xây dựng trên các giao thức giao diện tổng quát, đa dụng để giải quyết các vấn đề cơ bản nhưng chứng thực người dùng, authorization, tìm kiếm truy xuất tài nguyên. +. Đáp ứng yêu cầu cao về chất lượng dịch vụ. -Grid cho phép sử dụng phối hợp các tài nguyên của nó để cung cấp nhiều loại dịch vụ với các mức chất lượng khác nhau liên quan đến ví dụ như thời gian đáp ứng, throughput, tính sẵn sàng, bảo mật, kết hợp nhiều kiểu tài nguyên để đáp ứng nhu cầu phức tạp của người dùng, phải phối hợp làm sao để khả năng của hệ thống sau khi khi kết hợp phải lớn hơn hẳn tổng khả năng của từng thành phần cấu tạo nên Grid. I.3. Tài nguyên của Grid I.3.1. Phân loại +. Tài nguyên tính toán Đây là tài nguyên phổ biến nhất, là các chu kỳ tính toán (computing cycles) được cung cấp bởi bộ vi xử lý của các thiết bị trong Grid. Các bộ vi xử lý không cần phải cùng loại mà có thể có tốc độ, kiến trúc, chạy phần mềm khác nhau. Có 3 cách để khai thác tài nguyên tính toán của Grid 1. Đơn giản nhất là là chạy các ứng dụng hiện có trên một node của Grid thay chạy trên máy cục bộ. 2. Thiết kế ứng dụng, tách các công việc thành các phần riêng rẽ có thể thực thi song song trên nhiều bộ xử lý khác nhau. 3. Chạy ứng dụng thực thi nhiều lần trên nhiền node khác nhau trong grid. Hiệu quả của việc sử dụng các bộ xử trong Grid được đo bằng khái niệm “scalability”. Nếu 2 bộ vi xử lý rút ngắn thời gian chạy một ứng dụng đi một nửa thì đó được cho rằng có hiệu quả sử dụng hoàn hảo. +. Tài nguyên lưu trữ Ứng dụng Công nghệ Grid trong DM - 2 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 Tài nguyên phổ biến thứ nhì trong Grid là tài nguyên lưu trữ. Mỗi thiết bị trong Grid thường cung cấp một số dung lượng lưu trữ phục vụ cho việc thực thi ứng dụng trên Grid. Tài nguyên lưu trữ có thể là bộ nhớ trong, hoặc ổ đĩa cứng hoặc các thiết bị lưu trữ khác. Bộ nhớ trong thường dùng để lưu trữ dữ liệu tạm thời cho ứng dụng, trong khi các thiết bị lưu trữ ngoài có thể được sử dụng để tăng dung lượng, hiệu suất, chia sẻ đảm bảo tính tin cậy của dữ liệu. Việc tăng dung lượng lưu trữ có thể được thực hiện bằng cách lưu trữ trên nhiều máy tính khác nhau dùng chung một hệ thống file thống nhất. Một file hay một cơ sở dữ liệu có thể mở rộng, nằm trên nhiều thiết bị lưu trữ khác nhau, quản lý bởi các hệ thống file cục bộ khác nhau đi kèm với các hệ điều hành. Hệ thống file của Grid phải có trách nhiệm quản lý, cung cấp một bức tranh thống nhất về hệ thống lưu trữ Grid. Điều này giúp người dùng dễ dàng hơn trong việc truy xuất dữ liệu mà không biết chính xác vị trí của nó. Các hệ thống file cải tiến có thể tự động sao chép các dữ liệu để dự phòng làm tăng độ tin cậy hiệu suất. Một scheduler thông minh có thể giúp ứng dụng chọn lựa vị trí lưu dữ liệu thích hợp lên lịch cho các công việc trên các node gần dữ liệu nhất, để thực thi nhanh hơn. Hoặc khi có việc truy xuất dữ liệu tuần tự hoặc dự đoán được việc truy xuất dữ liệu dựa trên mẫu truy xuất, thì sẽ truy xuất các phần dữ liệu song song trên các node khác nhau (kỹ thuật data striping). Điều này giúp việc truy xuất dữ liệu nhanh hơn nhiều so với việc truy xuất từ một thiết bị lưu trữ. Đặc tính này có thể rất quan trọng đối với các dòng dữ liệu đa phương tiện hoặc khi tập hợp các lượng dữ liệu rất lớn với tốc độ cao từ các thiết bị nghiên cứu khoa học. +. Phương tiện liên lạc Khả năng liên lạc giữa các máy tính phát triển nhanh chóng đã giúp cho công nghệ Grid trở nên hiện thực, do đó đây cũng là một tài nguyên quan trọng. Ở đây bao gồm việc liên lạc, trao đổi dữ liệu giữa các thành phần trong Grid giao tiếp giữa Grid với bên ngoài. Một số công việc đòi hỏi một lượng dữ liệu lớn nhưng số dữ liệu này thường không nằm trên máy đang thực thi công việc. Khả năng về bandwidth trong những trường hợp như vậy là một tài nguyên then chốt có thể làm giảm khả năng của Grid. Việc giao tiếp với bên ngoài được thực hiện thông qua Internet . Grid có thể sử dụng các kết nối Internet để kết nối giữa các node với nhau. Vì các kết nối này không chia sẻ một đường truyền nên làm tăng bandwidth truy cập Internet. Các đường truyền dự phòng đôi khi cần thiết để giải quyết tốt hơn các vấn đề về hư hỏng mạng truyền dữ liệu lớn. +. Phần mềm, ứng dụng. Grid có thể được cài đặt các phần mềm mà có thể quá mắc để cài trên tất cả mọi máy trong Grid. Các phần mềm này chỉ cần được cài trên một số node. Qua grid, khi một công việc cần đến các phần mềm này, nó sẽ được gửi đến cho thực thi trên các máy đã cài đặt phần mềm. Đây có thể là một biện pháp tốt để tiết kiệm chi phí về bản quyền phần mềm. +. Các thiết bị đặc biệt - Các thiết bị dùng trong khoa học, kỹ thuật như kính viễn vọng, các bộ cảm biến (sensor). Các thiết bị này chủ yếu là thu thập các dữ liệu khoa học, phục vụ cho các bước phân tích, xử lý sau này. Ứng dụng Công nghệ Grid trong DM - 3 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 I.3.2. Tính chất Các tài nguyên của Grid có một số tính chất cơ bản: +. Thuộc nhiều vùng quản trị khác nhau Các tài nguyên Grid phân tán theo địa lý qua nhiều vùng quản trị được sở hữu bởi nhiều tổ chức khác nhau. Grid cần phải tôn trọng các chính sách quản trị sử dụng tài nguyên cục bộ của các tổ chức. +. Đa dạng, hỗn tạp Grid có vô số tài nguyên không đồng nhất về bản chất sử dụng hàng loạt các công nghệ khác nhau. +. Tồn tại, thay đổi theo thời gian trong Grid Trong Grid, các tài nguyên có thể xuất hiện hoặc biến mất mà không hề báo trước do nhiều nguyên do khác nhau như lỗi hệ thống, lỗi mạng, các chính sách chia sẻ của nhà cung cấp,… - Các tài nguyên trên đây đến từ nhiều nguồn khác nhau, có thể không thuộc quyền quản lý của một tổ chức, của một đơn vị mà có thể thuộc nhiều tổ chức, ở nhiều nơi khác nhau. Một số tài nguyên có thể được sử dụng tự do, trong khi một số được sử dụng dưới những chính sách nhất định. Các tài nguyên được “ảo hóa” để bỏ đi sự phức tạp, đa dạng, cung cấp một cái nhìn thống nhất, đơn giản về toàn bộ tài nguyên trên Grid sao cho dưới con mắt của người dùng, các tài nguyên Grid là một khối thống nhất. Hình 1- Tài nguyên Grid dưới quan điểm của người dùng. Là một khối thống nhất có được nhờ sự ảo hoá. Ứng dụng Công nghệ Grid trong DM - 4 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 Các tài nguyên ảo được tổ chức lại thành các “tổ chức ảo” (virtual organization), đến lượt nó, các tổ chức ảo lại thực hiện chia sẻ tài nguyên của mình để hình thành Grid lớn hơn, tạo thành một kho tài nguyên khổng lồ. II. Kiến trúc Grid Sau gần 10 năm tập trung nghiên cứu phát triển, tích luỹ kinh nghiệm, các nhà phát triển công nghệ Grid đã có những nhất trí đáng kể về kiến trúc Grid. Một trong những kiến trúc Grid được chấp thuận nhiều nhất được đưa ra bởi Ian Foster, phần dưới đây sẽ giới thiệu về kiến trúc này. Kiến trúc Grid, theo Ian Foster, là một kiến trúc phân tầng như trong hình …. .Các thành phần trong một tầng có chung đặc điểm, tính chất, có thể được xây dựng từ bất cứ tầng dưới nào. Các thành phần được phân tầng dựa theo vai trò của chúng trong hệ thống Grid. Đây là một kiến trúc mở. Kiến trúc này chỉ quy định các yêu cầu chung nhất về thiết kế triển khai với mục đích chính là để tham khảo. Việc xây dựng, cài đặt cụ thể tuỳ thuộc vào từng dự án, từng lĩnh vực ứng dụng. Dưới đây là chi tiết của kiến trúc. II.1. Tầng Fabric Đây là tầng thấp nhất của kiến trúc, đại diện cho các thiết bị vật lý toàn bộ tài nguyên của Grid mà các tổ chức, người dùng muốn chia sẻ, sử dụng. Các tài nguyên có thể tồn tại dưới dạng vật lý như các máy tính, hệ thống lưu trữ, các danh mục, tài nguyên mạng, các loại sensor, cũng có thể là các thực thể logic, một sự trừu tượng hoá, đại diện cho một tập các tài nguyên vật lý, như hệ thống file phân tán, các cluster,… Trong trường hợp các thực thể logic, việc triển khai có thể liên quan đến các protocol cục bộ (ví dụ các protocol phục vụ dạng truy cập NFS, hoặc protocol quản lý tài nguyên, tiến trình trong cluster,…) nhưng các protocol này không liên quan đến kiến trúc Grid. Các thành phần của tầng Fabric thực hiện các hoạt động cục bộ trên các tài nguyên cụ thể (vật lý lẫn logic) như là bước tiếp sau của các hoạt động chia sẻ tài nguyên của các tầng trên. Do đó, có một mối liên hệ phụ thuộc chặt chẽ giữa các chức năng của tầng Fabric với các hoạt động chia sẻ được hỗ trợ. Các chức năng của tầng Fabric càng mạnh, càng nhiều sẽ cho phép Ứng dụng Công nghệ Grid trong DM - 5 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 các hoạt động chia sẻ phức tạp hơn. Kinh nghiệm cho thấy, việc quản lý tài nguyên ở tầng này cũng phải có ít nhất cơ chế cung cấp thông tin để xác được cấu trúc, trạng thái, năng lực của tài nguyên cơ chế điều khiển chất lượng dịch vụ được +. Tài nguyên tính toán: Cần có các cơ chế để khởi động chương trình, kiểm soát, điều khiển việc thực thi của các tiến trình. Các cơ chế để cấp tài nguyên cho tiến trình cũng như cơ chế đặt chỗ trước tài nguyên cũng cũng rất hữu dụng. Cần có các chức năng để xác định đặc tính phần cứng, phần mềm cũng như các thông tin trạng thái như tải hiện tại trạng thái hàng đợi trong trường hợp tài nguyên được lập lịch sử dụng. +. Tài nguyên lưu trữ Cần có cơ chế lưu trữ đọc các file. Các cơ chế truyền file hiệu suất cao, đọc ghi một loạt các file hoặc các chức năng chọn lựa, tinh giảm dữ liệu từ xa, các cơ chế điều khiển việc cấp phát tài nguyên phục vụ việc truyền dữ liệu (không gian, băng thông, CPU) là hữu dụng. Cần các chức năng xác định đặc tính phần cứng, phần mềm cũng như các thông tin tải có liên quan như không gian lưu trữ còn lại, bandwidth, … +. Tài nguyên mạng Các cơ chế cho phép quản lý các tài nguyên cấp phát cho việc truyền tải mạng là hữu dụng. Nên có các chức năng xác định đặc tính tải của mạng. +. Lưu trữ mã thực thi Dạng đặc biệt của tài nguyên lưu trữ này đòi hỏi cơ chế để quản lý phiên bản mã nguồn mã thực thi của các đối tượng. + Các danh mục. Dạng đặc biệt của tài nguyên lưu trữ này đòi hỏi cơ chế để thực hiện các truy vấn hoạt động cập nhật. II.2. Tầng Connectivity Tầng Connectivity định nghĩa các protocol liên lạc chứng thực nòng cốt cần thiết cho các giao dịch mạng đặc trưng của Grid. Các protocol liên lạc cho phép trao đổi dữ liệu giữa các tài nguyên tầng Fabric. Các protocol chứng thực xây dựng trên các dịch vụ liên lạc nhằm cung cấp các cơ chế mã hóa bảo mật xác minh nhận dạng các người dùng tài nguyên. Việc liên lạc đòi hỏi các công việc như vận chuyển, định tuyến, đặt tên. Trong tương lai, việc liên lạc của Grid có thể cần các protocol mới, nhưng hiện nay nên xây dựng trên các protocol có sẵn của bộ TCP/IP protocol stack, cụ thể là các tầng Network (IP ICMP), Transport (TCP,UDP) Application (DNS,OSPF,…). Về khía cạnh bảo mật của tầng Connectivity, các giải pháp phải dựa trên các chuẩn bảo mật hiện hành khi có thể. Cũng giống như liên lạc, rất nhiều chuẩn bảo mật đã được phát triển với bộ Internet protocol có thể áp dụng được. Việc chứng thực, authorization trong môi trường Grid là rất phức tạp. Các công nghệ bảo mật truyền thống chủ yếu tập trung bảo vệ các giao dịch giữa các máy client server. Trong grid, việc phân biệt client/server không tồn tại, vì các mỗi tài nguyên trong một lúc nào đó có thể là server (khi nó nhận yêu cầu), một lúc khác lại là client (khi nó đề xuất yêu cầu đến các Ứng dụng Công nghệ Grid trong DM - 6 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 tài nguyên khác). Do đó, các giải pháp chứng thực cho các môi trường VO nên có những tính chất sau: +. Đăng nhập một lần Một tính toán đơn giản cũng cần phải truy cập nhiều tài nguyên khác nhau, vì thế việc đòi hỏi mỗi lần truy xuất tài nguyên lại cần phải chứng thực người dùng là điều không thực tế không thể chấp nhận được. Thay vào đó, người dùng chỉ nên được chứng thực một lần rồi sau đó có thể sử dụng nhiều tài nguyên khác nhau thuộc tầng Fabric . +. Cho phép ủy quyền Đây là một yêu cầu quan trọng, để thực hiện được yêu cầu “đăng nhập một lần” thì cần phải có sự uỷ quyền. Người dùng cần có khả năng uỷ quyền cho các chương trình của mình sử dụng các quyền của mình như là một đại diện, để chương trình có thể truy cập đến các tài nguyên được phép của người dùng. chương trình, đến lượt nó cũng cần có khả năng ủy quyền cho các chương trình khác. +. Tích hợp được với các chính sách bảo mật cục bộ Mỗi site hoặc nhà cung cấp tài nguyên đều có chính sách bảo mật riêng của mình. Do đó, các giải pháp bảo mật trên Grid cần phải liên kết được với các giải pháp cục bộ, không cần phải thay thế toàn bộ các giải pháp này mà cho phép ánh xạ đến chúng. +. Sử dụng các quan hệ tin cậy lẫn nhau dựa theo người dùng Để cho phép người dùng sử dụng kết hợp tài nguyên từ nhiều nhà cung cấp khác nhau, hệ thống bảo mật không được yêu cầu các nhà cung cấp phải hợp tác, liên lạc với nhau để thiết lập môi trường bảo mật. Ví dụ, nếu người dùng có quyền sử dụng 2 site A B, thì người dùng cũng có thể sử dụng kết hợp 2 site A, B cùng lúc mà không cần các chuyên gia bảo mật của site A, B liên lạc với nhau. Các giải pháp bảo mật trên Grid cũng nên cung cấp sự hỗ trợ mềm dẻo cho việc bảo vệ liên lạc (ví dụ như điều khiển được mức độ bảo vệ, bảo vệ các datagram trong các protocol không đảm bảo tính tin cậy (UDP), hỗ trợ các protocol vận chuyển tin cậy khác ngoài TCP,…) cho phép các nhà cung cấp điều khiển các quyết định về authorization bao gồm việc hạn chế ủy quyền theo nhiều cách khác nhau. II.3. Tầng Resource Tầng Resource dựa trên các protocol liên lạc chứng thực của tầng Connectivity để xây dựng các protocol, API SDK nhằm hỗ trợ việc thương lượng, khởi tạo, monitoring, điều khiển, tính toán chi phí chi trả cho các hoạt động chia sẻ trên từng tài nguyên riêng lẻ một cách an toàn. Bản cài đặt các protocol của tầng Resource sẽ gọi các chức năng của tầng Fabric để truy cập điều khiển các tài nguyên cục bộ. Các protocol tầng Resource tập trung toàn bộ vào các tài nguyên riêng lẻ, không quan tâm đến trạng thái toàn cục các hoạt động trong các tập tài nguyên phân tán. Các protocol tầng Resource được phân thành 2 dạng chính như sau: +. Các protocol thông tin Sử dụng để thu thập thông tin về cấu trúc trạng thái các tài nguyên ví dụ như cấu hình hiện tại, tải hiện tại, chính sách sử dụng,… +. Các protocol quản lý Sử dụng để thượng lượng truy xuất đến một tài nguyên chia sẻ, xác định rõ, ví dụ, các yêu cầu về tài nguyên (bao gồm luôn việc giữ chỗ tài nguyên chất lượng dịch vụ) Ứng dụng Công nghệ Grid trong DM - 7 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 các thao tác cần được thực hiện như tạo tiến trình, hoặc truy xuất dữ liệu. Do các protocol quản lý chịu trách nhiệm đại diện cho các quan hệ chia sẻ, chúng phải phục vụ như một “policy application point”, để đảo bảo các hoạt động sử dụng tài nguyên phù hợp với các chính sách chia sẻ tài nguyên, bao gồm luôn việc tính toán chi trả chi phí. Mỗi protocol cũng nên hỗ trợ việc theo dõi trạng thái điều khiển các hoại động. Với những yêu cầu như vậy, tập các protocol tầng Resource (và Connectivity) nên nhỏ gọn tập trung. Các protocol này chỉ nên đáp ứng được các cơ chế chia sẻ với nhiều loại tài nguyên khác nhau (ví dụ, các hệ thống quản lý tài nguyên cục bộ khác nhau) là đủ. Các chức năng chính của tầng Resource cũng giống như của tầng Fabric cộng thêm ngữ nghĩa của nhiều hoạt động, với cơ chế báo lỗi tin cậy khi hoạt động không thành công. II.4. Tầng Collective Trong khi tầng Resource tập trung vào các tài nguyên đơn lẻ, tầng Collective chứa các protocol, service, API, SDK không liên hệ đến bất kỳ một tài nguyên cụ thể nào mà thực hiện quản lý toàn cục, tập trung vào các giao tác giữa các tập hợp tài nguyên. Tầng Collective có thể bổ sung thêm nhiều loại hoạt động chia sẻ mới ngoài những gì đã có từ tầng Resource mà không cần bổ sung thêm các yêu cầu mới cho các tài nguyên đang được chia sẻ. Ví dụ: +. Directory service Cho phép các thành phần tham gia VO phát hiện sự tồn tại và/hoặc đặc tính của các tài nguyên trong VO. Một directory service có thể cho phép người truy vấn tài nguyên qua tên và/hay các thuộc tính như kiểu, khả năng, tải, … +. Co-allocation, scheduling, brother service Cho phép các thành phần tham gia VO yêu cầu cấp phát các tài nguyên cho các mục đích cụ thể lập lịch cho các tác vụ trên các tài nguyên tương ứng. +. Monitoring ang dianostics sevice Hỗ trợ việc kiểm soát các tài nguyên của VO, kiểm tra xem có bị lỗi, bị tấn công, bị quá tải,… hay không. +. Data replication service Hỗ trợ quản lý tài nguyên lưu trữ của VO để tối ưu hiệu suất truy cập dữ liệu theo các độ đo như thời gian đáp ứng, tính toàn vẹn, tin cậy, chi phí,… +. Grid-enable programming system Cho phép các sử dụng các mô hình lập trình hiện tại trong môi trường Grid, sử dụng nhiều loại dịch vụ Grid để giải quyết các vấn đề như phát hiện, tìm kiếm tài nguyên, bảo mật, cấp phát tài nguyên,… +. Workload management system and collaboration framework Cung cấp khả năng đặc tả, sử dụng, quản lý các workload đa thành phần, bất đồng bộ, qua nhiều bước. +. Software discovery service Tìm kiếm chọn ra các cài đặt phần mềm tốt nhất môi trường thực thi dựa theo ứng dụng cần được giải quyết. +. Community authorization server Thực hiện các chính sách cộng đồng quản lý truy cập tài nguyên, cho phép các thành viên của cộng đồng truy cập đến các nguyên dùng chung. Các server này sử dụng Ứng dụng Công nghệ Grid trong DM - 8 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 các dịch vụ xây dựng trên các protocol thông tin, quản lý tài nguyên của tần Resource protocol bảo mật ở tầng Connectivity. +. Community accounting and payment service Thu thập các thông tin sử dụng tài nguyên để tính toán chi phí, thực hiện chi trả và/hoặc giới hạn việc sử dụng tài nguyên của người dùng trong cộng đồng. +. Collaboratory service Hỗ trợ việc trao đổi thông đồng bộ bất đồng bộ trong cộng đồng người dùng. Các ví dụ trên đây cho thấy các protocol service tầng Collective rất phong phú, đa dạng. Lưu ý rằng trong khi các protocol tầng Resource phải là các protocol tổng quát triển khai rộng rãi, thì các protocol tầng Collective có thể trải dài từ việc phục vụ các vấn đề chung trong Grid đến việc phục vụ cho các lĩnh vực ứng dụng cụ thể, có thể chỉ tồn tại trong các VO cụ thể. Theo nguyên tắc, càng phục vụ nhiều người dùng thì các protocol API của tầng Collective càng phải được dựa theo chuẩn. Các chức năng của tầng Collective có thể được cài đặt như các service (với các protocol tương ứng), hay như các bộ SDK(với các API tương ứng) được thiết kế để liên kết với ứng dụng. Trong cả hai trường hợp, các cài đặt này có thể được xây dựng trên các protocol API của tầng Resource Connectivity. Figure 3: Collective and Resource layer protocols, services, APIs, and SDKS can be combined in a variety of ways to deliver functionality to applications. II.5. Tầng Application Tầng trên cùng của kiến trúc Grid bao gồm các ứng dụng của người dùng chạy trong một trường VO. Hình …. Minh hoạ quan điểm của các lập trình viên về kiến trúc Grid. Các ứng dụng được xây dựng theo cách sẽ gọi các service định nghĩa bởi các tầng phía dưới. Ví dụ : một chương trình phân tích bộ gen người cần phải chạy hàng ngàn tác vụ độc lập, mỗi tác vụ cần nhiều file chứa thông tin từng phần của bộ gen có thể sử dụng các chức năng Grid sau: +. Lấy các thông tin, thẻ chứng thực (các protocol tầng Connectivity). +. Truy vấn hệ thống thông tin Grid các danh mục để tìm các tài nguyên thích hợp vị trí các file input. (các dịch vụ tầng Collective). Ứng dụng Công nghệ Grid trong DM - 9 - NGUYỄN TRẦN MINH KHUÊ – CH0401022 +. Gửi các yêu cầu đến các tài nguyên để thực hiện tính toán, di chuyển dữ liệu,… kiểm soát quá trình thực thi công việc, thông báo cho người dùng khi mọi thứ hoàn tất, dò tìm phản ứng với các điều kiện gây lỗi (tầng Resource). III. ỨNG DỤNG CÔNG NGHỆ GRID TRONG DM Riêng trong lĩnh vực khai phá dữ liệu, chúng ta có thể ứng dụng công nghệ Grid trong bài toán luật kết hợp. Đó là bài toán áp dụng công nghệ mới sử dụng khả năng của nhiều máy tính để tìm ra lời giải nhanh hơn. Trong bài toán này, thì điều chúng ta cần tìm đó chính là tập luật. Vấn đề là ở chỗ do dữ liệu trong cơ sở dữ liệu rất lớn nên thời gian quét cơ sở dữ liệu cũng rất lớn. Ta có thể rút ngắn thời gian xử lý bằng 2 cách: 1. Sử dụng thuật giải tốt hơn, có độ phức tạp tính toán thấp hơn 2. Sử dụng công nghệ mới, chia sẻ năng lực tính toán cho nhiều máy tính Rõ ràng, từ trước đến nay, đã có nhiều công trình nghiên cứu đưa ra các thuật giải tốt hơn (Tham khảo Các phương pháp cải tiến của bài toán luật kết hợp trong file đính kèm). Tuy nhiên, trong tài liệu này quan tâm đến vấn đề sử dụng công nghệ mới trong lĩnh vực khai phá dữ liệu như thế nào. Dĩ nhiên, vấn đề cụ thể chi tiết của việc áp dụng công nghệ Grid cho bài toán luật kết hợp như thế nào sẽ được bàn sau. Ở đây, tài liệu này nhằm cho mọi người nắm được công nghệ Grid là gì, các đặc điểm kiến trúc của nó. Để từ đó, có thể thấy rằng lợi ích mà các công nghệ mới mang lại to lớn cho tất cả các lĩnh vực, không riêng gì lĩnh vực cơ sở dữ liệu cơ sở tri thức. Ứng dụng Công nghệ Grid trong DM - 10 - [...]... Giáo trình khai thác dữ liệu, TS Đỗ Phúc, NXB Đại học quốc gia TP.HCM, 2005 2 Data Mining Algorithms, Vipin Kumar, Department of Computer Science, University of Minnesota, Minneapolis, USA Ứng dụng Công nghệ Grid trong DM - 11 - . thứ nhì trong Grid là tài nguyên lưu trữ. Mỗi thiết bị trong Grid thường cung cấp một số dung lượng lưu trữ phục vụ cho việc thực thi ứng dụng trên Grid. . Resource). III. ỨNG DỤNG CÔNG NGHỆ GRID TRONG DM Riêng trong lĩnh vực khai phá dữ liệu, chúng ta có thể ứng dụng công nghệ Grid trong bài toán luật kết hợp.

Ngày đăng: 07/01/2014, 01:27

Từ khóa liên quan

Mục lục

  • I. Khái niệm Grid

    • I.1. Dẫn nhập (ngược dòng lịch sử)

    • I.2. Khái niệm

    • I.3. Tài nguyên của Grid

      • I.3.1. Phân loại

      • I.3.2. Tính chất

      • II. Kiến trúc Grid

        • II.1. Tầng Fabric

        • II.2. Tầng Connectivity

        • II.3. Tầng Resource

        • II.4. Tầng Collective

        • II.5. Tầng Application

          • III. ỨNG DỤNG CÔNG NGHỆ GRID TRONG DM

Tài liệu cùng người dùng

Tài liệu liên quan