IV.1. Giới thiệu e-Science
Cụm từ e-Science được sử dụng để mô tả khoa học tính toán tập trung cao (computationally intensive science) được tiến hành trên môi trường mạng phân bố cao, hay khoa học sử dụng tập dữ liệu khổng lồ cần đến môi trường tính toán lưới. Cụm từ được tạo ra bởi John Taylor, Tổng giám đốc của Phòng Khoa học và Công nghệ của Vương quốc Anh vào năm 1999.
Mục tiêu của sáng kiến e-Science là xây dựng một hạ tầng cơ sở cho phép các nhà khoa học tiến hành những nghiên cứu khác nhanh hơn, và tốt hơn. e-Science bao gồm việc xây dựng phần mềm lõi và các ứng dụng về khoa học kỹ thuật triển khai trên phần lõi này. Một số ứng dụng được các trường đại học trong nước đề nghị có thể kể ra như: vật lý phân tử và thiên văn, kỹ thuật và khoa học vật chất, khoa học về sinh học, y tế và môi trường, phân tích mẫu protein, sinh học cấu trúc, sinh học toàn cầu, sự lão hoá sinh học. Ngoài ra, một số ứng dụng mang tầm thách thức lớn lao đòi hỏi sự hợp tác mang tính học thuật như: Advanced Knowledge Technologies, Medical Images and Signals, Equator, DIRC (Dependability).
Phần tiếp theo xin được giới thiệu về dự án myGrid được đề nghị bởi trường đại học Southampton và Manchester, Vương quốc Anh.
IV.2. Tổng quan về myGrid IV.2.1. Dự án myGrid
Dự án myGrid là một trong những dự án về e-Science của United Kingdom với mục đích xây dựng middleware cho các thí nghiệm in silico thực hiện bởi những nhà khoa học trong phòng thí nghiệm ít tài nguyên (under-resourced labs), người mà sử dụng
những ứng dụng của người khác. Phân tích chuỗi (sequence), phân tích siêu ma trận (microarray), protein, hoá tin học (chemoinformatics), xử lý hình ảnh, biểu diễn các bản mẫu Dilbert.
IV.2.2. Bài toán về tính toán lưới
Đó là bài toán về sự chia sẻ tài nguyên giữa các tập hợp không cố định các cá nhân, các cơ quan, và các nguồn tài nguyên một cách hợp tác, linh động, và bảo mật. Tài nguyên ở đây bao gồm: máy tính, cơ sở dữ liệu, tài liệu lưu trữ, con người, thiết bị, kho workflow, các lưu ý cá nhân, các trang web, các cơ quan…
IV.2.3. Mục tiêu
Mục tiêu là xây dựng các công cụ cho người lâp trình phát triển, cho các nhà khoa học sử dụng ứng dụng, và cho các nhà cung cấp tích hợp các ứng dụng mới.
IV.2.4. Một ví dụ
Ví dụ bệnh Graves’ Disease, gây ra do sự tự miễn dịch của tuyến giáp, khi hệ miễn dịch tấn công tuyến giáp và gây ra sự hoạt động quá mức, dẫn tới bướu cổ, tăng mạch đập, sút cân, yếu cơ…Bệnh gây ra do sự kích thích của kháng thể lên cơ quan cảm thụ tuyến giáp, điều này được qui định bí mật bởi tế bào lympho trong hệ miễn dịch. Như vậy, cơ sở khoa học phân tử nào chịu trách nhiệm cho phản ứng tự động miễn dịch này. Đây là một vấn đề sinh học mà myGrid hướng tới giúp giải quyết.
IV.3. Các thuật ngữ trong myGrid IV.3.1. Workflow
Để quản lý các thí nghiệm, người ta dùng thuật ngữ workflow để mô tả và lưu trữ từng giai đoạn của thí nghiệm, mà mỗi giai đoạn này có thể giống nhau ở những thí nghiệm khác nhau, điều này cho phép người dùng có thể trao đổi một cách linh hoạt các tiến trình và kết quả thí nghiệm.
- Khai phá workflow: là quá trình tìm kiếm những workflow đã được thực hiện.
- Tạo workflow: là quá trình tìm kiếm các lớp dịch vụ có liên quan, hoặc tạo ra chúng nếu không tìm thấy.
IV.3.2. Các thành phần thiết kế thí nghiệm
Bao gồm đặc tả workflow, đặc tả câu query, mục tiêu mô tả ghi chú, ứng dụng, cơ sở dữ liệu, bài báo liên quan, các trang web quan trọng. Các thành phần thiết kế này có thể phân thành 2 loại: thực thể thí nghiệm và thành phần liên kết.
-Các thực thể thí nghiệm: hồ sơ ghi chép của các thí nghiệm, kết quả dữ liệu, lịch sử sử dụng dịch vụ bởi bộ máy workflow, thực thể dịch vụ, tập thong số cho các ứng dụng, lời chú giải về kết quả.
-Các thành phần liên kết: đóng vai trò gom nhóm và liên kết các thành phần thiết kế và thực thể, như một câu query và kết quả, một workflow và kết luận, một workflow và các phiên bản trước và sau nó, một nhóm những thông tin này được liên kết đến tài liệu của các nhà sinh tin học.
IV.3.3. Vòng đời của một thí nghiệm
-Hình thành thí nghiệm -Cá nhân hoá -Thực thi thí nghiệm -Quản lý thí nghiệm -Cung cấp thí nghiệm -Khám phá và sử dụng lại
IV.3.4. Các thành phần ngữ nghĩa
-Cơ sở dữ liệu: dữ liệu mô tả nội dung và ý nghĩa của dịch vụ và tài nguyên.
-Thuật ngữ: chia sẻ vốn từ vựng thông dụng, hỗ trợ các bộ máy tìm kiếm, đại lý, tác giả, người dùng.
-Bản thể học: là các hiểu biết chung và có thể chia sẻ trong một phạm vi, cần thiết trong việc trao đổi, tìm kiếm và khám phá.
IV.4. Kiến trúc của myGrid
Kiến trúc của myGrid gồm có 3 tầng. Tầng cao nhất là ứng dụng, dành cho các nhà sinh tin học. Tầng quan trọng nhất là dịch vụ lõi, do các nhà phát triển phần mềm, gồm có 3 phần chính là cơ sở dữ liệu ngữ nghĩa, quản lý thí nghiệm, và quản lý dữ liệu. Tầng thấp nhất là dịch vụ bên ngoài, gồm những dịch vụ grid nói chung, dành cho các nhà cung cấp dịch vụ.
1. Các thành phần thuộc core services
-Cơ sở dữ liệu ngữ nghĩa: bao gồm đăng ký bản thể học, khai phá workflow và dịch vụ.
-Quản lý thí nghiệm: gồm việc cá nhân hoá, quản lý nguồn gốc, cảnh báo. -Quản lý dữ liệu: quản lý dữ liệu và truy xuất câu truy vấn.
2. Ngôn ngữ mô tả dữ liệu và bản thể học-OWL
OWL là ngôn ngữ diễn cảm mô tả các khái niệm, các mối quan hệ, các ràng buộc, và các tiên đề. Chính xác và hoàn chỉnh, hiệu quả, hợp lý để suy luận các mối quan hệ giữa các khái niệm hơn là khẳng định chúng, bao gồm cả việc phân cấp. RDF, Resource Description Framework, là ngôn ngữ mô tả cơ sở dữ liệu trên web, hình thành đồ thị bộ ba (chủ ngữ, đối tượng, tân ngữ), kết hợp các địa chỉ URIs với nhau và với các khái niệm trong OWL.
IV.5. Các dịch vụ khái niệm IV.5.1. Dịch vụ bản thể học
Quản lý các biểu thức khái niệm. Dịch vụ này có môi trường phát triển là OilEd, có bộ suy luận FaCT dung để suy ra các biểu thức khái niệm. Có cơ chế so trùng không chính xác và cơ chế xếp hạng để tìm ra kết quả hữu hiệu nhất bằng cách suy luận thông qua các mô tả và sinh ra các cấu trúc phân loại. Các thực thể lưu trữ cho thực thể chỉ số của các biểu thức khái niệm trong thanh ghi và cơ sở dữ liệu.
IV.5.2. Dịch vụ chú giải
IV.5.3. Kho dữ liệu của myGrid
Lưu trữ các thành phần thí nghiệm (gồm đặc tả của các workflow bằng các tài liệu XML, dữ liệu, các ghi chú XML). Các hình thức lưu trữ: tài liệu XML, cơ sở dữ liệu quan hệ, RDF.
IV.5.4. Dịch vụ đăng ký
IV.5.5. Ghi nhận nguồn gốc và sử dụng lại
FreeFluo cung cấp hồ sơ nguồn gốc chi tiết lưu trữ trong cơ sở dữ liệu mô tả việc gì được thực thi, với dịch vụ gì và khi nào, lưu trữ dưới dạng tài liệu XML.
IV.5.6. Dịch vụ khai phá ngữ nghĩa
-Các dịch vụ và workflow được lưu trữ trong thanh ghi có các mô tả bằng RDF và OWL.
-Sự lựa chọn một dịch vụ hay một workflow là tùy thuộc vào tham số được sử dụng, kết quả được sinh ra, nhiệm vụ được tiến hành...
-Truy xuất dữ liệu trong cơ sở dữ liệu dùng thanh ghi RDF UDDI.
-Cơ chế so trùng dựa vào cơ chế phân loại FaCT OWL cho cơ sở dữ liệu hướng khái niệm.
IV.6. Kết luận
-Các từ vựng điều khiển để công bố các dịch vụ và các workflow.
-Đánh chỉ số index trên thanh ghi giúp khai phá ngữ nghĩa các dịch vụ và workflow cũng như lưu trữ dữ liệu trong kho.
-Giúp xây dựng các workflow có ngữ nghĩa.
-Định hướng giữa dữ liệu và tri thức: liên kết các mục trong kho dữ liệu và ghi nhận nguồn gốc của các workflow.
Tài liệu tham khảo:
1. A Semantic Web Primer – Grigoris Autoniou and Frank van Harmelan
2. An overview of S-OGSA: a Reference Semantic Grid Architecture - Oscar Corcho, Pinar Alper, Ioannis Kotsiopoulos, Paolo Missier, Sean Bechhofer and Carole Goble School of Computer Science The University of Manchester, Manchester, UK
3. The Semantic grid A Future e-Science Infrastructure, David De Roure, University of Southampton, UK
4. Provenance challenge --- myGrid, David De Roure, University of Southampton, Jun Zhao, Carole Goble and Daniele Turi, University of Manchester