Các ứng dụng Big Data bao hàm cả lưu trữ và phân tích tính toán chuyên sâu và tiến trình xử lý lượng dữ liệu khổng lồ. Trong trường hợp tốt nhất, hầu hết các phân tích là O(N) và điều này trở nên tệ hơn trong trường hợp cặpnhóm hoặc nghiên cứu các kết hợp bậc cao 20. Thật không may, lưu trữ truyền thống và các giải pháp tính toán không đủ đáp ứng các yêu cầu của dữ liệu và các ứng dụng đó. Một vấn đề khác là cần phải chia sẻ dữ liệu như vậy giữa các nhà nghiên cứu tại các vị trí khác nhau một cách hạn chế và có kiểm soát. Điều này bổ sung yêu cầu băng thông cần thiết cho việc truyền dữ liệu. Điện toán đám mây mang đến triển vọng giải pháp cho hầu hết các vấn đề này và vì vậy mục tiêu của bài báo này là cung cấp định nghĩa cho điện toán đám mây và làm nổi bật các cơ hội và thách thức trong sử dụng điện toán đám mây cho Big Data. Một khảo sát toàn diện về các công cụ Dữ liệu lớn được cung cấp và các công cụ này được phân loại bằng cách sử dụng tiêu chí phù hợp cho Big Data. Bài báo cũng cung cấp các ứng dụng về Big Data mẫu sử dụng nền tảng đám mây.
Trang 1ĐẶT VẤN ĐỀ 2
1 Lý do chọn đề tài 2
2 Phạm vi nghiên cứu 2
DANH MỤC TỪ VIẾT TẮT 3
ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN 4
1 GIỚI THIỆU (INTRODUCTION) 6
2 ĐỊNH NGHĨA ĐIỆN TOÁN ĐÁM MÂY 8
3 CƠ HỘI CHO ĐIỆN TOÁN ĐÁM MÂY 11
4 NHỮNG THÁCH THỨC CỦA ĐIỆN TOÁN ĐÁM MÂY 12
5 CÁC CÔNG CỤ CHO DỮ LIỆU LỚN 12
5.1 Cơ sở hạ tầng hiệu năng cao như một Dịch vụ 12
5.2 Hệ thống lưu trữ dưới dạng Dịch vụ 13
5.3 Dữ liệu lớn như một dịch vụ 13
5.4 Dữ liệu dưới dạng dịch vụ 14
5.5 Kho dữ liệu như là một dịch vụ 15
5.6 Phần mềm dưới dạng Dịch vụ 15
6 KẾT LUẬN 16
9 TÀI LIỆU THAM KHẢO (REFERENCES) 17
Trang 2A.1 Lý do chọn đề tài
Chúng ta đang sống trong thời đại bùng nổ internet, nơi mà thông tin được truyền
đi không giới hạn vào bất kỳ lúc nào, tại bất kỳ nơi đâu Một trong những xu hướng được các chuyên gia IT và các doanh nghiệp nhắc đến nhiều hiện nay chính là điện toán đám mây (cloud computing).
Mức độ phổ biến của điện toán đám mây đang tăng với một tốc độ chóng mặt, làm thay đổi triệt để cách thức kinh doanh của các doanh nghiệp Trong một cuộc khảo sát gần đây thực hiện trên 1800 chuyên gia IT, kết quả cho thấy nhu cầu áp dụng điện toán đám mây khi thiết lập các ứng dụng và dịch vụ mới chiếm 52%
Điện toán đám mây sẽ cung cấp hạ tầng kỹ thuật số cho các thành phố tương lai, nơi ước tính 6 tỉ dân số toàn cầu sẽ sinh sống vào năm 2045 Thang máy và bãi đậu xe thông minh, xe ô tô và taxi bay không người lái, tàu hỏa và tàu điện ngầm, trang trại và nhà máy điện - tất cả sẽ trở nên an toàn hơn và được quản lý tốt hơn nhờ khả năng lưu trữ
và phân tích dữ liệu của điện toán đám mây
Điện toán đám mây cũng sẽ giúp xã hội đối phó với lượng dữ liệu ngày càng tăng cao Các dữ liệu này bao gồm các ứng dụng chẳng hạn như video có độ phân giải cao và
sẽ chiếm 89% lưu lượng người dùng cá nhân vào năm 2025, theo ước tính của Huawei
Điện toán đám mây sẽ hỗ trợ các công nghệ mới nổi như AI và giúp chúng thích ứng với các nền tảng mới, ví dụ như điện thoại di động Khi doanh số điện thoại thông minh vượt qua doanh số máy tính để bàn vào năm 2011, điện thoại di động đã trở thành nền tảng điện toán lớn nhất thế giới và đương nhiên, AI đã và đang thâm nhập vào nền tảng điện toán lớn nhất thế giới này
B 2 Phạm vi nghiên cứu
Trong phạm vi nghiên cứu của đề tài này, em tìm hiểu các khái niệm cơ bản của Điện toán đám mây và tập trung vào một hướng nghiên cứu trong một nghiên cứu được đăng trên tạp chí Research Gate của tác giả Hanan Elazhary về Điện toán đám mây cho Dữ liệu lớn Ngoài việc dịch tài liệu, em cũng cố gắng nghiên cứu các kiến thức khoa học trong bài báo đã cho Trong thời gian hạn hẹp không thể thiếu sót, mong sự đóng góp ý kiến của Thầy cho bài tiểu luận được hoàn thiện hơn
Trang 3STT Ký hiệu, chữ viết tắt Ý nghĩa
4 Proteomics Sinh vật học phân tử nghiên cứu protein
(Infrastructure as a Service)
(Platform as a Service)
(Software as a Service)
8
9
Xem thảo luận, thống kê, và hồ sơ tác giả của ấn bản này tại:
https://www.researchgate.net/publication/285692839
Trang 4(CLOUD COMPUTING FOR BIG DATA)
Article · January 2014
Toàn bộ nội dung dưới đây được đăng bởi Hanan Elazhary ngày 05/12/2015 The user has requested enhancement of the downloaded file.
Trang 5ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN
Hanan Elazhary
Khoa Máy tính và Công nghệ Thông tin, Đại học King Abdulaziz University,
Jeddah, Saudi Arabia
Tổng quan: Dữ liệu lớn (Big Data) được đặc trưng bởi các tập dữ liệu lớn và các
ứng dụng tính toán chuyên dụng Các ví dụ bao gồm các ứng dụng phân tích sinh học như phân tích bộ Gen (genome) và chuỗi DNA, sinh vật học phân tử nghiên cứu protein (proteomics), tính toán khoa học thần kinh (computational neuroscience), tính toán dược
lý học (computational pharmacology) hay tính toán nghiên cứu đa hệ gen (metagenomics) Các ngành vật lý học, kinh doanh và các Chính phủ cũng có rất nhiều ứng dụng trong lĩnh vực này Những dữ liệu và các ứng dụng tương ứng như vậy đặt ra những thách thức đối với các phương thức lưu trữ truyền thống và các giải pháp tính toán Bên cạnh vấn đề chia sẻ một số lượng lớn dữ liệu giữa các nhà nghiên cứu một cách có kiểm soát Điện toán đám mây là một giải pháp đầy hứa hẹn cung cấp hệ thống lưu trữ không giới hạn có khả năng co giãn theo yêu cầu và khả năng tính toán với giá
cả phải chăng Mục đích của bài báo này là để thảo luận về các cơ hội và thách thức của việc sử dụng đám mây máy tính cho việc xử lý Dữ liệu lớn Ngoài ra, nó cung cấp một cuộc khảo sát toàn diện về các công cụ hiện có cho Big Data và phân loại chúng bằng cách sử dụng tiêu chí cụ thể cho Big Data Các ứng dụng mẫu sử dụng những công cụ này cũng được giới thiệu trong bài viết này.
Từ khóa: Dữ liệu lớn, sinh học tính toán, tin sinh học, điện toán đám mây, Big Data,
Computational Biology, Cloud Computing
Vài năm trở lại đây, có một sự gia tăng rất lớn những quan tâm đến các ứng dụng Dữ liệu lớn (Big Data) Ví dụ, tin sinh học [1] nhằm mục đích gia tăng những hiểu biết sâu sắc hơn trong lĩnh vực sinh học Các ứng dụng sinh học tính toán bao gồm Dự án phân
Trang 6tích bộ Gen người (Human Genome Project - HGP) [2] nhằm mục đích hiểu biết đầy đủ
về bộ gen người (the human genome1) Các kỹ thuật cho phép như vậy trong một dự án liên quan đến chuỗi DNA hoặc phân tích toàn bộ chuỗi gen [3] với mục tiêu là xác định chuỗi DNA đầy đủ của một bộ Gen xác định tại một thời điểm Một ứng dụng khác là sinh vật học phân tử nghiên cứu protein (proteomics) [4], nhằm mục đích sự hiểu biết đầy
đủ về các proteins (proteomes2) Tính toán khoa học thần kinh [5] đề cập đến nghiên cứu cấu trúc của hệ thần kinh của bộ não và chức năng xử lý thông tin của nó Giải phẫu Não Chuột (The Mouse Brain Atlas) [6, 7] và Giải phẫu Não người (The Human Brain Atlas) [8] là các dự án như thế do Viện nghiên cứu Allen tiến hành trong lĩnh vực Nghiên cứu bộ não
Tính toán nghiên cứu đa hệ gen (metagenomics) [9] là một lĩnh vực nhằm nghiên cứu thành phần di truyền thu được từ các môi trường lấy mẫu Dữ liệu nghiên cứu đa hệ gen đồng thời vừa cực lớn vừa nhiều nhiễu như nó chứa dữ liệu phân mảnh có thể đại diện khoảng 10.000 loài Tính toán dược lý học [1] là một lĩnh vực khác có liên quan với việc tìm ra mối liên kết giữa các gen và bệnh để xác định các loại thuốc tiềm năng
Lĩnh vực Vật lý cũng có rất nhiều ứng dụng Ví dụ, Tổ chức nghiên cứu hạt nhân Châu Âu (CERN) đã xây dựng máy gia tốc hạt mạnh nhất và lớn nhất thế giới, Large Hadron Collider (LHC) [10] với mục đích cho phép các nhà vật lý kiểm tra những dự đoán của các lý thuyết của vật lý hạt và vật lý năng lượng cao khác nhau Dữ liệu được sản xuất bởi LHC và liên quan đến mô phỏng LHC được ước tính là khoảng 15 petabytes mỗi năm Trung tâm mô phỏng Khí tượng của NASA (The NASA Center for Climate Simulation-NCCS) [11] xử lý nhiều hơn 32 petabytes các quan sát và mô phỏng khí hậu [12] Trạm quan sát bầu trời bằng kỹ thuật số Sloan (The Sloan Digital Sky Survey-SDSS) [13] sử dụng một kính thiên văn chuyên dụng để khảo sát bầu trời Dữ liệu thu thập dược bắt đầu từ năm 2000 và những hình ảnh thu thập được cho đến nay đã bao phủ hơn 35% bầu trời
Amazon [14], e-bay [15], Walmart [16] và Facebook [17] là những ví dụ về ứng dụng thương mại của Big Data Ứng dụng cho Chính phủ của Big Data bao gồm phân tích lưu lượng hàng hóa từ các cảng nhập khẩu đến các cảng xuất khẩu để đảm bảo an
2 Khái niệm “proteomes” là một kết hợp của thuật ngữ "protein" và "bộ gen" và đề cập đến toàn bộ các protein của một sinh vật nhất định
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)
Trang 7ninh cho chuỗi cung ứng toàn cầu [18] Chiến dịch của Omaba là ví dụ sử dụng Big Data
để tập hợp các cử tri riêng biệt trong cuộc bầu cử năm 2012 [19]
Các ứng dụng Big Data bao hàm cả lưu trữ và phân tích tính toán chuyên sâu và tiến trình xử lý lượng dữ liệu khổng lồ Trong trường hợp tốt nhất, hầu hết các phân tích là O(N) và điều này trở nên tệ hơn trong trường hợp cặp/nhóm hoặc nghiên cứu các kết hợp bậc cao [20] Thật không may, lưu trữ truyền thống và các giải pháp tính toán không đủ đáp ứng các yêu cầu của dữ liệu và các ứng dụng đó Một vấn đề khác là cần phải chia sẻ
dữ liệu như vậy giữa các nhà nghiên cứu tại các vị trí khác nhau một cách hạn chế và có kiểm soát Điều này bổ sung yêu cầu băng thông cần thiết cho việc truyền dữ liệu Điện toán đám mây mang đến triển vọng giải pháp cho hầu hết các vấn đề này và vì vậy mục tiêu của bài báo này là cung cấp định nghĩa cho điện toán đám mây và làm nổi bật các cơ hội và thách thức trong sử dụng điện toán đám mây cho Big Data Một khảo sát toàn diện
về các công cụ Dữ liệu lớn được cung cấp và các công cụ này được phân loại bằng cách
sử dụng tiêu chí phù hợp cho Big Data Bài báo cũng cung cấp các ứng dụng về Big Data mẫu sử dụng nền tảng đám mây
Bài báo được tổ chức như sau: Phần 2 cung cấp các định nghĩa về điện toán đám mây Phần 3 và 4 thảo luận về các cơ hội và thách thức của điện toán đám mây cho Big Data tương ứng Phần 5 thảo luận và phân loại các công cụ hiện có cho Big Data và các ứng dụng mẫu sử dụng các công cụ này Cuối cùng, Phần 6 đưa ra các kết luận
Cho đến nay, vẫn chưa có định nghĩa một cách thống nhất về điện toán đám mây Cái tốt nhất mà chúng ta có là định nghĩa chính thức duy nhất trong tài liệu đã được xuất bản sau nhiều năm làm việc với 15 bản thảo của Viện Quốc gia về Tiêu chuẩn và Công nghệ (NIST) vào tháng 9 năm 2011 [21] Theo NIST [22], điện toán đám mây là một mô hình với năm đặc điểm thiết yếu, ba mô hình dịch vụ và bốn mô hình triển khai Năm đặc điểm thiết yếu là:
Truy cập qua mạng: Các tài nguyên luôn sẵn sàng qua mạng và cho phép truy cập thông qua các thiết bị tiêu chuẩn được sử dụng bởi các thiết bị đầu cuối khác nhau như điện thoại di động, máy tính bảng, máy tính xách tay, máy tính cá nhân và máy trạm
Trang 8Truy cập tài nguyên một cách thuận tiện: Một người dùng có thể tự cấu hình tài nguyên theo nhu cầu khi cần thiết và giảm thiểu tương tác với nhà cung cấp dịch vụ Tài nguyên dùng chung: Các tài nguyên được gộp lại một cách không giới hạn để phục vụ cho nhiều người một cách tối ưu; điều này đạt được bằng cách tự động phân
bổ và tái phân bổ tài nguyên theo nhu cầu sử dụng
Tài nguyên có thể tăng/giảm nhanh chóng mà không cần sự hỗ trợ của nhà cung cấp dịch vụ: Tài nguyên có thể nhanh chóng được cấp phép một cách linh động bên trong
và bên ngoài theo nhu cầu
Dịch vụ có thể đo đếm: Các dịch vụ cung cấp được đo đếm trên cơ sở trả tiền theo nhu cầu sử dụng tại một số mức độ trừu tượng tùy theo loại dịch vụ
Ba mô hình dịch vụ là:
Cơ sở hạ tầng như một dịch vụ (IaaS): The người dùng có thể được cung cấp tài nguyên máy tính (chẳng hạn như các bộ vi xử lý, bộ nhớ, và mạng) để triển khai và chạy phần mềm một cách tùy ý bao gồm các hệ điều hành và ứng dụng với cấu hình tài nguyên máy tính đã cho
Nền tảng dưới dạng Dịch vụ (PaaS): The người dùng có thể triển khai và chạy các ứng dụng được tạo bằng các ngôn ngữ lập trình, thư viện, dịch vụ và công cụ được
hỗ trợ bởi nhà cung cấp với cấu hình môi trường ứng dụng máy chủ đã cho mà không cần biết đến cấu hình của cơ sở cơ sở hạ tầng
Ứng dụng phần mềm dưới dạng Dịch vụ (SaaS): The người dùng có thể sử dụng các ứng dụng được cung cấp bởi các nhà cung cấp và chạy trên một đám mây cơ sở hạ tầng với cấu hình ứng dụng người dùng cụ thể
Bốn mô hình triển khai là:
Đám mây dùng riêng: là nền tảng đám mây với mục đích dùng riêng cho một tổ chức/doanh nghiệp duy nhất với nhiều người dùng và không chia sẻ với các tổ chức/ doanh nghiệp khác
Đám mây cộng đồng: là nền tảng đám mây với mục đích dùng riêng bởi một cộng đồng cụ thể người dùng có thể khác nhau về tổ chức/doanh nghiệp nhưng có mối quan tâm và sở thích chung cùng hợp tác, xây dựng
Đám mây công cộng: là nền tảng đám mây với mục đích cho thuê, sử dụng bởi bất
cứ ai
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)
Trang 9Đám mây kết hợp (lai): là nền tảng đám mây kết hợp nhiều loại đám mây riêng biệt (dùng riêng, cộng đồng hoặc công cộng) liên kết với nhau bằng các chuẩn cho phép
dễ dàng chuyển đổi khi cần thiết
Vấn đề của định nghĩa này là nó quá đặc trưng Điều này làm cho định nghĩa vừa cứng nhắc (do sử dụng quá nhiều điều khoản) vừa không thể mở rộng (do rất đặc trưng)
Do đó, bất chấp nỗ lực tác động để chỉnh sửa định nghĩa này, nó đã bị chỉ trích nhiều lần trong các tài liệu
Theo Daconta [23], định nghĩa là "không đầy đủ, méo mó và tầm nhìn hạn chế" vì nhiều lý do Ví dụ, nó giới hạn bản thân thành ba trong số ít có thể "những thứ như một dịch vụ." Bên cạnh đó, nó giả định rằng ba mô hình dịch vụ (IaaS, PaaS và SaaS) là các lớp, không phải lúc nào cũng đúng Nó cũng giả định rằng ba mô hình đều quan trọng như nhau, cũng được cho là sai
Chou [24] đã đề cập rằng "sự phân loại và một số định nghĩa của bốn mô hình triển khai là không cần thiết và không nhất quán" Ví dụ, một đám mây cộng đồng trên thực tế là một đám mây dùng riêng nhưng cho với một cộng đồng cụ thể Anh cũng chỉ trích sự thay đổi tiêu chí của phân loại: một đám mây lai được hình thành những đám mây khác nhau, nhưng một đám mây dùng riêng và một đám mây công cộng lại được phân loại theo người dùng của nó
Chúng tôi định nghĩa lại điện toán đám mây là một mô hình điện toán cung cấp công cụ đo truy cập một cách thuận tiện để chia sẻ các dịch vụ 5 khái niệm được sử
dụng trong định nghĩa trên có thể được thảo luận như sau:
Khái niệm "mô hình" là một thuật ngữ chung có thể mô tả những khả năng cài đặt và
triển khai khác nhau; điều này bao hàm viêc các mô hình triển khai của NIST (IaaS, PaaS và SaaS) không nên bị gói gọn như một phần của định nghĩa cũng giống như Mạng cá nhân (Personal Area Network PAN), Mạng nội bộ (Local Area Network -LAN), Mạng khu vực đô thị (Metropolitian Area Network - MAN) và Mạng diện rộng (Wide Area Network - WAN) là không gói gọn như một phần của định nghĩa của mạng máy tính
Khái niệm "dịch vụ" là một thuật ngữ thông dụng khác bao gồm mọi loại dịch vụ
trong đó bao gồm các dịch vụ vật lý và dịch vụ ảo hóa, các tài nguyên phần cứng, các giải pháp phần mềm, Cơ sở hạ tầng như một dịch vụ (IaaS), Nền tảng dưới dạng Dịch vụ (PaaS) và Phần mềm dưới dạng Dịch vụ (SaaS)
Trang 10Khái niệm "chia sẻ" ngụ ý rằng các kho lưu trữ được đặt trên các máy chủ dịch vụ
kết nối qua mạng ở khắp nơi
Khái niệm "công cụ đo" ngụ ý rằng các dịch vụ trả tiền theo nhu cầu sử dụng vì lợi
ích của cả người dùng và các nhà cung cấp dịch vụ
Khái niệm "một cách thuận tiện" là một thuật ngữ mở rộng bao gồm sự kết hợp
nhiều tính năng như cần thiết như nhanh chóng theo yêu cầu, có thể cho phép tự cấu hình và truy cập vào các dịch vụ phù hợp với nhu cầu của người dùng và sử dụng các loại thiết bị giao tiếp khác nhau của khách hàng mà có thể không cần tương tác với nhà cung cấp dịch vụ Nó cũng cho phép loại bỏ rủi ro ra khỏi công việc kinh doanh (theo quan điểm của người dùng) và cung cấp sự cung cấp mềm dẻo với nỗ lực quản
lý tối thiểu (theo quan điểm của nhà cung cấp dịch vụ)
E.3 CƠ HỘI CHO ĐIỆN TOÁN ĐÁM MÂY
Điện toán đám mây cung cấp vô vàn cơ hội cho Big Data Nó có nhiều khả năng đầy hứa hẹn; ví dụ:
Khả năng mở rộng: Trong điện toán đám mây, dung lượng hầu như không giới hạn
và do đó khả năng mở rộng là luôn luôn có thể; thay vì chạy một công việc trên một máy tính trong 10 giờ, nó có thể được chạy trên 10 máy tính trong một giờ
Sự mềm dẻo: Các tài nguyên được cung cấp tùy theo nhu cầu công việc Việc mềm dẻo thể hiện ở 3 khía cạnh: chi phí, chất lượng và tài nguyên [25]
Khả năng trả tiền theo nhu cầu sử dụng: Do tài nguyên được tự động cấp phép theo thay đổi khối lượng công việc, việc thanh toán được thực hiện theo việc sử dụng thực
tế để không lãng phí tiền
Khả năng chia sẻ: Điện toán đám mây cho phép chia sẻ tài nguyên một cách thông suốt Cho ví dụ, các kho dữ liệu trên đám mây cho phép chia sẻ các bộ dữ liệu lớn thay vì copy các bản sao chép trên các cụm tách biệt
Độ tin cậy dữ liệu: Bản sao dữ liệu có thể sao lưu ở địa lý khác vị trí để khắc phục mất dữ liệu ngay cả do thiên tai
Khả năng mô hình hóa dữ liệu lớn: Một tập hợp các mô hình chẳng hạn như MapReduce [26, 27] và Dremel [28] đã được phát triển đặc biệt cho việc xử lý và phân tích Dữ liệu lớn
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)