Điện toán đám mây là xu hướng công nghệ quan trọng, nhiều chuyên gia và doanh nghiệp kỳ vọng điện toán đám mây sẽ định hình lại nhiều quy trình liên quan tới lưu trữ, cung cấp dữ liệu và
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
LÊ THIÊN HINH
TÌM HIỂU GIẢI PHÁP LƯU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN CÁC DỮ LIỆU
THỐNG KÊ ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2013
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Hoàng Lê Minh
Phản biện 1: ………
Phản biện 2: ………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
I LÝ DO CHỌN ĐỀ TÀI
Điện toán đám mây (Cloud Computing) đang là xu hướng phát triển mới của ngành Công nghệ thông tin - Truyền thông (CNTT-TT) Điện toán đám mây cho phép triển khai các mô hình cung cấp dịch vụ mang tính năng động cao, có khả năng kết nối và mở rộng đến các tài nguyên ảo khác thông qua mạng Internet Điện toán đám mây là xu hướng công nghệ quan trọng, nhiều chuyên gia và doanh nghiệp kỳ vọng điện toán đám mây sẽ định hình lại nhiều quy trình liên quan tới lưu trữ, cung cấp dữ liệu và dịch vụ cho các ứng dụng CNTT-TT Với điện toán đám mây người dùng có thể sử dụng các thiết bị cá nhân và di động để truy cập dữ liệu, các ứng dụng, tham gia vào quá trình lưu trữ và cung cấp dịch vụ trên mạng Internet Ứng dụng điện toán đám mây trong lưu trữ, xử lý dữ liệu cho phép tiết kiệm chi phí, nâng cao khả năng sẵn sàng của dữ liệu
Chính vì thế việc ứng dụng điện toán đám mây trong lưu trữ và xử lý dữ liệu đang trở thành một chủ đề nghiên cứu quan trọng Đó là lý do lựa chọn đề tài nghiên cứu của luận
văn: “Tìm hiểu giải pháp lưu trữ, xử lý và trình diễn các dữ liệu thống kê ứng dụng điện toán đám mây”
II MỤC ĐÍCH VÀ NỘI DUNG NGHIÊN CỨU:
Mục đích chính là tìm hiểu công nghệ Điện toán đám mây, khả năng ứng dụng ĐTĐM trong lưu trữ, xử lý dữ liệu, trong đó có mô hình dữ liệu lớn, phức tạp, phát sinh trong quá trình vận hành của một số hệ thống thông tin của ngành thống kê
Nội dung luận văn tốt nghiệp gồm 03 chương:
CHƯƠNG I TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY
CHƯƠNG II NGHIÊN CỨU CÁC CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY LƯU TRỮ,
XỬ LÝ DỮ LIỆU ỨNG DỤNG TRONG THỐNG KẾ
CHƯƠNG III ĐỀ XUẤT GIẢI PHÁP LƯU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN DỮ LIỆU CHO NGÀNH THỐNG KÊ VÀO ĐIỆN TOÁN ĐÁM MÂY (iDRAGON COULD)
Trang 4CHƯƠNG 1 TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY 1.1 Giới thiệu
Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật và công nghệ hiện đại, mỗi người chúng ta càng có nhiều cơ hội được tiếp cận, được sử dụng và sở hữu các sản phẩm của công nghệ cao có chất lượng hơn, tiện lợi hơn, sử dụng đơn giản hơn và chi phí cũng thấp hơn Cùng với sự phát triển của khoa học và công nghệ cũng làm phát sinh ngày càng nhiều những bài toán trong nhiều lĩnh vực đòi hỏi sức mạnh tính toán lớn, khả năng chia sẻ tài nguyên, khối lượng dữ liệu lưu trữ và chia sẻ nhiều, sự phân công chuyên môn hóa cao… Để giải quyết những vấn đề này, đã có nhiều kỹ thuật, giải pháp tính toán được đưa ra ví như tính toán lưới, tính toán song song… Tuy nhiên trên phương diện người sử dụng, các giải pháp này có thể giải quyết được bài toán chuyên môn nhưng lại nảy sinh hai vấn đề chưa được giải quyết thấu đáo Thứ nhất, về kinh tế, để sở hữu và duy trì một hệ thống tính toán như cần thiết thì phải chịu một chi phí quá lớn trong khi có thể nói là hiệu quả sử dụng rất thấp về thời gian, công suất, tài nguyên và khả năng tính toán của hệ thống
đó Thứ hai, với một hệ thống tính toán phức tạp bao gồm cả phần cứng, phần mềm, dữ liệu lưu trữ… đòi hỏi phải có trình độ và kỹ năng nhất định về chuyên môn công nghệ thông tin thậm chí không chỉ là một người mà phải là một tổ chức của các chuyên gia công nghệ thông tin mới đủ khả năng quản lý và điều khiển
Đây rõ ràng là vấn đề lớn đặt ra cho ngành Công nghệ thông tin Để giải quyết, một
số tổ chức đã đưa ra một mô hình mà trong đó các công việc thuộc về chuyên môn công nghệ thông tin được chuyển giao tối đa cho các chuyên gia công nghệ thông tin, các công việc khác mà ứng dụng thành quả của công nghệ thông tin thì được cung cấp cho người sử dụng như các dịch vụ
Thuật ngữ “cloud computing” ra đời bắt nguồn từ một trong những hoàn cảnh như vậy
Điện toán đám mây (Cloud computing) có thể hiểu là một mô hình điện toán sử dụng các công nghệ tiên tiến nhất về phần mềm, phần cứng máy tính, được phát triển trên hạ tầng mạng máy tính và Internet, để tạo ra một “đám mây” cung cấp từ cơ sở hạ tầng, nơi lưu trữ
dữ liệu cho đến các dịch vụ sẵn sàng, nhanh chóng cho mọi cơ quan, tổ chức, doanh nghiệp
và người dùng đầu cuối theo yêu cầu
Trang 51.2 Tổng quan về điện toán đám mây
1.2.1 Các công nghệ nền tảng điện toán đám mây
1.2.1.1 Công nghệ ảo hóa trong điện toán đám mây
a) Ảo hóa toàn phần - Full Virtualization
Ảo hóa toàn phần là một kỹ thuật mà trong đó toàn bộ một tiến trình cài đặt cho một máy đƣợc chạy trên máy khác Kết quả là một hệ thống trong đó tất cả các phần mềm đang chạy trên một máy chủ thực chất là một máy ảo Ảo hóa toàn phần đƣợc nhóm CP-40 của IBM bắt đầu nghiên cứu từ năm 1967
b) Ảo hóa cục bộ - Paravirtualization
Ảo hóa cục bộ cho phép nhiều hệ điều hành cùng chạy trên một thiết bị phần cứng duy nhất trong cùng một lúc bằng cách sử dụng hiệu quả hơn các tài nguyên hệ thống, nhƣ
bộ vi xử lý và bộ nhớ
1.2.1.2 Platform
): Cun
1.2.1.3 Mô hình cung cấp dịch vụ qua Internet
Hình 1.1: Mô hình dịch vụ điện toán đám mây
Trang 61.2.2 Các lớp dịch vụ điện toán đám mây
- Dịch vụ cung cấp cơ sở hạ tầng – IaaS
IaaS là hình thức dịch vụ có sẵn tiếp theo trong Cloud Computing Dịch vụ SaaS và PaaS cung cấp các ứng dụng cho khách hàng, IaaS thì không Nó chỉ đơn giản là cung cấp
hệ thống cơ sở hạ tầng, các phần cứng để các khách hàng có thể sử dụng và đặt bất cứ điều
gì họ muốn lên đó
Lợi ích của IaaS
Mô hình IaaS làm cho việc sử dụng cơ sở hạ tầng, phần cứng của hệ thống tính toán
có thể đạt hiệu suất tối ưu về nhiều mặt, do đó các chi phí có thể đạt mức tối thiểu, đây là lợi ích đối với cả nhà cung cấp và khách hàng
Khó khăn và thách thức đối với IaaS
Với hệ thống hạ tầng tính toán vật lý chạy được nhiều hệ thống ảo trên đó hiện nay cần hoàn thiện hơn nữa các công cụ để quản lý, kiểm soát
Một vấn đề hết sức được quan tâm nữa là bảo mật thông tin cho người sử dụng khi hệ thống tính toán được quản lý và điều hành bên ngoài người sử dụng
- Dịch vụ cung cấp nền tảng phát triển ứng dụng – PaaS
Tương tự hình mẫu của SaaS, PaaS cũng áp dụng mô hình phân phối dịch vụ công nghệ thông tin Sản phẩm mà dịch vụ kiểu PaaS cung cấp là tất cả các nguồn tài nguyên, công cụ, nền tảng cần thiết để xây dựng, phát triển ứng dụng và được cung cấp cho khách hàng hoàn toàn thông qua Internet (từ trên đám mây), mà không cần phải tải về hay cài đặt trên máy của người sử dụng
Hệ thống cung cấp dịch vụ PaaS có thể có ba kiểu tùy chọn khác nhau như sau:
* Phát triển và mở rộng khả năng công việc: Cho phép các ứng dụng SaaS đã có sẵn
từ trước có thể được tùy chỉnh
* Môi trường độc lập: Môi trường được cung cấp không bao gồm các vấn đề về cấp
phép, kỹ thuật, cũng không phụ thuộc tài chính vào một ứng dụng SaaS cụ thể nào đó, chúng được sử dụng cho sự phát triển chung
* Môi trường phát triển ứng dụng: Những môi trường này hỗ trợ cho việc cung cấp
các mức dịch vụ, như là cung cấp khả năng an toàn bảo mật hay khả năng mở rộng theo nhu cầu Nhưng chúng không bao gồm việc phát triển, gỡ lỗi và khả năng kiểm tra
Hướng tới khả năng kết nối hợp nhất
Trang 7PaaS phải đối mặt với cùng một loại các vấn đề trong về khả năng chấp nhận lẫn nhau trong toàn bộ hệ thống đám mây tương tự như mô hình dịch vụ SaaS mà đã được xem xét đến trong mục trên
Lợi ích của PaaS
- Người sử dụng chỉ phải chi trả cho đúng những gì mà họ đã sử dụng theo hợp đồng cung cấp và sử dụng dịch vụ với nhà cung cấp
- Tạo ra nền tảng phát triển ứng dụng thống nhất, có thể là toàn cầu
- Loại bỏ các phụ thuộc vào phần cứng và các vấn đề về chiếm dụng tài nguyên, từ đó cho phép các nhà phát triển chỉ tập trung quan tâm đến mã ứng dụng
- Khả năng co giãn hệ thống
- Mô hình triển khai đơn giản
Nhược điểm của PaaS
- Dịch vụ cung cấp phần mềm – SaaS
SaaS là mô hình trong đó một ứng dụng được cung cấp như là một dịch vụ theo yêu cầu cho khách hàng truy cập nó thông qua Internet Hình 1.1 cho thấy mô hình cung cấp ứng dụng
Hình 1.2 Mô hình cung cấp dịch vụ SaaS
Khi ứng dụng được lưu trữ trên đám mây như vậy, các nhà cung cấp dịch vụ nhận về mình tất cả các công việc sửa lỗi, nâng cấp cũng như duy trì các hoạt động cho cơ sở hạ tầng
Tuy nhiên, đối với người sử dụng, vấn đề chi phí cũng có hai mặt Một mặt như chúng ta đã đề cập là người sử dụng chỉ phải chi trả cho chính xác những gì mà họ dùng Mặt khác, dịch vụ kiểu SaaS yêu cầu người sử dụng luôn phải trả phí cho tất cả những lúc
họ chạy ứng dụng của mình
Trang 8Lợi ích của SaaS
Hai lợi ích quan trọng nhất của SaaS chúng ta đã từng bàn đến ở trên là:
Cấp rẻ hơn, Có thể đáp ứng được những yêu cầu huy động năng lực tính toán lớn một cách nhanh chóng, có nghĩa là người sử dụng có thể đạt được tốc độ xử lý công việc lớn nhất có thể
Cùng khả năng tính toán, tốc độ xử lý thì sử dụng dịch vụ SaaS chỉ phải chịu một chi phí ít hơn nhiều Các nhà cung cấp dịch vụ có thể cung đáng tin cậy hơn so với các ứng dụng có thể tự tổ chức
Trở ngại và những thách thức đối với SaaS
SaaS cũng có những nhược điểm, gây trở ngại cho việc thực hiện và sử dụng nó Một vấn đề rất quan trọng đã đề cập trong mục trước là việc an toàn và bảo mật dữ liệu của người sử dụng Khi dữ liệu của người sử dụng nằm trong sự kiểm soát của các nhà cung cấp thì phải có một mô hình hay phương thức nào đó nhằm đảm bảo tối đa sự an toàn và riêng
tư dữ liệu
1.3 Phân loại các mô hình cung cấp điện toán đám mây
a) Đám mây công cộng – Public Cloud Computing
Cơ sở hạ tầng điện toán đám mây loại này được tạo sẵn cho số đông công chúng hoặc một nhóm ngành công nghiệp lớn và được sở hữu bởi một tổ chức bán các dịch vụ đám mây
b) Đám mây cộng đồng – Community Cloud Computing
Mô hình cộng đồng là mô hình trong đó hạ tầng đám mây được chia sẻ bởi một số tổ chức cho cộng đồng người dùng trong các tổ chức đó Các tổ chức này do đặc thù không tiếp cận với các dịch vụ đám mây công cộng và chia sẻ chung một hạ tầng điện toán đám mây để nâng cao hiệu quả đầu tư sử dụng
c) Đám mây riêng - Private Cloud Computing
Cơ sở hạ tầng điện toán đám mây được hoạt động chỉ phục vụ duy nhất cho một tổ chức Nó có thể được quản lý bởi chính tổ chức hoặc một bên thứ ba và có thể tồn tại trên chính hệ thống của tổ chức đó hoặc không
d) Đám mây lai - Hybrid Cloud Computing
Cơ sở hạ tầng điện toán đám mây mà thành phần được ghép từ hai hoặc nhiều đám mây khác (có thể là đám mây riêng, cộng đồng, hoặc công cộng) mà vẫn hoạt động như một
Trang 9thực thể duy nhất Các đám mây thành phần này được ràng buộc với nhau bằng công nghệ tiêu chuẩn hoặc độc quyền cho phép dữ liệu và ứng dụng có tính di động
1.4 Xu hướng phát triển của điện toán đám mây
CHƯƠNG 2 NGHIÊN CỨU CÁC CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY LƯU TRỮ,
XỬ LÝ DỮ LIỆU ỨNG DỤNG TRONG THỐNG KẾ
I GIỚI THIỆU CHƯƠNG
II NỘI DUNG
2.1 Ứng dụng công nghệ lưu trữ điện toán đám mây cho dữ liệu Thống kê
Hình 2.1: Tổng quát mô hình lưu trữ đám mây Một hệ thống đám mây lưu trữ thông thường được xây dựng từ một vài máy chủ dữ liệu, nhiều hay ít máy chủ quyết định bởi mô hình đám mây được sử dụng Một hệ thống máy tính thường yêu cầu bảo trì và sửa chữa, vì thế phải có cơ chế lưu trữ cùng một dữ liệu trên nhiều máy tính khác nhau Cơ chế này được gọi là cơ chế Redundancy Nếu không có
cơ chế Redundancy, các hệ thống đám mây lưu trữ không thể đảm bảo chắc chắn rằng người dùng luôn có thể truy cập dữ liệu của mình Hệ thống đám mây lưu trữ hiện nay hầu hết
Trang 10được sử dụng nhằm mục đích sao lưu và phục hồi dữ liệu hoặc để chia sẻ dữ liệu với mức
độ phân quyền đơn giản Ngoài ra một số hệ thống đám mây lưu trữ cá nhân phục vụ mục đích của các doanh nghiệp, tổ chức có thể được tích hợp dữ liệu với các dịch vụ ứng dụng khác để sử dụng thuận tiện hơn trong các hoạt động nghiệp vụ
Cơ sở hạ tầng cho đám mây lưu trữ
Các loại hình đám mây lưu trữ
a) Mô hình dịch vụ đám mây lưu trữ
Thường có 3 loại mô hình đám mây lưu trữ:
2.1.1 Đám mây lưu trữ công cộng (public cloud storage)
Khi sử dụng đám mây lưu trữ công cộng của các nhà cung cấp dịch vụ khác, doanh nghiệp, tổ chức, cá nhân sẽ không phải xây dựng hệ thống nền tảng mà sẽ được sử dụng chính nền tảng phần cứng, nền tảng quản lý có sẵn của nhà cung cấp Các cá nhân hoặc các
tổ chức sẽ phải thuê hoặc mua gói dịch vụ tùy theo nhu cầu sử dụng của mình
2.1.2 Đám mây lưu trữ riêng (private cloud storage):
Là môi trường dành riêng được bảo vệ bên trong hệ thống tường lửa của tổ chức, doanh nghiệp Mô hình này thích hợp nhất với những người dùng cần tối ưu lại hệ thống đám mây lưu trữ và áp dụng những quy trình quản lý dữ liệu chi tiết của tổ chức, doanh nghiệp Đám mây lưu trữ riêng có mô hình lưu trữ và dịch vụ nằm bên trong các trung tâm
dữ liệu của tổ chức, hoặc một cơ sở hạ tầng IaaS mà tổ chức thuê để thực hiện lưu trữ riêng
2.1.3 Đám mây lưu trữ lai (hybrid cloud):
Là mô hình kết hợp bởi 2 mô hình đám mây lưu trữ trên với một phần nền tảng như của đám mây riêng và một phần nền tảng như của đám mây công cộng Khi tổ chức, doanh nghiệp triển khai theo mô hình này, dữ liệu của họ có thể đặt tại đám mây riêng và cũng có thể đặt một phần ở bên ngoài (đám mây công cộng) nhằm phục vụ các mục tiêu, hoạt động khác
b) Một số dịch vụ đám mây lưu trữ hiện nay
- Đám mây lưu trữ của Amazon S3:
- Đám mây lưu trữ của hãng Apple: iCloud
- Đám mây lưu trữ của hãng Microsoft: Windows Live SkyDrive
c) Các tiêu chuẩn cho dịch vụ lưu trữ đám mây
- Khả năng co giãn
- Tự động
Trang 11- Hiệu quả năng
2.2 Các mô hình thu thập, xử lỹ dữ liệu Thống kê
2.2.1 Thực trạng ứng dụng công nghệ thông tin trong ngành Thống kê
a Xử lý thông tin thống kê
b Về cơ sở dữ liệu
c Truyền số liệu
d Phổ biến số liệu
e Cơ sở hạ tầng công nghệ thông tin
2.2.2 Một số mô hình thu thập, xử lý dữ liệu đã và đang được áp dụng trong ngành Thống kê hiện nay.
a Quy trình xử lý tổng điều tra Dân số và nhà ở năm 2009
Trang 12Hình 2.3: Quy trình xử lý tổng điều tra Dân số và nhà ở năm 2009
b Mô hình thu thập, xử lý dữ liệu điều tra công nghiệp tháng và điều tra công nghiệp năm
áp dụng công nghệ EFORM
a Kiến trúc hệ thống hiện tại
Hệ thống Điều tra Công nghiệp tháng và Điều tra Doanh nghiệp năm đƣợc xây dựng
trên nền giao diện web Hệ thống đƣợc cài đặt trên Trụ sở văn phòng và triển khai đến các đơn vị qua hệ thống mạng chia sẻ (mạng nội bộ hoặc kết nối ra ngoài có giới hạn) dựa trên các chức năng đƣợc phân quyền theo nghiệp vụ của từng đơn vị
3 Chuẩn bị phiếu Phiếu xấu
4 Cắt phiếu Phiếu xấu
5 Scan Phiếu xấu
7 FormID / ManualID
T.tin phiếu
bị xoá
6 Xác minh ĐB sai số lƣợng sau scan
8 Mass Verify
9 Data Verify T.tin phiếu bị xoá
10 Exception T.tin phiếu
bị xoá
11 Export
12 Group Output (ghép file ĐB)
14 Nhập tin phiếu xấu
13 Bới tìm phiếu bị xoá theo
15 Ghép file xã/huyện
16 Kiểm tra + Sửa ID phiếu
17 Công cụ hỗ trợ tìm phiếu thiếu, nhập phiếu thiếu, sai lô xã/huyện, bới tìm phiếu
19 K.tra + Sửa logic
20 K.tra xác minh số lƣợng phiếu, hộ của file xã.huyện