TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 12, Số (2018) BIG DATA VÀ GIẢI PHÁP LƯU TRỮ DỮ LIỆU Nguyễn Mậu Hân Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế Email: nmhan2009@gmail.com Ngày nhận bài: 29/3/2018; ngày hoàn thành phản biện: 26/4/2018; ngày duyệt đăng: 8/6/2018 TÓM TẮT Big Data biết giải pháp lý tưởng để xử lý liệu có cấu trúc, liệu bán cấu trúc hay chí phi cấu trúc weblogs, mạng xã hội, email, liệu cảm biến ảnh mà khai thác nhằm tìm thơng tin hữu ích Vấn đề đặt giải pháp cho toán lưu trữ loại liệu Bài báo đề xuất giải pháp lưu trữ cho trung tâm liệu, nơi tiếp xúc ngày loại Big Data, phương pháp lưu trữ truyền thống bộc lộ nhiều khiếm khuyết Từ khóa: Big Data, Dữ liệu có cấu trúc, Haddop, MapReduce GIỚI THIỆU “Big data” thuật ngữ dùng để tập hợp liệu lớn phức tạp công cụ xử lí liệu truyền thống khơng thể đảm đương Theo IBM [1], big data hiểu cách chung “mỗi ngày, toàn giới, tạo 2.5 tỷ Gigabytes liệu Và liệu tương ứng với liệu mà thu năm trước Dữ liệu ngày thu khắp nơi bao gồm: mạng cảm biến thu thập thông tin, viết trang mạng xã hội, ảnh kỹ thuật số, video clip, toán mua hàng trực tuyến tín hiệu GPS từ điện thoại” Năm 2014, cơng ty phân tích liệu Gartner [3] đưa khái niệm chấp nhận mơ hình “5Vs” Big Data Đó là, đặc trưng Big Data: tăng lượng (volume), tăng vận tốc (velocity) , tăng chủng loại (variety), tăng độ xác (veracity) tăng giá trị thơng tin (value) Hiểu cách đơn giản, phát triển khơng ngừng khối lượng liệu cần lưu trữ, cách thức để xử lý liệu với tốc độ cao, tính đa dạng liệu (variety): Theo IBM [7], có 20% liệu thu có cấu trúc thực tế 80% liệu giới dạng phi cấu trúc bán cấu trúc Ngồi cịn phải quản lý liệu tạo liệu cập nhật, độ xác xử lý giá trị thông tin lưu trữ 29 Big data giải pháp lưu trữ liệu Tất quan điểm hướng tới việc trả lời cho câu hỏi: Big Data vấn đề cần phải nghiên cứu tìm hiểu Vấn đề nhà cung cấp dịch vụ, trung tâm tích hợp liệu nghiên cứu, tìm hiểu phương pháp tốt để lưu trữ loại liệu với yếu tố Nhìn chung, có bốn lợi ích mà Big data mang lại là: cắt giảm chi phí, giảm thời gian tìm kiếm thơng tin, tăng thời gian phát triển tối ưu hóa sản phẩm, đồng thời hỗ trợ người đưa định đắn hợp lý Trong phạm vi báo nghiên cứu giải pháp lưu trữ Big data, công cụ thiếu cách mạng 4.0 BIG DATA VÀ CÔNG CỤ XỬ LÝ Kỹ thuật xử lý liệu Big data chủ yếu NoSQL (cơ sở liệu theo cột, cặp khóa-giá trị) [4], mơ hình liệu quan hệ khơng thể đáp ứng Tuy nhiên thực tế nhiều công ty lớn đưa công cụ khác để xử lý Big data 2.1 Giải pháp Hadoop/MapReduce Năm 2004, Google công bố kiến trúc hệ thống file phân tán GFS (Google File System) cơng cụ MapReduce Từ Hadoop, Framework, với GFS MapReduce đời Dough Cutting 2.1.1 Hadoop Apache Hadoop [7] framework dùng để chạy ứng dụng cluster lớn xây dựng phần cứng thông thường Hadoop thực mơ hình Map/Reduce, mơ hình phân tán song song, ứng dụng chia nhỏ thành nhiều phân đoạn khác (phân tán), phần chạy song song nhiều node khác Bên cạnh đó, Hadoop cung cấp hệ thống file phân tán (HDFS) cho phép lưu trữ liệu lên nhiều node Cả Map/Reduce HDFS thiết kế cho framework tự động quản lý lỗi, hư hỏng phần cứng node 2.1.2 MapReduce Có thể hiểu cách đơn giản, MapReduce phân chia công việc xử lý thành nhiều khối công việc nhỏ, phân tán khắp nút tính tốn (giai đoạn Map), thu hồi kết (giai đoạn Reduce) MapReduce chạy phần cứng thơng thường, khơng địi hỏi server chạy MapReduce phải máy tính có cấu hình cao với khả tính tốn, lưu trữ truy xuất mạnh mẽ Do vậy, chi phí triển khai MapReduce rẻ MapReduce làm đơn giản hoá giải thuật tính tốn phân tán 30 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 12, Số (2018) cách cần cung cấp hai hàm Map Reduce với số thành phần xử lý liệu đầu vào Hàm Map: Người dùng đưa cặp liệu (key, value) làm input cho hàm Map, tùy vào mục đích người dùng mà hàm Map trả danh sách cặp liệu (intermediate key, value) Hàm Reduce: Hệ thống gom nhóm tất value theo intermediate key từ output hàm map, để tạo thành tập cặp dự liệu với cấu trúc (key, tập value key) Dữ liệu input hàm Reduce cặp liệu gom nhóm sau thực xử lý trả cặp liệu (key, value) output cuối cho người dùng Cho đến nay, Hadoop trở thành giải pháp nguồn mở hàng đầu hỗ trợ mô hình MapReduce Hadoop viết Java, nhiên hỗ trợ phát triển MapReduce nhiều ngơn ngữ khác ngồi Java C++, Pearl, Python, … 2.2.2 Kiến trúc Hadoop File System (HDFS) Giống hệ thống file khác, HDFS trì cấu trúc phân cấp file [6], thư mục mà file đóng vai trò node Trong HDFS, file chia làm hay nhiều block block có block ID để nhận diện Mỗi block file lưu trữ thành nhiều khác mục đích an tồn liệu Hình Kiến trúc HDFS BIGTABLE VÀ GIẢI PHÁP LƯU TRỮ 3.1 Giới thiệu Bigtable Bigtable hệ thống lưu trữ phân tán dùng để quản lý liệu có cấu trúc thiết kế đễ co giản phạm vi lớn Những cụm Bigtable sử dụng với nhóm hàng nghìn server, lưu trữ tới vài trăm terabyte liệu Bigtable khơng hỗ trợ mơ hình liệu quan hệ Thay vào đó, cung cấp ứng dụng client với mơ hình liệu đơn giản có hỗ trợ điều khiển động kiến trúc định dạng liệu Bigtable cho phép ứng dụng client suy đặc tính vị trí liệu mô tả kho lưu trữ bên Dữ liệu đánh mục theo tên hàng cột xâu Bigtable coi liệu xâu không diễn dịch (uninterpreted), ứng dụng client thường xếp dạng khác 31 Big data giải pháp lưu trữ liệu liệu có cấu trúc bán cấu trúc vào xâu Client điều khiển vị trí liệu họ thơng qua lựa chọn cẩn thận lược đồ 3.2 Mô hình liệu Một Bigtable đồ phân tán, đa chiều, ổn định [5] Bản đồ đánh mục khóa hàng (row), khóa cột (column), nhãn thời gian (timestamp) Mỗi giá trị đồ mảng liệu không diễn dịch (uninterpreted): (row:string, column:string, time:int64) → string Ví dụ lưu trữ trang “cnn.com”: Tên hàng địa URL, họ cột “contents:” chứa nội dung trang, họ cột “anchor” chứa văn liên kết tới trang web Trang cnn trang tham chiếu tới, hàng chứa cột có tên anchor:cnnsi.com anchor:my.look.ca Mỗi anchor có nhiều phiên bản, cột “contents:” có phiên với nhãn thời gian t3, t5, t6 Giả sử muốn giữ tập hợp lớn trang web thơng tin liên quan mà sử dụng nhiều dự án khác nhau; gọi bảng Webtable Trong Webtable, sử dụng địa URL khóa hàng, phận khác trang web tên cột, lưu trữ nội dung trang Web vào CONTENTS, cột nhãn thời gian chúng lấy Hình Ví dụ lưu trữ trang web 3.2.1 Hàng Các khóa hàng xâu (dung lượng lên tới 64KB) Tất hoạt động đọc hay ghi liệu bên khóa hàng đơn “nguyên tử”, giải pháp thiết kế làm cho ứng dụng khách thấy dễ dàng suy luận nguyên lý hệ thống xảy cập nhật đồng thời lên hàng Bigtable bảo trì liệu theo thứ tự từ điển khóa hàng Mỗi dãy hàng gọi bảng phụ (tablet), bảng phụ đơn vị phân tán cân tải Việc đọc dãy hàng ngắn có hiệu yêu cầu giao tiếp với số lượng nhỏ máy Client khai thác thuộc tính cách chọn khóa hàng họ họ có vị trí tốt cho việc truy cập liệu Ví dụ, Webtable, trang tên miền nhóm vào hàng kề cách đảo ngược thành phần địa URL Ví dụ, lưu liệu cho địa maps.google.com/index.html 32 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 12, Số (2018) khóa com.google.maps/index.html Lưu trữ trang có tên miền giống gần giúp cho host phân tích tên miền hiệu 3.2.2 Họ cột Các khóa cột nhóm vào bảng gọi “họ” cột, tạo thành khối kiểm soát truy xuất Tất liệu lưu “họ” cột thường có chung kiểu (do nén liệu họ đồng thời với nhau) Một “họ” cột phải tạo trước liệu lưu trữ cột họ Sau họ tạo, khóa cột bên họ sử dụng Số họ cột bảng không nhiều (nhiều hàng trăm), họ thay đổi trình hoạt động Ngược lại, bảng có số cột khơng giới hạn Một khóa cột đặt tên dựa theo cú pháp “tên_họ:tính_chất” Ví dụ họ cột cho Webtable LANGUAGE, lưu trữ ngơn ngữ mà trang web viết Chúng ta sử dụng khóa cột cho họ LANGUAGE, lưu trữ định danh ngơn ngữ trang web Một họ cột hữu dụng cho bảng ANCHOR; cột họ đại diện cho anchor đơn lẻ Phần tính chất tên trang liên quan, nội dung ô kết nối văn Điều khiển truy xuất với đĩa tính tốn nhớ thực mức họ cột Trong ví dụ Webtable, điều khiển cho phép quản lý vài loại ứng dụng khác nhau: vài số chúng dùng để tạo liệu bản, vài để đọc liệu tạo họ cột từ đó, vài cho phép xem liệu tồn 3.2.3 Nhãn thời gian Mỗi ô Bigtable chứa nhiều phiên liệu, phiên đánh mục nhãn thời gian Nhãn thời gian số nguyên 64 bit Chúng định Bigtable, trường hợp chúng mô tả thời gian thực tới micro giây, định ứng dụng người dùng Ứng dụng cần tránh xung đột phải tự sinh nhãn thời gian riêng chúng Các phiên khác ô lưu trữ theo thứ tự giảm dần nhãn thời gian, nhờ phiên đọc trước Để cho việc quản lý phiên liệu dễ dàng hơn, cho phép hỗ trợ hai môi trường họ cột Phía client định số n phiên cuối giữ lại, giữ lại phiên đủ (ví dụ, giữ lại giá trị ghi vòng ngày trở lại) 3.3.4 Giao diện lập trình ứng dụng API Bigtable API cung cấp chức cho việc tạo xóa bảng họ cột Nó cung cấp chức để chuyển cụm( cluster), bảng, siêu liệu họ cột Các ứng dụng client ghi xóa giá trị, tìm kiếm giá trị từ hàng riêng lẻ, lặp lại nhóm liệu bảng Dưới đoạn mã C++ sử 33 Big data giải pháp lưu trữ liệu dụng hàm RowMutation để thực chuỗi cập nhật gọi hàm Apply thực thay đổi nguyên tử đến Webtable: thêm anchor vào www.cnn.com xóa anchor khác Table *T = OpenorDie(“/bigtable/web/webtable”); // Open a table RowMutation r1 (T, “com.cnn.www”); // Write a new anchor r1.Set(“anchor:www.c-span.org”, “CNN”); r1.Delete(“anchor:www.abc.com”); // Delete an old anchor Operation op; Apply( &op, &r1); Đoạn mã cho thấy hàm Scanner C++ sử dụng để lặp lại tất anchor hàng Client lặp lại nhiều họ cột, có vài chế định giới hạn số hàng, cột, nhãn thời gian tạo scan Ví dụ, hạn chế scan tạo anchor có cột phù hợp với biểu thức anchor.*.cnn.com, tạo anchor mà nhãn thời gian vòng 10 ngày trở lại Scanner scanner(T); ScanStream *stream; stream= scanner.FetchColumnFamily(“anchor”); stream-> SetReturnAllVersions(); scanner.Lookup(“com.cnn.www”); for (; !stream->Done(); stream->next()) { printf (“%s %s %11d %s \n, scanner.Rowname(), stream->Columnname(), stream->MicroTimestamp(), stream->Value()); } Bigtable sử dụng với MapReduce, dùng để chạy tính tốn song song phát triển Google 3.4 Xây dựng khối Bigtable xây dựng phần khác sở hạ tầng Google Bigtable sử dụng hệ thống file phân tán Google để lưu trữ ghi file liệu Một cụm Bigtable hoạt động nhóm máy chia sẻ, máy chạy nhiều ứng dụng phân tán khác nhau, tiến trình Bigtable thường chia sẻ máy tính với tiến trình từ ứng dụng khác Bigtable phụ thuộc vào hệ thống quản lý cụm việc lên lịch công việc, quản lý tài nguyên chia sẻ, giải cố, kiểm tra trạng thái máy Định dạng file Google SStable sử dụng để lưu trữ liệu Bigtable Một SSTable cung cấp đồ liên tục, thứ tự không đổi từ khóa tới giá trị, nơi mà khóa giá trị xâu Các phép tốn cung cấp để tìm kiếm giá trị liên quan đến khóa rõ, để lặp lại tất cặp khóa/giá trị dãi khóa Hơn nữa, Sstable mang chuỗi block (mỗi block có kích thước 64KB, điều chỉnh được) Một mục block (lưu cuối Sstable) sử dụng để định vị block; mục tải vào nhớ 34 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 12, Số (2018) SStable mở Bigtable dựa vào dịch vụ khóa phân tán có tính sẵn sàng cao gọi Chubby Một dịch vụ Chubby bao gồm mơ hình hoạt động, số chúng chọn làm chủ đáp ứng yêu cầu Dịch vụ “sống” phần lớn mơ hình chạy có giao tiếp với mơ hình khác Bigtable sử dụng Chubby để: bảo đảm có mơ hình chủ thời điểm; để lưu trữ vị trí khởi động liệu Bigtable để lưu trữ thông tin lược đồ Bigtable để lưu trữ danh sách điều khiển truy xuất 3.5 Thực thi Thực thi Bigtable có ba thành phần chính: thư viện kết nối tới client, máy chủ, nhiều máy chủ phụ Máy chủ phụ thêm gỡ bỏ động từ cụm để điều tiết thay đổi tải làm việc Máy chủ có trách nhiệm định bảng phụ (tablet) vào máy chủ phụ, phát bổ sung mở rộng máy chủ phụ, cân tải, loại bỏ file GFS Thêm vào đó, điều khiển thay đổi lược đồ ví dụ việc tạo bảng hay họ cột Mỗi máy chủ phụ quản lý tập bảng phụ Máy chủ phụ quản lý yêu cầu đọc ghi vào bảng tải, chia nhỏ bảng chúng lớn Như với hệ thống lưu trữ phân tán máy chủ, liệu khách không đưa qua máy chủ, client giao tiếp trực tiếp với máy chủ phụ để đọc ghi Bởi client Bigtable không phụ thuộc vào máy chủ thông tin vị trí bảng phụ, hầu hết client khơng giao tiếp với máy chủ Do đó, máy chủ chịu tải lớn Một cụm Bigtable lưu trữ số bảng Mỗi bảng gồm có tập bảng phụ, bảng phụ mang toàn liệu kết hợp với dải hàng Khởi đầu bảng gồm bảng phụ phát triển, tự động chia thành nhiều bảng phụ, với kích thước tiêu chuẩn khoảng 100-200Mb 3.6 Chỉ định bảng phụ Mỗi bảng phụ phân vào máy chủ phụ vào thời điểm Máy chủ lưu vết thiết lập máy chủ phụ hoạt động, phân công bảng phụ tới máy chủ, bao gồm bảng phụ chưa định Khi bảng phụ không định, máy chủ phụ có đủ khả cho bảng phụ sẵn sàng, máy chủ phân công bảng phụ cách gửi yêu cầu tải bảng phụ tới máy chủ phụ Bigtable sử dụng Chubby để lưu vết máy chủ phụ Khi máy chủ phụ khởi động, tạo ra, yêu cầu khóa dành riêng, file với tên thư mục riêng Chubby Máy chủ giám sát thư mục (gọi server directory) để phát máy chủ phụ Một máy chủ phụ ngừng phục vụ khóa nó: ví dụ, việc phân chia mạng làm cho máy chủ phiên làm việc Chubby Một máy chủ phụ cố gắng giành lại khóa dành riêng file cần file cịn tồn Nếu file khơng cịn tồn tại, máy chủ phụ khơng phục vụ trở lại, tự ngừng hoạt động Bất máy chủ 35 Big data giải pháp lưu trữ liệu phụ ngửng hoạt động (ví dụ, hệ thống quản lý cụm gỡ bỏ máy chủ khỏi cụm) cố gắng giải phóng khóa nhờ máy chủ định lại bảng phụ nhanh chóng Máy chủ có trách nhiệm phát máy chủ phụ khơng cịn phục vụ bảng phụ nó, phân cơng lại bảng phụ sớm Để phát máy chủ phụ ngừng phục vụ, máy chủ hỏi cách định kì máy chủ phụ trạng thái khóa Tập bảng phụ tồn thay đổi bảng tạo hay xóa đi, hai bảng phụ tồn gộp thành bảng phụ lớn hơn, bảng phụ bị chia thành hai bảng phụ nhỏ Máy chủ lưu vết thay đổi Những bảng phụ bị chia cắt đối xử đặc biệt chúng khởi tạo máy chủ phụ Máy chủ phụ thực thi việc tách cách ghi lại thông tin cho bảng phụ bảng Metadata Khi hoạt động tách chuyển giao, báo cho máy chủ Trong trường hợp thơng báo bị (do máy chủ phụ lỗi), máy chủ phát bảng phụ cách yêu cầu máy chủ phụ tải bảng phụ bị tách Máy chủ phụ báo lại cho máy chủ việc chia tách 3.7 Phục vụ bảng phụ Trạng thái liên tục bảng phụ lưu GFS Cập nhật thực thi vào ghi thực thi lưu trữ ghi làm lại Những lần cập nhật này, cập nhật gần lưu nhớ đệm xếp gọi memtable, cập nhật cũ lưu trữ theo trình tự Sstable Để phát bảng phụ, máy chủ phụ đọc liệu metadata từ bảng Metadata Dữ liệu metadata chứa danh sách Sstable bao gồm bảng phụ tập điểm làm lại, chúng trỏ trỏ vào ghi thực thi chứa liệu bảng phụ Máy chủ phụ đọc số SSTable vào nhớ tổ chức lại memtable cách áp dụng tất cập nhật thực thi từ điểm làm lại Khi thực ghi máy chủ phụ, máy chủ phụ kiểm tra định dạng tốt (well-formed), người gửi cho phép thực thay đổi Sự cho phép thực cách đọc danh sách người ghi cho phép từ file Chubby Một thay đổi hợp lệ viết vào ghi thực thi Nhóm thực thi sử dụng để tăng thông lượng nhiều thay đổi nhỏ Sau ghi hồn tất, nội dung chèn vào memtable Khi thực đọc máy chủ phụ, kiểm tra định dạng tốt quyền hạn tương tự Một hoạt động đọc hợp lệ thực thi khung nhìn hợp chuỗi SStable memtable 3.8 Nén Do việc thực thi hoạt động ghi, kich thước memtable tăng lên Khi kích thước memtable đạt đến giới hạn, memtable đóng băng, memtable 36 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 12, Số (2018) tạo ra, memtable bị đóng băng chuyển vào SStable ghi vào GFS Bộ xử lý nén nhỏ có mục đích: rút ngắn nhớ sử dụng máy chủ phụ, giảm lượng liệu đọc từ ghi thực thi trình hồi phục máy chủ phụ bị lỗi Hoạt động đọc ghi tới tiếp diễn nén Mọi nén nhỏ tạo SStable Nếu chế độ không kiểm tra liên tục, hoạt động đọc cần phải kết hợp với cập nhật từ số Sstable Thay vào đó, giới hạn số file cách thực thi định kì việc nén gộp (merging compaction) Nén gộp đọc nội dung vài Sstable memtable, ghi SStable SSable memtable đầu vào loại bỏ sớm việc nén hoàn thành Nén gộp ghi lại tất Sstalbe vào xác SStable gọi nén lớn Sstable tạo nén non-major chứa mục xóa đặc biệt, cấm việc xóa liệu SStalbe cũ chúng hoạt động Một nén lớn, mặt khác, tạo SStable khơng chứa thơng tin xóa hay liệu bị xóa Bigtable quay vịng qua tất bảng phụ áp dụng nén lớn cách đặn lên chúng Nén lớn cho phép Bigtable phục hồi tài nguyên sử dụng liệu bị xóa, cho phép để đảm bảo liệu bị xóa biến khỏi hệ thống, điều quan trọng để máy chủ lưu trữ thông tin nhạy cảm KẾT LUẬN Mục đích viết giới thiệu giải pháp lưu trữ Bigdata loại liệu khác, công việc thường xuyên quan trọng trung tâm liệu (data centers) Bài báo bàn chế xử lý cho Big data hoạt động hai thành phần Hadoop: HDFS MapReduce để người đọc hiểu nguyên tắc làm việc Bigtable với tảng Hadoop Việc tìm hiểu cơng cụ mang lại nhiều lựa chọn giải pháp lưu trữ cho việc phát triển ứng dụng phân tán với mục đích khác TÀI LIỆU THAM KHẢO [1] Big Data IBM, (2014): http://www-01.ibm.com/software/data/bigdata/ [2] Danah boyd, Kate Crawford, (2012), Critical questions http://www.tandfonline.com/doi/pdf/10.1080/1369118X.2012.678878 for big data [3] Chandar, T., Griesemer, R., and Redstone, J Paxos made live (2007), An engineering perspective In Proc of PODC (2007) [4] Christof Strauch, University Hochschule der Medien, Stuttgart (Stuttgart Media University), (2013), “NoSQL Databases” 37 Big data giải pháp lưu trữ liệu [5] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C Hsieh, Deborah A Wallach Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E Gruber, (2012), “Bigtable: A Distributed Storage System for Structured Data” [6] Oracle NoSQL Database, (2011), An Oracle White Paper September 2011 Maqsood Alam Oracle NoSQL Database, “Oracle Platform Technology Solutions” [7] Understanding Big Data, (2013), Chapter 1, Pages 5, Pages https://www.ibm.com/developerworks/wikis/display/db2oncampus/FREE+ebook++Understanding+Big+Data [8] http://thenextweb.com/insider/2012/08/23/amazons-cto-here-two-definitions-big-data/ [9] http://static.googleusercontent.com/media/research.google.com/en//archive/bigtableosdi06.pdf BIG DATA AND STRUCTURE STORAGE SOLUTION Nguyen Mau Han Faculty of Information Technology, University of Sciences, Hue University Email: nmhan2009@gmail.com ABSTRACT Big Data is known as an ideal solution for processing structured data, semistructured data or even unstructured data such as weblogs, social networks, email, sensitive data, and images that can be exploited to find useful information The question is any solution to the problem of storage for this kind of data This article proposes a storage solution for data centers, which are working on the Big Data daily, while traditional storage methods have exposed many defects Keywords: Big Data, , Haddop, MapReduce, structured data Nguyễn Mậu Hân sinh năm 1957 Thừa Thiên Huế Ông tốt nghiệp cử nhân ngành Toán lý thuyết năm 1981 thạc sĩ chuyên ngành Khoa học máy tính năm 1998 Ơng nhận tiến sĩ viện Cơng nghệ thông tin, Hà Nội năm 2003 phong hàm Phó Giáo sư năm 2013 Từ năm 1994 đến nay, ông giảng viên khoa Công nghệ thông tin, Trường Đại học Khoa học, Đại học Huế Lĩnh vực nghiên cứu: Xử lý song song phân tán, tính toán lưới điện toán đám mây 38 ... http://thenextweb.com/insider/2012/08/23/amazons-cto-here-two-definitions-big-data/ [9] http://static.googleusercontent.com/media/research.google.com/en//archive/bigtableosdi06.pdf BIG DATA AND STRUCTURE STORAGE SOLUTION Nguyen Mau Han. .. scanner.FetchColumnFamily(“anchor”); stream-> SetReturnAllVersions(); scanner.Lookup(“com.cnn.www”); for (; !stream->Done(); stream->next()) { printf (“%s %s %11d %s
, scanner.Rowname(), stream->Columnname(), stream->MicroTimestamp(),... Databases” 37 Big data giải pháp lưu trữ liệu [5] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C Hsieh, Deborah A Wallach Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E Gruber, (2012), “Bigtable: