1. Trang chủ
  2. » Luận Văn - Báo Cáo

Applying GPU database in processing big data

46 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 3,53 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM THẾ ANH ỨNG DỤNG GPU DATABASE TRONG XỬ LÝ DỮ LIỆU LỚN Applying GPU Database in Processing Big Data Ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC: PGS TS THOẠI NAM TP HCM – Tháng 07 / 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS, Thoại Nam Cán chấm nhận xét : TS Nguyễn Lê Duy Lai Cán chấm nhận xét : PGS.TS Nguyễn Đình Thuân Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng 07 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS.TS Phạm Trần Vũ TS Trần Minh Quang TS Nguyễn Lê Duy Lai PGS.TS Nguyễn Đình Thuân PGS.TS Trần Công Hùng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOAKH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Thế Anh Ngày, tháng, năm sinh: Ngành: 01/01/1984 Khoa Học Máy Tính I TÊN ĐỀ TÀI: MSHV: 7140217 Nơi sinh: Cà Mau Mã số : 60.48.01.01 Ứng Dụng GPU Database Trong Xử Lý Dữ Liệu Lớn Applying GPU Database in Processing Big Data II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu triển khai hệ thống GPU Database framework xử lý phù hợp - MapD - Phát triển tốn phân tích liệu tập liệu mở chuyến taxi New York với khoảng tỷ record - Đánh giá hiệu MapD thông qua toán trên, dùng NVidia GPU 1060 nhiều lõi tính tốn CPU với kích thước liệu khác III NGÀY GIAO NHIỆM VỤ : 15/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 V CÁN BỘ HƯỚNG DẪN: PGS TS Thoại Nam Tp HCM, ngày tháng năm 2018 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) (Họ tên chữ ký) Ghi chú: Học viên phải đóng tờ nhiệm vụ vào trang tập thuyết minh LV Lời Cảm Ơn Với lịng biết ơn sâu sắc, tơi xin chân thành cảm ơn người thầy, PGS TS Thoại Nam – người tận tình hướng dẫn, động viên giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến q Thầy, Cơ giảng dạy thời gian học cao học chuyên ngành Khoa Học Máy Tính, cho tơi kiến thức q báu để giải tốt vấn đề thực tiễn nêu luận văn Cuối xin cảm ơn gia đình bạn bè ủng hộ tinh thần giúp đỡ để tơi vượt qua qng thời gian khó khăn để hồn thành luận văn Tơi xin chân thành cảm ơn Tóm Tắt Luận Văn Dữ liệu doanh nghiệp ngày lớn mang nhiều giá trị khai thác mức Với toán xử lý khảo sát liệu truyền thống bối cảnh liệu lớn, giải pháp truyền thống bộc lộ nhiều khuyết điểm khả tính tốn giới hạn, hệ thống nhiều máy tính cồng kềnh khó vận hành, chi phí đầu tư lớn Hệ thống xử lý dựa xử lý đồ họa đa dụng (General Purpose Gpu) định hướng triển vọng Trong MapD giải pháp mã nguồn mở cho phép tổ chức liệu dạng bảng truy vấn SQL thơng dụng với lợi thế: • • • Khả tính tốn song song lớn (teraflops) Giá thành thấp khả sử dụng GPU thông dụng Dễ vận hành thân thiện với kỹ sư phần mềm nước Đề tài tập trung vào toán khảo sát liệu cho kết tức thời (interactive analytic) tập liệu Taxi • Xây dựng hệ thống khảo sát • Dữ liệu có cấu trúc bảng, dựa SQL Dữ liệu: tập liệu taxi ~1tỷ record • GPU Nvidia 1060 P106 Benchmark so sánh khả xử lý phần cứng thông dụng Đề xuất mơ hình ứng dụng vào thực tế • • • Abstract For the problem of processing table-base data in the new challenge of large a mount number of data items, the cpu-based solutions mostly require complicated system of multiple connected computers, that are costly and difficult to manage and control One of the new approach is utilizing the processing power of general purpose GPU (Graphics Processing Unit) with thousands of processing cores and the high bandwidth of Ram In which, MapD is a new solution that implements SQL-like language that allow to manage table-base data and operate with friendly SQL queries, with the advantage of strong parallel processing (teraflops), cost effective and friendly with common software engineers The topic focuses on benchmarking the solution in context of interactive analytic and immediate reaction problem, on big set of data using real Taxi trip database, on regular cost effective hardware And suggest application model to apply the solution in real life Lời Cam Đoan Tơi cam đoan ngồi kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 18 tháng năm 2018 Người thực Phạm Thế Anh MỤC LỤC I GIỚI THIỆU ĐỀ TÀI 1 II Mục tiêu: Đối tượng nghiên cứu: Giới hạn: CÁC HƯỚNG GIẢI PHÁP LIÊN QUAN VÀ HẠN CHẾ Giải pháp CSDL truyền thống Các giải pháp tính tốn song song thơng dụng dùng CPU mô đun tăng tốc III CƠ SỞ LÝ THUYẾT VÀ ĐỊNH HƯỚNG GIẢI PHÁP Bộ xử lý đồ họa đa dụng (GP-GPU) Tổng quan trình xử lý tính tốn GPU tảng CUDA Phần cứng CUDA thị trường MapD – Hệ CSDL dựa card đồ họa IV MÔI TRƯỜNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 12 V Thực nghiệm môi trường đánh giá 12 Tiền xử lý liệu import vào hệ thống 13 Phương pháp đo đạc 15 Các khó khăn thách thức giải pháp 15 HIỆN THỰC ĐÁNH GIÁ VÀ CÁC KẾT QUẢ 18 Việc đánh giá thực qua thời gian xử lý truy vấn, nhiều kích thước liệu khác nhau, có khối lượng tính tốn từ đơn giản đến phức tạp 18 Chi tiết cấu trúc liệu: 18 Các liệu: 18 Bài toán mục tiêu truy vấn mẫu trình đánh giá: 19 Các Kết 21 Tối Ưu Hóa 24 Các nhận xét đề xuất 25 VI MƠ HÌNH ỨNG DỤNG THỰC TẾ 28 Vị trí GPU Database MAPD hạ tầng CNTT 28 Bổ sung phần cứng hỗ trợ 28 Chuyển tải liệu từ hệ thống truyền thống sang MapD 29 Khảo sát trực quan dùng cơng cụ sẵn có MapD Immerse 30 Kết nối cho việc xây dựng ứng dụng 31 VII KẾT LUẬN 32 VIII TÀI LIỆU THAM KHẢO 33 IX PHỤ LỤC 34 Các đường dẫn đến nội dung quan trọng 34 Tham khảo kết khảo sát công cụ truy vấn 35 Giải thích thuật ngữ 36 Trang I GIỚI THIỆU ĐỀ TÀI Các doanh nghiệp nước ứng dụng tự động hóa vào sản xuất, lượng liệu có lớn dần theo thời gian mang nhiều giá trị khai thác mức Nhu cầu xử lý, khảo sát lượng liệu lớn trở thành quan trọng thiết Với toán xử lý khảo sát liệu truyền thống bối cảnh liệu lớn, giải pháp truyền thống đứng trước thách thức cần chi phí đầu tư lớn khả tính tốn giới hạn, hệ thống nhiều máy tính cồng kềnh, vận hành phức tạp Một hướng giải pháp Hệ Cơ Sở Dữ Liệu (CSDL) dựa Card đồ họa có khả tính tốn đa dụng (General Purpose Graphics Processor Unit - G.P.GPU), với số lượng nhiều ngàn nhân xử lý song song băng thông nhớ lớn gấp nhiều lần băng thông CPU-Ram, cho khả duyệt qua khối lượng lớn liệu nhanh nhiều lần khả tính tốn phép tính phức tạp nhanh hàng trăm lần lý thuyết MAPD giải pháp mã nguồn mở công bố gần (Tháng 5/2017) Cho phép tổ chức truy vấn liệu (dạng bảng) lớn hiệu lên đến nhiều tỷ đối tượng liệu thời gian tính giây, thao tác liệu qua truy vấn SQL vốn quen thuộc với kỹ sư nước Ứng dụng thành công GPU Database giải pháp giúp doanh nghiệp truy vấn nhanh số lượng liệu lớn, với khả tính tốn mạnh mẽ, giúp theo dõi việc vận hành theo thời gian thực phản ứng nhanh với thay đổi mơi trường, với chi phí rẻ hệ thống đơn giản dễ vận hành Nội dung đề tài nghiên cứu tập trung vào khảo sát, đánh giá giải pháp, đề xuất mơ hình triển khai GPU Database MapD Trang 1 Mục tiêu: Đề tài nhằm vào lớp toán truy vấn liệu có cấu trúc bảng, cần cho kết tức thời doanh nghiệp Giải pháp mã nguồn mở (và thương mại) triển vọng cho vấn đề hệ CSDL MapD dựa GPU Tuy nhiên hướng công nghệ mẻ chưa có khảo sát chi tiết ưu nhược điểm ứng dụng thực tế, việc ứng dụng hệ thống mã nguồn mở vào thực tế khoảng cách lớn Mục tiêu đề tài: - Hiện thực môi trường phần cứng thông dụng, phần mềm liệu theo định hướng toán truy vấn liệu có cấu trúc bảng; - Đo đạc so sánh hiệu xử lý MapD GPU CPU; - Từ đề xuất mơ hình triển khai hệ thống chuyển giao cho doanh nghiệp Đối tượng nghiên cứu: - Bài toán truy vấn tức thời, phục vụ khảo sát cho kết mang tính tương tác (interactive query), có đặc điểm: o Làm việc liệu dạng bảng o Phải duyệt qua tính tốn số lượng lớn phần tử liệu để tìm kết o Câu truy vấn thường khơng biết trước thay đổi theo tình (do việc khảo sát liên tục trình kỹ sư liệu làm việc), làm cho việc tính trước index liệu khơng có hiệu nhiều thời gian - Tập liệu: Dựa liệu lớn thực tế o Dữ liệu Taxi New York: khoảng tỷ chuyến taxi thành phố New York năm 2011-2017 [11] o Thực chia nhỏ nhiều liệu cho việc khảo sát giải pháp kích thước liệu khác từ 70 triệu đến tỷ records Trang Tối Ưu Hóa Nhận xét tập liệu nhỏ có thời gian chạy CPU cao, tương đương thời gian chạy tập lớn Một đặc điểm kiến trúc MapD tổ chức liệu theo fragment, fragment chứa số lượng phần tử định, phân cơng tồn fragment cho Hình 5.5: Vấn đề thời gian chạy truy vấn tập liệu nhỏ tiến trình xử lý Kích thước fragment đặt mặc định số lượng 30 triệu dòng tạo bảng Điều làm cho liệu nhỏ 70 triệu 150 triệu dịng chia từ đến tiến trình song song khơng dùng hết số lượng tiến trình xử lý CPU Hình 5.6: chế phân cơng gói liệu cho CPU MapD phương án tối ưu Tiến hành điều chỉnh cấu trúc bảng chia fragment nhỏ (từ 30 triệu xuống triệu) để fragment liệu chia nhỏ Việc đòi hỏi bảng tạo nhập liệu lại từ đầu Trang 24 Các kết truy vấn có sau tối ưu Hình 5.7: Kết chạy truy vấn sau tối ưu Thời gian chạy query tăng gần tuyến tính cho kích thước liệu Tỷ lệ chênh lệch CPU GPU ổn định tăng trường hợp tính tốn phức tạp, thể ưu hiệu suất tính toán GPU Các nhận xét đề xuất • Về tăng tốc tính tốn: Hệ thống GPU cho phép tăng tốc tính tốn gấp nhiều lần máy chủ đơn thơng dụng có Trên máy tính khảo sát 15 đến 25 lần sử dụng card GPU giá rẻ Và cao nhiều lần sử dụng card GPU cao cấp Khả tăng tốc cho phép hệ thống realtime cung cấp kết phân tích kịp thời phản ứng lại thay đổi Cũng thể kết nhanh cho kỹ sư liệu cho việc phân tích liệu Kích thước liệu: Với khối lượng tính tốn khảo sát: - CPU cho kết thời gian khoảng mục tiêu, với truy vấn đơn tập liệu 300 triệu record Trang 25 - Giải pháp GPU hiệu trường hợp tập liệu khoảng từ 300 triệu record, khối lượng tính tốn phức tạp hơn, nhiều query lúc (nhiều người dùng) Tuy thời gian nạp liệu lần đầu vào nhớ Ram GPU cao, phiên công nghệ PciExpress Gen4 bắt đầu ứng dụng, cải thiện đáng kể (4 đến lần) thời gian nạp liệu so với hệ thống dùng khảo sát (Gen2) • Về giới hạn nhớ: Do giới hạn kỹ thuật băng thông giao tiếp Cpu-Ram Gpu-Ram, việc tăng tốc xử lý tính tồn có ý nghĩa liệu nạp đầy đủ vào GpuRam tất card Khi xây dựng giải pháp cần ý chọn kích thước nhớ GPU phù hợp với khối lượng liệu • Về chi phí lợi ích đầu tư sở hạ tầng: Khảo sát cho thấy lợi ích lớn chi phí cho lực tính tốn Hoặc lợi ích lớn lực tính tốn mức đầu tư cho hạ tầng Cấu hình Khả tính tốn lý thuyết Speedup tổng quát Máy tính CPU khảo sát Máy tính GPU Khảo sát Máy tính GPU khuyến cáo Hệ thống CPU tương đương CPU X 5650 48GB Ram CPU X 5650 48 GB Ram 2x CPU E 26xx 128GB Ram 25 node 2x CPU E 26xx 128 GB Ram GPU P106 (24GB ram) GPU 1080Ti (88GB Ram) MemoryBus 20GB/s MemoryBus 70GB/s MemoryBus 480GB/s Memory Bus 40GB/s x 25 0.045 TFlops 18.4 TFlops FP32 2.4 TFlops FP64 80.4 TFLops FP32 1.5 Tflops FP32 (60GFlop x 25) 7500 ms (x1) 600 ms (x15) dự đoán (x 56) dự đốn (x 56) Trang 26 Chi Phí ước tính $1200 $2.400 ($1200 + 4x$300) $9.400 ($2200 + 8x$900) $55.000 ($2200 x 20) Bảng 5.5: So sánh ước tính khả tính tốn chi phí đầu tư Đặc điểm cho phép doanh nghiệp nâng cấp phần hạ tầng xử lý cho nhu cầu tính tốn khảo sát liệu mà khơng cần thay chuyển đổi cơng nghệ • Về tính sẵn sàng ứng dụng Giải pháp MapD đặc điểm dựa chuẩn SQL cấu trúc bảng tương tự CSDL truyền thống, kỹ sư có doanh nghiệp nhanh chóng nắm bắt, quản lý, sử dụng, mà cần nguồn lực thời gian đào tạo công nghệ - Cấu trúc liệu tương tự, chuyển từ hệ thống CSDL Quản Trị (hiện dùng cho quản trị vận hành doanh nghiệp) sang CSDL phân tích mà khơng cần chuyển đổi định dạng - Câu truy vấn MySQL chuyển (port) sang MapD với thay đổi - Giao diện lập trình thân thiện ODBC JDBC cho phép đội ngũ kỹ thuật phát triển chức Trang 27 VI MÔ HÌNH ỨNG DỤNG THỰC TẾ Vị trí GPU Database MAPD hạ tầng CNTT Hệ CSDL dựa GPU MapD mẻ thời điểm 20172018, tập trung cho việc tính tốn nhanh nhiều khiếm khuyết; nên tương lai gần chưa thể thay cho hệ CSDL truyền thống MapD hoạt động tốt thành phần bên cạnh CSDL quản trị, chun biệt cho việc tính tốn khảo sát thống kê liệu Các kết truy vấn thể hình cho kỹ sư liệu, trả qua giao diện lập trình cho hệ thống phần mềm Hình 6.1: Mơ hình ứng dụng MapD vào hệ thống thực tế Bổ sung phần cứng hỗ trợ Các máy chủ Server máy trạm Workstation thông dụng phần lớn trang bị nhiều cổng kết nối PCI Express mở rộng Hệ thống GPU hoạt động rộng rải chuẩn PCI Express hệ hệ mà không cần cấu hình lại hệ thống Phiên MapD 3.x hỗ trợ dòng GPU hãng nVidia sản xuất, dựa nhân CUDA Khuyến cáo dùng dòng Maxwel trở lên (Pascal Volta) Hệ thống hỗ trợ tốt hệ hành Linux Centos Ubuntu 16 Các trình điều khiển Driver hỗ trợ cho GPU gần Hệ thống dùng kết nối TCP HTTP/HTTPS port 9091 đến 9093, tương thích hồn tồn với hệ thống mạng có doanh nghiệp Trang 28 Chuyển tải liệu từ hệ thống truyền thống sang MapD Dữ liệu cần chuyển tải từ hệ thống sang hệ thống phân tích, nhằm tách biệt quyền truy xuất để việc tính tốn nặng nề khơng ảnh hưởng đến hoạt động hệ thống Các phần mơ tả khuyến cáo sau dùng MySQL làm ví dụ giải thích cho việc chuyển liệu Các Phương pháp thơng dụng chuyển tải liệu • Đẩy liệu từ CSDL truyền thống qua file Phương pháp thông dụng kết xuất liệu từ hệ thống vận hành file, chuyển (upload) file vào hệ thống phân tích Thích hợp cho việc chuyển liệu trường hợp hệ thống nằm sau tường lửa có ràng buộc mở cổng kết nối (incoming connection) Các file kết xuất sau nạp vào MapD đoạn script, kích hoạt phát file theo APP MySQL Data Production cluster CSV CSV CSV MapD Analysis cluster • Kéo liệu qua kết nối MySQL connector Trường hợp mở kết nối an toàn thẳng vào hệ thống vận hành, MapD hỗ trợ thư viện kéo liệu từ MySQL trình điều khiển (driver) MySQL Connector mơi trường Java Các kỹ sư hệ thống viết query rút trích liệu từ MySQL, kết trả từ query chuyển thẳng qua stream vào MapD Query APP MySQL Data Production cluster MySQL Connector Analysis cluster • Dùng chương trình riêng Trang 29 MapD Một số trường hợp phức tạp cần chuyển đổi định dạng tính tốn trung gian, kỹ sư hệ thống chọn lựa viết chương trình riêng kết nối đến hệ thống vận hành qua kết nối MySQL thông thường, đẩy liệu đến MapD thông qua kết nối JDBC APP MySQL Query Data Data Transfer program Production cluster JDBC MapD Analysis cluster Khảo sát trực quan dùng công cụ sẵn có MapD Immerse Tầng bên phần mã nguồn mở MapD Core công cụ khảo sát liệu trực quan MapD Immerse Được cung cấp phiên miễn phí cho cộng đồng thương mại (khơng mở mã nguồn) Bộ công cụ giúp kỹ sư liệu nhanh chóng trình bày truy vấn đơn giản dạng nhiều dạng biểu đồ khác nhau, giúp cho việc phát đặc điểm liệu quan trọng Hình 6.2: Màn hình MapD Immerse Một điểm quan trọng MapD Core MapD Immerse khả tận dụng sức mạnh đồ họa GPU để render số lượng lớn điểm liệu (hàng Trang 30 triệu điểm) để hình thành layer biểu đồ bảng đồ Quá trình ưu điểm vượt trội so với việc phải render khối lượng liệu CPU Kết nối cho việc xây dựng ứng dụng Phần mã nguồn mở phiên miễn phí hỗ trợ hệ thống ứng dụng nhiều lựa chọn kết nối: • MapD QL : cơng cụ dịng lệnh (commandline) hỗ trợ đầy đủ chế nhập lệnh trực tiếp tay, piping redirecting chuyển lệnh kết thơng suốt tiến trình linux • JDBC: Đi kèm trình điều khiển MapD JDBC JAVA cho phép hệ thống ứng dụng kết nối đến hệ thống CSDL tiêu chuẩn Các thao tác nhập liệu truy vấn hỗ trợ tốt • Apache Thrift: Cơ chế RPC (Remote Procedure Calls) hỗ trợ ngơn ngữ lập trình thơng dụng: C++, Java, PHP, Python Ruby Trang 31 VII KẾT LUẬN • Với hệ thống khảo sát xây dựng đề tài, hệ thống GPU tính tốn nhanh 10 đến 20 lần, với chi phí đầu tư nâng cấp tương tự giải pháp CPU • Với kích thước sức mạnh xử lý tương ứng khảo sát, hệ thống GPU phát huy tác dụng khối lượng liệu tính tốn vượt q 300 triệu đối tượng (records) có nhiều truy vấn song song lúc Hệ thống CPU cho kết chấp nhận với kích thước liệu nhỏ • Giải pháp MapD dựa GPU tiết kiệm chi phí đầu tư phần cứng chi phí vận hành cho doanh nghiệp, lượng liệu lên đến vài trăm triệu đến vài tỷ record, nhu cầu tính tốn nhiều khả vài máy tính đơn dùng CPU Hơn giải pháp có kiến trúc đơn giản, giao diện lập trình ngơn ngữ gần gũi với kỹ sư phần mềm nước, giúp rút ngắn khoản cách ứng dụng vào thực tiễn • Các giới hạn phần cứng có cho phép số lượng liệu lên đến tỷ record Nâng cấp thêm phần cứng cho phép khảo sát số lượng lớn hơn, phép tính tốn phức tạp Tương lai gần MapD nâng cấp khả khác viết function procedure có khả chạy song song, cho phép kỹ sư liệu viết ứng dụng phức tạp chạy kiến trúc GPU, đề tài quan trọng cho ứng dụng tương lai Trang 32 VIII TÀI LIỆU THAM KHẢO [1] Ahmed Oussous ctv (2017),"Big Data technologies: A survey", Journal of King Saud University - Computer and Information Sciences [2] Amir Gandomi Murtaza Haider (2015), "Beyond the hype: Big data concepts, methods, and analytics", International Journal of Information Management [3] Lê Hoài Bắc ctv (2015), "Lập Trình Song Song Trên GPU", Nhà Xuất Bản Khoa Học & Kỹ Thuật [4] Bibri and Krogstie (2017), "The core enabling technologies of big data analytics and context aware computing for smart sustainable cities: a review and synthesis", Journal of Big Data 2017, 4:38 [5] Chun-Wei Tsai ctv (2015), “Big data analytics: a survey”, Journal of Big Data2015, 2:21 [6] Mark Litwintschik (2016), “Summary of the 1.1 Billion Taxi Rides Benchmarks”, http://tech.marksblogg.com/benchmarks.html [7] Minquan Fang, Jianbin Fang, Weimin Zhang, Haifang Zhou, Jianxing Liao, Yuangang Wang (2018), "Benchmarking the GPU memory at the warp level", Parallel Computing 71, 23-41 [8] Mapd (2017), “MapD Technical Whitepaper”, http://www.mapd.com [9] Singh and Reddy (2014), “A survey on platforms for big data analytics”, Journal of Big Data 2014, 1:8 [10] Wikipedia (2017), “CUDA https://en.wikipedia.org/wiki/CUDA Programming Platform”, [11] NYC Taxi and Limousine Commission (2010-2018), "TLC Trip Record Data", http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml Trang 33 IX PHỤ LỤC Các đường dẫn đến nội dung quan trọng o Vietnamen’s Blog: Tổng quan CPU GPU lập trình CUDA https://vietnamen.wordpress.com/2009/10/01/from-gpu-to-gpgpu/ o Ngơn ngữ truy vấn MapD DDL MapD DML https://www.mapd.com/docs/latest/mapd-core-guide/data-definition/ https://www.mapd.com/docs/latest/mapd-core-guide/dml/ o Hướng dẫn cài đặt MapD https://www.mapd.com/docs/latest/getting-started/tutorials/#installation o Các phiên MapD https://www.mapd.com/docs/latest/release-notes/ o Cộng đồng MapD https://community.mapd.com/ o Nguồn liệu Taxi http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml o Nguồn liệu chuyến bay https://www.transtats.bts.gov/DL_SelectFields.asp Trang 34 Tham khảo kết khảo sát công cụ truy vấn Được thực độc lập Mark Litwintschik, bảng sau thời gian benchmark tính mili-giây cho số câu truy vấn (càng nhỏ tốt) sử dụng sở hạ tầng đám mây, dùng card chuyên dụng TitanXs Tesla K80 Query Query Query Query Setup 0.021 0.053 0.165 0.51 MapD & Nvidia Pascal Titan Xs 0.027 0.083 0.163 0.891 MapD & Nvidia Tesla K80s 0.028 0.2 0.237 0.578 MapD & 4-node g2.8xlarge cluster 0.034 0.061 0.178 0.498 MapD & 2-node p2.8xlarge cluster 0.036 0.131 0.439 0.964 MapD & Nvidia Titan Xs 0.051 0.146 0.047 0.794 kdb+/q & Intel Xeon Phi 7210 CPUs 1.56 1.25 2.25 2.97 Redshift, 6-node ds2.8xlarge cluster 2 BigQuery 4 10 21 Presto, 50-node n1-standard-4 cluster 4.88 11 12 15 Presto 0.188 & 21-node m3.xlarge cluster 6.41 6.19 6.09 6.63 Amazon Athena 8.1 18.18 n/a n/a Elasticsearch (heavily tuned) 10.19 8.134 19.624 85.942 Spark 2.1, 11 x m3.xlarge cluster w/ HDFS 22 25 27 65 Spark 2.3.0 & single i3.8xlarge w/ HDFS 28 31 33 80 Spark 2.2.1 & 21-node m3.xlarge cluster 34.48 63.3 n/a n/a Elasticsearch (lightly tuned) 152 175 235 368 PostgreSQL 9.5 & cstore_fdw 264 313 620 961 Spark 1.6, 5-node m3.xlarge cluster w/ S3 1103 1198 2278 6446 Spark 2.2, 3-node Raspberry Pi cluster Trang 35 Giải thích thuật ngữ GPU (graphics processing unit): Bộ xử lý đồ họa, gọi xử lý hình ảnh (VPU, visual processing unit), mạch điện tử tích hợp chuyên dụng thiết kế để thao tác truy cập nhớ đồ họa cách nhanh chóng, để tăng tốc việc tạo hình ảnh đệm khung hình dành cho ngõ tới hình hiển thị (Wiki) GP-GPU (General-purpose computing on graphics processing units): Sử dụng sức mạnh xử lý song song GPU cho ứng dụng tính tốn đa dụng, giúp tăng tốc xử lý vốn thực CPU (Wiki) Các thiết bị GP-GPU xử lý đồ họa hỗ trợ khả lập trình tính tốn đa dụng GPU Database: Hệ thống sở liệu sử dụng engine tính tốn GP-GPU thực phép tính CSDL CUDA (Compute Unified Device Architecture - Kiến trúc thiết bị tính tốn hợp nhất) kiến trúc tính tốn song song NVIDIA phát triển, engine tính tốn GPU NVIDIA CUDA cho phép nhà phát triển truy nhập vào tập lệnh ảo nhớ phần tử tính tốn song song đơn vị xử lý đồ họa CUDA GPU, cho phép thực tính tốn CPU Tuy nhiên GPU có kiến trúc song song tập trung thực thi nhiều luồng liệu lúc thực thi nhanh luồng liệu (Wiki) PCI Express (viết tắt PCIe) dạng giao diện bus hệ thống (dành cho card mở rộng) máy tính PCIe định dạng kết hợp truyền liệu song song, sử dụng nhiều kết nối song song kết nối truyền luồng liệu độc lập với đường khác PCIe phiên 2.0 cho phép truyền liệu tốc độ tối đa 5GT/s, khoảng 500MB/s với bus x1 8GB/s với bus x16 PCIe phiên 3.0 (thông dụng, 2018) tăng tốc đến 8GT/s khoảng 985MB/s với bus x1 15.75 GB/s với bus x16 Tương lai gần, tốc độ chuẩn PCIe phiên 4.0 nâng gấp đôi (16GT/s) chuẩn 5.0 nâng gấp (32GT/s) so với PCIe (Wiki) Trang 36 Dữ liệu lớn: Đề tài tập trung vào đặc trưng liệu dạng bảng có số lượng phần tử lớn lên đến hàng tỷ record dung lượng lưu trữ không lớn (vài chục đến vài trăm gigabyte), mà thao tác tập liệu địi hỏi khối lượng tính tốn lớn nhu cầu trả kết nhanh Column-store (columnar, column oriented) cách tổ chức lưu trữ liệu (dạng bảng) column-oriented DBMS, lưu đọc liệu theo cột (đối sánh với lưu theo dịng) Thích hợp cho ứng dụng phân tích liệu, thường tính tốn số cột định bảng mà không cần phải đọc khối lượng lớn tất dòng bảng mơ hình lưu trữ theo dịng (Wiki) In-Memory Computing kỹ thuật đưa tất liệu lên nhớ (RAM) để tính tốn, hạn chế thời gian trễ việc chuyển nạp liệu thành phần hệ thống máy tính, để đạt hiệu suất tính tốn cao (Wiki) Trang 37 PHẦN LÝ LỊCH TRÍCH NGANG Họ Và Tên: Phạm Thế Anh Ngày, Tháng, Năm Sinh: 01 / 01 / 1984 Nơi Sinh: Cà Mau Địa Liên Lạc: 163/5 Ấp Chiến Lược, Bình Trị Đơng, Bình Tân, Tp HCM Q TRÌNH ĐÀO TẠO • 2002 - 2008 Trường Đại Học Khoa Học Tự Nhiên, Tp HCM (Đại học) • 2014 - 2018 Trường Đại Học Bách Khoa, Tp HCM (cao học) Q TRÌNH CƠNG TÁC • 2004 - 2009 Kỹ sư phần mềm, Trưởng phịng Ứng dụng di động; Cơng ty Simple Solution Việt Nam • 2009 - 2011 Quản lý dự án; Kiến trúc sư kỹ thuật; Công ty Tin Học Mặt Trời Việt • 2011 - 2014 Giám đốc, Sáng lập viên; Cơng ty Tin Học Cầu nối • 2014 - 2016 Giám đốc phát triển kinh doanh, Tổng giám Đốc; Cơng ty Simple Solutions Việt Nam • 2017 đến Kiến trúc sư kỹ thuật, Quản lý điều hành; Đại diện công ty FuelCloud Việt Nam Trang 38 ... sinh: Ngành: 01/01/1984 Khoa Học Máy Tính I TÊN ĐỀ TÀI: MSHV: 7140217 Nơi sinh: Cà Mau Mã số : 60.48.01.01 Ứng Dụng GPU Database Trong Xử Lý Dữ Liệu Lớn Applying GPU Database in Processing. .. Cột Data Load thể thời gian nạp liệu từ lưu trữ SSD vào CPU Ram GPU Ram Dataset Query 70M Q1 Q2 Q3 150M Q1 Q2 Q3 300M Q1 Q2 Q3 Gpu/ Cpu Data Load (ms) gpu cpu gpu cpu gpu cpu gpu cpu 16030 gpu. .. 3048 335 5418.4 Trang 21 600M Q1 Q2 Q3 800M Q1 Q2 Q3 1B Q1 Q2 Q3 gpu cpu gpu cpu gpu cpu gpu cpu gpu cpu gpu cpu gpu cpu gpu cpu gpu cpu 29151 9019 45545 37543 18517 4161 15453 22561 36254 382

Ngày đăng: 21/04/2021, 11:01