Các nội dung trình bày Sự cần thiết của MPP và Large Scale Database Phương hướng thực thi MPP Một số hệ thống cơ sở dữ liệu thực thi MPP hiện nay... Sự cần thiết của MPP và Large
Trang 1Massive Parallel Processing for
Large Scale Database
Giảng viên : Nguyễn Hà Nam
Nhóm 12 : Lê Hồng Hà
Đào Thị Thu Hiền
Trang 2Các nội dung trình bày
Sự cần thiết của MPP và Large Scale
Database
Phương hướng thực thi MPP
Một số hệ thống cơ sở dữ liệu thực thi
MPP hiện nay
Trang 3Sự cần thiết của MPP và Large Scale Database
Có rất nhiều những dịch vụ trên thế giới cho phép người dùng có thể truy cập bất
cứ nơi đâu, bất cứ lúc nào
Công nghệ Web Service phát triển nhanh chóng
DBMS sử dụng đơn CPU không thể xử lý hiệu quả lượng dữ liệu cỡ terabyte ở tốc
độ hàng chục nghìn TPS
Dễ dàng mở rộng lên tới hàng nghìn node
Trang 4Phương hướng thực thi MPP
Kiến trúc Share-nothing
Parallel DBMS
Mô hình lập trình MapReduce
Trang 5MapReduce
Là một mô hình lập trình được giới thiệu bởi Google
Dùng để xử lý, phân tích song song lượng
dữ liệu lớn, phân tán trên hàng nghìn máy khác nhau
Cấu trúc gồm có hàm Map và Reduce
Trang 6Ví dụ MapReduce
Trang 7Một số hệ thống cơ sở dữ liệu thực thi MPP
HadoopDB
Aster Data Database
Trang 8HadoopDB
Dựa trên SQL và hệ thống Hadoop (MapReduce)
Sử dụng RDBMS
Sử dụng Hive để thực thi pseudo-SQL trên HDFS (Hadoop Distributed File System)
Có khả năng mở rộng tốt giống như Hadoop trong khi vẫn đảm bảo được hiệu năng tốt trong phân tích dữ liệu
Trang 9Kiến trúc của HadoopDB
Trang 10Truy vấn dữ liệu trên HadoopDB
Trang 11Aster Data Database
Trang 12Aster Data Database
Aster Data Database hỗ trợ SQL-MapReduce và SQL chuẩn
Các hàm MapReduce có thể tích hợp vào trong SQL
SELECT
FROM functionname(
ON table-or-query
[ PARTITION BY expr ]
[ ORDER BY expr ]
[ clausename ( arg ) ]
)
Trang 13Aster Data Database
Trang 14SQL-MapReduce Function
Trang 15SQL-MapReduce Function
Trang 16SQL-MapReduce Function
SELECT word, SUM (occurrence) as frequency
FROM WordCount (
ON (select line from book_table) )
GROUP BY word
Trang 17Tham khảo
http://www.asterdata.com/
http://db.cs.yale.edu/hadoopdb/hadoopd b.html
http://www.cubrid.org/blog/dev- platform/database-technology-for-large-scale-data/
http://hadoop.apache.org/
Trang 18Xin chân thành cảm ơn!