Hadoop Distributed File System: lưu trữ dữ liệu phân cụm có khả năng tự sửa lỗi với băng thông cao. MapReduce: quản lý tài nguyên phân tán có khả năng chịu lỗi và lập lịch xử lý song song lượng dữ liệu lớn.
Game mạng xã hội – Làm để xem KPI Le Kim Dung DeNA Hanoi March 15, 2013 Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Nội dung Hadoop Hadoop gì? Hadoop hoạt động nào? Pig Kiến trúc phân tích cho game mạng xã hội References Q&A Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop gì? Hadoop framework mã nguồn mở Java hỗ trợ xử lý liệu lớn mơi trường tính tốn phân tán Efficient distribution to multiple machines Distributed Processing Distributed Data Storage Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop hoạt động nào? Thành phần Hadoop: HDFS MapReduce Hadoop Distributed File System: lưu trữ liệu phân cụm có khả tự sửa lỗi với băng thông cao MapReduce: quản lý tài nguyên phân tán có khả chịu lỗi lập lịch xử lý song song lượng liệu lớn Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop hoạt động nào? Hadoop Distributed File System File liệu chia thành blocks sau nhân rộng cụm (Hadoop cluster) Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop hoạt động nào? Hadoop Distributed File System Tối ưu: • Throughput • Put/Get/Delete • Appends Nhân rộng block: • Durability • Availability • Throughput Các block nhân rộng phân tán máy chủ tủ máy chủ (rack) Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop hoạt động nào? MapReduce Công việc chia nhỏ thành nhiệm vụ, sau nhiệm vụ lập lịch để gần với liệu Huge calculation task Map Reduced Result Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop hoạt động nào? MapReduce Các mức phân phối nhiệm vụ: • Cùng máy chủ với liệu (local disk) • Cùng tủ máy chủ với liệu (rack/leaf switch) • Nơi có nhớ trống (cross rack) Tối ưu: • Xử lý theo khối • Khôi phục lỗi Hệ thống phát nhiệm vụ bị trễ thực song song nhiệm vụ khối liệu Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Pig Pig ngôn ngữ script gần giống với SQL cho phép thực thi cách dễ dàng tiến trình Map Reduce phức tạp A = LOAD ‘myfile' AS (id: int, name: chararray, date: chararray, num: int); B = GROUP A BY date PARALLEL 20; C = FOREACH B GENERATE group AS date, SUM(num) AS total; D = ORDER C BY date PARALLEL 1; STORE D INTO ‘output’; Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Kiến trúc phân tích game mạng xã hội Combo Combo Real time Log Log Combo Combo Log Log Combo Combo Log Log Games Big Data Hourly Ad-hoc Pig Data Data Processing Processing Hourly Report Mail Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Tổng kết Hadoop framework hiệu cho ứng dụng phân tán Hadoop gồm thành phần HDFS MapReduce Pig ngôn ngữ luồng liệu sử dụng việc phân tích lượng liệu lớn Sử dụng Pig hệ thống Hadoop để phân tích liệu người chơi, tạo báo cáo KPI hàng ngày, hàng Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Tài liệu tham khảo Juji Ukai - Basics of SG Analytics How to Make $10M/month Games - January 8, 2013 Juji Ukai – Hadoop Trainning – May 24, 2011 Amr Awadallah - Introducing Apache Hadoop: The Modern Data Operating System - November 16, 2011 http://hadoop.apache.org/ http://strata.oreilly.com/2012/02/what-is-apachehadoop.html http://pig.apache.org/docs/r0.7.0/index.html Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Thank you! Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved ...Nội dung Hadoop Hadoop gì? Hadoop hoạt động nào? Pig Kiến trúc phân tích cho game mạng xã hội References Q&A Copyright (C) 2013 DeNA Co.,Ltd All Rights Reserved Hadoop... DeNA Co.,Ltd All Rights Reserved Kiến trúc phân tích game mạng xã hội Combo Combo Real time Log Log Combo Combo Log Log Combo Combo Log Log Games Big Data Hourly Ad-hoc Pig Data Data Processing... liệu tham khảo Juji Ukai - Basics of SG Analytics How to Make $10M/month Games - January 8, 2013 Juji Ukai – Hadoop Trainning – May 24, 2011 Amr Awadallah - Introducing Apache Hadoop: The Modern