Tìm hiểu về Big data

27 175 1
Tìm hiểu về Big data

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dữ liệu lớn là một lĩnh vực xử lý các cách phân tích, trích xuất thông tin một cách có hệ thống hoặc xử lý các tập dữ liệu quá lớn hoặc phức tạp mà phần mềm ứng dụng xử lý dữ liệu truyền thống không thể xử lý được. Dữ liệu có nhiều trường hợp (hàng) cung cấp sức mạnh thống kê lớn hơn, trong khi dữ liệu có độ phức tạp cao hơn (nhiều thuộc tính hoặc cột) có thể dẫn đến tỷ lệ phát hiện sai cao hơn

BỘ GIAO THÔNG VẬN TẢI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ GIAO THƠNG VẬN TẢI ĐỀ TÀI TÌM HIỂU VỀ BIG DATA Giáo viên hướng dẫn: Nguyễn Đình Nga Sinh viên thực hiện: nhóm 1( Vũ Thành Quyền, Lê Văn An, Nguyễn Quang Sáng, Nguyễn Thành Công, Tô Văn Cường, Tạ Đức Chung) Hà Nội, ngày 30 tháng năm 2020 Lời mở đầu Trước đây, biết đến liệu có cấu trúc (structure data), ngày nay, với kết hợp liệu internet, xuất dạng khác liệu - Big data (dịch “dữ liệu lớn”) Dữ liệu từ nguồn như: hồ sơ hành chính,giao dịch điện tử, dịng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin chúng ta, nói cách khác chúng liệu sản sinh qua trình chia sẻ thơng tin trực tuyến liên tục người sử dụng Để cung cấp nhìn tổng quan, chúng tơi xin giới thiệu tóm tắt nét liệu lớn hội thách thức mà liệu lớn mang lại Mục lục Lời mở đầu Mục lục Chương I: Giới Thiệu Big Data 1.1 Khái niệm liệu lớn .4 1.2 Nguồn hình thành liệu phương pháp khai thác quản lý liệu lớn .4 1.4 Sự khác biệt liệu lớn với liệu truyền thống Chương II: Các Thành Phần Của Big Data 2.1 Quản lí liệu 2.2 Phân tích liệu 10 2.3 sử dụng liệu .10 Chương III: Tổ chức liệu BigData 11 3.1 Hadoop 11 3.2 Các Thành Phần Hadoop .12 3.3 Hadoop hoạt động ? 12 3.4 Hadoop Distributed File System (HDFS) 14 3.4.1 HDFS ? 14 3.4.2 Kiến trúc HDFS : 14 4.3.3 Cơ chế Hoạt Động HDFS 15 Chương IV: Các lĩnh vực ứng dụng Big Data Việt Nam .18 4.1 Phân tích mục tiêu khách hàng 18 4.2 Hiểu tối ưu hóa sản phẩm, quy trình kinh doanh 18 4.3 Chăm sóc sức khỏe cộng đồng .19 4.4 Nâng cao hiệu suất thể thao 20 4.5 Cải thiện an ninh thực thi pháp luật 20 4.6 Xây dựng thành phố thông minh 21 4.7 Hoạt động tài - ngân hàng 21 Chương V: Kiến thức tảng cho bạn sinh viên 22 5.1 Tại nên theo học ngành Big Data ? .22 5.2 Những kỹ bắt buộc cần có người làm ngành Big Data ? 23 Lời cảm ơn 26 Chương I: Giới Thiệu Big Data 1.1 Khái niệm liệu lớn - Theo wikipedia: Big data thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu - Theo Gartner: Dữ liệu lớn nguồn thơng tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình 1.2 Nguồn hình thành liệu phương pháp khai thác quản lý liệu lớn Qua thống kê tổng hợp, nguồn liệu lớn hình thành chủ yếu từ nguồn: (1) Dữ liệu hành (phát sinh từ chương trình tổ chức, phủ hay phi phủ) Ví dụ, hồ sơ y tế điện tử bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng ; (2) Dữ liệu từ hoạt động thương mại (phát sinh từ giao dịch hai thực thể) Ví dụ, giao dịch thẻ tín dụng, giao dịch mạng, bao gồm từ thiết bị di động; (3) Dữ liệu từ thiết bị cảm biến thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu; (4) Dữ liệu từ thiết bị theo dõi, ví dụ theo dõi liệu từ điện thoại di động, GPS; (5) Dữ liệu từ hành vi, ví dụ tìm kiếm trực tuyến (một sản phẩm, dịch vụ hay thông tin khác), đọc trang mạng trực tuyến ; (6) Dữ liệu từ thông tin ý kiến, quan điểm cá nhân, tổ chức, phương tiện thông tin xã hội Phương pháp khai thác quản lý liệu lớn thiết kế phù hợp dựa theo nguồn hình thành liệu lớn Mỗi nguồn liệu lớn khác có phương pháp khai thác quản lý liệu lớn khác Tuy nhiên, phần lớn tổ chức giới dùng Hadoop ecosystem giải pháp tối ưu để khai thác quản lý liệu lớn 1.3 Đặc trưng 5V liệu lớn Dữ liệu lớn có đặc trưng sau (mơ hình 5V): (1) Khối lượng liệu (Volume) Đây đặc điểm tiêu biểu liệu lớn, khối lượng liệu lớn Kích cỡ Big Data ngày tăng lên, tính đến năm 2012 nằm khoảng vài chục terabyte nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu Dữ liệu truyền thống lưu trữ thiết bị đĩa mềm, đĩa cứng Nhưng với liệu lớn sử dụng công nghệ “đám mây” đáp ứng khả lưu trữ liệu lớn (2) Tốc độ (Velocity) Tốc độ hiểu theo khía cạnh: (a) Khối lượng liệu gia tăng nhanh (mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm web bán hàng Amazon); (b) Xử lý liệu nhanh mức thời gian thực (real-time), có nghĩa liệu xử lý tức thời sau chúng phát sinh (tính đến mili giây) Các ứng dụng phổ biến lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe phần lớn liệu lớn xử lý real-time Công nghệ xử lý liệu lớn ngày cho phép xử lý tức trước chúng lưu trữ vào sở liệu (3) Đa dạng (Variety) Đối với liệu truyền thống hay nói đến liệu có cấu trúc, ngày 80% liệu sinh phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, hát, liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big Data cho phép liên kết phân tích nhiều dạng liệu khác Ví dụ, với bình luận nhóm người dùng Facebook với thơng tin video chia sẻ từ Youtube Twitter (4) Độ tin cậy/chính xác (Veracity) Một tính chất phức tạp Dữ liệu lớn độ tin cậy/chính xác liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) mạng xã hội (Social Network) ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho tranh xác định độ tin cậy & xác liệu ngày khó khăn Bài tốn phân tích loại bỏ liệu thiếu xác nhiễu tính chất quan trọng BigData (5) Giá trị (Value) Giá trị đặc điểm quan trọng liệu lớn, bắt đầu triển khai xây dựng liệu lớn việc cần phải làm xác định giá trị thông tin mang lại nào, có định có nên triển khai liệu lớn hay khơng Nếu có liệu lớn mà nhận 1% lợi ích từ nó, khơng nên đầu tư phát triển liệu lớn Kết dự báo xác thể rõ nét giá trị liệu lớn mang lại Ví dụ, từ khối liệu phát sinh trình khám, chữa bệnh giúp dự báo sức khỏe xác hơn, giảm chi phí điều trị chi phí liên quan đến y tế 1.4 Sự khác biệt liệu lớn với liệu truyền thống Dữ liệu lớn khác với liệu truyền thống (ví dụ, kho liệu - Data Warehouse) 4điểm bản: Dữ liệu đa dạng hơn; lưu trữ liệu lớn hơn; truy vấn nhanh hơn; độ xác cao (1) Dữ liệu đa dạng hơn: Khi khai thác liệu truyền thống (Dữ liệu có cấu trúc), thường phải trả lời câu hỏi: Dữ liệu lấy kiểu gì? định dạng liệu nào? Đối với liệu lớn, trả lời câu hỏi Hay nói khác, khai thác, phân tích liệu lớn khơng cần quan tâm đến kiểu liệu định dạng chúng; điều quan tâm giá trị mà liệu mang lại có đáp ứng cho cơng việc tương lai hay không (2) Lưu trữ liệu lớn hơn: Lưu trữ liệu truyền thống vô phức tạp đặt câu hỏi lưu nào? dung lượng kho lưu trữ đủ? gắn kèm với câu hỏi chi phí đầu tư tương ứng Công nghệ lưu trữ liệu lớn phần giải vấn đề nhờ công nghệ lưu trữ đám mây, phân phối lưu trữ liệu phân tán kết hợp liệu phân tán lại với cách xác xử lý nhanh thời gian thực (3) Truy vấn liệu nhanh hơn: Dữ liệu lớn cập nhật liên tục, kho liệu truyền thống cập nhật tình trạng khơng theo dõi thường xuyên gây tình trạng lỗi cấu trúc truy vấn dẫn đến khơng tìm kiếm thơng tin đáp ứng theo yêu cầu (4) Độ xác cao hơn: Dữ liệu lớn đưa vào sử dụng thường kiểm định lại liệu với điều kiện chặt chẽ, số lượng thông tin kiểm tra thông thường lớn, đảm bảo nguồn lấy liệu khơng có tác động người vào thay đổi số liệu thu thập Chương II: Các Thành Phần Của Big Data Thành phần của Bigdata gồm thành phần: Quản lí liệu: sở hạ tầng lưu trữ liệu, nguồn để thao tác Phân tích liệu: cơng nghệ cơng cụ để phân tích liệu thu thập hiểu biết sâu sắc từ Sử dụng liệu: đưa kiện lớn phân tích để phục vụ doanh thông minh ứng dụng người 2.1 Quản lí liệu A Hệ liệu có cấu trúc Hệ thống quản lý sở liệu quan hệ(RDBMS): để lưu trữ thao tác liệu có cấu trúc Hệ thống MPP: tập hợp liệu đồ sộ ngày lớn thêm tăng cường liệu tăng trưởng Kho liệu: tập hợp lưu trữ liệu cho báo cáo sau Hạn chế - Khó mở rộng, hiệu suất chậm lại - Biểu diễn liệu B Hệ liệu khơng có cấu trúc: phù hợp cho việc lưu trữ liệu có cấu trúc phức tạp dễ dàng mở rộng C Dữ liệu Dữ liệu có cấu trúc khơng có cấu trúc ◦ Lấy từ nhiều nguồn với kích cỡ khác ◦ Dữ liệu thường lớn, yêu cầu tốc độ xử lý cao => Yêu cầu tổ chức liệu để đáp ứng: Apache Hadoop 2.2 Phân tích liệu Là nơi mà cơng ty bắt đầu trích xuất giá trị liệu lớn Liên quan tới việc phát triển ứng dụng sử dụng ứng dụng để đạt nhìn sâu sắc vào liệu lớn Xây dựng tool phân tích liệu 2.3 sử dụng liệu Là hoạt đơng liệu phân tích Giai đoạn 1: Một user hay ứng dụng submit job lên Hadoop (hadoop job client) với yêu cầu xử lý thông tin bản: Truyền liệu lên server(input) để bắt đầu phân tán liệu đưa kết (output) Các liệu chạy thơng qua hàm map reduce Map: quét qua toàn liệu phân tán chúng thành liệu Reduce: thu thập liệu lại xếp lại chúng Các thiết lập cụ thể liên quan đến job thông qua thông số truyền vào Giai đoạn 2: Hadoop job client submit job (file jar, file thực thi) bắt đầu lập lịch làm việc(JobTracker) đưa job vào hàng đợi Sau tiếp nhận yêu cầu từ JobTracker, server cha(master) phân chia công việc cho server con(slave) Các server thực job giao trả kết cho server cha Giai đoạn 3: TaskTrackers dùng để kiểm tra đảm bảo MapReduce hoạt động bình thường kiểm tra kết nhận (quá trình output) Khi “chạy Hadoop” có nghĩa chạy tập trình - daemon, chương trình thường trú, máy chủ khác mạng bạn Những trình có vai trị cụ thể, số tồn máy chủ, số tồn nhiều máy chủ *Ưu điểm Hadoop : Hadoop framework cho phép người dùng nhanh chóng viết kiểm tra hệ thống phân tán Đây cách hiệu cho phép phân phối liệu công việc xuyên suốt máy trạm nhờ vào chế xử lý song song lõi CPU Hadoop không dựa vào chế chịu lỗi phần cứng fault-tolerance and high availability (FTHA), thay thân Hadoop có thư viện thiết kế để phát xử lý lỗi lớp ứng dụng Hadoop phát triển lên nhiều server với cấu trúc master-slave để đảm bảo thực công việc linh hoạt không bị ngắt quãng chia nhỏ công việc cho server slave điều khiển server master Hadoop tương thích tảng Window, Linux, MacOs tạo từ Java 3.4 Hadoop Distributed File System (HDFS) 3.4.1 HDFS ? HDFS viết tắt Hadoop Distributed File System hệ thống lưu trữ dùng Hadoop Nó cung cấp truy cập hiệu suất cao đến liệu cụm Hadoop Nó thường triển khai phần cứng chi phí thấp Các máy chủ chi phí thấp dễ xảy lỗi phần cứng Vì lý mà HDFS xây dựng để có khả chịu lỗi cao Tốc độ truyền liệu nodes HDFS cao, dẫn đến giảm thiểu nguy lỗi HDFS tạo mảnh nhỏ liệu lớn phân tán nodes khác Nó chép miếng liệu nhỏ nhiều lần nhiều nodes khác Do node có liệu lỗi, hệ thống tự động dùng liệu từ node khác tiếp tục xử lý Đây tính quan trọng HDFS 3.4.2 Kiến trúc HDFS : Kiến trúc HDFS master / slave Một HDFS cluster gồm NameNode NameNode master server quản lý hệ thống tập tin điều chỉnh truy cập đến tập tin khác Bổ sung cho NameNode có nhiều DataNodes Ln có DataNode cho máy chủ liệu Trong HDFS, tập tin lớn chia thành nhiều khối khối lưu tập DataNodes Tác vụ NameNode mở, đóng đổi tên tập tin, thư mục điều chỉnh truy cập đến hệ thống tập tin, tác vụ DataNode đọc ghi vào hệ thống tập tin DataNode làm nhiệm vụ tạo, xóa, nhân rộng liệu dựa dẫn từ NameNode Trong thực tế, NameNode DataNode phần mềm thiết kế để chạy máy chủ, viết Java Namenode chịu trách nhiệm điều phối thao tác truy cập (đọc/ghi liệu) client lên hệ thống HDFS Và tất nhiên, DataNode nơi thật lưu trữ block file HDFS, nên chúng nơi trực tiếp đáp ứng thao tác truy cập Chẳng hạn client hệ thống muốn đọc file hệ thống HDFS, client thực request (thông qua RPC) đến Namenode để lấy metadata file cần đọc Từ metadata biết danh sách block file vị trí DataNode chứa block Client truy cập vào DataNode để thực request đọc block Namenode thực nhiệm vụ thông qua daemon tên namenode chạy port 8021 Mỗi DataNode server chạy daemon datanode port 8022 Định kỳ, DataNode báo cáo cho NameNode biết danh sách tất block mà lưu trữ, NameNode dựa vào thông tin để cập nhật lại metadata Cứ sau lần cập nhật lại vậy, metadata NameNode đạt tình trạng thống với liệu DataNode Toàn trạng thái metadata tình trạng thống gọi checkpoint Metadata trạng thái checkpoint dùng để nhân metadata dùng cho mục đích phục hồi lại NameNode NameNode bị lỗi 4.3.3 Cơ chế Hoạt Động HDFS *Đọc file HDFS Đầu tiên, client mở file cần đọc cách gửi yêu cầu đọc file đến NameNode Sau NameNode thực số kiểm tra xem file yêu cầu đọc có tồn khơng, file cần đọc có trạng thái “khoẻ mạnh” hay không Nếu thứ ổn, NameNode gửi danh sách block (đại diện Block ID) file với địa DataNode chứa block Tiếp theo, client mở kết nối tới DataNode, thực RPC để yêu cầu nhận block cần đọc đóng kết nối với DataNode Lưu ý với block ta có nhiều DataNode lưu trữ block Client đọc block từ DataNode “gần” Client thực việc đọc block lặp lăp lại block cuối file đọc xong Quá trình client đọc liệu từ HDFS transparent với người dùng chương trình ứng dụng client, người dùng dùng tập API Hadoop để tương tác với HDFS, API che giấu trình liên lạc với NameNode kết nối DataNode để nhận liệu *Ghi file HDFS Đầu tiên, client gửi yêu cầu đến NameNode tạo file entry lên File System Namespace File tạo rỗng, tức chưa có block Sau đó, NameNode định danh sách DataNode chứa file cần gửi lại cho client Client chia file cần thành block, với block client đóng gói thành packet Lưu ý block lưu thành nhiều DataNode khác (tuỳ vào số độ nhân file) Client gửi packet cho DataNode thứ nhất, DataNode thứ sau nhận packet tiến hành lưu lại thứ block Tiếp theo DataNode thứ gửi packet cho DataNode thứ hai để lưu thứ hai block Tương tự DataNode thứ hai gửi packet cho DataNode thứ ba Cứ vậy, DataNode lưu block hình thành ống dẫn liệu data pipe Sau DataNode cuối nhận thành packet, gửi lại cho DataNode thứ hai gói xác nhận lưu thành cơng Và gói thứ hai lại gửi gói xác nhận tình trạng thành cơng hai DataNode DataNode thứ Client nhận báo cáo xác nhận từ DataNode thứ cho tình trạng thành cơng tất DataNode data pipe Nếu có DataNode bị lỗi trình ghi liệu, client tiến hành xác nhận lại DataNode lưu thành công block thực hành vi ghi lại block lên DataNode bị lỗi Sau tất block file đươc ghi lên DataNode, client thực hiên thông điệp báo cho NameNode nhằm cập nhật lại danh sách block file vừa tạo Thông tin Mapping từ Block ID sang danh sách DataNode lưu trữ NameNode tự động cập nhật định kỳ DataNode gửi báo cáo cho NameNode danh sách block mà quản lý Chương IV: Các lĩnh vực ứng dụng Big Data Việt Nam Trong phát triển công nghệ nay, kiểu xử lý phân tích liệu truyền thống khơng cịn đảm bảo khả với mong muốn người dùng Nên tất từ từ chuyển thứ sang cơng nghệ Big Data 4.1 Phân tích mục tiêu khách hàng Đây lĩnh vực lớn việc ứng dụng công nghệ Big Data, giúp quan, tổ chức hiểu rõ nhu cầu khách hàng hành vi sở thích họ Các cơng ty mở rộng liệu truyền thống họ, kết hợp với liệu truyền thơng, xã hội, nhật ký trình, đồng thời phân tích văn liệu cảm biến… để có tranh hồn chỉnh, tồn diện khách hàng Mục tiêu lớn hướng tới tạo mơ hình tiên đốn Ví dụ, nhà bán lẻ Target Hoa Kỳ dự đốn gần xác thời điểm khách hàng họ mong muốn sinh em bé, để giới thiệu, cung cấp sản phẩm phù hợp Sử dụng Big Data, công ty viễn thơng dự đốn tốt việc thay đổi mong muốn khách hàng; công ty bảo hiểm xe hiểu rõ khách hàng họ lái xe Ngay chiến dịch bầu cử phủ tối ưu hóa cách sử dụng phân tích liệu lớn Một số người tin rằng, chiến thắng cựu tổng thống Hoa Kỳ Barack Obama chiến dịch bầu cử tổng thống vào năm 2012 nhờ khả vượt trội cơng nghệ phân tích Big Data 4.2 Hiểu tối ưu hóa sản phẩm, quy trình kinh doanh Big Data ngày sử dụng nhiều việc tối ưu hóa quy trình kinh doanh Các nhà bán lẻ tối ưu hóa cổ phiếu họ dựa dự đoán tạo từ liệu truyền thơng xã hội, xu hướng tìm kiếm web; nhà bán lẻ sử dụng nhiều phân tích liệu lớn để tối ưu hóa chuỗi cung ứng, tuyến đường phân phối Nhưng Big Data ứng dụng việc đo lường văn hóa cơng ty hiệu suất làm việc nhân viên Ví dụ, Cơng ty Sociometric Solutions (Hoa Kỳ) đặt cảm biến vào huy hiệu tên nhân viên để phát động lực xã hội nơi làm việc Các cảm biến báo cáo cách nhân viên di chuyển xung quanh nơi làm việc, nói chuyện, chí cách giao tiếp cơng việc họ Mọi người gắn thẻ RFID lên điện thoại, chìa khóa kính bạn, để xác định vị trí chúng, tránh bị Nhưng tầm cao hơn, cơng nghệ mở lĩnh vực hoàn toàn “dữ liệu nhỏ”, Big Data xem xét số lượng lớn thơng tin phân tích nó, liệu nhỏ hướng tới sản phẩm riêng lẻ, ví dụ việc theo dõi thùng sữa chua lô hàng để nắm khả bán hàng đại lý phân phối 4.3 Chăm sóc sức khỏe cộng đồng Sức mạnh tính tốn cơng nghệ Big Data cho phép giải mã toàn chuỗi AND người vài phút, hỗ trợ đắc lực bác sỹ việc đưa phác đồ điều trị riêng cho bệnh nhân, phù hợp với đặc tính di truyền họ Hay xảy tất liệu cá nhân từ đồng hồ thiết bị đeo thông minh sử dụng để theo dõi sức khỏe từ xa cho hàng triệu người, giúp sớm phát bệnh họ mắc phải Ví dụ vịng tay thơng minh Jawbone giúp thu thập liệu, từ nhận biết đo đạc cách xác mức độ tiêu thụ calo hoạt động mà người đeo thực hiện, theo dõi giấc ngủ họ vào ban đêm để phân tích dấu hiệu bất thường; ResearchKit - ứng dụng chăm sóc sức khỏe Apple, biến điện thoại di động thành thiết bị nghiên cứu y sinh học, phục vụ cho nghiên cứu sức khỏe thông qua việc theo dõi số bước thực ngày, yêu cầu bạn trả lời câu hỏi cảm giác sau hóa trị, hay theo dõi bệnh Parkinson tiến triển nào… Các kỹ thuật Big Data sử dụng để theo dõi trẻ sơ sinh số trường hợp sinh non ốm yếu Bằng cách ghi lại phân tích nhịp tim, nhịp thở bé, đơn vị cung cấp thiết bị dự đốn nhiễm trùng trước 24 có triệu chứng thể chất xuất hiện, giúp đưa can thiệp sớm Nhưng ứng dụng bật Big Data lĩnh vực y tế phân tích liệu, giúp theo dõi dự đốn phát triển dịch bệnh Việc tích hợp liệu từ hồ sơ y tế, phân tích truyền thơng xã hội… cho phép theo dõi dịch cúm theo thời gian thực, đơn giản cách lắng nghe người nói Từ năm 2014, Google dự đốn dịch cúm dựa lưu lượng vị trí người tìm kiếm, việc bạn tìm kiếm “các triệu chứng cúm” khơng có nghĩa bạn bị bệnh, công nghệ Big Data làm nhiều 4.4 Nâng cao hiệu suất thể thao Hầu hết môn thể thao sử dụng công nghệ Big Data Chẳng hạn như, công cụ IBM SlamTracker dành cho giải đấu quần vợt; sử dụng phân tích video theo dõi hiệu suất người chơi bóng đá bóng chày; cơng nghệ cảm biến thiết bị thể thao bóng rổ gậy golf cho phép nhận phản hồi (qua điện thoại thông minh máy chủ đám mây), giúp cải thiện thao tác chưa Nhiều đội thể thao theo dõi vận động viên nghỉ thông qua sử dụng công nghệ Big Data để điều chỉnh chế độ dinh dưỡng, vận động giấc ngủ, phân tích trị chuyện phương tiện truyền thông xã hội để theo dõi mức độ hạnh phúc, tình cảm vận động viên Trong mơn thể thao vua, câu lạc lớn thường sử dụng thông tin, thống kê chi tiết từ công nghệ Big Data để cải thiện suất cầu thủ, giúp chuẩn bị chiến thuật đánh giá cầu thủ tiềm Chúng ta thấy kỳ World Cup năm 2014, nhà vô địch Đức thành công ứng dụng hiểu biết công nghệ Big Data vào bóng đá Nhiều người hâm mộ bất ngờ biết rằng, cầu thủ đội tuyển Đức sử dụng trang phục trang bị hệ thống MiCoach Adidas buổi luyện tập trước trình giải đấu diễn Đây dịch vụ giám sát sinh lý, thu thập truyền tải thông tin trực tiếp từ thể cầu thủ (bao gồm nhịp tim, quãng đường di chuyển, tốc độ, gia tốc lượng…), gửi iPad ban huấn luyện, phục vụ cho việc giám sát, phân tích, đánh giá điểm rơi phong độ Điều thú vị cịn giúp tìm cầu thủ thích hợp để đá đá với người khác 4.5 Cải thiện an ninh thực thi pháp luật Big Data áp dụng nhiều việc cải thiện bảo mật cho phép thực thi pháp luật Ví dụ Cơ quan An ninh quốc gia Hoa Kỳ (NSA) sử dụng phân tích liệu lớn dự đốn sớm khủng bố; số đơn vị sử dụng công nghệ Big Data để phát ngăn chặn công mạng; lực lượng cảnh sát sử dụng công cụ Big Data để bắt tội phạm dự đoán hoạt động tổ chức tội phạm; cơng ty tín dụng sử dụng Big Data để phát giao dịch gian lận Trong môi trường cạnh tranh khốc liệt nay, không tổ chức phủ mà doanh nghiệp vận dụng nhiều yếu tố để bảo mật quyền lợi thương hiệu, giảm thiểu rủi ro từ tác động bên ngồi Thơng qua phân tích liệu, Big Data giúp tổ chức doanh nghiệp xác định hoạt động khả nghi, hành vi gian lận để giải 4.6 Xây dựng thành phố thông minh Big Data sử dụng để cải thiện nhiều khía cạnh thành phố quốc gia Trong tương lai, Big Data giữ vai trò chủ đạo thành phố, hướng tới xử lý liệu phạm vi, cấp độ siêu nhỏ truyền tải thông tin tới phủ lẫn người dân khung thời gian giới hạn Nó cho phép thành phố tối ưu hóa hoạt động dựa lưu lượng truy cập thông tin giao thơng theo thời gian thực, phân tích liệu truyền thông để đánh giá vấn đề xã hội… Một số thành phố thử nghiệm mơ hình Big Data với mục đích chuyển đổi sang thành phố thông minh, nơi mà tất quy trình, sở hạ tầng giao thơng tiện ích kết nối với Thành phố Long Beach, California (Hoa Kỳ) sử dụng đồng hồ nước thông minh để phát trộm nước theo thời gian thực, giúp số chủ nhà cắt giảm tới 80% lượng nước sử dụng Điều quan trọng tiểu bang thường phải trải qua đợt hạn hán tồi tệ Los Angeles sử dụng liệu từ cảm biến 4.500 camera lắp đặt đường phố để kiểm sốt đèn giao thơng, giúp giảm tắc nghẽn giao thông lên đến 16% Startup công nghệ Veniam thử nghiệm cách để tạo điểm truy cập wifi di động toàn thành phố Porto, Bồ Đào Nha Hơn 600 xe buýt taxi thành phố trang bị máy phát wifi, tạo điểm truy cập wifi miễn phí lớn giới Đổi lại, thành phố nhận lượng lớn liệu, để bù đắp chi phí wifi; liệu cung cấp cho phận quản lý, giúp cảnh báo thùng rác đầy, hạn chế lãng phí thời gian di chuyển, tối ưu hóa làm việc, cảnh báo tắc đường, nắm bắt hoạt động tổ chức tội phạm… 4.7 Hoạt động tài - ngân hàng Sự gia tăng hoạt động giao dịch tần suất cao (High frequency trading HFT) theo thời gian thực khiến nhà quản lý lĩnh vực chứng khoán thị trường chứng khoán phải làm việc nhiều để theo kịp mở rộng liệu cấu trúc phi cấu trúc Bằng cách sử dụng công cụ kỹ thuật Big Data, công ty hoạt động lĩnh vực thị trường vốn cải thiện hoạt động giám sát giao dịch phát hành vi giao dịch bất thường hành vi phạm pháp trước chúng thực Hình thức HFT chiếm 60% tổng số giao dịch thị trường Hoa Kỳ Bên cạnh đó, đặc thù hoạt động ngân hàng tạo lượng liệu khổng lồ đến từ bên bên ngồi Trong nội bộ, hệ thống xử lý giao dịch, hệ thống quản lý, hệ thống ATM, hệ thống giám sát hạ tầng… Yếu tố liệu bên thường xác định từ tổ chức thơng tin tín dụng, ngân hàng nhà nước, quan thuế, tổng cục thống kê, bảo hiểm; mạng xã hội, giao dịch trực tuyến qua mạng; hệ thống lưu trữ liệu ngành, quốc gia… Giá trị liệu độ tin cậy để tổ chức định, cung cấp câu trả lời nhanh, xác cho câu hỏi kinh doanh; truy cập thơng tin nhanh chóng, dễ dàng; hiểu biết sâu sắc hành vi khách hàng; tạo tri thức mới… Từ liệu có cấu trúc lịch sử giao dịch, hồ sơ khách hàng tới liệu phi cấu trúc hoạt động khách hàng website, ứng dụng mobile banking hay mạng xã hội…, Big Data đem lại lợi cạnh tranh hiệu to lớn cho lĩnh vực Chương V: Kiến thức tảng cho bạn sinh viên 5.1 Tại nên theo học ngành Big Data ? Theo “The Economist” – Dầu khơng cịn tài nguyên quý giá giới nữa, thay vào Big Data, điều lý giải bạn nên theo học ngành Big Data Big Data không cơng nghệ, cịn chuyển đổi mơ hình Vì bạn nên học cơng nghệ sớm tốt muốn tồn ngành CNTT Mọi công ty cần đến Big Data họ khơng muốn dẫn đến phá sản Vì vậy, thời điểm vàng để bắt đầu nghiệp Big Data thay cơng nghệ cũ nhanh chóng trở nên lỗi thời Bạn nhận thấy phát triển nhanh chóng nghiệp 5.2 Những kỹ bắt buộc cần có người làm ngành Big Data ? Nếu bạn có kỹ mà nhà tuyển dụng cần khơng ngăn bạn đảm nhận vị trí lĩnh vực Big Data Kiến thức lập trình với Java coi tảng nhà tuyển dụng Với niềm đam mê, yêu thích với Big Data với kỹ thuyết trình tốt khả sử dụng Java, chắn bạn nhận công việc ngành Tiếp đến kiến thức kỹ thuật Các cấu hình khác Big Data đòi hỏi kỹ khác có số cơng nghệ phổ biến mà bạn nên biết trước nộp đơn cho vị trí ngành Big Data Quan trọng số Hadoop, Apache Spark, Pig, Hive, HBase Yarn 5.3 Sinh viên học Big Data cần chuẩn bị ? (1) Bắt đầu cách học ngôn ngữ lập trình Nếu bạn muốn giải tốn big data, bạn nên biết Python/Java Nếu bạn hai thứ lời khuyên bắt đầu với Python Sau bạn nắm kiến thức của ngơn ngữ lập trình Python, Java Bước tìm hiểu cơng nghệ sử dụng cho Big data (2) Tìm hiểu kĩ thuật Big data MapReduce kỹ thuật xử lý mơ hình chương trình cho tính toán phân tán dựa Java Thuật toán MapReduce chứa hai nhiệm vụ quan trọng là: • Map (Bản đồ) • Giảm (Reduce) Map lấy tập hợp liệu chuyển đổi thành tập hợp liệu khác, phần tử riêng lẻ chia thành liệu (cặp khóa / giá trị) Thứ hai, giảm tác vụ, lấy đầu từ đồ làm đầu vào kết hợp liệu thành liệu nhỏ Như trình tự tên MapReduce ngụ ý, tác vụ rút gọn thực sau công việc đồ Ưu điểm MapReduce dễ dàng mở rộng quy mô xử lý liệu nhiều nút tính tốn Theo mơ hình MapReduce, ngun hàm xử lý liệu gọi trình ánh xạ trình khử Việc phân tách ứng dụng xử lý liệu thành trình ánh xạ giảm tốc không cần thiết Nhưng, viết ứng dụng dạng MapReduce, việc mở rộng ứng dụng để chạy hàng trăm, hàng ngàn chí hàng chục nghìn máy cụm thay đổi cấu hình Khả mở rộng đơn giản điều thu hút nhiều lập trình viên sử dụng mơ hình MapReduce (3) Sơ lược mơ hình lập trình MapReduce Nói chung, mơ hình MapReduce dựa việc gửi máy tính đến nơi chứa liệu Chương trình MapReduce thực thi ba giai đoạn, giai đoạn đồ, giai đoạn xáo trộn giai đoạn giảm • Giai đoạn Map – Công việc ánh xạ ánh xạ xử lý liệu đầu vào Nói chung, liệu đầu vào dạng tệp thư mục lưu trữ hệ thống tệp Hadoop (HDFS) Các tập tin đầu vào chuyển đến dòng chức ánh xạ theo dịng Trình ánh xạ xử lý liệu tạo số lượng nhỏ liệu • Giai đoạn Reduce– Giai đoạn kết hợp giai đoạn Shuffle giai đoạn Giảm Công việc Reducer sườn xử lý liệu xuất phát từ trình ánh xạ Sau xử lý, tạo đầu mới, lưu trữ HDFS Trong công việc MapReduce, Hadoop gửi Map Giảm tác vụ đến máy chủ phù hợp cụm Khung quản lý tất chi tiết truyền liệu, chẳng hạn phát hành tác vụ, xác minh hoàn thành nhiệm vụ chép liệu xung quanh cụm nút Hầu hết tính tốn diễn nút có liệu đĩa cục làm giảm lưu lượng mạng Sau hoàn thành nhiệm vụ định, cụm thu thập giảm liệu để tạo thành kết phù hợp gửi lại cho máy chủ Hadoop Lời cảm ơn Chúng em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Công nghệ Giao Thông Vận Tải tạo điều kiện thuận lợi cho chúng em thực tốt đề tài Chúng em xin chân thành bày tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Đình NGa Thầy tận tâm hướng dẫn, định hướng có nhận xét đắn, kịp thời cho nhóm chúng em suốt thời gian thực đề tài Bên cạnh đó, khơng thể khơng nhắc tới u thương chăm sóc gia đình, động viên bạn bè giúp nhóm vượt qua khó khăn thực đề tài Mặc dù nhóm cố gắng trình thực đề tài chắc không tránh khỏi thiếu sót Kính mong q thầy bạn tận tình góp ý, bảo Một lần nữa, nhóm xin cảm ơn mong nhận tình cảm chân thành từ tất người Tài liệu tham khảo: http://congnghiepcongnghecao.com.vn/tin-tuc/congnghe/t21915/cong-nghe-big-data-va-xu-huong-ung-dung.html https://topdev.vn/blog/big-data/ https://vntalking.com/big-data-la-gi.html https://www.slideshare.net/sieunhangao716/nhom-16-big-data? qid=d86492bf-2e72-4e1b-ad7a6ad43a871345&v=&b=&from_search=6 ... thay vào Big Data, điều lý giải bạn nên theo học ngành Big Data Big Data không cơng nghệ, cịn chuyển đổi mơ hình Vì bạn nên học cơng nghệ sớm tốt muốn tồn ngành CNTT Mọi công ty cần đến Big Data. .. http://congnghiepcongnghecao.com.vn/tin-tuc/congnghe/t21915/cong-nghe -big- data- va-xu-huong-ung-dung.html https://topdev.vn/blog /big- data/ https://vntalking.com /big- data- la-gi.html https://www.slideshare.net/sieunhangao716/nhom-16 -big- data? qid=d86492bf-2e72-4e1b-ad7a6ad43a871345&v=&b=&from_search=6... tốn big data, bạn nên biết Python/Java Nếu bạn hai thứ lời khuyên bắt đầu với Python Sau bạn nắm kiến thức của ngơn ngữ lập trình Python, Java Bước tìm hiểu cơng nghệ sử dụng cho Big data (2) Tìm

Ngày đăng: 13/10/2020, 17:42

Hình ảnh liên quan

1.2. Nguồn hình thành dữ liệu và phương pháp khai thác và quản lý dữ liệu lớn.  - Tìm hiểu về Big data

1.2..

Nguồn hình thành dữ liệu và phương pháp khai thác và quản lý dữ liệu lớn. Xem tại trang 4 của tài liệu.
Dữ liệu lớn có 5 đặc trưng cơ bản như sau (mô hình 5V): - Tìm hiểu về Big data

li.

ệu lớn có 5 đặc trưng cơ bản như sau (mô hình 5V): Xem tại trang 5 của tài liệu.
Như vậy mô hình lập trình MapReduce là nền tảng ý tưởng của Hadoop. Bản thân Hadoop là một framework cho phép phát triển các ứng dụng phân tán phần  cứng thông thường  - Tìm hiểu về Big data

h.

ư vậy mô hình lập trình MapReduce là nền tảng ý tưởng của Hadoop. Bản thân Hadoop là một framework cho phép phát triển các ứng dụng phân tán phần cứng thông thường Xem tại trang 11 của tài liệu.

Từ khóa liên quan

Mục lục

  • Lời mở đầu

  • Mục lục

  • Chương I: Giới Thiệu về Big Data

    • 1.1. Khái niệm về dữ liệu lớn

    • 1.2. Nguồn hình thành dữ liệu và phương pháp khai thác và quản lý dữ liệu lớn.

    • 1.4. Sự khác biệt giữa dữ liệu lớn với dữ liệu truyền thống

    • Chương II: Các Thành Phần Của Big Data

      • 2.1 Quản lí dữ liệu

      • 2.2 Phân tích dữ liệu

      • 2.3 sử dụng dữ liệu

      • Chương III: Tổ chức dữ liệu BigData

        • 3.1 Hadoop

        • 3.2 Các Thành Phần của Hadoop

        • 3.3 Hadoop hoạt động như thế nào ?

        • 3.4 Hadoop Distributed File System (HDFS)

          • 3.4.1 HDFS là gì ?

          • 3.4.2 Kiến trúc của HDFS :

          • 4.3.3 Cơ chế Hoạt Động của HDFS

          • Chương IV: Các lĩnh vực đang ứng dụng Big Data ở Việt Nam

            • 4.1 Phân tích mục tiêu của khách hàng

            • 4.2 Hiểu và tối ưu hóa sản phẩm, quy trình kinh doanh

            • 4.3 Chăm sóc sức khỏe cộng đồng

            • 4.4 Nâng cao hiệu suất thể thao

            • 4.5 Cải thiện an ninh và thực thi pháp luật

            • 4.6 Xây dựng thành phố thông minh

Tài liệu cùng người dùng

Tài liệu liên quan