Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
1,51 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN GIỚI THIỆU NGÀNH Đề tài: Đồ án - Tìm hiểu big data kĩ thuật big data - Phân tích trình bày toán big data GV dạy: Thầy Mai Xuân Hùng Nguyễn Hồ Duy Trí Sinh viên thực hiện: STT Họ tên MSSV Nguyễn Văn Toàn 15520904 Phạm Quang Toàn 15520907 Phan Minh Toàn 15520908 Võ Văn Thơ 15520850 TP HỒ CHÍ MINH – 12/2016 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 Giới Thiệu Chúng ta sống thời đại mới, thời đại phát triển rực rỡ CNTT CNTT bước phát triển cao số hóa tất liệu thông tin, luân chuyển mạnh mẽ kết nối tất lại với Mọi loại thông tin, số liệu âm thanh, hình ảnh đưa dạng kỹ thuật số để máy tính lưu trữ, xử lý chuyển tiếp cho nhiều người Nhu cầu lưu trữ ngày tăng lên thêm vào phát triển mạnh lưu lượng ổ cứng Hằng ngày lượng thông tin lưu trữ tăng lên cách chóng mặt Theo tài liệu Intel vào tháng 9/2013, giới tạo petabyte liệu 11 giây tương đương với đoạn video HD dài 13 năm Vấn đề đặt với khối lượng liệu lớn khai thác có thật cần thiết? Tháng năm 2015, Big Data vượt khỏi bảng xếp hạng công nghệ Cycle Hype Gartner tạo tiếng vang lớn cho xu hướng công nghệ giới Bài viết giúp hiểu rõ khái niệm Big Data, nguồn tạo Big Data, tầm quan trọng vào lĩnh vực đời sống, chương cuối phân tích toán Big Data tương lai rộng mở Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 MỤC LỤC CHƯƠNG I: GIỚI THIỆU BIG DATA Định Nghĩa Big Data a Volume (Số lượng lưu trữ) b Velocity (Tốc độ xử lý) c Variety (Đa dạng chủng loại) d Veracity (Độ xác) e Value (Giá trị thông tin) Những nguồn tạo big data a Hộp đen liệu: b Dữ liệu từ kênh truyền thông xã hội: c Dữ liệu giao dịch chứng khoán: d Dữ liệu điện lực: e Dữ liệu giao thông: f Dữ liệu thiết bị tìm kiếm: Vì Big Data nằm năm xu hướng trọng điểm ngành công nghệ thông tin CHƯƠNG II: SỨC MẠNH BIG DATA Big data quan trọng nào? .8 Ứng dụng Big Data đời sống a Ứng dụng Big Data khoa học va nghiên cứu : b Ứng dụng Big Data tối ưu hóa hiệu suất thiết bị: .10 c Ứng dụng Big Data cải thiện an ninh thực thi pháp luật: 11 d Ứng dụng Big Data cải thiện tối ưu hóa thành phố quốc Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 gia: 11 e Ứng dụng Big Data kinh doanh tài chính: 12 f Sự hiểu biết khách hàng mục tiêu (Internet, Mobile Digital Marketing) 14 g Sự hiểu biết tối ưu hóa quy trình kinh doanh 15 h Định lượng cá nhân tối ưu hóa hiệu suất 15 i Cải thiện chăm sóc sức khỏe y tế công .16 j Cải thiện hiệu suất thể thao 16 Phân tích toán Big Data 18 a Top 10 thuật toán khai thác liệu dùng lĩnh vực Bigdata 18 b Phân tích sơ lược thuật toán Cây định C4.5 19 c Mã giả thuật toán C4.5: 23 CHƯƠNG III: BIG DATA TRONG TƯƠNG LAI 27 TÀI LIỆU THAM KHẢO 30 PHỤ LỤC PHÂN CÔNG NHIỆM VỤ 31 Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 CHƯƠNG I: GIỚI THIỆU BIG DATA Định Nghĩa Big Data Trên giới có nhiều định nghĩa Big Data Vào năm 2001, nhà phân tích Doug Laney hãng META Group (bây công ty nghiên cứu Gartner) nói thách thức hội nằm việc tăng trưởng liệu mô tả ba chiều “3V”: tăng số lượng lưu trữ (volume), tăng tốc độ xử lý (velocity) tăng chủng loại (variety) Giờ đây, Gartner với nhiều công ty tổ chức khác lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” để định nghĩa nên Big Data Đến năm 2012, Gartner bổ sung thêm Big Data ba tính chất phải “cần đến dạng xử lí để giúp đỡ việc đưa định, khám phá sâu vào vật/sự việc tối ưu hóa quy trình làm việc” Sau khái niệm Big Data 2014 Gartner mô hình “5Vs”– năm tính chất quan trọng nói lên Big Data: a Volume (Số lượng lưu trữ) Big Data (“dữ liệu lớn”) tập hợp liệu có dung lượng lưu trữ vượt mức đảm đương ứng dụng công cụ truyền thống Kích cỡ Big Data ngày tăng lên, tính đến năm 2012 nằm khoảng vài chục terabyte Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu mà b Velocity (Tốc độ xử lý) Dung lượng gia tăng liệu nhanh tốc độ xử lý tiến tới real-time Các ứng dụng phổ biến lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe ngày hôm phần lớn liệu lớn đc xử lý real-time Công nghệ xử lý liệu lớn ngày tiên tiến cho phép xử lý tức trước chúng lưu trữ vào sở liệu c Variety (Đa dạng chủng loại) Hình thức lưu trữ chủng loại liệu ngày đa dạng Trước hay nói đến liệu có cấu trúc ngày 80% liệu giới sinh phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.) Công nghệ Big Data cho phép ngày liên kết phân tích đa dạng chủng loại liệu với comments/post nhóm người dùng Facebook với thông tin video chia sẻ từ Youtube Twitter d Veracity (Độ xác) Một tính chất phức tạp BigData độ xác liệu Với xu hướng Social Media Social Network ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho tranh xác định độ tin cậy & xác liệu ngày khó khăn Bài toán phân tích loại bỏ liệu thiếu xác nhiễu tính chất quan trọng BigData e Value (Giá trị thông tin) Giá trị thông tin tính chất quan trọng xu hướng công nghệ Big Data Ở doanh nghiệp phải hoạch định giá trị thông tin hữu ích BigData cho vấn đề, toán mô hình hoạt động kinh doanh Có thể nói việc phải xác định tính chất “Value” nên bắt tay vào BigData Những nguồn tạo big data a Hộp đen liệu: liệu tạo máy bay, bao gồm máy bay phản lực trực thăng Hộp đen liệu bao gồm thông tin tạo giọng Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 nói phi hành đoàn, thu âm thông tin chuyến bay b Dữ liệu từ kênh truyền thông xã hội: Đây liệu tạo phát triển trang web truyền thông xã hội Twitter, Facebook, Instagram, Pinterest Google+ c Dữ liệu giao dịch chứng khoán: Đây số liệu từ thị trường chứng khoán định mua bán cổ phiếu thực khách hàng d Dữ liệu điện lực: liệu tạo điện lực Nó bao gồm thông tin cụ thể từ điểm giao nút thông tin sử dụng e Dữ liệu giao thông: liệu bao gồm sức chưa mẫu phương tiện giao thông, độ sẵn sàng khoảng cách phương tiện giao thông f Dữ liệu thiết bị tìm kiếm: liệu tạo từ công cụ tìm kiếm nguồn liệu lớn Big Data Công cụ tìm kiếm có sở liệu rộng lớn, nơi họ tìm thấy liệu họ cần Thêm vào đó, Bernard Marr, chuyên gia Big Data phân tích Big Data, đưa danh sách 20 nguồn Big Data uy tín mà người truy cập miễn phí trang web Dưới số ví dụ: - Data.gov - nơi mà người phép tự truy cập tất liệu Chính phủ Mỹ bao gồm thông tin khác nhau, từ khí hậu đến tội phạm giam giữ - Data.gov.uk – nơi tương tự Chính phủ Anh Tại đây, người tập hợp siêu liệu tất sách ấn phẩm Anh kể từ năm 1950 - Ngoài có Cục Điều tra Dân số Mỹ - bao gồm thông tin có giá trị dân số, địa lý liệu khác Tương tự kho liệu mở Liên minh châu Âu, bao gồm liệu điều tra dân số tổ chức Liên minh châu Âu - Và thứ yêu thích Facebook Những biểu đồ FB cung cấp cho thông tin giao diện ứng dụng, sau truy cập thông tin công khai cung cấp người sử dụng Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 - Trong lĩnh vực y tế, Healthdata.gov Mỹ Trung tâm Thông tin chăm sóc Y tế xã hội NHS, từ Anh Vì Big Data nằm năm xu hướng trọng điểm ngành công nghệ thông tin Nhà bán lẻ online Amazon.com phải xử lí hàng triệu hoạt động ngày yêu cầu từ khoảng nửa triệu đối tác bán hàng Amazon sử dụng hệ thống Linux hồi năm 2005, họ sở hữu ba sở liệu Linux lớn giới với dung lượng 7,8TB, 18,5TB 24,7TB Tương tự, Facebook phải quản lí 50 tỉ ảnh từ người dùng tải lên, YouTube hay Google phải lưu lại hết lượt truy vấn video người dùng nhiều loại thông tin khác có liên quan Dịch vụ thẻ VISA xử lí 172.800.000 giao dịch thẻ vòng ngày mà Trên Twitter có 500 triệu dòng tweet ngày, Facebook có 1,15 tỉ thành viên tạo mớ khổng lồ liệu văn bản, tập tin, video… => Nhu cầu xử lý, tìm kiếm, khai thác thông tin, đánh giá, tiên đoán cách khách quan xu thị trường từ đưa chiến lược đắn Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 CHƯƠNG II: SỨC MẠNH BIG DATA Big data quan trọng nào? Big data công nghệ thu thập thông tin quy mô lớn từ website Các doanh nghiệp thường vận dụng công cụ nhằm phục vụ công việc dự đoán xu hướng thị trường, nâng cao chất lượng sản phẩm dịch vụ có, tạo sản phẩm tìm hiểu hành vi khách hàng Phân tích liệu giúp doanh nghiệp thích nghi, tạo nội dung website thu hút nhiều khách hàng hơn, có nhìn sâu sắc vào hành vi mua hàng Dữ liệu nhiều tốt cho công ty Để làm vậy, doanh nghiệp nên cung cấp nội dung nhiều tảng social media, nhằm thu thập nhiều thông tin từ điểm tiếp xúc với khách hàng Bằng cách tìm hiểu qua hệ thống sở liệu, công ty tạo nội dung có liên quan với người đọc Chính ý tương giúp Craig Rayner - Giám đốc tuyển dụng hãng SEO.io thu hút nhân tài Nhờ vào việc phân tích tổng hợp liệu nội phòng nhân sự, ông tạo quảng cáo tuyển dụng hấp dẫn người tìm việc Ứng dụng Big Data đời sống a Ứng dụng Big Data khoa học va nghiên cứu : -Khoa học nghiên cứu biến đổi nhanh khả mà liệu lớn mang lại Lấy ví dụ, CERN, phòng thí nghiệm vật lý hạt nhân Thụy Sĩ với máy gia tốc hạt lớn mạnh giới, Large Hadron Collider Với thí nghiệm để mở khóa bí mật vũ trụ, cách hình thành vận hành sao, tạo lượng lớn liệu -Trong Y học: giải mã gen -Trong vật lý: dụng cụ giám sát khoa học máy gia tốc hạt lớn CERN(tổ chức nghiên cứu nguyên tử châu Âu) tạo 40 terabyte liệu gây -Trong toán học : chế tạo siêu máy tính để giải toán mà người giải Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 ->Trong Y học: -Big Data ghi điểm lĩnh vực Y học vào năm 2009 Google sử dụng liệu Big Data để phân tích dự đoán xu hướng ảnh hưởng, lan truyền dịch cúm H1N1 Dịch vụ có tên Google Flu Trends -Với phát triển công nghệ thông tin giúp người tiếp xúc với tiên tiến khoa học nhằm nâng cao sức khỏe người -Nhưng chưa phải tất cả, tiềm lớn Big Data y học là khả áp dụng vào trình phân tích gen, giúp phân tích trình tự gen người vài giờ, thay tới hàng tuần trước -Big Data bổ sung cần thiết cho y học đại chứng kiến thay đổi bước ngoặt Giải mã trình tự gen cách tốt để theo dõi dải rộng gen để từ đưa nhận định nguyên nhân loại bệnh tiến hành đánh giá rủi ro, phát sớm dự đoán khả tái phát Công nghệ sử dụng để đưa phương pháp trị liệu hướng điều trị phù hợp với bệnh nhân =>Trong vật lý:- Máy gia tốc hạt lớn chế tạo Tổ chức nghiên cứu hạt nhân châu Âu (CERN), nằm bên mặt đất biên giới Pháp-Thụy Sĩ núi Jura dãy Alps gần Genève, Thụy Sĩ -Các trung tâm CERN có 65.000 vi xử lý để phân tích 30 petabyte liệu Tuy nhiên sử dụng quyền tính toán hàng ngàn máy tính phân phối 150 trung tâm Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang Bài thu hoạch môn Giới thiệu ngành - IT009.H11 Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 17 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 Phân tích toán Big Data a Top 10 thuật toán khai thác liệu dùng lĩnh vực Bigdata C4.5 k-means Support vector machines Apriori EM PageRank AdaBoost kNN Naive Bayes 10 CART Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 18 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 b Phân tích sơ lược thuật toán Cây định C4.5 Định nghĩa: Cây định biểu đồ định phát triển có cấu trúc dạng cây: • • Gốc: Node Node trong: biểu diễn kiểm tra thuộc tính đơn • • Gốc Node lá: biểu diễn lớp Node Trong NodeL Nhánh Nhánh: Kết kiểm tra node NodeL NodeL á Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 19 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 Ví dụ định • Xây dựng định gồm bước: – Phát triển định: từ gốc, đến nhánh, phát triển quy nạp theo hình thức chia để trị • • Chọn thuộc tính “tốt” độ đo định trước Phát triển việc thêm nhánh tương ứng với giá trị thuộc tính chọn • • • Sắp xếp, phân chia tập liệu đào tạo tới node Nếu ví dụ phân lớp rõ ràng dừng Ngược lại: lặp lại bước tới bước cho node – Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây, tăng độ xác • VD: thuật toán Hunt sử dụng C4.5, CDP – – – S={S1,S2,…,Sn} tập liệu đào tạo C={C1,C2,…,Cm} tập lớp TH1: Si (i=1…n) thuộc Cj => Cây định ứng Cj – • TH2: S thuộc nhiều lớp C Chọn test thuộc tính đơn có nhiều giá trị O={O1, Ok} (k thường 2) • Test từ gốc cây, Oi tạo thành nhánh, chia S thành tập có giá trị thuộc tính = Oi Đệ quy cho tập => Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 20 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 định gồm nhiều nhánh, nhánh tương ứng với Oi • Điểm mạnh định: – – – – – • Sinh quy tắc hiểu được: chuyển đổi sang tiếng Anh SQL Thực thi lĩnh vực hướng quy tắc Dễ dàng tính toán phân lớp Xử lý với thuộc tính liên tục rời rạc Thể rõ ràng thuộc tính tốt nhất: phân chia liệu từ gốc Điểm yếu định: – Dễ xảy lỗi có nhiều lớp: thao tác với lớp có giá trị dạng nhị phân – Chi phí tính toán đắt để học: phải qua nhiều node để đến node cuối • • Là phát triển từ CLS ID3 ID3 (Quinlan, 1979)- hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal • • • • Năm 1993, J Ross Quinlan phát triển thành C4.5 với 9000 dòng lệnh C Hiện tại: phiên See5/C5.0 Tư tưởng thuật toán: Hunt, chiến lược phát triển theo độ sâu Pseudocode: – – Kiểm tra case Với thuộc tính A tìm thông tin nhờ việc tách thuộc tính A Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 21 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 – Chọn a_best thuộc tính mà độ đo lựa chọn thuộc tính “tốt nhất” – – Dùng a_best làm thuộc tính cho node chia cắt Đệ quy danh sách phụ tạo việc phân chia theo a_best, thêm node node Với đặc điểm C4.5 thuật toán phân lớp liệu dựa định hiệu phổ biến ứng dụng khai phá sở liệu có kích thước nhỏ C4.5 sử dụng chế lưu trữ liệu thường trú nhớ, đặc điểm làm C4.5 thích hợp với sở liệu nhỏ, chế xếp lại liệu node trình phát triển định C4.5 chứa kỹ thuật cho phép biểu diễn lại định dạng danh sách thứ tự luật if-then (một dạng quy tắc phân lớp dễ hiểu) Kỹ thuật cho phép làm giảm bớt kích thước tập luật đơn giản hóa luật mà độ xác so với nhánh tương ứng định tương đương Tư tưởng phát triển định C4.5 phương pháp Hunt nghiên cứu Chiến lược phát triển theo độ sâu (depth-first strategy) áp dụng cho C4.5 Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 22 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 c Mã giả thuật toán C4.5: (1) ComputerClassFrequency(T); (2) if OneClass or FewCases return a leaf; Create a decision node N; (3) ForEach Attribute A ComputeGain(A); (4) N.test=AttributeWithBestGain; (5) if (N.test is continuous) find Threshold; (6) ForEach T' in the splitting of T (7) If ( T' is Empty ) Child of N is a leaf else (8) Child of N=FormTree(T'); (9) ComputeErrors of N; return N C4.5 có đặc điểm khác với thuật toán khác, là: chế chọn thuộc tính để kiểm tra node, chế xử lý với giá trị thiếu, việc tránh “quá vừa” liệu, ước lượng độ xác chế cắt tỉa • Chuyển đổi sang luật: cắt tỉa – Dạng luật: if A and B and C… then class X Không thỏa mãn điều kiện chuyển lớp mặc định – • Xây dựng luật: bước Mỗi đường từ gốc đến luật mẫu Đơn giản luật mẫu Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 23 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 cách bỏ dần điều kiện mà không ảnh hưởng tới độ xác luật • Các luật cắt tỉa nhóm lại theo giá trị phân lớp tạo tập Với tập con, xem xét để lựa chọn luật để tối ưu hóa độ xác dự đoán lớp gắn với tập luật • Sắp xếp tập luật theo tần số lỗi Lớp mặc định tạo cách xác định case tập S không chứa luật chọn lớp phổ biến case làm lớp mặc định • Ước lượng đánh giá: luật ước lượng toàn tập S, loại bỏ luật làm giảm độ xác phân lớp – Hoàn thành: tập quy tắc đơn giản lựa chọn cho lớp • Đặc điểm C4.5: – Chiếm thời gian sử dụng CPU nhớ lớn: • VD: với 10k tới 100k case, tạo định tăng từ 1,4s lên 61s, tạo luật tăng từ 32s lên 9,715s – Sử dụng chế lưu liệu thường trú nhớ => ứng dụng với database nhỏ ( tần số lỗi lặp lại 4% với database 20000 cases) – Có chế xử lý thiếu, lỗi vừa liệu – Luật tạo đơn giản • Ứng dụng vào toán phân lớp liệu: – Bước (Học): xây dựng mô hình mô tả tập liệu; khái niệm biết Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 24 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 • • Input: tập liệu có cấu trúc tạo mô tả thuộc tính Output: Các luật If…Then – Bước (Phân loại): dựa mô hình xây dựng để phân lớp liệu mới: từ gốc đến nút nhắm rút lớp đối tượng cần xét • • Ứng dụng vào toán phân lớp liệu: Xử lý với liệu thuộc tính liên tục: – Sử dụng kiểm tra dạng nhị phân: value(V) < h với h số ngưỡng (threshold) – h tìm cách: » Quick sort xếp case S theo giá trị thuộc tính liên tục V xét =>V = {v1, v2, …, vm} » hi = (vi + v(i+1))/2 Test phân chia liệu:V hi => chia V thành V1={v1,v2,…, vi} V2 = {vi+1, vi+2, …, vm} có hi (i=1…m1) » Tính Information gain hay Gain ratio với hi Ngưỡng có giá trị Information gain hay Gain ratio lớn chọn làm ngưỡng phân chia thuộc tính – Luật: C5.0 xác hơn, nhanh hơn, tốn nhớ Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 25 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 Blue: C5.0 – Cây định: nhanh hơn, nhỏ – Boost: tạo kết hợp nhiều lớp phân loại tăng xác dự đoán Blue: C5.0 – Kiểu liệu mới: VD: ngày,tháng Cây ổn định: – Tần số lỗi xây dựng từ data case cấu trúc thấp nhiều so với data case không nhìn thấy Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 26 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 – VD: với 20k case cấu trúc, tỉ lệ lỗi 4%, Cũng 20k case có case không kiểm tra, tỉ lệ lỗi 11,7% – Yêu cầu đặt ra: xây dựng mà tỉ lệ lỗi xấp xỉ cho trường hợp CHƯƠNG III: BIG DATA TRONG TƯƠNG LAI Data volumes will continue to grow: Có hoàn toàn câu hỏi người tiếp tục tạo khối lượng lớn lớn liệu, đặc biệt xem xét số lượng thiết bị cầm tay thiết bị kết nối Internet dự kiến tăng theo cấp số nhân Ways to analyse data will improve: Cách phân tích liệu ngày cải thiện , công cụ bổ sung hỗ trợ việc phân tích liệu tiếp tục tăng trưởng More tools for analysis (without the analyst) will emerge: Các công cụ phân tích tự động đưa ra, không cần đến can thiệp nhà phân tích đời Prescriptive analytics will be built in to business analytics software: kỹ thuật phân tích liệu xậy dựng kinh doanh phân mềm phân tích kinh doanh In addition, real-time streaming insights into data will be the hallmarks of data winners : Người dùng sử dụng liệu để sử dụng thời gian thực Machine learning is a top strategic trend: Máy học yếu tố cần thiết cho việc chuẩn bị liệu phân tích dự đoán doanh nghiệp hay lĩnh vực kinh doanh xu hướng tương lai Big data will face huge challenges around privacy: Big data phải đối mặt với thách thức lớn với điều khoản riêng tư, đặc biệt với quy định riêng tư Liên minh châu Âu Các công ty buộc phải giải 'con voi phòng "xung quanh điều khiển riêng tư thủ tục họ Dự đoán vào năm 2018, 50% vi phạm đạo đức kinh doanh liên quan đến Big data More companies will appoint a chief data officer : nhiều công ty bổ nhiểm vị trí giám đốc liệu , chuyên quản lý liệu phân tích số liệu để đưa kết giúp đánh giá liệu Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 27 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 “Autonomous agents and things” will continue to be a huge trend: tương lại việc áp dụng tự hóa xu hướng với trợ lý ảo hay robot, xe tự lái, hay thiết bị thông minh Big data staffing shortages will expand : liệu mở rộng từ nhà phân tích , nhà khoa học , kiến trúc sư liệu, hay chuyên gia việc quản lý liệu… The big data talent crunch may ease : Những khủng hoảng tài liệu lớn dễ dàng công ty sử dụng chiến thuật Analytics dự đoán công ty sử dụng việc tuyển dụng đào tạo nội để có vấn đề nhân họ giải The data-as-a-service business model is on the horizon: Các mô hình kinh doanh lữ liệu dịch vụ , doanh nghiệp kiếm tiền từ liệu họ Algorithm markets will also emerge: Thuật toán sử dụng thương mại xuất Dự đoán doanh nghiệp nhanh chóng tìm hiểu họ mua thuật toán chương trình chúng thêm liệu riêng họ dịch vụ dự kiến phát triển nhân Cognitive technology will be the new buzzword: Công nghệ nhận thức từ thông dụng Đối với nhiều doanh nghiệp, liên kết điện toán nhận thức phân tích trở thành đồng nghĩa cách mà doanh nghiệp nhìn thấy tương đồng phân tích khai thác liệu lớn All companies are data businesses now: Nhiều công ty cố gắng để nâng cao giá trị doanh thu từ liệu họ Businesses using data will see $430 billion in productivity benefits: Doanh nghiệp sử dụng liệu thấy 430 tỷ $ lợi suất cạnh tranh không sử dụng liệu năm 2020, theo Viện quốc tế Analytics Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 28 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 “Fast data” and “actionable data” will replace big data: "Dữ liệu nhanh " "dữ liệu động" thay liệu lớn, theo số chuyên gia Các đối số lớn không thiết phải tốt nói đến liệu, doanh nghiệp không sử dụng phần nhỏ liệu mà họ truy cập Thay vào đó, ý tưởng cho công ty nên tập trung vào việc đặt câu hỏi cách sử dụng liệu họ có - lớn hay cách khác Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 29 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 TÀI LIỆU THAM KHẢO [WKQ08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37 http://www.forbes.com/sites/bernardmarr/2016/03/15/17-predictions-about-the-futureof-big-data-everyone-should-read/#666523c8157c http://rulequest.com/see5-comparison.html http://en.wikipedia.org/wiki/ID3_algorithm http://en.wikipedia.org/wiki/C4.5_algorithm http://en.wikipedia.org/wiki/Decision_tree Trích từ http://twenty.spaces.puresolutions.com.vn/kham-pha/nhung-ung-dung-du- lieu-lon-big-data-pho-bien-nhat Trích từ http://genk.vn/tra-da-cong-nghe/big-data-vu-khi-cong-nghe-huu-hieu-chonglai-benh-tat-cua-loai-nguoi-20150627182356624.chn http://robusta.vn/vi/goc-cong-nghe/big-data-la-gi-vi-sao-ban-can-phai-quan-tam-vecong-nghe-nay http://dinhledat.com/data-driven-marketing/big-dataanalytics-la-gi-ung-dung-du-lieulon-tren-the-gioi-va-viet-nam-2014/ https://xuhuongtiepthi.com/big-data-la-gi-va-tam-quan-trong-cua-big-data-b85.php Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 30 Bài thu hoạch môn Giới thiệu ngành - IT009.H11 PHỤ LỤC PHÂN CÔNG NHIỆM VỤ STT Thành viên Nguyễn Văn Toàn Nhiệm vụ - Lời nói đầu: chọn giới thiệu bigdata, sách cung cấp cho ta - Big Data nằm năm xu hướng trọng điểm ngành công nghệ thông tin Phạm Quang Toàn - Định nghĩa Big Data - Những nguồn tạo Big Data - Tổng hợp - Nâng cao khoa học nghiên cứu Tối ưu hóa hiệu suất máy móc thiết bị Cải thiện an ninh thực thi pháp luật Cải thiện tối ưu hóa thành phố, quốc gia Kinh doanh tài - Phan Minh Toàn - Võ Văn Thơ - Phân tích trình bày toán big data Tổng hợp, mục lục Chương kết luận hướng mở tương lai Sự hiểu biết khách hàng mục tiêu (Internet, Mobile Digital Marketing) Sự hiểu biết tối ưu hóa quy trình kinh doanh Định lượng cá nhân tối ưu hóa hiệu suất Cải thiện chăm sóc sức khỏe y tế công Cải thiện hiệu suất thể thao Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ Trang 31 ... thao 16 Phân tích toán Big Data 18 a Top 10 thuật toán khai thác liệu dùng lĩnh vực Bigdata 18 b Phân tích sơ lược thuật toán Cây định C4.5 19 c Mã giả thuật toán C4.5: ... không cần đến can thiệp nhà phân tích đời Prescriptive analytics will be built in to business analytics software: kỹ thuật phân tích liệu xậy dựng kinh doanh phân mềm phân tích kinh doanh In addition,... thiết bị tìm kiếm: liệu tạo từ công cụ tìm kiếm nguồn liệu lớn Big Data Công cụ tìm kiếm có sở liệu rộng lớn, nơi họ tìm thấy liệu họ cần Thêm vào đó, Bernard Marr, chuyên gia Big Data phân tích