ỨNG DỤNG BIG DATA TRONG CÔNG TY TNHH MASAN NUTRI SCIENCE VÀ MỘT SỐ CÔNG CỤ PHÂN TÍCH DỮ LIỆU Phần 1: Sử dụng Meat Deli để quản lý dữ liệu thông tin số lượng thịt heo mà công ty bán ra trên cửa hàng trong toàn quốc Phần 2: Một số công cụ để phân tích Big Data như sau: Giải quyết vấn đề bằng công cụ là phần mềm VS CODE trên nền ANACONDA để dự báo giá nhà tại Thành phố Boston Giải quyết vấn đề bằng công cụ offline là phần mềm VOSVIEWER để ứng dụng trong việc phân tích TEXT MINNING Gỉai quyết vấn đề bằng công cụ online là phần mềm Voyant Giải quyết vấn đề bằng công cụ Weka để phân tích tỷ lệ ngƣời tử vong ở Singapore Giải quyết vấn đề bằng công cụ là phần mềm R studio trên nền Anaconda để dự đoán sự sống còn cho hành khách trên chuyến tàu Titanic
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƢỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QUẢN TRỊ KINH DOANH BÁO CÁO CUỐI KỲ MƠN ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ ĐỀ TÀI: ỨNG DỤNG BIG DATA TRONG CÔNG TY TNHH MASAN NUTRI – SCIENCE VÀ MỘT SỐ CƠNG CỤ PHÂN TÍCH DỮ LIỆU Giảng viên hƣớng dẫn: TS Nguyễn Phan Anh Huy Danh sách sinh viên: Nhóm 11_Ca chiều Đỗ Thị Phương Dung 71506234 Lê Công Thành 71506020 Nguyễn Thị Yến Nhi 71506245 Phạm Hoài Thương 71506197 Nguyễn Thị Thùy Trang 71506006 Nguyễn Phước Cảnh Vân 71506014 TP HỒ CHÍ MINH – NGÀY 17 THÁNG NĂM 2019 NHẬN XÉT CỦA GIẢNG VIÊN HƢỚNG DẪN Nhóm: 11(Ca chiều) Khóa: 19 Thành phố Hồ Chí Minh, ngày 17 tháng năm 2019 Giảng viên BẢNG PHÂN CÔNG STT HỌ VÀ TÊN Đỗ Thị Phương Dung NHIỆM VỤ NHẬN XÉT Làm phần 1.4 Có tinh thần trách Làm phần 2.5 nhiệm cao, hoàn Chỉnh sửa, tổng hợp thành công việc tốt (100%) Lê Công Thành Làm phần 1.3 Có tinh thần trách Làm phần 2.1 nhiệm cao, hoàn Quay clip thực phần thành công việc mềm Nguyễn Thị Yến Nhi tốt (100%) Làm phần 1.5 Có tinh thần trách Làm powerpoint nhiệm cao, hoàn Quay clip vấn, video thành công việc thao tác phần mềm tốt (100%) DN Phạm Hoài Thương Làm phần 1.1 Có tinh thần trách Làm phần 2.3 nhiệm cao, hoàn Quay clip thực phần thành công việc mềm Nguyễn Thị Thùy Trang tốt (100%) Làm phần 1.6 Có tinh thần trách Làm phần 2.2 nhiệm cao, hoàn Quay clip vấn thành công việc tốt (100%) CHỮ KÝ Nguyễn Phước Cảnh Vân Làm phần 1.2 Có tinh thần trách Làm phần 2.4 nhiệm cao, hoàn Quay clip vấn thành công việc tốt (100%) MỤC LỤC LỜI MỞ ĐẦU PHẦN 1: BIG DATA TRONG DOANH NGHIỆP THỰC TẾ 1.1 Giới thiệu sơ lƣợc doanh nghiệp 1.2 Phân tích nhu cầu sử dụng big data họ (phỏng vấn) 1.3 Phân tích hạ tầng phần cứng 1.3.1 Dịch vụ Internet 1.3.2 Các thiết bị input, output, máy chủ 1.4 Phân tích tảng phần mềm 1.4.1 Ứng dụng 1.4.2 Nhân lực để vận hành 1.4.3 Chi phí bảo trì 1.5 Cách thức họ thu thập, lƣu trữ xử lý liệu nhƣ nào? 1.5.1 Kiến trúc 1.5.2 Scope of control 10 1.6 Phân tích ƣu nhƣợc điểm hệ thống đề xuất giải pháp 23 1.6.1 Ưu điểm 23 1.6.2 Nhược điểm 23 1.6.3 Giải pháp 24 PHẦN 2: PHÂN TÍCH DỮ LIỆU 25 2.1 Giải vấn đề công cụ phần mềm VS CODE ANACONDA để dự báo giá nhà Thành phố Boston 25 2.2 Giải vấn đề công cụ offline phần mềm VOSVIEWER để ứng dụng việc phân tích TEXT MINNING 33 2.3 Gỉai vấn đề công cụ online phần mềm Voyant 44 2.4 Giải vấn đề cơng cụ Weka để phân tích tỷ lệ ngƣời tử vong Singapore 47 2.5 Giải vấn đề công cụ phần mềm R studio Anaconda để dự đoán sống cho hành khách chuyến tàu Titanic 57 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 LỜI CẢM ƠN Bài báo cáo thực nhóm gồm thành viên thuộc chuyên ngành Kinh Doanh Quốc Tế - khoa Quản trị Kinh doanh trường Đại học Tôn Đức Thắng Đầu tiên, xin gửi lời cảm ơn chân thành đến Tiến sỹ Nguyễn Phan Anh Huy tận tình hướng dẫn, góp ý, chỉnh sửa nhiều sai sót giúp báo cáo nhóm hồn thiện Tiếp đến, xin chân thành cảm ơn bạn thành viên nhóm dành thời gian quý báu thân hợp tác, góp sức, xây dựng, thảo luận phân công công việc để báo cáo đạt hiệu cao Đồng thời, xin gửi lời cảm ơn đến tác giả viết, trang web góp phần cung cấp cho nhóm chúng tơi tiện ích thơng tin cần thiết, phù hợp cho báo cáo Cuối cùng, nhóm cố gắng chắn nhiều sai sót mà chưa thể khắc phục hết mong thầy đóng góp ý kiến chân thành, phê bình thẳng thắn để chúng em rút thêm nhiều kinh nghiệm cho lần sau Xin chân thành cảm ơn! DANH MỤC BẢNG Bảng 2.1: Bảng mô tả ngắn gọn thông tin biến liệu 59 DANH MỤC HÌNH Hình 1.1: Biểu tượng Tập đồn Masan Group Hình 1.2: Biểu tượng Masan Nutri - Science Hình 1.3: Tốc độ internet nhà cung cấp mạng FPT Hình 1.4: Giao diện bên phần mềm Meat Deli Hình 1.5: Giao diện phân bố theo vùng phần mềm Meat Deli Hình 1.6: Danh mục mặt hàng thịt Masan Hình 1.7: Quy trình xử lý data warehouse Meat Deli 10 Hình 1.8: Tùy biến (customize) từ phần mềm Microsoft Dynamic 365 đến Power BI 10 Hình 1.9: Schedule time 11 Hình 1.10: Các bước hướng dẫn giao diện Data Management 12 Hình 1.11: Các bước chọn tập tin liệu cần nhập ETL 17 Hình 1.12: Chọn liệu Azure Data Factory 18 Hình 1.13: Nhập xuất trạng thái jobs 18 Hình 1.14: Monitor – check trạng thái jobs 19 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết Tắt Tiếng Việt Na Người chết trẻ sơ sinh CNTT Công nghệ thông tin BLOB Mỗi object ta lưu trữ Azure Blob Storage SFTP Là giao thức mạng giúp bạn upload download liệu máy chủ OMCS Secure File Transfer Protocol Oracle Bussiness Intelligent Enterprise Edition OBIEE EBS Tiếng Anh Vận hành quản trị Operations and Maintenance Center System LỜI MỞ ĐẦU Trong bối cảnh tồn cầu hóa gắn liền với phát triển khoa học - kĩ thuật, kèm theo nhảy vọt lực lượng sản xuất phân công lao động diễn mạnh mẽ giới, trở thành động lực đóng góp vào thay đổi cục diện giới vài thập kỷ trở lại đây, tốc độ phát triển nhanh chóng cơng cách mạng 4.0 Do đó, việc ứng dụng Big Data trở thành phần thiếu công thương mại hóa Những mơ hình kinh doanh dựa Big Data hình thành để giúp tổ chức, doanh nghiệp tận dụng liệu cách triệt để Big Data chứa nhiều thơng tin q trích xuất thành cơng, giúp nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán xu hướng, trào lưu tương lai Chính thế, liệu phải thu thập, tổ chức, lưu trữ tìm kiếm, chia sẻ theo cách khác so với bình thường Ngày nay, liệu tiền bạc doanh nghiệp Bản thân công ty, doanh nghiệp sở hữu Big Data riêng Big Data điều khoản cơng nghệ giúp hiểu khách hàng, phát triển sản phẩm, dịch vụ thị trường, bên cạnh nâng cao hiệu hoạt động điều chỉnh dự báo nhu cầu thị trường (Kotler & Keller, 2012, Isaca, 2013; Davenport & Dyché, 2013) Chính vậy, để bắt kịp xu hướng trên, sẵn sàng cho việc bước chân vào môi trường làm việc thời gian tới Nay nhóm chúng em định thực đề tài “Ứng dụng Big Data Công ty TNHH Masan Nutri – Science số cơng cụ phân tích liệu” Bài báo cáo gồm phần chính: Phần 1: Big Data doanh nghiệp thực tế Phần 2: Phân tích liệu Một số phân tích Tab Visualize: Để xem biểu đồ tương tác chiều liệu Bƣớc 1: Để xem biểu bồ nhấp chuột vào biểu đồ Dƣới nhóm chọn biểu đồ có tƣơng quan “Death age” “Death count” Bƣớc 2: Bảng liệu trực quan hóa ra, thơng tin thay đổi bao gồm trục tung, trục hoành, màu sắc liệu kiểu loại mẫu liệu Biểu đồ dƣới thể số lƣợng ngƣời tử vong nhiều 3091 1độ tuổi định từ dƣới tuổi đến 85 tuổi 56 Bƣớc 3: Để tìm hiểu thêm thơng tin nhấp vào liệu đƣợc thể biểu đồ, xuất bảng thể thông tin mẫu liệu 2.5 Giải vấn đề công cụ phần mềm R studio Anaconda để dự đốn sống cho hành khách chuyến tàu Titanic Vào ngày 15 tháng năm 1912, thảm họa Titanic thảm họa tiếng lịch sử, Tàu Titanic bị chìm sau va chạm với tảng băng cướp 1502 sinh mạng tổng số 2224 hành khách thủy thủ đồn, trơi với số liệu thu thâp qua thảm họa bao gồm số lượng hành khách Dựa vào kết ta dự đốn khả sống sót người dựa thảm họa từ rút kinh nghiệm tương lai, thiết kế tàu lại cho an tồn hơn, nâng dịch vụ chăm sóc khách hàng, cảnh báo, … Bƣớc 1: Tải liệu mẫu gồm file: test.csv train.csv lƣu tại: E:\Decision-tree-titanicr 57 Mô tả ngắn gọn liệu gồm thông tin biến sau: Biến Định nghĩa Giá trị Survival Sự sống = Khơng, = Có Pclass Hạng vé = 1, = 2, = Sex Giới tính Nam nữ Age Tuổi năm Sibsp Số họ hàng tàu Respect Khơng có cha mẹ tàu Titanic Ticket Số vé Fare Giá vé hành khách 58 Số cabin Cabin embarked C = Cherbourg, Q = Queenstown, S = Southampton Cảng bắt đầu Bảng 2.1: Bảng mô tả ngắn gọn thông tin biến liệu 59 60 Bƣớc 2: Khởi động phần mềm Anaconda, chạy phần mềm R Giao diện Anaconda R lần lƣợt nhƣ hình dƣới đây: 61 Bƣớc 3: Cài đặt Packages cần thiết phần mềm cách chọn thẻ Tools Install Packagese Nhập tên gói cần cài đặt nhấn Install để hồn tất cài đặt Hoặc sử dụng lệnh sau để cài đặt gói Packagese: install.packages("tên pkgs") Các Packagese cần cài đặt readr, dplyr, ggplot2, rpart.plot rpart 62 Bƣớc 4: Gọi package đƣợc cài đặt cách dùng lệnh: library ("tên package") library(readr) library(dplyr) library(ggplot2) library(rpart) library(rpart.plot) Sau dùng lệnh : rm(list = ls())để loại bỏ đối tượng R sẵn có từ việc sử dụng trước đó, đảm bảo có mơi trường R trước gửi lệnh thực thi Bƣớc 5: Đọc liệu vào R file CSV Sử dụng lệnh read.csv(“…”) train