Dữ liệu lớn Big Data Phân Tích dữ liệu bán hàng

30 10 0
Dữ liệu lớn  Big Data  Phân Tích dữ liệu bán hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dữ liệu lớn phân tích dữ liệu bán hàng bằng ngôn ngữ Python Từ những nguồn dữ liệu thu thập được sau quá trình phân tích và đánh giá, rất có thể không cho chúng ta một kết quả như ý muốn so với mục đích ban đầu. Vì vậy, không phải có Big Data là thành công mà phải biết ứng dụng nó.

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM KHOA: HỆ THỐNG THÔNG TIN VÀ VIẾN THÁM BÁO CÁO ĐỒ ÁN MÔN HỌC: CÔNG NGHỆ DỮ LIỆU LỚN ĐỀ TÀI: DỮ LIỆU BÁN HÀNG CỦA MỘT DOANH NGHIỆP Ở MỸ TRONG THÁNG 5/2019 Giảng viên hướng ThS Lê Quang Thiện dẫn: Sinh viên hiện: Lớp: Khóa: Các thực Nhóm 09_ĐH_CNTT1 09 thành nhóm 6: viên Đỗ Thị Ngọc Bích Nguyễn Văn Dùng Võ Văn Khương Tp Hồ Chí Minh, tháng năm 2023 Nhận xét giảng viên ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……… , ngày….tháng… năm 2023 Giảng viên Lê Quang Thiện MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG I: TỔNG QUAN 1.TỔNG QUAN VỀ CÔNG NGHỆ DỮ LIỆU LỚN .5 1.1.SỰ PHÁT TRIỂN CỦA CÔNG NGHỆ DỮ LIỆU LỚN .5 1.1.1.TÌM HIỂU VỀ NGUỒN GỐC CỦA BIGDATA 1.1.2.ĐỊNH NGHĨA BIGDATA 1.1.3.CÁC ĐẶC TRƯNG CỦA BIGDATA .6 1.1.4.QUY TRÌNH LÀM VIỆC CỦA BIGDATA .7 1.1.5.LỢI ÍCH VÀ KHÓ KHĂN 1.2.MỘT SỐ ỨNG DỤNG TIÊU BIỂU CỦA CÔNG NGHỆ DỮ LIỆU LỚN 2.TỔNG QUAN VỀ PYTHON VÀ PHẦN MỀM GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU .14 2.1.TỔNG QUAN VỀ PYTHON .14 2.1.1.LỊCH SỬ PYTHON .14 2.1.2.ĐỊNH NGHĨA PYTHON .14 2.1.3.ĐẶC ĐIỂM PYTHON 15 2.1.4.LỢI ÍCH PYTHON MANG LẠI 15 2.2.PHẦN MỀM GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU 16 2.2.1.GOOGLE COLAB LÀ GÌ? 16 2.2.2.PYTHON & GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU 16 3.GIỚI THIỆU ĐỀ TÀI .17 3.1.LÍ DO CHỌN ĐỀ TÀI 17 3.2.MỤC TIÊU NGIÊN CỨU 18 3.3.MÔ TẢ DỮ LIỆU 19 3.3.1.NGUỒN GỐC DỮ LIỆU .19 3.3.2.CẤU TRÚC CỦA DỮ LIỆU 20 3.3.3.MƠ TẢ BÀI TỐN 20 CHƯƠNG II: MƠ TẢ MƠ HÌNH PHÂN LỚP DỮ LIỆU 21 2.1.PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU .21 2.2.CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 21 2.3.QUÁ TRÌNH PHÂN LỚP DỮ LIỆU 21 2.4.TÍNH HIỆU QUẢ CỦA MƠ HÌNH PHÂN LỚP DỮ LIỆU .22 CHƯƠNG III: PHÂN TÍCH VÀ DỰ BÁO 22 3.1 MÔ TẢ BÀI TOÁN 22 3.2 MÔ TẢ DỮ LIỆU .22 3.3 PHÂN LỚP DỮ LIỆU .22 3.3.1 XỬ LÝ DỮ LIỆU 22 3.3.2 SỬ DỤNG MƠ HÌNH PHÂN LỚP DỮ LIỆU .23 CHƯƠNG IV: KẾT LUẬN 24 4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN .24 4.1.1 TÓM TẮT 24 4.1.2 KẾT QUẢ ĐẠT ĐƯỢC 24 4.2 HƯỚNG PHÁT TRIỂN VÀ KIẾN NGHỊ .24 TÀI LIỆU THAM KHẢO 25 LỜI MỞ ĐẦU Công nghệ thông tin lĩnh vực phát triển mạnh mẽ, đặc biệt ứng dụng trở thành cơng cụ đắc lực phục vụ cho hoạt động người lĩnh vực Một hỗ trợ phổ biến máy tính quản lý thơng tin Mọi thơng tin quản lý máy tính phải thể liệu lưu trữ sở liệu định Ngày nay, phát triển Internet làm thay đổi mạnh mẽ cách thức hoạt động tổ chức Các ứng dụng Web 2.0, mạng xã hội, điện toán đám mây phần mang lại cho tổ chức phương thức kinh doanh Trong kỷ nguyên IoT (Internet of Things), cảm biến nhúng vào thiết bị di động điện thoại di động, ô tô, máy móc cơng nghiệp góp phần vào việc tạo chuyển liệu, dẫn đến bùng nổ liệu thu thập Theo báo cáo IDC, năm 2011, lượng liệu tạo giới 1.8ZB, tăng gần lần năm Dưới bùng nổ này, thuật ngữ Big Data sử dụng để liệu khổng lồ, chủ yếu khơng có cấu trúc, thu thập từ nhiều nguồn khác Với ưu điểm tác động mạnh mẽ Dữ liệu lớn (Big Data) ứng dụng liên quan, Big Data xem yếu tố định đến việc phát triển mang lại lợi cạnh tranh tổ chức Tuy nhiên, để đạt thành công việc xây dựng thực dự án Big Data, vấn đề có liên quan cần xác định, từ tìm phương hướng để giải Các kỹ thuật Big Data phát triển nhằm mục đích giải vấn đề cách tổ chức xử lý liệu kho liệu ngày trở nên lớn Tuy nhiên, phải đối mặt với vấn đề lưu trữ phân tích liệu nhằm đáp ứng yêu cầu người sử dụng CHƯƠNG I: TỔNG QUAN 1.TỔNG QUAN VỀ CÔNG NGHỆ DỮ LIỆU LỚN 1.1.SỰ PHÁT TRIỂN CỦA CÔNG NGHỆ DỮ LIỆU LỚN 1.1.1.TÌM HIỂU VỀ NGUỒN GỐC CỦA BIGDATA Big Data xem thuật ngữ năm 1960 1970 Đây thời điểm mà giới liệu trung tâm liệu để kết hợp với phát triển sở liệu dạng SQL Vào năm 1984, hệ thống xử lý liệu song song DBC 1012 đời tập đồn Teradata Đây hệ thống có khả phân tích lưu trữ terabyte liệu Đến năm 2017 có hàng chục sở liệu nằm hệ thống Teradata sở hữu nguồn dung lượng cao lên đến hàng petabyte Trong số đó, lượng liệu lớn vượt qua ngưỡng 50 petabytes.Năm 2005, người bắt đầu nhận số lượng người dùng tạo thông qua Youtube, Facebook dịch vụ trực tuyến khác vô lớn Trong thời gian NoSQL sử dụng ngày phổ biến hỗ trợ thúc đẩy phát triển cho framework Hadoop cần thiết cho việc thúc đẩy phát triển Big Data Theo người dùng, framework hỗ trợ cho Big Data dễ dàng thực lưu trữ hoạt động dễ Trong thời điểm tại, khối lượng Big Data dần tăng lên nhanh chóng nên người sử dụng dần tạo lượng liệu vô lớn Tuy nhiên liệu khơng dành cho người mà cịn tạo máy móc Ngồi ra, đời IoT với nhiều thiết bị khác giúp người dùng sử dụng dễ nâng cao hiệu suất cho sản phẩm Hình: BigData phát triển theo thời gian 1.1.2.ĐỊNH NGHĨA BIGDATA Dữ liệu lớn (Tiếng Anh: Big data) thuật ngữ cho việc xử lý tập hợp liệu lớn phức tạp mà ứng dụng xử lý liệu truyền thống không xử lý Dữ liệu lớn bao gồm thách thức phân tích, thu thập, giám sát liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn tính riêng tư Thuật ngữ thường đơn giản đề cập đến việc việc sử dụng phân tích dự báo, phân tích hành vi người dùng, số phương pháp phân tích liệu tiên tiến khác trích xuất giá trị từ liệu mà đề cập đến kích thước liệu "Vài nghi ngờ cho số lượng liệu có sẵn thực lớn, khơng phải đặc trưng phù hợp hệ sinh thái liệu này." 1.1.3.CÁC ĐẶC TRƯNG CỦA BIGDATA Big Data gồm đặc trưng sau đây: - Volum: Khối lượng liệu cực lớn - Variaty: Nhiều loại liệu đa dạng - Velocity: Vận tốc mà liệu cần phải xử lý phân tích nhanh - Veracity: Tính xác thực ảnh hưởng đến phân tích xác - Value: Có giá trị 1.1.4.QUY TRÌNH LÀM VIỆC CỦA BIGDATA Thu thập liệu > Sắp xếp liệu > Phân tích liệu > Phân phát liệu 1.1.5.LỢI ÍCH VÀ KHĨ KHĂN Lợi Ích Khó Khăn + Bằng cách áp dụng phân tích vào liệu lớn, cơng ty nhận thấy lợi ích tăng doanh thu, dịch vụ khách hàng cải thiện, hiệu cao tăng khả cạnh tranh + Phân tích liệu liên quan đến việc kiểm tra liệu để thu thập thông tin chi tiết rút kết luận Từ định xu hướng dự đoán hoạt động tương lai + Chất lượng liệu không đảm bảo + Thu thập liệu yêu cầu phải có nguồn tổng hợp thơng tin từ nhiều nguồn khác dẫn đến đôi lúc thông tin không đồng tiến hành phân tích sâu Vì yếu tố thu thập thông tin quan trọng + Kết triển khai không ý Từ nguồn liệu thu thập sau q trình phân tích đánh giá, khơng cho kết ý muốn so với mục đích ban đầu Vì vậy, khơng phải có Big Data thành cơng mà phải biết ứng dụng Ứng dụng Big Data Digital Marketing Digital Marketing chìa khóa để doanh nghiệp tiếp cận gần với khách hàng Quan trọng, với Digital Marketing, tất doanh nghiệp quy mơ lớn nhỏ tiến hành hoạt động quảng cáo tiếp thị tảng truyền thơng xã hội  Phân tích thị trường, đối thủ cạnh tranh đánh giá mục tiêu kinh doanh Điều giúp xác định hội tốt để tiếp tục tiến hành kế hoạch kinh doanh  Có thể xác định người dùng phương tiện truyền thông xã hội nhắm mục tiêu cho họ dựa nhân học, giới tính, thu nhập, tuổi tác sở thích  Tạo báo cáo cho chiến dịch quảng cáo:hiệu suất, khách hàng giải pháp để tạo kết tốt  Khoa học liệu sử dụng cho khách hàng nhắm mục tiêu ni dưỡng chu trình khách hàng  Tập trung vào chủ đề tìm kiếm cao tư vấn cách để nội dung để xếp hạng trang web doanh nghiệp cao google (SEO)  Có thể tạo đối tượng tương tự cách sử dụng sở liệu đối tượng có để nhắm mục tiêu khách hàng tương tự kiếm lợi nhuận 14 Lĩnh vực truyền thông & Giải trí Các cơng ty truyền thơng cần thúc ẩy chuyển đổi kỹ thuật số để phân phối sản phẩm nội dung họ nhanh thị trường Đối với người ảnh hưởng phương tiện truyền thông đại chúng, Big Data giúp tìm quan điểm lượt thích nghệ sĩ để đo lường mức độ phổ biến lĩnh vực truyền thông số  Giúp thu thập thông tin nhu cầu cá nhân  Xác định thiết bị thời gian tạo hiệu cao thơng qua liệu để phân tích  Có thể xác định lý đăng ký hủy đăng ký nội dung đánh giá quan tâm khán giả kiểu nội dung cụ thể  Ứng dụng Big Data giúp đặt nhóm mục tiêu quảng cáo cho cơng ty truyền thơng  Có thể tạo thêm tính để phân tích nhu cầu  Nhà quảng cáo (công ty truyền thông, người tiếng, người phụ trách truyền thơng) chọn địa điểm tần xuất phân phối  Tùy mức độ phổ biến, nghệ sĩ chọn thiết bị, hệ điều hành để phân phối hát video 2.TỔNG QUAN VỀ PYTHON VÀ PHẦN MỀM GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU 2.1.TỔNG QUAN VỀ PYTHON 2.1.1.LỊCH SỬ PYTHON  Guido Van Rossum cho mắt phiên ngôn ngữ Python (phiên 0.9.0) vào năm 1991 Ngôn ngữ bao gồm tính hữu ích số kiểu liệu hàm để xử lý lỗi 15  Python 1.0 mắt vào năm 1994 với hàm để dễ dàng xử lý danh sách liệu, chẳng hạn ánh xạ, lọc lược bỏ  Python 2.0 mắt vào ngày 16 tháng 10 năm 2000, với tính hữu ích cho lập trình viên, chẳng hạn hỗ trợ ký tự Unicode cách xử lý chi tiết danh sách nhanh chóng  Python 3.0 mắt vào ngày tháng 12 năm 2008 Phiên bao gồm tính hàm in hỗ trợ nhiều cho việc phân chia số xử lý lỗi 2.1.2.ĐỊNH NGHĨA PYTHON Python ngơn ngữ lập trình thiên hướng đối tượng bậc cao Loại ngôn ngữ sử dụng cho trình phát triển ứng dụng website khác Ngôn ngữ tạo Guido van Rossum ông phát triển dự án mở.Python lựa chọn hoàn hảo chuyên gia hàng đầu người học lập trình nhờ cấu trúc lịch mà đơn giản Ngôn ngữ đánh giá cao chặt chẽ, mạnh mẽ, nhanh chóng nên có mặt hệ điều hành.Ngơn ngữ lập trình ứng dụng lập trình game đơn giản, thuật tốn phức tạp 2.1.3.ĐẶC ĐIỂM PYTHON Python ngôn ngữ thông dịch Python ngôn ngữ dễ sử dụng Python ngôn ngữ linh hoạt 16 Python ngôn ngữ cấp cao Python ngơn ngữ lập trình hướng đối tượng 2.1.4.LỢI ÍCH PYTHON MANG LẠI  Các nhà phát triển dễ dàng đọc hiểu chương trình Python ngơn ngữ có cú pháp giống tiếng Anh  Python giúp cải thiện suất làm việc nhà phát triển so với ngơn ngữ khác, họ sử dụng dịng mã để viết chương trình Python  Python có thư viện tiêu chuẩn lớn, chứa nhiều dịng mã tái sử dụng cho hầu hết tác vụ Nhờ đó, nhà phát triển không cần phải viết mã từ đầu  Các nhà phát triển dễ dàng sử dụng Python với ngơn ngữ lập trình phổ biến khác Java, C C++  Cộng đồng Python tích cực hoạt động bao gồm hàng triệu nhà phát triển nhiệt tình hỗ trợ tồn giới Nếu gặp phải vấn đề, bạn nhận hỗ trợ nhanh chóng từ cộng đồng  Trên Internet có nhiều tài ngun hữu ích bạn muốn học Python Ví dụ: bạn dễ dàng tìm thấy video, dẫn, tài liệu hướng dẫn dành cho nhà phát triển  Python sử dụng nhiều hệ điều hành máy tính khác nhau, chẳng hạn Windows, macOS, Linux Unix 17 2.2.PHẦN MỀM GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU 2.2.1.GOOGLE COLAB LÀ GÌ? Colaboratory hay cịn gọi Google Colab, sản phẩm từ Google Research, cho phép thực thi Python tảng đám mây, đặc biệt phù hợp với Data analysis, machine learning giáo dục Colab khơng cần u cầu cài đặt hay cấu hình máy tính, thứ chạy thơng qua trình duyệt, bạn sử dụng tài ngun máy tính từ CPU tốc độ cao GPUs TPUs cung cấp cho bạn Sử dụng Google Colab có lợi ích ưu việt như: sẵn sàng chạy Python thiết bị có kết nối Internet mà không cần cài đặt, chia sẻ làm việc nhóm dễ dàng, sử dụng miễn phí GPU cho dự án AI 2.2.2.PYTHON & GOOGLE COLAB TRONG PHÂN TÍCH DỮ LIỆU Google Colab sản phẩm Google Research cho phép người dùng thực thi Python code thơng qua trình duyệt web mà khơng cần trải qua bước cài đặt phức tạp, đặc biệt hồn tồn miễn phí với tất người dùng Google Colab phù hợp cho mục đích phân tích liệu, máy học (machine learning) giáo dục Bạn cần sở hữu tài khoản Google bắt đầu thực hành Python thơng qua Colab Bạn sử dụng kết hợp Colab với ứng dụng đám mây Google Google Drive, Google Sheets tiện lợi đồng qua Internet mà khơng cần máy tính cục Tuy thấy có phàn nàn việc giao diện Colab bị thay đổi nhiều so với trải nghiệm Jupyter Notebook 18

Ngày đăng: 21/08/2023, 14:13