Chúng ta sẽ tìm hiểu về các công cụ phân tích dữ liệu và xử lý bộ dữ liệu lớn, các thuật toán học máy và khai phá dữ liệu, cũng như các phương pháp trực quan hóa dữ liệu để hiểu rõ hơn v
Trang 2BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 10
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.2 Giới thiệu đề tài: 14
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 15
2.1 Các phương pháp excel dùng để khai phá dữ liệu trong học phần: 15
2.1.1 Phương pháp thống kê mô tả: 15
2.1.2 Phương pháp phân tích dự báo 22
2.1.3 Phương pháp phân tích tối ưu 29
2.4.3 Các phương pháp đánh giá phân cụm dữ liệu 61
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 62
3.1 Phân tích dữ liệu 62 3.1.1 Ti n x lý d li u 62 ề ử ữ ệ
Trang 3Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH 85
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 86
TÀI LIỆU THAM KHẢO 87
Trang 4DANH M C HÌNH NH ỤẢ
Hình 2.1: H p tho i Descriptive Statistics 15ộ ạ
Hình 2.2: Giao di n Descriptive Statistics 16ệ
Hình 2.3: Th ng kê mô t s ố ả ố lượng smartphone Samsung Galaxy S23 được bán trong tháng 3 c a củ ửa hàng điện tho i ABC 16ạ
Hình 2.4: Kết quả ví dụ thống kê mô tả 17
Hình 2.5: Th ng kê t ng s ti n mố ổ ố ề ỗi nhân viên bán được trong tháng 3 c a c a hàng ủ ử điện thoại ABC 18
Hình 2.6: Hình 6: Kết quả ví dụ 18
Hình 2.7: H p tho i Consolidate 19ộ ạ Hình 2.8: Giao diện Consolidate 19
Hình 2.9: Th ng kê mô t doanh thu 3 chi nhánh c a cố ả ủ ửa hàng điện tho i ABC 20ạ Hình 2.10: Kết quả ví dụ 20
Hình 2.11: H p tho i Pivot Table 21ộ ạ Hình 2.12: Thống kê bằng Pivot Table 21
Hình 2.13: Kết quả ví dụ 22
Hình 2.14: Lệnh Data Analyst 22
Hình 2.15: L nh Moving Average 22ệ Hình 2.16: Khai báo các thông s 23ố Hình 2.17: K t qu sau khi thế ả ực hiện 23
Hình 2.18: Lệnh Exponential Smoothing 24
Hình 2.19: Khai báo các thông s 24ố Hình 2.20: K t qu sau khi thế ả ực hiện 25
Hình 2.21: Vùng địa ch ch a lỉ ứ ần lượt X và Y 25
Hình 2.22: Đồ thị dạng Scatter 26
Hình 2.23: Đồ ị th sau khi Add Trendline 26
Hình 2.24: Ch n Regression 27ọ Hình 2.25: Khai báo các thông s 28ố Hình 2.26: K t qu sau khi thế ả ực hiện 28
Hình 2.27: B ng s li u 29ả ố ệ Hình 2.28: Thi t l p b ng tính 29ế ậ ả Hình 2.29: H p tho i Solver Parameters 30ộ ạ Hình 2.30: Đưa các ràng buộc vào Add Constraint 30
Hình 2.31: H p tho i Solver Results 31ộ ạ Hình 2.32: K t qu 31ế ả Hình 2.33: Báo cáo kèm l i gi i 32ờ ả Hình 2.34: Các ti n ích trong nhóm Data 33ệ Hình 2.35: Giao di n tiệ ện ích “File” 34
Trang 5Hình 2 36: Giao di n v tiệ ề ện ích “Dataset” 35
Hình 2.37: Giao di n c a tiệ ủ ện ích “Data Table” 36
Hình 2.38: Giao di n tiệ ện ích “Paint Data” 37
Hình 2.39: Giao di n c a tiệ ủ ện ích “Data Sampler” 38
Hình 2.40: Giao di n c a tiệ ủ ện ích “Preprocess” 39
Hình 2.41: Các ti n ích c a nhóm Visualize 40ệ ủ Hình 2.42: Giao di n c a Tree Viewer 41ệ ủ Hình 2.43: Giao di n c a ti n ích Scatter Plot 42ệ ủ ệ
Hình 2.55: SVM (Support Vector Machine) 52
Hình 2.56: Các phương pháp đánh giá mô hình phân lớp 53
Hình 2.57: Ma tr n nhậ ầm lẫn 54
Hình 2.58: ROC 56
Hình 2.59: AUC 56
Hình 2.60: D liữ ệu trước và sau khi được phân c m 57ụ Hình 2.61: Mô hình quá trình phân c m d li u 58ụ ữ ệ Hình 2.62: Phương pháp Agnes 59
Hình 2.63: Phương pháp Diana 59
Hình 3.1: Giao diện các bước tiền x lý d li u 62ử ữ ệ Hình 3.2: Giao diện n p d li u vào ph n m m Orange 62ạ ữ ệ ầ ề Hình 3.3: D li u trong Data Table 63ữ ệ Hình 3.4: Biểu đồ tỷ lệ các loại kho 65
Hình 3.5: Biểu đồ ể ệ ỷ ệ các phương thứ th hi n t lc giao hàng 66
Hình 3.6: Biểu đồ ể ệ ỷ ệ ố th hi n t l s cuộc gọi chăm sóc khách hàng 67
Trang 6Hình 3.12: Biểu đồ ể ệ ỷ ệ th hi n t l các m c khuy n mãi cứ ế ủa đơn hàng 73
Hình 3.13: Biểu đồ ể ệ ỷ ệ th hi n t l theo khối lượng của đơn hàng 74
Hình 3.14: Lấy mẫu từ dữ liệu 75
Hình 3.15: Mẫu dữ liệu huấn luyện 75
Hình 3.16: Lấy mẫu từ dữ liệu 76
Hình 3.17: Mẫu dữ liệu huấn luyện 76
Hình 3.18: Tập dữ liệu huấn luyện 77
Hình 3.19: Mô hình đánh giá các phương pháp dự báo 78
Hình 3.20: Bảng kết quả từ Test and Score 78
Hình 3.21: Mô hình ma trận nhầm lẫn 79
Hình 3.22: K t qu ma tr n nh m l n cế ả ậ ầ ẫ ủa phương pháp hồi quy Logistic 79
Hình 3.23: K t qu ma tr n nh m l n cế ả ậ ầ ẫ ủa phương pháp Tree 80
Hình 3.24: K t qu ma tr n nh m l n cế ả ậ ầ ẫ ủa phương pháp SVM 80
Hình 3.25: Tập dữ liệu thử nghiệm 81
Hình 3.26: Giao diện Select Colunms 82
Hình 3.27: Lấy 100 mẫu dữ liệu để dự báo 83
Hình 3.28: Mô hình dự báo 100 mẫu dữ liệu 83
Hình 3.29: Kết quả dự báo 100 mẫu dữ liệu 84
Trang 7DANH M C B NG BI U ỤẢỂ
Bảng 2.1: Ưu và nhược điểm của mô hình phân l p Tree 52ớ
Bảng 2.2: Ưu và nhược điểm của mô hình phân l p SVM 53ớ
Bảng 2.3: Các phương pháp đánh giá mô hình phân lớp 54Bảng 3.10: B ng t l các mả ỷ ệ ức khuyến mãi của đơn hàng 72
Bảng 3.11: B ng t l theo khả ỷ ệ ối lượng của đơn hàng 73
Trang 8DANH M C T VI T T T ỤỪẾẮ
SVM: Support vector machine ROC: Receiver Operating Characteristic AUC: Receiver Operating Characteristic
Trang 9Lời mở đầu
Trong thời đại thông tin và kỹ thuật số, dữ liệu là một tài nguyên quan trọng và trở thành một yếu tố chính trong quá trình đưa ra quyết định trong khắp mọi lĩnh vực Nhưng để hiểu rõ hơn về dữ liệu và để chuyển đổi nó thành thông tin hữu ích, chúng ta cần sử dụng khoa học dữ liệu Khoa học dữ liệu không chỉ đơn thuần là sử dụng các công cụ và phương pháp để xử lý dữ liệu, mà còn là quá trình khám phá và khai thác tri thức từ dữ liệu để giải quyết các vấn đề thực tiễn Với việc ứng dụng các kỹ thuật và công nghệ mới nhất, khoa học dữ liệu có thể đem lại những giải pháp đột phá trong các lĩnh vực như y tế, tài chính, marketing và nhiều lĩnh vực khác
Trong đồ án này, chúng ta sẽ tìm hiểu về các kỹ thuật và công cụ trong khoa học dữ liệu, áp dụng chúng để giải quyết các vấn đề thực tiễn và khám phá tri thức từ dữ liệu Chúng ta sẽ tìm hiểu về các công cụ phân tích dữ liệu và xử lý bộ dữ liệu lớn, các thuật toán học máy và khai phá dữ liệu, cũng như các phương pháp trực quan hóa dữ liệu để hiểu rõ hơn về những thông tin ẩn trong dữ liệu
Chúng em xin đặc biệt gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - TS Nguyễn Quốc Hùng đã tận tâm giảng dạy cho chúng em những kiến thức đúng đắn về môn học trong suốt thời gian vừa qua Lượng kiến thức này sẽ là tiền đề và hành trang cho toàn thể sinh viên nói chung và từng cá nhân nói riêng trên con đường sau này
Một lần nữa xin chân thành cảm ơn thầy!
Trang 10BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
STT Họ và tên Mã số sinh viên Phân công Mức độ
Trang 11Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI
1.1 Giới thiệu về khoa học dữ liệu: 1.1.1 Dữ liệu là gì ?
Dữ liệu là một tập hợp các thông tin hoặc sự thực về các sự kiện, hiện tượng hoặc đối tượng được thu thập, ghi lại và lưu trữ để sử dụng trong quá trình phân tích, xử lý hoặc truyền tải Dữ liệu có thể là các con số, chữ cái, hình ảnh, âm thanh hoặc bất kỳ loại thông tin nào khác có thể được biểu diễn và xử lý bởi máy tính Trong khoa học dữ liệu, dữ liệu được dùng như một cách biểu diễn hình thức hoá của thông tin về các sự kiện, hiện tượng thích ứng với các yêu cầu truyền nhận, thể hiện và xử lí bằng máy tính Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, bao gồm các cuộc khảo sát, thí nghiệm, hệ thống cảm biến, hồ sơ bệnh nhân, giao dịch tài chính, dữ liệu truyền thông xã hội và nhiều nguồn khác Dữ liệu có thể được tổ chức theo cấu trúc hoặc không có cấu trúc, tùy thuộc vào cách nó được sắp xếp và lưu trữ
1.1.2 Tổng quan về khoa học dữ liệu:
Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học - Mathematical Statistics), công nghệ thông tin (máy học Machine Learning) và tri thức - của lĩnh vực ứng dụng cụ thể
Quy trình phân tích khoa học dữ liệu gồm 5 bước:
Bước 1: Đặt vấn đề và thu thập dữ liệu
- Đầu tiên bạn cần xác định vấn đề hoặc câu hỏi mà bạn muốn giải quyết thông qua dữ liệu
- Giai đoạn này tập trung vào việc thu thập dữ liệu từ các nguồn khác nhau, bao gồm cơ sở dữ liệu, tệp tin, hệ thống cảm biến, mạng xã hội và các nguồn khác Dữ liệu có thể được thu thập bằng cách tiến hành cuộc khảo sát, sử dụng hệ thống cảm biến, thu thập dữ liệu trực tuyến hoặc thông qua các nguồn dữ liệu công cộng
Bước 2: Tiền xử lý dữ liệu
- Kiểm tra và xử lý dữ liệu nhiễu, dữ liệu thiếu hoặc không chính xác - Chuẩn hóa định dạng dữ liệu và đồng nhất các biến trong tập dữ liệu
Bước 3: Chuyển đổi dữ liệu
- Trích xuất các đặc trưng (feature extraction) hoặc tạo ra các đặc trưng mới từ dữ liệu gốc
Trang 12- Áp dụng các phép biến đổi hoặc mã hóa dữ liệu nếu cần thiết
Bước 4: Phân tích dữ liệu
- Áp dụng các phương pháp và mô hình phân tích dữ liệu để tìm kiếm mẫu, tương quan hoặc phát hiện thông tin quan trọng
- Sử dụng các kỹ thuật thống kê, máy học và khai phá dữ liệu để xác định mô hình và tìm ra câu trả lời cho câu hỏi được đặt ra ở bước 1.
Bước 5: Trình bày kết quả phân tích
- Trình bày kết quả phân tích một cách rõ ràng và dễ hiểu bằng cách sử dụng biểu đồ, đồ thị, bảng và báo cáo
- Giải thích ý nghĩa của kết quả, đưa ra nhận định và khuyến nghị dựa trên phân tích dữ liệu
1.1.3 Sự phát triển của khoa học dữ liệu: Quá trình phát triển của khoa học dữ liệu :
- Năm 1962, John W Tukey đã viết bài báo "The Future of Data Analysis" và được coi là một cột mốc quan trọng đánh dấu sự công nhận toàn cầu đầu tiên về Khoa học Dữ liệu Ông có ảnh hưởng lớn đến lĩnh vực thống kê và cũng liên quan mật thiết đến khoa học máy tính John Tukey cũng được biết đến với thuật ngữ "bit" để chỉ các chữ số nhị phân
- Năm 1974, Peter Naur đã xuất bản một bài báo gọi là "Concise Survey of Computer Methods" (Khảo sát ngắn gọn về các phương pháp máy tính) nêu lên khái niệm "Khoa học Dữ liệu" và định nghĩa riêng của ông cho nó: "Khoa học xử lý dữ liệu, sau khi chúng đã được thiết lập, liên quan đến mối quan hệ của dữ liệu với những gì chúng đại diện cho trong các lĩnh vực và khoa học khác."
- Năm 1977, Hiệp hội Quốc tế về Máy tính thống kê (IASC) được thành lập, đánh dấu sự phát triển của các công cụ và phương pháp trong lĩnh vực Khoa học Dữ liệu - Năm 1989, Gregory Piatetsky-Shapiro đã tổ chức Hội thảo Khám phá kiến thức trong
Cơ sở dữ liệu (KDD), mở đường cho việc nghiên cứu và phát triển các phương pháp khai phá dữ liệu
- Năm 1994, tạp chí BusinessWeek xuất bản một số bài viết về "Tiếp thị cơ sở dữ liệu", tăng cường sự nhận thức về vai trò quan trọng của dữ liệu trong lĩnh vực kinh doanh
- Năm 1996, Liên đoàn Quốc tế về Phân loại (IFCS) đã tổ chức hội nghị mang tiêu đề "Khoa học Dữ liệu, phân loại và các phương pháp liên quan", đánh dấu sự hiện diện chính thức của thuật ngữ "Khoa học Dữ liệu" trong tiêu đề hội
- Tháng 11 năm 1997, một nhà nghiên cứu có tên là Chien Fu Jeff Wu chính thức sử -dụng thuật ngữ "Khoa học dữ liệu" trong bài thuyết trình "Statistics = Data Science?" tại Đại học Michigan Trong bài thuyết trình này, Wu đã lấy ví dụ về việc thống kê và nhà thống kê dành phần lớn thời gian để làm việc với dữ liệu, và do đó, ông đề
Trang 13xuất rằng thuật ngữ "thống kê" nên được thay đổi thành "khoa học dữ liệu" và "nhà thống kê" nên trở thành "nhà khoa học dữ liệu"
- Trong những năm 2000, sự phát triển mạnh mẽ của internet và công nghệ thông tin đã tạo ra một lượng lớn dữ liệu Điều này đã thúc đẩy sự quan tâm đến Khoa học Dữ liệu và khai thác thông tin từ các nguồn dữ liệu phức tạp và lớn
- Năm 2001, William S Cleveland đã giới thiệu Khoa học Dữ liệu như một ngành độc lập trong một bài báo mang tên "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics"
- Năm 2008, DJ Patil và Jeff Hammerbacher đã sử dụng thuật ngữ "nhà Khoa học Dữ liệu" để miêu tả công việc của họ tại LinkedIn và Facebook Đây là sự thừa nhận và công nhận rộng rãi cho vai trò và tầm quan trọng của Khoa học Dữ liệu trong công nghệ thông tin và công ty công nghệ
- Năm 2012, tờ Harvard Business Review đã xem Khoa học Dữ liệu là "nghề hót nhất của thế kỷ 21" Điều này gợi ý sự tăng trưởng và sự lan rộng của lĩnh vực này trong các ngành công nghiệp và tổ chức
- Năm 2013, IEEE (Hội Kỹ sư Điện và Điện tử) đã thành lập một Nhóm công tác về Khoa học Dữ liệu và Phân tích nâng cao Đây là một bước quan trọng để đẩy mạnh nghiên cứu và phát triển trong lĩnh vực này
- Năm 2014, IEEE đã tổ chức Hội nghị quốc tế đầu tiên về Khoa học Dữ liệu và Phân tích nâng cao (IEEE International Conference on Data Science and Advanced Analytics)
- Năm 2015, Springer đã thành lập Tạp chí Quốc tế về Khoa học Dữ liệu và Phân tích để xuất bản các tác phẩm ban đầu về lĩnh vực này và các công trình về phân tích dữ liệu lớn
1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu:
- Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng - Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự
đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mô hình học máy
- Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích
- Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng
- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa,
Trang 14chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác
- Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam
1.2 Giới thiệu đề tài:
- Với sự phát triển không ngừng của thương mại điện tử và mô hình giao hàng trực tuyến, việc hiểu và nắm bắt các dữ liệu vận chuyển trong ngành này trở thành một yếu tố quan trọng để cung cấp những dự báo và phân tích thông minh, góp phần tối ưu hóa hoạt động vận chuyển và cung ứng dịch vụ tốt hơn cho khách hàng - Việc thu thập, nắm bắt dữ liệu giúp các doanh nghiệp và nhà quản lý hiểu rõ hơn về
quy trình vận chuyển và phân phối của họ Bằng cách thu thập và phân tích dữ liệu từ các giao dịch mua bán trực tuyến, thông tin về thời gian giao hàng, địa điểm, hình thức vận chuyển, và các yếu tố khác có liên quan, chúng ta có thể tạo ra những dự báo và phân tích chi tiết về hoạt động vận chuyển.
- Vì vậy nhóm quyết định chọn đề tài “Dự báo dữ liệu E Commerce Shipping Data” -giúp dự đoán tình hình cung cấp và nhu cầu vận chuyển trong tương lai, từ đó đảm bảo khả năng cung ứng dịch vụ vượt qua những đỉnh cao thời gian như các ngày lễ hay các sự kiện mua sắm lớn Ngoài ra, phân tích dữ liệu vận chuyển cung cấp thông tin về hiệu suất vận chuyển, tỷ lệ hoàn thành đơn hàng, thời gian giao hàng trung bình và các chỉ số liên quan khác Nhờ đó, các doanh nghiệp có thể xác định các điểm yếu trong chuỗi cung ứng và tìm ra những cải tiến để tăng cường hiệu quả và chất lượng dịch vụ giao hàng
- Để thực hiện dự báo và phân tích dữ liệu e commerce shipping, các phương pháp và -công cụ phân tích dữ liệu tiên tiến được áp dụng Machine learning, data mining, và các thuật toán dự đoán có thể được sử dụng để xử lý dữ liệu lớn và tạo ra mô hình dự báo chính xác Các hệ thống quản lý dữ liệu và phân tích thông minh cũng đóng vai trò quan trọng trong việc thu thập, xử lý và trực quan hóa
Trang 15Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1 Các phương pháp excel dùng để khai phá dữ liệu trong học phần: 2.1.1 Phương pháp thống kê mô tả:
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics :
- Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu Những thông tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu
- Cách thực hiện :
+ Bước 1: Chuẩn bị bảng số liệu cần thống kê
+ Bước 2: Chọn lệnh Data -> Data Analysis -> Descriptive Statistics, sau đó hộp thoại Descriptive Statistics xuất hiện
Hình 2.1: H p tho i Descriptive Statistics ộ ạ + Bước 3: Khai báo các thông số Input và Output Options
Trong đó:
● Input Range : Vùng đưa dữ liệu cần thống kê vào ● Output Range : Vùng dữ liệu kết quả sau khi thống kê● Summary statistics : Thông số thống kê tổng hợp
● Confidence Level for Mean : Độ tin cậy của giá trị trung bình
Trang 16Hình 2.2: Giao diện Descriptive Statistics + Ví dụ minh họa :
Hình 2.3: Th ng kê mô t số ả ố lượng smartphone Samsung Galaxy S23 được bán trong tháng 3 c a củ ửa hàng điện tho i ABC ạ
Trang 172.1.1.2 Báo cáo tổng hợp nhóm với Subtotal
- Chức năng: Cho phép người dùng nhóm dữ liệu theo một trường (hoặc nhiều trường) và tính toán các tổng hợp cho mỗi nhóm Tính năng này cho phép người dùng thực hiện phân tích dữ liệu dễ dàng và nhanh chóng, cung cấp cái nhìn tổng quan về phân phối của các giá trị trong dữ liệu
- Cách thực hiện :
+ Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm + Bước 2: Chọn toàn bộ cơ sở dữ liệu
+ Bước 3: Chọn Data ->Outline -> Subtotal, sau đó hộp thoại Subtotal xuất hiện
+ Bước 4 : Chọn các thông số
Trong đó :
● At each change in : chọn cột gom nhóm
● Use function : chọn hàm thống kê dùng để tổng hợp dữ liệu (sum, count, ) ● Add subtotal to : chọn cột thống kê giá trị
● Replace current subtotals : chọn để thay thế kết quả thống kê trước đó ● Page break between groups : chọn để ngắt trang giữa các nhóm
Hình 2.4: Kết quả ví dụ thống kê mô tả
Trang 18● Summary below data : chọn để kết quả tổng hợp dưới mỗi nhóm”
- Ví dụ minh họa :
Hình 2.5: Th ng kê t ng s ti n mố ổ ố ề ỗi nhân viên bán được trong tháng 3 c a c a hàng ủ ử
điện thoại ABC
Hình 2.6: Hình 1: Kết quả ví dụ
2.1.1.3 Hợp nhất dữ liệu với Consolidate
- Chức năng : cho phép tổng hợp nhiều dữ liệu từ các bảng khác nhau thành 1 bảng duy nhất, giúp người dùng có một cái nhìn toàn diện hơn
- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức: + Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
+ Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc
- Cách thực hiện:
Trang 19+ Bước 1: Chọn vùng chứa kết quả dữ liệu được hợp nhất
+ Bước 2: Chọn Data -> Data Tools -> Consolidate, hộp thoại Consolidate xuất
hiện
Hình 2.7: H p tho i Consolidate ộ ạ
Trong đó:
● Function : chọn hàm tổng hợp
● Reference : để tham chiếu lần lượt các bảng dữ liệu nguồn
● All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp
nhất
● Top row: chọn nếu muốn dùng tên cột của vùng nguồn
● Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng
nguồn
Hình 2.8: Giao diện Consolidate
Trang 20- Ví dụ minh họa :
Hình 2.10: Kết quả ví dụ
Hình 2.9: Th ng kê mô t doanh thu 3 chi nhánh c a cố ả ủ ửa hàng điện tho i ABC ạ
Trang 212.1.1.4 Tổng hợp đa chiều với Pivot Table
- Chức năng : tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau
- Cách thực hiện :
+ Bước 1: Chọn vào ô bất kỳ trên cơ sở dữ liệu
+ Bước 2: Chọn lệnh Insert -> PivotTable, hộp thoại Create PivotTable xuất
Trang 22Hình 2.13: Kết quả ví dụ
2.1.2 Phương pháp phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt (Moving Average)
- Khái niệm: Phương pháp trung bình trượt là một phương pháp được sử dụng để tính toán trung bình của một tập hợp các giá trị theo thời gian Có tác dụng dự đoán xu hướng thay đổi của thông tin Các giá trị này có thể là thông tin tài chính, kinh doanh, y tế hoặc lưu lượng mạng, v.v
- Cách thực hiện trên Excel:
+ Bước 1: Chuẩn bị bảng số liệu cần dự báo
+ Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp
thoại Moving Average
Hình 2.14: Lệnh Data Analyst
Hình 2.15: L nh Moving Average ệ
Trang 23+ Bước 3: Khai báo các thông số Input và Output Options Trong đó:
● Input Range : tham chiếu đến vùng dữ liệu thực tế.
● Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề
cột hay không
● Interval: số lượng các kỳ trước đó muốn tính (w)
● Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số
lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A
● Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả ● Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn
Hình 2.16: Khai báo các thông s ố
Hình 2.17: K t qu sau khi thế ả ực hiện
Trang 242.1.2.2 Phương pháp san bằng mũ (Exponential Smoothing)
- Khái niệm: Là phương pháp ước tính giá trị trung bình của chuỗi thời gian và sử dụng nó để dự báo giá trị tương lai của chuỗi thời gian đó
- Cách thực hiện trên Excel:
+ Bước 1: Chuẩn bị bảng số liệu cần dự báo
+ Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất
hiện hộp thoại Exponential Smoothing
Hình 2.18: Lệnh Exponential Smoothing
+ Bước 3: : Khai báo các thông số Input và Output Options
Trong đó:
● Input Range : tham chiếu đến vùng dữ liệu thực tế
● Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự
bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)
● Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề
hay không
Hình 2.19: Khai báo các thông s ố
Trang 25Hình 2.20: K t qu sau khi thế ả ực hiện 2.1.2.3 Phương pháp hồi quy (Regression)
- Khái niệm: Phương pháp hồi quy là một phương pháp được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hay nhiều biến độc lập
- Cách thực hiện trên Excel:
❖ Cách thực hiện bằng đồ thị
+ Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
+ Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc , và vùng địa chỉ Ychứa biến độc lập X
Hình 2.21: Vùng địa ch ch a lỉ ứ ần lượt X và Y
Trang 26+ Bước 3: Vẽ đồ thị dạng Scatter
Hình 2.22: Đồ thị dạng Scatter
+ Bước 4: Click chuột phải vào data series, chọn Add Trendline
Hình 2.23: Đồ ị th sau khi Add Trendline
+ Bước 5: Tùy chọn hiển thị trong Trendline Options ● Linear: dạng đường thẳng
● Display Equation on chart ● Display R-squared value on chart
❖ Cách thực hiện bằng công cụ Regression: + Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
+ Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression
Trang 27Hình 2.24: Ch n Regression ọ
+ Bước 3: Khai báo các thông số Input và Output Options
Trong đó:
● Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y
● Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều
biến X trong trường hợp hồi quy đa biến)
● Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ
liệu hồi quy
● Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi
quy tuyến tính a = 0
● Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1 α, với α -là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng
● Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả ● New Worksheet Ply: In kết quả ra một sheet khác
● New Workbook: In kết quả ra một file Excel mới ● Residuals: Sai số do ngẫu nhiên
● Standardized Residuals: Chuẩn hóa sai số ● Residuals Plots: Đồ thị sai số
● Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
● Normal Probability Plots: Đồ thị xác suất phân phối chuẩn
Trang 28Hình 2.25: Khai báo các thông s ố
Hình 2.26: K t qu sau khi thế ả ực hiện
Trang 292.1.3 Phương pháp phân tích tối ưu
2.1.3.1 Lập mô hình tối ưu
Tình huống: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:
Hình 2.27: B ng s li u ả ố ệ ● Các bước lập mô hình
Bước 1: Xác định biến quyết định
Gọi 𝑥1 là lượng lúa gạo, 𝑥2là lượng lúa mì (tấn) cần sản xuất.
Bước 2: Xác định hàm mục tiêu
Mục tiêu bài toán là tối đa hóa lợi nhuận ta có: P = P (lúa gạo) + P (lúa mì) = 18𝑥1 + 21𝑥2→ max
Trang 30Bước 2: Chọn lệnh Data → Analysis → Solver
Hình 2.29: H p tho i Solver Parameters ộ ạ Khai báo các tham số của bài toán:
- Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5 - To: Chọn Max vì bài toán này là tối đa hóa lợi nhuận
- By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường
hợp này là $C$4 :$D$4
- Đưa các ràng buộc vào Subject to the Constraints bằng cách nhấn nút Add
Hình 2.30: Đưa các ràng buộc vào Add Constraint
Trang 31Bước 3: Nhấn nút Solve để giải mô hình
Khai báo các lựa chọn trong hộp thoại Solver Results:
- Keep Solver Solution: Giữ kết quả và in ra bảng tính
- Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng
ban đầu
- Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem
lại sau này
- Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và Limits
Hình 2.31: H p tho i Solver Results ộ ạ Bước 4: Nhấn nút OK để xem kết quả
Hình 2.32: K t qu ế ả
Trang 32Các báo cáo kèm theo lời giải:
Hình 2.33: Báo cáo kèm l i gi i ờ ả
2.2 Phần mềm Orange: 2.2.1 Mô tả:
Trong thế giới số hóa ngày nay, dữ liệu trở thành một tài nguyên vô cùng quý giá Với một lượng lớn dữ liệu được tạo ra mỗi giây, việc xử lý và phân tích chúng trở nên tương đối phức tạp và đòi hỏi sự hỗ trợ từ các công cụ mạnh mẽ Trong số các phần mềm xử lý dữ liệu, Orange nổi lên như một giải pháp đáng chú ý Với giao diện người dùng thân thiện và tính năng mạnh mẽ, Orange là một công cụ hữu ích cho các nhà nghiên cứu, nhà khoa học dữ liệu và những người quan tâm đến phân tích dữ liệu mà không cần có kiến thức chuyên sâu về lập trình
“
2.2.2 Tính năng:
Orange là một phần mềm mã nguồn mở, mang đến cho người dùng khả năng khám phá và tận dụng dữ liệu một cách trực quan và dễ dàng Với giao diện người dùng đồ họa thân thiện, nó cho phép người dùng thực hiện các tác vụ như tiền xử lý dữ liệu, trích xuất đặc trưng, mô hình hóa và đánh giá dữ liệu một cách hiệu quả.
Trang 33Orange cho phép người dùng kết hợp các thành phần xử lý dữ liệu trong quy trình làm việc, gọi là "workflows" Người dùng có thể xây dựng các workflows bằng cách kết nối các hộp công cụ và tham số của chúng để tạo ra một chuỗi xử lý dữ liệu hoàn chỉnh Điều này giúp người dùng tiết kiệm thời gian và công sức trong việc xử lý dữ liệu và thực hiện phân tích
Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng , lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học , trực quan hóa các phần tử dữ liệu, …
2.2.2.1 Nhóm Data
Nhóm data: Dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process)
Hình 2.34: Các ti n ích trong nhóm Data ệ Một số tiện ích thường sử dụng của nhóm Data
Tiện ích "File" đọc tệp dữ liệu đầu vào (bảng dữ liệu với các phiên bản dữ liệu) và gửi tập dữ liệu đến kênh đầu ra của nó Lịch sử của các tệp được mở gần đây nhất được duy trì trong tiện ích Tiện ích này cũng bao gồm một thư mục chứa các bộ dữ liệu mẫu được cài đặt sẵn với Orange
Trang 34Hình 2.35: Giao di n tiệ ện ích “File”
1 Duyệt qua các tệp dữ liệu đã mở trước đó hoặc tải bất kỳ tệp mẫu nào 2 Duyệt tìm tệp dữ liệu
3 Tải lại tệp dữ liệu hiện được chọn
4 Chèn dữ liệu từ các địa chỉ URL, bao gồm cả dữ liệu từ Google Trang tính 5 Thông tin về tập dữ liệu được tải: kích thước tập dữ liệu, số lượng và loại tính
năng dữ liệu
6 Thông tin bổ sung về các tính năng trong tập dữ liệu Các tính năng có thể được chỉnh sửa bằng cách nhấp đúp vào chúng
7 Duyệt bộ dữ liệu tài liệu 8 Tạo báo cáo.”
Trang 35Tiện ích "Datasets" là một công cụ mạnh mẽ để truy cập và sử dụng các tập dữ
liệu mẫu có sẵn Tệp được tải xuống bộ nhớ cục bộ và do đó khả dụng ngay lập tức ngay cả khi không có kết nối internet Mỗi bộ dữ liệu được cung cấp một mô tả và thông tin về kích thước dữ liệu, số lượng phiên bản, số lượng biến, mục tiêu và thẻ
Hình 2 36: Giao di n v tiệ ề ện ích “Dataset” 1 Thông tin về số lượng bộ dữ liệu có sẵn
2 Nội dung của bộ dữ liệu có sẵn Mỗi bộ dữ liệu được mô tả với kích thước, số lượng phiên bản và biến, loại biến mục tiêu và thẻ
3 Mô tả chính thức của tập dữ liệu đã chọn
4 Nếu Send data tự động được đánh dấu, tập dữ liệu đã chọn sẽ tự động được truyền đạt
Tiện ích “Data Table” nhận một hoặc nhiều bộ dữ liệu trong đầu vào của nó và trình bày chúng dưới dạng bảng tính Data Table là nơi lưu trữ và quản lý dữ liệu trong Orange và cho phép bạn có thể thêm, xóa, sắp xếp và chỉnh sửa dữ liệu trong bảng dữ liệu
Trang 36Hình 2.37: Giao di n c a tiệ ủ ện ích “Data Table”
1 Tên của tập dữ liệu Thể hiện dữ liệu nằm trong các hàng và các giá trị thuộc tính của chúng trong các cột
2 Thông tin về kích thước và số lượng tập dữ liệu hiện tại và các loại thuộc tính 3 Giá trị của các thuộc tính liên tục có thể được hiển thị bằng các thanh; màu sắc
có thể được quy cho các lớp khác nhau
4 Các bản dữ liệu (hàng) có thể được chọn và gửi đến kênh đầu ra của tiện ích con 5 Sử dụng nút Restore Original Order để sắp xếp lại các bản dữ liệu sau khi sắp
xếp dựa trên thuộc tính 6 Tạo báo cáo
7 Khi tính năng tự động gửi được bật, tất cả các thay đổi sẽ tự động được thông báo tới các tiện ích con khác Nếu không, nhấn Send Selected Rows
Tiện ích “Paint Data” hỗ trợ tạo tập dữ liệu mới bằng cách đặt trực quan các điểm dữ liệu trên mặt phẳng hai chiều Các điểm dữ liệu có thể được đặt trên mặt phẳng riêng lẻ (Put) hoặc với số lượng lớn hơn bằng cách chải (Brush) Các điểm dữ liệu có thể thuộc về các lớp nếu dữ liệu được dự định sử dụng trong học có giám sát
Trang 37Hình 2.38: Giao di n tiệ ện ích “Paint Data” 1 Đặt tên cho các trục và chọn một lớp để vẽ các thể hiện dữ liệu
- Định vị lại các điểm dữ liệu với Jitter (lây lan) và Nam châm (tiêu điểm) 3 Đặt lại về Dữ liệu đầu vào
4 Lưu hình ảnh vào máy tính của bạn ở định dạng svg hoặc png 5 Tạo báo cáo
Trang 386 Đánh dấu vào ô bên trái để tự động thực hiện các thay đổi đối với các tiện ích khác hoặc nhấn Gửi để áp dụng chúng
Tiện ích “Data Sampler” thực hiện một số phương pháp lấy mẫu dữ liệu Nó xuất ra một bộ dữ liệu được lấy mẫu và một bộ dữ liệu bổ sung (với các phiên bản từ bộ đầu vào không có trong bộ dữ liệu được lấy mẫu) Đầu ra được xử lý sau khi tập dữ liệu đầu vào được cung cấp và Sample Data được nhấn
Hình 2.39: Giao di n c a tiệ ủ ện ích “Data Sampler”
Trang 391 Thông tin về tập dữ liệu đầu vào và đầu ra 2 Phương pháp lấy mẫu mong muốn:
- Fixed proportion of data trả về một tỷ lệ phần trăm đã chọn của toàn bộ dữ liệu - Fixed sample size trả về một số phiên bản dữ liệu đã chọn với cơ hội đặt Sample
with replacement, luôn lấy mẫu từ toàn bộ tập dữ liệu Với việc thay thế, bạn có thể tạo nhiều phiên bản hơn số lượng có sẵn trong tập dữ liệu đầu vào - Cross Validation: phân vùng các phiên bản dữ liệu thành số tập hợp con bổ sung
được chỉ định Theo lược đồ xác thực điển hình, tất cả các tập hợp con ngoại trừ tập hợp con do người dùng chọn đều được xuất dưới dạng Data Sample và tập hợp con đã chọn sẽ chuyển đến Remaining Data
- Bootstrap suy ra mẫu từ thống kê dân số
3 Replicable sampling duy trì lấy mẫu có thể được thực hiện giữa những người dùng, trong khi stratify sample bắt chước thành phần của tập dữ liệu đầu vào 4 Nhấn Sample Data để xuất mẫu dữ liệu
Tiện ích “Preprocess” là yếu tố quan trọng để đạt được kết quả phân tích chất lượng cao hơn Tiện ích Preprocess cung cấp một số phương pháp tiền xử lý có thể được kết hợp trong một luồng xử lý tiền xử lý duy nhất Một số phương pháp được cung cấp dưới dạng các tiện ích riêng biệt, cung cấp các kỹ thuật tiên tiến hơn và điều chỉnh tham số linh hoạt hơn
Hình 2.40: Giao di n c a tiệ ủ ện ích “Preprocess”
Trang 401 Danh sách các bộ tiền xử lý Nhấp đúp vào bộ tiền xử lý mà bạn muốn sử dụng và xáo trộn thứ tự của chúng bằng cách kéo chúng lên hoặc xuống Bạn cũng có thể thêm bộ tiền xử lý bằng cách kéo chúng từ menu bên trái sang bên phải
Tiện ích “Tree Viewer” là một tiện ích linh hoạt với hình ảnh 2 chiều của cây phân loại và hồi quy