Dữ liệu này có thể được sử dụng để phân tích hành vi mua sắm của khách hàng, đánhgiá hiệu quả kinh doanh của các dòng sản phẩm, và đưa ra các quyết định chiến lược vềmarketing và phát tr
TỔNG QUAN
Giới thiệu đề tài
Báo cáo tập trung vào tiền xử lý dữ liệu từ bộ “ Supermarket Sales Dataset”, một bộ dữ liệu từ hệ thống bán hàng của một chuỗi siêu thị ở Myanmar Dữ liệu này ghi lại thôgn tin chi tiết về giao dịch từ ba chi nhanh trong khoảng thời gian từ tháng 1 đến tháng 3 năm 2019
Báo cáo này nhấn mạnh vai trò của tiền xử lý dữ liệu trong việc nâng cao chất lượng phân tích, từ đó hỗ trợ các chiến lược kinh doanh hiệu quả Dữ liệu sau khi tiền xử lý trở nên đáng tin cậy hơn, giúp phân tích hành vi khách hàng, tối ưu hoá doanh thu và cải thiện trải nghiệm khách hàng
1 Lý do chọn đề tài
Trong thời đại kinh doanh khốc liệt như ngày nay, bộ dữ liệu bán hàng đóng vai trò quan trọng trong việc hỗ trợ các doanh nghiệp hiểu rõ hơn về hoạt động kinh doanh của mình, từ đó đưa ra các quyết định chiến lược một cách chính xác và hiệu quả hơn.
Sự lựa chọn của đề tài này “ Bộ dữ liệu bán hàng siêu thị” từ một chuỗi siêu thị ở Myanmar giúp cung cấp thông tin quan trọng về các yếu tố nhân khẩu học và cái nhìn toàn diện về hoạt động bán hàng và phương thức thanh toán Nghiên cứu bộ dữ liệu này sẽ giúp doanh nghiệp bán lẻ nắm bắt yếu tố ảnh hưởng đến quyết định mua hàng, từ đó nâng cao trải nghiệm và sự hài lòng của khách hàng Mặt khác, hiểu biết sâu sắc về những yếu tố quản lý kho, tối ưu hóa chiến lược bán hàng, và lập kế hoạch marketing hiệu quả tạo ra các chiến lược hiệu quả hơn để giữ chân khách hàng. Để đạt được hiệu quả dự đoán cao, việc tiền xử lý dữ liệu đóng vai trò then chốt, giúp làm sạch dữ liệu, từ đó tăng độ tin cậy và chính xác cho việc phân tích sau này.
Mục tiêu của nghiên cứu này là khai thác và phân tích dữ liệu bán hàng trong siêu thị để rút ra những hiểu biết sâu sắc về hành vi khách hàng, xu hướng tiêu dùng, và các yếu tố ảnh hưởng đến doanh thu của người tiêu dùng bằng cách xem xét nhiều khía cạnh khác nhau bao gồm nhân khẩu học của khách hàng và các yếu tố liên quan đến dịch vụ
Dữ liệu này có thể được sử dụng để phân tích hành vi mua sắm của khách hàng, đánh giá hiệu quả kinh doanh của các dòng sản phẩm, và đưa ra các quyết định chiến lược về marketing và phát triển sản phẩm Việc phân tích này có thể giúp xác định xu hướng tiêu dùng, nhu cầu của khách hàng và tối ưu hóa các chiến lược kinh doanh trong tương lai
3 Đối tượng và phạm vi Đối tượng là các khách hàng tại một chuỗi siêu thị ở Myanmar với các dòng sản phẩm: bao gồm các loại như "Health and beauty" (Sức khỏe và làm đẹp), "Electronic accessories" (Phụ kiện điện tử), "Home and lifestyle" (Nhà và phong cách sống), "Food and beverages" (Thực phẩm và đồ uống), và "Fashion accessories" (Phụ kiện thời trang) Giao dịch bằng các phương thức thanh toán được sử dụng là "Cash" (Tiền mặt), "Credit card" (Thẻ tín dụng), và "Ewallet" (Ví điện tử)
Phạm vi tại ba thành phố lớn: Yangon, Naypyitaw, và Mandalay, với thông tin chi tiết về từng chi nhánh siêu thị Tất cả các giao dịch được thực hiện trong khoảng thời gian từ tháng 1 đến tháng 3 năm 2019.
Ngoài ra, chúng tôi sẽ khám phá cung cấp các giải pháp quản lý tồn kho, dự đoán nhu cầu, và tăng cường hiệu quả sử dụng nguồn lực cho doanh nghiệp bán lẻ, từ đó giúp doanh nghiệp tối ưu hóa doanh thu và tăng cường cạnh tranh trên thị trường.
Và cuối cùng thông qua việc tiền xử lý dữ liệu chúng em có thể hiểu xâu hơn về các bước quan trọng như làm sạch dữ liệu, biến đổi dữ liệu và rời rạc hóa dữ liệu Bước làm sạch dữ liệu giúp loại bỏ dữ liệu nhiễu, xử lý dữ liệu bị thiếu và loại bỏ các giá trị không hợp lệ. Bước biến đổi dữ liệu giúp chúng ta chuyển đổi dữ liệu thành định dạng phù hợp để có thể áp dụng các phương pháp phân tích Cuối cùng, việc rời rạc hóa dữ liệu giúp chúng ta phân loại dữ liệu thành các nhóm, từ đó làm cho dữ liệu trở nên sạch và đáng tin cậy hơn.
Những bước này cùng nhau đã cải thiện chất lượng và độ chính xác của quá trình nghiên cứu Dữ liệu sau khi qua các bước tiền xử lý này trở nên dễ dàng hơn trong việc áp dụng các phương pháp phân tích và đưa ra những kết luận có ý nghĩa hơn Qua việc phân cụm và phân loại để phân tích bán hàng, nghiên cứu hành vi của khách hàng và mô hình dự đoán Nó có thể được sử dụng cho các tác vụ như phân khúc khách hàng, phân tích xu hướng và dự báo
Tổng quan và mô tả tập dữ liệu
1 Khái quát bộ dữ liệu
Bộ dữ liệu "Supermarket Sales" được lấy từ Kaggle, bộ dữ liệu được sử dụng trong phân tích dự án này được lưu trữ trong một tệp CSV, được lấy từ Kaggle và thuộc sở hữu của Fares Ashraf (Tác giả).
Cung cấp thông tin bán hàng của một siêu thị trong khoảng thời gian cụ thể Dữ liệu bao gồm các giao dịch thực tế, được ghi nhận và quản lý bởi hệ thống bán hàng của siêu thị. Mỗi bản ghi thể hiện một giao dịch bao gồm các thông tin chi tiết như ngày giao dịch, chi nhánh, giới tính khách hàng, loại sản phẩm, số lượng mua, giá trị hóa đơn, và phương thức thanh toán Việc thu thập dữ liệu từ các giao dịch trực tiếp này giúp cung cấp góc nhìn chân thực và phong phú về hành vi mua sắm, doanh thu và hiệu suất bán hàng của doanh nghiệp.
Bộ dữ liệu có tính thực tế cao, hỗ trợ cho việc nghiên cứu và phân tích trong lĩnh vực kinh doanh bán lẻ Bằng cách phân tích bộ dữ liệu này, các doanh nghiệp có thể hiểu sâu hơn về mô hình mua hàng của khách hàng, xác định xu hướng thị trường và đưa ra quyết định sáng suốt để nâng cao chiến lược tiếp thị và tối ưu hoá các sản phẩm cung cấp.
Hình 1: Bộ dữ liệu bán hàng siêu thị
ID hóa đơn: Một mã định danh duy nhất cho mỗi giao dịch.
Chi nhánh: Vị trí chi nhánh của siêu thị (ví dụ: Yangon, Naypyitaw, Mandalay).
Thành phố: Thành phố nơi có chi nhánh.
Loại khách hàng: Khách hàng 'Thành viên' hoặc 'Bình thường'.
Giới tính: Giới tính của khách hàng.
Dòng sản phẩm: Danh mục sản phẩm (ví dụ: Sức khỏe & Sắc đẹp, Phụ kiện điện tử).
Đơn giá: Giá mỗi đơn vị sản phẩm.
Số lượng: Số lượng mặt hàng đã mua.
Thuế 5%: Số tiền thuế dựa trên tỷ lệ 5%.
Tổng cộng: Tổng số tiền giao dịch đã bao gồm thuế.
Thời gian: Thời gian giao dịch.
Thanh toán: Phương thức thanh toán (Tiền mặt, Ví điện tử, Thẻ tín dụng).
COGS (Chi phí hàng hóa đã bán): Chi phí thô của các sản phẩm đã bán.
Tỷ lệ phần trăm lợi nhuận gộp: Được đặt ở mức 4,7619%.
Tổng thu nhập: Lợi nhuận từ mỗi giao dịch.
Đánh giá của khách hàng: Đánh giá sự hài lòng của khách hàng (tra khỏi 10).
2 Định nghĩa thuộc tính biến
Bộ dữ liệu bán hàng siêu thị : Bộ dữ liệu này ghi lại hồ sơ giao dịch chi tiết từ một chuỗi siêu thị tại Myanmar trên ba thành phố: Yangon, Naypyitaw và Mandalay Bộ dữ liệu này cung cấp cái nhìn toàn diện về hoạt động bán hàng, thông tin nhân khẩu học của khách hàng và phương thức thanh toán từ tháng 1 đến tháng 3 năm 2019.
Cấu trúc của dữ liệu "Supermarket Sales" bao gồm các tên trường dữ liệu với các thông tin chính với các đặc điểm sau:
Tên trường dữ liệu Ý nghĩa Kiểu dữ liệu
Invoice ID Mã hóa đơn object
Customer Type Loại khách hàng object
Product Line Dòng sản phẩm object
Unit Price Giá đơn vị float64
Payment Phương thức thanh toán object
COGS Giá vốn hàng bán float64
Percentage Tỷ lệ lãi gộp float64
Gross Income Lợi nhuận gộp float64
Bảng 1: Cấu trúc dữ liệu
3 Mô tả bài toán tiền xử lý dữ liệu
Sử dụng ngôn ngữ lập trình Python và các thư viện của Python như: Numpy, Pandas và phần mềm Jupyter Notebook để thực hiện khám phá dữ liệu: kiểm tra kích thước, kiểu dữ liệu, các giá trị khác nhau, số lượng giá trị bị thiếu, giá trị ngoại lai, v.v
Làm sạch dữ liệu o Xử lý giá trị bị thiếu (Missing Values): Loại bỏ hoặc thay thế các giá trị bị thiếu bằng giá trị trung bình, trung vị, hoặc các kỹ thuật phù hợp khác. o Xử lý ngoại lai (Outliers): Sử dụng các phương pháp như IQR (Interquartile Range) hoặc Z-score để xác định và xử lý các giá trị ngoại lai. o Xử lý dữ liệu không nhất quán
Biến đổi dữ liệu: Thực hiện kỹ thuật xây dựng thêm thuộc tính (feature engineering) để tạo ra các thuộc tính mới có ý nghĩa từ dữ liệu gốc Ví dụ, có thể tính "Doanh thu tổng" từ "Đơn giá" và "Số lượng bán ra"
Rời rạc hóa dữ liệu: Binning và Phân cụm
Phân tích và khám phá: Tóm tắt và trực quan hóa dữ liệu để hiểu rõ các mẫu, xu hướng, và mối quan hệ.
Thực hiện các chức năng phân tích để đưa ra các số liệu có ý nghĩa cho dữ liệu thu được thông tin và hỗ trợ cho việc ra quyết định hoặc các bước phân tích và mô hình hóa tiếp theo.
CƠ SỞ LÝ THUYẾT
Mô tả quy trình
Thống kê mô tả là bước đầu tiên và cơ bản trong quá trình phân tích dữ liệu, dùng các thuật toán khác nhau để thống kê và mô tả dữ liệu giúp chúng ta hiểu rõ hơn về bản chất và cấu trúc của dữ liệu thông qua các số liệu thống kê đơn giản.
- Count đề cập đến việc đếm số lượng các mục không rỗng hay không null trong mỗi cột của bộ dữ liệu
- Mode là giá trị xuất hiện nhiều lần nhất trong tập dữ liệu, áp dụng tốt cho dữ liệu phân loại.
- "Mean" hay giá trị trung bình, được tính bằng cách cộng tổng tất cả các giá trị trong cột và chia cho số lượng các giá trị đó
- Standard Deviation (Std) Độ lệch chuẩn được tính là căn bậc hai của phương sai, giúp xác định mức độ phân tán giữa mỗi điểm dữ liệu so với giá trị trung bình.
- "Min" chỉ giá trị nhỏ nhất tìm thấy trong mỗi cột Đây là thông tin quan trọng vì nó cho thấy giới hạn dưới của dữ liệu và có thể giúp xác định các giá trị cực trị hoặc outliers.
- "Max" là giá trị lớn nhất trong mỗi cột Max cho chúng ta biết giới hạn trên của dữ liệu, giúp xác định điểm kết thúc của dải giá trị Đây là thông tin cần thiết để hiểu về giới hạn trên của dữ liệu và cũng có thể dùng để phát hiện các giá trị cực trị hoặc outliers.
- Điểm tứ phân vị thứ nhất (Q1): Phân vị thứ 25, hay tử phân vị đầu tiên, là giá trị mà tại đó 25% dữ liệu nằm dưới nó Đây là một cách đo lường sự phân phối của dữ liệu và cung cấp thông tin về sự tập trung dữ liệu ở phía dưới của phổ.
- Điểm tứ phân vị thứ hai (Q2): Phân vị thứ 50, hay còn gọi là trung vị, là giá trị ở giữa khi dữ liệu đã được sắp xếp theo thứ tự Trung vị không bị ảnh hưởng bởi các giá trị cực trị và thường được sử dụng như một đại diện tốt hơn cho xu hướng trung tâm khí dữ liệu không đối xứng
- Điểm tứ phân vị thứ ba (Q3): Phân vị thứ 75, hay tứ phân vị thứ ba, là giá trị mà tại đó 75% dữ liệu nằm dưới nó Điều này cung cấp cái nhìn về sự tập trung dữ liệu ở phía trên của phổ
Sử dụng các điểm tứ phân vị này, chúng ta có thể xác định phân bố dữ liệu, nhận biết giá trị ngoại lệ và thực hiện các phân tích khác trên tập dữ liệu.
2.1 Xử lý dữ liệu thiếu (Missing Data)
Dữ liệu thiếu là tình trạng thông tin không đầy đủ, gây khó khăn trong phân tích và mô hình hóa Các phương pháp để xử lý tình trạng này, bao gồm:
- Kiểm tra dữ liệu thiếu: sử dụng các hàm như isnull() trong Pandas để kiểm tra các giá trị thiếu
- Tiến hành loại bỏ những hàng, cột chứa dữ liệu thiếu, phù hợp khi lượng dữ liệu thiếu không đáng kể.
- Thay thế dữ liệu thiếu bằng cách sử dụng giá trị trung bình, trung vị, hoặc mốt, hoặc một giá trị cố định.
- Lưu dữ liệu đã xử lý.
- Phân tích đánh giá ảnh hưởng của dữ liệu thiếu đến kết quả phân tích để hiểu cách thức và mức độ mà nó có thể ảnh hưởng.
2.2 Nhận diện Outliers và giảm nhiễu
Phần tử biên là những quan sát lệch lạc so với phần còn lại của dữ liệu, có thể là do sai sót hoặc biến thể tự nhiên Phương pháp nhận diện phần tử biên dựa vào:
Phân bố thống kê: Sử dụng các phép đo thống kê như Z-scores để đánh giá mức độ lệch của dữ liệu từ trung bình Dùng điểm Z để xác định dữ liệu có giá trị cao hoặc thấp bất thường so với trung bình.
Mật độ: Phân tích mật độ dữ liệu để xác định các vùng mật độ thấp, nơi outliers có thể tồn tại.
Độ lệch: Đánh giá mức độ độ lệch của dữ liệu từ một mô hình dự đoán hoặc xu hướng cụ thể Loại bỏ dữ liệu nằm ngoài một số lượng độ lệch chuẩn nhất định từ trung bình.
Quan sát boxplot: Hiển thị phân phối của dữ liệu qua các quartiles và "râu" của boxplot thường được sử dụng để xác định giá trị ngoại lai Những điểm nằm ngoài
"râu" thường được coi là outliers
IQR (Interquartile Range): Phạm vi tứ phân vị (IQR) là khoảng giữa tử phân vị thứ nhất (Q1) và tử phân vị thứ ba (Q3) Sử dụng phạm vi giữa tử phân vị thứ nhất và thứ ba để xác định và loại bỏ outliers Phương pháp này xác định outliers dựa trên: IQR
Phần tử biên được xác định là những giá trị nằm ngoài khoảng:
Outliers phía dưới: Dưới Q1 − 1.5 × IQR Outliers phía trên: Trên Q3 + 1.5 × IQR
Phân cụm K-means phân tách dữ liệu chưa được gắn nhãn thành nhiều nhóm khác nhau, được gọi là cụm, bằng cách xác định các tính năng tương tự và các mẫu chung trong tập dữ liệu K-means phân cụm dữ liệu thành các nhóm dựa trên khoảng cách với tâm cụm Sau khi phân cụm:
Các điểm nằm xa các trọng tâm cụm có thể là outliers vì chúng không khớp với bất kỳ cụm nào.
Phương pháp này hữu ích trong các dữ liệu phức tạp hoặc dữ liệu không tuân theo phân phối chuẩn.
2.3 Xử lý dữ liệu không đồng nhất (Inconsistent Data)
Dữ liệu không nhất quản xuất hiện khi có sự không đồng nhất về định dạng, kiểu dữ liệu, hoặc khi dữ liệu bị lặp lại.
Chuẩn hóa: Đồng bộ hóa định dạng và kiểu dữ liệu để tất cả dữ liệu đều theo một tiêu chuẩn chung.
Làm sạch dữ liệu: Áp dụng các quy trình để kiểm tra và sửa chữa những không nhất quán trong dữ liệu.
Phân tích sự phụ thuộc: Xác định các mối quan hệ và sự phụ thuộc giữa các thuộc tính để phát hiện và giải quyết sự không nhất quán
Là quá trình biến đổi hay kết hợp dữ liệu vào những dạng thích hợp cho quá trình phân tích và khai phá dữ liệu
PHÂN TÍCH VÀ TRỰC QUAN HOÁ DỮ LIỆU
Quy trình nghiên cứu - Framework
Thực hành phân tích dữ liệu
1.1 Mô tả dữ liệu chung
Trước khi đi sâu vào chi tiết xử lý dữ liệu, điều cần thiết là phải xem xét tổng quát tập dữ liệu Điều này có nghĩa là hiểu cách dữ liệu được tổ chức, mỗi cột biểu diễn nội dung gì và cấu trúc tổng thể, giúp chúng ta làm quen với dữ liệu trước khi đi sâu hơn vào các bước xử lý.
Thư viện nhập khẩu: Chúng tôi đang đưa vào các công cụ cần thiết để làm việc với dữ liệu một cách hiệu quả Thư viện pandas cung cấp các cấu trúc dữ liệu mạnh mẽ và các công cụ phân tích dữ liệu, cho phép chúng tôi thao tác và phân tích dữ liệu dễ dang, đặc biệt là ở dạng bảng Trong khi đó, numpy là nền tảng cho điện toán số, cung cấp hỗ trợ cho các mảng và ma trận đa chiều lớn, cùng với một bộ sưu tập các hàm toán học để vận hành trên các mảng này một cách hiệu quả Bằng cách nhập các thư viện này, chúng tôi đang thiết lập nền tảng cho các tác vụ thao tác và phân tích dữ liệu tiếp theo.
Tải tập dữ liệu: Trong bước tiền xử lý này, tập dữ liệu được tải vào Pandas DataFrame bằng hàm pd.read_csv() Mục đích của bước này là đưa dữ liệu vào định dạng dễ làm việc trong Python Bẳng cách tải tập dữ liệu vào DataFrame, có thể thực hiện nhiều tác vụ phân tích và thao tác dữ liệu khác nhau, chẳng hạn như dọn dẹp, chuyển đổi và tóm tắt dữ liệu Đặt low_memoryse có thể hữu ích khi làm việc với các tập dữ liệu lớn để đảm bảo rằng toàn bộ tập dữ liệu được tải vào bộ nhớ cùng một lúc, thay vì thành các phần nhỏ hơn, điều này có thể giúp tránh các lỗi bộ nhớ tiềm ẩn hoặc các vấn đề về hiệu suất.
Hiển thị 5 hàng đầu tiên: Phương thức head() được sử dụng để hiển thị 10 hàng đầu tiên của tập dữ liệu
Hiển thị 5 hàng cuối cùng: Phương thức tail() được sử dụng để hiển thị 10 hàng cuối cùng của tập dữ liệu.
1.2.Mô tả dữ liệu thống kê
Trong bước mô tả dữ liệu thống kê, các biện pháp thống kê cơ bản được tính toán cho các cột số trong tập dữ liệu Các biện pháp này bao gồm tính toán các số liệu thống kê như trung bình, trung vị, độ lệch chuẩn và tứ phân vị Các biện pháp thống kê này cung cấp thông tin chi tiết về xu hướng trung tâm và phân phối của dữ liệu, hỗ trợ xác định các giá trị ngoại lai hoặc bất thường
Đầu ra của df.info(): Phương thức info() cung cấp tổng quan về cấu trúc của tập dữ liệu, bao gồm các kiểu dữ liệu và số lượng giá trị không null cho mỗi cột
Kiểu dữ liệu của từng cột: o Object - Chuỗi gồm: Branch, City, Customer type, Gender, Product line, Date, Time, Payment o float64 - số thực gồm: Unit Price, Tax 5%, Sales o int64 - số nguyên gồm: Quantity, Cogs, Gross margin percentage, Gross income, Rating
Đầu ra của df.describe(): Phương thức describe() cung cấp số liệu thống kê cơ bản cho các cột số (kiểu dữ liệu: int hoặc float)
Đầu ra của df.describe(include='object'): Phần đầu ra này cung cấp số liệu thống kê cho các cột theo danh mục (kiểu dữ liệu: đối tượng)
Giải thích o Giá trị trung bình (Mean) phản ánh mức độ trung tâm của dữ liệu, giúp có cái nhìn tổng quan về "xu hướng" chính của dữ liệu Trong dữ liệu này:
Unit price: Trung bình giá mỗi đơn vị sản phẩm là 55.67.
Quantity: Trung bình số lượng mua mỗi lần giao dịch là khoảng 5.51 sản phẩm.
Tax 5% : Trung bình số tiền thuế là 15.38.
Sales: Trung bình giá trị bán hàng mỗi giao dịch là 322.97.
COGS: Trung bình giá vốn hàng bán (Cost of Goods Sold) là 307.59. o Độ lệch chuẩn (Standard Deviation - std) đo độ phân tán của dữ liệu so với giá trị trung bình Độ lệch chuẩn lớn → Dữ liệu phân tán nhiều, không đồng đều Độ lệch chuẩn nhỏ → Dữ liệu tập trung gần giá trị trung bình.Giúp xác định mức độ biến động của các yếu tố Ví dụ: Sales có độ lệch chuẩn lớn, nên doanh thu mỗi giao dịch thay đổi nhiều Trong dữ liệu này:
Unit price (26.49): Giá mỗi đơn vị có sự thay đổi khá lớn xung quanh trung bình.
Quantity (2.92): Số lượng mua thay đổi ít hơn so với giá đơn vị.
Sales (245.89): Doanh thu có sự dao động rất lớn, do phụ thuộc vào số lượng và giá trị từng mặt hàng. o Bách phân vị (Percentile) chia dữ liệu thành các phần bằng nhau để phân tích phân phối Cung cấp thông tin về sự phân bố của dữ liệu, từ đó giúp nhận diện dữ liệu lệch
(skewed) hay không Ví dụ: Nếu khoảng cách giữa Q3 - Q1 lớn hơn nhiều so với Q2
- Q1, dữ liệu có xu hướng lệch Trong dữ liệu này (cột Quantity):
25% (5.92): 25% giao dịch mua số lượng dưới 5.92 sản phẩm.
50% (12.08): nghĩa là 50% giao dịch dưới con số này.
75% (22.44): 75% giao dịch dưới 22.44 sản phẩm.
Max (49.65): Lượng sản phẩm cao nhất trong một giao dịch là 49.65.
Phát hiện Outliers: Các giá trị Sales quá cao hoặc quá thấp có thể là giao dịch bất thường. Kiểm tra tính phân phối của doanh thu, hộp dài ngắn cho biết độ phân tán của doanh thu. Nếu giá trị bị lệch về một phía (skewed), dữ liệu có thể không đồng đều.
Theo quan sát: o Trục tung thể hiện giá trị chuẩn hóa của doanh thu (Sales) Phần lớn giá trị doanh thu nằm trong khoảng 0.2 - 0.6. o Hộp thể hiện 50% dữ liệu nằm trong khoảng giữa Q1 (25%) và Q3 (75%). o Median (trung vị): Đường nằm ngang trong hộp, cho thấy doanh thu trung bình là khoảng 0.4 (giá trị chuẩn hóa). o Outliers (giá trị ngoại lai): Một số giá trị doanh thu vượt ngoài giới hạn whiskers (> 0.9) Có thể là các giao dịch bất thường hoặc khách hàng mua sắm số lượng lớn.
Hình : Box Plot for Sales
So sánh sự phân phối doanh thu (Sales) giữa các chi nhánh
Theo quan sát: o Trục tung là giá trị doanh thu (Sales) chuẩn hóa, Trục hoành là ba chi nhánh (Alex, Giza, Cairo). o Median (trung vị): Chi nhánh Giza có median doanh thu cao hơn so với Alex và Cairo o Phân tán (IQR): Chi nhánh Cairo có độ phân tán doanh thu thấp hơn so với Giza và Alex, nghĩa là doanh thu ổn định hơn. o Outliers (ngoại lệ): Một số giao dịch có giá trị doanh thu bất thường ở cả ba chi nhánh, đặc biệt là Cairo.
Hình : Box Plots phân phối doanh thu giữa các chi nhánh
2.1 Xử lý dữ liệu bị thiếu
Chúng ta cần xác định các cột chứa dữ liệu bị thiếu và xác định phương pháp xử lý phù hợp Có một số tùy chọn khả dụng, bao gồm xóa các hàng có giá trị bị thiếu, nhập các giá trị bị thiếu với giá trị trung bình hoặc trung vị hoặc sử dụng các kỹ thuật quy kết tiên tiến hơn Điều quan trọng là phải chọn một phương pháp duy trì tính toàn vẹn của tập dữ liệu
Xác định các cột có giá trị bị thiếu: Điều kiện og_df.isnull().sum() > 0 trả về mộtChuỗi boolean chỉ ra các cột có giá trị bị thiếu và thuộc tính columns sẽ truy xuất tên cột.
Kiểm tra dữ liệu bị thiếu:
Sử dụng hàm isnull().sum() để tính tổng số giá trị thiểu cho mỗi cột trong một khung dữ liệu Pandas ta nhận thấy không có dữ liệu nào bị thiếu
2.2 Nhận diện Outliers và giảm nhiễu
Z-score thường dùng để phát hiện Outliers, xác định giá trị nào nằm ngoài một số độ lệch chuẩn (thường là >3) Với dữ liệu này:
Bước 1: Tính Z-score cho cột cần giảm nhiễu (cột: Rating ).
Mean (trung bình): Tính giá trị trung bình của cột Rating.
Std (độ lệch chuẩn): Xác định sự biến động của dữ liệu.