Bài tập lớn cô Dung khoa Điện khóa k22, và một số thứ khác ................................................................................................................................t
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Họ và tên thành viên trong nhóm
Tp.HCM, 17/12/2023
Trang 2Nhận xết của Giáo viên
Chữ ký của Giáo viên
Trang 3Mục lục
2.1 Các đặc trưng của dữ liệu 3
2.2 Các phương pháp xử lý dữ liệu với các giá trị bị khuyết 3
2.3 Cơ bản về ước lượng khoảng tin cậy 4
2.3.1 Định nghĩa 4
2.3.2 Cơ bản 4
2.4 ANOVA một yếu tố 5
2.4.1 Định nghĩa: 5
2.4.2 Các bước phân tích ANOVA một yếu tố 5
2.4.3 Phân tích sâu ANOVA một yếu tố 6
2.5 ANOVA hai yếu tố 7
2.6 Hồi quy tuyến tính 8
2.6.1 Giới thiệu mô hình hồi quy tuyến tính đơn 8
2.6.2 Ước lượng hồi quy tuyến tính: 8
3 Tiền xử lí dữ liệu 9 3.1 Đọc dữ liệu 9
3.2 Xử lý định dạng ban đầu của dữ liệu 11
3.3 Xử lý các giá trị bị khuyết 12
4 Thống Kê Mô Tả (Descriptive Statistics) 18 4.1 Làm rõ dữ liệu (Data visualization) 18
4.1.1 Tổng quan dữ liệu 18
4.1.2 Thống kê các dữ liệu liên quan đến các kho hàng 19
4.1.3 Thống kê các dữ liệu liên quan đến các mùa 23
4.1.4 Tính thống kê mô tả quan hệ việc khách hàng có yêu cầu giao hàng nhanh so với khách hàng có hài lòng với vấn đề đơn hàng 27
4.2 Loại bỏ các điểm Outlier (Remove Outlier) 28
4.3 Biểu đồ Histogram 33
5 Thống kê suy diễn (Inferential Statistics) 36 5.1 Đề tài 1: 36
5.2 Đề tài 2: 38
5.3 Đề tài 3: 43
5.4 Đề tài 4: 45
Trang 4Danh sách hình vẽ
1 Biểu đồ tương quan dữ liệu 19
2 Biểu đồ thể số lượng đơn hàng của các kho hàng 21
3 Biểu đồ thể tổng số tiền của các đơn hàng của kho hàng 23
4 Biểu đồ thể số lượng đơn hàng của các mùa 25
5 Biểu đồ thể tổng số tiền của các đơn hàng của mùa 26
6 Biểu đồ thể hiện giao hàng nhanh theo mức độ hài lòng của khách hàng 28
7 Order_price 29
8 Delivery_charges 29
9 Coupon_discount 29
10 Order_total 29
11 Distance_to_nearest_warehouse 30
12 Order_price 32
13 Delivery_charges 32
14 Coupon_discount 32
15 Order_total 32
16 Distance_to_nearest_warehouse 33
17 Biểu đồ Histogram của Order_price 34
18 Biểu đồ Histogram của Delivery_charges 34
19 Biểu đồ Histogram của Counpon_discount 34
20 Biểu đồ Histogram của Order_total 34
21 Biểu đồ Histogram của Distance_to_nearest_warehouse 35
22 Biểu đồ thể hiện sự khác nhau của trung bình của các biến 42
Trang 5Xác suất thống kê được sử dụng nhiều để giải quyết các bài toán trong khối ngành kỹ thuật nói chung và Điện – Điện tử nóiriêng Với định hướng cải tiến chương trình và nội dung gắn liền thực tiễn, Bài tập lớn môn Xác suất thống kê có vai trò ứngdụng các lý thuyết được học vào chuyên ngành mang tính thực tiễn, ứng dụng.
Với những dữ kiện đề bài cho trước, nhóm 09 chúng em xin thực hiện đề tài Bài tập lớn môn Xác suất thống kê để trình bày
cơ sở lý thuyết, cùng những phương pháp, phân tích số liệu thống kê nhằm mục đích có thể khai thác hiệu quả các thông tin,phục vụ công tác nghiên cứu về đề tài được giao
Trang 6I Tổng quan dữ liệu
Tập dữ liệu này chứa thông tin về một cửa hàng điện tử trực tuyến của hàng có ba kho để giao hàng cho khách hàng Dữliệu được trang web: www.kaggle.com
Các biến dữ liệu chính:
- order_id: ID duy nhất cho mỗi đơn hàng
- customer_id : ID duy nhất cho mỗi khách hàng
- date : Ngày đặt hàng
- nearest_warehouse :Một chuỗi biểu thị tên của kho gần nhất với khách hàng
- shopping_cart :Danh sách các bộ đại diện cho các mục trong đơn hàng: phần tử đầu tiên của bộ dữ liệu là mục được sắpxếp và phần tử thứ hai là số lượng đặt hàng cho mặt hàng đó
- order_price : Giá thả nổi biểu thị giá đặt hàng bằng USD Giá đặt hàng là giá của các mặt hàng trước khi có bất kỳ khoảngiảm giá và/hoặc phí giao hàng nào được áp dụng
- delivery_charges :Một số float thể hiện phí giao hàng của đơn hàng
- customer_lat :Vĩ độ vị trí của khách hàng
- customer_long :Kinh độ vị trí của khách hàng
- coupon_discount :Một số nguyên biểu thị phần trăm giảm giá được áp dụng cho đơn_giá
- order_total :Một số float biểu thị tổng số đơn đặt hàng bằng USD giảm giá và/hoặc phí giao hàng được áp dụng
- season :Một chuỗi biểu thị mùa mà đơn hàng được đặt
- is_expedited_delivery :Một boolean biểu thị liệu khách hàng có yêu cầu hay không giao hàng nhanh
- distance_to_nearest_warehouse :Một cái phao biểu thị khoảng cách vòng cung, tính bằng km, giữa khách hàng và khohàng gần nhất với họ
- latest_customer_review :Một chuỗi thể hiện đánh giá mới nhất của khách hàng về trang web của anh ấy/cô ấy đơn hànggần đây nhất
- is_happy_customer :Một giá trị boolean biểu thị liệu khách hàng có hài lòng hay không khách hàng hoặc có vấn đề vớiđơn hàng gần đây nhất của họ
Trang 7II Kiến thức nền (Cở sở lý thuyết)
1) Các đặc trưng của dữ liệu
Đặc trưng của tổng thể: - Kích thước tổng thể : số lượng các phần tử của tổng thể
- Trung bình tổng thể (µ): hay còn được gọi là kỳ vọng, cho biết trung bình giá trị của một biến nằm ở mức độ nào so vớingưỡng lớn nhất và nhỏ nhất
- Phương sai tổng thể (σ2): được tính bằng giá trị trung bình của các bình phương chênh lệch giữa giá trị cụ thể và giá trịtrung bình, thể hiện sự phân tán thống kê của biến đó, hàm ý các giá trị của biến đó thường cách giá trị kỳ vọng bao xa
- Độ lệch chuẩn tổng thể (σ): đo mức độ phân tán thống kê của biến, tương tự phương sai, là giá trị căn bậc hai của phươngsai
- Tỷ lệ tổng thể (ρ): là xác suất lấy được phần tử mang dấu hiệu nghiên cứu từ tổng thể
Đặc trưng của mẫu:
- Yếu vị (Mode): giá trị có tần suất xuất hiện cao nhất
- Hệ số biến thiên (CV): đo lường mức độ biến động tương đối của mẫu dữ liệu, được dùng khi người ta muốn so sánh mức
độ biến động của các mẫu không cùng đơn vị đo
- Trung vị (Median-Med): là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bốxác suất, là giá trị nằm giữa của một phân bố
- Tứ phân vị: Giá trị trung vị chia mẫu dữ liệu đã sắp thứ tự thành 2 tập có số phần tử bằng nhau Trung vị của tập dữliệu nhỏ hơn là Q1 (gọi là tứ phân vị dưới) và trung vị của tập dữ liệu lớn hơn là Q3( gọi là tứ phân vị trên) Q2 được lấybằng giá trị trung vị
- Điểm outlier: còn gọi là điểm dị biệt, điểm ngoại lệ, điểm ngoại lai Đó là các phần tử của mẫu có giá trị nằm ngoàikhoảng (Q1− 1.5 × IQR; Q3+ 1.5 × IQR)
2) Các phương pháp xử lý dữ liệu với các giá trị bị khuyết
Phương pháp 1: Deletion(xoá): phương pháp này được dùng khi khi xác suất thiếu biến là như nhau cho tất cả các quan sát.Phương pháp này được thực hiện bởi 2 cách: List Wise Deletion and Pair Wise Deletion
- List wise deletion: xóa các quan sát mà bất kỳ biến nào bị thiếu, nhưng phương pháp này có một lỗ hỗng bởi việc xoáquan sát cua bất cứ biến nào bị thiếu này sẽ làm giảm sức mạnh của mô hình vì nó xóa toàn bộ hàng quan sát trong đó
dữ liệu bị thiếu
Trang 8- Pair Wise Deletion: chúng ta sẽ thực hiện phân tích với tất cả các trường hợp có các biến quan tâm Ưu điểm của phươngpháp này là, nó giữ được nhiều trường hợp có sẵn để phân tích Một trong những nhược điểm của phương pháp này, nó
sử dụng cỡ mẫu khác nhau cho các biến khác nhau
Phương pháp 2: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các giá trị còn thiếu với các giá trị ướctính Mục tiêu là sử dụng các mối quan hệ đã biết có thể được xác định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ướctính cho các giá trị còn thiếu Mean/ Mode/ Median Imputation là một trong những phương pháp được sử dụng thường xuyênnhất Ta có hai cách sử dụng:
- Generalized Imputation: Trong trường hợp này, ta tính giá trị trung bình hoặc trung vị cho tất cả các giá trị không bịthiếu của biến đó sau đó thay thế giá trị bị thiếu bằng giá trị trung bình hoặc trung vị
- Similar case Imputation: trong trường hợp này, ta cũng tính các giá trị trung bình nhưng các giá trị này sẽ được tính riêng
lẻ theo từng đối tượng của các giá trị không bị thiếu, sau đó thay các giá trị trung bình đã được tính theo từng đối tượngtrước đó
Phương pháp 3: Prediction Model (mô hình dự đoán): tạo mô hình dự đoán để ước tính các giá trị sẽ thay thế dữ liệu bị thiếu.Trong trường hợp này, chia tập dữ liệu của mình thành hai tập: Một tập không có giá trị bị thiếu cho biến và một tập khác cógiá trị bị thiếu Tập dữ liệu đầu tiên trở thành tập dữ liệu huấn luyện của mô hình trong khi tập dữ liệu thứ hai có giá trị bịthiếu là tập dữ liệu thử nghiệm và biến có giá trị bị thiếu được coi là biến mục tiêu Tiếp theo, chúng tôi tạo một mô hình để
dự đoán biến mục tiêu dựa trên các thuộc tính khác của tập dữ liệu huấn luyện và điền các giá trị còn thiếu của tập dữ liệu thửnghiệm
Phương pháp 4: KNN Imputation: Trong phương pháp này gán giá trị, các giá trị bị thiếu của một thuộc tính được gán bằngcách sử dụng một số thuộc tính đã cho giống nhất với thuộc tính có giá trị bị thiếu Sự giống nhau của hai thuộc tính được xácđịnh bằng cách sử dụng hàm khoảng cách
3) Cơ bản về ước lượng khoảng tin cậy
Trang 94 Khoảng tin cậy bên trái: (F- ε1; 1) Khoảng tin cậy bên phải: ( 0; F+ ε1)
ε1= Zα
pf(1 − f)
√nTrong đó:
- X là giá trị trung bình của mẫu
Dạng 1: Phân tích phương sai 1 yếu tố (One-Way Analysis of Variance)
Dạng 2: Phân tích phương sai 2 yếu tố không lặp
Dạng 3: Phân tích phương sai 2 yếu tố có lặp
Trong bài báo cáo này sử dụng phân tích phương sai một yếu tố
Trong mô hình phân tích phương sai 1 yếu tố, chúng ta kiểm định so sánh trung bình của biến ngẫu nhiên X ở những tổng thể(còn gọi là nhóm) khác nhau dựa vào các mẫu quan sát lấy từ những tổng thể này Các tổng thể được phân biệt bởi các mức độkhác nhau của yếu tố đang xem xét
Điều kiện của bài toán ANOVA một yếu tố:
- Các tổng thể có phân phối chuẩn N(µi ;σ2
i );
i = 1; 2; ; k k là số tổng thể (thông thường k ≥ 3)
- Phương sai các tổng thể bằng nhau (σ2= σ2= = σ2
k)
- Các mẫu quan sát (từ các tổng thể) được lấy độc lập
Lưu ý: Nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không đáp ứng được thì bạn có thể dùng kiểm địnhphi tham số Kruskal-Wallis để thay thế cho ANOVA
b) Các bước phân tích ANOVA một yếu tố
Bước 1: Đưa ra giả thiết kiểm định
- Giả thiết không H0: µ1 = µ2 = = µk
- Giả thiết đối H1: ∃ µi ̸= µj; i ̸= j
Bước 2: Tính toán giá trị kiểm định thống kê
Trang 10Các bước tính toán Mẫu k Mẫu gộp
i=1ni
Tổng bình phương chênh lệchgiữa các nhóm (SSB)
j=1nj× (xj− x)2
Tổng bình phương chênh lệchtoàn bộ
- SSB: Phần biến thiên của giá trị X do các mức độ của yếu tố đang xem xét tạo ra
- SSW: Phần biến thiên của giá trị X do các mức độ của yếu tố không được xem xét tạo ra
- SST: Tổng các biến thiên của giá trị X do tất cả các yếu tố tạo ra - Miền bác bỏ:
RR = (fα(k − 1; N − k); +∞)
- Hê số xác định: R2=SSBSST × 100%
trong mô hình đối với sự biến động của các giá trị của biến ngẫu nhiên X xung quanh giá trị của nó
R2 càng lớn thì mô hình càng thích hợp
c) Phân tích sâu ANOVA một yếu tố
Khi kết luận bài toán ANOVA sẽ có 2 trường hợp xảy ra:
- Bác bỏ H0, chấp nhận H1 Có nghĩa là trung bình các nhóm không bằng nhau, tuy nhiên ta chẳng biết đó là các nhóm nào
Vì thế phải có phân tích thêm để làm rõ hơn
Có nhiều phương pháp để tìm được kết quả mong muốn:
- Có thể sử dụng LSD’test để so sánh các cặp trung bình của 2 nhóm khác nhau với các giả thiết tương ứng là:
H0: µi= µj;
H1: µi̸= µj; i ̸= j
- Hoặc có thể dùng các khoảng tin cậy (LSD confidence intervals) để ước lượng các chênh lệch của trung bình của 2 nhóm bất
kỳ, từ đó tìm ra các cặp nhóm có trung bình khác biệt
Trang 115) ANOVA hai yếu tố
1 Tổng các độ lệch chuẩn bình phương chung (SST)
Phản ánh biến tác động của yếu tố kết quả do ảnh hưởng của tất cả các yếu tố
2 Tổng các độ lệch chuẩn bình phương giữa các nhóm (SSK)
Phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ nhất(xếp theo cột)
3 Tổng các độ lệch chuẩn bình phương giữa các nhóm (SSH)
Phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân khác không nghiên cứu
4 Tổng bình phương các độ lệch bình phương phần dư (ERROR)
Phản ánh do ảnh hưởng của yếu tố nguyên nhân khác không nghiên cứu
Trang 12F1=M SK
6) Hồi quy tuyến tính
a) Giới thiệu mô hình hồi quy tuyến tính đơn
Định nghĩa hồi quy: Hồi quy (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa cácbiến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình.Hàm hồi quy của Y theo X là kỳ vọng có điều kiện của Y đối với X, tức là E(X,Y) Xét hàm hồi quy tuyến tính đơn có dạng:
fy(X) = β1X + β0
Giả sử ta có một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y,X) là:
(Yi, Xi) = (Y1, X1), (Y2, X2), , (Yk, Xk)Khi đó chúng ta có thể viết: fY i(Xi) = E(Yi/Xi) = β1Xi+ β0
Hay:
Yi = β0 + β1Xi + ε
Ở đây biến ε là sai số ngẫu nhiên có phân phối chuẩn N(0,σ2)
Các sai số ngẫu nhiên εi là độc lập với nhau, σ2 là hằng số
b) Ước lượng hồi quy tuyến tính:
Trong thống kê, vấn đề chúng ta muốn đánh giá là các thông tin của tổng thể Tuy nhiên vì tổng thể quá lớn, chúng ta khôngthể có được các thông tin này Vì vậy, chúng ta dùng thông tin của mẫu nghiên cứu để ước lượng hoặc kiểm định thông tin củatổng thể Với hồi quy tuyến tính cũng như vậy, các hệ số hồi quy tổng thể như β1, β2 hay hằng số hồi quy β0 là những tham
số chúng ta muốn biết nhưng không thể đo lường được Do đó, chúng ta sẽ sử dụng tham số tương ứng từ mẫu để ước lượng và
từ đó suy diễn ra tổng thể Phương trình hồi quy trên mẫu nghiên cứu
Trang 13III Tiền xử lí dữ liệu
Các thư viện R sử dụng trong bài
- “dplyr”: là một gói R được thiết kế để cung cấp một bộ công cụ mạnh mẽ và hiệu quả cho việc xử lý và biến đổi dữ liệu Góinày tập trung vào các hoạt động phổ biến trong xử lý dữ liệu, như lọc (filtering), tóm tắt (summarizing), nhóm (grouping),sắp xếp (arranging), và kết hợp (joining) dữ liệu
- “lubridate”: là một gói R giúp xử lý và làm việc với dữ liệu thời gian Nó cung cấp các hàm đơn giản và mạnh mẽ để chuyểnđổi, tạo ra, và thao tác dữ liệu thời gian “lubridate” giúp đơn giản hóa việc làm việc với ngày và giờ, cũng như tính toángiữa các thời điểm
- “geosphere”: là một gói R được thiết kế để thực hiện các phép toán địa lý trên hình cầu Nó cung cấp các hàm để tính toánkhoảng cách giữa các điểm, tính diện tích bề mặt và thể tích của hình cầu, cũng như các tính toán liên quan đến tọa độđịa lý
- “ggplot2”: là một gói R mạnh mẽ cho việc tạo ra đồ thị và biểu đồ Nó sử dụng mô hình "Grammar of Graphics" để tạo
ra các biểu đồ có thể tùy chỉnh linh hoạt “ggplot2” cho phép bạn tạo ra biểu đồ từ dữ liệu khác nhau và điều chỉnh cácthành phần của biểu đồ như màu sắc, kích thước, và hình dạng
- "corrplot": là một gói R được cung cấp một công cụ khám phá trực quan trên ma trận tương quan, hỗ trợ việc sắp xếp lạicác biến tự động để giúp phát hiện các mô hình ẩn giữa các biến "corrplot" rất dễ sử dụng và cung cấp một loạt các tùychọn vẽ phong phú trong phương pháp trực quan hóa, bố cục đồ họa, màu sắc, chú thích, nhãn văn bản,
- "faraway": là một gói R cung cấp các hàm và dữ liệu để hỗ trợ việc học và thực hành các mô hình tuyến tính, mô hìnhtuyến tính mở rộng và hồi quy thực tế và ANOVA
- "car: là một gói R có chức năng cung cấp các công cụ hỗ trợ cho việc thực hiện và kiểm tra mô hình hồi quy trong R
Trang 14Sau khi đã có các đường dẫn chứa dữ liệu gốc, chúng ta gán các đường dẫn vào ba biến
"dirty_data_path", "missing_data_path" và "warehouses_path" chứa đường dẫn lần lượt tương ứng như sau:
1 # gan c a c duong dan c o t r e n v a o c a c b i e n s a u
Trang 15[1] 1 0 0 0
> str ( n e w _ d i r t y _ d a t a )
’ d a t a frame ’: 1 0 0 0 obs of 16 v a r i a b l e s :
$ o r d e r _ i d : chr " O R D 1 8 2 4 9 4 " " O R D 3 9 5 5 1 8 " " O R D 4 9 4 4 7 9 " " O R D 0 1 9 2 2 4 "
iStream ’ , 2) , ( ’ pearTV ’ , 1) ]" "[( ’ T h u n d e r line ’ , 1) , ( ’ U n i v e r s e Note ’ , 2) ]" "[( ’
T h u n d e r line ’ , 1) , ( ’ pearTV ’ , 2) ]" "[( ’ U n i v e r s e Note ’ , 1) , ( ’ A l c o n 10 ’ , 2) , ( ’
2) Xử lý định dạng ban đầu của dữ liệu
Chúng ta cần kiểm tra kiểu định dạng ban đầu của dữ liệu
1 # s u dung s a p p l y de t a o mot ham t i e n hanh d o c c a c k i e u du l i e u t r o n g n e w _ d i r t y _ d a t a
Trang 16Kết quả của đoạn code
> s o u r c e ( " ~ / tai l i e u hoc tap / xac s u a t t h o n g ke / bai tap lon / B a i l a m B T L / the m a i n / t h e m a i n R ")
Kết quả của đoạn code
> s o u r c e ( " ~ / tai l i e u hoc tap / xac s u a t t h o n g ke / bai tap lon / B a i l a m B T L / the m a i n / t h e m a i n R ")
[1] " D a t a o r d e r _ i d is u n i q u e "
Vậy cho thấy cột "order_id" không có giá trị nào bị trùng lặp nên ta không cần phải xử lý.
Chúng ta tiếp tục kiểm tra xem dữ liệu có bao nhiêu giá trị NA (Not Available, tức là giá trị bị khuyết),
ta thực hiện như sau
Trang 17Ta nhận thấy có 6 giá trị bị khuyết cần phải xử lí.
Theo lý thuyết Generalized Imputation, ta sử dụng giá trị trung bình Mean để thay thế vào các giá trị NA của "customer_lat", "customer_long" và sử dụng giá trị trung vị (Median) để thay vào các giá trị NA của
Theo kết quả có được, chúng tôi chọn giá trị Mean để làm giá trị thay thế vào các giá trị bị khuyết của
"customer_lat", "customer_long" và Median để thay thế vào các giá trị khuyết của "is_happy_customer".
1 # t h a y t h e c a c g i a t r i NA bang c a c g i a t r i mean va median t i n h o t r e n
Trang 18Giải thích đoạn code: Đoạn code trên sử dụng dấu %>% để thực hiện chuỗi các hàm dữ liệu trong môi trường R, chủ yếu sử dụng gói dplyr cho việc chuyển đổi và làm sạch dữ liệu.
- Nếu giá trị của "order_total" là NA, ta sẽ sử dụng dữ liệu của "order_price", "coupon_discount" và
Công thức Haversine như sau:
d = 2r arcsin phav(ϕ2− ϕ1) + cos(ϕ1) cos ϕ2hav(λ2− λ1)
= 2r arcsin
s sin2 ϕ2− ϕ1
2
+ cos(ϕ1) cos(ϕ2) sin2 λ2− λ1
Trang 19> u n i q u e ( n e w _ d i r t y _ d a t a $ n e a r e s t _ w a r e h o u s e )
[1] " T h o m p s o n " " N i c k o l s o n " " B a k e r s " " n i c k o l s o n " " t h o m p s o n " ""
Ta thấy có tồn tại các giá trị giống nhau tuy nhiên kiểu định dạng lại khác nhau do sai sót của file dữ liệu đầu vào nên chúng ta cần phải chuyển định dạng của "nearest_warehouse" thành một kiểu định dạng đồng nhất là "Thopsom", "Nickolson" và "Bakers".
1 # c h u y e n c a c chu t h a n h i n hoa chu c a i dau va v i e t t h u o n g c a c chu c a i c o n l a i
Trang 201 # c h u y e n c a c chu t h a n h i n hoa chu c a i dau va v i e t t h u o n g c a c chu c a i c o n l a i
Sau khi chuyển tất cả dữ liệu về đồng nhất với kiểu dữ liệu mong muốn, ta lại nhận thấy xuất hiện giá trị
mà ở đó không có giá trị của kho hàng hay là mùa được bôi đỏ sau đây
> u n i q u e ( n e w _ d i r t y _ d a t a $ n e a r e s t _ w a r e h o u s e )
[1] " T h o m p s o n " " N i c k o l s o n " " B a k e r s " ""
> u n i q u e ( n e w _ d i r t y _ d a t a $ s e a s o n )
[1] " W i n t e r " " S u m m e r " " A u t u m n " " S p r i n g " ""
Thế nên chúng ta cần phải xử lý các giá trị bị khuyết ấy bằng các giá trị cho trước đó.
Đối với "season", ta dựa vào thời gian đặt hàng để xác định đơn hàng đó được mua vào mùa nào trong năm
1 # kiem t r a l a i c a c mua bang c a c h kiem t r a c a c t h a n g c u a don hang
Trang 22IV Thống Kê Mô Tả (Descriptive Statistics)
1) Làm rõ dữ liệu (Data visualization)
Tạo một dataframe mới có tên là "new_data".
15 a d d C o e f col = " b l a c k ", # Mau chu c u a c a c he s o t u o n g quan
Trang 23Hình 1: Biểu đồ tương quan dữ liệu
Nhận xét: Ta nhận thấy rằng "order_total" và "order_price" có mối quan hệ tuyến tính mạnh.
b) Thống kê các dữ liệu liên quan đến các kho hàng
Sơ lược về số liệu của các kho hàng
Trang 24Kết quả của đoạn code
> d a t a f r a m e ( length , mean , sd , min , max , Q1 , Q3 )
B a k e r s 267 1 2 5 4 0 4 7 7 3 4 8 1 3 3 6 3 9 2 9 3 3 5 6 4 3 1 6 8 9 3 1 9 0 1 7 0 0 6 9 7
N i c k o l s o n 348 1 2 6 7 3 4 8 7 6 7 6 2 7 7 9 1 5 0 0 3 3 5 6 4 3 1 6 5 3 0 4 3 5 1 7 8 0 0 3 0
T h o m p s o n 385 1 2 1 9 4 2 6 7 7 5 4 0 1 4 5 6 8 6 4 3 3 5 6 4 3 1 6 1 5 6 2 2 0 1 7 2 9 2 7 5
Vẽ biểu đồ thể hiện số lượng đơn hàng của các kho hàng
1 # t i n h t o n g s o l u o n g don hang c h o moi w a r e h o u s e
Trang 25Hình 2: Biểu đồ thể số lượng đơn hàng của các kho hàng
Nhận xét: Dựa vào đồ thị 2, kho hàng Bakers có sự lựa chọn mua hàng ít nhất từ khách hàng, kho hàng Nickolson và kho hàng Thompson có sự lựa chọn mua hàng không quá chênh lệch nhau nhiều, trong đó, kho hàng Thompson có sự lựa chọn mua nhiều nhất, độ chênh lệch với kho hàng Bakers gần 1,45 lần (188 đơn hàng).
Vẽ biểu đồ thể hiện tổng số tiền của các đơn hàng của các kho hàng
1 # t i n h t o n g s o t i e n c u a don hang c h o moi w a r e h o u s e
2 s u m _ w a r e h o u s e < - t a p p l y ( n e w _ d a t a $ o r d e r _ t o t a l , n e w _ d a t a $ n e a r e s t _ w a r e h o u s e , sum )
Trang 263 # t a o mot b i e n f a c t o r de s u dung lam t r u c x , v o i l e v e l s d u o c s a p x e p t h e o t e n c a c