Bài tập lớn về ANOVA hai yếu tố trong nghiên cứu khoa học kỹ thuật

MỤC LỤC

ANOVA hai yếu tố

Phản ánh biến tác động của yếu tố kết quả do ảnh hưởng của tất cả các yếu tố. Phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ nhất (xếp theo cột). Phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân khác không nghiên cứu.

MSE là phương sai phần dưF1 dùng kiểm định cho yếu tó nguyên nhân thứ nhất. MSE là phương sai phần dưF2 dùng kiểm định cho yếu tố nguyên nhân thứ hai.

Tiền xử lí dữ liệu

Đọc dữ liệu

Sau khi đã có các đường dẫn chứa dữ liệu gốc, chúng ta gán các đường dẫn vào ba biến.

Xử lý các giá trị bị khuyết

Theo lý thuyết Generalized Imputation, ta sử dụng giá trị trung bình Mean để thay thế vào các giá trị NA của "customer_lat", "customer_long" và sử dụng giá trị trung vị (Median) để thay vào các giá trị NA của. Theo kết quả có được, chúng tôi chọn giá trị Mean để làm giá trị thay thế vào các giá trị bị khuyết của. Giải thích đoạn code: Đoạn code trên sử dụng dấu %>% để thực hiện chuỗi các hàm dữ liệu trong môi trường R, chủ yếu sử dụng gói dplyr cho việc chuyển đổi và làm sạch dữ liệu.

Tiếp đến, xử lý các dữ liệu "distance_to_nearest_warehouse" với các giá trị cho trước. Để xử lý được dữ liệu "distance_to_nearest_warehouse" ta cần sử dụng công thức Haversine để tính toán khoảng cách dựa trên kinh độ và vĩ độ đã có sẵn. Tuy nhiên, trong R có thư viện geosphere có chức năng tính toán công thức Harversine một cách nhanh chóng, thuận tiện và tối ưu.

Ta thực hiện việc thay thế các giá trị NA của "distance_to_nearest_warehouse" như sau. Sau khi đã xử lý các giá trị NA, ta tiến hành chạy code để kiểm tra kết quả. Tiếp theo ta cần phải xử lý các giá trị mang định dạng Charactor, xem xét xem các giá trị này có xuất hiện các lỗi định dạng do sai sót của file gốc hay không.

Ta thấy có tồn tại các giá trị giống nhau tuy nhiên kiểu định dạng lại khác nhau do sai sót của file dữ liệu đầu vào nên chúng ta cần phải chuyển định dạng của "season" thành một kiểu định dạng đồng nhất là "Spring",. Sau khi chuyển tất cả dữ liệu về đồng nhất với kiểu dữ liệu mong muốn, ta lại nhận thấy xuất hiện giá trị mà ở đó không có giá trị của kho hàng hay là mùa được bôi đỏ sau đây. Thế nên chúng ta cần phải xử lý các giá trị bị khuyết ấy bằng các giá trị cho trước đó.

Đối với "season", ta dựa vào thời gian đặt hàng để xác định đơn hàng đó được mua vào mùa nào trong năm.

Thống Kê Mô Tả (Descriptive Statistics)

Làm rừ dữ liệu (Data visualization)

Nhận xét: Dựa vào đồ thị 2, kho hàng Bakers có sự lựa chọn mua hàng ít nhất từ khách hàng, kho hàng Nickolson và kho hàng Thompson có sự lựa chọn mua hàng không quá chênh lệch nhau nhiều, trong đó, kho hàng Thompson có sự lựa chọn mua nhiều nhất, độ chênh lệch với kho hàng Bakers gần 1,45 lần (188 đơn hàng). Vẽ biểu đồ thể hiện tổng số tiền của các đơn hàng của các kho hàng. Kết quả của đoạn code. Hình 3: Biểu đồ thể tổng số tiền của các đơn hàng của kho hàng. Nhận xét: Dựa vào đồ thị 3, kho hàng có tổng số tiền thấp nhất là Thompson, kho hàng có tổng số tiền cao nhất là Bakers, các kho hàng có sự chênh lệch lớn trong số tiền giữa các kho với khoảng cách của kho lớn nhất và kho thấp nhất là 2925275.36. c) Thống kê các dữ liệu liên quan đến các mùa. Sơ lược về số liệu của các mùa. Kết quả của đoạn code. Vẽ biểu đồ thể hiện tổng số lượng đơn hàng của các mùa. Kết quả của đoạn code. Hình 4: Biểu đồ thể số lượng đơn hàng của các mùa. Nhận xét: Dựa trên đồ thị hình 4, ta thấy mùa Autumn có tần số hay nhu cầu mua hàng cao nhất, mùa Summer có tần số hay nhu cầu mua hàng thấp nhất và bốn mùa có tần số không quá chêch lệch nhau. Độ chênh lệch cao nhất là giữa mùa Autumn và Summer là 1,16 lần. Vẽ biểu đồ thể hiện tổng số tiền của các đơn hàng của các mùa. Kết quả của đoạn code. Hình 5: Biểu đồ thể tổng số tiền của các đơn hàng của mùa. Nhận xét: Dựa vào đồ thị 5, Winter là mùa có tổng số tiền của đơn hàng cao nhất, Summer là mùa có tổng số tiền của đơn hàng thấp nhất, các mùa có chênh lệch lớn giữa các mùa với mùa có số tiền cao nhất với số tiền thấp nhất là 9734316. d) Tính thống kê mô tả quan hệ việc khách hàng có yêu cầu giao hàng nhanh so với khách hàng có hài lòng với vấn đề đơn hàng. Nhận xét: Ta thấy ở biểu đồ 6 cho ta thấy khi khách hàng không yêu cầu giao hàng nhanh thì độ hài lòng của khách hàng sử cao hơn so với khi khách hàng yêu cầu giao hàng nhanh.

Hình 1: Biểu đồ tương quan dữ liệu
Hình 1: Biểu đồ tương quan dữ liệu

Loại bỏ các điểm Outlier (Remove Outlier)

Ta dùng khái niệm IQR, một khái niệm trong thống kê mô tả, đo lường độ phân tán dữ liệu của dữ liệu và được tính toán bằng công thức: IQR = Q3 − Q1. Khi xử lý các điểm ngoại lai, ta dùng các điểm Whisker (râu) để thay thế cho các điểm ngoại lai. Tiếp đến chúng ta tiến hành thay thế các giá trị nằm ngoài phạm vi theo công thức.

Ta tiến hành vẽ lại các biểu đồ boxplot để thể hiện phân phối của biên.

Hình 7: Order_price Hình 8: Delivery_charges
Hình 7: Order_price Hình 8: Delivery_charges

Thống kê suy diễn (Inferential Statistics)

    Nhận định xem xét số tiền trung bình mua linh kiện của các khách hàng đối với từng mùa có bằng nhau hay không, hay chúng có ảnh hưởng bởi mùa trong năm. Chúng ta sẽ dùng biểu đồ qqline/qqnorm trong R programing để xem xét số tiền mua hàng của khách hàng theo từng mùa có tuân theo phân phối chuẩn hay không kèm theo đó là kiểm tra bằng hàm shapiro_wilk normality test. Nhận xét: Số liệu của chúng ta hầu như không nằm trên đường thẳng cùng với đó giá trị p_value rất nhỏ hơn 0.05 đồng nghĩa với việc số tiền mua linh kiện của khách hàng trong 4 mùa không tuân theo phân phối chuẩn.

    Ta đặt giả thuyết đối là H1: Có ít nhất hai mùa có phương sai khác nhau. Nhận xét: Ta thấy rằng P value > 0.05 đồng nghĩa với việc chưa bác bỏ H0 nghĩa là phương sai của 4 tổng thể bằng nhau. Giả thuyết H1: Có ít nhất 2 mùa có phương sai chi phí đặt hàng khác nhau.

    Nhận xét: Ta nhận xét: với kết quả P value > 0.05 thì đồng nghĩa với việc chưa bác bỏ giả thuyết H0, vì vậy chi phí đặt hàng trung bình của khách hàng ở 4 mùa bằng nhau. Ta dùng lý thuyết LSD để để quan sát sự so sánh nhau giữa các mùa, cùng với đó sử dụng lệnh TukeyHSD trong R được sử dụng để thực hiện phân tích Tukey Honest Significant Difference (HSD), một phương pháp thống kê để so sánh đôi giữa các phương sai của các nhóm khác nhau. Đây thường được sử dụng sau khi thực hiện ANOVA để kiểm tra sự khác biệt giữa các cặp trung bình cùng với đó sử dụng lệnh summary để quan sát các giá trị.

    Ta muốn kiểm định rằng 2 yếu tố season và is_expedited_delivery có ảnh hưởng đến delivery_charge hay không. Nhận xét: Số liệu của chúng ta thấy rằng giá trị p_value rất nhỏ hơn 0.05 đồng nghĩa với delivery_charges so với season và is_expedited_delivery không tuân theo phân phối chuẩn. Ta đặt giả thuyết H0 là: Phương sai của delivery_charges so với season và is_expedited_delivery bằng nhau.

    Ta đặt giả thuyết đối là H1: Phương sai của delivery_charges so với season và is_expedited_delivery khác nhau. Nhận xét: Ta thấy rằng P value > 0.05 đồng nghĩa với việc chưa bác bỏ H0 nghĩa là phương sai của delivery_charges so với season và is_expedited_delivery bằng nhau. Nhận xét: Ta thấy các P value <0,05 ta nhận xét có sự tác động của hai yếu tố lên delivery_charge, cũng như có sự tương tác của hai yếu tố season và is_expedited_delivery.

    Hình 22: Biểu đồ thể hiện sự khác nhau của trung bình của các biến
    Hình 22: Biểu đồ thể hiện sự khác nhau của trung bình của các biến