Và trong bái tập lớn này chúng emsẽ dung các kiến thức đã được học trong môn “xác suất và thống kê” để phân tích mộttrang web bán hàng như thế nhằm làm rõ các số liệu về đơn hàng, khách
CƠ SỞ LÝ THUYẾT DÙNG TRONG BÁO CÁO
Mô hình hồi quy logistic
- Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không.
- Ví dụ: giả sử bạn muốn đoán xem khách truy cập trang web của bạn sẽ nhấp vào nút thanh toán trong giỏ hàng của họ hay không Phân tích hồi quy logistic xem xét hành vi của khách truy cập trước đây, chẳng hạn như thời gian dành cho trang web và số lượng các mặt hàng trong giỏ hàng Quá trình phân tích này xác định rằng, trước đây, nếu khách truy cập dành hơn năm phút trên trang web và thêm hơn ba mặt hàng vào giỏ hàng, họ sẽ nhấp vào nút thanh toán Nhờ vào thông tin này, sau đó, hàm hồi quy logistic có thể dự đoán hành vi của một khách mới truy cập trang web.
- Kết quả của mô hình hồi quy logistic thường là xác suất của biến phụ thuộc thuộc vào các giá trị của biến độc lập Mô hình này được sử dụng rộng rãi trong nghiên cứu y học, khoa học xã hội, kinh tế, và nhiều lĩnh vực khác để phân tích và dự đoán các sự kiện nhị phân, ví dụ như dự đoán bệnh lý, quyết định tín dụng, hoặc đánh giá tác động của các biến độc lập lên kết quả cụ thể.
- Phương trình hồi quy logistic có dạng như sau: log-odds = β 1 x 1+β 2 x 2+…+β n x n
log-odds là logarit tự nhiên của tỷ lệ xác suất: 1−p p
β 1 , β 2 ,… , β n là các hệ số tương ứng với các biến độc lập x 0 , x , … , x 1 n
Thống kê mô tả
Thống kê mô tả trong tiếng Anh là Descriptive Statistics.
Thống kê mô tả là các hệ số mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định, có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể.
Thống kê mô tả được chia thành đo lường xu hướng tập trung và đo lường biến động Đo lường xu hướng tập trung có giá trị trung bình trung vị , và yếu vị, trong khi các đo lường biến động gồm độ lệch chuẩn phương sai giá trị nhỏ nhất, , và giá trị lớn nhất, độ nhọn và độ lệch.
Thống kê mô tả giúp tìm hiểu đặc điểm của một tập dữ liệu bằng cách đưa ra các tóm tắt về mẫu và các tham số của dữ liệu Các thông số xu thế phổ biến nhất trong thống kê mô tả là giá trị trung bình, trung vị và tứ phân vị, vì chúng cung cấp thông tin về mức độ tập trung của dữ liệu.
Các kiến thức về kiểm định, tìm khoảng tin cậy và Anova trong bài báo cáo
1.3.1 Kiểm định trung bình 2 mẫu độc lập
+ Các bước giải bài toán kiểm định trung bình 2 mẫu độc lập:
Bài toán sẽ có 1 trong 3 dạng như sau (trong đó dạng 2 sẽ có hai trường hợp): Dạng 1: Biết σ tổng thể
Giả thuyết Tiêu chuẩn kiểm định Điều kiện bác bỏ Miền bác bỏ H 0
Dạng 2.1: chưa biết σtổng thể và có phân phối chuẩn
+ Hai tổng thể có phương sai bằng nhau
Giả thuyết Tiêu chuẩn kiểm định Điều kiện bác bỏ Miền bác bỏ H 0
Dạng 2.2: chưa biết σ tổng thể và có phân phối chuẩn
+ Hai tổng thể không có phương sai bằng nhau
Giả thuyết Tiêu chuẩn kiểm định Điều kiện bác bỏ
Dạng 3: chưa biết σ tổng thể và có phân phối bất kỳ
Giả thuyết Tiêu chuẩn kiểm định Điều kiện bác bỏ
Khoảng tin cậy, hay còn gọi là giới hạn tin cậy, là một khái niệm trong thống kê được sử dụng để ước lượng phạm vi có thể chứa giá trị tham số của quần thể dựa trên một mẫu mà chúng ta đã nghiên cứu Nó đại diện cho một khoảng giá trị xác suất mà chúng ta có độ tin cậy về sự chứa giá trị tham số của quần thể. Ý nghĩa của khoảng tin cậy:
- Đo lường độ chính xác: Khoảng tin cậy cho phép đo lường độ chính xác của ước lượng dựa trên mẫu Thay vì chỉ cung cấp một giá trị ước lượng duy nhất, nó cho phép chúng ta biết đến mức độ chắc chắn của kết quả và đưa ra những khẳng định về sự chính xác của ước lượng.
- Đánh giá độ tin cậy: Khoảng tin cậy giúp đánh giá mức độ tin cậy của kết quả thống kê Nó cho phép chúng ta biết đến phạm vi dự kiến chứa giá trị tham số và khẳng định về khả năng đại diện của mẫu đối với quần thể.
- So sánh kết quả: Khoảng tin cậy cho phép so sánh kết quả giữa các nhóm hoặc điều kiện khác nhau Chúng ta có thể kiểm tra xem các khoảng tin cậy có chồng lấn lên nhau hay không để xác định sự khác biệt có ý nghĩa giữa các nhóm.
- Hỗ trợ quyết định: Khoảng tin cậy cung cấp thông tin quan trọng để hỗ trợ quyết định Khi chúng ta biết đến khoảng tin cậy của một ước lượng, chúng ta có thể đưa ra quyết định dựa trên mức độ chính xác và độ tin cậy mong muốn.
+ Dưới đây là một số công thức tìm khoảng tin cậy của một mẫu:
+ Anova một nhân tố liên quan đến việc so sánh trung bình của ba hoặc nhiều nhóm khác nhau để xác định sự khác biệt giữa chúng Các bước giải bài toán Anova một nhân tố bao gồm 2 phương pháp:
Một số định nghĩa cơ bản khác dùng trong báo cáo
+ Giá trị trung bình: là giá trị trung bình toán học đơn giản của một tập hợp hai hoặc nhiều số trong cùng 1 mẫu.
Trung vị là số liệu nằm giữa trong danh sách các số được sắp xếp theo thứ tự tăng dần hoặc giảm dần Không giống như giá trị trung bình, trung vị có thể mô tả tập dữ liệu một cách chính xác hơn.
+ Độ lệch chuẩn: là một đại lượng thống kê nhằm đo mức độ phân tán của một tập dữ liêu Có thể tính bằng cách lấy căn bậc hai của phương sai.
+ Giá trị lớn nhất (Max): là số có giá trị hay độ lớn lớn nhất trong mẫu
+ Giá trị bé nhất (Min): là số có giá trị hay độ lớn lớn nhất trong mẫu
+ Khoảng tứ phân vị: là giá trị bằng số phân chia một nhóm các kết quả quan sát bằng số thành bốn phần, mỗi phần có số liệu quan sát bằng nhau (%% số kết quả quan sát) Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3) Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Đồ thị tròn là dạng biểu đồ dạng hình tròn được chia thành các phần trăm tỷ lệ tương ứng với các thành phần khác nhau của một tập dữ liệu Mỗi phần được tô màu hoặc ký hiệu riêng biệt để dễ dàng nhận biết và so sánh giữa các thành phần Đồ thị tròn giúp trực quan hóa sự phân bổ hoặc tần suất của các thành phần trong tập dữ liệu, cho phép người xem nhanh chóng hiểu được tỷ lệ tương đối của từng thành phần.
PHÂN TÍCH ĐỀ TÀI
Đọc dữ liệu
1.1 Code R đọc dữ liệu vào R:
## chr (7): order_id, customer_id, date, nearest_warehouse, shopping_cart, seas
## dbl (7): order_price, delivery_charges, customer_lat, customer_long, coupon_
## lgl (2): is_expedited_delivery, is_happy_customer
## Use `spec()` to retrieve the full column specification for thisℹ data.
## Specify the column types or set `show_col_types = FALSE` to ℹ quiet this message.
Kết quả cho ta thấy trong tập dữ liệu có 500 hàng và 16 cột tương ứng với 16 biến Từ đây ta sẽ làm việc với tập dữ liệu với tên các biến tương ứng như sau:
• order_id: ID duy nh t cho m i đ n hàngấ ỗ ơ
13 library(readr) dirty_data