1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học

39 3 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
Tác giả Ta Nguyễn Tường Khanh, Nguyễn Phạm Khánh Linh, Trần Văn Thìn, Nguyễn Kim Ngân, Phan Thị Phương Thảo, Phạm Anh Thư, Trương Thị Thu Huệ, Bùi Thị Mỹ Lan, Nguyễn Minh Thảo, Nguyễn Thị Quỳnh Như
Người hướng dẫn TS. Trần Thị Phi Phụng
Trường học Trường Đại Học Tôn Đức Thắng
Chuyên ngành Quản trị Kinh Doanh
Thể loại Báo cáo môn học
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 39
Dung lượng 5,41 MB

Cấu trúc

  • CHUONG 1 TONG QUAN NGHIEN CỨU......................2-©2- 2+2 +E+EE+EE+EE+EerEerxerxrree 1 (10)
    • 1.1 Lý do chọn đề tài.........................--2¿-5s¿22++2S222EE22EE22122122122112112111211211211. 21 re. 1 (10)
    • 1.2 Muce tiéu nghién na (0)
    • 1.3. Đối tượng nghiên COU oo... ccceecceesssssssssssssssssesssesssessessessesstesseesseessessteeseessees 2 (0)
    • 1.5 Phương pháp nghiên CỨU...........................- --- Ă 5< + SE SE + + SE S111 111111111 kg 2 (11)
    • 1.6 Ý nghĩa thực tiễn..........................---2--2©222+2E+EE2EE22E2112112112112112112112112111211 21121111 2e 3 CHƯƠNG 2 _CƠ SỞ LÝ THUYÊTT.......................----222¿-2522c+SEEEErrttErkerrrttrkrrrrrrrired 4 (12)
    • 2.1 Các dữ liệu nghiên cứu và ý ngÌhĩa........................... --- S- S- St ST xxx re. 4 “co .nc na (13)
    • 2.3. Các nghiên cứu liên quan đến dự đoán bán hàng ..............................-- 252552 Ssss+S2 7 (16)
    • 2.4 Google Colab oo (17)
    • 2.5 CAc thut todn nn. cccsccecccceescssseeeeeeeeessseeseeeesensssaeeeeeeessesesseeeeeeeseseees 9 (0)
      • 2.5.1 Random Forest 20... cố (18)
      • 2.5.2. Gradient BOOSfInE..................................- -. S5 SH HH HH HH HH HH HH Hit 11 (20)
    • P.1 ae (0)

Nội dung

Nếu họ dự đoán được doanh số bán hàng, xu hướng mua hàng trong tương lai thông qua các phương pháp phân tích các dữ liệu thu thập được tử các giao dịch của những khách hàng trước, doanh

TONG QUAN NGHIEN CỨU 2-©2- 2+2 +E+EE+EE+EE+EerEerxerxrree 1

Lý do chọn đề tài . 2¿-5s¿22++2S222EE22EE22122122122112112111211211211 21 re 1

Có thể nhận thấy rằng, xu hướng mua sắm trực tuyến đã và đang bùng nố trên pham vi toàn cầu Chỉ cần ngồi một chỗ vẫn hoàn toàn có thê mua sắm tất cả mọi thứ, từ những món hàng hoá xa xi nhất cho đến những đồ dùng sinh hoạt cơ bản nhất trong nhà chỉ với những cú chạm hay vuốt không giới hạn trên máy tính hay điện thoại Điều đặc biệt là có thể mua mọi hàng hóa từ nhiều hãng khác nhau chỉ trong một giao diện website hoặc trên một ứng dụng điện thoại Tiện lợi, tiết kiệm thời gian và có tất cả mọi thứ chính là những ưu điểm của các trang thương mại điện tử (E-commerce) Với sự phát triển vượt bậc như vậy, đây cũng là một trong những nên tảng chứa nhiều data nhất Nền tảng thương mại điện tử thu thập một lượng lớn data đến tử các hoạt động, giao dịch của người dùng như họ và tên, độ tuổi, số điện thoại, thông tin liên lạc, email Toàn bộ thông tin trên được được lưu trữ tại kho chứa dữ liệu của trang thương mại điện tử đó Đây quả thật được xem là một “kho kim cương”, giúp nắm bắt kịp xu hướng, sở thích cá nhân, sản phẩm ưa thích khi sự quan tâm hàng đầu của các doanh nghiệp chính là những khách hàng của họ

Nhìn tổng quan, big data có thê tạo ra lợi thế cạnh tranh cho doanh nghiệp bằng cách cung cấp những phân tích chuyên sâu về các xu hướng tiêu dùng Tuy nhiên trên thực tế những nền tảng E-commerce lại chưa tận dụng tốt nguồn tài nguyên quý giá này, thông thường các nền tảng chỉ sử dụng những đữ liệu này khi gặp phải vấn đề cần giải quyết với khách hàng Họ sử dụng hàng trăm, hàng triệu đô-la dé quảng cáo, mạng xã hội và thúc đây bán hàng nhưng thiết nghĩ, nếu việc sử dụng Machine learning được thực hiện thì rõ rang trang thương mại điện tử đó sẽ chiếm nhiều lợi thế hơn so với đối thủ của mình

Việc ứng dụng học máy để dự đoán doanh số bán hàng là một lợi thế cạnh tranh cho các nền tảng thương mại điện tử Nhờ khả năng phân tích dữ liệu giao dịch khách hàng, doanh nghiệp có thể dự báo doanh số tương lai, xu hướng mua sắm Từ đó, doanh nghiệp chủ động đưa ra chiến lược bán hàng, tung sản phẩm mới, triển khai khuyến mãi phù hợp theo từng thời điểm Không những thế, học máy còn hỗ trợ doanh nghiệp tối ưu hóa nguồn lực tài chính, tăng hiệu quả và năng suất, tạo ra những bước chuyển đổi ấn tượng trong kỷ nguyên số hiện nay.

Chính vì thế, nhóm nghiên cứu đã chọn đề tài “Dự đoán doanh số bán hàng cho hệ thong thương mại điện tử bằng công nghệ máy học” để hiểu mô hình học máy nào đang được sử dụng bởi các bài nghiên cứu khác đề có thê chọn phương pháp tốt nhất cho nghiên cứu này Nhóm nghiên cứu sẽ so sánh tat ca độ chính xác và sai số của mô hình để có được mô hình tốt nhất, có sai số thấp và độ chính xác cao đề dự báo doanh số bán hàng Điều này sẽ giúp cho doanh nghiệp thực hiện được những quyết định liên quan đến bán hàng chính xác hơn, có thể giữ chân khách truy cập tiềm năng bằng cách cung cấp một loạt các hành động có khả năng khuyến khích họ mua hàng (D.Quynh, 2022; Thanh, 2019)

So sánh 4 phương pháp Random Forest, Gradient Boosting, ARIMA vả SARIMA dé tim ra đâu là phương pháp hiệu quả, chính xác nhất giúp Doanh nghiệp dự đoán bán hàng

Giúp các nhà quản trị xác định được hành vị, ý định mua hàng của người tiêu dùng từ đó đưa ra những đề xuất thúc đây hành vi mua hàng được thực hiện 1⁄3 Đối tượng nghiên cứu Đối tượng nghiên cứu 1a cac thuat toan Random Forest, Gradient Boosting, ARIMA, SARIMA va dir liéu giao dịch từ khách hang cua Olist

Pham vi dữ liệu nghiên cứu: Cửa hàng thương mại điện tử Olist tai Brazil Thời gian nghiên cứu: Từ 10/8/2022 đến 10/10/2022

Nhóm nghiên cứu sử dụng nền tảng Google Colab và ngôn ngữ lập trình Python để chạy 4 thuật toán Random Forest, Gradient Boosting, ARIMA và SARIMA Cụ thê, nhóm sử dụng hai mô hình hồi quy Random Forest và Gradient

Boosting voi myc dich so sánh va chọn ra thuật toán tốt nhất Đồng thời sử dụng hai mô hình ARIMA và SARIMA phân tích chuỗi thời gian nhằm dự đoán doanh thu 1.6 Ý nghĩa thực tiễn

Bài nghiên cứu cho thấy cái nhìn tông quát hơn về việc ứng dụng những công cụ machine learning, công nghệ Big Data vào việc dự báo doanh số bán hàng trên nền tảng thương mại điện tử Đồng thời bài nghiên cứu này còn tìm ra thuật toán tốt nhất trong 4 thuật toán Random Eorest, Gradient Boosting, ARIMA va SARIMA Ngoài ra còn kết luận được thuật toán Sarima còn cho thay các xu hướng mùa vụ trong đữ liệu giúp doanh nghiệp có cái nhìn rộng hơn trong việc dự đoán doanh số, ước lượng được doanh thu, điều này có ý nghĩa lớn trong việc xác lập được KPI qua từng năm Không những thế, dự báo bán hàng còn giúp doanh nghiệp có được cái nhìn tông quan đối về sự thay đối hoặc hình thành sản phẩm dịch vụ trong tương lai để có thể cân nhắc được chiến lược, ý tưởng mới Và cuối cùng, dự bán bán hàng còn giúp doanh nghiệp hoạch định các chiến lược quảng cáo, xúc tiến thương mại, tăng khả năng cạnh tranh với các doanh nghiệp cùng ngành mà mở ra nhiều cơ hội hợp tác với các ngành nghê khác

CHUONG 2 CO SO LY THUYET

2.1 Các dữ liệu nghiên cứu và ý nghĩa

Customer (khách hàng): Trong tệp đữ liệu sẽ có 5 tính năng này sẽ bao gồm lần lượt là “customer id” (id của người tiêu đùng đã mua hàng), “customer unique_id (Ăd duy nhất của khỏch hàng), “customer_zip_code_preủx (Địa chỉ zip của người tiờu dùng, đã đặt hang), “customer city” (thành phố của người tiêu dùng),

“customer state” (trạng thái của người tiêu dùng)

Geolocation: Tệp dữ liệu này bao gồm vị trí địa lý của khách hàng Order_ifem: Trong tệp đữ liệu này sẽ có 2 tính năng lần lượt là “order ¡d” (¡d duy nhất của đơn đặt hàng do khách hàng thực hiện), “order item ¡đ” (¡d duy nhất được cung cấp cho mỗi mặt hang duoc dat trong don hang”, “product_id” (id duy nhất của sản phâm được đặt hàng trong đơn hàng)

Order_payments: 4 tinh nang lan lwot la “order id”, “payment sequential” (trình tự của các khoản thanh toán được thực hiện trong trường hợp EMÙ,

“payment type” (phương thức được sử dụng để thanh toán cho giao dịch mua),

“payment installments” (Gia tri tra gop trong truong hop mua EMI), “payment- value” (Số tiền thanh toán cho các đơn đặt hàng)

Orders review: “review 1d” (địa chỉ của review), “order 1d” (địa chỉ của đơn hàng review), “review_ score” ( điểm đánh giá do khách hàng đưa ra cho mỗi đơn đặt hàng trên thang điểm từ 1-5), “review comment title” (tiêu đề các bình luận),

“revilew_ comment messàe” (xem xét các bình luận được đăng bởi người tiêu dùng cho mỗi đơn đặt hang), “review creation date” (ngày tạo bài review),

“review_ answer timestamp” (xem lại thời gian của câu trả lời review)

Products: “product _id” (1đ duy nhất được cung cấp cho mỗi sản phẩm có sẵn trên trang web), “product category name” (tên danh mục sản phẩm),

“product name lenght” (d6 dai cua chudi ma tén duge dat cho cdc san pham được dat hang), “product description lenght” (d6 dai cua m6 ta duoc viét cho méi san pham được đặt hàng trên trang web), “product photos_qty” (Số lượng ảnh của từng Sản phâm đặt hàng có sẵn trên công thông tin mua sắm), “product weight g” (trọng lượng của sản phâm được đặt hang tinh bang gam), “product length cm” (chiéu dai của sản phẩm được đặt hàng tính bang cm), “product height cm” (chiéu cao cua san pham đặt hàng tính bằng cm), “product width cm” (chiều rộng của sản phẩm dat hàng tính bằng cm)

Sellers: “seller ¡d” (Id của người bán bán sản phẩm thông qua cửa hàng trực tuyến), “seller zip code preủx” (địa chỉ zip của người bỏn), “seller city” (thành phố mà người bản đăng ký kinh doanh), “seller state” (trạng thái của người bán) Category-name_translation: tệp đữ liệu này bao gồm 2 tính năng lần lượt là

“product category name” (tên danh mục sản phâm bằng tiếng Bồ Đào Nha),

“product_category name_english” (tên danh mục sản phẩm băng Tiếng Anh) Tất cả những biến đữ liệu này phụ thuộc và tác động qua lại nhau, nếu các biến dữ liệu không liên kết và phối hợp với nhau, khi nghiên cứu chung ta dé bị ngắt quãng thông tin, các số liệu đưa ra không chính xác Tuy nhiên để thực hiện được nghiên cứu từ các tệp dữ liệu thô này, nhóm sẽ phân tích và chọn lọc lại các dữ liệu, gộp lại thành các tệp lớn khác nhau, áp dụng cho từng mô hình phân tích phù hợp Đối với mô hình hồi quy sử dụng 2 thuật toán là Random Forest và Gradient Boosting, nhóm loại bỏ tính năng “order ¡đ” và “đate” trong tat cả các biến (date là order purchase timestamp) được chuẩn hóa về ngày tháng năm Vì theo lý thuyết, biến dùng cho thuật toán Random Forest và Gradient Boosting là tất cả các biến trong dataset trừ biến order _¡id và đate, bởi vì mỗi đơn hàng là I id duy nhất, chỉ tính cho local 1 don hang nén ko co sy anh hưởng, còn các biến thời gian, ngày thì ko gắn duoc vao Random Forest, Gradient Boosting Đối với mô hình chuỗi thời gian, sử dụng 2 thuật toán là Arima và Sarima, nhóm chỉ sử dụng tất cả các tính năng “order ¡d” và “date” trong tất cả các biến Đi ngược lại với mô hình hỏi quy, mô hình chuỗi thời gian trong nghiên cứu sẽ đếm số lượng đơn hàng theo thời gian cụ thể, từ đó có thể dự đoán được sức mua của khách hàng vào từng khoảng thời gian cụ thé, vì vậy có thê dự đoán được doanh số bán hàng của cửa hàng đó

Phương pháp nghiên CỨU - - Ă 5< + SE SE + + SE S111 111111111 kg 2

Nhóm nghiên cứu sử dụng nền tảng Google Colab và ngôn ngữ lập trình Python để chạy 4 thuật toán Random Forest, Gradient Boosting, ARIMA và SARIMA Cụ thê, nhóm sử dụng hai mô hình hồi quy Random Forest và Gradient

Boosting voi myc dich so sánh va chọn ra thuật toán tốt nhất Đồng thời sử dụng hai

Ý nghĩa thực tiễn -2 2©222+2E+EE2EE22E2112112112112112112112112111211 21121111 2e 3 CHƯƠNG 2 _CƠ SỞ LÝ THUYÊTT . 222¿-2522c+SEEEErrttErkerrrttrkrrrrrrrired 4

Bài nghiên cứu cho thấy cái nhìn tông quát hơn về việc ứng dụng những công cụ machine learning, công nghệ Big Data vào việc dự báo doanh số bán hàng trên nền tảng thương mại điện tử Đồng thời bài nghiên cứu này còn tìm ra thuật toán tốt nhất trong 4 thuật toán Random Eorest, Gradient Boosting, ARIMA va SARIMA Ngoài ra còn kết luận được thuật toán Sarima còn cho thay các xu hướng mùa vụ trong đữ liệu giúp doanh nghiệp có cái nhìn rộng hơn trong việc dự đoán doanh số, ước lượng được doanh thu, điều này có ý nghĩa lớn trong việc xác lập được KPI qua từng năm Không những thế, dự báo bán hàng còn giúp doanh nghiệp có được cái nhìn tông quan đối về sự thay đối hoặc hình thành sản phẩm dịch vụ trong tương lai để có thể cân nhắc được chiến lược, ý tưởng mới Và cuối cùng, dự bán bán hàng còn giúp doanh nghiệp hoạch định các chiến lược quảng cáo, xúc tiến thương mại, tăng khả năng cạnh tranh với các doanh nghiệp cùng ngành mà mở ra nhiều cơ hội hợp tác với các ngành nghê khác

CHUONG 2 CO SO LY THUYET

Các dữ liệu nghiên cứu và ý ngÌhĩa - S- S- St ST xxx re 4 “co nc na

Tệp dữ liệu bao gồm năm tính năng: "customer id" (ID khách hàng đã mua hàng), "customer unique_id" (ID duy nhất của khách hàng), "customer_zip_code_prefix" (Địa chỉ zip của khách hàng đã đặt hàng), "customer city" (Thành phố của khách hàng).

“customer state” (trạng thái của người tiêu dùng)

Geolocation: Tệp dữ liệu này bao gồm vị trí địa lý của khách hàng Order_ifem: Trong tệp đữ liệu này sẽ có 2 tính năng lần lượt là “order ¡d” (¡d duy nhất của đơn đặt hàng do khách hàng thực hiện), “order item ¡đ” (¡d duy nhất được cung cấp cho mỗi mặt hang duoc dat trong don hang”, “product_id” (id duy nhất của sản phâm được đặt hàng trong đơn hàng)

Order_payments: 4 tinh nang lan lwot la “order id”, “payment sequential” (trình tự của các khoản thanh toán được thực hiện trong trường hợp EMÙ,

“payment type” (phương thức được sử dụng để thanh toán cho giao dịch mua),

“payment installments” (Gia tri tra gop trong truong hop mua EMI), “payment- value” (Số tiền thanh toán cho các đơn đặt hàng)

Đánh giá đơn hàng: "review 1d" (địa chỉ bài đánh giá), "order 1d" (địa chỉ đơn hàng được đánh giá), "review_score" (điểm đánh giá từ 1-5 do khách hàng đưa ra cho mỗi đơn hàng), "review_comment_title" (tiêu đề bình luận đánh giá của từng đơn hàng).

“revilew_ comment messàe” (xem xét các bình luận được đăng bởi người tiêu dùng cho mỗi đơn đặt hang), “review creation date” (ngày tạo bài review),

“review_ answer timestamp” (xem lại thời gian của câu trả lời review)

Products: “product _id” (1đ duy nhất được cung cấp cho mỗi sản phẩm có sẵn trên trang web), “product category name” (tên danh mục sản phẩm),

“product name lenght” (d6 dai cua chudi ma tén duge dat cho cdc san pham được dat hang), “product description lenght” (d6 dai cua m6 ta duoc viét cho méi san pham được đặt hàng trên trang web), “product photos_qty” (Số lượng ảnh của từng Sản phâm đặt hàng có sẵn trên công thông tin mua sắm), “product weight g” (trọng lượng của sản phâm được đặt hang tinh bang gam), “product length cm” (chiéu dai của sản phẩm được đặt hàng tính bang cm), “product height cm” (chiéu cao cua san pham đặt hàng tính bằng cm), “product width cm” (chiều rộng của sản phẩm dat hàng tính bằng cm)

- **Sellers**: "seller_id" (ID of the seller selling products through the online store), "seller zip code prefix" (ZIP code of the seller), "seller city" (city the seller registered their business in), "seller state" (state the seller is in) - **Category-name_translation**: This file contains two features, respectively

“product category name” (tên danh mục sản phâm bằng tiếng Bồ Đào Nha),

“product_category name_english” (tên danh mục sản phẩm băng Tiếng Anh) Tất cả những biến đữ liệu này phụ thuộc và tác động qua lại nhau, nếu các biến dữ liệu không liên kết và phối hợp với nhau, khi nghiên cứu chung ta dé bị ngắt quãng thông tin, các số liệu đưa ra không chính xác Tuy nhiên để thực hiện được nghiên cứu từ các tệp dữ liệu thô này, nhóm sẽ phân tích và chọn lọc lại các dữ liệu, gộp lại thành các tệp lớn khác nhau, áp dụng cho từng mô hình phân tích phù hợp Đối với mô hình hồi quy sử dụng 2 thuật toán là Random Forest và Gradient Boosting, nhóm loại bỏ tính năng “order ¡đ” và “đate” trong tat cả các biến (date là order purchase timestamp) được chuẩn hóa về ngày tháng năm Vì theo lý thuyết, biến dùng cho thuật toán Random Forest và Gradient Boosting là tất cả các biến trong dataset trừ biến order _¡id và đate, bởi vì mỗi đơn hàng là I id duy nhất, chỉ tính cho local 1 don hang nén ko co sy anh hưởng, còn các biến thời gian, ngày thì ko gắn duoc vao Random Forest, Gradient Boosting Đối với mô hình chuỗi thời gian, sử dụng 2 thuật toán là Arima và Sarima, nhóm chỉ sử dụng tất cả các tính năng “order ¡d” và “date” trong tất cả các biến Đi ngược lại với mô hình hỏi quy, mô hình chuỗi thời gian trong nghiên cứu sẽ đếm số lượng đơn hàng theo thời gian cụ thể, từ đó có thể dự đoán được sức mua của khách hàng vào từng khoảng thời gian cụ thé, vì vậy có thê dự đoán được doanh số bán hàng của cửa hàng đó

Key Paper “E-Commerce System for Sale Prediction Using Machine Learning Technique” tam dich la “Du doan doanh số bán hàng cho hệ thong thương mại điện tử bằng công nghệ máy học” của tác giả Karandeep Singh, Booma P M và Umapathy Eapanathan Đại học Công nghệ & Đôi mới Châu Á Thái Bình Dương (APU), Malaysia năm 2020 (Singh, Booma, & Eaganathan, 2020)

Key Paper dự đoán bán hàng trên hệ thống thương mại điện tử bằng các kỹ thuật khai thác và phân tích dữ liệu Trong nghiên cứu này, tác giả sử dụng phương pháp KDD (Knowledge Discovery in Databases) vì nó hầu hết phù hợp với yêu cầu của dự án này Phương pháp này đã được sử dụng rộng rãi trong lĩnh vực học máy đề nhận dạng mẫu, thong kê, cơ sở dữ liệu, trí tuệ nhân tạo và trực quan hóa kết quả dữ liệu (DBD, 2019)

Tập dữ liệu cho nghiên cứu này sẽ là một tập dữ liệu giao dịch Chúng tôi sẽ sử dụng các đữ liệu giao địch trong quá khứ đẻ thực hiện dự đoán bán hàng trong tương lai Giao dịch tập dữ liệu sẽ từ một trong những thương mại điện tử có mã nguồn mở và có thê được sử dụng mà không có bat ky han ché nao Tập dữ liệu đã được lấy từ Kaggle.com, trang này đã liệt kê Tập dữ liệu công khai về thương mại điện tử của Brazil bởi Olist Store - Trang web thương mại điện tử Có khoảng 100.000 dữ liệu lịch sử đơn hàng giao dịch được cung cấp Họ cũng đã cung cấp tám tập đữ liệu khác nhau chứa các tập dữ liệu khác nhau như tập dữ liệu sản phẩm, tập dữ liệu đơn đặt hàng, tập dữ liệu khách hàng va tap dữ liệu mặt hàng Dưới đây hình 1 cho thấy kết nối giữa tất cả các tập dữ liệu được cung cấp cho trang web thương mại điện tử này

Hình 1: Mối liên hệ giữa các datasets

Các nghiên cứu liên quan đến dự đoán bán hàng 252552 Ssss+S2 7

(Zhao & Wang, 2017) “Du bdo doanh số bản hàng trong thương mại điện tứ sử dụng Mạng thần kinh chuyển đổi” Nghiên cứu sử dụng thuật toán chính là thuật toán mạng nơ-ron tích chập (CNN) để thực hiện dự báo bán hàng trong thương mại điện tử Mục tiêu là xác định xem cách tiếp cận này có thể tự động trích xuất các tính năng hiệu quả và cung cấp dự báo bán hàng dựa trên các tính năng đã trích xuất hay không Tuy nhiên, với mục đích so sánh, nghiên cứu đã chọn thuật toán ARIMA, DNN, TL và WD để tìm ra kết quả chính xác nhất cho dự đoán bán hàng Kết quả cho nghiên cứu này là mô hình ARIMA có giá trị trung bình cao nhất, tuy nhiên, thuật toán CNN đã đạt được mục tiêu khi nó có thể tự động trích xuất các tính năng hiệu quả và thực hiện dự báo bán hàng băng cách sử dụng các tính năng được trích xuat (Bandara et al., 2019) “Du bdo nhu cẩu bán hàng trong thương mại điện tử sử dụng phương pháp mạng thân kinh bộ nhớ ngắn hạn dài hạn” và (Li, li, & Lầu,

2018) “Dự báo doanh số thương mại điện tử Trung Quốc: So sánh thực nghiệm của

Hai nghiên cứu năm 2018 và 2019 đều sử dụng thuật toán ARIMA để so sánh hiệu suất dự báo Nghiên cứu năm 2018 sử dụng NARNN, còn nghiên cứu năm 2019 sử dụng RNN và LSTM Kết quả cho thấy lỗi dự đoán của NARNN thấp hơn ARIMA (0,1016 so với 0,1389), trong khi lỗi dự đoán của LSTM cũng thấp hơn ARIMA trong nghiên cứu năm 2019 Điều này chứng tỏ các mô hình kết hợp thuật toán mạng nơ-ron có khả năng dự báo chính xác hơn so với ARIMA trong bối cảnh thương mại điện tử phức tạp.

(Elias & Singh, 2018) “Dur bdo vé ban hang Walmart bang Thudt todn hoc máy” Nghiên cứu này sử dụng 3 thuật toán gồm Random, Gradient Boosting và Extremely Randomized Tree để so sánh và kiểm tra nó bằng cách sử dụng điểm R? đánh giá MAE Mục tiêu của nghiên cứu này là tìm ra độ chính xác của thuật toán bằng cách sử dụng các siêu tham số khác nhau của mỗi mô hình để có được sai số tuyệt đối trung bình (MAE) và điểm R? tốt nhất Kết quả của nghiên cứu này chỉ ra rằng Random Forest là thuật toán tốt nhất đã ghi được số tiền tối thiểu trong đánh giá

MAE (1979,4) và điểm R? (0,94) cao cho thấy độ chính xác cao hơn so với các thuật toán khác.

Google Colab oo

Google Colaboratory (thường gọi tắt là Google Colab) là một sản phẩm của Google Research, một dịch vụ đám mây miễn phí đối với những phiên bản tiêu chuẩn Google Colab cũng được phát triển trên nền tảng Jupiter Notebook nên cách sử dụng của cả hai công cụ đều tương tự nhau Jupiter Notebook cũng là một công cụ mã nguồn mở và miễn phí, tuy nhiên Jupiter cho phép bạn đưa cả code Python và các thành phần văn bản phức tạp như hình ảnh, công thức, video, biểu thức vào trong

CAc thut todn nn cccsccecccceescssseeeeeeeeessseeseeeesensssaeeeeeeessesesseeeeeeeseseees 9

Quay trở lại, mục đích của Google Colab đó chính là việc cho hỗ trợ chạy code Python trực tiếp thông qua trình duyệt và chúng phù hợp với phân tích dữ liệu, machine learning và giáo dục Người dùng không cần tải phần mềm mà có thê trực tuyến thông qua tài khoản Google, tuy nhiên nó cũng yêu cầu người dùng phải có tài nguyên máy tính để sử dụng trực tuyến bao gồm CPU, GPUs, TPUs Hiện nay, Google Colab đang cung cấp rất nhiều cấu hình sử dụng khác nhau và phố biến nhất thường là GPU: Nvidia K80s, P4s và P1005, trong tương lai sẽ có thêm các sản phâm mới như: Nvidia A100 Tuy nhiên, người sử dụng sẽ không thê lựa chọn được cấu hình cho công việc của mình vì Google Colab “hoàn toàn miễn phí”, cầu hình sẽ thay đổi theo thời gian và tùy theo công việc Vì hệ thống tài nguyên của Google có giới hạn nên một lần làm việc tối đa chỉ có thê duy trì trong 12 giờ

Google Colab thích hợp cho người mới bắt đầu AI-Deep Learning, đặc biệt khi chưa có khả năng tài chính đầu tư máy móc Colab cung cấp giải pháp thay thế tiết kiệm cho những ai không đủ điều kiện sở hữu máy tính cấu hình cao Tuy nhiên, về lâu dài, Google Colab sẽ không hiệu quả bằng hệ thống máy tính chuyên dụng dành riêng cho Deep Learning (FirebirD, 2019).

DECISION TREE) = sé CISIONTREE-1 = sé CISION TREE-1

Random Forest 1a thuật toán máy học có giám sát (Supervised Machine Learning) Nó có thé được sử dụng cho cả nhiệm vụ phân lớp (Classification) và hồi quy (Regression), kết hợp với tính chất phi tuyến tính của nó, làm cho nó có khả năng thích ứng cao với nhiều loại dữ liệu và tình huống Đây được xem là một thuật toán mang tính chính xác, linh hoạt và dễ sử dụng nhất nên được sử dụng rất phô biến

Nó được gọi là “rừng” vì nó mọc lên một rừng cây quyết định Dữ liệu từ các cây nay sau đó được hợp nhất với nhau để đảm bảo các dự đoán chính xác nhất Trong khi một mình cây quyết định chỉ đưa ra một kết quả và phạm vi nhóm hẹp, rừng đảm bảo kết quả chính xác hơn với số lượng nhóm và quyết định lớn hơn Nó có thêm lợi ích là thêm tính ngẫu nhiên vào mô hình bằng cách tìm ra tính năng tốt nhất trong số một tập hợp con ngau nhiên của các tính năng Random forest có nhiều ứng dụng, cụ thê như công cụ đề xuất, phân loại hình ảnh và lựa chọn tính năng Nó có thể được sử dụng để phân loại, dự đoán các bệnh và xác định hoạt động gian lận Nó nằm ở cơ sở của thuật toán Boruta, chọn các tính năng quan trọng trong tập dữ liệu Nhìn chung, những lợi ích này tạo ra một mô hình có tính đa dạng rộng mà nhiều nhà khoa học dữ liệu ưa thích

Về ưu điểm, Random Forest được coi là một phương pháp chính xác và mạnh mẽ vì số cây quyết định tham gia vào quá trình này Khi Forest có nhiều cây hơn, chúng ta có thể tránh được vấn đề overfitting với tập dữ liệu Thuật toán có thể được sử dụng trong cả hai vấn đề phân loại và hồi quy Random Forest cũng có thể xử lý các giá trị còn thiếu Có hai cách để xử lý các giá trị này: sử dụng các giá trị trung bình dé thay thế các biến liên tục và tính toán mức trung bình gần kể của các giá trị bị thiếu Có thể nhận được tầm quan trọng của tính năng tương đối, giúp chọn các tính năng đóng góp nhiều nhất cho trình phân loại

Về nhược điểm, Random Forest chậm tạo dự đoán bởi vì nó có nhiều cây quyết định Bất cứ khi nào nó đưa ra dự đoán, tất cả các cây trong rừng phải đưa ra dự đoán cho cùng một đầu vào cho trước và sau đó thực hiện bỏ phiếu trên đó Toàn bộ quá trình này tốn thời gian Mô hình khó hiểu hơn so với cây quyết định, nơi có thê dễ dàng đưa ra quyết định bằng cách đi theo đường dẫn trong cây (Tibco, 2021)

Gradient Boosting la mét ky thuat hoc may phé bién rộng rãi được các nhà khoa học dữ liệu sử dụng để tạo ra các mô hình dự đoán vì độ chính xác và tốc độ của nó và được sử dụng trong một số tác vụ như tác vụ hồi quy và phân lớp Gradient Boosting có thê được áp dụng cho nhiều chức năng liên quan đến rủi ro và cải thiện độ chính xác dự đoán của mô hình Thêm vào đó còn giúp giải quyết các vẫn đề đa cộng tuyến khác nhau khi có mối tương quan cao giữa các biến dự báo (Team, 2020) vet 1 [oP oP ele tee] ee” o/s

Nguồn: Data Science Team Gradient boosting phy thuéc rat nhiều vào việc đự đoán răng mô hình tiếp theo sẽ giảm các lỗi dự đoán khi kết hợp với các mô hình trước đó Cụ thể sẽ thiết lập kết quả mục tiêu cho mô hình sắp tới để giảm thiểu sai sót Gradient boosting đưa ra một mô hình dự đoán dưới dạng một tập hợp các mô hình dự đoán yếu Decision Trees là bộ học yếu, thuật toán kết quả được gọi là Gradient-boosted Trees, nó thường hoạt động tốt hơn thuật toán Random Forests Mô hình Gradient-boosted Trees được xây dựng theo một cách vô cùng khôn khéo và hiệu quả theo từng giai đoạn như trong các phương pháp Boosting khác, nhưng nó tổng quát hóa các phương pháp khác bằng cách cho phép tôi ưu hóa một hàm Ioss function (hàm mắt mát) có tính khả vi tùy ý ("Gradient boosting,” 2022)

Về ưu điểm, Gradient Boosting thường cung cấp các dự đoán rất chính xác không có sai sót Nó rất linh hoạt - có thê hỗ trợ và tối ưu hóa trên các chức năng mat mát khác nhau và cung cấp một số tùy chọn điều chỉnh siêu thông số, điều này làm cho các chức năng trở nên phù hợp và linh hoạt hơn Bên cạnh do, Gradient Boosting không cần xử lý trước đữ liệu - nó thường hoạt động tốt với các giá trị phân loại và các giá trị số Hơn thế nữa, nó có thể xử lý đữ liệu bị thiếu - không bắt buộc phải nhập

Về nhược điểm, Gradient Boosting yêu cầu điều chỉnh thận trọng các siêu thông số khác nhau ("Bagging và Boosting trong cây quyết định," 2019) Gradient Boosting luôn tiếp tục được cải thiện để giảm thiêu tat cả các lỗi, điều này có thể nhắn mạnh quá mức các ngoại lệ và gây ra tình trạng trang bị quá tải Mô hình này tính toán quá tốn kém vì thường yêu cầu nhiều cây (> 1000), điều này có thê làm cạn kiệt thời gian và bộ nhớ Thêm vảo đó, tính linh hoạt cao dẫn đến nhiều tham số tương tác và ảnh hưởng nhiều đến hành vi của phương pháp (số lần lặp, độ sâu của cây, các tham số chính quy ) Điều này đòi hỏi một lưới tìm kiếm đữ liệu lớn trong quá trình điều chỉnh Cuối cùng, bản chất của mô hình này ít diễn giải hơn, mặc dù điều này có thé dé dang giải quyết bằng nhiều công cụ khác nhau (Kurama, 2019)

Nguồn: Khoa học đữ liệu

Mô hình ARIMA được viết tắt bởi cụm từ Autoregressive Integrated Moving Average Mô hình này dựa trên giả thuyết chuỗi đừng và phương sai sai số không đổi Đầu vào của mô hình này là sử dụng đữ liệu trong quá khứ để dự báo chuỗi dữ liệu trong tương lai Hầu hết các chuỗi thời gian sẽ có xu hướng tăng hoặc giảm theo thời gian, do đó yếu tố chuỗi dừng thường không đạt được Trong trường hợp chuỗi không dừng thì ta sẽ cần biến đổi sang chuỗi dừng bằng sai phân Khi đó tham số đặc trưng của mô hình sẽ có thêm thành phần bậc của sai phân d và mô hình được đặc tả bởi 3 tham số ARIMA (p, d, q)

Mô hình này biêu điễn phương trình hồi quy tuyến tinh da bién (Multiple linear regression) của các biến đầu vào (hay biến phụ thuộc trong thống kê) gồm 2 quá trình chính là tự hồi quy (Auto regression) - thành phần tự hồi quy bao gồm tập hợp các độ trễ của biến hiện tại và trung bình trượt (Moving average) - quá trình dịch chuyển hoặc thay đỗi giá trị trung bình của chuỗi theo thời gian Theo trường phái machine learning thì cần quan tâm đến làm sao đề lựa chọn một mô hình có sai số dự báo là nhỏ nhất (Khanh, 2019)

Mô hình SARIMA được viết tắt bởi cụm từ Seasonal Autoregressive Integrated Moving Average Vé ban chat, đây là mô hình ARIMA cũng sử dụng các giá trị trong quá khứ nhưng được điều chỉnh một cách đặc biệt để áp dụng cho những chuỗi thời gian mang bắt kỳ yếu tố thời vụ nào ARIMA chính là mô hình hồi quy tuyến tính nhưng mối quan hệ tuyến tính thường không giải thích tốt chuỗi trong trường hợp chuỗi xuất hiện yếu tô thời vụ Tuy nhiên, SARIMA mang lại tính thời vụ như một tham số, nên nó mạnh hơn đáng kế so với ARIMA trong việc dự báo các không gian dữ liệu phức tạp có chứa các chu kỳ Chính vì vậy, bằng cách tìm ra chu kỳ của quy luật mùa vụ và loại bỏ nó khỏi chuỗi ta sẽ để đàng hồi quy mô hình theo phương pháp ARIMA Ưu điểm và nhược điểm của mô mình ARIMA và SARIMA theo quan điểm của (Bajaj, 2022)

Vé uu diém, mé hinh ARIMA va SARIMA turong déi mềm dẻo và có thể miêu tả một phạm vi rộng đặc điểm của chuỗi thời gian thường gặp trong thực tế Mô hình chỉ yêu cầu dữ liệu trước của một chuỗi thời gian đề tông quát hóa dự báo và mô hình này hoạt động tốt đối với các dự báo ngắn hạn Các thủ tục hình thức kiểm định mô hình tương đối đơn giản và dễ tiếp cận Ngoài ra, các dự báo và khoảng dự báo có thể thực hiện trực tiếp tu m6 hinh đã lựa chọn Hai mô hình này có ít siêu tham số nên tệp cấu hình sẽ dễ bảo trì nếu mô hình đi vào sản xuất Đây là mô hình chuỗi thời gian không cố định

Về nhược điểm, ARIMA và SARIMA cần phải có số lượng dữ liệu ban đầu đủ lớn Những bước ngoặt khó đoán định Có một chút chủ quan liên quan đến việc xác định (p, d, q) thứ tự của mô hình Xây dựng mô hình ARIMA và SARIMA phù hợp thường mắt nhiều thời gian và chỉ phí, hiệu suất kém hơn đối với các dự báo dài hạn và ít có thê giải thích hơn làm trơn theo cấp số nhân Độ phức tạp thời gian theo cấp số nhân: Khi giá trị của p và q tăng thì có nhiều hệ số bằng nhau hơn đề phù hợp do đó làm tăng độ phức tạp thời gian nêu p và q cao Điều này làm cho cả hai thuật toán này khó được đưa vào sản xuất và khiến các Nhà khoa hoc đữ liệu phải xem xét các thuật toán khác và nó cũng phụ thuộc vào độ phức tạp của tập dữ liệu

Ngày đăng: 29/08/2024, 08:26

HÌNH ẢNH LIÊN QUAN

Hình  4.1.1  b  Nhập  thư  viện  can  thiét  ....0..00.c.cccccssecssessessessesssessssssessessesstsseessesseeseeees  17 - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.1 b Nhập thư viện can thiét ....0..00.c.cccccssecssessessessesssessssssessessesstsseessesseeseeees 17 (Trang 9)
Hình  1:  Mối  liên  hệ  giữa  các  datasets - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 1: Mối liên hệ giữa các datasets (Trang 16)
Hình  4.1.1  d  Thiết  lập  biến  date - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.1 d Thiết lập biến date (Trang 27)
Hình  4.1.1  ƒ Loại  bó  cột  không  cần  thiết - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.1 ƒ Loại bó cột không cần thiết (Trang 28)
Hình  4.1.2  a  Đếm  số  lượng  order  theo  thời  gian - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.2 a Đếm số lượng order theo thời gian (Trang 29)
0  100  Hình  4.1.2  c  Kết  quả  dự  đoán  của  Arina  200  300  400  500  s00 - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
100 Hình 4.1.2 c Kết quả dự đoán của Arina 200 300 400 500 s00 (Trang 30)
Hình  4.1.2  e  Kết  quả  dự  đoán  của  Sarima - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.2 e Kết quả dự đoán của Sarima (Trang 31)
Hình  4.1.2  d  Đo  lường  các  kết  quả  đánh  giá - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.2 d Đo lường các kết quả đánh giá (Trang 31)
Hình  4.1.2  ƒ  Các  chỉ  số  đánh  giá  của  Sarima - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
nh 4.1.2 ƒ Các chỉ số đánh giá của Sarima (Trang 32)
Bảng  2:  So  sánh  kết  quả  của  hai  thuật  toán  trong  mô  hình  chuỗi  thời  gian - báo cáo ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học
ng 2: So sánh kết quả của hai thuật toán trong mô hình chuỗi thời gian (Trang 33)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w