Báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học

39 0 0
Báo cáo môn học ứng dụng phân tích dữ liệu lớn trong quản lý dự đoán doanh số bán hàng cho hệ thống thương mại điện tử bằng công nghệ máy học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nếu họ dự đoán được doanh số bán hàng, xu hướng mua hàng trong tương lai thông qua các phương pháp phân tích các dữ ệu li thu thập được từ các giao d ch cị ủa những khách hàng trước, doa

Trang 1

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QU N TR KINH DOANH Ả Ị

BÁO CÁO

MÔN H C NG D NG PHÂN TÍCH D LIỌ Ứ Ụ Ữ ỆU LỚN TRONG QU N LÝ

Dự đoán doanh số bán hàng cho h thệống thương mại điện tử b ng

công ngh máy học

GV : TS Tr n Th Phi Ph ng ầ ị ụ

Nhóm sinh viên : Unicorn

1 T Nguyạ ễn Tường Khanh 71801788

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN

Thành ph Hố ồ Chí Minh, ngày tháng năm

Giảng viên

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN

Thành ph Hố ồ Chí Minh, ngày tháng năm

Giảng viên hướng dẫn

Trang 4

PHIẾU ĐÁNH GIÁ SINH VIÊN

Trang 6

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 4

2.1 Các d li u nghiên cữ ệ ứu và ý nghĩa 4

CHƯƠNG 3 CÁC PHƯƠNG PHÁP NGHIÊN CỨU 15

3.1 Quy trình nghiên cứu 15

3.2 Quy trình nghiên cứu 15

CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU 17

4.1 Mô t quá trình ch y các mô hình dả ạ ự đoán 17

Trang 7

4.1.1 Mô t quá trình ch y các mô hình h i quy Random Forest và Gradient ả ạ ồ

Trang 8

MỤC L C BẢNG

Bảng 1: So sánh k t qu c a hai thu t toán trong mô hình h i quy 23 ế ả ủ ậ ồ Bảng 2: So sánh k t qu c a hai thu t toán trong mô hình chu i thế ả ủ ậ ỗ ời gian 24

Trang 9

Hình 4.1.1 g Chia train test 19

Hình 4.1.1 h Ch y Random Forest Regressor 19 ạ Hình 4.1.1 i Ch y Gradient Boosting Regressor 20 ạ Hình 4.1.2 a Đếm s ố lượng order theo th i gian 20 ờ Hình 4.1.2 b Chia train test và ch y auto_arima 21 ạ Hình 4.1.2 c K t qu d ế ả ự đoán của Arima 21

Hình 4.1.2 d Đo lường các k t qu ế ả đánh giá 22

Hình 4.1.2 e K t qu d ế ả ự đoán của Sarima 22

Hình 4.1.2 f Các ch s ỉ ố đánh giá của Sarima 23

Trang 10

CHƯƠNG 1 TỔNG QUAN NGHIÊN C U

1.1 Lý do chọn đề tài

Có th nh n th y r ng, xu ể ậ ấ ằ hướng mua s m tr c tuy n và ắ ự ế đã đang bùng n trên ổ phạm vi toàn c u Ch c n ng i m t ch v n hoàn toàn có th mua s m t t c m i th , ầ ỉ ầ ồ ộ ỗ ẫ ể ắ ấ ả ọ ứ từ nh ng món hàng hoá xa x nh t cho ữ ỉ ấ đến nh ng ữ đồ dùng sinh ho t ạ cơ b n nh t trong ả ấ nhà ch v i nh ng cú ch m hay vu t không gi i h n trên máy tính hay ỉ ớ ữ ạ ố ớ ạ điện tho i ạ Điều đặc bi t là có th mua m i hàng hóa t nhi u hãng khác nhau ch trong m t giao ệ ể ọ ừ ề ỉ ộ diện website ho c trên m t ng d ng ặ ộ ứ ụ điện tho i Ti n l i, ti t ki m th i gian và có t t ạ ệ ợ ế ệ ờ ấ cả m i th chính là nh ng ọ ứ ữ ưu điểm c a các trang ủ thương ạ điệ ử m i n t (E-commerce) Với s phát triự ển vượt bậc như vậy, đây cũng là một trong nh ng n n t ng ữ ề ả chứa nhi u data nh t N n tề ấ ề ảng thương mại điệ ửn t thu th p mậ ột lượng lớn data đến từ các hoạt động, giao dịch của người dùng như họ và tên, độ tu i, sổ ố điện tho i, ạ thông tin liên l c, email Toàn bạ ộ thông tin trên đượ được lưu trữ ạc t i kho ch a d ứ ữ liệu của trang thương mại điện t ử đó Đây quả thật được xem là một “kho kim cương”, giúp n m b t kắ ắ ịp xu hướng, s thích cá nhân, s n phở ả ẩm ưa thích khi s quan tâm ự hàng đầu của các doanh nghiệp chính là những khách hàng của họ

Nhìn t ng quan, big data có th t o ra l i th c nh tranh cho doanh nghi p ổ ể ạ ợ ế ạ ệ bằng cách cung c p nh ng phân tích chuyên sâu vấ ữ ề các xu hướng tiêu dùng Tuy nhiên trên th c t nh ng n n t ng E-commerce lự ế ữ ề ả ại chưa tận d ng t t ngu n tài nguyên ụ ố ồ quý giá này, thông thường các n n t ng ch s d ng nh ng d li u này khi g p ph i ề ả ỉ ử ụ ữ ữ ệ ặ ả vấn đề cần giải quyết với khách hàng Họ sử dụng hàng trăm, hàng triệu đô-la để quảng cáo, m ng xã hạ ội và thúc đẩy bán hàng nhưng thiết nghĩ, nếu vi c s d ng ệ ử ụ Machine learning được thực hiện thì rõ ràng trang thương mại điện tử đó sẽ chiếm nhiều lợi thế hơn so với đối th củ ủa mình

Vậy n u các n n t ng E-commerce có th s dế ề ả ể ử ụng được học máy để ự đoán d được doanh số bán hàng thì sẽ thế nào? Nếu họ dự đoán được doanh số bán hàng, xu hướng mua hàng trong tương lai thông qua các phương pháp phân tích các dữ ệu li thu thập được từ các giao d ch cị ủa những khách hàng trước, doanh nghi p hoàn toàn ệ có th ể đưa ra những kế hoạch tạo ra l i th cợ ế ạnh tranh như chính sách bán hàng, tung

Trang 11

ra s n ph m mả ẩ ới, các chương trình khuyến mãi t ng thở ừ ời điểm phù h p Không ch ợ ỉ vậy, doanh nghi p có th tệ ể ối ưu được nguồn tài chính, gia tăng tính hiệu quả, năng suất để t o nên nh ng bi n chuy n ạ ữ ế ể ấn tượng trong k nguyên chuyỷ ển đổ ố như hiện i s nay

Chính vì th , nhóm nghiên c u ế ứ đã chọn đề tài “Dự đoán doanh số bán hàng cho h thệ ống thương mại điện t b ng công ngh máy hử ằ ệ ọc” để hiểu mô hình h c máy ọ nào đang được sử dụng bởi các bài nghiên cứu khác để có thể chọn phương pháp tốt nhất cho nghiên c u này Nhóm nghiên c u s so sánh t t cứ ứ ẽ ấ ả độ chính xác và sai s ố của mô hình để có được mô hình tốt nhất, có sai số thấp và độchính xác cao để dự báo doanh số bán hàng Điều này s giúp cho doanh nghi p th c hiẽ ệ ự ện được nh ng ữ quyết định liên quan đến bán hàng chính xác hơn, có thể gi chân khách truy c p ti m ữ ậ ề năng bằng cách cung cấp một loạt các hành động có khả năng khuyến khích họ mua hàng (D.Qu nh, 2022; Thanh, 2019) ỳ

1.2 Mục tiêu nghiên c u

So sánh 4 phương pháp Random Forest, Gradient Boosting, ARIMA và SARIMA để tìm ra đâu là phương pháp hiệu quả, chính xác nhất giúp Doanh nghiệp dự đoán bán hàng

Giúp các nhà qu n trả ị xác định được hành vi, ý định mua hàng của người tiêu dùng t ừ đó đưa ra những đề xuất thúc đẩy hành vi mua hàng được thực hiện

1.3 Đối tượng nghiên c u

Đối tượng nghiên cứu là các thuật toán Random Forest, Gradient Boosting, ARIMA, SARIMA và d li u giao d ch t khách hàng c a Olist ữ ệ ị ừ ủ

1.4 Phạm vi nghiên c u

Phạm vi d li u nghiên c u: Cữ ệ ứ ửa hàng thương mại điện t Olist t i Brazil ử ạ Thời gian nghiên c u: Tứ ừ 10/8/2022 đến 10/10/2022

1.5 Phương pháp nghiên cứu

Nhóm nghiên c u s d ng n n t ng Google Colab và ngôn ng l p trình ứ ử ụ ề ả ữ ậ Python để chạy 4 thuật toán Random Forest, Gradient Boosting, ARIMA và SARIMA C th , nhóm s d ng hai mô hình h i quy Random Forest và Gradient ụ ể ử ụ ồ

Trang 12

Boosting v i mớ ục đích so sánh và ch n ra thu t toán t t nh t ọ ậ ố ấ Đồng th i s d ng hai ờ ử ụ mô hình ARIMA và SARIMA phân tích chu i th i gian nh m dỗ ờ ằ ự đoán doanh thu

1.6 Ý nghĩa thực tiễn

Bài nghiên c u cho th y cái nhìn tứ ấ ổng quát hơn về ệ ứ vi c ng d ng nh ng công ụ ữ cụ machine learning, công ngh Big Data vào vi c d báo doanh s bán hàng trên ệ ệ ự ố nền tảng thương mại điệ ử Đồng thời bài nghiên c u này còn tìm ra thu t toán t t n t ứ ậ ố nhất trong 4 thu t toán Random Forest, Gradient Boosting, ARIMA và SARIMAậ Ngoài ra còn kết luận được thuật toán Sarima còn cho thấy các xu hướng mùa vụ trong dữ liệu giúp doanh nghiệp có cái nhìn rộng hơn trong việc dự đoán doanh số, ước lượng được doanh thu, điều này có ý nghĩa lớn trong việc xác lập được KPI qua từng năm Không những thế, dự báo bán hàng còn giúp doanh nghiệp có được cái nhìn tổng quan đố ề ự thay đổi v s i ho c hình thành s n ph m d ch vặ ả ẩ ị ụ trong tương lai để có th cân nhể ắc được chiến lược, ý tưởng mới Và cu i cùng, d bán bán hàng còn ố ự giúp doanh nghi p hoệ ạch định các chiến lược qu ng cáo, xúc ti n tả ế hương mại, tăng khả năng cạnh tranh v i các doanh nghi p cùng ngành mà m ra nhiớ ệ ở ều cơ hội h p tác ợ với các ngành ngh khác ề

Trang 13

CHƯƠNG 2 CƠ SỞ LÝ THUY T

2.1 Các d li u nghiên cữ ệ ứu và ý nghĩa

Customer (khách hàng): Trong t p d li u s ệ ữ ệ ẽ có 5 tính năng này sẽ bao gồm lần lượt là “customer_id” (id của người tiêu dùng đã mua hàng), “customer unique_id (id duy nh t cấ ủa khách hàng), “customer_zip_code_prefix (Địa ch zip cỉ ủa người tiêu dùng đã đặt hàng), “customer_city” (thành phố của người tiêu dùng), “customer_state” (trạng thái của người tiêu dùng)

Geolocation: T p d li u này bao g m vệ ữ ệ ồ ị trí đ a lý của khách hàng ị

Order_item: Trong t p d li u này sệ ữ ệ ẽ có 2 tính năng lần lượt là “order_id” (id duy nh t cấ ủa đơn đặt hàng do khách hàng th c hiự ện), “order_item_id” (id duy nhất được cung cấp cho mỗi mặt hàng được đặt trong đơn hàng”, “product_id” (id duy nhất của sản phẩm được đặt hàng trong đơn hàng).

Order_payments: 4 tính năng lần lượt là “order_id”, “payment_sequential”

(trình t c a các khoự ủ ản thanh toán được th c hiự ện trong trường h p EMI), ợ “payment_type” (phương thức được sử dụng để thanh toán cho giao dịch mua), “payment_installments” (Giá tr trả góp trong trườị ng hợp mua EMI), “payment -value” (Số ền thanh toán cho các đơn đặ ti t hàng)

Orders review: “review_id” (địa ch cỉ ủa review), “order_id” (địa ch cỉ ủa đơn hàng review), “review_score” ( điểm đánh giá do khách hàng đưa ra cho mỗi đơn đặt hàng trên thang điểm từ 1–5), “review_comment_title” (tiêu đề các bình luận), “review_comment_message” (xem xét các bình luận được đăng bởi người tiêu dùng cho mỗi đơn đặt hàng), “review_creation_date” (ngày tạo bài review), “review_answer_timestamp” (xem lại thời gian của câu trả lời review)

Products: “product_id” (Id duy nhất được cung cấp cho mỗi s n ph m có s n ả ẩ ẵ trên trang web), “product_category_name” (tên danh mục sản phẩm), “product_name_lenght” (độ dài c a chuủ ỗi mà tên được đặt cho các sản phẩm được đặt hàng), “product_description_lenght” (độ dài của mô tả được viết cho mỗi sản phẩm được đặt hàng trên trang web), “product_photos_qty” (Số lượng ảnh của từng sản phẩm đặt hàng có s n trên c ng thông tin mua sẵ ổ ắm), “product_weight_g” (trọng

Trang 14

lượng của s n phả ẩm được đặt hàng tính bằng gam), “product_length_cm” (chiều dài của s n phả ẩm được đặt hàng tính bằng cm), “product_height_cm” (chiều cao của sản phẩm đặt hàng tính bằng cm), “product_width_cm” (chiều rộng của sản phẩm đặt hàng tính b ng cm) ằ

Sellers: “seller_id” (Id của người bán bán sản phẩm thông qua cửa hàng trực

tuyến), “seller_zip_code_prefix” (địa ch zip cỉ ủa người bán), “seller_city” (thành phố mà người bán đăng ký kinh doanh), “seller_state” (trạng thái của người bán)

Category-name_translation: t p d li u này bao gệ ữ ệ ồm 2 tính năng lần lượt là “product_category_name” (tên danh mục sản phẩm bằng tiếng Bồ Đào Nha), “product_category_name_english” (tên danh mục sản phẩm b ng Ti ng Anh) ằ ế

Tất c nh ng bi n d li u này ph thuả ữ ế ữ ệ ụ ộc và tác động qua l i nhau, n u các bi n ạ ế ế dữ li u không liên k t và ph i h p v i nhau, khi nghiên c u chung ta d b ng t quãng ệ ế ố ợ ớ ứ ễ ị ắ thông tin, các s liố ệu đưa ra không chính xác Tuy nhiên để ự th c hiện được nghiên cứu t các t p d li u thô này, nhóm s phân tích và ch n l c l i các d li u, g p l i ừ ệ ữ ệ ẽ ọ ọ ạ ữ ệ ộ ạ thành các t p l n khác nhau, áp d ng cho t ng mô hình phân tích phù h p ệ ớ ụ ừ ợ

Đố ới v i mô hình hồi quy sử dụng 2 thuật toán là Random Forest và Gradient Boosting, nhóm lo i bạ ỏ tính năng “order_id” và “date” trong tấ ảt c các bi n (date là ế order_purchase_timestamp) được chuẩn hóa về ngày tháng năm Vì theo lý thuyết, biến dùng cho thu t toán Random Forest và Gradient Boosting là t t c các bi n trong ậ ấ ả ế dataset tr bi n order_id và date, b i vì mừ ế ở ỗi đơn hàng là 1 id duy nhất, ch tính cho ỉ local 1 đơn hàng nên ko có sự ảnh hưởng, còn các bi n th i gian, ngày thì ko g n ế ờ ắ được vào Random Forest, Gradient Boosting

Đối v i mô hình chuỗi th i gian, sử dụng 2 thuật toán là Arima và Sarima, ớ ờ nhóm ch s d ng t t cỉ ử ụ ấ ả các tính năng “order_id” và “date” tron ấ ảg t t c các biến Đi ngược lại v i mô hình hồi quy, mô hình chuỗi th i gian trong nghiên cứu sẽ m số ớ ờ đế lượng đơn hàng theo thời gian cụ thể, từ đó có thể dự đoán được sức mua của khách hàng vào t ng kho ng th i gian c th , vì v y có th d ừ ả ờ ụ ể ậ ể ự đoán được doanh s bán hàng ố của cửa hàng đó

Trang 15

2.2 Giới thi u Keypaper

Key Paper “E-Commerce System for Sale Prediction Using Machine Learning Technique” tạm dịch là “Dự đoán doanh số bán hàng cho hệ thống thương mại điện tử b ng công ngh máy hằ ệ ọc” của tác gi Karandeep Singh, Booma P M và Umapathy ả Eaganathan Đại học Công ngh & Đổệ i mới Châu Á Thái Bình Dương (APU), Malaysia năm 2020 (Singh, Booma, & Eaganathan, 2020)

Key Paper dự đoán bán hàng trên hệ ống thương mại điệ ử ằ th n t b ng các k ỹ thuật khai thác và phân tích d li u Trong nghiên c u này, tác gi s dữ ệ ứ ả ử ụng phương pháp KDD (Knowledge Discovery in Databases) vì nó h u h t phù h p v i yêu c u ầ ế ợ ớ ầ của d ự án này Phương pháp này đã được sử dụng rộng rãi trong lĩnh vực học máy để nhận d ng m u, thạ ẫ ống kê, cơ sở ữ ệ d li u, trí tu nhân t o và tr c quan hóa k t qu dệ ạ ự ế ả ữ liệu (DBD, 2019)

Tập d li u cho nghiên c u này s là m t t p d li u giao d ch Chúng tôi s ữ ệ ứ ẽ ộ ậ ữ ệ ị ẽ sử dụng các d li u giao dữ ệ ịch trong quá khứ để th c hi n dự ệ ự đoán bán hàng trong tương lai Giao dịch tập dữ liệu sẽ từ một trong những thương mại điện tử có mã nguồn mở và có thể được s d ng mà không có b t k h n ch nào T p d liử ụ ấ ỳ ạ ế ậ ữ ệu đã được lấy từ Kaggle.com, trang này đã liệt kê Tập dữ liệu công khai về thương mại điện t c a Brazil b i Olist Store - ử ủ ở Trang web thương mại điện t Có kho ng 100.000 ử ả dữ li u lệ ịch sử đơn hàng giao dịch được cung c p Hấ ọ cũng đã cung cấp tám tập dữ liệu khác nhau ch a các t p d liứ ậ ữ ệu khác nhau như tập d li u s n ph m, tữ ệ ả ẩ ập dữ ệ li u đơn đặt hàng, tập dữ liệu khách hàng và tập dữ liệu mặt hàng Dưới đây hình 1 cho thấy k t n i gi a t t c các t p d liế ố ữ ấ ả ậ ữ ệu được cung cấp cho trang web thương mại điện tử này

Trang 16

Hình 1: M i liên h gi a các datasets ố ệ ữ

2.3 Các nghiên cứu liên quan đến d ự đoán bán hàng

(Zhao & Wang, 2017) “Dự báo doanh số bán hàng trong thương mại điệ ửn t sử d ng M ng th n kinh chuyụ ạ ầ ển đổi” Nghiên c u s d ng thu t toán chính là thu t ứ ử ụ ậ ậ toán mạng nơ-ron tích chập (CNN) để ự th c hi n dệ ự báo bán hàng trong thương mại điện tử Mục tiêu là xác định xem cách ti p c n này có th t ng trích xu t các tính ế ậ ể ự độ ấ năng hiệu quả và cung cấp dự báo bán hàng dựa trên các tính năng đã trích xuất hay không Tuy nhiên, v i mớ ục đích so sánh, nghiên cứu đã chọn thu t toán ARIMA, ậ DNN, TL và WD để tìm ra kết quả chính xác nhất cho dự đoán bán hàng Kết quả cho nghiên c u này là mô hình ARIMA có giá tr trung bình cao nh t, tuy nhiên, thu t ứ ị ấ ậ toán CNN đã đạt được mục tiêu khi nó có thể tự động trích xuất các tính năng hiệu quả và th c hi n d báo bán hàng b ng cách s dự ệ ự ằ ử ụng các tính năng được trích xuất

(Bandara et al., 2019) “Dự báo nhu cầu bán hàng trong thương mại điệ ửn t sử dụng phương pháp mạng th n kinh b nh ng n h n dài hầ ộ ớ ắ ạ ạn” và (Li, Ji, & Liu,

2018)“Dự báo doanh số thương mại điệ ử Trung Quốc: So sánh thực nghiệm của n tARIMA, Mạng nơ ron tự động ph n h i phi tuy n và Mô hình ARIMA-NARNN k t ả ồ ế ế

Trang 17

hợp” C 2 nghiên cả ứu đề ử ụu s d ng thu t toán mậ ạng nơ ron nhưng cách tiế- p c n khác ậ nhau Nghiên c u 2018 s d ng Mứ ử ụ ạng nơ-ron t ng h i ph c phi tuy n (NARNN), ự độ ồ ụ ế nghiên c u 2019 s d ng M ng th n kinh tái di n (RNN) và M ng b nh ng n h n ứ ử ụ ạ ầ ễ ạ ộ ớ ắ ạ dài (LSTM) M c tiêu cho c hai bài báo nghiên c u là nh m xây d ng m t khuôn ụ ả ứ ằ ự ộ khổ ti n x lý có h thề ử ệ ống để vượt qua nh ng thách thữ ức trong môi trường thương mại điện tử và cũng đề ra m t khung d ộ ự báo vì khá khó khăn trong việc xác định nhu cầu / mô hình bán hàng chéo s n ph m khác nhau và các mả ẩ ối tương quan có sẵn Hai nghiên cứu này đều s d ng thuử ụ ật toán ARIMA để so sánh K t qu th o lu n cho ế ả ả ậ nghiên cứu năm 2018 đã chỉ ra r ng l i dằ ỗ ự đoán cho NARNN là 0,1016 và ARIMA là 0,1389, điều này cho thấy NARNN có tỷ lệ lỗi thấp hơn so với ARIMA Đối với nghiên cứu vào năm 2019, kết qu ả cũng cho thấy LSTM có giá tr trung bình và trung ị vị thấp hơn so với ARIMA

(Elias & Singh, 2018) “Dự báo v bán hàng Walmart b ng Thu t toán h c ề ằ ậ ọ máy” Nghiên c u này s d ng 3 thu t toán g m Random, Gradient Boosting và ứ ử ụ ậ ồ Extremely Randomized Tree để so sánh và kiểm tra nó b ng cách sử dụằ ng iểm R đ 2 đánh giá MAE Mục tiêu của nghiên cứu này là tìm ra độ chính xác của thuật toán bằng cách s d ng các siêu tham s khác nhau c a mử ụ ố ủ ỗi mô hình để có được sai s ố tuyệt đối trung bình (MAE) và điểm R t2 ốt nhất Kết quả của nghiên cứu này chỉ ra rằng Random Forest là thu t toán t t nhậ ố ất đã ghi được số ti n t i thiề ố ểu trong đánh giá MAE (1979,4) và điểm R (0,94) cao cho th2 ấy độ chính xác cao hơn so v i các thuớ ật toán khác

2.4 Google Colab

Google Colaboratory (thường gọi tắt là Google Colab) là một sản phẩm của Google Research, m t d ch v ộ ị ụ đám mây miễn phí đối v i nh ng phiên b n tiêu chu n ớ ữ ả ẩ

Google Colab cũng được phát triển trên nền tảng Jupiter Notebook nên cách sử dụng c a c hai công c ủ ả ụ đều tương tự nhau Jupiter Notebook cũng là một công c ụ mã ngu n m và mi n phí, tuy nhiên Jupiter cho phép bồ ở ễ ạn đưa cả code Python và các thành phần văn bản ph c tứ ạp như hình ảnh, công th c, video, bi u th c vào trong ứ ể ứ

Trang 18

cùng một thư mục giúp cho vi c trình bày tr lên d hi u, giệ ở ễ ể ống như một thư mục trình chiếu nhưng lại có th thể ực hiện chạy code tương tác trên đó

Quay tr l i, mở ạ ục đích của Google Colab đó chính là việc cho h tr ch y code ỗ ợ ạ Python tr c ti p thông qua trình duy t và chúng phù h p v i phân tích d li u, ự ế ệ ợ ớ ữ ệ machine learning và giáo dục Người dùng không c n t i ph n m m mà có th tr c ầ ả ầ ề ể ự tuyến thông qua tài khoản Google, tuy nhiên nó cũng yêu cầu người dùng ph i có tài ả nguyên máy tính để ử ụ s d ng tr c tuy n bao g m CPU, GPUs, TPUs Hi n nay, ự ế ồ ệ Google Colab đang cung cấp rất nhiều cấu hình sử dụng khác nhau và phổ biến nhất thường là GPU: Nvidia K80s, P4s và P100s, trong tương lai sẽ có thêm các s n ph m ả ẩ mới như: Nvidia A100… Tuy nhiên, người sử dụng sẽ không thể lựa chọn được cấu hình cho công vi c cệ ủa mình vì Google Colab “hoàn toàn miễn phí”, cấu hình s thay ẽ đổi theo th i gian và tùy theo công việc Vì hệ th ng tài nguyên c a Google có gi i ờ ố ủ ớ hạn nên m t l n làm viộ ầ ệc tối đa ch có th duy trì trong 12 giỉ ể ờ

Nhìn chung, n n t ng Google Colab phù h p v i nh ng ai m i bề ả ợ ớ ữ ớ ắt đầu bước chân vào thị trường AI – Deep Learning và chưa đủ kinh phí để đầu tư máy móc cho công vi c Gi i pháp s d ng Google Colab s phù h p cho nhệ ả ử ụ ẽ ợ ững ngườ chưa có i nhiều kinh phí để đầu tư hệ thống máy tính khủng, xét về lâu dài thì Google Colab không có nhi u l i th so v i vi c s d ng m t h th ng máy tính chuyên d ng cho ề ợ ế ớ ệ ử ụ ộ ệ ố ụ DeepLearning (FirebirD, 2019)

2.5 Các thuật toán 2.5.1 Random Forest

Nguồn: tibico.com

Trang 19

Random Forest là thu t toán máy h c có giám sát (Supervised Machine ậ ọ Learning) Nó có thể được sử ụ d ng cho c nhi m v phân l p (Classification) và h i ả ệ ụ ớ ồ quy (Regression), k t h p v i tính ch t phi tuy n tính c a nó, làm cho nó có kh ế ợ ớ ấ ế ủ ả năng thích ng cao v i nhi u lo i d li u và tình huứ ớ ề ạ ữ ệ ống Đây được xem là m t thu t toán ộ ậ mang tính chính xác, linh ho t và d s d ng nhạ ễ ử ụ ất nên đượ ử ục s d ng r t ph bi n ấ ổ ế

Nó được gọi là “rừng” vì nó mọc lên một rừng cây quyết định Dữ liệu từ các cây này sau đó được h p nh t vợ ấ ới nhau để đảm bảo các d ự đoán chính xác nhất Trong khi m t mình cây quyộ ết định ch ỉ đưa ra một kết quả và phạm vi nhóm h p, rẹ ừng đảm bảo k t quế ả chính xác hơn với s ố lượng nhóm và quyết định lớn hơn Nó có thêm lợi ích là thêm tính ng u nhiên vào mô hình bẫ ằng cách tìm ra tính năng tốt nh t trong s ấ ố một t p h p con ng u nhiên cậ ợ ẫ ủa các tính năng Random forest có nhiều ứng dụng, cụ thể như công cụ đề xu t, phân lo i hình nh và l a chấ ạ ả ự ọn tính năng Nó có thể được sử dụng để phân lo i, d ạ ự đoán các bệnh và xác định hoạt động gian l n Nó n m ậ ằ ở cơ sở c a thu t toán Boruta, chủ ậ ọn các tính năng quan trọng trong t p d li u Nhìn chung, ậ ữ ệ những l i ích này t o ra mợ ạ ột mô hình có tính đa dạng rộng mà nhi u nhà khoa h c d ề ọ ữ liệu ưa thích

Về ưu điểm, Random Forest được coi là một phương pháp chính xác và mạnh mẽ vì s cây quyố ết định tham gia vào quá trình này Khi Forest có nhiều cây hơn, chúng ta có thể tránh được vấn đề overfitting với tập dữ liệu Thuật toán có thể được sử dụng trong c hai vả ấn đề phân lo i và h i quy ạ ồ Random Forest cũng có thể ử x lý các giá tr còn thi u ị ế Có hai cách để ử x lý các giá tr này: s d ng các giá tr trung ị ử ụ ị bình để thay thế các biến liên tục và tính toán mức trung bình gần kề của các giá trị bị thi u Có th nhế ể ận đượ ầc t m quan tr ng cọ ủa tính năng tương đối, giúp ch n các ọ tính năng đóng góp nhiều nhất cho trình phân lo i ạ

Về nhược điểm, Random Forest ch m t o d ậ ạ ự đoán bởi vì nó có nhi u cây quy t ề ế định B t c ấ ứ khi nào nó đưa ra dự đoán, tất cả các cây trong r ng phừ ải đưa ra dự đoán cho cùng một đầu vào cho trước và sau đó thực hi n b phiệ ỏ ếu trên đó Toàn b quá ộ trình này t n th i gian Mô hình khó hiố ờ ểu hơn so với cây quyết định, nơi có thể ễ d dàng đưa ra quyết định bằng cách đi theo đường dẫn trong cây (Tibco, 2021)

Ngày đăng: 14/04/2024, 22:43

Tài liệu cùng người dùng

Tài liệu liên quan