Ứng dụng mô hình học máy trong việc dự đoán mức độ thân thiết nhằm phản ánh sức mua của khách hàng trên nền tảng shopee

43 0 0
Ứng dụng mô hình học máy trong việc dự đoán mức độ thân thiết nhằm phản ánh sức mua của khách hàng trên nền tảng shopee

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

ĐẠI HỌC UEH TRƯỜNG KINH DOANH

TIỂU LUẬN

BỘ MÔN KHOA HỌC DỮ LIỆU

ĐỀ TÀI: Ứng dụng mô hình học máy trong việc dự đoán

"mức độ thân thiết" nhằm phản ánh sức mua của khách hàng trên nền tảng Shopee.

TP HCM, ngày 21 tháng 10 năm 2022

Trang 2

MỤC L C

Phần mở đầu 1

Danh mục hình Error! Bookmark not defined 1 Giới thiệu bài toán ứng dụng 2

2 Cơ sở lý thuyết về các phương pháp tính toán 4

2.1 Phương pháp cây ra quyết định 4

2.2 Phương pháp hồi quy logistics (Logistic Regression) 5

2.3 Phương pháp Neural Network 9

3 Mô hình nghiên cứu đề xuất 11

3.1 Mô tả dữ liệu 11

3.2 Xử lý dữ liệu 13

3.3 Trực quan hóa dữ liệu 13

4 Kết quả thực hiện 17

4.1 Phân tích kết quả dựa trên phần mềm 17

4.1.1 Kết quả của dữ liệu huấn luyện 17

4.1.2 Kết quả của dữ liệu dự báo 21

4.2 Đánh giá kết quả và mô hình 22

5 Kết luận và nhận xét 23

Tài liệu tham khảo 25

Trang 3

Phụ lục 1: Danh sách khách hàng c a Shopee trong b d li u hu n luy n ủ ộ ữ ệ ấ ệ

Trang 4

DANH M C B NG BI U ỤẢỂ

Hình 1: Ví d cây bi u quy t ụ ể ế Hình 2: Phương trình hồi quy Logistic

Hình 3: Mô hình phân l p nh phân s dớ ị ử ụng phương pháp hồi quy logistic Hình 4: Mô tả đặc điểm c a Neural Network ủ

Hình 5: Trực quan hóa dữ ệ li u về đối tượng thành viên theo gi i tính ớ Hình 6: Trực quan hóa dữ ệ li u về đối tượng thành viên theo độ ổ tu i Hình 7: Trực quan hóa dữ ệ li u về đối tượng thành viên theo s ố năm Hình 8: Trực quan hóa dữ ệ li u về đối tượng thành viên theo đối tượng Hình 9: Trực quan hóa dữ ệ li u về đối tượng thành viên theo s ố lượng đơn Hình 10: Tr c quan hóa d li u vự ữ ệ ề đối tượng thành viên theo chi tiêu Hình 11: T ng quan v quy trình hu n luy n và d báo b ng ổ ề ấ ệ ự ằ sơ đồ Hình 12: Ma tr n nh m l n v i Logistic Regression ậ ầ ẫ ớ

Bảng 1: Mô t các thuả ộc tính của bi n ế

B ng 2: K t qu cả ế ả ủa mô hình đánh giá phân lớp b ng Cross Validation ằ B ng 3: Các thu c tính cả ộ ủa bộ ữ ệ d li u d báo ự

Bảng 4: K t qu cế ả ủa dự báo b ng Logistic Regression ằ

Trang 5

Phần mở đầu

Hai năm v a qua (2020 - 2021), nhân lo愃⌀i đ phải h ng chịu những tác động tiêu cực về m漃⌀ ặ à đ愃⌀i d ch Covid-i m t m ị 19 gây ra Trong đ漃Ā, các lĩnh vực kinh tế của thế gi i nớ 漃Āi chung v Vi t Nam nà ệ 漃Āi riêng đ chịu ảnh hư ng một c ch n ng n Tuy nhiên, theo báo á ặ ề cáo toàn cảnh thị trường Thương m愃⌀i điện tử Việt Nam trên Social Media năm 2021, đ愃⌀i dịch COVID 19 đ tái định hình th漃Āi quen mua sắm của người dùng trong năm 2021 -Các diễn biến ph c t愃⌀p đ ảnh hư ng nghiêm tr漃⌀ng tới các ho愃⌀t động truyền thống trong kinh doanh, phân phối hàng h漃Āa Thương m愃⌀i điện tử (TMĐT) đ giúp x漃Āa bỏ m漃⌀i rào cản về khoảng cách không gian và thời gian trong kinh doanh, đồng thời thúc đẩy tiêu

thụ "hàng tiêu dùng và thực phẩm" trong giai đo愃⌀n dịch, điển hình là các mặt hàng thiết yếu và nông sản Do đ漃Ā, TMĐT đang được kỳ v漃⌀ng sẽ thúc đẩy nền kinh tế Internet Đông Nam Á tiến lên trong thập kỷ tới với tốc độ phát triển nhanh vũ b o

Vậy c漃Ā thể n漃Āi, dịch bệnh COVID 19 ph c t愃⌀p đ gây ra nhiều tác động tiêu cực- không nhỏ lên các lĩnh vực kinh tế trên toàn thế giới Tuy nhiên, đối với ngành TMĐT, COVID

- 19 dường như đ mang đến cơ hội lớn, với lượng thảo luận của người dùng vào năm 2021 tăng gấp 7 lần so với năm 2020 Cụ thể, lượng thảo luận của Shopee tăng t 580.946 vào năm 2020 lên đến hơn 3,4 triệu thảo luận năm 2021 Vì thế để c漃Ā thể đo lường và dự đoán “s c mua” của người tiêu dùng hiện t愃⌀i và tương lai, Shopee đ c漃Ā chiến lược khách hàng thân thiết với mục đích phân lo愃⌀i thành viên shopee cùng với nhiều ưu đ i nhằm thu hút khách hàng đồng thời nắm bắt được “s c mua” thông qua th h愃⌀ng của h漃⌀

Trang 6

1 Giới thiệu bài toán ứng dụng

1.1 Lý do lựa chọn đề tài

Khai phá d li u là quá trình s p x p, phân loữ ệ ắ ế 愃⌀ ộ ậ ợi m t t p h p các d li u lữ ệ ớn để xác định các m u và thành l p m t m i quan h nh m gi i quy t nhi u vẫ ậ ộ ố ệ ằ ả ế ề ấn đề thông qua vi c ệ phân tích d li u Khai phá d li u có thữ ệ ữ ệ ể được ng d ng trên nhiụ ều các lĩnh vực như tài chính, ngân hàng, công ngh thông tin, y t , giáo dệ ế ục,… Đặc bi t, v i s phát tri n ệ ớ ự ể không ng ng c a ngành tài chính hi n nay, vi c mà chúng ta x lý d li u quá l n c n ủ ệ ệ ử ữ ệ ớ ầ phải được thực hi n nhanh chóng, triệ ệ ểt đ , tránh m t mát nhi u th i gian ấ ề ờ

Ngày nay, công ngh thông tin càng ngày càng phát triệ ển đồng nghĩa với vi c chúng ta ệ cần phải phát triển hơn các phần m m, các ng dề ụng để nâng cao năng suất làm vi c, ệ thay th cho nh ng k thu t x ế ữ ỹ ậ ử lý thô sơ như trước Vì th , khai phá d li u là công c ế ữ ệ ụ phân tích, giúp cho việc xử lý d liữ ệu được diễn ra nhanh ch漃Āng và thông minh hơn.

Với nhi u bề 愃⌀n trẻ, đặc bi t là giệ ới văn phòng và sinh viên chắc hẳn đ quá quen thuộc với cái tên Shopee N n t ng cung c p d ch v mua s m tr c tuyề ả ấ ị ụ ắ ự ến d dàng, thu n ti n ễ ậ ệ và nhanh chóng cho c ả người bán và người mua hàng Người dùng Shopee không còn xa l愃⌀ ới Chươn v g trinh khách hàng thân thi t cế ủa Shopee Chương trình khách hàng thân thi t cế ủa Shopee được t愃⌀o ra v i mớ ục đích tri ân những khách hàng thường xuyên mua s m, g n bó lâu dài vắ ắ ới sàn thương m愃⌀i điện t ử này Shopee đ ra mắt chương trình tri ân khách hàng thân thi t v i tên gế ớ 漃⌀i Shopee Rewards Khi tham gia Shopee Rewards khách hàng s nhẽ ận được các ưu đ i dựa trên th h愃⌀ng đ愃⌀t được, tính theo t ng m c ổ mua s m, chi tiêu và sắ ố đơn hàng tích lũy trong vòng 6 tháng gần nh t c a bấ ủ 愃⌀n để đo lường cấp bậc bao gồm Thành Viên B愃⌀c, Vàng và Kim Cương

Chính vì vậy để ế ợ k t h p giữa các phương pháp khai phá dữ ệ li u cùng v i phân tích d ớ ự báo, nh漃Ām đ ch漃⌀n đề tài ‘Dự đoán “m c độ thân thiết” của thành viên Shopee nhắm phản ánh s c mua c a khách hàng trên n n tủ ề ảng Shopee’

Trang 7

1.2 Mục tiêu nghiên cứu

- Xây dựng các mô hình vào dựa bộ dữ liệu huấn luyện c漃Ā sẵn và lựa ch漃⌀n mô hình phù hợp nhất tiến hành dự báo đối với bộ dữ liệu dự báo được ch漃⌀n - T愃⌀o tiền đề phát triển các bài nghiên c u sau này

1.3 Phương pháp thực hiện

- Thông qua các thuật toán trong KPDL, đồng thời sử dụng phần mềm Orange - một công cụ khá trực quan để nghiên c u về các thuật toán machine learning và thực hành KPDL phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên c u

- Nghiên c u về các phương pháp phân lớp dữ liệu, t đ漃Ā ch漃⌀n ra một phương pháp tối ưu và đảm bảo nhât cho quá trình dự báo dữ liệu

T đ漃Ā, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện c漃Ā sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa ra mô hình phù hợp nhất

1.4 Đối tượng nghiên cứu

- Đối tượng nghiên c u của đề tài là 315 khách hàng đ và đang sử dụng nền tảng mua sắm Shopee, số liệu khảo sát t hai giới tính (nam, nữ), chia theo t ng độ tuổi và theo đối tượng là người lao động hay h漃⌀c sinh, sinh viên Số liệu được chia thành 2 phần với 260 mẫu quan sát cho bộ dữ liệu huấn luyện và 55 mẫu quan sát cho bộ dữ liệu dự báo

- Nh漃Ām tác giả đ thu thập dữ liệu dựa trên nguồn Shopee Uni, đây là nguồn được đánh giá là đáng tin cậy và khách quan

1.5 Ý nghĩa, đóng góp

Nhìn chung, vấn đề mua hàng h漃Āa thông qua những nền tảng trực tuyến không còn xa l愃⌀ gì với thời buổi công nghệ 4.0 Nhận thấy việc đánh giá và phân tích hành vi của người tiêu dùng với nền tảng Shopee một trong những nền tảng được sử dụng nhiều - nhất hiện nay, là vô cùng cần thiết, cho cả người tiêu dùng, những nhà nghiên c u x hội và cả những người bán, những công ty phát triển mô hình như Shopee Thông qua

Trang 8

mô hình, phân tích số liệu qua ng dụng mô hình h漃⌀c máy, nh漃Ām tác giả đ đánh giá được m c độ thân thiết của người tiêu dùng, cách người tiêu dùng chi tiêu đối với nền tảng này, phản ánh được s c mua của người dùng dựa theo độ tuổi, đối tượng, giới tính,

2 Cơ sở lý thuyết về các phương pháp tính toán

2.1 Phương pháp cây ra quyết định

Định nghĩa: Cây quyết định (Decision Tree) là một cây phân cấp c漃Ā cấu trúc được dùng

để phân lớp các đối tượng dựa vào d y các luật Các thuộc tính của đối tượng c漃Ā thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal), Th tự (Ordinal), Số lượng (Quantitative) trong khi đ漃Ā thuộc tính phân lớp phải c漃Ā kiểu dữ liệu là Binary hoặc Ordinal Như vậy hiểu đơn giản thì: cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của n漃Ā, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết

- Cây quyết định bao gồm hai lo愃⌀i:

+ Cây hồi quy c漃Ā ước tính mô hình là các giá trị số thực

VD: ơc lượng gi tr cá ị ủa một to n nh hay kho ng thà à ả ời gian đi siêu thị

+ Cây phân loại được dùng trong các mô hình c漃Ā giá trị cuối cùng nằm mục đích chính là phân lo愃⌀i

VD: Gi i t nh (nam hay n ), hớ í ữ 漃⌀c l c (giự ỏi, kh , trung b nh) á ì - Ưu, nhược điểm c a cây quyủ ết định :

+ Ưu điểm:

● Cây quyết định dễ hiểu

● Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết

Trang 9

● Cây quyết định c漃Ā thể xử lý cả dữ liệu c漃Ā giá trị bằng số và dữ liệu c漃Ā giá trị là tên thể lo愃⌀i

● Cây quyết định là một mô hình hộp trắng

● C漃Ā thể thẩm định một mô hình bằng các kiểm tra thống kê

● Cây quyết định c漃Ā thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn

+ Nhược điểm: kh漃Ā giải quyết được những vấn đề c漃Ā dữ liệu phụ thuộc thời gian liên tục - dễ xảy ra lỗi khi c漃Ā quá nhiều lớp chi phí tính toán để xây dựng mô hình cây quyết định cao

Hình 1: Ví dụ mô hình cây quyết định về việc có nên ch p nh n m t l i ấ ậ ộ 

mi công việc mớI

Nguồn: Trituenhantao.io

2.2 Phương pháp hồi quy logistics (Logistic Regression)

Định nghĩa: Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán h漃⌀c để tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đ漃Ā, kỹ thuật này sử dụng mối quan hệ đ

Trang 10

tìm được để dự đoán giá trị của những yếu tố đ漃Ā dựa trên yếu tố còn l愃⌀i Dự đoán thường cho ra một số kết quả hữu h愃⌀n, như c漃Ā hoặc không

- Mô tả: Đối với bài toán phân lớp: Tập nhãn 𝒚={𝑦_1, 𝑦_2,…, _𝑛𝑦 } 𝑣ớ𝑖 𝑛 𝑙 𝑠ố 𝑙ớ𝑝à Một đối tượng dữ liệu:

𝒙={ _1,𝑥_2,…, _𝑑 } 𝑣ớ 𝑑 à 𝑠ố 𝑡𝑥 𝑥 𝑖 𝑙 ℎ𝑢ộ𝑐 𝑡í𝑛ℎ 𝑐ủ 𝑚ỗ𝑖 𝑑𝑎 ò𝑛𝑔 ữ 𝑙𝑖ệ𝑢 𝑣à đượ𝑐 𝑑 𝑏𝑖ể𝑢 𝑑𝑖ế𝑛 𝑑ướ𝑖 𝑑愃⌀𝑛𝑔 𝑣𝑒𝑐𝑡𝑜𝑟

Hình 2: Phương trình hồi quy logistic là một đưng cong hình chữ S Nguồn: Amazon Web Services, Inc

Hàm logistic

Sẽ dự đoán đối tượng xem đối tượng x s hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào

Trang 11

Hình 3: Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic Nguồn: Tác giả tổng hợp

Trong hình trên: d là số lượng đặc trưng (thuộc tính) của dữ liệu

w là tr漃⌀ng số, ban đầu sẽ được kh i t愃⌀o ngẫu nhiên, sau đ漃Ā sẽ được điều chỉnh l愃⌀i cho phù hợp

- Ưu điểm:

+ Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác, đặc biệt là trong Machine Learning: Mô hình Machine Learning c漃Ā thể được mô tả như một mô tả toán h漃⌀c của một quá trình trong thế giới thực Quá trình thiết lập mô hình h漃⌀c máy yêu cầu đào t愃⌀o và thử nghiệm mô hình Huấn luyện là quá trình tìm kiếm các mẫu trong dữ liệu đầu vào, để mô hình c漃Ā thể ánh x愃⌀ một đầu vào cụ thể (ví dụ, một hình ảnh) tới một lo愃⌀i đầu ra nào đ漃Ā, chẳng h愃⌀n như một nh n Hồi quy logistic dễ đào t愃⌀o và triển khai hơn so với các phương pháp khác

+ Hồi quy logistic ho愃⌀t động tốt đối với các trường hợp tập dữ liệu c漃Ā thể phân tách tuyến tính: Tập dữ liệu được cho là c漃Ā thể phân tách tuyến tính nếu c漃Ā thể vẽ một đường thẳng c漃Ā thể tách hai lớp dữ liệu khỏi nhau Hồi quy logistic được sử dụng khi biến Y của b愃⌀n chỉ c漃Ā thể nhận hai giá trị và nếu dữ liệu c漃Ā thể phân tách tuyến tính, thì việc phân lo愃⌀i n漃Ā thành hai lớp riêng biệt sẽ hiệu quả hơn + Hồi quy logistic cung cấp những hiểu biết hữu ích: Hồi quy logistic không chỉ

cho phép đo lường m c độ liên quan của một biến độc lập (t c là (kích thước hệ số), mà còn cho chúng ta biết về hướng của mối quan hệ (tích cực hoặc tiêu cực)

Trang 12

Hai biến được cho là c漃Ā một liên kết tích cực khi sự gia tăng giá trị của một biến số cũng làm tăng giá trị của biến số khác Ví dụ: b愃⌀n càng dành nhiều giờ tập luyện, b愃⌀n càng tr nên giỏi hơn trong một môn thể thao cụ thể Tuy nhiên: Điều quan tr漃⌀ng là phải biết mối tương quan đ漃Ā N漃Āi cách khác, hồi quy logistic c漃Ā thể cho b愃⌀n thấy rằng c漃Ā mối tương quan thuận giữa nhiệt độ ngoài trời và doanh số bán hàng, nhưng điều này không nhất thiết c漃Ā nghĩa là doanh số bán hàng tăng do nhiệt độ

- Nhược điểm:

+ Hồi quy logistic không dự đoán được kết quả liên tục H y xem xét một ví dụ để hiểu rõ hơn về h愃⌀n chế này Trong các ng dụng y tế, hồi quy logistic không thể được sử dụng để dự đoán nhiệt độ của bệnh nhân viêm phổi sẽ tăng cao như thế nào Điều này là do quy mô đo lường là liên tục (hồi quy logistic chỉ ho愃⌀t động khi biến phụ thuộc hoặc biến kết quả là lưỡng phân)

+ Hồi quy logistic giả định tính tuyến tính giữa biến dự đoán (phụ thuộc) và biến

dự báo (độc lập) T愃⌀i sao đây là một h愃⌀n chế? Trong thế giới thực, rất kh漃Ā c漃Ā khả năng các quan sát được phân tách tuyến tính H y tư ng tượng b愃⌀n muốn phân lo愃⌀i cây diên vĩ thành một trong hai h漃⌀: sentosa hoặc versicolor Để phân biệt giữa hai lo愃⌀i, b愃⌀n sẽ phân biệt kích thước cánh hoa và kích thước đài hoa B愃⌀n muốn t愃⌀o ra một thuật toán để phân lo愃⌀i cây diên vĩ, nhưng thực sự không c漃Ā sự phân biệt rõ ràng — một cánh hoa kích thước 2cm c漃Ā thể đủ tiêu chuẩn cho cây trồng cho cả hai lo愃⌀i màu xanh lá và màu sắc Vì vậy, trong khi dữ liệu c漃Ā thể phân tách tuyến tính là giả định cho hồi quy logistic, trên thực tế, n漃Ā không phải lúc nào cũng thực sự khả thi

+ Hồi quy logistic c漃Ā thể không chính xác nếu kích thước mẫu quá nhỏ Nếu kích thước mẫu m c nhỏ, thì mô hình được t愃⌀o ra bằng hồi quy logistic dựa trên số lượng quan sát thực tế nhỏ hơn Điều này c漃Ā thể dẫn đến trang bị quá nhiều Trong thống kê, overfitting là một lỗi mô hình h漃Āa xảy ra khi mô hình quá khớp với một bộ dữ liệu h愃⌀n chế vì thiếu dữ liệu đào t愃⌀o Hay n漃Āi cách khác, không c漃Ā đủ dữ liệu đầu vào để mô hình tìm ra các mẫu trong đ漃Ā Trong trường hợp này,

Trang 13

mô hình không thể dự đoán chính xác kết quả của một tập dữ liệu mới hoặc trong tương lai

2.3 Phương pháp Neural Network

Định nghĩa: Neural network hay còn g漃⌀i là M愃⌀ng nơ ron nhân t愃⌀o là m愃⌀ng sử dụng các -mô hình toán h漃⌀c ph c t愃⌀p để xử lý thông tin Chúng dựa trên -mô hình ho愃⌀t động của các tế bào thần kinh và khớp thần kinh trong n o của con người Tương tự như bộ n o con người, m愃⌀ng nơ ron nhân t愃⌀o kết nối các nút đơn giản, còn được g漃⌀i là tế bào thần -kinh Và một tập hợp các nút như vậy t愃⌀o thành một m愃⌀ng lưới các nút, do đ漃Ā có tên là m愃⌀ng nơ-ron nhân t愃⌀o

- Neural network bao gồm 3 thành phần chủ yếu: + Lớp đầu vào đ愃⌀i diện cho các dữ liệu đầu vào

+ Lớp ẩn đ愃⌀i diện cho các nút trung gian phân chia không gian đầu vào thành các vùng c漃Ā ranh giới (mềm) N漃Ā nhận vào một tập hợp các đầu vào c漃Ā tr漃⌀ng số và t愃⌀o ra kết quả đầu ra thông qua một ch c năng kích ho愃⌀t

+ Lớp đầu ra đ愃⌀i diện cho đầu ra của m愃⌀ng nơ-ron

Hình 4: Mô tả đặc điểm của Neural Network

Nguồn: ITNavi

Trang 14

- M愃⌀ng neural nhân t愃⌀o c漃Ā khả năng sử dụng được như một lo愃⌀i cơ chế xấp xỉ hàm tùy ý mà h漃⌀c được t việc dữ liệu quan sát Tuy nhiên, việc sử dụng chúng khá kh漃Ā và cần phải c漃Ā sự hiểu biết tương đối về những lý thuyết cơ bản về m愃⌀ng nơ-ron này

+ Lựa ch漃⌀n mô hình: Phụ thuộc vào cách trình bày dữ liệu và các ng dụng của n漃Ā Đây là mô hình khá ph c t愃⌀p nên c漃Ā thể dẫn đến nhiều thách th c cho quá trình h漃⌀c

+ Thuật toán h漃⌀c: Thường sẽ c漃Ā rất nhiều thỏa thuận giữa các thuật toán h漃⌀c Và hầu hết, chúng sẽ làm việc tốt với những tham số đúng nhằm huấn luyện trên dữ liệu mà không nhìn thấy yêu cầu một số lượng đáng kể các thử nghiệm

+ M愃⌀nh mẽ: Nếu như các mô hình, thuật toán h漃⌀c và hàm chi phí được lựa ch漃⌀n một cách thích hợp thì Neural Network c漃Ā thể cho ra kết quả vô cùng hợp lý Nếu thực hiện chính xác, thì b愃⌀n c漃Ā thể sử dụng Neural Network một cách tự nhiên và c漃Ā thể ng dụng vào những tập dữ liệu lớn

- Các ng dụng của m愃⌀ng nơ-ron nhân t愃⌀o:

+ Nhận d愃⌀ng chữ viết tay: M愃⌀ng nơ-ron nhân t愃⌀o được sử dụng để chuyển đổi các ký tự viết tay thành các ký tự kỹ thuật số mà máy c漃Ā thể nhận ra

+ Dự đoán giao dịch ch ng khoán: Sàn giao dịch ch ng khoán kh漃Ā theo dõi và kh漃Ā hiểu Nhiều yếu tố ảnh hư ng đến thị trường ch ng khoán Một m愃⌀ng nơ-ron nhân t愃⌀o c漃Ā thể kiểm tra nhiều yếu tố và dự đoán giá hàng ngày, điều này sẽ giúp ích cho các nhà môi giới ch ng khoán.

+ Vấn đề đi l愃⌀i của các chuyên gia bán hàng: Lo愃⌀i này đề cập đến việc tìm ra một con đường tối ưu để đi l愃⌀i giữa các thành phố trong một khu vực cụ thể M愃⌀ng nơ-ron nhân t愃⌀o giúp giải quyết vấn đề mang l愃⌀i doanh thu cao hơn với chi phí tối thiểu Các cân nhắc về mặt hậu cần là rất lớn, và đây chúng ta phải tìm ra những con đường đi l愃⌀i tối ưu cho các nhân viên bán hàng di chuyển t nơi này sang nơi khác

+ Nén hình ảnh: Ý tư ng đằng sau m愃⌀ng nơ-ron nhân t愃⌀o nén dữ liệu là lưu trữ, m h漃Āa và tái t愃⌀o l愃⌀i hình ảnh thực tế Chúng ta c漃Ā thể tối ưu h漃Āa kích thước d

Trang 15

liệu của mình bằng cách sử dụng m愃⌀ng nơ ron nén hình ảnh N漃Ā là ng dụng lý -tư ng để tiết kiệm bộ nhớ và tối ưu h漃Āa n漃Ā

- C漃Ā một số lợi thế khi sử dụng mô hình m愃⌀ng nơron, đáng chú ý nhất là m愃⌀ng c漃Ā thể thích ng với nhiều lo愃⌀i thông số và yêu cầu dữ liệu, cũng như thực tế là chúng dễ sử dụng, yêu cầu số liệu thống kê tối thiểu đào t愃⌀o Hơn nữa, m愃⌀ng nơ-ron c漃Ā khả năng h漃⌀c hỏi ( một khía c愃⌀nh h愃⌀n chế), khiến chúng tr thành mô hình gần nhất với người vận hành

+ M愃⌀ng nơ ron đủ nâng cao để phát hiện bất kỳ mối quan hệ ph c t愃⌀p nào giữa đầu -vào và đầu ra, đây là một lợi thế khác khi sử dụng mô hình này

+ Tất nhiên, m愃⌀ng nơ-ron không phải là không c漃Ā nhược điểm của chúng Ví dụ: do tính chất ph c t愃⌀p và cao cấp của mô hình, chúng rất kh漃Ā thiết kế

+ Mặc dù khả năng thích ng và độ nh愃⌀y của m愃⌀ng nơ-ron chắc chắn là một lợi thế, nhưng n漃Ā cũng đi kèm với các vấn đề Do m愃⌀ng nơ ron sẽ phản ng với -những thay đổi dữ liệu dù là nhỏ nhất, nên thường rất kh漃Ā để lập mô hình phân tích

+ Việc ch愃⌀y một m愃⌀ng nơ-ron cũng đòi hỏi một lượng lớn tài nguyên máy tính, khiến n漃Ā tr nên đắt đỏ và c漃Ā thể không thực tế đối với một số công ty và ng dụng

+ Hơn nữa, trong khi m愃⌀ng nơ ron rất tuyệt vời và thu thập được lượng lớn dữ liệu, -lợi thế này giảm đi so với kích thước của một mẫu dữ liệu Ví dụ: các mẫu nhỏ sẽ không được sử dụng hiệu quả vì m愃⌀ng ho愃⌀t động tốt nhất với các mẫu lớn

3 Mô hình nghiên cứu đề xuất 3.1 Mô tả dữ liệu

- Mẫu dữ liệu gồm 8 cột dữ liệu, trong đ漃Ā cột “Thành viên” là mục tiêu của bài nghiên c u, nhằm phân lo愃⌀i thành viên của shopee, cũng như là th h愃⌀ng của các viên để nắm được “ s c mua” của khách hàng, đồng thời áp dụng ưu đ i đặc biệt đối với t ng th h愃⌀ng khác nhau, thu hút s c mua của khách hàng

Trang 16

- Trong bài nghiên c u này, sinh viên đ sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu

- Các biến khác bao gồm:

Tên cột Miêu tả đặc tính

Khachhang M số khách hàng

Gioitinh Cho biết giới tính đối tượng khách hàng là nam hay nữ

Tuoi Cho biết số tuổi hiện t愃⌀i của khách hàng

Dathamgia Năm khách hàng bắt đầu tham gia mua sắm trên nền tảng thương m愃⌀i điện tử Shopee, đơn vị: Năm

Doituong Đối tượng khách hàng mua sắm trên Shopee được chia làm 3: Người lao động ( NLĐ) , sinh viên (SV), h漃⌀c sinh (HS)

Soluongdon Tổng số lượng đơn hàng khách hàng đ đặt t khi bắt đầu mua sắm trên Shopee

Chitieu Tổng chi tiêu của khách hàng qua tất cả các đơn hàng đ đặt trên Shopee, với đơn vị: Triệu, và số liệu mang tính tương đối vì đ được làm tròn

Thành viên Th h愃⌀ng thành viên Shopee: Kim cương (KC), vàng (V), b愃⌀c (B)

Trang 17

Do d li u b thi u không có nên s chữ ệ ị ế ẽ 漃⌀n làm s愃⌀ch d li u b ng cách x lý d li u b ữ ệ ằ ử ữ ệ ị nhiễu Trong đ漃Ā nhôm sẽ ch漃⌀n giải pháp giảm thiểu nhiễu bằng phương pháp hồi quy (regression) để làm s愃⌀ch dữ li u ệ

3.3 Trực quan hóa dữ liệu

Nh漃Ām tác giả sử dụng “Distribution” bằng phần mềm Orange để trực quan h漃Āa dữ liệu: - Theo giới tính:

Hình 5: Trực quan hóa dữ liệu về đối tượng thành viên theo giới tính Nguồn: Kết quả từ chương trình Orange

Trang 18

+ Ta thấy, kết quả c漃Ā sự khá tương đương giữa nam và nữ, đều c漃Ā tỷ lệ đối tượng thành viên B愃⌀c, Vàng, Kim cương theo tỷ lệ giảm dần Trong đ漃Ā người dùng nữ c漃Ā tỷ lệ đối tượng thành viên Vàng nhiều hơn người dùng nam và người dùng nam c漃Ā tỷ lệ đối tượng thành viên B愃⌀c nhiều hơn người dùng nữ

+ Vậy kết quả không c漃Ā sự khác biệt rõ rệt về đối tượng thành viên theo giới tính - Theo độ tuổi:

Hình 6: Trực quan hóa dữ liệu về đối tượng thành viên theo độ tuổi Nguồn: Kết quả từ chương trình Orange + Theo kết quả trên, ta thấy c漃Ā sự khác nhau rõ rệt về đối tượng thành viên của

người theo độ tuổi Người dùng dưới 20 tuổi và trên 50 tuổi c漃Ā xu hướng là đối tượng thành viên B愃⌀c, số ít là đối tượng thành viên Vàng Đối tượng thành viên Kim cương chỉ xuất hiện với tỷ lệ khá đều nhau độ tuổi t 20 50 tuổi, đối - tượng thành viên Kim cương xuất hiện nhiều nhất độ tuổi t 30 - 35 tuổi Cũng

độ tuổi 20 50 tuổi ta thấy đối tượng thành viên Vàng chiếm tỷ lệ cao.- - Về số năm đ tham gia:

Trang 19

Hình 7: Trực quan hóa dữ liệu về đối tượng thành viên theo số năm Nguồn: Kết quả từ chương trình Orange + Ta thấy đối tượng thành viên B愃⌀c c漃Ā số năm dùng nền tảng Shopee nhiều hơn 2

đối tượng còn l愃⌀i Số lượng của đối tượng thành viên Kim cương c漃Ā số năm dùng nền tảng Shopee để mua sắm ít nhất

+ Với kết quả trên, ta thấy được sự khác biệt rõ rệt về số năm tham gia nền tảng Shopee giữa các đối tượng thành viên B愃⌀c, Vàng, Kim cương

- Về đối tượng:

Hình 8: Trực quan hóa dữ liệu về đối tượng thành viên theo đối tượng Nguồn: Kết quả từ chương trình Orange

Trang 20

+ Theo kết quả, c漃Ā sự khác biệt về thành viên theo đối tượng người dùng Với đối tượng là h漃⌀c sinh, đối tượng thành viên c漃Ā xu hướng chiếm tỷ lệ cao là thành viên B愃⌀c Với đối tượng là sinh viên, đối tượng thành viên B愃⌀c cũng chiếm tỷ lệ cao nhất, tiếp đến là đối tượng thành viên Vàng, tỷ lệ đối tượng thành viên Kim cương chiếm tỷ lệ khá ít Với đối tượng là người lao động c漃Ā thu nhập hơn, đối tượng thành viên B愃⌀c và vàng tương đương nhau, đối tượng thành viên Kim cương chiếm tỷ lệ khá

- Về số lượng đơn:

Hình 9: Trực quan hóa dữ liệu về đối tượng thành viên theo số lượng đơn Nguồn: Kết quả từ chương trình Orange + T hình ảnh, ta thấy số lượng đơn đối tượng thành viên B愃⌀c và Vàng tương

đương nhau, số lượng thành viên Kim cương ít hơn 2 đối tượng còn l愃⌀i - Về chi tiêu:

Trang 21

Hình 10: Trực quan hóa dữ liệu về đối tượng thành viên theo chi tiêu Nguồn: Kết quả từ chương trình Orange + Nhìn vào kết quả, ta thấy được người tiêu dùng Kim cương chi tiêu với số tiền

lớn nhất cho giỏ hàng của mình; số tiền t 40 55 triệu, chỉ c漃Ā đối tượng thành - viên Kim cương sẵn sàng chi tiêu Đối tượng thành viên B愃⌀c và Vàng tương đương nhau m c chi tiêu t 5 20 triệu.-

+ Vậy ta thấy c漃Ā sự khác nhau rõ rệt giữa 3 đối tượng thành viên theo chi tiêu cho các đơn hàng t nền tảng Shopee

4 Kết quả thực hiện

4.1 Phân tích kết quả dựa trên phần mềm

4.1.1 Kết quả của dữ liệu huấn luyện

Trước tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau: + Đối với các biến độc lập “Gioitinh”, “Tuoi”, “Dathamgia”, “Doituong”, Soluongdon”, “Chitieu” sẽ được khai báo thuộc tính là “feature”

Ngày đăng: 08/04/2024, 12:12

Tài liệu cùng người dùng

Tài liệu liên quan