1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng mô hình học máy trong việc dự đoán mức độ thân thiết nhằm phản ánh sức mua của khách hàng trên nền tảng shopee

43 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng mô hình học máy trong việc dự đoán "mức độ thân thiết" nhằm phản ánh sức mua của khách hàng trên nền tảng Shopee
Tác giả Nguyễn Diễm Huỳnh, Huỳnh Thị Bích Nhi, Nguyễn Khánh Phương
Người hướng dẫn NCS.TS. Thái Kim Phụng
Trường học Đại học UEH, Trường Kinh doanh, Khoa Công nghệ Thông tin Kinh doanh
Chuyên ngành Khoa học dữ liệu
Thể loại Tiểu luận
Năm xuất bản 2022
Thành phố TP. HCM
Định dạng
Số trang 43
Dung lượng 4,62 MB

Cấu trúc

  • 1.1. Lý do lựa chọn đề tài (6)
  • 1.2. Mục tiêu nghiên cứu (7)
  • 1.3. Phương pháp thực hiện (7)
  • 1.4. Đối tượng nghiên cứu (7)
  • 1.5. Ý nghĩa, đóng góp (7)
  • 2. Cơ sở lý thuyết về các phương pháp tính toán (8)
    • 2.1. Phương pháp cây ra quyết định (8)
    • 2.2. Phương pháp hồi quy logistics (Logistic Regression) (9)
    • 2.3. Phương pháp Neural Network (13)
  • 3. Mô hình nghiên cứu đề xuất (15)
    • 3.1. Mô tả dữ liệu (15)
    • 3.2. Xử lý dữ liệu (17)
    • 3.3. Trực quan hóa dữ liệu (17)
  • 4. Kết quả thực hiện (21)
    • 4.1. Phân tích kết quả dựa trên phần mềm (21)
      • 4.1.1 Kết quả của dữ liệu huấn luyện (21)
      • 4.1.2 Kết quả của dữ liệu dự báo (25)
    • 4.2. Đánh giá kết quả và mô hình (26)
  • 5. Kết luận và nhận xét (27)
  • Tài liệu tham khảo (29)

Nội dung

Lý do lựa chọn đề tài

Khai phá d li u là quá trình s p x p, phân loữ ệ ắ ế 愃⌀i m t t p h p các d li u lộ ậ ợ ữ ệ ớn để xác định các m u và thành l p m t m i quan h nh m gi i quy t nhi u vẫ ậ ộ ố ệ ằ ả ế ề ấn đề thông qua vi c ệ phân tích d li u Khai phá d li u có thữ ệ ữ ệ ể được ng d ng trên nhiụ ều các lĩnh vực như tài chính, ngân hàng, công ngh thông tin, y t , giáo dệ ế ục,… Đặc bi t, v i s phát tri n ệ ớ ự ể không ng ng c a ngành tài chính hi n nay, vi c mà chúng ta x lý d li u quá l n c n ủ ệ ệ ử ữ ệ ớ ầ phải được thực hi n nhanh chóng, triệ ệ ểt đ , tránh m t mát nhi u th i gian ấ ề ờ

Ngày nay, công ngh thông tin càng ngày càng phát triệ ển đồng nghĩa với vi c chúng ta ệ cần phải phát triển hơn các phần m m, các ng dề ụng để nâng cao năng suất làm vi c, ệ thay th cho nh ng k thu t x ế ữ ỹ ậ ử lý thô sơ như trước Vì th , khai phá d li u là công c ế ữ ệ ụ phân tích, giúp cho việc xử lý d liữ ệu được diễn ra nhanh ch漃Āng và thông minh hơn.

Cho đến nay, khi công ngh ngày càng phát triệ ển thì đi kèm với đ漃Ā là các kênh thương m愃⌀i điện tử ngày càng xuất hiện càng nhiều, điển hình như Shopee, Lazada, Tiki,… Với nhi u bề 愃⌀n trẻ, đặc bi t là giệ ới văn phòng và sinh viên chắc hẳn đ quá quen thuộc với cái tên Shopee N n t ng cung c p d ch v mua s m tr c tuyề ả ấ ị ụ ắ ự ến d dàng, thu n ti n ễ ậ ệ và nhanh chóng cho c ả người bán và người mua hàng Người dùng Shopee không còn xa l愃⌀ với Chương trinh khách hàng thân thi t cế ủa Shopee Chương trình khách hàng thân thi t cế ủa Shopee được t愃⌀o ra v i mớ ục đích tri ân những khách hàng thường xuyên mua s m, g n bó lâu dài vắ ắ ới sàn thương m愃⌀i điện t ử này Shopee đ ra mắt chương trình tri ân khách hàng thân thi t v i tên gế ớ 漃⌀i Shopee Rewards Khi tham gia Shopee Rewards khách hàng s nhẽ ận được các ưu đ i dựa trên th h愃⌀ng đ愃⌀t được, tính theo t ng m c ổ mua s m, chi tiêu và sắ ố đơn hàng tích lũy trong vòng 6 tháng gần nh t c a bấ ủ 愃⌀n để đo lường cấp bậc bao gồm Thành Viên B愃⌀c, Vàng và Kim Cương

Chính vì vậy để ế ợ k t h p giữa các phương pháp khai phá dữ ệ li u cùng v i phân tích d ớ ự báo, nh漃Ām đ ch漃⌀n đề tài ‘Dự đoán “m c độ thân thiết” của thành viên Shopee nhắm phản ánh s c mua c a khách hàng trên n n tủ ề ảng Shopee’.

Mục tiêu nghiên cứu

- Xây dựng các mô hình vào dựa bộ dữ liệu huấn luyện c漃Ā sẵn và lựa ch漃⌀n mô hình phù hợp nhất tiến hành dự báo đối với bộ dữ liệu dự báo được ch漃⌀n

- T愃⌀o tiền đề phát triển các bài nghiên c u sau này.

Phương pháp thực hiện

- Thông qua các thuật toán trong KPDL, đồng thời sử dụng phần mềm Orange - một công cụ khá trực quan để nghiên c u về các thuật toán machine learning và thực hành KPDL phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên c u

- Nghiên c u về các phương pháp phân lớp dữ liệu, t đ漃Ā ch漃⌀n ra một phương pháp tối ưu và đảm bảo nhât cho quá trình dự báo dữ liệu

T đ漃Ā, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện c漃Ā sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa ra mô hình phù hợp nhất.

Ý nghĩa, đóng góp

Nhìn chung, vấn đề mua hàng h漃Āa thông qua những nền tảng trực tuyến không còn xa l愃⌀ gì với thời buổi công nghệ 4.0 Nhận thấy việc đánh giá và phân tích hành vi của người tiêu dùng với nền tảng Shopee một trong những nền tảng được sử dụng nhiều - nhất hiện nay, là vô cùng cần thiết, cho cả người tiêu dùng, những nhà nghiên c u x hội và cả những người bán, những công ty phát triển mô hình như Shopee Thông qua mô hình, phân tích số liệu qua ng dụng mô hình h漃⌀c máy, nh漃Ām tác giả đ đánh giá được m c độ thân thiết của người tiêu dùng, cách người tiêu dùng chi tiêu đối với nền tảng này, phản ánh được s c mua của người dùng dựa theo độ tuổi, đối tượng, giới tính,

Cơ sở lý thuyết về các phương pháp tính toán

Phương pháp cây ra quyết định

Định nghĩa: Cây quyết định (Decision Tree) là một cây phân cấp c漃Ā cấu trúc được dùng để phân lớp các đối tượng dựa vào d y các luật Các thuộc tính của đối tượng c漃Ā thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal), Th tự (Ordinal), Số lượng (Quantitative) trong khi đ漃Ā thuộc tính phân lớp phải c漃Ā kiểu dữ liệu là Binary hoặc Ordinal Như vậy hiểu đơn giản thì: cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của n漃Ā, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết

- Cây quyết định bao gồm hai lo愃⌀i:

+ Cây hồi quy c漃Ā ước tính mô hình là các giá trị số thực

VD: ơc lượng gi tr cá ị ủa một to n nh hay kho ng thà à ả ời gian đi siêu thị

+ Cây phân loại được dùng trong các mô hình c漃Ā giá trị cuối cùng nằm mục đích chính là phân lo愃⌀i

VD: Gi i t nh (nam hay n ), hớ í ữ 漃⌀c l c (giự ỏi, kh , trung b nh) á ì

- Ưu, nhược điểm c a cây quyủ ết định :

● Cây quyết định dễ hiểu

● Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết

● Cây quyết định c漃Ā thể xử lý cả dữ liệu c漃Ā giá trị bằng số và dữ liệu c漃Ā giá trị là tên thể lo愃⌀i

● Cây quyết định là một mô hình hộp trắng

● C漃Ā thể thẩm định một mô hình bằng các kiểm tra thống kê

● Cây quyết định c漃Ā thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn

+ Nhược điểm: kh漃Ā giải quyết được những vấn đề c漃Ā dữ liệu phụ thuộc thời gian liên tục - dễ xảy ra lỗi khi c漃Ā quá nhiều lớp chi phí tính toán để xây dựng mô hình cây quyết định cao

Hình 1: Ví dụ mô hình cây quyết định về việc có nên ch p nh n m t l i ấ ậ ộ  mi công việc mớI

Phương pháp hồi quy logistics (Logistic Regression)

Định nghĩa: Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán h漃⌀c để tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đ漃Ā, kỹ thuật này sử dụng mối quan hệ đ tìm được để dự đoán giá trị của những yếu tố đ漃Ā dựa trên yếu tố còn l愃⌀i Dự đoán thường cho ra một số kết quả hữu h愃⌀n, như c漃Ā hoặc không

- Mô tả: Đối với bài toán phân lớp:

Một đối tượng dữ liệu:

Hình 2: Phương trình hồi quy logistic là một đưng cong hình chữ S

Nguồn: Amazon Web Services, Inc

Sẽ dự đoán đối tượng xem đối tượng x s hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào

Hình 3: Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic

Nguồn: Tác giả tổng hợp

Trong hình trên: d là số lượng đặc trưng (thuộc tính) của dữ liệu w là tr漃⌀ng số, ban đầu sẽ được kh i t愃⌀o ngẫu nhiên, sau đ漃Ā sẽ được điều chỉnh l愃⌀i cho phù hợp

+ Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác, đặc biệt là trong Machine Learning: Mô hình Machine Learning c漃Ā thể được mô tả như một mô tả toán h漃⌀c của một quá trình trong thế giới thực Quá trình thiết lập mô hình h漃⌀c máy yêu cầu đào t愃⌀o và thử nghiệm mô hình Huấn luyện là quá trình tìm kiếm các mẫu trong dữ liệu đầu vào, để mô hình c漃Ā thể ánh x愃⌀ một đầu vào cụ thể (ví dụ, một hình ảnh) tới một lo愃⌀i đầu ra nào đ漃Ā, chẳng h愃⌀n như một nh n Hồi quy logistic dễ đào t愃⌀o và triển khai hơn so với các phương pháp khác

+ Hồi quy logistic ho愃⌀t động tốt đối với các trường hợp tập dữ liệu c漃Ā thể phân tách tuyến tính: Tập dữ liệu được cho là c漃Ā thể phân tách tuyến tính nếu c漃Ā thể vẽ một đường thẳng c漃Ā thể tách hai lớp dữ liệu khỏi nhau Hồi quy logistic được sử dụng khi biến Y của b愃⌀n chỉ c漃Ā thể nhận hai giá trị và nếu dữ liệu c漃Ā thể phân tách tuyến tính, thì việc phân lo愃⌀i n漃Ā thành hai lớp riêng biệt sẽ hiệu quả hơn + Hồi quy logistic cung cấp những hiểu biết hữu ích: Hồi quy logistic không chỉ cho phép đo lường m c độ liên quan của một biến độc lập (t c là (kích thước hệ số), mà còn cho chúng ta biết về hướng của mối quan hệ (tích cực hoặc tiêu cực)

Hai biến được cho là c漃Ā một liên kết tích cực khi sự gia tăng giá trị của một biến số cũng làm tăng giá trị của biến số khác Ví dụ: b愃⌀n càng dành nhiều giờ tập luyện, b愃⌀n càng tr nên giỏi hơn trong một môn thể thao cụ thể Tuy nhiên: Điều quan tr漃⌀ng là phải biết mối tương quan đ漃Ā N漃Āi cách khác, hồi quy logistic c漃Ā thể cho b愃⌀n thấy rằng c漃Ā mối tương quan thuận giữa nhiệt độ ngoài trời và doanh số bán hàng, nhưng điều này không nhất thiết c漃Ā nghĩa là doanh số bán hàng tăng do nhiệt độ

+ Hồi quy logistic không dự đoán được kết quả liên tục H y xem xét một ví dụ để hiểu rõ hơn về h愃⌀n chế này Trong các ng dụng y tế, hồi quy logistic không thể được sử dụng để dự đoán nhiệt độ của bệnh nhân viêm phổi sẽ tăng cao như thế nào Điều này là do quy mô đo lường là liên tục (hồi quy logistic chỉ ho愃⌀t động khi biến phụ thuộc hoặc biến kết quả là lưỡng phân)

+ Hồi quy logistic giả định tính tuyến tính giữa biến dự đoán (phụ thuộc) và biến dự báo (độc lập) T愃⌀i sao đây là một h愃⌀n chế? Trong thế giới thực, rất kh漃Ā c漃Ā khả năng các quan sát được phân tách tuyến tính H y tư ng tượng b愃⌀n muốn phân lo愃⌀i cây diên vĩ thành một trong hai h漃⌀: sentosa hoặc versicolor Để phân biệt giữa hai lo愃⌀i, b愃⌀n sẽ phân biệt kích thước cánh hoa và kích thước đài hoa B愃⌀n muốn t愃⌀o ra một thuật toán để phân lo愃⌀i cây diên vĩ, nhưng thực sự không c漃Ā sự phân biệt rõ ràng — một cánh hoa kích thước 2cm c漃Ā thể đủ tiêu chuẩn cho cây trồng cho cả hai lo愃⌀i màu xanh lá và màu sắc Vì vậy, trong khi dữ liệu c漃Ā thể phân tách tuyến tính là giả định cho hồi quy logistic, trên thực tế, n漃Ā không phải lúc nào cũng thực sự khả thi

+ Hồi quy logistic c漃Ā thể không chính xác nếu kích thước mẫu quá nhỏ Nếu kích thước mẫu m c nhỏ, thì mô hình được t愃⌀o ra bằng hồi quy logistic dựa trên số lượng quan sát thực tế nhỏ hơn Điều này c漃Ā thể dẫn đến trang bị quá nhiều Trong thống kê, overfitting là một lỗi mô hình h漃Āa xảy ra khi mô hình quá khớp với một bộ dữ liệu h愃⌀n chế vì thiếu dữ liệu đào t愃⌀o Hay n漃Āi cách khác, không c漃Ā đủ dữ liệu đầu vào để mô hình tìm ra các mẫu trong đ漃Ā Trong trường hợp này, mô hình không thể dự đoán chính xác kết quả của một tập dữ liệu mới hoặc trong tương lai.

Phương pháp Neural Network

Định nghĩa: Neural network hay còn g漃⌀i là M愃⌀ng nơ ron nhân t愃⌀o là m愃⌀ng sử dụng các - mô hình toán h漃⌀c ph c t愃⌀p để xử lý thông tin Chúng dựa trên mô hình ho愃⌀t động của các tế bào thần kinh và khớp thần kinh trong n o của con người Tương tự như bộ n o con người, m愃⌀ng nơ ron nhân t愃⌀o kết nối các nút đơn giản, còn được g漃⌀i là tế bào thần - kinh Và một tập hợp các nút như vậy t愃⌀o thành một m愃⌀ng lưới các nút, do đ漃Ā có tên là m愃⌀ng nơ-ron nhân t愃⌀o

- Neural network bao gồm 3 thành phần chủ yếu:

+ Lớp đầu vào đ愃⌀i diện cho các dữ liệu đầu vào

+ Lớp ẩn đ愃⌀i diện cho các nút trung gian phân chia không gian đầu vào thành các vùng c漃Ā ranh giới (mềm) N漃Ā nhận vào một tập hợp các đầu vào c漃Ā tr漃⌀ng số và t愃⌀o ra kết quả đầu ra thông qua một ch c năng kích ho愃⌀t

+ Lớp đầu ra đ愃⌀i diện cho đầu ra của m愃⌀ng nơ-ron

Hình 4: Mô tả đặc điểm của Neural Network

- M愃⌀ng neural nhân t愃⌀o c漃Ā khả năng sử dụng được như một lo愃⌀i cơ chế xấp xỉ hàm tùy ý mà h漃⌀c được t việc dữ liệu quan sát Tuy nhiên, việc sử dụng chúng khá kh漃Ā và cần phải c漃Ā sự hiểu biết tương đối về những lý thuyết cơ bản về m愃⌀ng nơ- ron này

+ Lựa ch漃⌀n mô hình: Phụ thuộc vào cách trình bày dữ liệu và các ng dụng của n漃Ā Đây là mô hình khá ph c t愃⌀p nên c漃Ā thể dẫn đến nhiều thách th c cho quá trình h漃⌀c

+ Thuật toán h漃⌀c: Thường sẽ c漃Ā rất nhiều thỏa thuận giữa các thuật toán h漃⌀c Và hầu hết, chúng sẽ làm việc tốt với những tham số đúng nhằm huấn luyện trên dữ liệu mà không nhìn thấy yêu cầu một số lượng đáng kể các thử nghiệm

+ M愃⌀nh mẽ: Nếu như các mô hình, thuật toán h漃⌀c và hàm chi phí được lựa ch漃⌀n một cách thích hợp thì Neural Network c漃Ā thể cho ra kết quả vô cùng hợp lý

Nếu thực hiện chính xác, thì b愃⌀n c漃Ā thể sử dụng Neural Network một cách tự nhiên và c漃Ā thể ng dụng vào những tập dữ liệu lớn

- Các ng dụng của m愃⌀ng nơ-ron nhân t愃⌀o:

+ Nhận d愃⌀ng chữ viết tay: M愃⌀ng nơ-ron nhân t愃⌀o được sử dụng để chuyển đổi các ký tự viết tay thành các ký tự kỹ thuật số mà máy c漃Ā thể nhận ra

+ Dự đoán giao dịch ch ng khoán: Sàn giao dịch ch ng khoán kh漃Ā theo dõi và kh漃Ā hiểu Nhiều yếu tố ảnh hư ng đến thị trường ch ng khoán Một m愃⌀ng nơ-ron nhân t愃⌀o c漃Ā thể kiểm tra nhiều yếu tố và dự đoán giá hàng ngày, điều này sẽ giúp ích cho các nhà môi giới ch ng khoán.

+ Vấn đề đi l愃⌀i của các chuyên gia bán hàng: Lo愃⌀i này đề cập đến việc tìm ra một con đường tối ưu để đi l愃⌀i giữa các thành phố trong một khu vực cụ thể M愃⌀ng nơ-ron nhân t愃⌀o giúp giải quyết vấn đề mang l愃⌀i doanh thu cao hơn với chi phí tối thiểu Các cân nhắc về mặt hậu cần là rất lớn, và đây chúng ta phải tìm ra những con đường đi l愃⌀i tối ưu cho các nhân viên bán hàng di chuyển t nơi này sang nơi khác

+ Nén hình ảnh: Ý tư ng đằng sau m愃⌀ng nơ-ron nhân t愃⌀o nén dữ liệu là lưu trữ, m h漃Āa và tái t愃⌀o l愃⌀i hình ảnh thực tế Chúng ta c漃Ā thể tối ưu h漃Āa kích thước d liệu của mình bằng cách sử dụng m愃⌀ng nơ ron nén hình ảnh N漃Ā là ng dụng lý - tư ng để tiết kiệm bộ nhớ và tối ưu h漃Āa n漃Ā

- C漃Ā một số lợi thế khi sử dụng mô hình m愃⌀ng nơron, đáng chú ý nhất là m愃⌀ng c漃Ā thể thích ng với nhiều lo愃⌀i thông số và yêu cầu dữ liệu, cũng như thực tế là chúng dễ sử dụng, yêu cầu số liệu thống kê tối thiểu đào t愃⌀o Hơn nữa, m愃⌀ng nơ- ron c漃Ā khả năng h漃⌀c hỏi ( một khía c愃⌀nh h愃⌀n chế), khiến chúng tr thành mô hình gần nhất với người vận hành

+ M愃⌀ng nơ ron đủ nâng cao để phát hiện bất kỳ mối quan hệ ph c t愃⌀p nào giữa đầu - vào và đầu ra, đây là một lợi thế khác khi sử dụng mô hình này

+ Tất nhiên, m愃⌀ng nơ-ron không phải là không c漃Ā nhược điểm của chúng Ví dụ: do tính chất ph c t愃⌀p và cao cấp của mô hình, chúng rất kh漃Ā thiết kế

+ Mặc dù khả năng thích ng và độ nh愃⌀y của m愃⌀ng nơ-ron chắc chắn là một lợi thế, nhưng n漃Ā cũng đi kèm với các vấn đề Do m愃⌀ng nơ ron sẽ phản ng với - những thay đổi dữ liệu dù là nhỏ nhất, nên thường rất kh漃Ā để lập mô hình phân tích

+ Việc ch愃⌀y một m愃⌀ng nơ-ron cũng đòi hỏi một lượng lớn tài nguyên máy tính, khiến n漃Ā tr nên đắt đỏ và c漃Ā thể không thực tế đối với một số công ty và ng dụng

Mô hình nghiên cứu đề xuất

Mô tả dữ liệu

- Mẫu dữ liệu gồm 8 cột dữ liệu, trong đ漃Ā cột “Thành viên” là mục tiêu của bài nghiên c u, nhằm phân lo愃⌀i thành viên của shopee, cũng như là th h愃⌀ng của các viên để nắm được “ s c mua” của khách hàng, đồng thời áp dụng ưu đ i đặc biệt đối với t ng th h愃⌀ng khác nhau, thu hút s c mua của khách hàng

- Trong bài nghiên c u này, sinh viên đ sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu

- Các biến khác bao gồm:

Tên cột Miêu tả đặc tính

Gioitinh Cho biết giới tính đối tượng khách hàng là nam hay nữ

Tuoi Cho biết số tuổi hiện t愃⌀i của khách hàng

Dathamgia Năm khách hàng bắt đầu tham gia mua sắm trên nền tảng thương m愃⌀i điện tử Shopee, đơn vị: Năm

Doituong Đối tượng khách hàng mua sắm trên Shopee được chia làm 3: Người lao động ( NLĐ) , sinh viên (SV), h漃⌀c sinh (HS)

Soluongdon Tổng số lượng đơn hàng khách hàng đ đặt t khi bắt đầu mua sắm trên Shopee

Chitieu Tổng chi tiêu của khách hàng qua tất cả các đơn hàng đ đặt trên Shopee, với đơn vị: Triệu, và số liệu mang tính tương đối vì đ được làm tròn

Thành viên Th h愃⌀ng thành viên Shopee: Kim cương (KC), vàng

Xử lý dữ liệu

Xác định các thuộc tính tiêu biểu của dữ liệu về xu hướng chinh và sự phân tán của d ữ liệu

Dữ li u trong thệ ực tế thường nhi u, không nhễ ất quán nên nh漃Ām đ biến đổ ềi v d愃⌀ng phù h p cho khai thác d li u ợ ữ ệ

Do d li u b thi u không có nên s chữ ệ ị ế ẽ 漃⌀n làm s愃⌀ch d li u b ng cách x lý d li u b ữ ệ ằ ử ữ ệ ị nhiễu Trong đ漃Ā nhôm sẽ ch漃⌀n giải pháp giảm thiểu nhiễu bằng phương pháp hồi quy (regression) để làm s愃⌀ch dữ li u ệ

Trực quan hóa dữ liệu

Nh漃Ām tác giả sử dụng “Distribution” bằng phần mềm Orange để trực quan h漃Āa dữ liệu:

Hình 5: Trực quan hóa dữ liệu về đối tượng thành viên theo giới tính

Nguồn: Kết quả từ chương trình Orange

+ Ta thấy, kết quả c漃Ā sự khá tương đương giữa nam và nữ, đều c漃Ā tỷ lệ đối tượng thành viên B愃⌀c, Vàng, Kim cương theo tỷ lệ giảm dần Trong đ漃Ā người dùng nữ c漃Ā tỷ lệ đối tượng thành viên Vàng nhiều hơn người dùng nam và người dùng nam c漃Ā tỷ lệ đối tượng thành viên B愃⌀c nhiều hơn người dùng nữ

+ Vậy kết quả không c漃Ā sự khác biệt rõ rệt về đối tượng thành viên theo giới tính

Hình 6: Trực quan hóa dữ liệu về đối tượng thành viên theo độ tuổi

Nguồn: Kết quả từ chương trình Orange

+ Theo kết quả trên, ta thấy c漃Ā sự khác nhau rõ rệt về đối tượng thành viên của người theo độ tuổi Người dùng dưới 20 tuổi và trên 50 tuổi c漃Ā xu hướng là đối tượng thành viên B愃⌀c, số ít là đối tượng thành viên Vàng Đối tượng thành viên Kim cương chỉ xuất hiện với tỷ lệ khá đều nhau độ tuổi t 20 50 tuổi, đối - tượng thành viên Kim cương xuất hiện nhiều nhất độ tuổi t 30 - 35 tuổi Cũng độ tuổi 20 50 tuổi ta thấy đối tượng thành viên Vàng chiếm tỷ lệ cao.-

- Về số năm đ tham gia:

Hình 7: Trực quan hóa dữ liệu về đối tượng thành viên theo số năm

Nguồn: Kết quả từ chương trình Orange + Ta thấy đối tượng thành viên B愃⌀c c漃Ā số năm dùng nền tảng Shopee nhiều hơn 2 đối tượng còn l愃⌀i Số lượng của đối tượng thành viên Kim cương c漃Ā số năm dùng nền tảng Shopee để mua sắm ít nhất

+ Với kết quả trên, ta thấy được sự khác biệt rõ rệt về số năm tham gia nền tảng Shopee giữa các đối tượng thành viên B愃⌀c, Vàng, Kim cương

Hình 8: Trực quan hóa dữ liệu về đối tượng thành viên theo đối tượng

Nguồn: Kết quả từ chương trình Orange

+ Theo kết quả, c漃Ā sự khác biệt về thành viên theo đối tượng người dùng Với đối tượng là h漃⌀c sinh, đối tượng thành viên c漃Ā xu hướng chiếm tỷ lệ cao là thành viên B愃⌀c Với đối tượng là sinh viên, đối tượng thành viên B愃⌀c cũng chiếm tỷ lệ cao nhất, tiếp đến là đối tượng thành viên Vàng, tỷ lệ đối tượng thành viên Kim cương chiếm tỷ lệ khá ít Với đối tượng là người lao động c漃Ā thu nhập hơn, đối tượng thành viên B愃⌀c và vàng tương đương nhau, đối tượng thành viên Kim cương chiếm tỷ lệ khá

Hình 9: Trực quan hóa dữ liệu về đối tượng thành viên theo số lượng đơn

Nguồn: Kết quả từ chương trình Orange

+ T hình ảnh, ta thấy số lượng đơn đối tượng thành viên B愃⌀c và Vàng tương đương nhau, số lượng thành viên Kim cương ít hơn 2 đối tượng còn l愃⌀i

Hình 10: Trực quan hóa dữ liệu về đối tượng thành viên theo chi tiêu

Nguồn: Kết quả từ chương trình Orange + Nhìn vào kết quả, ta thấy được người tiêu dùng Kim cương chi tiêu với số tiền lớn nhất cho giỏ hàng của mình; số tiền t 40 55 triệu, chỉ c漃Ā đối tượng thành - viên Kim cương sẵn sàng chi tiêu Đối tượng thành viên B愃⌀c và Vàng tương đương nhau m c chi tiêu t 5 20 triệu.-

+ Vậy ta thấy c漃Ā sự khác nhau rõ rệt giữa 3 đối tượng thành viên theo chi tiêu cho các đơn hàng t nền tảng Shopee.

Kết quả thực hiện

Phân tích kết quả dựa trên phần mềm

4.1.1 Kết quả của dữ liệu huấn luyện

Trước tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau: + Đối với các biến độc lập “Gioitinh”, “Tuoi”, “Dathamgia”, “Doituong”, Soluongdon”, “Chitieu” sẽ được khai báo thuộc tính là “feature”

+ Sau đ漃Ā, chúng ta sẽ khai báo thuộc tính “target” cho “Thành viên” b i vì “Thành viên” là kết quả huấn luyện cho kết quả th h愃⌀ng của các thành viên là b愃⌀c, vàng hay kim cương “Thành viên” sẽ được chia ra thành 3 lo愃⌀i “B – b愃⌀c” và “V – vàng” và “KC kim cương”-

+ Đối với “Khachhang” là d愃⌀ng ký tự và không tham gia vào quá trình dự báo, vì vậy chúng ta c漃Ā thể “skip”

Bảng 1: Mô tả các thuộc tính của biến

Nguồn: Kết quả từ chương trình Orange

Sau khi đ khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nghiên c u sẽ lựa ch漃⌀n phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như CA, F1 – score, Precison, Recall Các phương pháp phân lớp mà bài nghiên c u sử dụng là Tree Decision, Logistic Regression, Neural Network Bài nghiên c u đ vẽ ra sơ đồ của quá trình huấn luyện và dự báo được thể hiện hình 11 như sau:

Hình 11: Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ

Nguồn: Kết quả từ chương trình Orange

Sau khi đ c漃Ā được sơ đồ của hình, bài nghiên c u sẽ tiếp tục vào phần Test and Score để tổng quan các chỉ số và lựa ch漃⌀n mô hình phù hợp nhất cho bài nghiên c u Ở bài nghiên c u này sử dụng phương pháp đánh giá mô hình phân lớp với Cross Validation với Number of fold là 5 (= 5) để đánh giá với tính năng vượt trội hơn và tránh trùng lặp giữa các tập kiểm thử

Bảng 2: Kết quả của mô hình đánh giá phân lớp bằng Cross Validation

Nguồn: Kết quả từ chương trình Orange

Qua kết quả của mô hình đánh giá phân lớp bằng Cross Validation , Logistic Regression được đánh giá là cao nhất kể cả 4 chỉ số CA, F1, Precision, Recall Giá trị F1 của

Logistic Regression là cao nhất với 85.8% Giá trị này chưa phải là cao nhất, trong khi đ漃Ā, giá trị AUC của Neural Network là 94.7%, một chỉ số rất cao Để tính được các chỉ số này, bài nghiên c u sử dụng ma trận nhầm lẫn hình 12 như sau:

Hình 12: Ma trận nhầm lẫn với Logistic Regression

Nguồn: Kết quả từ chương trình Orange

Ta c漃Ā thể tính giá trị của F1 – Score bằng công th c như đ đề cập chương 2 (Cơ s lý luận) Đầu tiên chúng ta sẽ đi tính giá trị của Precision và Recall sau đ漃Ā áp dụng công th c để tính F1 – Score và kết quả được thể hiện như hình 12 t愃⌀i Logistic Regression Ở ma trận nhầm lẫn này, ta c漃Ā thể giải thích như sau:

+ C漃Ā 130 thành viên h愃⌀ng b愃⌀c t c số lượng thành viên B愃⌀c chiếm số đông, ch ng tỏ lượng s c mua của khách hàng m c khá chiếm ưu thế, trong đ漃Ā c漃Ā 111 mẫu được phân lớp chính xác và c漃Ā 19 mẫu bị phân lớp không chính xác

+ Tuy nhiên, số thành viên kim cương được phân đúng lớp cũng là một con số khá ổn là 35 , chiếm khoảng 1/6 dữ liệu, n漃Āi lên được số lượng người dùng shopee c漃Ā m c mua “khủng” cũng khá cao, điều đ漃Ā giúp doanh số shopee tăng lên đáng kể chỉ trong thời gian ngắn, và chỉ c漃Ā 1 mẫu bị phân nhầm lớp

T đ漃Ā c漃Ā thể kết luận rằng, mô hình Logistic Regression rất thích hợp cho bộ dữ liệu của bài nghiên c u này và khá phù hợp để dự báo về s c mua của khách hàng thông qua việc phân lo愃⌀i th h愃⌀ng của các thành viên Shopee Sau khi đ phân tích chi tiết về bộ dữ liệu huấn luyện

Tiếp theo sau đ漃Ā, bài nghiên c u sẽ đi phân tích dự báo để dự đoán xem mô hình Logistic Regression dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện Kết quả của dữ liệu dự báo được trình bày mục 4.1.2

4.1.2 Kết quả của dữ liệu dự báo

Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên c u, vì vậy sẽ sử dụng Logistic Regression dự báo th h愃⌀ng cho 260 thành viên đ愃⌀i diện ( mẫu ) của shopee (Phụ lục ) Nh漃Ām chúng em, cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và ch愃⌀y các thuộc tính cho các biến số bộ dữ liệu dữ báo giống như bộ dữ liệu huấn luyện

Bảng 3: Các thuộc tính của bộ dữ liệu dự báo

Nguồn: Kết quả từ chương trình Orange Cũng giống như bộ dữ liệu dự báo, bài nghiên c u sẽ khai cái các thuộc tính của

“Gioitinh”, “Tuoi”, “Dathamgia”, “Doituong”, “Soluongdon” và “Chitieu” là “feature”, ngoài ra, thuộc tính của “Thành viên” cũng là “feature”, không giống như bộ dữ liệu huấn luyện là “target” Còn những vấn đề khác không quan tr漃⌀ng chúng ta sẽ khai báo là “skip” Sau đ漃Ā, chúng ta vào Predictions để xem dự báo bằng Logistic Regression như thế nào Hình thể hiện kết quả dự báo của 25 thành viên đầu tiên của bộ dữ liệu dự báo như sau:

Bảng 4: Kết quả của dự báo bằng Logistic Regression

Nguồn: Kết quả từ chương trình Orange

Với mô hình Logistic Regression và kết quả dự đoán trên, ta c漃Ā thể sẽ giúp Shopee dự đoán s c mua của khách hàng, đồng thời đưa ra những chương trình ưu đ i nhằm khuyến khích các thành viên mua sắm để tăng h愃⌀ng thành viên T đ漃Ā, c漃Ā thể mang l愃⌀i doanh số vượt bậc cho ngành thương m愃⌀i điện tử n漃Āi chung và sàn mua sắm Shopee.

Đánh giá kết quả và mô hình

Bài tiểu luận đ ng dụng mô hình h漃⌀c máy trong việc dự đoán "m c độ thân thiết" nhằm phản ánh s c mua của khách hàng trên nền tảng Shopee Bài nghiên c u của nh漃Ām tác giả đ dùng bộ dữ liệu của 315 khách hàng c漃Ā sử dụng nền tảng mua sắm Shopee

Bộ dữ liệu trên đ được chia thành 2 bộ dữ liệu: 260 người dùng thuộc bộ dữ liệu huấn luyện, 55 người dùng thuộc bộ dữ liệu dự báo Sau đ漃Ā, nh漃Ām tác giả phân tích bộ dữ liệu huấn luyện, ấn định các thuộc tính cần sử dụng cho các biến độc lập, cùng như biến phụ thuộc, Dựa trên 3 mô hình nh漃Ām tác giả đ được ch愃⌀y, nhận thấy mô hình Logistic Regression cho kết quả tốt nhất trong 3 mô hình Nh漃Ām tác giả đ ch漃⌀n mô hình Logistic Regression dự đoán cho bộ dữ liệu Đối với bộ dữ liệu dự báo, sau khi đ tiến hành ch愃⌀y mô hình dự báo bằng Orange và cụ thể là sử dụng phương pháp Logistic Regression để dự đoán “m c độ thân thiết” của khách hàng Kết quả trên chỉ mang tính chất h漃⌀c thuật và tham khảo, dự báo thông qua những số liệu c漃Ā sẵn, những số liệu đ dự báo thực sự chưa thật sự chính xác do còn nhiều yếu tố để xác định “m c độ thân thiết” và s c mua của khách hàng, những số liệu trên cũng chưa thật sự đầy đủ và bao quát Tuy chưa thực sự hoàn thiện nhưng bài nghiên c u của nh漃Ām tác giả cũng đ g漃Āp phần vào việc dự báo hành vi và s c mua của khách hàng với nền tảng mua sắm “hot” nhất hiện nay - Shopee

Bài nghiên c u sử dụng chủ yếu trên ng dụng về công nghệ thông tin Nh漃Ām tác giả đ sử dụng phần mềm Orange để ch愃⌀y các mô hình và t đ漃Ā đưa ra một mô hình cụ thể, chính xác, đánh giá bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện.

Ngày đăng: 08/04/2024, 12:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w