1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Hệ thống đề xuất sử dụng các mạng học sâu trong thương mại điện tử

72 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN CÔNG HẬU

HỆ THỐNG ĐỀ XUẤT SỬ DỤNG CÁC MẠNG HỌC SÂU TRONG THƯƠNG MẠI ĐIỆN TỬ

Chuyên ngành: Khoa học máy tính Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 01 năm 2024

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG -HCM Cán bộ hướng dẫn khoa học: PGS.TS Trần Minh Quang Cán bộ chấm nhận xét 1: PGS.TS Nguyễn Tuấn Đăng Cán bộ chấm nhận xét 2: PGS.TS Nguyễn Văn Vũ

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 21 tháng 01 năm 2024

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS.TS Lê Hồng Trang……….… Chủ tịch 2 TS Nguyễn Thị Ái Thảo……… Thư ký 3 PGS.TS Nguyễn Tuấn Đăng……….Phản biện 1 4 PGS.TS Nguyễn Văn Vũ……… Phản biện 2 5 PGS.TS Trần Minh Quang……… … …Ủy viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

VÀ KỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Công Hậu MSHV: 2070098 Ngày, tháng, năm sinh: 17/04/1995 Nơi sinh: Quảng Ngãi

Chuyên ngành: Khoa học máy tính Mã số : 8480101

I TÊN ĐỀ TÀI: Hệ Thống Đề Xuất Sử Dụng Các Mạng Học Sâu Trong Thương

Mại Điện Tử

II NHIỆM VỤ VÀ NỘI DUNG:

• Tìm hiểu vai trò và ý nghĩa của hệ thống đề xuất đối với lĩnh vực thương mại điện tử

• Tìm hiểu cở sở lí thuyết và hiện thực hai mạng học sâu Neural Collaborative Filtering và Wide and Deep Learning

• Đưa ra một số đề xuất nhằm cải tiến hoạt động, góp phần vào sự phát triển của hai mạng học sâu Neural Collaborative Filtering Và Wide and Deep Learning

• Đánh giá, so sánh kết quả thực nghiệm của hai mạng học sâu trên cùng một tập dữ liệu

III NGÀY GIAO NHIỆM VỤ : 04/09/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Trần Minh Quang

Trang 4

Lời cảm ơn

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn và gửi đến thầy PGS.TS Trần Minh Quang lời cảm ơn chân thành Thầy đã tận tình chỉ bảo, hướng dẫn và định hướng cho tôi trong suốt quá trình thực hiện luận văn này

Tôi cũng chân thành xin gửi lời cảm ơn đến quý thầy cô Khoa khoa học và kỹ thuật máy tính vì đã hết lòng truyền dạy cho tôi những kiến thức trong suốt thời gian học tập tại trường Đại học Bách Khoa – Đại học Quốc Gia TP Hồ Chí Minh

Sau cùng tôi xin được gửi lời cảm ơn chân thành nhất đến gia đình tôi, bạn bè, những người đã luôn động viên, khuyến khích và tạo điều kiện thuận lợi cho tôi trong toàn bộ quá trình học tập cũng như thực hiện đề tài nghiên cứu này

Học viên thực hiện đề tài

Nguyễn Công Hậu

Trang 5

Tóm tắt

Mục đích của nghiên cứu là xây dựng hệ thống đề xuất thông minh dành cho người dùng trên các sàn thương mại điện tử, sử dụng các mạng học sâu Bằng cách sử dụng dữ liệu lịch sử mua hàng hiện có, từ đó đưa ra các sản phẩm có xu hướng, hoặc được đánh giá tốt để đưa ra những đề xuất phù hợp, nhằm tăng tính trải nghiệm cho người dùng, duy trì tỷ lệ người dùng hiện hữu, thu hút người dùng mới từ góp phần nâng cao được doanh số cho các sàn thương mại điện tử và cho các doanh nghiệp

Đồng thời nghiên cứu cũng đưa ra so sánh kết quả thu được giữa các mạng học sâu sau khi được sử dụng trên cùng một tập dữ liệu, đánh giá các ưu, nhược điểm, khả năng vận hành của từng mạng học sâu, từ đó đưa ra một góc nhìn thực tiễn cho các doanh nghiệp, sàn thương mại điện tử có thể xem xét đánh giá khi muốn áp dụng các mạng này vào trong quá trình kinh doanh thực tiễn

Từ khoá: khai phá dữ liệu, hệ thống đề xuất, phân loại khách hàng

Trang 6

Abstract

With the ever-growing volume of online information, recommender systems have been an effective strategy to overcome such information overload The utility of recommender systems cannot be overstated, given its widespread adoption in many web applications, along with its potential impact to ameliorate many problems related to over-choice In recent years, deep learning has garnered considerable interest in many research fields such as computer vision and natural language processing, owing not only to stellar performance but also the attractive property of learning feature representations from scratch The influence of deep learning is also pervasive, recently demonstrating its effectiveness when applied to information retrieval and recommender systems research Evidently, the field of deep learning in recommender system is flourishing This research will help us gain a more practical perspective when applying deep learning networks in practice

At the same time, it is possible to evaluate and comment on the performance results of the two most popular deep learning networks today in the proposed field

Keywords: Data mining, recommendation system, customer classification

Trang 7

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu khoa học tôi đã tự thực hiện Dữ liệu được sử dụng trong toàn bộ quá trình phân tích của luận văn có nguồn gốc rõ ràng và minh bạch, được công bố theo đúng quy định và đạo đức nghiên cứu khoa học

Các kết quả đạt được của nghiên cứu trong luận văn này, tôi đã tự thực hiện một cách trung thực và khách quan Kết quả luận văn được công bố lần đầu tiên trong bản báo cáo này và chưa từng được công bố trước đó

Học viên

Nguyễn Công Hậu

Trang 8

Chương 1: Giới thiệu bài toán 1

1.1 Lý do chọn đề tài 1

1.2 Mục đích nghiên cứu 2

1.3 Ý nghĩa khoa học và thực tiễn 4

1.3.1 Ý nghĩa khoa học 4

1.3.2 Ý nghĩa thực tiễn 4

Chương 2: Các nghiên cứu liên quan 6

2.1 Các nghiên cứu trong nước 6

2.2 Các nghiên cứu nước ngoài 7

Chương 3: Nền tảng lý thuyết 10

3.1 Đặc điểm các mạng học sâu 10

3.2 Mạng học sâu Neural Collaborative Filtering 11

3.3 Học sâu và rộng trong hệ thống đề xuất (Wide and Deep Learning for Recommender System) 16

3.4 Các thuật toán sử dụng trong phân cụm người dùng 19

3.4.1 Thu giảm số chiều sử dụng thuật toán PCA (Principal Component Analysis) 20

3.4.2 Thuật toán - K_Means Clustering 21

Chương 4: Giải pháp đề xuất 27

4.1 Xây dựng model 27

Trang 9

4.2 Phương pháp đánh giá 29

4.2.1 Normalized Discounted Cumulative Gain 31

4.2.2 Phương pháp đánh giá độ tổng quát của model WD 33

Chương 5: Hiện thực 34

5.1 Thu thập dữ liệu 34

5.2 Phân tích dữ liệu 35

5.3 Hiện thực hai mạng học sâu 38

5.3.1 Neural Colloborative Filtering 39

5.3.2 Wide and D eep Learning 41

5.4 Đánh giá kết quả hai mạng 43

5.4.1 Áp dụng phương thức đánh giá NDCG 43

5.4.2 Áp dụng phương pháp đánh giá tổng quát 45

5.5 So sánh kết quả của hai mạng NCF và WD 49

Chương 6: Đánh giá và tổng kết nghiên cứu 53

6.1 Ý nghĩa khoa học 53

6.2 Ý nghĩa thực tiễn 53

6.3 Đề xuất hướng mở rộng 53

Tài liệu tham khảo 55

PHẦN LÝ LỊCH TRÍCH NGANG 59

Trang 10

Danh sách hình vẽ

Hình 1.1 Các quốc gia có sự phát triển mạnh về thương mại điện tử toàn cầu năm

2023 [2] 2

Hình 2.1 Doanh số của A mazon qua các năm [7] 7

Hình 2.2 Doanh số của Netfix qua các năm [9] 9

Hình 3.1 Cách tính ma trận thừa số [15] 12

Hình 3.2 Hạn chế của ma trận thừa số [16] 14

Hình 3.3 Kiến trúc mạng NCF [12] 15

Hình 3.4 Kiến trúc của mạng học rộng và sâu cho hệ thống đề xuất [17] 17

Hình 3.5 Cấu trúc của mạng học rộng và sâu cho ứng dụng đề xuất [16] 19

Hình 3.6 Minh họa phép chiếu [18] 21

Hình 3.7 Mô phỏng thuật toán k-Means [19] 23

Hình 3.8 Đồ thị hàm biến dạng của thuật toán k-Means 24

Hình 4.1 Kết hợp giá trị đầu vào của thành phần Wide và Deep 29

Hình 4.2 Ý tưởng của phương pháp NDCG [22] 31

Hình 4.3 NDCG tại K [22] 32

Hình 4.4 Cách tính CG [22] 32

Hình 5.1 Data model tập dữ liệu cho nghiên cứu 34

Hình 5.2 Tổng số sản phẩm theo từng CategoryID 35

Hình 5.3 Tổng số Order và A mount theo từng CategoryID 36

Hình 5.4 Phân bố về độ tuổi, thu nhập và con của khách hàng 36

Hình 5.5 Tổng số khách hàng theo tình trạng hôn nhân 37

Hình 5.6 Tổng số khách hàng theo giới tính 37

Hình 5.7 Giá trị tương quan của các thuộc tính sử dụng trong model WD 38

Hình 5.8 Mô hình mạng NCF 39

Hình 5.9 Giá trị của hàm loss giữa tập train và tập validation mạng NCF 40

Hình 5.10 Độ chính xác của tập train và tập validation mạng NCF 40

Hình 5.11 Mô hình mạng WD 41

Hình 5.12 Giá trị của hàm loss giữa tập train và tập validation mạng WD 42

Hình 5.13 Giá trị độ đo accuracy của tập train và validation mạng WD 42

Trang 11

Hình 5.14 Phân bổ giá trị ndcg với mạng NCF 43

Hình 5.15 Giá trị trung bình của ndcg với mạng NCF 43

Hình 5.16 Phân bổ giá trị ndcg với mạng WD 44

Hình 5.17 Giá trị trung bình của ndcg với mạng WD 44

Hình 5.18 Tập dữ liệu đầu vào 45

Hình 5.19 Tập dữ liệu sau khi biến đổi 45

Hình 5.20 Số thành phần theo tổng phương sai 46

Hình 5.21 Kiểm tra số cụm tối ưu theo silhouette 47

Hình 5.22 Kiểm tra số cụm tối ưu theo WCSS 47

Hình 5.23 Tổng số người dùng theo từng cụm 48

Hình 5.24 Phân bố các sản phẩm được ưu thích nhất theo từng cụm 48

Hình 5.25 Phân bố các sản phẩm được ưu thích nhất theo từng cụm được model dự đoán 49

Hình 5.26 Độ giao thoa dữ liệu của hai tập trên từng cụm 49

Trang 12

Danh sách bảng

Bảng 5.1 Thông tin tổng quan về tập dữ liệu 35

Bảng 5.2 Thông số của thiết bị dùng để huấn luyện 50

Bảng 5.3 Thông số thiết bị chạy dự đoán 50

Bảng 5.4 So sánh kết quả của model NCF và WD 51

Trang 13

Thuật ngữ và từ viết tắt

Trang 14

Thương mại điện tử hiểu một cách đơn giản là các hoạt động mua bán sản phẩm, dịch vụ thông qua các hệ thống điện tử như internet và các mạng máy tính

Ngoài ra, ở Việt Nam định nghĩa về thương mại điện tử cũng được Chính Phủ sớm nghiên cứu, ban hành, được pháp luật công nhận và được thông tin chi tiết:

“Hoạt động thương mại điện tử là việc tiến hành một phần hoặc toàn bộ quy

trình của hoạt động thương mại bằng phương tiện điện tử có kết nối với mạng Internet, mạng viễn thông di động hoặc các mạng mở khác” – Nghị định

52/2013/NĐ-CP về Thương mại điện tử [1]

Trong những năm gần đây, cùng với sự phát triển vượt bậc của các nghiên cứu về khoa học công nghệ, đặc biệt là khoa học dữ liệu và dữ liệu lớn đã cho phép chúng ta thực hiện hàng triệu các giao dịch trong cùng một thời điểm, cộng thêm ảnh hưởng của đại dịch Covid – 19 đã thúc đẩy sự phát triển mạnh mẽ của các sàn thương mại điện tử Không chỉ được gói gọn trong từng quốc gia, vùng lãnh thổ, mà giờ đây thương mại điện tử đã xóa mờ đi khoảng cách về địa lý và tiến tới toàn cầu hóa trên mọi sản phẩm

Trang 15

Hình 1.1 Các quốc gia có sự phát triển mạnh về thương mại điện tử toàn cầu năm 2023 [2]

Theo thống kê của trang Inside Intelligence, một công ty chuyên nghiên cứu, thống kê và cung cấp chiến lược trên các sàn thương mại điện tử toàn cầu, Việt Nam chúng ta nằm ở vị trí thứ 5 (Hình 1.1) với tốc độ tăng trưởng 19% trong năm 2022, bất chấp sự ảnh hưởng to lớn của đại dịch Covid-19, chứng tỏ Việt Nam là một trong những thị trường rất tiềm năng để phát triển thương mại điện tử Điều này có thể chứng minh thông qua một số luận điểm:

• Kinh tế Việt Nam đang nằm trong giai đoạn đang phát triển nhanh và bền vững nên sẽ là một thị trường tiềm năng cho các nhà đầu tư

• Độ tuổi trung bình của Việt Nam đang 33.7 [3] là một trong những nước có dân số trẻ, điều này cũng là một lợi thế lớn khi chúng ta tiếp cận với những công nghệ hiện đại và có sự thay đổi với tần suất nhanh như hiện nay

Nắm bắt được các yếu tố này, các sàn thương mại điện tử lớn có thể kể đến như Shopee, Lazada, Tiki… đã sớm có mặt trên thị trường, và góp phần thúc đẩy quá trình phát triển của thương điện tử ở Việt Nam

1.2 Mục đích nghiên cứu

Đối với sự phát triển của các sàn thương mại điện tử, việc tổ chức lưu trữ thông tin người dùng, các sản phẩm, thông tin về giao dịch, đơn hàng…thì hiện tại các công nghệ về big data (dữ liệu lớn), hay các dịch vụ được cung cấp bởi các hãng lớn như

Trang 16

Oracle, SQLServer đang làm rất tốt công việc này Câu hỏi đặt ra là “Ngoại trừ việc lưu trữ, làm thế nào để chúng ta có thể khai thác hay khai phá những nguồn dữ liệu lớn và màu mỡ này để phục vụ cho quá trình kinh doanh ?”

Dưới góc nhìn là nhà quản lí của các sàn thương mại điện tử thì làm sao để tăng được doanh số? Cách đơn giản nhất là sẽ duy trì số lượng người dùng hiện hữu, thu hút người dùng mới, từ đó có thể tăng được tỉ lệ chuyển đổi thành các đơn hàng Vậy làm thế nào để lôi kéo, hay thu hút được người dùng sử dụng sản phẩm của mình Câu trả lời là tăng tính năng, và nâng cao trải nghiệm của người dùng, làm cho họ thích thú, đưa ra được các thông tin dự đoán về các sản phẩm mà người dùng đang có nhu cầu, hoặc gợi ý cho họ những sản phẩm đang được thịnh hành Từ đó giúp các nhà quản lí có thể đạt được mục đích ban đầu là duy trì và tăng số lượng người sử dụng, góp phần vào việc tăng doanh số

Dưới góc nhìn của một người dùng, thì họ sẽ có xu hướng sử dụng những ứng dụng mà có thể cho họ sự trải nghiệm cao khi sử dụng, điều này không chỉ đến từ những tìm kiếm thông thường, mà còn đến từ sự thông minh mà ứng dụng có thể mang lại

Kết hợp các điều kiện trên, từ nhu cầu của một nhà quản lí, một chủ doanh nghiệp mong muốn nâng cao chất lượng sản phẩm từ đó có thể tăng doanh số và mong muốn của người dùng là được trải nghiệm những sản phẩm tốt hơn, chúng ta sẽ cần có một yếu tố mới để thực hiện điều này và một trong những cách tiếp cận tốt nhất, đơn giản nhất là áp dụng hệ thống đề xuất vào trong quá trình vận hành Và một trong những kĩ thuật được quan tâm và sử dụng rộng rãi cho hệ thống đề xuất là áp dụng các mạng học sâu Với những phân tích và yêu cầu trên, nghiên cứu này tập trung giải quyết vấn đề sau:

• Khai phá nguồn dữ liệu đang có sẵn trên STMĐT (sàn thương mại điện tử), bằng cách xây dựng hệ thống đề xuất thông minh dành cho người dùng Hệ thống này có thể đề xuất được các sản phẩm đang có xu hướng thịnh hành, được đông đảo người dùng sử dụng hoặc có các sản phẩm đang được ưu thích trong những nhóm người dùng nhất định

• Hiện thực hai mạng học sâu đang được đang được phổ biến ở thời điểm hiện

Trang 17

tại là NCF (Neural Collaborative Filtering) và WD (Wide and Deep Learning) với những đề xuất để cải tiến, đồng thời đưa ra các nhận xét đánh giá về mức độ phức tạp trong quá trình hiện thực, khả năng vận hành của hai mạng học sâu trên cùng một tập dữ liệu

1.3 Ý nghĩa khoa học và thực tiễn

1.3.1 Ý nghĩa khoa học

Dựa trên các cơ sở lí thuyết được trình bày về hai mạng học sâu là NCF và WD (sẽ được trình bày rõ hơn ở chương 3.2 và 3.3), đề tài nghiên cứu sẽ thiết kế và hiện thực lại hai mạng học sâu này, sao cho có thể vận hành trên cùng một tập dữ liệu

Từ đó có thể đưa ra các nhận xét, đánh giá về quá trình thiết kế, thời gian huấn luyện, và kết quả vận hành của hai mạng này Đồng thời, cũng dựa trên các cơ sở lí thuyết, đề tài sẽ đề xuất một số cải tiến, nhằm giúp các mạng có thể hoạt động tốt hơn, đóng góp vào việc phát triển các hệ thống đề xuất

Ngoài ra, đề tài còn đưa ra một phương pháp đánh giá nhằm kiểm tra tính tổng quát của mạng WD, áp dụng thuật toán PCA (Principal Component Analysis) và kỹ thuật K-Means trong Machine Learning (học máy) Phương pháp đánh giá này nhằm giúp chúng ta có thêm một số kết quả, để đảm bảo mô hình hoạt động tốt trước khi áp dụng vào thực tế

1.3.2 Ý nghĩa thực tiễn

Như chúng ta đã biết việc triển khai, áp dụng một công nghệ mới với một sản phẩm, ứng dụng đang được vận hành là một điều không dễ dàng, đặc biệt đối với lĩnh vực học sâu, chúng ta cần có một hệ thống các siêu máy tính để thực hiện huấn luyện và điều này cần một nguồn chi phí lớn Nên đòi hỏi các nhà quản lí, doanh nghiệp cần có những nghiên cứu kĩ lưỡng để trang bị hệ thống tính toán phù hợp, vừa đủ không gây lãng phí về tài chính và tài nguyên của doanh nghiệp

Bên cạnh đó, tính chất về sản phẩm và dữ liệu là khác nhau, và mục tiêu triển khai các hệ thống đề xuất đối với từng lĩnh vực là khác nhau, nên đòi hỏi các doanh nghiệp cần áp những mạng học sâu khác nhau sao cho phù hợp nhất

Đề tài này sẽ giúp cho các nhà quản lí, doanh nghiệp có thêm một số cơ sở,

Trang 18

góc nhìn từ đó có thể tham khảo và giải quyết hai vấn đề được nêu trên, khi có nhu cầu triển khai hệ thống đề xuất sử dụng hai mạng học sâu NCF và WD

Trang 19

Chương 2: Các nghiên cứu liên quan 2.1 Các nghiên cứu trong nước

Hiện nay, về các STMĐT có nguồn gốc là các doanh nghiệp của Việt Nam đang rất hạn chế Có thể kể đến một số STMĐT nổi bật như Tiki, Sendo, Vỏ Sò Nhưng trong đó chỉ có Tiki là có thể cạnh tranh các vị trí nằm trong nhóm 3 so với các sàn thương mại đến từ nước ngoài như Shopee, Lazada, các STMĐT còn lại chưa được phổ biến, cũng như số lượng người sử dụng còn hạn chế nên việc áp dụng các phương pháp đề xuất chưa được sử dụng rộng rãi

Các STMĐT lớn như Shopee, Lazada hiện tại đã có áp dụng hệ thống đề xuất, tuy vậy các hệ thống này còn khá sơ khai, chưa áp dụng các công nghệ hiện đại, và cũng chưa thật sự gây ấn tượng mạnh với người dùng

Cụ thể đối với STMĐT Shopee [4], đang sử dụng thuật toán “Apriori” Apriori là một phương pháp tìm ra mối quan hệ giữa một hoặc nhiều sản phẩm trong tập dữ liệu lớn Thuật toán Apriori sử dụng tần suất thuộc tính được xác định trước để có thể tìm thấy thêm thông tin Trong thuật toán này, các sản phẩm đề xuất có thể xuất hiện sẽ được xác định bằng cách tính thông qua hai đại lượng chính là giá trị hỗ trợ tối thiểu (support) và độ tin cậy tối thiểu (confidence) [5] Cụ thể thuật toán Apriori gồm 3 thành phần là support, confidence, lift và được biểu diễn như công thức (1), (2) và (3):

Trang 20

để đảm bảo số liệu được cập nhật mới nhất, điều này ảnh hưởng rất lớn đến hiệu suất trong quá trình vận hành của ứng dụng [6]

2.2 Các nghiên cứu nước ngoài

Các giải pháp liên quan đến hệ thống đề xuất đã sớm được áp dụng đối với thương mại điện tử Một trong những thành công điển hình có thể kể đến sàn thương mại điện tử Amazon

Hình 2.1 Doanh số của Amazon qua các năm [7]

Dựa vào hình 2.1, chúng ta có thể thấy được doanh số của Amazon đã có những bước tăng trưởng vượt bậc từ năm 2017 đến năm 2020 Đặc biệt trong từ năm 2019 đến năm 2020 doanh số đã tăng 36% từ 280 tỷ đô lên tới 386 tỷ đô Thành công này đến từ việc Amazon đã áp dụng thành công mô hình đề xuất vào trong quá trình kinh doanh

Hệ thống đề xuất của Amazon nổi bật với khả năng đưa ra các đề xuất cá nhân hóa và phù hợp với người dùng Không chỉ một mà Amazon đã sử dụng nhiều công nghệ tiên tiến để phân tích dữ liệu từ hành vi, sở thích và đặc điểm mặt hàng ưu thích của khách hàng để đưa ra các đề xuất phù hợp [8] Cụ thể:

• Collaborative Filtering: tìm kiếm những người dùng có cùng sở thích từ đó Amazon có thể giới thiệu những sản phẩm mà một người dùng đã sử dụng cho những người dùng khác có cùng sở thích

• User-Based Collabrotive Filtering: xác định những người dùng có sở thích và sở thích tương tự dựa trên hành vi lịch sử của họ

• Item-Based Collabrotive Filtering: xác định sự tương đồng giữa các mặt hàng

Trang 21

dựa trên số lượng người dùng đã mua

• Content-Based Filtering: phân tích các đặc điểm của sản phẩm, như tiêu đề, mô tả, danh mục và thuộc tính của chúng

• NLP for Textual Data: trích xuất thông tin chi tiết từ đánh giá của khách hàng, mô tả sản phẩm và dữ liệu từ văn bản

• Machine Learning và Deep Learning: những thuật toán này có thể xử lý lượng lớn dữ liệu, tìm hiểu các mô hình và mối quan hệ phức tạp có trong tập dữ liệu bằng cách huấn luyện mô hình trên dữ liệu lịch sử

• Deep Neural Networks for Click-Through Rate (CTR) Prediction: Hệ thống có thể ước tính khả năng người dùng nhấp chuột vào một mục cụ thể bằng cách huấn luyện các mô hình này trên dữ liệu nhấp chuột lịch sử

• Recurrent Neural Networks (RNNs) for Sequential Recommendations:

sử dụng các kiến trúc RNN như Long Short-Term Memory (LSTM) và Gated Recurrent Unit (GRU) để mô hình hóa các tương tác tạm thời, hoặc đang thực hiện của người dùng

• Real-Time Data Processing: hoạt động trong thời gian thực và thích ứng với sự phát triển của sở thích và thay đổi hành vi của người dùng

Một ví dụ khác có thể kể đến là Netfix, tuy không phải là một STMĐT, nhưng Netfix cũng đã rất thành công sau khi áp dụng mô hình đề xuất và đạt được nguồn doanh thu đáng kể

Trang 22

Hình 2.2 Doanh số của Netfix qua các năm [9]

Một số công nghệ được Netfix sử dụng cho hệ thống đề xuất của mình [10] : • Reinforcement learning

• Neural networks • Causal modelling

• Probabilistic graphical models • Matrix factorization

• Ensemble learning

Qua đây chúng ta có thể thấy được sự quan trọng của việc áp dụng hệ thống đề xuất trong tình hình kinh doanh ở thời điểm hiện tại

Trang 23

Chương 3: Nền tảng lý thuyết

Như trình bày ở mục 2.2, chúng ta có thể thấy được Amazon và Netfix là hai công ty hoạt động trên hai lĩnh vực khác nhau, với Amazon là thương mại điện tử, còn Netfix là phim, điện ảnh nên các công nghệ sử dụng trong hệ thống đề xuất cũng sẽ có phần khác nhau Nhưng điểm chung là cả hai công ty này đều chọn sử dụng các mạng học sâu để thực hiện một mục đích nào đó trong hệ thống đề xuất Việc này chứng tỏ việc sử dụng các mạng học sâu sẽ có những ưu điểm hay tính năng nổi bật

3.1 Đặc điểm các mạng học sâu

Một trong những điểm hữu ích của các mạng học sâu là chúng cho phép chúng ta phân biệt từ đầu đến cuối, và cung cấp các xu hướng quy nạp phù hợp cho nhiều kiểu dữ liệu đầu vào Ngoài ra, các mạng học sâu có thể xây dựng được các khối mạng thần kinh (neural network) khổng lồ với một chức năng duy nhất [11]

Cụ thể hơn sau đây là một số ưu điểm, nhược điểm khi chúng ta sử dụng các mạng học sâu để tiếp cận cho hệ thống đề xuất

Về ưu điểm:

• Biến đổi phi tuyến (Nonlinear Tranformations) sử dụng các mô hình phi tuyến như các hàm relu, sigmoid, tanh… để xây dựng các mô hình phi tuyến, từ đó có thể nắm bắt được sự phức tạp trong quá trình sử dụng của người dùng

• Học đại diện (Representation Learning): các mạng học sâu có một ưu điểm rất lớn là có thể học được những yếu tố cơ bản hay những đại diện đặc trưng trong một tập dữ liệu lớn, cho phép học tự động các đặc điểm (feature) từ dữ liệu thô ở chế độ giám sát và không giám sát Điều này rất phù hợp đối với một tập dữ liệu khổng lồ mà chúng ta thu thập được từ người dùng mà không biết đâu là những đặc trưng

• Mô hình tuần tự (Sequence model): các mạng học sâu có khả năng học tuần tự, từ đó có thể khai thác các hành vi của người dùng đối với từng sản phẩm, từ đó đưa ra các đưa ra các dự đoán phù hợp trong tương lai Ví dụ: có dự đoán các sản phẩm, giỏ hàng trong tương lai và đề xuất thông tin này đến người dùng Điều này giúp các mạng học sâu trở nên hoàn hảo trong việc tiếp cận với lĩnh vực đề xuất

• Linh hoạt (Flexibilities): ngày nay chúng ta có thể triển khai các mạng học sâu trên nhiều công cụ hay thư viện khác nhau, có thể kể đến như Keras, Caffee, PyTorch

Trang 24

Điều này cũng giúp mở ra một cộng đồng lớn hơn và có thể đạt được nhiều thành tựu tốt hơn

Về nhược điểm:

Bên cạnh những ưu điểm, thì các mạng học sâu cũng có những nhược điểm trong quá trình sử dụng

• Khả năng diễn giải(Interpretability) các mạng học sâu được biết đến như những hộp đen và cung cấp những dự đoán có thể giải thích được mà một nhiệm vụ đầy thách thức Vì các mạng học sâu thường có nhiều lớp tính toán, mỗi lớp lại đảm nhận một nhiệm vụ khác nhau, và dữ liệu đầu vào thường lớn nên việc giải thích kết quả đầu ra thường gặp nhiều khó khăn

• Yêu cầu về dữ liệu(Data requirement) một trong những yếu tố bắt buộc khi chúng ta muốn sử dụng các mạng học sâu là chúng ta cần có được một nguồn dữ liệu lớn, để đảm bảo đủ thông tin trong quá trình huấn luyện cũng như kiểm tra các mạng, điều này đã từng là một trong những hạn chế nhưng ở thời điểm hiện tại chúng ta có thể có những nguồn dữ liệu đủ lớn hoặc có thể giả lập dữ liệu để đáp ứng cho các mạng nên hạn chế này sẽ không còn là rào cản quá lớn khi chúng ta muốn sử dụng các mạng học sâu

• Điều chỉnh mở rộng các siêu tham số (Extensive hyperparameter tuning) kết quả cuối cùng trong việc sử dụng các mạng học sâu là tìm ra được các siêu tham số, nhưng giữa quá trình huấn luyện để tìm ra các siêu tham số và việc sử dụng các mạng trong mô hình thực tế chúng ta cần có những bước hiệu chỉnh các siêu tham số này, điều này sẽ tốn nhiều thời gian, chi phí cũng như ảnh hưởng rất lớn đến kết quả khi sử dụng

3.2 Mạng học sâu Neural Collaborative Filtering

Trước khi đi vào tìm hiểu mạng học sâu NCF(Neural Collaborative Filtering), chúng ta sẽ tìm hiểu về một phương thức có thể xem là tiền thân của NCF là bộ lọc cộng tác(Collaborative Filtering) [12]

Sử dụng đồng thời các điểm tương đồng giữa người dùng và sản phẩm để đưa ra các đề xuất Điều này cho phép các đề xuất ngẫu nhiên, nghĩa là các bộ lọc cộng tác có thể đưa ra các đề xuất các sản phẩm cho người dùng A dựa trên sở thích của

Trang 25

Để xây dựng ma trận thừa số mô hình sẽ học từ:

dùng có mức ưu tiên chọn loại phim nào hơn, cột hai thể hiện bộ phim này mức độ

ứng từng bộ phim, đi theo hàng thì hàng thứ nhất là phân biệt thể loại phim, hàng thứ hai là phân biệt người lớn hay trẻ em

Trang 26

Ma trận thừa số sẽ được tính bằng cách thực hiện phép nhân 𝑃𝑄𝑇 Ví dụ:

trong đó K là số chiều của vector tiềm ẩn của người dùng và sản phẩm

Ma trận thừa số mô hình hóa sự tương tác hai chiều giữa người dùng và sản phẩm Các yếu tố tiềm ẩn và từng chiều của không gian tiềm ẩn độc lập với nhau và kết hợp tuyến tính chúng với cùng trọng số Như vậy, ma trận thừa số có thể được coi là mô hình tuyến tính của các yếu tố tiềm ẩn

Về ưu điểm

• Như trình bày ở trên ma trận thừa số hoàn toàn được xây dựng từ các phép nhân tuyến tính giữa các tham số, nên không yêu cầu mức độ tính toán cao, tốc độ sẽ được tối ưu Đồng thời ma trận thừa số cũng giúp đưa ra các dự đoán chính xác về sản phẩm tương tự, vì dựa hoàn toàn vào điểm tương tác của khách hàng đối với các sản phẩm tương tự

Về nhược điểm

• Khi số lượng tương tác của khách hàng với từng sản phẩm không được cao, dẫn đến, ma trận thừa số sẽ bị thưa, lúc này ma trận thừa số sẽ không còn hoạt động tốt

• Vì cách tính quá đơn giản nên, ma trận thừa số cũng sẽ không có khả năng tổng quát đổi với những tập dữ liệu lớn và có tính phức tạp cao.

Trang 27

Hình 3.2 Hạn chế của ma trận thừa số [16]

Như ma trận bên trái của hình 3.2, theo lịch sử giao dịch, chúng ta có thể thấy User_4 sẽ tương đồng nhiều nhất với User_1, tiếp đến là User_3 và cuối cùng là User_2 Nhưng khi được biểu diễn trong không gian ẩn như đồ thị bên trái hình 3.2, vì User_2 và User_3 có điểm tương đồng nên khi biểu diễn trên không gian ẩn sẽ

cho 𝑝4 gần 𝑝2 hơn 𝑝3, hoặc nếu đặt 𝑝4 lên trên cùng thì 𝑝4 là không gần 𝑝2 và 𝑝3, các trường hợp này đều không mô tả đúng mối quan hệ của các User theo thức tế

Để giải quyết các hạn chế của mạ trận thừa số, mạng NCF được ra đời

Trang 28

Hình 3.3 Kiến trúc mạng NCF [12]

Tổng quan về kiến trúc mạng của NCF được chia thành hai thành phần chính: • Thành phần tuyến tính là lớp GMF( Generalized Matrix Factorization) là phép nhân ma trận giữa ma trận tương tác User(người dùng) và Item(sản phẩm), nhằm tìm ra các mối quan hệ giữa User, Item

• Thành phần phi tuyến bao gồm các lớp MLP(mulit-layer perceptron) xếp chồng lên nhau, các lớp MLP này có mục đích giúp model học được các mối quan hệ ẩn, phức tạp thông qua các hàm phi tuyến Và vì đầu vào chỉ có giá trị User và Iteam nên các lớp MLP còn giúp model tăng tính cá nhân hóa, đây cũng là một điểm nổi bật của mạng NCF

Cuối cùng hai thành phần này sẽ được kết hợp với nhau và huấn luyện chung để tối ưu các tham số trong quá trình huấn luyện

Chi tiết mạng NCF được chia thành 4 layers để thực hiện bộ lọc cộng tác sử dụng mạng neural

• Input layer : Đầu vào sẽ nhận vector thưa được mã hóa dưới dạng one-hot của

thì vector one-hot của người dùng thứ 3 (User_3) và sản phẩm thứ 5 (Item_5) lần lượt

Trang 29

• Neural CF Layer : sử dụng kiến trúc mạng học sâu để ánh xạ các vector tiềm ẩn của các điểm dự đoán

• Output layer : lớp đầu ra, đưa ra các dự đoán với giá trị 0 và 1 Với giá trị 0 thể hiện các sản phẩm không được ưu thích, và 1 là các sản phẩm được ưa thích

3.3 Học sâu và rộng trong hệ thống đề xuất (Wide and Deep Learning for Recommender System)

Thông thường các mô hình phi tính, sử dụng các phép biến đổi phi tuyến được sử dụng rộng rãi trong các bài toán hồi quy lớn, hay bài toán phân loại với dữ liệu đầu vào thưa Trong hệ thống đề xuất, việc ghi nhớ, và việc tổng quát hóa khi sử dụng các mô hình tuyến tính đòi hỏi nhiều hơn các kỹ thuật về kỹ thuật tính năng(feature engineering)

Với mạng học sâu, sử dụng ít các kỹ thuật tính năng, nhưng vẫn có khả năng tổng quát hóa tốt hơn những thuộc tính không nhìn thấy được, bằng cách thông qua các phép nhúng dày đặc chiều thấp để học các đại lượng thưa thớt

Một thách thức trong hệ thống đề xuất là khả năng ghi nhớ (memorization) và khả năng tổng quát hóa (generalization)

Các đề xuất dựa trên ghi nhớ thường mang tính thời sự hơn và liên quan trực

Trang 30

tiếp đến các mặt hàng mà người dùng đã có các hành động đã thực hiện So với ghi nhớ, khái quát hóa có xu hướng cải thiện tính đa dạng của các mục được đề xuất

Ví dụ: Người dùng A nghe nhiều podcast và thích nghe nhạc rock Người dùng B là một người dùng mới, thích nghe nhạc R&B, hệ thống sẽ ghi nhớ mẫu nhạc rock và podcast là hai thể loại nhạc thường được ưu thích cùng nhau, nên hệ thống sẽ đề xuất cho người dùng B nhạc podcast

Nhưng trong thực tế, đôi khi chúng ta không gắn nhãn đầu vào thích hợp, do đó chúng ta tổng quát hóa quá đầu vào dữ liệu để đưa kết quả đầu ra thích hợp Quá trình tổng quát và ghi nhớ, giúp model đưa ra kết quả nhanh hơn và độ tin cậy cao hơn

Khả năng ghi nhớ (memorization) là khả năng học mềm dẻo để định nghĩa sự liên kết của sự xuất hiện thường xuyên giữa các sản phẩm hay các đặc điểm của sản phẩm và khai thác các mối tương quan có sẵn trong dữ liệu lịch sử Trong quá trình ghi nhớ, model sẽ sử dụng mô hình tuyến tính cơ bản (Logistic Regression Model) để dự đoán kết quả đầu ra với tất cả các tập dữ liệu cụ thể được cung cấp

Khả năng khái quát hóa (generalization) dựa trên tính nhạy cảm của sự tương quan và khám phá các tính năng mới chưa bao giờ hoặc hiếm xảy ra trong quá khứ

Trong quá trình tạo ra sự tổng quát, model sẽ sử dụng mạng neural phức tạp với nhiều lớp (layer) ẩn để tạo dự đoán kết quả đầu ra bao gồm cả sự không đồng nhất nặng nề và các hệ quả hỗn loạn

Hình 3.4 Kiến trúc của mạng học rộng và sâu cho hệ thống đề xuất [17]

• Thành phần rộng (The Wide component)

Là thành phần bên trái trong hình 3.4 Mô hình tuyến tính tổng quát có dạng: y = 𝑤𝑇𝑥 + 𝑏 , trong đó y là dự đoán, x = [x1, x2, x3,… ] là vector đặc trưng d,

Trang 31

Bộ đặc trưng bao gồm các đặc trưng của dữ liệu đầu vào, và các đặc trưng chuyển đổi Một trong những đặc trưng quan trọng là: chuyển đổi sản phẩm chéo

(cross-product transformation) [17] được biểu diễn trong công thức số (5):

∅ 𝑥(𝑥) = ∏𝑑𝑖=1𝑥𝑖𝑐𝑘𝑖 𝑐𝑘𝑖 ∈ {0,1} (5)

k-th của của ∅ 𝑥 được thực hiện và ngược lại

• Thành phần sâu (The Deep component)

Là sơ đồ chính giữa trong hình 3.4 Một mạng neural truyền thẳng, đối với các đặc điểm phân loại, các đầu vào ban đầu sẽ là các chuỗi đặc điểm Với mỗi thành phần đầu vào, các đặc điểm phân loại với số chiều cao, sẽ được chuyển đổi về số chiều thấp hơn và có dạng là một vector số thực, thông thường sẽ được gọi là vector nhúng Số chiều của các vector nhúng thông thường sẽ từ O (10) đến O(100)

Các vector nhúng sẽ được thiết lập một cách ngẫu nhiên và sẽ được cập nhật trong quá trình huấn luyện Các vector này được tính toán trong các lớp ẩn của mạng neural theo công thức số (6):

𝑎(𝑙+1) = 𝑓(𝑊𝑙 𝑎(𝑖)+ 𝑏(𝑙)) (6)

Trong đó: • l là số layer

• f là hàm activation thông thường là các hàm ReLUs

• 𝑎(𝑙), 𝑊𝑙, 𝑏(𝑙) là những activations, bias, và trọng số của layer

Trang 32

• Mô hình huấn luyện

Hình 3.5 Cấu trúc của mạng học rộng và sâu cho ứng dụng đề xuất [16]

Thành phần rộng bao gồm các phép biến đổi chéo về các sản phẩm được thực hiện trong quá khứ và các sản phẩm có quan tâm Thành phần sâu sẽ bao gồm các vector nhúng với số chiều là 32 để học cho các thể loại đặc điểm Sử dụng vector với số chiều là 32 tạo ra sự cân bằng giữa độ phức tạp và hiệu quả Vector 32 chiều cung cấp đủ khả năng nắm bắt được mối quan hệ và mẫu có ý nghĩa trong dữ liệu trong khi vẫn đảm bảo quản lý được các yêu cầu bài toán

3.4 Các thuật toán sử dụng trong phân cụm người dùng

Để thực hiện kiểm tra khả năng tổng quát của mạng học sâu WD, đầu tiên cần phải tiến hành phân cụm được khách hàng dựa vào những đặc điểm, thuộc tính đang có

Các thuộc tính liên quan đến người dùng và sản phẩm trong tập dữ liệu đang được sử dụng là rất nhiều, vì vậy để đảm bảo quá trình phân cụm khách hàng được nhanh chóng hơn, chính xác hơn, đề tài sẽ thực hiện kết hợp hai thuật toán phổ biến là PCA(Principle Component Analysis), và K-Means

Việc kết hợp giữa PCA và K-Means trong bài toán phân cụm sẽ đem lại những lợi ích:

• Thu giảm số chiều: PCA sẽ giảm kích thước của tập dữ liệu bằng cách chuyển

Trang 33

đổi nó thành không gian có số chiều thấp hơn trong khi vẫn duy trì nhiều phương sai càng tốt Điều này làm giảm độ phức tạp của thuật toán phân cụm K-Means và cải thiện hiệu suất của nó bằng cách tập trung vào các tính năng quan trọng nhất

• Cải thiện khả năng tách cụm: PCA có thể giúp xác định các tính năng mạng lại nhiều thông tin nhất, giúp phân tách tốt hơn giữa các cụm Điều này có thể dẫn đến các cụm khác biệt và có ý nghĩa hơn khi được sử dụng kết hợp với K-Means

• Giảm nhiễu: PCA có thể giúp giảm tác động của nhiễu và các tính năng không liên quan trong tập dữ liệu, điều này có thể cải thiện được chất lượng các cụm được hình thành bởi K-Means

3.4.1 Thu giảm số chiều sử dụng thuật toán PCA (Principal Component Analysis)

Phương pháp Principle Component Analysis (PCA), đây là một thành tựu của toán học mà ngày nay được ứng dụng trong rất nhiều lĩnh vực: công nghệ thông tin, sinh học, tài chính, và công nghệ thực phẩm

Với dữ liệu cần phân tích ban đầu phụ thuộc nhiều biến, vấn đề là các biến này thường có tương quan với nhau sẽ bất lợi cho việc áp dụng các biến này để xây dựng các mô hình tính toán, ví dụ như là hồi quy và với số biến giải thích lớn chúng ta sẽ rất khó để có cái nhìn trực quan về dữ liệu

Cách tiến hành phương pháp PCA

Phương pháp PCA sẽ "chiếu" (biểu diễn) dữ liệu đa chiều lên một không gian có cơ sở trực giao, tức nếu ta xem mỗi cơ sở trong không gian mới là một biến thì hình ảnh của dữ liệu gốc trong không gian mới này sẽ được biểu diễn thông qua các biến độc lập (tuyến tính) Vấn đề là nếu chuyển dữ liệu ban đầu sang không gian mới thì những thông tin đáng quan tâm của dữ liệu ban đầu liệu có bị mất? Để giải quyết vấn đề này phương pháp PCA sẽ tìm không gian mới với tiêu chí cố gắng phản ánh được càng nhiều thông tin gốc càng tốt, và thước đo cho khái niệm "thông tin" ở đây là phương sai Một điểm hay nữa là các biến trong không gian mới độc lập, nên ta có thể tính toán được tỷ lệ giải thích phương sai của từng biến mới đối với dữ liệu, điều này cho phép ta cân nhắc việc chỉ dùng số ít các biến để giải thích dữ liệu

Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới (với số

Trang 34

chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể

Hình 3.6 Minh họa phép chiếu [18]

Minh họa PCA: phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về cùng một dữ liệu

- Một ví dụ kinh điển là hình ảnh về con lạc đà như hình 3.7 Cùng là một con lạc đà nhưng nếu nhìn từ bên hông thì ta có được đầy đủ thông tin nhất, trong khi nhìn từ phía trước thì thật khó để nói nó là lạc đà

Ưu điểm của PCA:

• Giúp giảm số chiều của dữ liệu

• Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới

• Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu

Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ

3.4.2 Thuật toán - K_Means Clustering

Đề tài sử dụng thuật toán Means để phân cụm khách hàng, việc sử dụng Means sẽ có một số ưu điểm:

Trang 35

K-• Khả năng diễn giải: K- Means tạo ra kết quả dễ hiệu bằng cách chỉ định mỗi khách hàng vào một cụng được đại diện bởi một tâm Điều này cho phép đề tài hiểu được các nhóm khách hành khác nhau dựa trên những đặc điểm của họ

• Khả năng mở rộng: K-Means có khả năng xử lí hiệu quả các tập dữ liệu lớn với nhiều khác hàng, điều này giúp cho K-Means rất phù hợp đối với các tập dự liệu có khả năng mở rộng nhanh như thương mại điện tử

• Tính đơn giản: K-Means rất dễ triển khai và dễ hiểu, điều này là một lợi thế trong quá trình triển khai thực tế

• Tùy chỉnh: K-Means cho phép khả năng tùy chỉnh số lượng cụm dựa trên nhu cầu thực tiễn và mức độ chi tiết trong quá trình vận hành thực tế

Trong thuật toán k-Means Clustering chúng ta được cung cấp một tập dữ liệu

đầu vào {x1, x2, , xn}, trong đó x ∈ Rd và phân cụm chúng vào những nhóm dữ

liệu có tính chất chung Điểm đặc biệt của tập dữ liệu này là chúng hoàn toàn chưa được gán nhãn Như vậy k-Means Clustering là một thuật toán thuộc lớp các mô hình học không giám sát (Unsupervised Learning)

Trong thuật toán k-Means clustering mỗi cụm dữ liệu được đặc trưng bởi một

tâm (centroid) Tâm là điểm đại diện nhất cho một cụm và có giá trị bằng trung bình

của toàn bộ các quan sát nằm trong cụm Chúng ta sẽ dựa vào khoảng cách từ mỗi

quan sát tới các tâm để xác định nhãn cho chúng trùng thuộc về tâm gần nhất Ban

đầu thuật toán sẽ khởi tạo ngẫu nhiên một số lượng xác định trước tâm cụm Sau đó tiến hành xác định nhãn cho từng điểm dữ liệu và tiếp tục cập nhật lại tâm cụm Thuật toán sẽ dừng cho tới khi toàn bộ các điểm dữ liệu được phân về đúng cụm hoặc số lượt cập nhật tâm chạm ngưỡng

Cụ thể các bước của thuật toán k-Mean Clustering được tóm tắt như sau:

1 Khởi tạo ngẫu nhiên k tâm cụm µ1, µ2, , µk

2 Lặp lại quá trình cập nhật tâm cụm cho tới khi dừng:

cij = arg𝑚𝑖𝑛𝑗∥xi − µj∥ (7)

b Tính toán lại tâm cho từng cụm theo trung bình của toàn bộ các điểm dữ liệu trong một cụm

Trang 36

𝜇𝑗 = ∑ 1(𝑐𝑛 𝑖 = 𝑗 )𝑥𝑖

∑ 1(𝑐𝑛𝑖 𝑖 = 𝑗) (8)

Trong thuật toán trên, tham số mà chúng ta cần lựa chọn chính là số lượng

cụm k Thời điểm ban đầu, ta sẽ khởi tạo ngẫu nhiên k điểm dữ liệu một cách ngẫu nhiên và sau đó gán các tâm bằng giá trị của k điểm dữ liệu này Các bước trong

vòng lặp ở bước 2 thực chất là:

a Gán nhãn cho mỗi điểm dữ liệu bằng với nhãn của tâm cụm gần nhất

Dịch chuyển dần dần tâm cụm µj tới trung bình của những điểm dữ liệu mà

được phân về j

Hình 3.7 Mô phỏng thuật toán k-Means [19]

Sự dịch chuyển tâm của cụm sau mỗi vòng lặp được mô phỏng qua hình 3.8 Thời điểm ban đầu hai tâm cụm được khởi tạo một cách ngẫu nhiên Sau đó sau mỗi vòng lặp thì các nhãn được cập nhật lại tuỳ theo vị trí của chúng đối với tâm cụm Tiếp tục cập nhật lại tâm cụm theo các nhãn dữ liệu mới Cuối cùng thì thuật

Ngày đăng: 30/07/2024, 16:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN