MỤC LỤC
• Machine Learning và Deep Learning: những thuật toán này có thể xử lý lượng lớn dữ liệu, tìm hiểu các mô hình và mối quan hệ phức tạp có trong tập dữ liệu bằng cách huấn luyện mô hình trên dữ liệu lịch sử. • Deep Neural Networks for Click-Through Rate (CTR) Prediction: Hệ thống có thể ước tính khả năng người dùng nhấp chuột vào một mục cụ thể bằng cách huấn luyện các mô hình này trên dữ liệu nhấp chuột lịch sử.
• Yêu cầu về dữ liệu(Data requirement) một trong những yếu tố bắt buộc khi chúng ta muốn sử dụng các mạng học sâu là chúng ta cần có được một nguồn dữ liệu lớn, để đảm bảo đủ thông tin trong quá trình huấn luyện cũng như kiểm tra các mạng, điều này đã từng là một trong những hạn chế nhưng ở thời điểm hiện tại chúng ta có thể có những nguồn dữ liệu đủ lớn hoặc có thể giả lập dữ liệu để đáp ứng cho các mạng nên hạn chế này sẽ không còn là rào cản quá lớn khi chúng ta muốn sử dụng các mạng học sâu. • Điều chỉnh mở rộng các siêu tham số (Extensive hyperparameter tuning) kết quả cuối cùng trong việc sử dụng các mạng học sâu là tìm ra được các siêu tham số, nhưng giữa quá trình huấn luyện để tìm ra các siêu tham số và việc sử dụng các mạng trong mô hình thực tế chúng ta cần có những bước hiệu chỉnh các siêu tham số này, điều này sẽ tốn nhiều thời gian, chi phí cũng như ảnh hưởng rất lớn đến kết quả khi sử dụng. Các thuộc tính liên quan đến người dùng và sản phẩm trong tập dữ liệu đang được sử dụng là rất nhiều, vì vậy để đảm bảo quá trình phân cụm khách hàng được nhanh chóng hơn, chính xác hơn, đề tài sẽ thực hiện kết hợp hai thuật toán phổ biến là PCA(Principle Component Analysis), và K-Means.
Một điểm hay nữa là các biến trong không gian mới độc lập, nên ta có thể tính toán được tỷ lệ giải thích phương sai của từng biến mới đối với dữ liệu, điều này cho phép ta cân nhắc việc chỉ dùng số ít các biến để giải thích dữ liệu. • Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới.
Như trình bày ở trên, nhu cầu, sở thích của người dùng sẽ rất khác nhau và còn có thể thay đổi theo thời gian, nên đề tài đề xuất một số phương pháp đánh giá linh động hơn, đó là sử dụng giá trị NDCG (Normalized Discounted Cumulative Gain) [22] để đo chất lượng xếp hạng trong vị trí sản phẩm được đề xuất với vị trí xếp hạng được người dùng thực hiện và phương pháp đánh giá độ tổng quát. Thông thường khi sử dụng NDCG, chúng ta sẽ không sử dụng toàn bộ danh sách mà chỉ dừng lại ở vị trí nhất định, vị trí này được gọi là K. • Trước khi tính DCG chúng ta sẽ tính cumulative gain (CG). CG là là thước đo mức độ liên quan tổng thể của danh sách được xếp hạng. Nó tổng hợp điểm liên quan của từng mục trong danh sách được đề xuất. Tương ứng với danh sách B cũng có CG là 3. DCG sử dụng hàm logarithmic để hạ thấp các sản phẩm liên quan mà có thứ tự thấp trong danh sách theo công thức:. Trong đó 𝑟𝑒𝑙𝑖 là điểm tương quan tại vị trí thứ i của sản phẩm. Tương tự như DCG, IDCG được tính trên danh sách thực mà người dùng đã thực hiện. Khi áp dụng phương pháp này, cho phép chúng ta đánh giá được một cách mềm mại hơn, và có thể đi chi tiết theo từng người dùng. Phương pháp đánh giá độ tổng quát của model WD. Trong nghiên cứu này, đề tài thực hiện mạng WD, theo cơ sở lí thuyết, mạng WD có khả năng tổng quát hoá người dùng. Nghĩa là mô hình có thể đề xuất được không chỉ những sản phẩm đã được ưu thích nhất trên toàn tập dữ liệu, mà còn có thể. đề xuất được các sản phẩm mà nhóm người dùng có cùng chung đặc điểm đang quan tâm. Để kiểm chứng khả năng này, đề tài đề xuất phương pháp bao gồm các bước như sau:. 1) Dựa trên tập dữ liệu hiện hữu, tiến hành phân cụm khách hàng, các đặc điểm dùng để phân cụm khách hàng sẽ tương ứng với các giá trị đầu vào của thành phần Deep. 2) Sau khi gom cụm được khách hàng, tiến hành tìm kiếm danh sách các sản phẩm được ưu thích hay được sử dụng nhiều nhất trong từng cụm, ở đây đề tài sẽ truy vấn danh sách của 200 sản phẩm được ưa thích nhất. Tạm gọi tập dữ liệu này là tập dữ liệu I. 3) Sử dụng 500 Users ngẫu nhiên của từng cụm, cho qua model để dự đoán kết quả, chọn ra 70 sản phẩm có điểm dự đoán cao nhất của từng Users( tạm gọi là tập dữ liệu II), tiến hành kiểm tra mức độ giao thoa của tập dữ liệu I và II, điều này có nghĩa là chúng ta sẽ kiểm tra model có thể dự đoán được bao nhiêu sản phẩm đang được ưu thích trong từng cụm.
Ngoại trừ giá trị đầu vào là CustomerID và ProductID đã được chuyển hóa thành các vector số chiều thấp bằng lớp embedding( Block 2) , thành phần Deep sẽ sử dụng các thuộc tính <GeographyKey( địa chỉ), MaritalStatus( tình trạng hôn nhân), Gender( giới tính), YearlyIncome( thu nhập), Education( học vấn), Occupation( nghề. Thành phần Wide, các giá trị CustomerID và ProductID sẽ được chuyển đổi thành lớp tuyến tính <Block 5), kết hợp với các lớp phi tuyến <GeographyKey (địa chỉ), MaritalStatus (tình trạng hôn nhân), Gender (giới tính), YearlyIncome (thu nhập), Education (học vấn), Occupation (nghề nghiệp)> ( Block 6), sau đó được kết hợp lại với nhau thông qua lớp Concatenate (Block 7) đây là điểm cải tiến như đã trình bày trong chương 4.1. WD đề tài sử dụng các thuộc tính <GeographyKey (địa chỉ), MaritalStatus (tình trạng hôn nhân), Gender (giới tính), YearlyIncome (thu nhập), Education (học vấn), Occupation (nghề nghiệp)> , chính các giá trị này đã làm tăng tính tổng quát, đồng thời làm giảm tính cá nhân hóa dẫn đến giá trị NDCG của model thấp hơn. Áp dụng phương pháp đánh giá tổng quát. Lúc này thuộc tính về của từng người dùng sẽ được hiển thị trên một hàng duy nhất. Hình 5.20 Số thành phần theo tổng phương sai. Số thành phần sẽ được chọn tại vị trí tổng phương sai đạt 80% và số thành phần được chọn là 6. 3) Tiến hành dùng giải thuật K-Means trên tập dữ liệu mới này tiến hành phân cụm khách hàng. Để chọn được số cụm phù hợp nhất đề tài sẽ dùng chạy mẫu trên 15 cụm với hai giá trị WCSS là tổng phương sai giữa các cụm quan sát được, đo khoảng cách giữa mỗi quan sát, trọng tâm và tính toán chênh lệch bình phương giữa hai quan sát và silhouette score (độ đo bóng).
Đối với mạng NCF sẽ thích hợp với các lĩnh vực không cần tính phân hóa cao như các trang thông tin, giải trí như âm nhạc, phim ảnh hay sách, cần tối ưu hóa cho việc đề xuất các sản phẩm đang được thịnh hành nhất và hướng đến cá nhân hóa người dùng,. Còn đối với WD sẽ phù hợp với lĩnh vực như thương mại điện tử, đồ uống, thức ăn nơi có đa dạng sản phẩm, thể loại, cần đề xuất những sản phẩm mang tính tổng quát hóa từ những người dùng có cùng sở thích, để tăng tỷ lệ mua hàng, tránh đề xuất những sản phẩm không liên quan, hoặc không đúng nhu cầu của khách hàng.
Bên cạnh đó, các mạng học sâu còn khả năng tổng hợp được những đặc tính nổi bật từ nguồn dữ liệu lớn, từ đó có thể phát triển những bài toán phân tích dữ liệu liên quan đến tình hình kinh doanh, hành vi khách hàng hay dự đoán tình hình kinh doanh trong tương lai. Từ đó cung cấp cho các nhà quản lí, doanh nghiệp những góc nhìn khách quan, giúp họ chủ động trong việc phát triển các chiến lược. Bên cạnh những ưu điểm thì việc áp dụng các mạng học sâu cũng đòi hỏi các nhà quản lí và doanh nghiệp cần có những hướng tiếp cận khoa học, và những bước chuẩn chỉnh, lộ trình rừ ràng, bài bản, khụng chỉ vờ̀ cơ sở hạ tõ̀ng với những siờu mỏy tính có thể thực hiện tính toán, đội ngũ nhân sự, nếu không sẽ không phát huy được hết các thế mạnh của các mạng học sâu.