Mả ẩ ỗi người dùng s có mẽ ức độ quan tâm degree of preference khác nhau đến các s n ph m khác nhau.. Phương pháp này thường đượ các trang thương mại điệ ửc n t s dử ụng.. Ưu điểm của ph
Lý do chọn đề 9 tài 2 M ục đ ích nghiên c u luứ ận văn, đố i tư ợ ng, ph m vi nghiên c u 10ạứ 3 Tóm t ắt nội dung chính
Các phương pháp chính xây dự ng h g i ý 14 ệ ợ Các phương pháp xây dự ng h g i ý 16ệ ợ 2.1 Rating matrix
Hiện nay, sự phát triển mạnh mẽ của các hệ thống gợi ý đã dẫn đến nhiều phương pháp xây dựng hiệu quả Chúng ta có thể phân loại các phương pháp này thành hai nhóm chính để xây dựng hệ thống gợi ý.
Hệ thống dựa trên nội dung là những phương pháp thực hiện việc gợi ý dựa vào hồ sơ của người dùng hoặc dựa vào các nội dung và thuộc tính của những sản phẩm tương tự mà người dùng đã chọn trong quá khứ.
Collaborative Filtering là một phương pháp gợi ý dựa trên sự tương quan giữa các người dùng hoặc các sản phẩm với nhau Phương pháp này cho phép gợi ý sản phẩm cho một người dùng dựa trên hành vi của những người dùng có sở thích tương tự Trong lĩnh vực này, có nhiều phương pháp khác nhau sẽ được thảo luận trong luận văn này.
15 chỉ đề ập đế c n một phương pháp điển hình cho nhóm này đó là phương pháp Neighborhood-based Collaborative Filtering
Ngoài 2 nhóm phương pháp đã kể ở trên, trong th c t còn m t s ự ế ộ ố nhóm phương pháp khác cũng đang đượ ử ụng như là:c s d
- Nhóm phương pháp lai ghép (Hybrid recommendation Systems) [9] Nhóm phương pháp này được th c hi n b ng cách k t h p c ự ệ ằ ế ợ ả 2 phương pháp trên.
Nhóm phương pháp không cá nhân hóa (non personalize) là phương pháp đơn giản, trong đó các gợi ý sản phẩm không dựa trên thông tin cá nhân của người dùng mà dựa vào những sản phẩm đang được quan tâm gần đây, như sản phẩm bán chạy, được tìm kiếm nhiều hoặc có đánh giá cao Ưu điểm của phương pháp này là không cần thông tin hay lịch sử sử dụng của người dùng, nhưng nhược điểm là các sản phẩm được gợi ý thường giống nhau, dẫn đến hiệu quả gợi ý không cao Mặc dù phương pháp này được áp dụng rộng rãi trên các trang thương mại điện tử hiện nay, nhưng do tính chất đơn giản của nó, sẽ không được nghiên cứu chi tiết trong luận văn này.
Hình 3 Gợi ý sản phẩm được tìm ki m nhi u nh t c a Lazada ế ề ấ ủ
Các phương pháp xây dự ng h g i ý ệ ợ
Trong bài viết này, chúng ta sẽ nghiên cứu hai phương pháp chính thuộc hai nhóm: Hệ thống dựa trên nội dung (Content-based System) và Lọc cộng tác (Collaborative Filtering) Mục tiêu là tìm ra phương pháp cơ bản để xây dựng hệ thống gợi ý, so sánh độ chính xác giữa các phương pháp và phân tích các yếu tố ảnh hưởng đến độ chính xác của quá trình gợi ý.
Trước khi khám phá hai phương pháp xây dựng hệ thống gợi ý, chúng ta cần tìm hiểu về một thành phần quan trọng không thể thiếu, đó là ma trận đánh giá (Rating matrix) Ma trận đánh giá đóng vai trò quyết định trong việc cải thiện độ chính xác và hiệu quả của hệ thống gợi ý.
Dữ liệu chính là một thành phần không thể thiếu trong các hệ thống học máy nói chung và đặc biệt là hệ gợi ý Việc thu thập dữ liệu cũng rất quan trọng, và một trong những cách tổ chức dữ liệu thường được sử dụng trong các hệ gợi ý là ma trận đánh giá (hay còn gọi là ma trận tiện ích) Do đó, trong phần này, chúng ta sẽ đề cập đến khái niệm và cách xây dựng ma trận đánh giá.
Trong các hệ thống gợi ý đề xuất, có hai loại thực thể chính là người dùng (user) và sản phẩm (item), với mỗi người dùng có mức độ quan tâm khác nhau đến các sản phẩm khác nhau Mức độ quan tâm này được gán cho mỗi cặp người dùng-sản phẩm tương ứng một giá trị, thường được xác định dựa trên tập dữ liệu huấn luyện.
Mức độ quan tâm của người dùng được đo bằng giá trị đánh giá sản phẩm, thường là từ 1 đến 5 sao trên các trang thương mại điện tử Người dùng thường chỉ
Có 17 giá trị đánh giá, bao gồm các giá trị đã xác định và chưa xác định, cần được dự đoán trong một ma trận được gọi là ma trận đánh giá (rating matrix).
Trong ví dụ này, chúng ta có 4 người dùng A, B, C và D, cùng với 7 bộ phim bao gồm Harry Poster phần 1 (HP1), Harry Poster phần 2 (HP2), Harry Poster phần 3 (HP3), Twilight (TW), Star Wars 1 (SW1), Star Wars 2 (SW2) và Star Wars 3 (SW3) Các giá trị đánh giá của người dùng cho mỗi bộ phim được thể hiện bằng thang điểm từ 1 đến 5 sao, phản ánh mức độ yêu thích của họ đối với từng bộ phim Ma trận đánh giá (Rating matrix) sẽ hiển thị các giá trị đánh giá của người dùng cho các bộ phim này trong bảng bên dưới.
Rating matrix th ểhiện đánh giá của người dùng với các bộ phim
Trong ví dụ trên, các ô trống đại diện cho những giá trị chưa được xác định, tương ứng với việc người dùng chưa đánh giá bộ phim Nhiệm vụ của mô hình gợi ý là dự đoán các giá trị cho những ô này, từ đó cung cấp gợi ý phù hợp cho người dùng.
Không có Rating Matrix, việc gợi ý sản phẩm đến người dùng gần như không thể thực hiện được Vì vậy, trong các hệ thống gợi ý, việc xây dựng Rating Matrix là cực kỳ quan trọng.
Việc xây dựng ma trận đánh giá trong quá trình phát triển sản phẩm gặp nhiều khó khăn do người dùng thường không đánh giá hoặc ít quan tâm đến sản phẩm Để xác định giá trị và mức độ quan tâm của người dùng đối với sản phẩm, có hai phương pháp phổ biến được áp dụng để xây dựng ma trận đánh giá.
Phương pháp trực tiếp để thu thập đánh giá từ người dùng là một chiến lược phổ biến trong thương mại điện tử, nơi người dùng được yêu cầu đánh giá sản phẩm mà họ đã sử dụng Ưu điểm của phương pháp này là dễ thực hiện và có thể thu thập nhanh chóng, nhưng cũng tồn tại nhiều nhược điểm Người dùng thường ít khi để lại đánh giá, dẫn đến lượng thông tin thu thập không đáng kể Hơn nữa, việc yêu cầu người dùng đánh giá có thể gây khó chịu, và giá trị của các đánh giá này thường mang tính chủ quan Một nhược điểm khác là thời gian dành cho việc thu thập đánh giá có thể kéo dài.
Neighborhood -based Collaborative Filtering
Nhược điểm của các hệ thống dựa trên nội dung (Content-based Systems) là không thể tận dụng thông tin từ người dùng khác, điều này làm giảm hiệu quả trong việc dự đoán sở thích, đặc biệt trong các tình huống như mua sắm, nơi nhóm người dùng có hành vi tương tự thường chọn những sản phẩm giống nhau Hơn nữa, việc xây dựng hồ sơ sản phẩm hoặc hồ sơ người dùng gặp khó khăn khi không có dữ liệu cụ thể, vì không phải người dùng nào cũng sẵn lòng cung cấp thông tin, và nếu có, thường mang tính cá nhân và thiếu khách quan Để khắc phục những hạn chế này, phương pháp Lọc Hợp tác Dựa trên Khu vực (Neighborhood-based Collaborative Filtering - NBCF) đã được phát triển nhằm cải thiện khả năng dự đoán bằng cách sử dụng trực tiếp ma trận đánh giá.
2.3.1 Cơ sở lý thuy t ế Ý tưởng cơ bản của NBCF là xác định mức độ quan tâm c a mủ ột người dùng t i ớ m t s n ph m dộ ả ẩ ựa trên các người dùng khác có hành vi “gần giống” với người dùng hi n ệ t i Mạ ức độ ầ g n gi ng giố ữa các người dùng có th ể được xác định thông qua mức độ quan tâm của các người dùng t i các s n ph m mà h ớ ả ẩ ệ thống đã biết (các giá tr ị đã được xác định trong rating matrix)
Như vậy để xây dựng được m t h ộ ệ thống Neighborhood-based Collaborative Filtering, ta c n gi i quyầ ả ết được 2 vấn đề chính sau đây:
- Làm th ế nào để xác định được mức độ g n gi ng nhau giầ ố ữa hai người dùng?
Khi đã xác định được các người dùng tương tự, cần áp dụng các phương pháp để dự đoán mức độ quan tâm của một người dùng đối với một sản phẩm cụ thể Việc này giúp tối ưu hóa trải nghiệm người dùng và tăng cường hiệu quả tiếp thị.
Việc giải quy t 2 vấn đề này s ế ẽ được trình bày trong 2 phần dưới đây.
2.3.1.1 Hàm tương tự - Similarity functions
Vấn đề quan trọng đầu tiên trong việc giải quyết mối quan hệ giữa hai người dùng trong NBCF là xác định sự tương đồng giữa họ Dữ liệu duy nhất mà chúng ta có để thực hiện điều này là ma trận đánh giá (rating matrix), do đó, việc phân tích và sử dụng dữ liệu này là rất cần thiết.
Xây dựng một hàm nhận đầu vào là hai vector cột tương ứng của hai người dùng trong ma trận đánh giá, và trả về m giá trị thể hiện mức độ tương tự giữa hai người dùng này.
Ta kí hi u: ệ sim(u 1 ,u 2 )là hàm tương tự (similarity functions) của 2 người dùng u 1 và u 2
Nếu hai người dùng u_i và u_j cùng quan tâm đến một sản phẩm, thì độ tương tự giữa họ phải cao hơn so với những người dùng u_k khác không quan tâm đến sản phẩm đó.
) , ( ) , (u i u j simu i u k sim với k ≠ i, j: Y k , m không xác định
Câu hỏi quan trọng là hàm tương tự nào là tốt nhất để đo độ tương tự giữa hai người dùng Để thực hiện điều này, cần xây dựng một vector đặc trưng cho mỗi người dùng và áp dụng một hàm số để đo độ tương tự giữa các vector này Tuy nhiên, khác với hệ thống dựa trên nội dung, chúng ta không có hồ sơ người dùng mà chỉ có ma trận đánh giá, do đó không thể sử dụng hồ sơ người dùng mà phải dựa vào vector cột của người dùng trong ma trận đánh giá Một vấn đề phát sinh là ma trận đánh giá thường thiếu nhiều giá trị, dẫn đến vector cột của người dùng cũng sẽ thiếu sót, gây khó khăn trong việc xây dựng vector đặc trưng Do đó, cần thực hiện một bước chuẩn hóa để điền đầy đủ các giá trị vào vector cột của người dùng, tức là việc lấp đầy ma trận đánh giá.
Khi điền giá trị vào vector của người dùng, điều đầu tiên thường nghĩ đến là chèn giá trị 0 vào các vị trí còn thiếu Tuy nhiên, việc này không hoàn toàn chính xác, vì giá trị mặc định ở những vị trí này có thể không phản ánh đúng sự quan tâm của người dùng đối với sản phẩm Thực tế, điều này chỉ đơn giản là do chúng ta chưa thu thập được thông tin đầy đủ về mức độ quan tâm của họ.
Để đảm bảo giá trị sản phẩm hợp lý, việc điền giá trị trung bình của các giá trị đã xác định vào những vị trí còn thiếu là cần thiết Điều này giúp người dùng có cái nhìn rõ ràng hơn về giá trị thực của sản phẩm.
Quy trình lấp đầy giá trị còn thiếu trong đánh giá phim sẽ thực hiện việc tính toán giá trị trung bình cho các vị trí chưa được xác định, dựa trên các giá trị đã được người dùng xác định Các giá trị đã xác định sẽ được bôi đậm, trong khi các giá trị cần điền thêm sẽ được in nghiêng và không bôi đậm.
Rating matrix sau khi điền thêm các giá tr trung bình c ng ị ộ
Người dùng B có xu hướng đánh giá cao với điểm trung bình 4.75, cho thấy họ dễ tính hơn trong việc đánh giá phim Ngược lại, người dùng D lại có điểm trung bình thấp chỉ 2.0, cho thấy họ khó tính hơn Điều này gợi ý rằng người dùng B có thể quan tâm đến nhiều bộ phim khác nhau, trong khi người dùng D dường như không mặn mà với bất kỳ bộ phim nào Để cải thiện độ chính xác của mô hình, cần thực hiện thêm một bước biến đổi để phân loại rõ ràng hơn giữa các người dùng.
Trong quá trình phân tích ma trận tiện ích, chúng ta cần loại bỏ các yếu tố "dễ tính" và "khó tính" Một phương pháp đơn giản thường được áp dụng là thay thế các giá trị trong ma trận đánh giá bằng giá trị trung bình đã được tính toán cho người dùng Nhờ đó, ma trận đánh giá sẽ xuất hiện các giá trị dương, giúp cải thiện độ chính xác trong việc dự đoán sở thích của người dùng.
Bảng 8 dưới đây là bảng các giá tr c a rating matrix sau khi chuị ủ ẩn hóa (đã trừ đi các giá trị trung bình của người dùng):
Rating matrix sau khi đã chuẩn hóa b) Xác định hàm tương tự
Sau khi chuẩn hóa ma trận đánh giá, bước tiếp theo là xác định hàm tương tự giữa các người dùng dựa trên ma trận đã chuẩn hóa Trong phương pháp NBCF, một hàm tương tự phổ biến được sử dụng là cosine similarity.
Trong đó: u 1, u 2 : lần lượt là 2 vector đặc trưng đã được chu n hóa (vector c t) cho 2 ẩ ộ người dùng 1 và 2
37 u 1 T là vector chuyển v cị ủa vector đặc trưng u 1
1 2 u , u 2 2 lần lượt là các norm 2 của 2 vector đặc trưng u 1 và u 2 , được tính theo công thức:
2 1 i i mi i u u u u với u ki là giá trị ở hàng k c a vector cột đặc trưng ủ u i
Giá trị của hàm tương tự sim(u1, u2) nằm trong khoảng [-1, 1], trong đó giá trị 1 biểu thị sự tương đồng hoàn toàn giữa hai người dùng, trong khi giá trị -1 thể hiện sự trái ngược hoàn toàn giữa họ.
Như vậy v i ví d v ớ ụ ề đánh giá phim, ta có bảng giá tr ị tương tự giữa các người dùng như sau:
Giá trị tương tự ủa các ngườ c i dùng
Xây d ng h ự ệ th ố ng g i ý 47 ợ 1 Thu th ậ p d u 48ữliệ 2 Tiề n x ử lý dữ u 49liệ 3 Xây d ng rating matrix 54ự 4 Xây d ng mô hình g i ý 55ựợ 3.3 Kiể m th h ử ệ thố ng 58 3.3.1 Phương pháp kiể m th 58ử 3 K ết quả thử nghi m 59ệ 3.4 Đánh giá hệ thố ng th nghi m 61ửệ
Các bước xây d ng h ự ệ thống g i ý cho bài toán th nghiợ ử ệm như sau:
- Bước 2: Tiền x ửlý dữ u liệ
- Bước 3: Xây d ng rating matrix ự
- Bước 4: Xây d ng mô hình gự ợi ý
3.2.1.1 Phương pháp thu thập dữ u liệ
Có 2 phương pháp thu thập d liữ ệu được áp d ng: ụ
- Phương pháp 1: Khảo sát b ng cách ph ng v n trằ ỏ ấ ực tiếp người dùng
- Phương pháp 2: Khảo sát gián ti p thông qua phi u tr l i online xây d ng trên ế ế ả ờ ự Google Docs
D u thu thữliệ ập được bao gồm:
- Thông tin v ề 106 người dùng: bao g m các thông tin v gi i tinh, tu i, ngh ồ ề ớ ổ ề nghi p, s ệ ởthích.
- Thông tin v 52 loề ại điện thoại đã, đang được s d ng b i nhử ụ ở ững người dùng trên và th i gian sờ ử ụ d ng c a từng điệủ n tho ại.
Dưới đây là thông tin của 5 người dùng đầu tiên đã thu thập được:
Người dùng Gi i tínhớ Tuổi Nghề nghi p ệ Thu nhập S thích ở
1 Nam 27 Nhân viên VP 15.000.000 Đọc sách
2 N ữ 28 Nhân viên VP 20.000.000 Nghe nhạc
4 Nam 28 Nhân viên VP 8.000.000 Chơi game
5 Nam 29 Giáo viên 6.000.000 Thể thao
Thông tin 5 người dùng đầu tiên
Dưới đây là thông tin về điện thoại mà 5 người dùng đã và đang sử dụng, với danh sách các thiết bị được sắp xếp theo thứ tự từ gần đây nhất đến cũ nhất.
Người dùng Điện thoại đang sử ụ d ng Điện thoại đã sử ụ d ng
1 Xiaomi Mi 6 (2 năm) Xiaomi Mi 5S (1 năm), Galaxy S7 (1 năm),
2 Galaxy Note 9 (1 năm) iPhone 7 (1 năm), Galaxy Note 3 (3 năm)
Thông tin về điện thoại đã và đang sử ụ d ng của 5 người dùng đầu tiên
3.2.2.1 Biến đổi d u v dữliệ ề ạng số
Để thực hiện dự đoán chính xác, việc đầu tiên cần làm là số hóa các dữ liệu không đồng nhất Điều này bao gồm việc thu thập và chuẩn hóa các thông tin về giới tính, nghề nghiệp và sở thích Sự chuyển đổi này sẽ giúp cải thiện hiệu quả trong việc phân tích và áp dụng các dữ liệu này vào các ứng dụng thực tế.
Trong việc xác định giới tính, ưu tiên được đặt vào việc sử dụng hai giá trị đại diện cho giới tính: giá trị 1 cho Nam và giá trị 0 cho Nữ Do đó, dữ liệu sẽ được mã hóa theo cách này để dễ dàng xử lý và phân tích.
Nghề nghi p và giá tr ệ ị tương ứng
Với việc thu thập dữ liệu, chúng ta có 7 giá trị khác nhau trên toàn bộ bộ dữ liệu thu thập được Áp dụng phương pháp tương tự như với dữ liệu ngành nghề, chúng ta sẽ đánh số các giá trị thích ứng từ 1 đến 7 và sử dụng giá trị 0 cho trường hợp không thu thập được dữ liệu thích hợp.
Chơi thể thao 5 Đồ công nghệ 6
S thích và giá tr ở ị tương ứng
3.2.2.2 Rời rạc hóa d u tu i ữliệ ổ
Trong t p d ậ ữ liệu đã thu thập được, d u tuữ liệ ổi đã được ở ạ d ng s nguyên và có ố thuộc tính như sau:
Giá trị nh nh t ỏ ấ 16 Giá trị ớ l n nh t ấ 62
Thuộc tính c a giá tr tu i ủ ị ổ
Do giá tr ị tuổi có kho ng phân b rả ố ộng nên để giá tr ị này mang ý nghĩa tổng quát hơn, ta cần th c hi n r i r c hóa trên t p d li u tu i này ự ệ ờ ạ ậ ữ ệ ổ
Người dùng ở độ tuổi trung niên có xu hướng lựa chọn sản phẩm và dịch vụ tương đồng hơn so với những nhóm tuổi khác như thiếu niên hay người già Do đó, việc phân khúc thị trường dựa trên giá trị tuổi tác của người dùng vào các khung độ tuổi khác nhau là rất quan trọng Chúng ta sẽ chia độ tuổi của người dùng thành các nhóm cụ thể để tối ưu hóa chiến lược tiếp thị và đáp ứng nhu cầu của từng nhóm.
4 Cao tu i ổ T 60 tuừ ổi trởlên
Phân chia tu i theo nhóm tu i ổ ổ
3.2.2.3 Biến đổi giá tr thu nh p ị ậ
Giá trị thu nhập hiện tại có sự dao động lớn, với mức tối thiểu là 0 và tối đa là 35.000.000 Do đó, cần phải điều chỉnh giá trị thu nhập để mang lại ý nghĩa sâu sắc hơn và phù hợp hơn với thực tế.
Trong trường hợp này, chúng ta sẽ lựa chọn cách chia thu nhập theo nhóm với khoảng cách giữa các nhóm là 10 triệu đồng Như vậy, ta có công thức để quy đổi mức thu nhập vào các nhóm như sau:
Nhóm thu nhâp 000 000 10 x v i x là m c thu nhâp ớ ứ
Như vậy tr i qua 3 ả bước 3.2.2.1, 3.2.2.2 và 3.2.2.3, các giá tr trong b ng 14 s ị ả ẽ được chuyển đổ ề ại v d ng s ố như ảb ng 20 dưới đây:
Người dùng Giới tính Tuổi Nghề nghiệp Sở thích Thu nhập
Thông tin 5 người dùng đầu tiên sau khi ti n x ề ửlý
3.2.2.4 Chuẩn hóa d ữliệu về điệ n thoại của người dùng
Chúng tôi đã nghiên cứu về dữ liệu điện thoại cá nhân của người dùng, nhận thấy rằng các thông tin này có sự khác biệt rõ rệt giữa từng người Do đó, việc thu thập và phân tích dữ liệu này là rất cần thiết để hiểu rõ hơn về những xu hướng và thói quen sử dụng của từng cá nhân.
Công việc đầu tiên cần thực hiện là sửa đổi tên các điện thoại bằng cách thay tên các điện thoại bằng ID của nó Công việc này giúp đảm bảo tính nhận diện và quản lý tốt hơn cho từng thiết bị.
Sau khi thu thập dữ liệu tên điện thoại, bước tiếp theo là tổ chức dữ liệu để tạo ra các bản ghi nhỏ hơn Các bản ghi này chỉ bao gồm các thông tin cần
Chúng ta sẽ thu thập được các bản ghi dữ liệu người dùng với 4 chiều khác nhau Dưới đây là bảng 19, trình bày dữ liệu sử dụng điện thoại của 5 người dùng đầu tiên sau khi đã chuẩn hóa.
Người dùng Điện thoại Thứ tự sử dụng Thời gian sử dụng
Thông tin sử ụng điệ d n tho i cạ ủa 5 người dùng đầu tiên sau khi chu n hoá ẩ
3.2.3 Xây d ng rating matrix ự Đố ớ ấi v i b t kì h g i ý nào thì vi c xây d ng ệ ợ ệ ự rating matrix đều là không th thi u ể ế được, vì vậy đối v i bài toán th nghiớ ử ệm này chúng ta cũng cần xây dựng được rating matrix t nh ng d ừ ữ ữliệu đã thu thập được. Đầu tiên như rating matrix đã đề ậ ở ục trướ c p m c, rating matrix cho bài toán th ử nghi m s có các hàng là các s n ph m và các cệ ẽ ả ẩ ột là các người dùng Tuy nhiên chúng ta cần đi tìm công thức để chuyển đổi các thông tin t ừ điện tho i và s ạ ố năm sử ụ d ng thành một giá trị ạ d ng s ố Đầu tiên chúng ta đều th y r ng ấ ằ trong trường hợp lý tưởng là vấn đề ề ề v ti n b c ạ không quan tr ng, ọ thì thời gian s dử ụng điện tho i càng dài ch ng t ạ ứ ỏ người dùng càng
“yêu thích” đối v i chiớ ếc điện thoại đó Nên ta có thể gi s mô hình chuyả ử ển đổi dưới d ng ạ sau: n m n m n m w t
Trong đó: n t m , : là thời gian s d ng cử ụ ủa người dùng n với điện tho i m ạ n w m , : là hệ ố tương ứng cho điệ s n tho i m cạ ủa người dùng n
Mô hình hiện tại chưa thể đánh giá chính xác mức độ yêu thích của người dùng theo thứ tự điện thoại mà họ đã sử dụng Thông thường, người dùng thường có xu hướng hài lòng hơn với điện thoại hiện tại so với những chiếc điện thoại trước đó.
Vì vậy chúng ta s b ẽ ổ sung thêm 1 đại lượng th hi n trình t s d ng vào công th c (1): ể ệ ự ử ụ ứ
Ta có công thức mới như sau: n c m n m n m n m w t b
Trong đó: b: là một hằng s v i b>1 ố ớ
55 n c m , : là th t s dứ ự ử ụng điện tho i n cạ ủa người dùng m với điện thoại đang s dử ụng là 0, trước đó là 1, trước nữa là 2, …
Công th c (2) là công th c t ng quát cứ ứ ổ ủa mô hình bài toán, để đơn giản hóa ta s ẽ lựa chọn w m , n 5
1 và b=2 Như vậy ta có công thức trong trường hợp đơn giản hóa này là: n c m n m n m
Một lưu ý quan trọng là bài toán này chỉ là một bài toán thí nghiệm, vì vậy việc chọn các tham số m, n và b đã được đơn giản hóa Trong thực tế, để lựa chọn bộ giá trị tối ưu cho bài toán, cần xem xét cả m, n và b cùng với vector trọng số tương ứng cho các sản phẩm Việc tìm các giá trị tối ưu cho ba biến số này cùng lúc là khá khó khăn, do đó, chúng ta thường áp dụng phương pháp tối ưu từng biến số một, tức là tìm giá trị tối ưu cho một biến trong khi các biến số còn lại được cố định.
Có 2 trường h p xợ ảy ra đố ới v i vi c gệ ợi ý cho 1 người dùng cần mua điện tho i ạ
- Trường h p 1ợ : H ệ thống đã có thông tin về điện thoại di động mà người dùng đang hoặc đã sử ụng do ngườ d i dùng cung c p ấ