Kiến trúc mơ hình BST (ứng dụng trong bài toán cli- 123docz.net

4 Kết quả và Thảo luận

2.10 Kiến trúc mơ hình BST (ứng dụng trong bài toán click-through-rate)

Ngay sau sự ra đời củaBERT4REC, mơ hìnhBST[11] ra đời và được ứng dụng thành cơng vào thực tiễn. Ngồi việc cũng sử dụng kiến trúcTransformertrong việc huấn luyện các dữ liệu dạng chuỗi tuần tự. Mơ hìnhBSTcịn có khả năng kết hợp với các thuộc tính khác từ người dùng và sản phẩm vào trong mơ hình. Từ đó giúp cho mơ hình ngồi việc phát huy điểm mạnh là học được các đặc điểm hành vi ngắn hạn cịn có thể học được thơng tin từ các thuộc tính dài hạn của người dùng và sản phẩm. Nhờ tính hiệu quả trong việc sử dụng được nhiều loại thuộc tính khiến cho mơ hình đạt kết quả tốt và có tiềm năng ứng dụng cao trong thực tế.

Hình 2.10 mơ tả chi tiết kiến trúc của mơ hìnhBST ứng dụng trong bài tốnclick- through-rate. Trong đó bao gồm các thành phần chính sau:

2.4. Kiến trúcTransformervà mơ hìnhBERT4REC,BST

■ Input: dữ liệu đầu vào của q trình huấn luyện được sử dụng ngồi chuỗi tuần tự

bao gồm hành vi tương tác và vị trí của tương tác đó trong chuỗi tuần tự thì cịn sử dụng các thơng tin thuộc tính của người dùng kết hợp (được xử lý bên ngoài lớp

Transformer);

■ Embedding Layer: tầng nhúng là tầng kết hợp dữ liệu bằng phép tínhConcatenatedữ liệu đầu vào của quá trình huấn luyện được sử dụng là chuỗi tuần tự bao gồm hành vi tương tác và vị trí của tương tác trong chuỗi tuần tự;

■ Transformer Layer: tương tự như trong mơ hìnhBERT4RECbao gồmnhiều khối tự chú ý đa đầu Multi-head Self-Attentionnhận đầu vào từ lớp nhúng và trả thông tinattention-weightlàm đầu vào cho tầngPoint-wise Feed-forward. Các lớp này có thể

xếp chồng lên nhau trong trường hợp muốn tăng thêm khả năng học của mơ hình sâu hơn. Đầu ra của lớp này là điểm sốattention-scorekết hợp từ các điểmattention- weighttrước đó. Đây là điểm cải tiến so với kiến trúc mơ hìnhSASRECtrước đó.

■ Fully-connected Layer: Dữ liệu đầu vào của lớp này sẽ là dữ liệukết hợp giữa đầu ra của lớpTransformertrước đó cùng với các thơng tin bổ sung của người dùng thông qua phép tínhConcatenate. Từ đó, tuỳ vào u cầu và đầu ra dữ liệu mà ta

thực hiện gắn các lớp đầy đủ và hàm tối ưu tương ứng. Như trong bài tốnclick- through-rateđầu ra sẽ là nhãn dữ liệu phân lớp (có hai giá trị là Có-Khơng), do đó lớp đầy đủ cuối cùng sẽ cósizelà1và hàm tối ưu là hàmsigmoid.

2.5. Phương pháp đánh giá

2.5 | Phương pháp đánh giá

Trong phần này sẽ trình bày các phương pháp đánh giá được áp dụng vào trong đề tài trong quá trình kiểm tra thực nghiệm. Trong đó:

■ Đối với bài tốn con xếp hạng (rating) sử dụng hai phương pháp đánh giá làRMSE

(căn bậc hai trung bình bình phương sai số -root mean square error) vàMAE(sai số trung bình tuyệt đối -mean absolute error).

■ Đối với bài toán con khả năng nhấp chuột (click-through-rate) sử dụng hai phương pháp đánh giá làAccuracy(độ chính xác) vàAUC(diện tích bên dưới đường cong -area under curve).

2.5.1 | Đánh giá cho bài toán xếp hạng (rating)

Bài toán xếp hạng (rating) là bài tốn mà mơ hình dựa vào đầu vào là thơng tin người dùng và sản phẩm để đưa ra dự đoán đầu ra là xếp hạng mà người dùng sẽ đánh giá cho sản phẩm. Vì đây là một dạng bài tốn thuộc về bài tốn hồi quy do đó phù hợp để sử dụng phương pháp đánh giáRMSEvàMAElà phù hợp để đánh giá kết quả.

Phép đoRMSElà phương pháp đánh giá được sử dụng rộng rãi nhằm đo lường sự khác nhau giữa giá trị đánh giá dự đoán và giá trị đánh giá thực tế (nhãn gốc). Giá trị này càng thấp (càng gần về 0) thì dự đốn của mơ hình càng chính xác.RMSEđược định nghĩa như sau:

RMSE= s 1 N ∑ (u,i)∈N (Yui−Yˆui)2 (2.7) Trong đó:

■ Nlà tổng số phần tử được thực hiện đánh giá;

■ Ylà giá trị xếp hạng dự đoán;

■ Yˆ là giá trị xếp hạng thực tế;

2.5. Phương pháp đánh giá

Phép đo thứ hai được sử dụng làMAEcũng là phương pháp thường được sử dụng để đo lường trong các bài toán hồi quy tương tựRMSEkhi đo đạc sự khác nhau giữa giá trị dự đoán và giá trị đánh giá thực tế (nhãn gốc) và càng tối ưu (độ chính xác của mơ hình cao) khi càng gần về 0. Tuy nhiên nó cũng có điểm khác biệt là trong khiRMSEsẽ phạt nặng hơnMAEnếu giá trị dự đốn khác giá trị thực tế (thơng qua hàm bình phương trong cơng thức),MAEđược định nghĩa như sau:

MAE= 1

N ∑

(u,i)∈N

|Yui−Yˆui| (2.8) Trong đó:

■ Nlà tổng số phần tử được thực hiện đánh giá;

■ Ylà giá trị xếp hạng dự đoán;

■ Yˆ là giá trị xếp hạng thực tế;

■ (u,i)là các cặp giá trị (người dùng, sản phẩm).

2.5.2 | Đánh giá cho bài toán khả năng nhấp chuột (click-through-rate)

Bài toán tỉ lệ nhấp chuột (click-through-rate) là bài tốn mà mơ hình dựa vào đầu vào là thông tin người dùng và sản phẩm để đưa ra dự đốn đầu ra là kết quảCó - Khơng

việc người dùng có click (quan tâm) tới sản phẩm hay khơng. Vì đây là một dạng bài tốn thuộc về bài tốn phân loại do đó phù hợp để sử dụng phương pháp đánh giáAccuracy

vàAUClà phù hợp để đánh giá kết quả.

Phép đoAccuracylà phương pháp đánh giá được sử dụng rộng rãi nhằm đo lường độ chính xác của một mơ hình phân loại dưới dạng tỉ lệ phần trăm. Giá trị này càng cao (càng gần tới 100%) thì dự đốn của mơ hình càng chính xác.Accuracyđược định nghĩa như sau:

Accuracy= TP+TN

N (%) (2.9)

Trong đó:

2.5. Phương pháp đánh giá

■ TN-True Negativelà tổng số mẫuKhơngđược dự đốn đúng;

■ Nlà tổng số phần tử được thực hiện đánh giá.

Phép đo thứ hai được sử dụng làAUCcũng là phương pháp thường được sử dụng để đo lường tính hiệu quả trong các bài tốn phân lớp nhị phân. Phép đoAUCthường được tính thơng qua biểu đồROC(Receiver Operating Characteristic). Biểu đồROCcó trục tung (y-axis) là tỉ lệ dương tính thật và trục hồnh (x-axis) là tỉ lệ dương tính giả (tức 1 trừ cho tỉ lệ dương tính thật). Cả hai tỉ lệ này có giá trị dao động từ 0 đến 100 (hay từ 0 đến 1, nếu dùng xác suất). Hai tỉ lệ này được ước tính cho từng giá trị tham chiếu. Thực nghiệm cho kết quả tốt tức là những điểm ở góc trái thuộc phía trên của biểu đồ. Những điểm này cho chúng ta biết đó là những giá trị tham chiếu có độ nhạy (Sensitivity) cao và độ dương tính giả (False Positive) thấp. Hình 2.11 mơ tả mối tương quan giữaROCvàAUC

trong đó đường màu đỏROClà đường thể hiện tỉ lệ giữa dương tính giả và âm tính giả thì phần diện tích bên dưới màu vàng chính làAUC. Có thể thấyAUCcàng cao thì diện tích càng bao phủ biểu đồ, tức là độ chính xác càng cao (tỉ lệ dương tính giả càng thấp).

2.6. Tổng kết chương

2.6 | Tổng kết chương

Trong chương này tôi đã tập trung giới thiệu những kiến thức quan trọng sẽ được vận dụng trong tồn bộ cơng trình, bao gồm kiến thức nền tảng về bài toán gợi ý tuần tự, đặc biệt là giải quyết bài toán theo hướng tiếp cậnDeep Learning; các kiến trúc mơ hình

được áp dụng trong bài tốn ở các cơng trình nghiên cứu trước đây, cũng như những cơ sở lý thuyết và phương pháp đánh giá sẽ được áp dụng vào đề tài này thơng qua từng dạng bài tốn con.

3 Dữ liệu và Giải pháp đề xuất

3.1. Dữ liệu

3.1 | Dữ liệu

Hiện tại, có rất nhiều tập dữ liệu có sẵn dùng cho nghiên cứu của bài toán gợi ý tuần tự. Trong số đó, tập dữ liệu MovieLens [21] có lẽ là một trong những tập phổ biến nhất. MovieLens là một hệ thống đề xuất phim phi thương mại trên nền tảng web. Nó được tạo ra vào năm 1997 và vận hành bởi GroupLens, một phòng nghiên cứu tại Đại học Minnesota, nhằm thu thập dữ liệu đánh giá phim phục vụ mục đích nghiên cứu. MovieLens là một nguồn dữ liệu quan trọng cho các nghiên cứu về cá nhân hóa đề xuất và tâm lý học xã hội được sử dụng trong việc nghiên cứu và kiểm chứng mơ hình hiệu quả. Dữ liệu này phù hợp với các bài tốn gợi ý nói chung và gợi ý tuần tự nói riêng. Bằng việc áp dụng các phương pháp tiền xử lý dữ liệu hợp lý, ta có thể biến đổi tương tác giữa người dùng và sản phẩm từ tập dữ liệu gốc về dữ liệu dưới dạng chuỗi tuần tự tương tác làm đầu vào cho mơ hình đề xuất.

3.1.1 | Dữ liệu xếp hạng phimMovieLens 1M

Tập dữ liệu MovieLens có địa chỉ tại GroupLens với nhiều phiên bản khác nhau. Ở đây chúng ta sẽ sử dụng tập dữ liệu MovieLens 1M. Tập dữ liệu này bao gồm hiện

3,582,313 đánh giá(Bảng 3.1), xếp hạng từ 1 tới 5 sao, từ6,040 người dùng (Bảng 3.2) dành cho3,706 bộ phim(Bảng 3.3).

UserID MovieID Rating Timestamp

1 1193 5 978300760 1 661 3 978302109 1 914 3 978301968 1 3408 4 978300275 1 2355 5 978824291 1 1197 3 978302268

Bảng 3.1: Dữ liệu mẫu trong bảng Xếp hạng (Rating).

Trong tập dữ liệu gốc này đã thực hiện việc tiền xử lý sao cho mỗi người dùng có

ít nhất 20 đánh giá. Một bộ phim có thể nhận được nhiều đánh giá, cũng có thể khơng

nhận được đánh giá nào. Ta có thể thấy vì đối với các bộ phim người dùng không thể nào đánh giá hết được, lượng đánh giá của tập dữ liệu chỉ chiếm khoảng16%so với kì vọng trong trường hợp mỗi bộ phim được đánh giá bởi tất cả người dùng (tương đương với khoảng 22 triệu đánh giá). Do đó, có thể nói tập dữ liệu này thuộc loại tập dữ liệu thưa (sparse dataset). Ngồi các thơng tin dữ liệu bên trên, tập dữ liệu cịn cung cấp các thơng

3.1. Dữ liệu

UserID Sex AgeGroup Occupation ZipCode

1 F 1 10 48067 2 M 56 16 70072 3 M 25 15 55117 4 M 45 7 02460 5 M 25 20 55455 6 F 50 9 55117

Bảng 3.2: Dữ liệu mẫu trong bảng Người dùng (User).

MovieID Title Genres

4 Waiting to Exhale (1995) Comedy|Drama Bảng 3.3: Dữ liệu mẫu trong bảng Phim (Movie).

tin về dữ liệu cá nhân của người dùng (Giới tính, tuổi, nghề nghiệp, địa điểm sinh sống) hay thông tin về các bộ phim (Tên phim, thể loại, năm sản xuất) sẽ sử dụng trong quá trình huấn luyện mơ hình như là các thuộc tính bổ sung ngồi những thuộc tính tương tác tuần tự giữa người dùng và sản phẩm.

3.1.2 | Phương pháp tiền xử lý dữ liệu

Từ dữ liệu đầu vào đã được phân tích và trình bày ở trên, ta cần thực hiện các bước tiền xử lý dữ liệu sau để đưa dữ liệu về dạng chuỗi tuần tự phù hợp với yêu cầu đầu vào của mơ hình đề xuất. Bao gồm:

1. Đưa dữ liệu xếp hạng của từng người dùng vềdữ liệu dạng tuần tự đảm bảo thứ tựdựa vào thời gian (timestamp) thực hiện đánh giá của họ.

2. Xác địnhđộ dài chuỗi (sequence-length) vàbước nhảy (step-size)để tạo thành dữ liệu chuỗi tuần tự có chiều dài cố định.

3. Bổ sung các thuộc tính thơng tin của các phim tương ứngvào dữ liệu chuỗi tuần tự.

4. Bổ sung các thuộc tính thơng tin nhân khẩu học của người dùngkết hợp với thuộc tính tuần tự đã tạo ra trước đó.

3.1. Dữ liệu

Cuối cùng, ta thu được tập dữ liệu đầu vào kết hợp đầy đủ giữa những thuộc tính tuần tự và các thuộc tính bổ sung của cả người dùng và sản phẩm (Bảng 3.4). Đối với các thuộc tính dạng chuỗi tuần tự bao gồmSequenceMovies(chuỗi các bộ phim và thuộc tính của chúng mà người dùng tương tác theo thứ tự thời gian) và SequenceRatings(chuỗi tương ứng đánh giá của người dùng với các bộ phim) sẽ được dùng làm dữ liệu đầu vào cho phần kiến trúcTransformerxử lý. Các thuộc tính cịn lại sẽ được kết hợp và sử dụng bổ sung trong kiến trúc mơ hình đề xuất. Từ đó, ta có thể tiến hành chia dữ liệu thành các tập huấn luyện, tập kiểm tra theo một tỉ lệ nhất định và đưa vào mơ hình bắt đầu huấn luyện và tiến hành kiểm tra đánh giá kết quả thực nghiệm.

UserID SequenceMovies SequenceRatings Sex AgeGroup Occupation ZipCode

1 [1721,1270,1022,2340] [4.0,5.0,5.0,2.0] F 1 10 48067 1 [1270,1022,2340,1836] [5.0,5.0,2.0,5.0] F 1 10 48067 1 [1022,2340,1836,3408] [5.0,2.0,5.0,4.0] F 1 10 48067 1 [2340,1836,3408,4570] [2.0,5.0,4.0,2.0] F 1 10 48067 Bảng 3.4: Dữ liệu đầu vào mẫu cho bài toán conrating(Độ dài chuỗi là4và bước nhảy

là1).

Phương pháp tiền xử lý dữ liệu ở cả hai bài toán con là giống nhau, chỉ khác một điểm là thay vì giữ nguyên kết quả đầu ra của mơ hình là thơng tin xếp hạng (từ 1 đến 5 sao), ta thực hiện biến đổi dữ liệu đầu ra này về dạng phân loại (Có - Khơng) bằng cách xem như các xếp hạng từ 3 đến 5 sao làCó quan tâmcịn xếp hạng dưới 3 sao được xem là Không quan tâm. Bằng phương pháp tiền xử lý này ta sẽ có dữ liệu phù hợp để thực

nghiệm cho bài toán con thứ hai làclick-through-rate(Bảng 3.5).

UserID SequenceMovies SequenceRatings Sex AgeGroup Occupation ZipCode

1 [1721,1270,1022,2340] [1.0,1.0,1.0,0.0] F 1 10 48067 1 [1270,1022,2340,1836] [1.0,1.0,0.0,1.0] F 1 10 48067 1 [1022,2340,1836,3408] [1.0,0.0,1.0,1.0] F 1 10 48067 1 [2340,1836,3408,4570] [0.0,1.0,1.0,0.0] F 1 10 48067 Bảng 3.5: Dữ liệu đầu vào mẫu cho bài toán conclick-through-rate(Độ dài chuỗi là4và

3.2. Mơ hình cơ sở

3.2 | Mơ hình cơ sở

Hình 3.1: Kiến trúc mơ hình cơ sởSASRECđối với bài tốnrating.

Mơ hình cơ sở được sử dụng để so sánh trong quá trình kiểm tra thực nghiệm gồm mơ hìnhSASREC(Hình 3.1) và mơ hìnhBST(Hình 3.2). Việc sử dụng mơ hìnhSASREC

nhằm kiểm chứng khả năng học hỏi từ các thuộc tính tuần tự của cơ chếSelf-Attention.

Tiếp đến với mơ hìnhBSTta sẽ kiểm chứng được tính hiệu quả của việc kết hợp bổ sung các thuộc tính dài hạn như nhân khẩu học của người dùng. Ngồi ra, mơ hìnhBERT4REC

khá tương đồng với mơ hìnhSASRECchỉ thay đổi phần lõi sử dụng kiến trúcTransformer

thay vì chỉ dùng cơ chếSelf-Attention(đã được thể hiện thơng qua mơ hìnhBST) sẽ được

lược bỏ.

Ý nghĩa chi tiết của các thành phần trong kiến trúc SASRECvàBSTđã được trình bày cụ thể trong phần 2 thơng qua bài tốn conclick-through-rate. Điểm khác biệt ở đây

3.2. Mơ hình cơ sở

Hình 3.2: Kiến trúc mơ hình cơ sởBSTđối với bài toánrating.

và lớp đầu ra của kiến trúc mơ hình. Do đó, đề tài sẽ sử dụng cả hai mơ hình cơ sở này cho hai dạng bài toán con đã đề cập.

3.3. Giải pháp đề xuất

3.3 | Giải pháp đề xuất

Giải pháp được đề xuất của mơ hình về tổng quan sẽ có khả năng huấn luyện sử dụng các thuộc tính chuỗi tuần tự tương tác (đánh giá/ khả năngclick) giữa người dùng

và bộ phim đồng thời kết hợp các thuộc tính bổ sung thơng tin về nhân khẩu học của người dùng (bao gồm thơng tin về nhóm tuổi, vị trí địa lý, nghề nghiệp, giới tính) và thơng tin về các bộ phim (bao gồm thời gian phát hành, thể loại). Giải pháp đề xuất sẽ được xây dựng cụ thể dựa trên hai bài toán conratingvàclick-through-rate.

3.3.1 | Giải pháp đề xuất cho bài tốnrating

Hình 3.3 mơ tả chi tiết kiến trúc của mơ hình đề xuất cho bài tốnrating. Trong đó

bao gồm các thành phần chính sau:

■ Input: dữ liệu đầu vào của quá trình huấn luyện được sử dụng bao gồm các thuộc

tính chuỗi tuần tự xếp hạng của người dùng và các thông tin nhân khẩu học bổ sung của người dùng. Đặc biệt,hệ thống còn đề xuất phương pháp bổ sung các thuộc tính thơng tin của sản phẩm;

■ Transformer Layer: tương tự như trong mơ hình cơ sởBSTbao gồmnhiều khối tự