Tóm tắt: Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	1,82 MB

Nội dung

Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.Nghiên cứu phát triển một số kỹ thuật gợi ý mua hàng theo phiên dựa trên mô hình học sâu.

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - NGUYỄN TUẤN KHANG NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT GỢI Ý MUA HÀNG THEO PHIÊN DỰA TRÊN MƠ HÌNH HỌC SÂU TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Mã số: 48 01 01 Hà Nội - 2023 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS Nguyễn Phú Bình Đại học Victoria Wellington (New Zealand) Người hướng dẫn khoa học 2: PGS TS Nguyễn Việt Anh Viện Công nghệ thông tin Viện Hàn lâm Khoa học Công nghệ Việt Nam Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … giờ, ngày … tháng … năm 2023 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam Mở đầu Tính cấp thiết đề tài Trong bối cảnh thương mại điện tử dịch vụ trực tuyến phát triển nhanh chóng [1], hệ thống gợi ý trở thành công cụ quan trọng để nâng cao trải nghiệm khách hàng thúc đẩy phát triển kinh doanh Các mơ hình gợi ý truyền thống phương pháp đề xuất dựa nội dung [2] phương pháp lọc dựa cộng tác [3] chủ yếu tập trung vào sở thích cá nhân dài hạn bỏ qua tương tác ngắn hạn Với động nghiên cứu vậy, phương pháp hệ gợi ý dựa phiên (Session-based recommendation) đề xuất, nhiệm vụ chúng dự đoán hành vi người dùng dựa hành vi phiên làm việc Với góc nhìn này, tác giả nhấn mạnh tính cấp thiết việc nghiên cứu mơ hình gợi ý hành vi mua sắm khách hàng dựa phiên khám phá khả mà chúng mang lại cho việc đẩy mạnh lĩnh vực hệ thống gợi ý nhằm dự báo hành vi khách hàng [4] Mục tiêu luận án Đặt vấn đề Phân tích phiên làm việc khách hàng để dự báo khả họ mua sản phẩm lựa chọn sản phẩm toán dự báo phổ biến ngành thương mại điện tử Việc dự báo giúp cho doanh nghiệp đưa ý tưởng bán hàng phù hợp trình người dùng tương tác với hệ thống bán hàng Đối tượng nghiên cứu Đối tượng nghiên cứu luận án chuỗi hành vi nhấp chuột trình lựa chọn sản phẩm khách hàng Chuỗi hành vi nhấp chuột ghi nhận phiên mua hàng hệ thống thương mại điện tử tảng mạng xã hội Mục tiêu nghiên cứu Mục tiêu luận án nghiên cứu đề xuất mơ hình dự báo hành vi lựa chọn sản phẩm phiên làm việc khách hàng với hệ thống bán hàng Cụ thể hơn, luận án có số mục tiêu nghiên cứu sau: • Nghiên cứu đề xuất cách thức biểu diễn liệu phiên làm việc • Nghiên cứu đề xuất số mơ hình mạng nơ-ron học sâu mạng nơ-ron đồ thị nhằm xây dựng mô hình dự báo hành vi mua hàng • Thực nghiệm số phương án khác so sánh với số mơ hình sở nhằm đánh giá tính hiệu mơ hình đề xuất Phạm vi nghiên cứu Phạm vi nghiên cứu tiếp cận với hai tốn cụ thể sau: • Bài tốn trả lời câu hỏi ”Với danh sách sản phẩm lựa chọn phiên tương tác khả khách hàng có mua hàng khơng, mua khả họ chọn mặt hàng nào?” • Bài tốn mang tính tổng quát trả lời câu hỏi ”Với danh sách sản phẩm lựa chọn phiên tương tác khả khách hàng chọn sản phẩm tiếp theo” Mở đầu Phương pháp nghiên cứu Bài toán toán nhị phân mua hàng đơn giản, luận án đề xuất hai mơ hình mạng nơ-ron mạng học rộng sâu mạng học máy biến đổi để phân tích phiên làm việc dạng bảng (tabular data) gồm thuộc tính có liệu chuỗi số danh mục (các đối tượng liệu rời rạc) nhằm dự báo hành vi có mua hàng hay khơng khách hàng Hai mơ hình mạng nơ-ron đơn giản phù hợp với phiên liệu dạng bảng, nhiên điểm hạn chế đánh giá liệu theo phiên cụ thể (intra-session), mà không đánh giá mối quan hệ phiên liệu liệu lớn Với Bài toán nhằm xây dựng hệ gợi ý top − k, phương pháp nghiên cứu cần cải tiến cách tìm hiểu đề xuất phương án biểu diễn liệu phiên làm việc đặc biệt khả thể rõ mối quan hệ hàng triệu phiên làm việc liệu thực tế, khái niệm gọi inter-session [5] Đồ thị hướng tiếp cận phù hợp nhằm biểu diễn liệu phiên làm việc hàng triệu khách hàng trình lựa chọn tập sản phẩm hệ thống [6] Với góc độ mơ hình kiến trúc, luận án nghiên cứu đề xuất sử dụng mơ hình nơ-ron đồ thị để xây dựng mơ hình gợi ý cho Bài tốn Bố cục luận án Bố cục luận án gồm phần Mở đầu bốn chương nội dung, phần Kết luận mơ tả ngắn gọn sau: • ”Mở đầu”: Phần mở đầu trình bày tổng quan tốn nghiên cứu, tính cấp thiết ý nghĩa khoa học thực tiễn đề tài • Chương ”Tổng quan hệ gợi ý”: Chương trình bày toán gợi ý mà nhiều hệ thống bán hàng thương mại điện tử hay tảng mạng xã hội triển khai Chương nêu định nghĩa phát biểu hai toán ứng với hai mục tiêu cụ thể luận án phần Mở đầu, gồm Bài tốn mơ hình dự báo nhị phân có mua hàng hay khơng Bài tốn hệ gợi ý top − k dựa theo phiên làm việc khách hàng nhấp chuột lựa chọn sản phẩm hệ thống bán hàng • Chương ”Đề xuất mơ hình mạng nơ-ron học sâu giải toán mua hàng”: Chương giải Bài toán luận án trả lời câu hỏi ”khách hàng có mua hàng phiên làm việc khơng?” Chương đề xuất hai mơ hình mạng nơ-ron cụ thể gồm mạng nơ-ron rộng & sâu mạng nơ-ron biến đổi để xây dựng mơ hình dự báo mua hàng • Chương ”Đề xuất mơ hình mạng nơ-ron đồ thị giải toán top − k”: Chương giải Bài tốn mang tính tổng qt luận án toán top − k Chương trình bày số phương án thiết kế đồ thị để mơ hình hóa thơng tin đầu vào phiên làm việc khách hàng, gồm hai đồ thị đơn G, H đồ thị đa quan hệ K • Chương ”Đề xuất phương pháp nhúng cho mơ hình mạng nơ-ron đồ thị”: Nhằm tiếp tục cải tiến mơ hình GNN đề xuất chương 3, chương để xuất phép biển đổi đồ thị để nâng cao hiệu mơ hình Tác giả để xuất tối ưu hóa mơ hình mạng nơ-ron đồ thị GNN cách đề xuất lớp nhúng đồ thị đặc biệt nhằm cải tiến mơ hình dự báo top − k Chương thiết kế lớp nhúng phiên sử dụng phép biến đổi nhúng kết hợp bao gồm nhúng đỉnh, nhúng đồ thị nhúng nhãn • ”Kết luận”: Phần cuối đưa kết luận chung nhận xét kết đạt luận án để giải thích rõ động nghiên cứu bước cải tiến mơ hình Chương 1| Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu 1.1 1.1.1 Bài toán hệ gợi ý Tổng quan hệ gợi ý Có nhiều hệ thống gợi ý khác tùy theo ngữ cảnh toán [7] Đơn giản nhất, hệ thống gợi ý dựa vào thơng tin lịch sử sở thích người dùng lưu lại để tìm sản phẩm phù hợp [8] Hệ thống hoạt động kiểu dễ hiểu lại gặp nhiều thách thức cần đưa gợi ý cho người dùng mới, hệ thống chưa ghi nhận thông tin lịch sử từ họ Một hình thức hệ thống gợi ý đựa vào trình tương tác người dùng, gọi phiên làm việc Dựa vào thông tin phiên làm việc, hệ thống đưa gợi ý cho người dùng sau vài ba chuỗi kiện tương tác họ với hệ thống, mơ hình gọi hệ thống gợi ý dựa vào phiên làm việc [9] 1.1.2 Phân loại toán hệ gợi ý Mỗi loại hệ thống gợi ý sử dụng thuật toán kỹ thuật khác để tìm hiểu phân tích liệu, từ đưa gợi ý phù hợp với sở thích nhu cầu người dùng • Hệ gợi ý dựa nội dung (Content-Based Filtering) • Hệ gợi ý dựa cộng tác (Collaborative Filtering • Hệ gợi ý kết hợp (Hybrid Recommendation Systems) • Hệ gợi ý dựa tri thức (Knowledge-Based Recommendation Systems) • Hệ gợi ý dựa bối cảnh (Context-Aware Recommendation Systems) • Hệ gợi ý dựa học tăng cường (Reinforcement Learning-Based Recommendation Systems) • Hệ gợi ý dựa phiên làm việc (Session-Based Recommendation Systems) 1.2 1.2.1 Hai toán sở Định nghĩa phiên làm việc Định nghĩa Phiên làm việc khách hàng chuỗi kiện nhấp chuột lựa chọn sản phẩm hệ thống ghi nhận dạng véc-tơ s = {id1 , id2 , , idc } idi mã định danh sản phẩm, c số lượt sản phẩm nhấp chọn phiên làm việc s độ dài phiên làm việc 1.2.2 Bài tốn - Dự báo hành vi mua hàng Bài toán Cho chuỗi nhấp chuột có tính thứ tự theo thời gian sinh từ phiên làm việc khách hàng lựa chọn sản phẩm, cần xây dựng mơ hình dự báo xem liệu khách hàng có mua hàng phiên làm việc khơng? 1.2.3 Bài tốn - Hệ gợi ý top − k Bài toán Cho chuỗi nhấp chuột có tính thứ tự theo thời gian sinh từ phiên làm việc khách hàng lựa chọn sản phẩm, cần xây dựng mơ hình gợi ý xem liệu khách hàng lựa chọn mặt hàng phiên làm việc tại? Chương Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu 1.3 1.3.1 Lý thuyết mạng nơ-ron học sâu Mơ hình mạng nơ-ron học sâu truyền thẳng Phần nghiên cứu số mơ hình cải tiến cụ thể mạng nơ-ron truyền thẳng FNN nhằm cung cấp nhìn tổng quan kỹ thuật học sâu việc giải Bài tốn Ba mơ hình có tính chất tương tự FNN khác phương pháp tiền xử lý lớp nhúng trước vào lớp học sâu truyền thẳng Các biến thể mơ hình FNN minh họa Hình 1.1 Hình 1.1: Một số mơ hình nơ-ron sử dụng dự báo chuỗi nhấp chuột 1.3.2 Mơ hình mạng nơ-ron rộng sâu Với hướng nghiên cứu cứu ứng dụng mạng nơ-ron học sâu cho Bài toán 1, tác giả sử dụng mạng nơ-ron học rộng sâu để phục vụ mục tiêu đề Mơ hình đề xuất năm 2016 nhóm làm việc Google [10] Hình 1.2: Sơ đồ cấu trúc mạng nơ-ron rộng sâu Mơ hình rộng sâu mạng nơ-ron hỗn hợp với cấu trúc bao gồm hai nhánh mô tả sau: Phần Rộng Phần rộng mơ hình tuyến tính có dạng: y = WTx + b (1.1) Trường thuộc tính đầu vào bao gồm thuộc tính thơ số thuộc tính đặc biệt tạo phép biến đổi tích chéo cơng thức 1.2: φk (x) = d Y xci ki , cki ∈ {0, 1} (1.2) i=1 cki nhận giá trị thuộc tính thứ i nằm biến đổi thứ k φk , nhận giá trị ngược lại Chương Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu Phần Sâu Phần sâu mạng nơ-ron học sâu truyền thẳng kết hợp kỹ thuật nhúng, lớp mạng truyền thẳng lớp nhúng thuộc tính Đầu lớp nhúng có dạng a(0) = [e1 , e2 , , em ] với m số trường thuộc tính, ei véc-tơ nhúng trường thuộc tính thứ i Các véc-tơ kết hợp với thuộc tính dạng số truyền vào lớp ẩn mạng nơ-ron học sâu: al+1 = σ(W (l) a(l) ) + b(l) ) (1.3) σ hàm kích hoạt, thường hàm ReLU có dạng f (x) = x+ = max(0, x); W (l) , a(l) , b(l) đầu độ lệch lớp nơ-ron thứ l Quá trình học mạng diễn đồng thời hai phần để tạo kết cuối mơ hình dự báo tổng hợp theo công thức 1.4 yˆ = Sigmoid(yR + yS ) = 1+ e−(yR +yS ) (1.4) yˆ ∈ (0, 1) giá trị dự báo khả mua hàng, yR đầu phần rộng yS đầu phần sâu 1.3.3 Mô hình mạng nơ-ron biến đổi Mơ hình biến đổi Transformer bao gồm hai mơ-dun khối mã hóa (encoder ) khối giải mã (decoder ) mô tả Hình 1.3: Hình 1.3: Mơ hình minh họa kiến trúc Transformer Kiến trúc Transformer tiếp cận giống với mạng nơ-ron học sâu trình bày phần gồm W&DNN, FNN, PNN sử dụng kết hợp lớp nhúng mạng nơ-ron truyền thẳng FNN Tuy nhiên có điểm khác (1) kiến trúc Transformer sử dụng lớp nhúng theo chế tự ý để biến đổi liệu đầu vào theo dạng chuỗi tuần tự, (2) khối xếp lớp với để xử lý song song nhiều thuộc tính khác từ chuỗi liệu đầu vào Hình 1.4: Các lớp chi tiết kiến trúc Transformer Chương Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu 1.4 1.4.1 Lý thuyết mạng nơ-ron đồ thị Định nghĩa đồ thị Theo định nghĩa đồ thị tập đối tượng gọi đỉnh nối với cạnh, mà cạnh thể quan hệ cụ thể hai đỉnh Tùy toán cụ thể mà cạnh có hướng vơ hướng, tương ứng đồ thị gọi có hướng vô hướng số phát biểu sau Định nghĩa Một đồ thị đơn G gồm tập khơng rỗng V mà phần tử gọi đỉnh tập E mà phần tử gọi cạnh, cặp không xếp thứ tự đỉnh phân biệt Đồ thị cịn gọi đồ thị vơ hướng (undirected graph) Biểu thức toán học biểu diễn đồ thị mô tả theo Công thức 1.5 G = (V, E) (1.5) • V = {v1 , v2 , , } tập đỉnh đồ thị, số đỉnh n = |V | • E = {e1 , e2 , , em } tập cạnh đồ thị số cạnh m = |E| Định nghĩa Một đồ thị có hướng (directed graph) G = (V, E) gồm tập đỉnh V tập cạnh E cặp có thứ tự phần tử thuộc V Với dạng đồ thị phức tạp hơn, chúng có nhiều loại cạnh khác nối đỉnh Đồ thị gọi đồ thị đa quan hệ (multi-relational graphs) chứa nhiều tầng quan hệ khác [11] Với dạng đồ thị đa quan hệ, cần thêm tham số để loại quan hệ (loại cạnh) đỉnh (u, v) thông qua hàm f cho f (e) = (u, v) Định nghĩa Một đồ thị đa quan hệ vô hướng G = (V, E) gồm tập đỉnh V , tập cạnh E hàm f từ E tới {{u, v}|u, v ∈ V, u = ̸ v} Các cạnh e1 e2 gọi cạnh song song hay cạnh bội f (e1 ) = f (e2 ) Định nghĩa Một đồ thị đa quan hệ có hướng G = (V, E) gồm tập đỉnh V , tập cạnh E hàm f từ E tới {{u, v}|u, v ∈ V } Các cạnh e1 e2 gọi cạnh song song hay cạnh bội f (e1 ) = f (e2 ) Định nghĩa (đỉnh kề) Hai đỉnh u v đồ thị vô hướng G gọi liền kề {u, v} cạnh đồ thị G Nếu e = {u, v} e gọi cạnh liên thuộc với đỉnh u v Cạnh e gọi cạnh nối đỉnh u v, đỉnh u v gọi điểm đầu mút cạnh {u, v} Định nghĩa Khi e = {u, v} cạnh đồ thị có hướng G u gọi đỉnh nối tới v v gọi đỉnh nối từ u Đỉnh u gọi đỉnh đầu, đỉnh v gọi đỉnh cuối cạnh {u, v} Định nghĩa (bậc đỉnh) Bậc đỉnh đồ thị vô hướng số cạnh liên thuộc với Ký hiệu bậc đỉnh v deg(v) Định nghĩa Với đồ thị có hướng, bậc vào (incoming degree) đỉnh v ký hiệu deg − (v) số cạnh có đỉnh cuối v Bậc (outgoing degree) đỉnh v ký hiệu deg + (v) số cạnh có đỉnh đầu v Định nghĩa 10 (đường đi) Một đường P từ đỉnh v1 tới đỉnh vk tập đỉnh {v1 , v2 , , vk } cho tồn (vi , vi+1 ) ∈ E, ∀i : ≤ i < k Đường P có độ dài P (v1 , vk ) = k − không tính đỉnh khởi đầu v1 , độ dài số lượng cạnh chứa đường Chương Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu 1.4.2 a Biểu diễn đồ thị Danh sách kề Danh sách kề (adjacency list) danh sách biểu diễn tất cạnh đồ thị Nếu đồ thị vô hướng, phần tử danh sách cặp hai đỉnh hai đầu cạnh tương ứng Nếu đồ thị có hướng, phần tử cặp có thứ tự gồm hai đỉnh đỉnh đầu đỉnh cuối cung tương ứng Hình 1.5 minh họa cách biểu diễn đồ thị danh sách kề v1 e1 v2 e4 v5 e6 e3 e5 e2 Đỉnh v1 v2 v3 v4 v5 v3 v4 (a) Đồ thị minh họa Các đỉnh kề v2 , v3 , v4 v1 , v4 , v5 v1 v1 , v2 , v5 v2 , v4 (b) Danh sách đỉnh kề Hình 1.5: Biểu diễn đồ thị danh sách kề b Ma trận kề Khi biểu diễn đồ thị sử dụng danh sách kề việc xây dựng thuật tốn cồng kềnh đồ thị có nhiều cạnh, để đơn giản hóa việc tính tốn ta biểu diễn đồ thị ma trận kề (adjacency matrix ) Giả sử G = (V, E) đồ thị đơn có n đỉnh, ta biểu diễn đồ thị ma trận AG = [aij ] ∈ Rn×n , ma trận cịn gọi ma trận kề: • aij = {vi , vj } ∈ E • aij = khơng có cạnh nối đỉnh vi với đỉnh vj • Quy ước aii = với ∀i Với trường hợp biểu diễn đồ thị có trọng số, giá trị aij = w(i, j) trọng số cạnh hai đỉnh liền kề vi nối tới vj 1.4.3 Mơ hình mạng nơ-ron đồ thị Mơ hình mạng nơ-ron đồ thị giới thiệu vào năm 2005 [12], GNN loại mạng nơ-ron hoạt động trực tiếp cấu trúc đồ thị Với việc sử dụng nơ-ron nút cấu trúc mạng, nút chứa thơng tin riêng thu thập thêm thông tin từ nút lân cận thể mối tương quan chúng đồ thị Các nút bố cục kết hợp với theo kiến trúc mơ hình cụ thể để từ đưa dự đốn phân loại kết Thơng thường tốn GNN tập trung giải số vấn đề sau [13]: • Phân loại nút (Node classification) • Dự đốn kết nối (Link prediction) • Phát cụm (Clustering detection) • Phân loại đồ thị (Graph classification) Chương Tổng quan hệ gợi ý số mơ hình mạng nơ-ron học sâu 1.5 1.5.1 Phép biến đổi nhúng Khái niệm phép biến đổi nhúng Trong lĩnh vực học máy, phép biến đổi nhúng (embedding) kỹ thuật sử dụng để biến đổi liệu thuộc tính rời rạc, chẳng hạn từ hay danh mục, thành dạng véc-tơ liên tục không gian chiều thấp [14] Như vậy, phép biến đổi nhúng ánh xạ biến rời rạc thành véc-tơ số thực, sử dụng làm đầu vào cho mạng nơ-ron Các phép biến đổi nhúng sử dụng với nhiều loại liệu khác ví dụ liệu rời rạc, văn bản, liệu chuỗi thời gian (time series), hình ảnh hay đồ thị Phần luận án trình bày số kỹ thuật nhúng sử dụng chương luận án, bao gồm: • Kỹ thuật nhúng liệu có dạng rời rạc sử dụng cho mạng nơ-ron học sâu truyền thẳng đề xuất chương chương • Kỹ thuật nhúng liệu có dạng chuỗi (ví dụ câu văn bản) sử dụng cho mạng nơ-ron biến đổi đề xuất chương 2, liệu chuỗi thời gian sử dụng cho mạng nơ-ron hồi quy • Kỹ thuật nhúng liệu có dạng đồ thị sử dụng cho mạng nơ-ron đồ thị đề xuất chương 1.5.2 Phép biến đổi nhúng với liệu rời rạc Hai loại liệu phổ biến liệu liên tục rời rạc, xếp vào dạng liệu dạng bảng (tabular ) [15] Dữ liệu liên tục biểu diễn số thực, giá trị rời rạc trường danh mục sản phẩm biểu diễn nhãn chữ nhãn số Thực tế việc đánh nhãn cách biểu diễn thuận tiện cho từ điển giá trị thuộc tính rời rạc đó, nhãn thực khơng mang giá trị có ích thuộc tính liên tục Loại liệu gọi thuộc tính danh mục, chúng có thứ tự khơng Điểm lưu ý mơ hình nơ-ron khơng phù hợp xử lý loại liệu danh mục tính rời rạc chúng [16], thuộc tính rời rạc cần phải biến đổi sang dạng véc-tơ để thể tính liên tục miền giá trị chúng Các đối véc-tơ sau biến đổi giúp cải thiện khả học mơ hình nơ-ron việc ghi nhớ tương quan giá trị rời rạc thuộc tính mối tương tác thuộc tính Phép biến đổi gồm hai bước Hình 1.6 Hình 1.6: Biến đổi thuộc tính danh mục thành véc-tơ nhúng Phép biến đổi nhúng thuộc tính (feature embedding) kỹ thuật xây dựng véc-tơ đặc trưng cho thuộc tính danh mục khơng gian đa chiều thuộc miền giá trị [17] Kỹ thuật tìm cách biểu diễn xếp lại phần tử có mức ảnh hưởng giống gần để (1) tìm tính liên tục liệu không gian nhúng, (2) nắm bắt mối quan hệ danh mục rời rạc thuộc tính từ giúp mạng nơ-ron học sâu học hiệu Với kỹ thuật này, véc-tơ nhúng sau biến đổi có số chiều thấp thành phần véc-tơ số thực thay giá trị véc-tơ one-hot Chương Đề xuất mơ hình mạng nơ-ron học sâu cho tốn mua hàng • Đề xuất sử dụng phép nhúng với thuộc tính dạng danh mục liên kết liệu với thuộc tính cịn lại nhằm tạo véc-tơ nhúng đặc trưng cho phiên làm việc • Xây dựng kiến trúc mạng với số lớp nơ-ron nhánh học sâu (nhánh FNN) • Thực phép biến đổi tích chéo số cặp thuộc tính nhằm tìm tương tác ẩn trường thuộc tính Việc kết hợp đồng thời hai kỹ thuật học sâu rộng giúp cho mơ hình dự báo xác so với mơ hình sử dụng kỹ thuật 2.2.2 Mạng nơ-ron biến đổi Tác giả nghiên cứu đề xuất kiến trúc Transformer cải tiến cách bổ sung lớp nhúng thuộc tính giúp mơ hình huấn luyện làm việc tối ưu liệu dạng bảng mơ tả Hình 2.2, gọi mơ hình FE-Transformer Mơ hình đề xuất thêm lớp nhúng nhằm biến đổi tất thuộc tính gồm dạng số danh mục rời rạc thành véc-tơ nhúng, bước sau áp dụng chuỗi lớp Transformer cho véc-tơ nhúng Do đó, lớp Transformer có khả học đặc trưng riêng biệt liệu Hình 2.2: Kiến trúc FE-Transformer Thiết kế chi tiết hai thành phần kiến trúc FE-Transformer biểu diễn Hình 2.3: (a) Lớp nhúng thuộc tính FE (b) Lớp biến đổi Hình 2.3: Thiết kế lớp cho mơ hình FE-Transformer 11 Chương Đề xuất mơ hình mạng nơ-ron học sâu cho toán mua hàng 2.3 2.3.1 Kỹ thuật thực nghiệm Bộ liệu thực nghiệm Phần thực nghiệm sử dụng liệu cung cấp Yoochoose GmbH 2.3.2 Xử lý trích chọn đặc trưng Bảng 2.1 liệt kê thuộc tính sở trích chọn Bảng 2.1: Danh sách thuộc tính trích chọn I II 10 11 12 13 III 14-16 17-19 20-22 IV 23 24 25 26 2.3.3 Thuộc tính sản phẩm (2 thuộc tính) Product ID Danh mục Mã sản phẩm Cat ID Danh mục Mã danh mục sản phẩm Thuộc tính phiên (11 thuộc tính) The First Product Danh mục Sản phẩm phiên The Pre Product Danh mục Sản phẩm trước phiên Session Duration Số Độ dài phiên Current Duration Số Thời gian tính từ đầu phiên #Clicks/Session Số Số lượng nhấp phiên #Products/Session Số Số lượng sản phẩm phiên #Clicks So Far Số Số lượng nhấp tới phiên #Products So Far Số Số lượng sản phẩm nhấp tới #Views of Product Số Số lượng views sản phẩm phiên #Products of the same Cat Số Số lượng sản phẩm danh mục #Cats Số Số lượng danh mục chứa sản phẩm Thuộc tính thời gian chi tiết theo giờ, phút, giây (9 thuộc tính) Session Start Danh mục Thời điểm phiên bắt đầu The first time that product Danh mục Thời điểm lựa chọn sản phẩm is clicked Current Time Danh mục Thời điểm Thuộc tính boolean (4 thuộc tính) The most clicked product Boolean Sản phẩm click nhiều phiên The most viewed product Boolean Sản phẩm xem nhiều phiên The first clicked product Boolean Sản phẩm click phiên The most viewed category Boolean Danh mục xem nhiều phiên Cách thức chia liệu Toàn tập liệu chia ngẫu nhiên theo tỷ lệ 60% để huấn luyện, 20% để đánh giá mức độ hiệu trình tối ưu cấu trúc mạng, 20% để kiểm tra so sánh mơ hình mạng dự kiến q trình xây dựng cấu trúc mạng Bảng 2.2: Bảng thống kê số lượng nhãn tập liệu sau chia Dữ liệu Tập huấn luyện Tập kiểm thử Tập thực nghiệm 2.3.4 Nhãn mua 325.966 81.808 101.922 Nhãn không mua 5.593.860 1.398.149 1.748.024 Tổng 5.919.826 1.479.957 1.849.946 Độ đo đánh giá mơ hình Nhằm tìm kiếm mơ hình dự báo tốt nhất, phần thực nghiệm sử dụng số sau để tiến hành phân tích đánh giá cấu trúc mạng khác nhau: • AUC (Area Under the Curve) 12 Chương Đề xuất mơ hình mạng nơ-ron học sâu cho tốn mua hàng • Logloss (Logarithmic Loss) • Độ xác (Accuracy) 2.4 2.4.1 Kết thực nghiệm Kết thực nghiệm Bảng 2.3: So sánh hiệu mơ hình dự báo chuỗi nhấp chuột Mơ hình LR FNN FMNN PNN W&DNN FE-Transformer 2.4.2 AUC 0,7604 0,8521 0,8620 0,8596 0,8670 0,7868 Logloss 0,5842 0,6145 0,5061 0,5332 0,4519 0,1844 Accuracy 0,6967 0,7789 0,7814 0,7808 0,7826 0,9449 So sánh với nghiên cứu liên quan Nghiên cứu tiến hành so sánh kết với nhóm Yandex Data Factory thi RecSys Challenge 2015, sử dụng liệu Yoochoose [23] Theo nghiên cứu này, họ sử dụng phương pháp kết hợp bao gồm: Cây phân rã (Gradient Boosted Deccision Tree) + Mạng phân tích nhân tử FM + Phân tích Singular Value Decomposition (SVD) với kết AUC = 0,85 độ xác Accuracy = 0,77 Như thấy nghiên cứu cho kết tốt với tài ngun tính tốn Các đóng góp việc đề xuất thiết kế hai mạng nơ-ron học sâu sau: • Cả hai mơ hình sử dụng kiến trúc mạng nơ ron học sâu truyền thẳng cải tiến Mơ hình W&DNN sử dụng mạng FNN có kết hợp với mơ hình tuyến tính nhánh học rộng Mơ hình FE-Transformer sử dụng lớp tự ý để học đặc trưng từ thành phần quan trọng phiên làm việc • Mơ hình W&DNN sử dụng lớp nhúng nhánh sâu phép biến đổi tích chéo nhánh rộng, giúp cho mơ hình nắm bắt trường thuộc tính bậc thấp bậc cao Mơ hình FE-Transformer cải tiến với lớp nhúng thuộc tính FE 2.5 Kết luận chương Chương nghiên cứu đề xuất sử dụng hai mơ hình mạng nơ-ron cụ thể gồm mạng rộng & sâu mạng biến đổi để giải Bài toán nhằm dự báo khả mua sắm khách hàng sở liệu nhấp chuột Kết cho thấy mơ hình rộng sâu có khả vượt trội hơn: (1) không cần tiền huấn luyện, (2) học tương tác bậc thấp lẫn bậc cao trường thuộc tính, (3) tận dụng khả ghi nhớ mơ hình tuyến tính khả tổng qt hóa mạng nơ-ron học sâu vào mơ hình Mơ hình biến đổi có khả xử lý tốt liệu sau áp dụng lớp nhúng thuộc tính Kết nghiên cứu mơ hình học sâu rộng cơng bố cơng trình [A-1], mơ hình biến đổi gửi cơng bố cơng trình [A-8] (để đảm bảo tính đa dạng thực nghiệm, cơng trình [A-8] sử dụng liệu khác so với Luận án này) Một kết luận quan trọng cho Bài toán từ kết thu cho thấy việc dự báo hành vi mua khách hàng với độ xác cao thực cách dựa phân tích chuỗi nhấp chuột phiên làm việc tại, mà không cần xét đến thông tin khứ người sử dụng 13 Chương 3| Đề xuất mơ hình mạng nơ-ron đồ thị cho tốn top-k Chương trình bày cách thức tiếp cận giải Bài toán việc xây dựng mơ hình gợi ý top − k Cụ thể chương đề xuất biểu diễn liệu phiên làm việc dạng đồ thị, từ nghiên cứu đề xuất sử dụng mạng nơ-ron đồ thị để xây dựng toán SR gợi ý top − k 3.1 Phát biểu toán Bài toán top − k hệ thống gợi sản phẩm (ví dụ phim, nhạc hay sản phẩm mua hàng ) cho người dùng dựa tương tác họ người khác với hệ thống Hệ thống gợi ý xếp hạng tất sản phẩm đề xuất theo thứ tự giảm dần xác xuất khả người dùng lựa chọn, giới hạn trả top − k sản phẩm đề xuất 3.2 3.2.1 Đề xuất thiết kế đồ thị Biểu diễn phiên làm việc đồ thị Một phiên làm việc s biểu diễn đồ thị có hướng Gs = (Vs , Es ) Trong đó, đỉnh thể sản phẩm vs,i ∈ V (V tập đỉnh tổng thể toàn hệ thống) Minh họa biểu diễn đồ thị từ phiên làm việc sk thể Hình 3.1 v1 Phiên Phiên Phiên Phiên s1 s2 s3 sk v1 → v2 → v4 → v3 v1 → v2 → v5 → v4 v2 → v5 → v6 → v5 → v4 → v3 → v6 v2 v5 v4 v6 v3 (a) Danh sách phiên làm việc (b) Đồ thị biểu diễn Hình 3.1: Minh họa biểu diễn phiên làm việc đồ thị Tương tự đồ thị, biểu diễn phiên làm việc dạng đồ thị, ta có số định nghĩa: Định nghĩa 11 (độ dài đường cục bộ) Giả sử vi vj sản phẩm nhấp phiên s với thứ tự nhấp x y với x < y Độ dài đường từ nhấp vi tới nhấp vj phiên làm việc s ký hiệu ps (vi , vj ) thỏa mãn công thức: ps (vi , vj ) = y − x Định nghĩa 12 (p-nhấp) Hai nhấp vào sản phẩm vi vj phiên làm việc s gọi p-nhấp thành phần vj nhấp sau vi p lần nhấp phiên làm việc s Nói cách khác, hai nhấp vi vj phiên làm việc s p-nhấp ps (vi , vj ) = p Định nghĩa 13 (nhấp kề) Hai nhấp vào sản phẩm vi vj phiên làm việc s gọi nhấp kề thành phần vj nhấp sau vi phiên làm việc s Nói cách khác, hai nhấp vi vj phiên làm việc s nhấp kề ps (vi , vj ) = Định nghĩa 14 (trọng số nhấp kề) Hai nhấp vào sản phẩm vi vj phiên làm việc s có trọng số số lượng nhấp kề tạo sản phẩm vi vj phiên làm việc s, ký hiệu v ,v ws i j Trọng số gọi trọng số nhấp kề 14 Chương Đề xuất mơ hình mạng nơ-ron đồ thị cho toán top-k Định nghĩa 15 (trọng số p-nhấp) Hai nhấp vào sản phẩm vi vj phiên làm việc s có trọng số số lượng p-nhấp tạo sản phẩm vi vj phiên làm việc s, ký hiệu vi ,vj ws,p Trọng số gọi trọng số p-nhấp Định nghĩa 16 (đường toàn cục) Một đường P từ nhấp v1 tới nhấp vk mà nhấp v1 tới vk nằm nhiều phiên khác nhau, đường tồn cục nhấp đường đỉnh đồ thị tổng thể G biểu diễn toàn tập phiên làm việc, ký hiệu P (v1 , vk ) Câu hỏi đặt là: ”Với tập đỉnh V = {v1 , v2 , , } có số lượng n sản phẩm cố định biểu diễn đồ thị tổng thể G cần xây dựng tập cạnh E trọng số cạnh cho hiệu quả? ” 3.2.2 Đề xuất thiết kế đồ thị Phần đề xuất số phương án xây dựng đồ thị G từ tập danh sách phiên làm việc khách hàng Cụ thể tác giả đề xuất dạng đồ thị sau: a Đồ thị G v ,vj Gọi G đồ thị thoả mãn ma trận kề MG ∈ Rn×n với MGi nhấp kề sau nhấp sản phẩm vi phiên Ta có: v ,vj MGi = X số lần sản phẩm vj wsvi ,vj , ∀s (3.1) s v ,vj ws i b ”trọng số nhấp kề ” đỉnh vi , vj phiên làm việc s Đồ thị H v ,vj Gọi H đồ thị thoả mãn ma trận kề MH ∈ Rn×n với MHi nhấp sau nhấp sản phẩm vi phiên Ta có: v ,v MHi j = |s| XX s số lần sản phẩm vj vi ,vj ws,p , ∀s (3.2) p=0 v ,v i j ws,p ”trọng số p-nhấp” đỉnh vi , vj phiên làm việc s c Đồ thị K Giả sử c số lượng nhấp nhiều phiên tập liệu Gọi K đồ thị thoả v ,v mãn khối ma trận kề MK ∈ Rn×n×c với MKi j [p] tổng số lần sản phẩm vj nhấp sau nhấp sản phẩm vi p lần nhấp phiên Ta có: v ,v MKi j [p] = X vi ,vj ws,p (3.3) s 3.3 3.3.1 Các mơ hình đề xuất Mạng nơ-ron truyền thẳng (FNN ) Phần đề xuất sử dụng mạng nơ-ron truyền thẳng FNN chương giải Bài tốn xây dựng mơ hình gợi ý top − k thay Bài tốn a Lớp nhúng sản phẩm Luận án đề xuất xây dựng lớp nhúng sản phẩm Hình 3.2 Lớp nhúng dùng làm lớp cở sở để xây dựng số mơ hình khác luận án 15 Chương Đề xuất mơ hình mạng nơ-ron đồ thị cho toán top-k c*n n * 256 c * 256 x1 w1 e1 x2 w2 e2 idc xc wn ec ID X W E One hot encoding c id1 id2 Hình 3.2: Lớp nhúng sản phẩm (Layer.ItemEmbed ) Mơ hình mạng nơ-ron truyền thẳng cx1 cxq id1 e1 id2 e2 Flatten idc n x Dense Softmax Lớp nhúng q=256 (Layer.ItemEmbed) b y n = 52069 ec Hình 3.3: Mơ hình FNN sở 3.3.2 dxc dxc id1 z1 p1 id2 z2 Norm Layer cx1 idc Fully Connected Layer Softmax Mơ hình mạng nơ-ron cho đồ thị G H Graph a Mạng nơ-ron đồ thị (GNN ) p2 zc pc dx1 y Hình 3.4: Mơ hình mạng nơ-ron cho đồ thị G H b Mơ hình mạng nơ-ron cho đồ thị K dxc id1 v1 z1 p1 id2 v2 idc vc z2 zc Norm Layer dxc Depth Layer dxcxc Graph K cx1 p2 pc Fully Connected Layer Softmax Để cải tiến mơ hình mạng nơ-ron đồ thị phải làm việc với đồ thị đa quan hệ K với trọng số cạnh véc-tơ c chiều, luận án đề xuất sử dụng thêm lớp học sâu Hình 3.5 dx1 y Hình 3.5: Mơ hình mạng nơ-ron cho đồ thị K 16 Chương Đề xuất mơ hình mạng nơ-ron đồ thị cho tốn top-k 3.4 3.4.1 Kỹ thuật thực nghiệm Tiền xử lý liệu Bộ liệu sau bước tiền xử lý mô tả Bảng 3.1 Bảng 3.1: Thống kê liệu nhấp Yoochoose sau tiền xử lý Số Số Số Số Số Số lượng phiên lượng sản phẩm lượng nhấp nhấp lớn nhấp nhỏ nhấp trung bình Bộ huấn luyện 7.990.018 52.069 31.744.233 200 3,97 Bộ kiểm tra 1.996.408 38.733 7.926.322 200 3,97 Tổng 9.986.426 52.069 39.670.555 200 3,97 Phân b nh p b hu n luy n (%) S l ng phiên (tri u) Biểu đồ phân bố số lượng phiên nhấp từ tới 10 lần Hình 3.6, số lượng phiên có nhấp lớn 10 nhỏ nên không cần thể biểu đồ này: B hu n luy n 80 B ki m tra 60 40 nh p - 11.721% S l ng nh p m i phiên 10 20 Hình 3.6: Biểu đồ phân bố số lượng nhấp chuột (sau tiền xử lý) 3.4.2 Chuẩn hóa liệu huấn luyện Các phiên liệu liệu gốc có số lượng nhấp khác nên khơng thể dùng cho mơ hình phân loại Để có liệu đào tạo phù hợp cho mơ hình, tác giả đề xuất số thuật tốn chuẩn hóa liệu huấn luyện theo tiêu chuẩn đầu vào thiết kế cho mô hình đề xuất a Chuẩn hóa liệu huấn luyện cho mơ hình FNN Mơ hình FNN mơ hình sở khơng sử dụng đồ thị, thuật tốn chuẩn hóa liệu đơn giản thể mơ hình 3.7: Giả mã bước chuẩn hóa liệu mơ tả Thuật tốn 3.1: b Chuẩn hóa liệu huấn luyện cho mơ hình GNN Để có véc-tơ chuẩn đầu vào cho mơ hình sử dụng đồ thị, bước chuẩn hóa mơ tả Hình 3.8 với phiên đồ thị Giả mã bước chuẩn hóa liệu mơ tả Thuật tốn 3.2: 3.4.3 Độ đo đánh giá mơ hình Đề xuất độ đo Recall@k, M RR@k ACCs@k để đánh giá hệ gợi ý top − k 17 Chương Đề xuất mơ hình mạng nơ-ron đồ thị cho toán top-k id1 s2 id2 sc-1 sc x id3 id4 Mã hóa One hot s3 Ánh xạ đỉnh chuẩn hóa s1 id5 idc' y Hình 3.7: Mơ hình chuẩn hóa liệu huấn luyện cho mơ hình FNN Algorithm 3.1: Thuật tốn NORM.FNN: Chuẩn hóa liệu huấn luyện cho mơ hình FNN Input: s = {id1 , id2 , , idc } Output: Dữ liệu đầu vào huấn luyện x đầu huấn luyện y ′ c ← c; ′ while c < Thêm vào cuối s nhấp N one; c′ ← c′ + 1; s1 id1 v1 s2 id2 v2 s3 Đồ thị id3 id4 id5 sc-1 sc idc' x v3 v4 Mã hóa One hot x ← {id1 , id2 , id3 , id4 }; Z ← {id5 , id6 , , idc′ }; y ← OneHotEncoding(Z) return x ∈ R4 , y ∈ Rn×2 ; Ánh xạ đỉnh chuẩn hóa y Hình 3.8: Mơ hình chuẩn hóa liệu huấn luyện cho mơ hình GNN n−1 i i ∩ Slabels | X |Spred Recall@k = i n i=0 |Slabels | (3.4) n−1 1X i M RR@k = RR(idi∗ , Spred ) n i=0 18 (3.5) Chương Đề xuất mơ hình mạng nơ-ron đồ thị cho toán top-k Algorithm 3.2: Thuật toán NORM.GNN: Chuẩn hóa liệu liệu huấn luyện cho mơ hình GNN Input: s = {id1 , id2 , id3 , , idc−1 , idc } Output: Dữ liệu đầu vào huấn luyện x đầu huấn luyện y ′ c ← c; ′ while c < Thêm vào cuối s nhấp N one; c′ ← c′ + 1; 10 x ← {}; for i ← to by if idi == None then vi ← vec-tơ toàn 0; else vi ← vec-tơ trọng số đỉnh idi đồ thị; Thêm vi vào x 11 12 13 14 Z ← {id5 , id6 , , idc′ }; y ← OneHotEncoding(Z) return x ∈ R4 , y ∈ Rn×2 ; n−1 1X i i ACCs@k = min(1, |Spred ∩ Slabels |) n i=0 3.5 (3.6) Kết nhận xét 0.8 0.7 0.7 0.6 0.6 0.6 0.4 0.2 GNN.K 0.3 GNN.H 0.2 0.5 GNN.G 0.3 k= k= k= 10 k= 20 FNN.Base k= k= k= 10 k= 20 GNN.K GNN.H GNN.G 0.2 FNN.Base 0.3 0.4 GNN.H k= k= k= 10 k= 20 GNN.G 0.4 0.5 FNN.Base 0.5 MRR@k 0.8 0.7 ACCs@k 0.8 GNN.K Recall@k Hình 3.9 biểu diễn kết mơ hình sử dụng trình thực nghiệm Hình 3.9: Biểu đồ kết so sánh mơ hình GNN với FNN 3.6 Kết luận chương Chương tác giả đề xuất thiết kế đồ thị khác gồm đồ thị đơn G, đồ thị đơn H đồ thị đa quan hệ K Các đồ thị khác cách thức thiết kế tập cạnh trọng số cạnh việc biểu diễn quan hệ nhấp, bao gồm quan hệ phiên làm việc cục phiên làm việc toàn cục tập liệu Kết thực nghiệm cho thấy mơ hình GNN kết hợp với đồ thị biểu diễn phiên làm việc cho kết khả quan so với mơ hình mạng nơ-ron truyền thẳng FNN không dùng đồ thị Kết luận chương khẳng định mạng nơ-ron đồ thị GNN hồn tồn sử dụng để xây dựng hệ thống gợi ý top − k 19 Chương 4| Đề xuất cải tiến mơ hình GNN với phép nhúng Với kết đạt Chương cho Bài toán cách biểu diễn phiên làm việc dạng đồ thị, nhiên có thách thức đặt mơ hình đề xuất phải xử lý toán đa nhãn với số lượng nhãn tương đương với số lượng đỉnh đồ thị lớn 4.1 Thách thức toán phân loại đa nhãn Phân loại đa nhãn vấn đề khó khăn máy học nhiều lý phụ thuộc nhãn, không gian nhãn lớn, liệu cân trích xuất đặc trưng 4.2 Phương pháp nhúng đồ thị Định nghĩa 17 Phép nhúng đồ thị Phép nhúng đồ thị kỹ thuật để biểu diễn đồ thị dạng véc-tơ có số chiều cao với mục đích hỗ trợ thuật tốn học máy xử lý phân tích thơng tin đồ thị, ví dụ phân loại nút, dự đốn liên kết phân cụm đồ thị 4.2.1 Phép biến đổi nhúng đỉnh Phép biến đổi nhúng để biến đổi đỉnh v ∈ V vào không gian nhúng d chiều để tạo véc-tơ nhúng đỉnh không gian ∨ ∈ Rd , minh họa Hình 4.1 Hình 4.1: Phép biến đổi nhúng đỉnh 4.2.2 Phép biến đổi nhúng đồ thị Phép biến đổi nhúng đồ thị phép biến đổi nhóm đỉnh có liên quan với vào khơng gian nhúng d chiều để tạo véc-tơ nhúng không gian ∨ ∈ Rd , minh họa Hình 4.2 Hình 4.2: Phép biến đổi nhúng đồ thị 4.3 4.3.1 Đề xuất cải tiến mơ hình GNN.K Chuyển đổi toán đa nhãn thành nhị phân Tác giả đề xuất thêm mơ hình nhị phân để đánh giá thêm mức độ hiệu mơ hình đa nhãn mơ hình nhị phân Để biến đổi mơ hình đa nhãn thành mơ hình nhị phân đưa nhãn vào đầu vào để mơ hình trả lời ”có” ”khơng” với nhãn 4.3.2 Đề xuất mạng nơ-ron truyền thẳng nhị phân Tác giả để xuất chuyển đổi thành mơ hình nhị phân thơng qua việc tiếp tục sử dụng lớp nhúng sản phẩm Layer.ItemEmbed mơ hình FNN sở nhiên có điểm khác biệt đưa thêm 20 Chương Đề xuất cải tiến mơ hình GNN với phép nhúng thành phần nhãn id∗ kết hợp chéo với thành phần idi liệu đầu vào Mơ hình đề xuất mơ tả Hình 4.3 z2 d2 z3 Flatten e* e4 Flatten e* d4 z1023 Dense Block - Softmax d3 Dense Block - 32 Flatten e3 e* id* d1 e3 e4 id4 Flatten e* Dense Block q Lớp nhúng (Layer.ItemEmbed) id3 e2 4xq Dense Block - 64 e2 id2 e* Dense Block - 128 e1 id1 z1 Dense Block - 256 Flatten Dense Block q e1 Dense Block q 5xq Dense Block q 5 1024 q=256 Dense Block - 512 2xq y1 y2 z1024 Hình 4.3: Mơ hình FNN nhị phân (F N N.bin) 4.3.3 a Đề xuất mơ hình nhúng đồ thị K nhị phân Đề xuất lớp nhúng phiên kết hợp Trước tiên, luận án đề xuất kỹ thuật nhúng đồ thị biểu diễn phiên làm việc cách kết hợp mơ hình FNN.bin (Hình 4.3) sử dụng lớp nhúng sản phẩm Layer.ItemEmbed lớp nhúng đồ thị K, lớp nhúng đồ thị K sử dụng kỹ thuật nhúng chéo kết hợp nhãn id∗ với thành phần idi Lớp nhúng phiên đề xuất với tên gọi Layer.SessionEmbed thiết kế Hình 4.4 b Đề xuất mơ hình Mơ hình đề xuất có tính phức tạp tích hợp nhiều cải tiến qua mơ hình thử nghiệm để xử lý cho toán đa nhãn có khơng gian nhãn lớn bao gồm: (1) biến đổi nhị phân; (2) biểu diễn đồ thị; (3) nhúng đồ thị kết hợp với nhúng nhãn Mơ hình gợi ý đề xuất có cấu trúc nhị phân Hình 4.5 4.4 4.4.1 Kỹ thuật thực nghiệm Chuẩn hóa liệu huấn luyện Thuật tốn chuẩn hóa liệu huấn luyện mô tả sau cho phiên ứng với đồ thị K mơ tả Thuật tốn 4.1: 4.5 4.5.1 Kết nhận xét Kết thực nghiệm Hình 4.6 biểu diễn kết tổng hợp k ∈ [1, 5, 10, 20] biểu đồ để tiện so sánh kết Kết cho thấy mơ hình nhúng với đồ thị K (GNN.Bin.K ) cao hết mơ hình dùng mạng nơ-ron khác 21 Chương Đề xuất cải tiến mơ hình GNN với phép nhúng 5xq e1 e1 e* Flatten DenseBlock q 2xq 4xq q=256 e2 id1 Flatten e* d2 1024 e3 e3 Flatten e4 e* Dense Block q Lớp nhúng 5 (Layer.ItemEmbed) e2 DenseBlock q d1 d3 e4 e* Flatten e* id* 4x4 4x4 v1 s1 v2 s2 v3 Depth-Layer id4 Graph K id3 x1 z2 x2 z3 MatMul id2 Dense Block q d4 z1 4xq x3 x4 z1023 Flatten z1024 s3 s4 v4 Hình 4.4: Lớp nhúng phiên với đồ thị K (Layer.SessionEmbed) Algorithm 4.1: Thuật tốn NORM.GNN.Bin: Chuẩn hóa liệu huấn luyện cho mơ hình GNN nhị phân Input: s = {id1 , id2 , , idc } //phiên lựa chọn nid∗ //số lượng đỉnh cần cần quan sát xem có phải nhãn không Output: Dữ liệu đầu vào huấn luyện x đầu huấn luyện y ′ c ← c; ′ while c < Thêm vào cuối s nhấp N one; c′ ← c′ + 1; 10 11 12 13 14 Z ← id5 , id6 , , idc′ ; I ← tập chứa nid∗ đỉnh kề đỉnh ngẫu nhiên phiên, ưu tiên đỉnh có {id5 , id6 , , idc′ }; //lưu ý bỏ đỉnh có giá trị N one for đỉnh o ∈ I xo ← {v1o , v2o , v3o , v4o } với vio trọng số cạnh nối từ đỉnh idi đến đỉnh o; y o ← {0, 1}; //nhãn true if o ̸∈ Z then y o ← {1, 0} //nhãn false x ← {xo |o ∈ I} ∈ Rnid∗ ×4 ; y ← {y o |o ∈ I} ∈ Rnid∗ ×2 ; return x, y; 22 Chương Đề xuất cải tiến mô hình GNN với phép nhúng 1024 5 z1 id1 z1023 id* Dense Block - Softmax Dense Block - 64 Dense Block - 32 Dense Block - 128 Dense Block - 512 z3 Dense Block - 256 Lớp nhúng id4 Layer.SessionEmbed id3 z2 id2 y1 y2 z1024 Hình 4.5: Mơ hình nhúng nhị phân với đồ thị K (GN N.Bin.K) 0.7 0.6 0.6 0.4 0.2 GNN.Bin.K 0.3 GNN.K 0.2 0.5 FNN.Bin 0.2 GNN.Bin.K 0.3 GNN.K 0.3 FNN.Bin k= k= k= 10 k= 20 0.4 k= k= k= 10 k= 20 FNN.Base 0.5 MRR@k 0.4 0.7 GNN.Bin.K 0.5 0.8 GNN.K ACCs@k 0.6 FNN.Base Recall@k 0.7 0.8 FNN.Bin k= k= k= 10 k= 20 FNN.Base 0.8 Hình 4.6: So sánh GN N.Bin.K với mơ hình khác 4.6 Kết luận chương Kết luận phép biến đổi nhúng đồ thị kỹ thuật quan trọng để xây dựng hệ thống gợi ý top − k, đặc biệt với toán liên quan đến việc biểu diễn mối tương tác người dùng lựa chọn sản phẩm phiên làm việc dạng đồ thị Bằng cách học cách biểu diễn đồ thị sang chiều không gian nhúng để nắm bắt đặc trưng tiềm ẩn véc-tơ nhúng phiên, mơ hình gợi ý top − k hoạt động hiệu Kết thực nghiệm chương chứng minh mơ hình đề xuất đạt hiệu suất tốt với cải tiến gồm (1) chuyển đổi mơ hình nhị phân, (2) đề xuất lớp nhúng đồ thị biểu diễn phiên làm việc (3) thiết kế kết hợp nhúng nhãn 23 Kết luận Kết luận chung Luận án đề xuất sử dụng đồ thị để biểu diễn liệu chuỗi kiện nhấp chuột mua hàng, gồm ba đồ thị G, H, K với độ phức tạp khác để đánh giá mức độ hiệu mơ hình dự báo top − k Với đồ thị biểu diễn liệu, tác giả đề xuất sử dụng mạng nơ-ron đồ thị GNN để làm mơ hình dự báo Kết đạt Một số nhận xét kết so với nghiên cứu trước đây: ✓ Luận án nghiên cứu đề xuất mơ hình mạng nơ-ron học sâu cho Bài toán mạng nơ-ron đồ thị cho Bài tốn Trong Bài tốn toán nhị phân Bài toán toán đa nhãn top − k ✓ Luận án sử dụng tập liệu huấn luyện kiểm thử từ liệu gốc với số lượng sản phẩm, tức số lượng nhãn, lên tới 52 nghìn ➜ Các nghiên cứu trước khơng sử dụng liệu kiểm thử riêng biệt, mà trích từ tập liệu huấn luyện ✓ Luận án đề xuất xây dựng mơ hình GNN có tính mở rộng cao hoạt động với đồ thị với 52 nghìn đỉnh Luận án đề xuất thiết kế đồ thị G với khái niệm nhấp kề, đồ thị H sử dụng trọng số cạnh đường nhấp phiên làm việc, đồ thị K với trọng số cạnh véc-tơ c chiều ➜ Một số nghiên cứu liên quan trình bày khơng thể chạy mơ hình với liệu đầy đủ, họ phải thực nghiệm với liệu nhỏ với số lượng nhãn chí cịn ✓ Mơ hình đề xuất cho kết Recall@20 0,712 M RR@20 0,363 ➜ Kết tốt nghiên cứu Kiewan có Recall@20 0,691 Tan có Recall@20 0,680 tốt hẳn nghiên cứu Balázs Hidas với Recall@20 0,632 Các đóng góp luận án Luận án có đóng góp sau: • Sử dụng đồ thị để mơ hình hóa hành vi mua sắm khách hàng thơng qua chuỗi nhấp chuột phiên làm việc, bao gồm đồ thị đơn đa quan hệ • Đề xuất mơ hình mạng nơ-ron học sâu cho Bài tốn mạng nơ-ron đồ thị cho Bài toán Với Bài toán 2, luận án đề xuất thiết kế ba đồ thị G, H K Với đồ thị đa quan hệ K sử dụng trọng số cạnh véc-tơ, luận án đề xuất sử dụng thêm lớp học sâu tuyến tính cho phép mạng GNN học đồ thị hiệu • Đề xuất thuật tốn nhúng đồ thị cho phép mơ hình GNN học thuộc tính ẩn hành vi người dùng trình lựa chọn danh mục sản phẩm phiên làm việc 24 DANH MỤC CÁC BÀI BÁO ĐÃ XUẤT BẢN LIÊN QUAN ĐẾN LUẬN ÁN Khang Nguyen, Anh V Nguyen, Lan N Vu, Nga T Mai, and Binh P Nguyen, ”An Efficient Deep Learning Method for Customer Behaviour Prediction Using Mouse Click Events”, Proceedings of the 11th National Conference on Fundamental and Applied Information Technology Research (FAIR’2028), 2018, pp.10, Vietnam, doi = 10.15625/vap.2018.0002 Khang Nguyen, Nga T Mai, An H Nguyen, and Binh P Nguyen, ”Prediction of Wart Treatment Using Deep Learning with Implicit Feature Engineering”, Soft Computing for Biomedical Applications and Related Topics, Springer International Publishing, 2020, pp.153–168, doi = 10.1007/978-3-030-49536-7_14 Nguyễn Tuấn Khang, Nguyễn Viết Việt, Nguyễn Hải An, Mai Sơn, Mai Thúy Nga, Nguyễn Việt Anh, ”Phát giao dịch thẻ gian lận sử dụng mơ hình học sâu”, hội thảo quốc gia lần thứ XXIII, 2020, pp.335 Nguyễn Tuấn Khang, Mai Thúy Nga, Nguyễn Hải An, Nguyễn Việt Anh, ”Phân Tích Hành Vi Khách Hàng Với Mơ Hình Mạng Học Sâu Đồ Thị”, hội thảo quốc gia lần thứ XXIV, 2021, p.439 Nguyễn Tuấn Khang, Nguyễn Tú Anh, Mai Thúy Nga, Nguyễn Hải An, Nguyễn Việt Anh, ”Hệ Gợi Ý Mua Sắm Dựa Theo Phiên Làm Việc Với Mơ Hình Mạng Học Sâu Đồ Thị”, chun san Các cơng trình nghiên cứu, phát triển ứng dụng CNTT Truyền thông, Bộ Thông tin Truyền thông, 2022, vol 2022, no 02 Khang Nguyen, Viet V Nguyen, Nga T Mai, An H Nguyen, and Anh V Nguyen, ”Behavioral gait recognition using hybrid Convolutional Neural Networks”, Journal of Computer Science and Cybernetics, 2023 Khang Nguyen, Nga T Mai, An H Nguyen, and Anh V Nguyen, ”A Computational Model for Predicting Customer Behaviors Using Transformer Adapted with Tabular Features”, International Journal of Computational Intelligence Systems, vol 16, no 1, pp 1–8, 2023, doi = 10.1007/s44196-023-00307-5 Khang Nguyen, Anh T Nguyen, Nga T Mai, An H Nguyen, and Anh V Nguyen, ”Developing Advanced Product Recommendation System using Embedding Graph Neural Networks”, Applied Intelligence, Springer, 2023 (bài nộp)

Ngày đăng: 05/10/2023, 15:50