Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
3,57 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Minh Tuấn XÂY DỰNG MƠ HÌNH BIỂU DIỄN VECTƠ SẢN PHẨM THƯƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHƯƠNG PHÁP KHAI PHÁ ĐỒ THỊ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH HÀ NỘI - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Minh Tuấn XÂY DỰNG MƠ HÌNH BIỂU DIỄN VECTƠ SẢN PHẨM THƯƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHƯƠNG PHÁP KHAI PHÁ ĐỒ THỊ Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VÕ ĐÌNH HIẾU HÀ NỘI - 2020 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Tran Minh Tuan A PROPOSED MODEL FOR VECTOR REPRESENTATION OF E-COMMERCE PRODUCTS BASED ON GRAPH EMBEDDING THE MASTER THESIS Major: Computer Science Supervisor: Dr Vo Dinh Hieu HANOI - 2020 Lời cam đoan Tôi Trần Minh Tuấn, học viên cao học lớp K26-KHMT, ngành Khoa học thông tin Tôi xin cam đoan luận văn “Xây dựng mơ hình biểu diễn vectơ sản phẩm thương mại điện tử dựa phương pháp khai phá đồ thị” cơng trình nghiên cứu, xây dựng riêng Các nội dung nghiên cứu, kết luận văn xác thực Các thông tin sử dụng luận văn có sở khơng có nội dung chép từ tài liệu mà khơng ghi rõ trích dẫn tham khảo Tơi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2020 Học viên cao học Trần Minh Tuấn i Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lịng biết ơn sâu sắc tới thầy TS Võ Đình Hiếu, người tận tình hướng dẫn bảo suốt thời gian học tập bốn năm đại học, hai năm cao học đặt biệt thời gian thực luận văn thạc sỹ Tôi xin chân thành cảm ơn thầy, cô trường Đại học Công Nghệ hỗ trợ đề tài QG.18.61 Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin cảm ơn đồng nghiệp Công ty Cổ phần Khoa học Dữ liệu hỗ trợ thiết bị phần cứng, đóng góp liệu cho đề tài Tôi xin gửi lời cảm ơn đến thầy cơ, anh chị, bạn phịng thí nghiệm mơn Cơng nghệ phần mềm hỗ trợ nhiều kiến thức chuyên môn q trình thực luận văn Tơi xin cảm ơn bạn lớp K26 ủng hộ khuyến khích tơi suốt q trình học tập trường Cuối cùng, xin gửi cám ơn vô hạn tới gia đình, người thân bạn bè, người bên cạnh, giúp đỡ động viên năm tháng học tập nghiên cứu sống Hà Nội, ngày tháng năm 2020 Học viên Trần Minh Tuấn ii Tóm tắt Tóm tắt: Những năm gần đây, hoạt động lĩnh vực thương mại điện tử ngày phát triển Việt Nam quốc tế Các tảng website thương mại điện tử nỗ lực đem lại trải nghiệm tốt cho người mua sắm Một yếu tố quan trọng lĩnh vực khả xử lý liệu số lượng sản phẩm giao dịch gia tăng ngày Các liệu ứng dụng toán gợi ý sản phẩm, phân loại sản phẩm, trích xuất thơng tin, tìm kiếm sản phẩm Nghiên cứu luận văn tập trung vào mơ hình biểu diễn vectơ sản phẩm giàu thông tin để làm đầu vào cho toán học máy ứng dụng thương mại điện tử Mơ hình sử dụng đặc trưng thuộc tính sản phẩm liệu mối quan hệ Nghiên cứu sử dụng phương pháp "graph embedding" - học khơng giám sát thuộc tính sản phẩm từ đồ thị quan hệ Nghiên cứu hiệu mơ hình thực nghiệm với liệu đồ thị sản phẩm hàng chục triệu đỉnh trăm triệu cạnh quan hệ Từ khóa: thương mại điện tử, khai phá đồ thị, vectơ hóa sản phẩm, mạng nơ-ron tích chập iii Abstract Abstract: In recent years, activities in the field of e-commerce have been increasingly developing in Vietnam and internationally E-commerce website platforms are striving to bring a better experience to shoppers One of the key factors of this area is the ability to process data as the number of products and transactions increases every day These data will be applied in problems such as product suggestions, product classification, information extraction, product search The thesis’s research focuses on constructing the model product vector representation as an input to the applied many tasks in e-commerce This model uses the characteristics of product attributes and the relationship between them Research using the method graph embedding - unsupervised learning of product attributes from the e-commerce graph The research also shows the effectiveness of the model when experimenting with millions of product vertices and hundreds of millions of edges Keywords: e-commerce, graph embedding, product embedding, convolution neural network iv Mục lục Lời cam đoan i Lời cảm ơn ii Tóm tắt iii Abstract iv Mục lục v Danh mục từ viết tắt thuật ngữ Danh sách hình vẽ vii ix Chương Đặt vấn đề 1.1 Lý chọn đề tài 1.2 Các nghiên cứu liên quan 1.3 Mục tiêu luận văn 1.4 Cấu trúc luận văn Kết luận chương Chương Cơ sở lý thuyết khảo sát phương pháp 2.1 Cơ sở lý thuyết 2.1.1 Phương pháp biểu diễn liệu ảnh 2.1.2 Phương pháp biểu diễn nội dung văn 11 2.1.3 Phương pháp biểu diễn liệu đồ thị 15 2.2 Khảo sát phương pháp biểu diễn vectơ sản phẩm 18 2.2.1 Phân tích đặc điểm liệu thương mại điện tử 18 2.2.2 Biểu diễn sản phẩm nhúng tên sản phẩm 19 2.2.3 Biểu diễn sản phẩm hình ảnh 21 Kết luận chương 25 v Chương Mơ hình biểu diễn vector sản phẩm phương pháp khai phá đồ thị 26 3.1 Định nghĩa toán 26 3.2 Mô tả phương pháp 29 3.3 Đánh giá phương pháp 32 3.3.1 Phương pháp đánh giá mơ hình 32 3.3.2 Điểm mạnh phương pháp 33 3.3.3 Hạn chế phương pháp 33 Kết luận chương 34 Chương Thực nghiệm đánh giá kết 35 4.1 Phương pháp liệu thực nghiệm 35 4.2 Xây dựng hệ thống thực tế với liệu lớn 37 4.3 Kết thực nghiệm phân tích 41 Kết luận chương 42 Chương Kết luận 43 Tài liệu tham khảo 45 vi Danh mục từ viết tắt thuật ngữ STT Từ viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt TMĐT E-commerce Thương mại điện tử GMV Gross Merchandise Value Tổng giá trị giao dịch Deep Learning Học sâu Word embedding Nhúng từ Graph embedding Nhúng đồ thị Deep learning Word embedding Graph embedding PEBG Product Embedding Big Biểu diễn vectơ sản phẩm Graph đồ thị lớn CNN Convolution Neuron Network Mạng nơ-ron tích chập SVM Support Vector Machine Máy vectơ hỗ trợ API Application Programming Interface vii Giao diện lập trình ứng dụng cập nhật giá trị vectơ cách nội suy đỉnh kề với Tuy nhiên phương pháp khó triển khai chi phí tính tốn cao tập liệu lớn Kết luận chương Chương định nghĩa tốn mơ hình biểu diễn vector sản phẩm mơ tả chi tiết phương pháp Nội dung đánh giá điểm mạnh, hạn chế phương pháp trình bày cuối chương Trong chương luận văn trình bày phương pháp liệu thực nghiệm mơ hình Tiếp đề xuất thiết kế, đánh giá kế hệ thống triển khai thực tế 34 Chương Thực nghiệm đánh giá kết Trong chương trình bày phương pháp liệu thực nghiệm, tiếp luận văn đề xuất hệ thống triển khai thực tế với tập liệu lớn đánh giá kết thực nghiệm 4.1 Phương pháp liệu thực nghiệm Mục tiêu nghiên cứu đề xuất mơ hình biểu diễn sản phẩm thương mại điện tử với tập liệu lớn, phương pháp khai phá đồ thị (PEBG - Product Embedding Big Graph) Tập liệu dùng để đánh giá thực nghiệm trích từ liệu sản phẩm Shopee.VN - sàn thương mại điện tử có lượng truy cập cao Việt Nam năm 2019 - 22.526.164 sản phẩm có lịch sử hoạt động tháng gần nhất, từ 2.074 ngành hàng thuộc nhóm ngành lớn (bảng 4.1) 9.775 thương hiệu - 176.777.098 cạnh quan hệ sản phẩm với thương hiệu, mức giá, thông tin sản phẩm, v.v Thơng tin ví dụ ghi liệu sản phẩm thể hình 4.2 Các thơng tin liệu quan hệ sản phẩm TMĐT trình bày bảng 3.2 Hệ thống triển khai mơ hình biểu diễn vectơ sản phẩm sử dụng công nghệ như: Hình 4.1: Thống kê sản phẩm theo ngành hàng 35 Hình 4.2: Ví dụ ghi liệu sản phẩm thương mại điện tử 36 - PostgreSQL 12.61 , Cassandra 3.02 : Hệ quản trị sở liệu lưu trữ liệu sản phẩm vectơ biểu diễn - nltk, numpy, pandas3 : Các thư viện xử lý ngôn ngữ thao tác với file liệu - Pytorch 1.64 , torchbiggraph 1.05 : Thư viện cài đặt mô hình học sâu - NGT6 : Thư viện đánh mục tìm kiếm khơng gian vectơ số lượng lớn - FastAPI7 : Framework xây dựng API ứng dụng hiệu cao 4.2 Xây dựng hệ thống thực tế với liệu lớn Trong thực tế, xây dựng mơ hình biểu diễn vectơ sản phẩm chưa đủ mà cịn cần tích hợp với thành phần khác triển khai cho toán cụ thể Trong phần trình bày thiết kế hệ thống triển khai mơ hình biểu diễn sản phẩm Hình 4.3 thể biểu đồ dòng chảy hệ thống, gồm có thành phần trích xuất đặc trưng liệu TMĐT, mơ hình khai phá đồ thị, dịch vụ đánh mục vectơ kết quả, API ứng dụng cho tốn - Trích xuất đặc trưng liệu Thành phần trích xuất đặc trưng nhận đầu vào hệ quản trị sở liệu TMĐT đầu liệu quan hệ (cạnh) sản phẩm Các đỉnh đồ thị chuẩn hóa, ví dụ giá sản phẩm 389000 đ chuẩn hóa price/400000, 280 lượt bán chuẩn hóa sold/300 Mục tiêu việc chuẩn hóa giúp giảm số lượng đỉnh, gom cụm tính chất giống Các đặc trưng xuất 10 lần tập liệu loại bỏ bước Dữ liệu cạnh quan hệ sản phẩm lưu trữ định dạng file Parquet với cột Source, Relation Type, Destination, tối đa file triệu dòng https://www.postgresql.org https://cassandra.apache.org https://www.scipy.org https://pytorch.org https://torchbiggraph.readthedocs.io https://github.com/yahoojapan/NGT https://fastapi.tiangolo.com https://parquet.apache.org 37 Hình 4.3: Biểu đồ dòng chảy hệ thống biểu diễn vectơ sản phẩm 38 Ví dụ ghi sản phẩm có thông tin: prod_base_id = 7938519219 shop_base_id = 27495213 price = 389000 cat_base_id = 160, 2341, 8554 brand = senka attr = ["dạng sản phẩm": "dạng lỏng", "loại da": "mọi loại da", "Dung tích (ml)": "275", "Xuất xứ": "Nhật Bản", "Khối lượng (g)": "300"] sold = 280 rating_count = 208 rating_avg = 4.86 Các cạnh quan hệ tạo là: prod/7938519219 shop > shop/27495213 prod/7938519219 cat > cat/1 160 prod/7938519219 cat > cat/1 2341 prod/7938519219 cat > cat/1 8554 prod/7938519219 brand > brand/senka prod/7938519219 attr/loai-da > attr/loai-da/moi-loai-da prod/7938519219 attr/dung-tich-ml > attr/dung-tich-ml/275 prod/7938519219 attr/xuat-xu > attr/xuat-xu/nhat-ban prod/7938519219 attr/khoi-luong-g > attr/khoi-luong-g/300 prod/7938519219 price > price/400000 prod/7938519219 sold > sold/300 prod/7938519219 rating_count > rating_count/200 prod/7938519219 rating_avg > rating_avg/4_9 - Mơ hình khai phá đồ thị Mơ hình khai phá đồ thị thương mại điện tử (PEBG - Product Embedding Big Graph) nhận đầu vào cạnh quan hệ, đầu mơ hình biểu diễn vectơ đỉnh đồ thị Toán tử huấn luyện mơ hình phép tốn TransE[2] T ranslation (Phép cộng vectơ độ dài), hàm mát Sof tmax Để tăng tốc độ truy vấn cạnh quan hệ, mô hình chuyển đổi định dạng Parquet sang 39 định dạng HDF59 Định dạng HDF5 cho phép thao tác truy vấn tìm kiếm quan hệ có điều kiện theo đỉnh (source_id, destination_id, type) nhanh chóng Hạn chế định dạng tăng lần dung lượng lưu trữ, file hdf5 tồn trình huấn luyện mơ hình Mỗi lần huấn luyện liệu theo lơ, mơ hình ghi lại thơng số đánh giá mơ (loss, pos_rank , mrr, r1, r10, r50) dừng huấn luyện đạt tới ngưỡng (threshold loss score) - Đánh mục vectơ sản phẩm Sau huấn luyện mơ hình P EBG, giá trị vectơ lưu trữ vào sở liệu lớn key-value (Cassandra ) với key mã sản phẩm value giá trị vectơ biểu diễn Dịch vụ đánh mục vectơ giúp giảm thời gian tìm kiếm Top K vectơ gần hàng chục triệu vectơ thời gian thực Trong nghiên cứu này, hệ thống sử dụng thư viện mã nguồn mở đánh mục vectơ NGT [12] Thơng thường cài đặt thuật tốn đơn giản, chi phí tìm kiếm top K vectơ lên tới O(n2 ) với n số vectơ Nghiên cứu tìm kiếm xấp xỉ top K vectơ gần NGT với chi phí O(logn) - Các API khai thác theo toán Tùy theo toán mà API ứng dụng khác Trong nghiên cứu này, luận văn trình bày thử nghiệm với toán khuyến nghị sản phẩm Dịch vụ nhận đầu vào mã sản phẩm đầu danh sách sản phẩm lựa chọn khác Hiệu chức đo tỉ lệ nhấp chuột số lần hiển thị Quá trình khuyến nghị sản phẩm gồm bước chính: Bước 1: Tìm kiếm top 50 sản phẩm có vectơ gần so với mã sản phẩm đầu vào Bước 2: Đánh giá lại điểm (re-score) phù hợp: - Loại sản phẩm có lượng bán, đánh giá thấp, sản phẩm khác shop - Ưu tiên sản phẩm khác thương hiệu, mức giá - Ưu tiên sản phẩm bán chạy Bước 3: Hiển thị 10 sản phẩm có điểm phù hợp cao đo tỉ lệ nhấp chuột https://www.h5py.org 40 Bảng 4.1: So sánh kết Hits@10, Hits@50 mơ hình khai phá đồ thị TMĐT Model Hits@10 Hits@50 Time Traning Graph Node2Vec (category, brand, shop) Graph Basic (category, brand, shop) Graph Information (category, brand, shop, attribute) 0.124 0.341 120 hours 0.389 0.671 10 hours 0.418 0.692 14 hours 0.737 0.962 22 hours Graph Rich-Information - PBEG (category, brand, shop, attribute, price_level, rating_level, sold_level) 4.3 Kết thực nghiệm phân tích Nghiên cứu thực nghiệm cấu hình máy chủ 64GB RAM; 32 CPU; 1024 GB SSD ổ cứng Các siêu tham số mô hình PEBG (product embedding big graph) epoch = 3; dim_vecto = 128; batch_negative = 500 max_edges_per_chunk = 100000 loss_fn = softmax; lr = 0.1 Luận văn so sánh mơ hình PEBG phiên khác với mơ hình Node2Vec 10 (bảng 4.1) Đồ thị gồm đầy đủ thông tin đặc trưng bao gồm quan hệ với: ngành hàng, thương hiệu, mã shop, thuộc tính sản phẩm, mức giá, mức đánh giá, lượng bán cho hiệu huấn luyện tốt nhất, đạt 96.2% tỉ lệ Hits@50 Điều thể vectơ sản phẩm nén thông tin giàu giá trị thông tin sản phẩm Nếu huấn luyện từ tên sản phẩm, kết vectơ không nhúng thông tin quan trọng mức giá, thông số kĩ thuật, người bán, v.v Những thông tin sở quan trọng để dùng cho toán phân loại danh mục, khuyến nghị sản phẩm, tìm kiếm sản phẩm, v.v Mơ hình PEBG cho thấy khả huấn luyện mơ hình với thời gian ngắn hiệu quả, đáp ứng 10 https://snap.stanford.edu/node2vec 41 Hình 4.4: Kết sản phẩm gợi ý lựa chọn khác với liệu đồ thị TMĐT lớn với hàng trăm triệu cạnh quan hệ Kết vectơ biểu diễn sản phẩm mơ hình PEBG triển khai vào hệ thống gợi ý sản phẩm lựa chọn khác (hình 4.4) Phương pháp mà hệ thống beecost.vn 11 cũ triển khai lấy top K tên sản phẩm gần giống Kết áp dụng phương pháp Top K sản phẩm mơ hình PEBG tháng giúp tăng tỉ lệ click xem sản phẩm từ % lên 5.2 % Kết luận chương Chương trình bày phương pháp liệu thực nghiệm mơ hình Tiếp luận văn đề xuất thiết kế hệ thống thực tế đánh giá kết thực nghiệm 11 https://beecost.vn 42 Chương Kết luận Thương mại điện tử ngày phát triển mạnh mẽ xu hướng tương lai Với tham gia hàng chục triệu người mua sắm, tảng luôn phải trưởng thành nâng cao chất lượng dịch vụ Bằng việc áp dụng phương pháp học máy, hạn chế trước dần khắc phục Mơ hình biểu diễn vectơ sản phẩm giúp nâng cao hiệu huấn luyện lớp toán học máy TMĐT Luận văn trình bày phương pháp biểu diễn vectơ sản phẩm dựa kĩ thuật khai phá đồ thị Cụ thể nghiên cứu luận văn có kết sau: - Luận văn trình bày phân tích phương pháp biểu diễn vectơ sản phẩm nhúng nội dung nhúng hình ảnh - Nghiên cứu đề xuất xây dựng hệ thống biểu diễn vectơ sản phẩm triển khai thực tế Hệ thống gồm thành phần trích xuất đặc trưng liệu TMĐT, mơ hình khai phá đồ thị (PEBG - Product Embedding Big Graph), dịch vụ đánh mục vectơ kết quả, API ứng dụng cho toán - Kết thực nghiệm biểu diễn vectơ sản phẩm tập liệu 22 triệu sản phẩm 176 triệu cạnh quan hệ đạt 96.2 % Hits@50 Hệ thống khuyến nghị sản phẩm áp dụng kết tăng tỉ lệ chuyển đổi tăng từ % lên 5.2 % Trong nghiên cứu này, mơ hình sử dụng đặc trưng trích xuất từ thơng tin sản phẩm gồm: mã sản phẩm, mã shop, thương hiệu, ngành hàng, thông số kĩ thuật, giá bán, lượng bán, số đánh giá Từ việc chia nhỏ giá trị liệu thành mức độ giúp mơ hình huấn luyện hiệu Kết mơ hình áp dụng cho nhiều lớp toán TMĐT phân loại danh mục, khuyến nghị sản phẩm, tìm kiếm sản phẩm, gom cụm sản phẩm chung đặc điểm, v.v Tuy mơ hình PEBG gặp khó khăn với sản phẩm trường thông tin liệu Để khắc phục điều này, hướng cải tiến nâng cấp thành phần tiền xử 43 lý trích xuất liệu tên sản phẩm Áp dụng kĩ thuật trích xuất thực thể (Named Entity Extraction) giúp trích xuất thơng tin thương hiệu, mã sản phẩm, thuộc tính màu sắc, kích thước từ tên sản phẩm Điểm hạn chế mơ hình chưa quan tâm đến ý nghĩa nội dung giá trị đỉnh tên thương hiệu, nội dung thông số kĩ thuật, v.v Để khắc phục hạn chế đó, có số nghiên cứu [8, 11] trình bày mơ hình nhúng đồ thị sử dụng thơng tin đặc trưng đỉnh Trong tương lai hướng nghiên cứu mơ hình huấn luyện từ thơng tin đỉnh (feature node) thông tin ảnh sản phẩm giá trị trọng số quan hệ 44 Tài liệu tham khảo [1] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov Enriching word vectors with subword information Transactions of the Association for Computational Linguistics, 5:135–146, 2017 [2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko Translating embeddings for modeling multi-relational data In Advances in neural information processing systems, pages 2787–2795, 2013 [3] Yukuo Cen, Jing Zhang, Gaofei Wang, Yujie Qian, Chuizheng Meng, Zonghong Dai, Hongxia Yang, and Jie Tang Trust relationship prediction in alibaba ecommerce platform IEEE Transactions on Knowledge and Data Engineering, 32(5):1024–1035, 2019 [4] Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D Manning Electra: Pre-training text encoders as discriminators rather than generators arXiv preprint arXiv:2003.10555, 2020 [5] J Clement Retail e-commerce sales worldwide from 2014 to 2023 Retrieved, 11(11):2019, 2019 [6] Gianna M Del Corso, Antonio Gulli, and Francesco Romani Ranking a stream of news In Proceedings of the 14th international conference on World Wide Web, pages 97–106, 2005 [7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei Imagenet: A large-scale hierarchical image database In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255 Ieee, 2009 [8] Yuxiao Dong, Nitesh V Chawla, and Ananthram Swami metapath2vec: Scalable representation learning for heterogeneous networks In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pages 135–144, 2017 [9] John Duchi, Elad Hazan, and Yoram Singer Adaptive subgradient methods for online learning and stochastic optimization Journal of machine learning research, 12(7), 2011 45 [10] Aditya Grover and Jure Leskovec node2vec: Scalable feature learning for networks In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pages 855–864, 2016 [11] Will Hamilton, Zhitao Ying, and Jure Leskovec Inductive representation learning on large graphs In Advances in neural information processing systems, pages 1024–1034, 2017 [12] Masajiro Iwasaki and Daisuke Miyazaki Optimization of indexing based on k-nearest neighbor graph for proximity search in high-dimensional data arXiv preprint arXiv:1810.07355, 2018 [13] Bernard J Jansen and Paulo R Molina The effectiveness of web search engines for retrieving relevant ecommerce links Information Processing & Management, 42(4):1075–1098, 2006 [14] Jeff Johnson, Matthijs Douze, and Hervé Jégou Billion-scale similarity search with gpus arXiv preprint arXiv:1702.08734, 2017 [15] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton Imagenet classification with deep convolutional neural networks In Advances in neural information processing systems, pages 1097–1105, 2012 [16] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut Albert: A lite bert for self-supervised learning of language representations arXiv preprint arXiv:1909.11942, 2019 [17] Adam Lerer, Ledell Wu, Jiajun Shen, Timothee Lacroix, Luca Wehrstedt, Abhijit Bose, and Alex Peysakhovich PyTorch-BigGraph: A Large-scale Graph Embedding System In Proceedings of the 2nd SysML Conference, Palo Alto, CA, USA, 2019 [18] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781, 2013 [19] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean Distributed representations of words and phrases and their compositionality pages 3111–3119, 2013 46 [20] Maximilian Nickel, Volker Tresp, and Hans-Peter Kriegel A three-way model for collective learning on multi-relational data In Icml, volume 11, pages 809–816, 2011 [21] Aditya Pal, Chantat Eksombatchai, Yitong Zhou, Bo Zhao, Charles Rosenberg, and Jure Leskovec Pinnersage: Multi-modal user embedding framework for recommendations at pinterest In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 2311– 2320, 2020 [22] Dimitris Paraschakis Algorithmic and Ethical Aspects of Recommender Systems in E-Commerce Malmăo university, Faculty of Technology and Society, 2018 [23] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer Deep contextualized word representations In Proc of NAACL, 2018 [24] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever Language models are unsupervised multitask learners 2019 [25] Karen Simonyan and Andrew Zisserman Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556, 2014 [26] Abe Vallerian Siswanto, Lilian Tjong, and Yordan Saputra Simple vector representations of e-commerce products In 2018 International Conference on Asian Language Processing (IALP), pages 368–372 IEEE, 2018 [27] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna Rethinking the inception architecture for computer vision In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818–2826, 2016 [28] Mingxing Tan and Quoc V Le Efficientnet: Rethinking model scaling for convolutional neural networks arXiv preprint arXiv:1905.11946, 2019 [29] Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier, and Guillaume Bouchard Complex embeddings for simple link prediction International Conference on Machine Learning (ICML), 2016 47 [30] Manos Tsagkias, Tracy Holloway King, Surya Kallumadi, Vanessa Murdock, and Maarten de Rijke Challenges and research opportunities in ecommerce search and recommendations In SIGIR Forum, volume 54, 2020 [31] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Wellread students learn better: On the importance of pre-training compact models arXiv preprint arXiv:1908.08962v2, 2019 [32] Nam Vo and James Hays Generalization in metric learning: Should the embedding layer be embedding layer? pages 589–598, 2019 [33] Jizhe Wang, Pipei Huang, Huan Zhao, Zhibo Zhang, Binqiang Zhao, and Dik Lun Lee Billion-scale commodity embedding for e-commerce recommendation in alibaba In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 839–848, 2018 [34] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He Aggregated residual transformations for deep neural networks In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1492– 1500, 2017 [35] Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng Embedding entities and relations for learning and inference in knowledge bases arXiv preprint arXiv:1412.6575, 2014 [36] Hongxia Yang Aligraph: A comprehensive graph neural network platform In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 3165–3166, 2019 [37] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le Xlnet: Generalized autoregressive pretraining for language understanding In Advances in neural information processing systems, pages 5753–5763, 2019 48 ... bày sở lý thuyết mơ hình biểu diễn liệu dạng văn bản, ảnh, đồ thị khảo sát phương pháp học máy biểu diễn vectơ sản phẩm Mơ hình biểu diễn vectơ sản phẩm phương pháp khai phá đồ thị đánh giá trình... đoan luận văn ? ?Xây dựng mơ hình biểu diễn vectơ sản phẩm thương mại điện tử dựa phương pháp khai phá đồ thị” cơng trình nghiên cứu, xây dựng riêng Các nội dung nghiên cứu, kết luận văn xác thực... mơ hình biểu diễn liệu văn bản, liệu ảnh, liệu đồ thị kĩ thuật học sâu Tiếp luận văn đề cập phương pháp biểu diễn vectơ sản phẩm thương mại điện tử 2.1 Cơ sở lý thuyết 2.1.1 Phương pháp biểu diễn