Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
0,93 MB
Nội dung
I HC QUăC GIA H TRìNG NáI I HC CNG NGH Trƒn Minh Tu§n X Y DÜNG M˘ H NH BI U DI N VECTÌ S N PH M TH×ÌNG M I I N TÛ DÜA TR N PH×ÌNG PH P KHAI PH ˙ THÀ LU NV NTH CSßKHOAH¯CM YTNH H NáI - 2020 I HC QUăC GIA H TRìNG NáI I HC CNG NGH Trn Minh TuĐn X Y DÜNG M˘ H NH BI U DI N VECTÌ S N PH M TH×ÌNG M I I N TÛ DÜA TR N PH×ÌNG PH P KHAI PH ˙ THÀ Ng nh: Khoa håc m¡y t‰nh Chuy¶n ng nh: Khoa håc mĂy tnh M s: LU NV NTH CSòKHOAHCM YTNH NGìI HìNG D N KHOA HC: TS V H NáI - 2020 NH HI U VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Tran Minh Tuan A PROPOSED MODEL FOR VECTOR REPRESENTATION OF ECOMMERCE PRODUCTS BASED ON GRAPH EMBEDDING THE MASTER THESIS Major: Computer Science Supervisor: Dr Vo Dinh Hieu HANOI - 2020 Líi cam oan Tỉi l Trƒn Minh TuĐn, hồc viản cao hồc lợp K26-KHMT, ng nh Khoa hồc thổng tin Tổi xin cam oan lun vôn XƠy düng mỉ h…nh bi”u di„n vectì s£n ph'm th÷ìng m⁄i iằn tò dỹa trản phữỡng phĂp khai phĂ ỗ th l cổng trnh nghiản cứu, xƠy dỹng ca riảng mnh CĂc ni dung nghiản cứu, kt quÊ lun vôn l x¡c thüc C¡c thỉng tin sß dưng lu“n v«n l câ cì sð v khỉng câ nºi dung n o ch†p tł c¡c t i li»u m khổng ghi rê trch dÔn tham khÊo Tổi xin chu tr¡ch nhi»m v• líi cam oan n y H Nºi, ng y th¡ng n«m 2020 Hồc viản cao hồc Trn Minh TuĐn i Lới cÊm ỡn Lới u tiản, tổi xin gòi lới cÊm ỡn v lặng bit ỡn sƠu sc tợi thy TS Vê nh Hiu, ngữới  tn tnh hữợng dÔn v ch¿ b£o tỉi suŁt thíi gian håc t“p bŁn n«m ⁄i håc, hai n«m cao håc v °t bi»t l thíi gian thüc hi»n lu“n v«n th⁄c sÿ Tỉi cơng xin ch¥n th nh c£m ìn c¡c thƒy, cỉ tr÷íng ⁄i håc Cỉng Ngh» v sü hØ trỉ cıa • t i QG.18.61 cıa ⁄i håc QuŁc gia H Ni  to mồi iãu kiằn thun lổi cho tỉi håc t“p v nghi¶n cøu Tỉi cơng xin c£m ỡn ỗng nghiằp ti Cổng ty C phn Khoa hồc Dœ li»u ¢ hØ trỉ thi‚t bà phƒn cøng, âng gâp dœ li»u cho • t i n y Tỉi xin gßi líi c£m ìn ‚n c¡c thƒy cỉ, c¡c anh chà, c¡c b⁄n phỈng th‰ nghi»m cıa bº mổn Cổng nghằ phn mãm  hỉ trổ tổi rĐt nhiãu vã kin thức chuyản mổn quĂ trnh thỹc hi»n lu“n v«n Tỉi xin c£m ìn c¡c b⁄n lợp K26  ng h v khuyn khch tổi suŁt qu¡ tr…nh håc t“p t⁄i tr÷íng CuŁi cịng, tỉi xin ữổc gòi cĂm ỡn vổ hn tợi gia nh, ngữới thƠn v bn b, nhng ngữới  luổn cnh, giúp ù v ng viản tổi nhng nôm th¡ng håc t“p nghi¶n cøu v cuºc sŁng H Nºi, ng y th¡ng nôm 2020 Hồc viản Trn Minh TuĐn ii Tõm tt Tõm tt: Nhng nôm gn Ơy, cĂc hot ng lắnh vỹc thữỡng mi iằn tò ng y c ng ph¡t tri”n t⁄i Vi»t Nam v quŁc t‚ C¡c n•n tÊng website thữỡng mi iằn tò ang nỉ lỹc em l⁄i tr£i nghi»m tŁt hìn cho ng÷íi mua s›m Mºt nhœng y‚u tŁ quan trång cıa l¾nh vüc n y l khÊ nông xò lỵ d liằu s lữổng sÊn ph'm v giao dch gia tông mỉi ng y C¡c dœ li»u n y s‡ ÷ỉc øng dưng b i toĂn nhữ gổi ỵ sÊn ph'm, phƠn lo⁄i s£n ph'm, tr ‰ch xu§t thỉng tin, t…m ki‚m sÊn ph'm Nghiản cứu ca lun vôn trung v o mỉ h…nh bi”u di„n vectì s£n ph'm gi u thæng tin ” l m ƒu v o cho c¡c b i to¡n håc m¡y øng dưng th÷ìng m⁄i iằn tò Mổ hnh n y sò dửng c trững cıa thuºc t‰nh s£n ph'm v dœ li»u mŁi quan hằ Nghiản cứu sò dửng phữỡng phĂp "graph embedding" - håc khæng gi¡m s¡t c¡c thuºc t‰nh cıa s£n ph'm t ỗ th quan hằ Nghiản cứu cụng ch sü hi»u qu£ cıa mỉ h…nh thüc nghi»m vỵi d liằu ỗ th sÊn ph'm h ng chửc triằu nh v trôm triằu cnh quan hằ T khõa: thữỡng mi iằn tò, khai phĂ ỗ th, vectỡ hõa sÊn ph'm, m⁄ng nì-ron t‰ch ch“p iii Abstract Abstract: In recent years, activities in the field of e-commerce have been increasingly developing in Vietnam and internationally E-commerce website platforms are striving to bring a better experience to shoppers One of the key factors of this area is the ability to process data as the number of products and transactions increases every day These data will be applied in problems such as product suggestions, product classification, information extraction, product search The thesis’s research focuses on constructing the model product vector representation as an input to the applied many tasks in e-commerce This model uses the characteristics of product attributes and the relationship between them Research using the method graph embedding - unsupervised learning of product attributes from the ecommerce graph The research also shows the effectiveness of the model when experimenting with millions of product vertices and hundreds of millions of edges Keywords: e-commerce, graph embedding, product embedding, convolution neural net-work iv Mưc lưc Líi cam oan Líi c£m ìn Tâm t›t Abstract Möc löc Danh möc c¡c tł vi‚t t›t v thut ng Danh sĂch hnh v Chữỡng t vĐn ã 1.1 Lỵ chồn ã t i 1.2 C¡c nghi¶n cøu li¶n quan 1.3 Mửc tiảu ca lun vôn 1.4 CĐu trúc lun vôn K‚t lu“n ch÷ìng Ch÷ìng Cỡ s lỵ thuyt v khÊo sĂt cĂc phữỡng phĂp 2.1 2.2 Cỡ s lỵ thuyt 2.1.1 Ph÷ì 2.1.2 Ph÷ì 2.1.3 Ph÷ì Kh£o s¡t c¡c ph÷ìng ph¡p bi”u di„n vectì s£n p 2.2.1 Ph¥n 2.2.2 Bi”u 2.2.3 Bi”u K‚t lu“n ch÷ìng v Ch÷ìng Mỉ h…nh bi”u di„n vector s£n ph'm b‹ng ph÷ìng phĂp khai phĂ ỗ th 3.1 nh nghắa b i to¡n 3.2 Mỉ t£ ph÷ìng ph¡p 3.3 ¡nh gi¡ ph÷ìng ph¡p 3.3.1 Ph÷ìng ph¡p ¡nh gi¡ mỉ h…nh 3.3.2 i”m m⁄nh cıa ph÷ìng ph¡p 3.3.3 H⁄n ch‚ cıa ph÷ìng ph¡p K‚t lu“n ch÷ìng Ch÷ìng Thüc nghi»m v ¡nh gi¡ k‚t qu£ 4.1 Ph÷ìng ph¡p v dœ li»u thüc nghi»m 4.2 X¥y düng h» thŁng thüc t‚ vỵi dœ li»u lỵn 4.3 K‚t qu£ thüc nghi»m v ph¥n t‰ch K‚t lu“n ch÷ìng Ch÷ìng K‚t lu“n T i li»u tham kh£o vi Danh möc c¡c tł vi‚t t›t v thu“t ngœ STT Tł vi‚t t›t TM T GMV Deep learning Word embedding Graph embedding PEBG CNN SVM API Ch÷ìng Thüc nghi»m v ¡nh gi¡ k‚t qu£ Trong ch÷ìng tr…nh b y ph÷ìng ph¡p v dœ li»u thüc nghi»m, ti‚p õ lun vôn ã xuĐt hằ thng trin khai thüc t‚ vỵi t“p dœ li»u lỵn v ¡nh gi¡ k‚t qu£ thüc nghi»m 4.1 Ph÷ìng ph¡p v dœ li»u thỹc nghiằm Mửc tiảu ca nghiản cứu l ã xuĐt mổ hnh biu din sÊn ph'm thữỡng mi iằn tò vợi d liằu lợn, bng phữỡng phĂp khai phĂ ç (PEBG - Product Embedding Big Graph) T“p dœ li»u dịng ” ¡nh gi¡ thüc nghi»m ÷ỉc tr‰ch tł dœ li»u s£n ph'm Shopee.VN - s n th÷ìng m⁄i iằn tò cõ lữổng truy cp cao nhĐt Viằt Nam nôm 2019 - 22.526.164 sÊn ph'm cõ lch sò hot ºng th¡ng gƒn nh§t, tł 2.074 ng nh h ng thuºc nhâm ng nh lỵn (b£ng 4.1) v 9.775 th÷ìng hi»u - 176.777.098 c⁄nh quan h» giœa sÊn ph'm vợi thữỡng hiằu, mức giĂ, thổng tin sÊn ph'm, v.v Thỉng tin v‰ dư v• b£n ghi dœ li»u s£n ph'm ÷ỉc th” hi»n h…nh 4.2 C¡c thæng tin dœ li»u quan h» s£n ph'm TM T ÷æc tr…nh b y b£ng 3.2 H» thŁng tri”n khai mỉ h…nh bi”u di„n vectì s£n ph'm sß dưng cĂc cổng nghằ nhữ: Hnh 4.1: Thng kả sÊn ph'm theo ng nh h ng 35 H…nh 4.2: V‰ dö b£n ghi dœ li»u s£n ph'm th÷ìng m⁄i 36 i»n tß - PostgreSQL 12.6 , Cassandra 3.0 : H» qu£n trà cì sð dœ li»u l÷u trœ dœ li»u s£n ph'm v vectì bi”u di„n - nltk, numpy, pandas : CĂc thữ viằn xò lỵ ngổn ng v thao t¡c vỵi file dœ li»u - Pytorch 1.6 , torchbiggraph 1.0 : Th÷ vi»n c i t mổ hnh hồc sƠu - NGT : Thữ vi»n ¡nh ch¿ mưc t…m ki‚m khỉng gian vectì s lữổng lợn - FastAPI : Framework xƠy dỹng API ứng dửng hiằu nông cao 4.2 XƠy dỹng hằ thŁng thüc t‚ vỵi dœ li»u lỵn Trong thüc t‚, n‚u ch¿ x¥y düng mỉ h…nh bi”u di„n vectì sÊn ph'm l chữa m cặn cn tch hổp vỵi c¡c th nh phƒn kh¡c v tri”n khai cho c¡c b i to¡n cö th” Trong phƒn n y s‡ tr…nh b y thi‚t k‚ h» thŁng tri”n khai mæ h…nh bi”u di„n s£n ph'm H…nh 4.3 th” hi»n biu ỗ dặng chÊy ca hằ thng, gỗm cõ th nh phn chnh l trch xuĐt c trững d liằu TM T, mổ hnh khai phĂ ỗ th, dch vư ¡nh ch¿ mưc vectì k‚t qu£, API øng dưng cho tng b i toĂn - Trch xuĐt c trững d liằu Th nh phn trch xuĐt c trững nhn ƒu v o l h» qu£n trà cì sð dœ li»u TM T v ƒu l dœ li»u quan hằ (cnh) sÊn ph'm CĂc nh ỗ th ữổc chu'n hâa, v‰ dư gi¡ s£n ph'm l 389000 ÷ỉc chu'n hõa vã price/400000, 280 lữổt bĂn ữổc chu'n hõa vã sold/300 Mửc tiảu ca viằc chu'n hõa n y l gióp gi£m sŁ l÷ỉng ¿nh, gom cưm c¡c t‰nh chĐt ging CĂc c trững xuĐt hiằn dữợi 10 lƒn t“p dœ li»u cơng s‡ ÷ỉc lo⁄i bä bữợc n y D liằu cnh quan hằ sÊn ph'm ÷ỉc l÷u trœ ành d⁄ng c¡c file Parquet vỵi cºt l Source, Relation Type, Destination, tŁi a mØi file tri»u dỈng https://www.postgresql.org https://cassandra.apache.org https://www.scipy.org https://pytorch.org https://torchbiggraph.readthedocs.io https://github.com/yahoojapan/NGT https://fastapi.tiangolo.com https://parquet.apache.org 37 Hnh 4.3: Biu ỗ dặng chÊy hằ thng bi”u di„n vectì s£n ph'm 38 V‰ dư b£n ghi s£n ph'm câ c¡c thæng tin: prod_base_id = 7938519219 shop_base_id = 27495213 price = 389000 cat_base_id = 160, 2341, 8554 brand = senka attr = ["d⁄ng s£n ph'm": "d⁄ng läng", "lo⁄i da": "måi lo⁄i da", "Dung tch (ml)": "275", "XuĐt xứ": "Nht BÊn", "Khi lữổng (g)": "300"] sold = 280 rating_count = 208 rating_avg = 4.86 C¡c c⁄nh quan h» ÷ỉc t⁄o l : prod/7938519219 shop > shop/27495213 prod/7938519219 cat > cat/1 160 prod/7938519219 cat > cat/1 2341 prod/7938519219 cat > cat/1 8554 prod/7938519219 brand > brand/senka prod/7938519219 attr/loai-da > attr/loai-da/moi-loai-da prod/7938519219 attr/dung-tich-ml > attr/dung-tich-ml/275 prod/7938519219 attr/xuat-xu > attr/xuat-xu/nhat-ban prod/7938519219 attr/khoi-luong-g > attr/khoi-luong-g/300 prod/7938519219 price > price/400000 prod/7938519219 sold > sold/300 prod/7938519219 rating_count > rating_count/200 prod/7938519219 rating_avg > rating_avg/4_9 - Mæ h…nh khai phĂ ỗ th Mổ hnh khai phĂ ỗ th thữỡng mi iằn tò (PEBG - Product Embedding Big Graph) nh“n ƒu v o l c¡c c⁄nh quan h», ƒu l mỉ h…nh bi”u di„n vectì c¡c ¿nh cıa ỗ th ToĂn tò huĐn luyằn mổ hnh l ph†p to¡n TransE[2] T ranslation (Ph†p cºng vectì cịng º d i), h m m§t m¡t l Sof tmax ” tông tc truy vĐn cnh quan hằ, mổ hnh chuy”n Œi ành d⁄ng Parquet sang 39 ành d⁄ng HDF5 ành d⁄ng HDF5 cho ph†p thao t¡c truy vĐn tm kim quan hằ cõ iãu kiằn theo cĂc ¿nh ( source_id, destination_id, type) nhanh châng H⁄n ch‚ cıa ành d⁄ng n y l t«ng hìn lƒn dung lữổng lữu tr, bi th file hdf5 ch tỗn ti qu¡ tr…nh hu§n luy»n mỉ h…nh MØi lƒn hu§n luy»n dœ li»u theo læ, mæ h…nh s‡ ghi l⁄i c¡c thỉng sŁ ¡nh mỉ h…nh nh÷ (loss, pos_rank, mrr, tợi giĂ r1, r10, r50) v dng huĐn luyằn nu ⁄t ng÷ïng (threshold loss score) - ¡nh ch¿ mưc vectì s£n ph'm Sau hu§n luy»n mỉ h…nh P EBG, gi¡ trà vectì s‡ ÷ỉc l÷u trœ v o cì sð dœ li»u lỵn key-value (Cassandra ) vỵi key l m¢ s£n ph'm v value l gi¡ trà vectì bi”u di„n Dàch vư ¡nh ch¿ mưc vectì gióp gi£m thíi gian t…m ki‚m Top K vectì gƒn nh§t h ng chưc tri»u vectì thíi gian thüc Trong nghi¶n cøu n y, hằ thng sò dửng thữ viằn m nguỗn mð ¡nh ch¿ mưc vectì NGT [12] Thỉng th÷íng n‚u c i °t thu“t to¡n ìn gi£n, chi ph‰ t…m kim top K vectỡ cõ th lản tợi O(n ) vợi n l s vectỡ Nghiản cứu tm kim xĐp x top K vectỡ gn nhĐt ca NGT vợi chi ph‰ ch¿ O(logn) - C¡c API khai th¡c theo tłng b i to¡n Tòy theo tłng b i to¡n m c¡c API øng dưng s‡ kh¡c Trong nghi¶n cứu n y, lun vôn trnh b y thò nghiằm vỵi b i to¡n khuy‚n nghà s£n ph'm Dàch vư n y nh“n ƒu v o l m¢ s£n ph'm v ƒu l danh s¡ch c¡c s£n ph'm lüa chån kh¡c Hi»u qu£ cıa chøc n«ng n y o bng t lằ nhĐp chut trản s ln hin th QuĂ trnh khuyn ngh sÊn ph'm n y gỗm bữợc chnh: Bữợc 1: Tm kim top 50 sÊn ph'm cõ vectỡ gn nhĐt so vợi m sÊn ph'm u v o Bữợc 2: Ănh giĂ li im (re-score) phũ hỉp: - Lo⁄i s£n ph'm câ l÷ỉng b¡n, ¡nh gi¡ thĐp, sÊn ph'm khĂc ca shop ìu tiản sÊn ph'm khĂc thữỡng hiằu, mức giĂ - ìu tiản sÊn ph'm mợi v bĂn chy Bữợc 3: Hin th 10 s£n ph'm câ i”m phị hỉp cao nh§t v o t¿ l» nh§p chuºt https://www.h5py.org 40 B£ng 4.1: So s¡nh k‚t qu£ Hits@10, Hits@50 giœa c¡c mæ h…nh khai phĂ ỗ th TM T Model Graph Node2Vec (category, brand, shop) Graph Basic (category, brand, shop) Graph Information (category, brand, shop, attribute) Graph Rich-Information - PBEG (category, brand, shop, attribute, price_level, rating_level, sold_level) 4.3 K‚t qu£ thüc nghi»m v Nghi¶n cứu  thỹc nghiằm trản cĐu hnh mĂy ch 64GB RAM; 32 CPU; 1024 GB SSD Œ cøng C¡c si¶u tham sŁ mæ h…nh PEBG (product embedding big graph) epoch = 3; dim_vecto = 128; batch_negative = 500 max_edges_per_chunk = 100000 loss_fn = softmax; lr = 0.1 Lu“n v«n so s¡nh mỉ h…nh PEBG c¡c phi¶n b£n kh¡c v vợi mổ hnh Node2Vec 10 (bÊng 4.1) ỗ th gỗm y thổng tin c trững bao gỗm cĂc quan hằ vợi: ng nh h ng, thữỡng hiằu, m shop, thuºc t‰nh s£n ph'm, møc gi¡, møc ¡nh gi¡, lữổng  bĂn cho hiằu quÊ huĐn luyằn tt nhĐt, ⁄t 96.2% t¿ l» Hits@50 i•u n y th” hi»n vectỡ sÊn ph'm  ữổc nn cĂc thổng tin gi u gi¡ trà cıa thæng tin s£n ph'm N‚u ch¿ huĐn luyằn t tản sÊn ph'm, kt quÊ vectỡ s khỉng nhóng ÷ỉc c¡c thỉng tin quan trång nh÷ møc giĂ, thổng s kắ thut, ngữới bĂn, v.v Nhng thổng tin n y l cì sð quan trång ” dịng cho b i to¡n ph¥n lo⁄i danh mưc, khuy‚n nghà s£n ph'm, t…m ki‚m s£n ph'm, v.v Mæ h…nh PEBG cụng cho thĐy khÊ nông huĐn luyằn mổ hnh vợi thíi gian ng›n v hi»u qu£, ¡p øng 10 https://snap.stanford.edu/node2vec 41 Hnh 4.4: Kt quÊ sÊn ph'm gổi ỵ lỹa chồn khĂc ữổc vợi d liằu ỗ th TM T lợn vợi h ng trôm triằu cnh quan hằ Kt qu£ vectì bi”u di„n s£n ph'm cıa mỉ h…nh PEBG cụng ữổc trin khai v o hằ thng gổi ỵ s£n ph'm lüa chån kh¡c (h…nh 4.4) Ph÷ìng ph¡p m h» thŁng 11 beecost.vn tri”n khai l l§y top K tản sÊn ph'm gn ging nhĐt Kt quÊ Ăp dưng ph÷ìng ph¡p Top K s£n ph'm cıa mỉ h…nh PEBG thĂng  giúp tông t lằ click xem s£n ph'm tł % l¶n 5.2 % K‚t lun chữỡng Chữỡng  trnh b y phữỡng ph¡p v dœ li»u thüc nghi»m cıa mæ h…nh Ti‚p õ lun vôn ã xuĐt thit k hằ thng thüc t‚ v ¡nh gi¡ k‚t qu£ thüc nghi»m 11 https://beecost.vn 42 Chữỡng Kt lun Thữỡng mi iằn tò ng y c ng ph¡t tri”n m⁄nh m‡ v l xu hữợng ca tữỡng lai Vợi sỹ tham gia ca h ng chửc triằu ngữới mua sm, cĂc nãn tÊng n y luổn luổn phÊi trững th nh v nƠng cao chĐt lữổng dch vử Bng viằc Ăp dửng phữỡng phĂp hồc mĂy, nhng hn ch trữợc Ơy  dn ÷ỉc kh›c phưc Mỉ h…nh bi”u di„n vectì s£n ph'm giúp nƠng cao hiằu quÊ huĐn luyằn ca cĂc lợp b i to¡n håc m¡y TM T Lu“n v«n ¢ tr…nh b y ph÷ìng ph¡p bi”u di„n vectì s£n ph'm dỹa trản kắ thut khai phĂ ỗ th Cử th nghiản cứu ca lun vôn cõ nhng kt quÊ chnh sau: - Lun vôn trnh b y v phƠn t‰ch c¡c ph÷ìng ph¡p bi”u di„n vectì s£n ph'm b‹ng nhóng nºi dung v nhóng h…nh £nh - Nghi¶n cøu ã xuĐt v xƠy dỹng hằ thng biu din vectỡ s£n ph'm tri”n khai thüc t‚ H» thŁng n y gỗm th nh phn chnh l trch xuĐt °c tr÷ng dœ li»u TM T, mỉ h…nh khai ph¡ ç (PEBG - Product Embedding Big Graph), dàch vö ¡nh ch¿ mưc vectì k‚t qu£, API øng dưng cho tłng b i to¡n - K‚t qu£ thüc nghi»m bi”u di„n vectì s£n ph'm tr¶n t“p dœ li»u hìn 22 tri»u s£n ph'm v 176 tri»u c⁄nh quan h» ⁄t 96.2 % Hits@50 H» thŁng khuy‚n nghà s£n ph'm ¡p dửng kt quÊ n y  tông t lằ chuyn i tông t % lản 5.2 % Trong nghiản cứu n y, mổ hnh sò dửng cĂc c trững trch xuĐt t thổng tin sÊn ph'm gỗm: m sÊn ph'm, m shop, thữỡng hiằu, ng nh h ng, thổng s kắ thut, giĂ bĂn, lữổng bĂn, s Ănh giĂ Tł vi»c chia nhä gi¡ trà dœ li»u th nh cĂc mức  giúp mổ hnh huĐn luyằn hiằu qu£ hìn K‚t qu£ cıa mỉ h…nh câ th” ¡p dửng ữổc cho nhiãu lợp b i toĂn TM T nhữ phƠn loi danh mửc, khuyn ngh sÊn ph'm, tm ki‚m s£n ph'm, gom cöm c¡c s£n ph'm chung °c i”m, v.v Tuy v“y mỉ h…nh PEBG g°p khâ kh«n vợi cĂc sÊn ph'm t trữớng thổng tin d liằu khc phửc iãu n y, hữợng cÊi tin tip theo l nƠng cĐp th nh phn tiãn xò 43 lỵ trch xuĐt d liằu tản sÊn ph'm p dửng kắ thut trch xuĐt thỹc th (Named Entity Extraction) giúp trch xuĐt cĂc thổng tin thữỡng hiằu, m sÊn ph'm, thuc tnh m u sc, kch thữợc t tản sÊn ph'm i”m h⁄n ch‚ ti‚p theo l mỉ h…nh ch÷a quan tƠm n ỵ nghắa ni dung giĂ tr ca nh nhữ tản thữỡng hiằu, ni dung thổng s kắ thu“t, v.v ” kh›c phưc h⁄n ch‚ â, ¢ câ mºt sŁ nghi¶n cøu [8, 11] tr…nh b y mỉ hnh nhúng ỗ th sò dửng thổng tin c trững nh Trong tữỡng lai hữợng nghiản cứu ca mổ hnh l hu§n luy»n tł c¡c thỉng tin ¿nh (feature node) v thỉng tin v• £nh s£n ph'm v gi¡ trà trång sŁ quan h» 44 T i li»u tham kh£o [1] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov En- riching word vectors with subword information Transactions of the Associa-tion for Computational Linguistics, 5:135 146, 2017 [2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko Translating embeddings for modeling multirelational data In Advances in neural information processing systems, pages 2787 2795, 2013 [3] Yukuo Cen, Jing Zhang, Gaofei Wang, Yujie Qian, Chuizheng Meng, Zonghong Dai, Hongxia Yang, and Jie Tang Trust relationship prediction in alibaba e-commerce platform IEEE Transactions on Knowledge and Data Engineering, 32(5):1024 1035, 2019 [4] Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D Manning Electra: Pre-training text encoders as discriminators rather than generators arXiv preprint arXiv:2003.10555, 2020 [5] J Clement Retail e-commerce sales worldwide from 2014 to 2023 Retrieved, 11(11):2019, 2019 [6] Gianna M Del Corso, Antonio Gulli, and Francesco Romani Ranking a stream of news In Proceedings of the 14th international conference on World Wide Web, pages 97 106, 2005 [7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei Ima- genet: A large-scale hierarchical image database In 2009 IEEE conference on computer vision and pattern recognition, pages 248 255 Ieee, 2009 [8] Yuxiao Dong, Nitesh V Chawla, and Ananthram Swami metapath2vec: Scal-able representation learning for heterogeneous networks In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pages 135 144, 2017 [9] John Duchi, Elad Hazan, and Yoram Singer Adaptive subgradient methods for online learning and stochastic optimization Journal of machine learning research, 12(7), 2011 45 [10] Aditya Grover and Jure Leskovec node2vec: Scalable feature learning for networks In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pages 855 864, 2016 [11] Will Hamilton, Zhitao Ying, and Jure Leskovec Inductive representation learning on large graphs In Advances in neural information processing sys-tems, pages 1024 1034, 2017 [12] Masajiro Iwasaki and Daisuke Miyazaki Optimization of indexing based on k-nearest neighbor graph for proximity search in high-dimensional data arXiv preprint arXiv:1810.07355, 2018 [13] Bernard J Jansen and Paulo R Molina The effectiveness of web search engines for retrieving relevant ecommerce links Information Processing & Manage-ment, 42(4):1075 1098, 2006 [14] Jeff Johnson, Matthijs Douze, and Herv† J†gou Billion-scale similarity search with gpus arXiv preprint arXiv:1702.08734, 2017 [15] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton Imagenet classifica-tion with deep convolutional neural networks In Advances in neural informa-tion processing systems, pages 1097 1105, 2012 [16] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut Albert: A lite bert for self-supervised learning of language representations arXiv preprint arXiv:1909.11942, 2019 [17] Adam Lerer, Ledell Wu, Jiajun Shen, Timothee Lacroix, Luca Wehrstedt, Ab-hijit Bose, and Alex Peysakhovich PyTorch-BigGraph: A Large-scale Graph Embedding System In Proceedings of the 2nd SysML Conference, Palo Alto, CA, USA, 2019 [18] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean Efficient estima-tion of word representations in vector space arXiv preprint arXiv:1301.3781, 2013 [19] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean Distributed representations of words compositionality pages 3111 3119, 2013 46 and phrases and their [20] Maximilian Nickel, Volker Tresp, and Hans-Peter Kriegel A three-way model for collective learning on multi-relational data In Icml, volume 11, pages 809 816, 2011 [21] Aditya Pal, Chantat Eksombatchai, Yitong Zhou, Bo Zhao, Charles Rosenberg, and Jure Leskovec Pinnersage: Multi-modal user embedding framework for recommendations at pinterest In Proceedings of the 26th ACM SIGKDD In-ternational Conference on Knowledge Discovery & Data Mining, pages 2311 2320, 2020 [22] Dimitris Paraschakis Algorithmic and Ethical Aspects of Recommender Sys-tems in E-Commerce Malmo university, Faculty of Technology and Society, 2018 [23] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer Deep contextualized word repre-sentations In Proc of NAACL, 2018 [24] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever Language models are unsupervised multitask learners 2019 [25] Karen Simonyan and Andrew Zisserman Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556, 2014 [26] Abe Vallerian Siswanto, Lilian Tjong, and Yordan Saputra Simple vector representations of e-commerce products In 2018 International Conference on Asian Language Processing (IALP), pages 368 372 IEEE, 2018 [27] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna Rethinking the inception architecture for computer vision In Proceed-ings of the IEEE conference on computer vision and pattern recognition, pages 2818 2826, 2016 [28] Mingxing Tan and Quoc V Le Efficientnet: Rethinking model scaling for convolutional neural networks arXiv preprint arXiv:1905.11946, 2019 [29] Th†o Trouillon, Johannes Welbl, Sebastian Riedel, ric Gaussier, and Guil- laume Bouchard Complex embeddings for simple link prediction International Conference on Machine Learning (ICML), 2016 47 [30] Manos Tsagkias, Tracy Holloway King, Surya Kallumadi, Vanessa Murdock, and Maarten de Rijke Challenges and research opportunities in ecommerce search and recommendations In SIGIR Forum, volume 54, 2020 [31] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Well- read students learn better: On the importance of pre-training compact models arXiv preprint arXiv:1908.08962v2, 2019 [32] Nam Vo and James Hays Generalization in metric learning: Should the em-bedding layer be embedding layer? pages 589 598, 2019 [33] Jizhe Wang, Pipei Huang, Huan Zhao, Zhibo Zhang, Binqiang Zhao, and Dik Lun Lee Billion-scale commodity embedding for e-commerce recommendation in alibaba In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 839 848, 2018 [34] Saining Xie, Ross Girshick, Piotr Doll¡r, Zhuowen Tu, and Kaiming He Ag- gregated residual transformations for deep neural networks In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1492 1500, 2017 [35] Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng Em- bedding entities and relations for learning and inference in knowledge bases arXiv preprint arXiv:1412.6575, 2014 [36] Hongxia Yang Aligraph: A comprehensive graph neural network platform In Proceedings of the 25th ACM SIGKDD International Conference on Knowl-edge Discovery & Data Mining, pages 3165 3166, 2019 [37] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdi-nov, and Quoc V Le Xlnet: Generalized autoregressive pretraining for lan-guage understanding In Advances in neural information processing systems, pages 5753 5763, 2019 48 ... l L1 ho°c L2 H m mĐt mĂt s t giĂ tr ti a vợi mÔu ¥m (negative sampling) L(y; y ) = max(0; margin y+y ) Trong â y l i”m cıa mÔu dữỡng v y l im ca mÔu Ơm Cổng thức h m mĐt mĂt ỗ th s l : L(h; r;... h…nh v o h» thŁng câ th” tri”n khai thüc t‚ gióp t«ng hi»u qu£ cho c¡c lợp b i toĂn hồc mĂy lắnh vỹc thữỡng mi iằn tò Phữỡng phĂp biu din sÊn ph'm l phữỡng phĂp khai phĂ d liằu dng ỗ th bng kắ... ¢ cõ nghiản cứu [18] ch rng cĂch lĐy mÔu t“p quan h» gi¡ trà sai câ th” 29 £nh hững n chĐt lữổng ca mổ hnh V dử ỗ tri»u s£n ph'm v câ 1000 danh möc, nu lĐy mÔu ỗng nhĐt mổ hnh s khổng ti ÷u ¡nh