1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Hệ thống thông tin quản lý: Xây dựng Module phân loại món ăn hỗ trợ gợi ý chọn món trên website đặt hàng

97 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng Module phân loại món ăn hỗ trợ gợi ý chọn món trên website đặt hàng
Tác giả Phạm Long Vũ
Người hướng dẫn PGS.TS. Nguyễn Thanh Bình, TS. Nguyễn Văn Long, TS. Nguyễn Anh
Trường học Trường Đại Học Bách Khoa
Chuyên ngành Hệ thống thông tin quản lý
Thể loại Luận văn thạc sĩ
Năm xuất bản 2019
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 97
Dung lượng 1,75 MB

Nội dung

Tӯ nhӳng vҩQ ÿӅ trên, tác giҧ ÿӅ xuҩt mӝt module phân loҥL PyQ ăQ Gӵa trên WrQPyQăQWӯ dӳ liӋu phân loҥi có thӇ GQJÿӇ hӛ trӧ khách hàng trong viӋc lӵa chӑn mӝWPyQăQSKKӧp vӟi nhu cҫu tӯ GD

Trang 1

ĈҤI HӐC QUӔC GIA TP HӖ CHÍ MINH 75ѬӠ1*ĈҤI HӐC BÁCH KHOA

-

PHҤM LONG VӺ

XÂY DӴNG MODULE PHÂN LOҤ,0Ï1Ă1

HӚ TRӦ GӦI Ý CHӐN MÓN 75Ç1:(%6,7(ĈҺT HÀNG

NGÀNH: Hӊ THӔNG THÔNG TIN QUҦN LÝ

MÃ NGÀNH: 60.34.04.05

LUҰ19Ă1 THҤ&6Ƭ

TP HӖ CHÍ MINHWKiQJQăP 2019

Trang 2

ĈҤI HӐC QUӔC GIA TP HӖ CHÍ MINH 75ѬӠ1*ĈҤI HӐC BÁCH KHOA

-

PHҤM LONG VӺ

XÂY DӴNG MODULE PHÂN LOҤ,0Ï1Ă1

HӚ TRӦ GӦI Ý CHӐN MÓN 75Ç1:(%6,7(ĈҺT HÀNG

NGÀNH: Hӊ THӔNG THÔNG TIN QUҦN LÝ

MÃ NGÀNH: 60.34.04.05

LUҰ19Ă1 THҤ&6Ƭ

TP HӖ CHÍ MINHWKiQJQăP 2019

Trang 3

&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*± HCM

Cán bӝ Kѭӟng dүn khoa hӑc: PGS.TS NGUYӈN THANH BÌNH

Trang 4

ĈҤI HӐC QUӔC GIA TP.HCM CӜNG HÒA XÃ HӜI CHӪ 1*+Ƭ$9,ӊT NAM

II NHIӊM VӨ VÀ NӜI DUNG

- ĈӅ xuҩt mӝt module phân loҥLPyQăQ

- Thu thұp dӳ liӋu vӅ PyQăQ

- Xӱ lý dӳ liӋXÿӇ tҥo mӝt tұp dӳ liӋu huҩn luyӋn

- Nghiên cӭu thuұt toán SKkQÿRҥn tӯ và phân loҥLÿDQKmQ

- ĈiQKJLiWKXұt toán

III NGÀY GIAO NHIӊM VӨ: 11/02/2019

IV NGÀY HOÀN THÀNH NHIӊM VӨ: 02/06/2019

Trang 5

LӠI CҦ0Ѫ1

Tôi xin tӓ lòng biӃWѫQYjNtQKWUӑng sâu sҳc vӟi thҫy PGS.TS NguyӉn Thanh

%uQKÿmWUӵc tiӃp tұQWuQKKѭӟng dүn tôi thӵc hiӋn luұQYăQQj\

Tôi xin cҧPѫQVӵ Kѭӟng dүn, chӍ dҥ\YjJL~Sÿӥ tұn tình cӫa các thҫy, các cô

giҧng dҥ\ VDX ÿҥi hӑc ± 7UѭӡQJ ÿҥi hӑF %iFK NKRD Ĉ+4* 73 Hӗ &Kt 0LQK ÿm

cung cҩp nhӳng tri thӭc, kinh nghiӋm trong suӕt quá trình hӑc tұp tҥLWUѭӡng

Và xin cҧPѫQEҥQEqYjQJѭӡLWKkQWURQJJLDÿuQKÿmWLQWѭӣng và truyӅn thêm

nghӏ lӵc cho tôi trong suӕt quá trình hӑc tұp và nghiên cӭu

Tôi hi vӑQJ ÿӅ tài luұQ YăQ Qj\ VӁ là nguӗn tài liӋX ÿӇ thӵc hiӋn cҧi tiӃn viӋc

phân loҥi dӳ liӋXFNJQJQKѭFҧi tiӃn quy trình tìm kiӃm hoһc sӱ dөng cho nhӳng mөc

ÿtQKULrQJPjFyWKӇ giҧm bӟt thӡi gian tìm hiӇXEDQÿҫu

MһF G ÿm Fӕ gҳng rҩt nhiӅu trong quá trình thӵc hiӋn, song vӟi thӡi gian có

hҥn nên luұQYăQNK{QJWUiQKNKӓi nhӳQJÿLӅu thiӃXVyWFKѭDKRjQWKjQKUҩt mong

nhұQÿѭӧc sӵ ÿyQJJySEә sung tӯ quý Thҫy Cô và các bҥn

Hӑc viên Phҥm Long Vӻ Tháng 5-2019

Trang 6

%ѭӟc thӭ hai, tác giҧ nghiên cӭu tìm hiӇu các thuұt toán phân loҥLÿDQKmQFythӇ ÿѭӧc sӱ dөng trong module phân loҥLPyQăQÿѭӧFÿӅ xuҩt

%ѭӟc thӭ ba, tác khҧo sát các website vӅ nҩXăQFKLDVҿ các công thӭc nҩXăQnhҵm tìm kiӃm nguӗn dӳ liӋX PyQ ăQ ÿm ÿѭӧF JiQ QKmQ WUѭӟF ÿӇ làm tұp dӳ liӋu ÿiQK JLi FiF WKXұW WRiQ ÿӅ xuҩt cho module Tác giҧ ÿm Oӵa chӑn website http://cooky.vn/ ÿӇ thӵc hiӋn thu thұp dӳ liӋu vӅ cách thӭc thӵc hiӋQPyQăQFNJQJQKѭQJX\rQOLӋu chӃ biӃn;

%ѭӟc cuӕi cùng, tác giҧ thӵc hiӋQÿiQKJLi các công cө SKkQÿRҥn tӯ và các thuұt toán dӵa trên 3 tiêu chí là tӕF ÿӝ huҩn luyӋQ ÿӝ chính xác trên mүX Yj ÿӝ chính xác trên nhãn

NhӳQJÿiQKJLiYjNӃt luұn cӫa luұQYăQFKRWKҩy tính khҧ thi cӫDPRGXOHÿѭӧc

ÿӅ xuҩt

Trang 7

Secondly, the author has researched and investigated the multilabel classification algorithms can recommend for foods classification module

Thirdly, for the purpose of building the testing dataset, the author collected source of the classified food data on the cooking websites and cooking recipes The ZHEVLWH ³&22.<91´ KDV EHHQ VHOHFWHG WR FROOHFW FRRNLQJ PHWKRGV DV ZHOO DVtheir ingredients

Last but not least, the author has measure the algorithms based on three criterions: training speed, sample accuracy and label accuracy

7KHWKHVLV¶VRXWFRPHKDVVKRZHGWKDWWKHUHFRPPHQGHGFODVVLILFDWLRQPRGXOHhas significant impacts

Trang 8

LӠI CAM Ĉ2$1

7{L [LQ FDP ÿRDQ Vӕ liӋu và kӃt quҧ nghiên cӭu trong luұQ YăQ Qj\ Oj WUXQJthӵc Mӑi sӵ JL~Sÿӥ cho viӋc thӵc hiӋn luұQYăQQj\ÿӅXÿmÿѭӧc cҧPѫQYjPӑi thông tin trích dүn trong luұQYăQÿӅXÿѭӧc chӍ rõ nguӗn gӕFU}UjQJYjÿѭӧc phép công bӕ

Hӑc viên thӵc hiӋn Phҥm Long Vӻ

Trang 9

MӨC LӨC

MӨC LӨC i

DANH MӨC BҦNG iii

DANH MӨC HÌNH v

DANH MӨC CHӲ VIӂT TҲT vi

&+ѬѪ1* GIӞI THIӊU 1

1.1 GIӞI THIӊ8Ĉӄ TÀI 1

1.2 MӨC TIÊU VÀ NӜ,'81*Ĉӄ TÀI 2

1.2.1 Mͭc tiêu 2

1.2.2 N͡LGXQJÿ͉ tài 3

1.3 GIӞI HҤN Ĉӄ TÀI 3

1.4 CҨU TRÚC LUҰ19Ă1 3

&+ѬѪ1* &Ѫ6Ӣ LÝ THUYӂT VÀ CÁC NGHIÊN CӬU LIÊN QUAN 5 2.1 &Ѫ6Ӣ LÝ THUYӂT 5

2.1.1 Phân lo̩LÿDQKmQ 5

2.1.2 3KkQÿR̩n tͳ ti͇ng Vi͏t 12

2.2 CÁC NGHIÊN CӬU LIÊN QUAN 15

&+ѬѪ1* XÂY DӴNG MODULE PHÂN LOҤ,0Ï1Ă1+Ӛ TRӦ GӦI Ý CHӐ10Ï175Ç1:(%6,7(ĈҺT HÀNG 19

3.1 MÔ HÌNH GӦ,é0Ï1Ă1 19

3.2 MODULE PHÂN LOҤ,Ĉӄ XUҨT 20

3.2.1 Ti͉n x͵ lý dͷ li͏u 21

3.2.2 RúWWUtFKÿ̿FWU˱QJYjSKkQOR̩LÿDQKmQ 22

3.3 3+ѬѪ1*3+È3ĈÈ1+*,È 22

&+ѬѪ1* ĈÈ1+*,È02'8/(3+Æ1/2Ҥ,0Ï1Ă1 24

4.1 0Ð,75ѬӠ1*9¬&È&%ѬӞC THӴC HIӊN 24

4.2 THU THҰP DӲ LIӊU 25

4.2.1 Công cͭ thu th̵p dͷ li͏u 25

Trang 10

4.2.2 &iFKE˱ͣc th͹c hi͏n và k͇t qu̫ 26

4.2.3 Chuy͋Qÿ͝i dͷ li͏u 28

4.3 ĈÈ1+*,È'Ӳ LIӊU 31

4.3.1 T̵p dͷ li͏u A g͛m 160 nhãn 31

4.3.2 T̵p dͷ li͏u 2 g͛m 105 nhãn 34

4.4 CHUҬN Bӎ DӲ LIӊU CHO MÔ HÌNH 37

4.5 ĈÈ1+*,È7+8Ұ772È13+Æ1Ĉ2ҤN TӮ 38

4.5.1 ThͥLJLDQSKkQÿR̩n tͳ 38

4.5.2 K͇t qu̫ SKkQÿR̩n tͳ 38

4.6 ĈÈNH GIÁ THUҰT TOÁN PHÂN LOҤ,Ĉ$1+­1 40

4.6.1 OneVsRest vͣi thu̵t toán LogisticRegression 40

4.6.2 OneVsRest vͣi thu̵t toán Naive Bayes 42

4.6.3 OneVsRest vͣi thu̵t toán LinearSVC 43

4.6.4 Multiple Binary Classifications - (Binary Relevance - BR) 45

4.6.5 Classifier Chains (CC) 47

4.6.6 Random k Labelset (RakEL) 48

4.6.7 Multilabel k Nearest Neighbor (ML-kNN) 50

4.6.8 Multi-Label Decision Tree (ML-DT) 51

4.7 NHҰ1;e7ĈÈ1+*,È 53

&+ѬѪ1* KӂT LUҰN 55

5.1 KӂT QUҦ ĈҤ7ĈѬӦC 55

5.2 Ѭ89¬1+ѬӦ&Ĉ,ӆM 55

5.2.1 ˰XÿL͋m 55

5.2.2 1K˱ͫFÿL͋m 55

5.3 ĈÏ1**Ï3&ӪA LUҰ19Ă1 55

5.3.1 ĈyQJJySNKRDK͕c 55

5.3.2 ĈyQJ góp th͹c ti͍n 56

5.4 +ѬӞNG MӢ RӜ1*7521*7ѬѪ1*/$, 56

TÀI LIӊU THAM KHҦO 57

PHӨ LӨC 59

Trang 11

DANH MӨC BҦNG

Bҧng 2.1 Phát biӇu các dҥng bài toán phân loҥi A Phân loҥLÿѫQQKmQ%3KkQORҥi

ÿDQKmQ&Phân loҥLÿѫQQKmQÿDWKӇ hiӇn; D Phân loҥLÿDQKmQÿDWKӇ hiӋn [4] 6

Bҧng 2.2 Mô hình thuұt toán Binary Relevance(BR) [5] 9

Bҧng 2.3 Mô hình thuұt toán Classifier Chain [5] 10

Bҧng 2.4 Minh hӑa thuұt toán Random k Labelset [5] 10

Bҧng 2.5 Mô tҧ thuұt toán Multi-Label k Nearest Neighbor (ML-kNN)[5] 11

Bҧng 2.6 Mô tҧ thuұt toán Multi-Label Decision Tree(ML-DT)[5] 12

Bҧng 4.1 Danh sách các nhãn cách thӵc hiӋQPyQăQ 29

Bҧng 4.2 Danh sách các nhãn loҥi nguyên liӋu 29

Bҧng 4.3 Sӕ OѭӧQJPyQăQWURQJPӛi nhãn trong tұp dӳ liӋu A 32

Bҧng 4.4 Sӕ OѭӧQJPyQăQWURQJPӛi nhãn trong tұp dӳ liӋu B 35

Bҧng 4.5 KӃt quҧ thӡi gian huҩn luyӋn cӫa OneVsRest vӟi thuұt toán Logistic Regression 40

Bҧng 4.6 KӃt quҧ ÿRWUrQPүu cӫa OneVsRest vӟi thuұt toán LogisticRegression 41 Bҧng 4.7 KӃt quҧ ÿR WUrQ QKmQ Fӫa OneVsRest vӟi thuұt toán LogisticRegression vӟi tұp dӳ liӋu 160 nhãn 41

Bҧng 4.8 KӃt quҧ ÿR WUrQ QKmQ Fӫa OneVsRest vӟi thuұt toán LogisticRegression vӟi tұp dӳ liӋu 105 nhãn 42

Bҧng 4.9 KӃt quҧ thӡi gian huҩn luyӋn cӫa OneVsRest vӟi thuұt toán Naive Bayes 42

Bҧng 4.10 KӃt quҧ ÿo trên mүu cӫa OneVsRest vӟi thuұt toán Naive Bayes 42

Bҧng 4.11 KӃt quҧ ÿRWUrQQKmQFӫa OneVsRest vӟi thuұt toán Naive Bayes vӟi tұp dӳ liӋu 160 nhãn 43

Bҧng 4.12 KӃt quҧ ÿRWUrQQKmQFӫa OneVsRest vӟi thuұt toán Naive Bayes vӟi tұp dӳ liӋu 105 nhãn 43

Bҧng 4.13 KӃt quҧ thӡi gian huҩn luyӋn cӫa OneVsRest vӟi thuұt toán LinearSVC 43

Bҧng 4.14 KӃt quҧ ÿRWUrQPүu cӫa OneVsRest vӟi thuұt toán LinearSVC 44

Bҧng 4.15 KӃt quҧ ÿRWUrQQKmQFӫa OneVsRest vӟi thuұt toán LinearSVC vӟi tұp dӳ liӋu 160 nhãn 44

Bҧng 4.16 KӃt quҧ ÿRWUrQQKmQFӫa OneVsRest vӟi thuұt toán LinearSVC vӟi tұp dӳ liӋu 105 nhãn 45

Bҧng 4.17 KӃt quҧ thӡi gian huҩn luyӋn cӫa thuұt toán Multiple Binary Classific 45 Bҧng 4.18 KӃt quҧ ÿRWUrQPүu cӫa thuұt toán Multiple Binary Classific 45

Bҧng 4.19 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Multiple Binary Classific vӟi tұp dӳ liӋu 160 nhãn 46

Trang 12

Bҧng 4.20 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Multiple Binary Classific vӟi tұp dӳ liӋu 105 nhãn 46Bҧng 4.21 KӃt quҧ thӡi gian huҩn luyӋn cӫa thuұt toán Classifier Chains 47Bҧng 4.22 KӃt quҧ ÿRWUrQPүu cӫa thuұt toán Classifier Chains 47Bҧng 4.23 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Classifier Chains vӟi tұp dӳ liӋu 160 nhãn 48Bҧng 4.24 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Classifier Chains vӟi tұp dӳ liӋu 105 nhãn 48Bҧng 4.25 KӃt quҧ thӡi gian huҩn luyӋn cӫa thuұt toán Random k Labelset 48Bҧng 4.26 KӃt quҧ ÿRWUrQPүu cӫa thuұt toán Random k Labelset 49Bҧng 4.27 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Random k Labelset vӟi tұp dӳ liӋu

160 nhãn 49Bҧng 4.28 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Random k Labelset vӟi tұp dӳ liӋu

105 nhãn 49Bҧng 4.29 KӃt quҧ thӡi gian huҩn luyӋn cӫa thuұt toán Multilabel k Nearest Neighbor 50Bҧng 4.30 KӃt quҧ ÿRWUrQPүu cӫa thuұt toán Multilabel k Nearest Neighbor 50Bҧng 4.31 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Multilabel k Nearest Neighbor vӟi tұp dӳ liӋu 160 nhãn 51Bҧng 4.32 KӃt quҧ ÿRWUrQQKmQcӫa thuұt toán Multilabel k Nearest Neighbor vӟi tұp dӳ liӋu 105 nhãn 51Bҧng 4.33 KӃt quҧ thӡi gian huҩn luyӋn cӫa thuұt toán Multi-Label Decision Tree 51Bҧng 4.34 KӃt quҧ ÿRWUrQPүu cӫa thuұt toán Multi-Label Decision Tree 52Bҧng 4.35 KӃt quҧ ÿRWUrQ Pүu cӫa thuұt toán Multi-Label Decision Tree vӟi tұp

dӳ liӋu 160 nhãn 52Bҧng 4.36 KӃt quҧ ÿRWUrQQKmQFӫa thuұt toán Multi-Label Decision Tree vӟi tұp

dӳ liӋu 105 nhãn 52

Trang 13

DANH MӨC HÌNH

Hình 2.1 Mô tҧ 4 dҥng bài toán phân loҥi A Phân loҥLÿѫQQKmQ%3KkQORҥLÿD

nhãn; C Phân loҥLÿѫQQKmQÿDWKӇ hiӇn; D Phân loҥLÿDQKmQÿDWKӇ hiӋn [4] 5

Hình 2.2 Phân loҥi các thuұt toán phân loҥLÿDQKmQ>@ 7

Hình 3.1 Mô hình gӧLêPyQăQ 19

Hình 3.2 Module phân loҥLPyQăQ 20

+uQK4X\WUuQKÿiQKJLiPRGXOHSKkQORҥLPyQăQ 24

Hình 4.2 KiӃn trúc cӫa Selenium Web Driver (nguӗn: https://viblo.asia/) 26

Hình 4.3 Giao diӋn công thӭc nҩXăQSKkQORҥi theo cách thӵc hiӋn 27

Hình 4.4 Dӳ liӋXFiFPyQăQÿѭӧc phân loҥi theo cách chӃ biӃn 27

Hình 4.5 Giao diӋn nguyên liӋu cӫa mӝt công thӭc nҩXăQ 28

Hình 4.6 Dӳ liӋu vӅ nguyên liӋu cӫa các myQăQ 28

Hình 4.7 Tұp dӳ liӋXVDXNKLÿmFKX\ӇQÿәi 31

Hình 4.8 Sӕ Oѭӧng dӳ liӋu có trong tұp dӳ liӋu A 31

Hình 4.9 Sӕ OѭӧQJPyQăQÿmJiQQKmQYjFKѭDJiQQKmQWURQJWұp dӳ liӋu A 32

Hình 4.10 Sӕ Oѭӧng nhãn có trong tұp dӳ liӋu A 32

Hình 4.11 Sӕ OѭӧQJPyQăQWKHRVӕ Oѭӧng QKmQÿѭӧc gҳn trong tұp dӳ liӋu A 34

Hình 4.12 Sӕ Oѭӧng dӳ liӋu có trong tұp dӳ liӋu B 35

Hình 4.13 Sӕ OѭӧQJPyQăQÿmJiQQKmQYjFKѭDJiQQKmQWURQJWұp dӳ liӋu B 35

Hình 4.14 Sӕ Oѭӧng nhãn có trong tұp dӳ liӋu B 35

Hình 4.15 Sӕ OѭӧQJPyQăQWKHRVӕ OѭӧQJQKmQÿѭӧc gҳn trong tұp dӳ liӋu B 37

+uQK&iFEѭӟc thӵc hiӋn cӫa module phân loҥLPyQăQ 54

Trang 14

DANH MӨC CHӲ VIӂT TҲT

Trang 15

&+ѬѪ1* GIӞI THIӊU

1.1 GIӞI THIӊ8Ĉӄ TÀI

Sӵ phát triӇn gҫQÿk\ FӫD,QWHUQHWÿmtҥRÿLӅu kiӋn mӣ rӝng các dӏch vө cung cҩp thӵc phҭm trӵc tuyӃn bҵng cách cho phép mӑLQJѭӡi tìm kiӃm, so sánh giá cҧ,

dӉ dàng kӃt nӕLÿѭӧc vӟLÿLӇPEiQYjÿѭӧc vұn chuyӇQÿӃn tұQQѫL

VӅ FѫEҧn, các dӏch vө cung cҩp thӵc phҭm trӵc tuyӃn là mӝt quy trình kӃt nӕi giӳa 3 bӝ phұQ NKiFK KjQJ ÿLӇP EiQ Yj QJѭӡi vұn chuyӇn (shipper) Khi khách hàng vào website hoһc ӭng dөQJÿӇ ÿһt PyQÿLӇm bán sӁ nhұQÿѭӧc thông tin vӅ ÿѫQKjQJÿӇ chuҭn bӏ chӃ biӃQÿyQJJyL7URQJNKLÿyVKLSSHUÿѭӧFWK{QJEiRÿӇ

di chuyӇn ÿӃQÿLӇPEiQYjVDXÿyPDQJWKӭFăQÿӃQÿӏDÿLӇm cӫa khách hàng Theo cuӝc khҧo sát cӫD +DYDV 5LYHURUFKLG YjR QăP  Fy WӟL  QJѭӡi ÿѭӧc hӓi cho biӃt tӯng sӱ dөng dӏch vө giao thӭF ăQ WұQ QѫL 7URQJ EiR FiR Fӫa Euromonitor, thӏ WUѭӡQJÿһt món trӵc tuyӃn ӣ ViӋt Nam giá trӏ khoҧng 33 triӋu USD WURQJQăPYjGӵ báo sӁ ÿҥWKѫQWULӋX86'YjRQăP [1][2]

Trong thӏ WUѭӡng cung cҩp thӵc phҭm trӵc tuyӃn ӣ ViӋt Nam hiӋn nay có khá nhiӅX ÿѫQ Yӏ cung cҩp QKѭ 1RZ GrabFood, Vietnammm, Chonmon.vn, Eat.vn, Lala, Lozi, Ahamove,« WURQJÿyFii tên nәi bұt hiӋn nay là Now và GrabFood GrabFood vӯDWKDPJLDWURQJOƭQKYӵc này, có trong tay mӝWÿӝLQJNJVKLSSHUÿ{QJÿҧo và sӣ hӳXOѭӧQJQJѭӡi dùng rҩt lӟn tӯ thӏ WUѭӡQJÿһt ô tô và xe máy, dӳ liӋu QJѭӡi dùng lӟQ FNJQJ QKѭ NLQK QJKLӋm triӇn khai mҧng JLDR ÿӗ ăQ Now là mӝt phҫn cӫa hӋ sinh thái ҭm thӵc Foody, GR ÿy 1RZ ÿѭӧc kӃ thӯa mӝW Oѭӧng khách KjQJÿiQJNӇ và mҥQJOѭӟi các nhà hàng tӯ Foody Trên hӋ thӕng Now là hiӋQÿDQJ

có khoҧng 20.000 nhà hàng GR ÿy Oӵa chӑn ҭm thӵc cӫD NKiFK KjQJ NKL ÿһt món qua Now vì thӃ FNJQJSKRQJSK~KѫQErQFҥQKÿy1RZFNJQJSKiWWULӇn mӝt ÿӝLQJNJshipper chuyên nghiӋp Chính khҧo sát cӫD +DYDV 5LYHURUFKLG FNJQJ [iF QKұn, 'HOLYHU\1RZOjFiLWrQÿҫXWLrQÿѭӧFQJѭӡi dùng nhҳPÿӃn khi hӓi vӅ dӏch vө ÿһt PyQăQWҥi TP HCM [1][3]

&iFÿѫQYӏ cung cҩp dӏch vө thӵc phҭm trӵc tuyӃn hiӋQQD\ÿDQJWұp trung phát triӇn mҥQJOѭӟLQKjKjQJÿӇ cung cҩp thêm nhiӅu sӵ lӵa chӑn cho khách hàng, tӕi ѭXTX\WUuQKÿһWPyQÿӇ rút ngҳn thӡi gian xӱ OêYjÿӗng thӡi phát triӇn mӝWÿӝLQJNJshipper chuyên nghiӋp, luôn sҹn sàng giao hàng Tuy nhiên, các ÿѫQ Yӏ cung cҩp dӏch vө thӵc phҭm trӵc tuyӃQFKѭDTXDQWkPQKLӅXÿӃn nhu cҫu cӫa khách hàng, khi

Trang 16

cӕ gҳng thêm thұt nhiӅXPyQăQYjRGDQKViFKÿӇ tҥo ra sӵ lӵa chӑn phong phú cho NKiFKKjQJQKѭQJYuPӝt danh sách quá nhiӅXWKuFNJQJOjFҧn trӣ ÿӇ khách hàng có thӇ chӑQÿѭӧc mӝt món vӯa ý

Trên trang ÿһt hàng trӵc tuyӃn, hӋ thӕng hӛ trӧ cho khách hàng lӑc các sҧn phҭm theo các dҥng: ĈӏDÿLӇm cӫDTXiQăQ WKHRTXұn/huyӋn); Cách chӃ biӃn theo lãnh thә (món ViӋt, món Hàn, món ҨQ« ; Theo các hình thӭc QKѭ&ѫPWUѭDÿӗ FKD\ÿӗ uӕQJăQYһW«mӝt sӕ hӋ thӕng FNJQJKӛ trӧ chӭFQăQJWuPNLӃm bҵng cách tìm kiӃm gҫQ ÿ~QJ Yӟi dӳ liӋX ÿѭӧc nhұp vào Tuy nhiên vӟi các hình thӭc này khách hàng phҧi nhӟ ÿѭӧc chính xác tên món, hoһc tìm kiӃm trong danh sách rҩt dài gây mҩt thӡi gian sàng lӑc, giҧm sӵ Kѭӟng thú cӫa khách hàng

ViӋFÿҫXWѭF{QJQJKӋ cҧi tiӃQTX\WUuQKNLQKGRDQKFNJQJQKѭSKiWWULӇn mҥng Oѭӟi nhân viên giao nhұn chuyên nghiӋSFNJQJVӁ không mang lҥi hiӋu quҧ tӕt khi khách hàng không lӵa chӑQ ÿѭӧc PyQ ÿӇ ÿһW FNJQJ QKѭ NK{QJ Gӵ EiR ÿѭӧc xu KѭӟQJ[iFÿӏnh hành vi chӑn món, mӕi quan hӋ giӳa các yӃu tӕ ÿӇ lӵa chӑn món ăQQKҵm hӛ trӧ tӕWKѫQYLӋc lӵa chӑn món phù hӧp vӟi mӛi khách hàng trong mӝt danh sách món khәng lӗ

Tӯ nhӳng vҩQ ÿӅ trên, tác giҧ ÿӅ xuҩt mӝt module phân loҥL PyQ ăQ Gӵa trên WrQPyQăQWӯ dӳ liӋu phân loҥi có thӇ GQJÿӇ hӛ trӧ khách hàng trong viӋc lӵa chӑn mӝWPyQăQSKKӧp vӟi nhu cҫu tӯ GDQKViFKKjQJWUăPQJjQPyQăQWӯ hàng QJjQTXiQăQ

1.2 MӨC TIÊU VÀ NӜ,'81*Ĉӄ TÀI

1.2.1 Mөc tiêu

Tӯ thӵc trҥQJFiFPyQăQWUrQFiFWUDQJÿһt hàng trӵc tuyӃQFKѭDWKӇ phân loҥi

tӵ ÿӝng tác giҧ nhұn thҩy có thӇ sӱ dөng các dӳ liӋXÿmSKkQORҥi sҹn tӯ các nguӗn công thӭc nҩXăQQKѭWUDQJFRRN\YQÿӇ phân loҥLFiFPyQăQFyWUrQKӋ thӕQJÿһt PyQăQWrӵc tuyӃn Tӯ ÿyPөc tiêu cӫDÿӅ WjLÿӅ ra là: Xây dӵng mӝt module phân loҥLPyQăQchӍ dӵDWUrQWrQPyQăQÿӗng thӡi có thӇ gҳQÿѭӧc càng nhiӅu nhãn có thӇ OLrQTXDQÿӃQÿһFWUѭQJFӫDPyQăQ dӵDWUrQFѫVӣ ÿánh giá các thuұt toán phân ÿRҥn tӯ các thuұt toán phân loҥLÿDQKmQ

Trang 17

1.2.2 NӝLGXQJÿӅ tài

ĈӇ thӵc hiӋn mөc tiêu trên, tác giҧ sӁ thӵc hiӋn các nӝi dung sau:

i ĈӅ xuҩt module phân loҥLPyQăQ

ii Thu thұp và xӱ lý dӳ liӋXÿӇ tҥo bӝ dӳ liӋu cho mô hình phân loҥi trên trang cooky.vn;

iii Nghiên cӭu, tìm hiӇu thuұt toán SKkQ ÿRҥn tӯ tiӃng viӋt và thuұt toán phân loҥL ÿD QKmQ ӭng dөng các kӃt quҧ nghiên cӭu vào module phân loҥi;

iv ĈiQKJLikӃt quҧ SKkQÿRҥQWrQPyQăQYjFiFWKXұt toán phân loҥi ÿDnhãn ÿӇ FyFѫVӣ lӵa chӑn thuұt toán phù hӧp vӟi module phân loҥi món

ăQ ÿѭӧFÿӅ xuҩt;

1.3 GIӞI HҤ1Ĉӄ TÀI

ĈӅ tài này chӍ xoay quanh ÿӅ xuҩt module phân loҥLPyQăQ thu thұp dӳ liӋu ÿDQJFyWUrQWUDQJFRRN\YQÿӇ tҥo bӝ dӳ liӋXÿiQKJLiFiFF{QJFө SKkQÿRҥn tӯ và các thuұt toán phân loҥLÿDQKmQQKҵPÿӅ xuҩt công cө và thuұt toán phù hӧp cho module phân loҥLPyQăQ

&KѭѫQJ± XÂY DӴNG MODULE PHÂN LOҤ,0Ï1Ă1+Ӛ TRӦ GӦI Ý CHӐ1 0Ï1 75Ç1 :(%6,7( ĈҺT HÀNG WURQJ FKѭѫQJ Qj\ WiF JLҧ sӁ giӟi thiӋu mӝt mô hình gӧLêPyQQăQYjÿӅ xuҩt xây dӵng mӝt module phân loҥi món ăQGӵa trên các lý thuyӃt liên quan;

&KѭѫQJ± ĈÈ1+*,È02'8/(3+Æ1/2Ҥ,0Ï1Ă1WURQJFKѭѫQJQj\tác giҧ sӁ trình bày FiFEѭӟc thӵc hiӋn, kӃt quҧ thu thұp dӳ liӋu, chuҭn bӏ tұp dӳ liӋu

ÿӇ ÿiQKJLicác công cө SKkQÿRҥn, các thuұt toán phân loҥLÿDQKmQYjWӯ kӃt quҧ

Trang 18

ÿiQKJLiÿӇ ÿӅ xuҩt lӵa chӑn công cө và thuұt toán phù hӧp vӟi module phân loҥi PyQăQ

&KѭѫQJ5 ± KӂT LUҰ1WURQJFKѭѫQJQj\WiFJLҧ sӁ trình bày các kӃt quҧ ÿmÿҥt cӫDÿӅ WjLFiFѭXQKѭӧFÿLӇPWURQJÿӅ WjLFNJQJQKѭFiFÿyQJJySYjKѭӟng mӣ rӝng WURQJWѭѫQJOai cӫDÿӅ tài

Trang 19

&+ѬѪ1* &Ѫ6Ӣ LÝ THUYӂT VÀ CÁC NGHIÊN

CӬU LIÊN QUAN 2.1 &Ѫ6Ӣ LÝ THUYӂT

2.1.1 Phân loҥi ÿDQKmQ

a Giӟi thiӋu vӅ các bài toán phân loҥi

Trong bài toán phân loҥi (classification) có 04 dҥng bài toán phân loҥi QKѭVDX

- B - Bài toán phân loҥLÿDQKmQYtGө QKѭSKkQORҥi tӵ ÿӝng mӝWWKѭYjROӟp WKѭFKtQK QKmQWKӭ  WKѭVSDP QKmQWKӭ  WKѭTXҧng cáo (nhãn thӭ 3) hoһFWKѭWӯ thông báo tӯ mҥng xã hӝi (nhãn thӭ 4) tӯ ÿӏa chӍ gӱi (thӇ hiӋn);

- C - Bài toán phân loҥi ÿѫQQKmQÿDWKӇ hiӋQ&NJQJQKѭYtGө phân loҥi cho OiWKѭÿyFySKҧLOjWKѭVSDP QKmQ KD\OjNK{QJWKuQJRjLGQJÿӏa chӍ gӱi (thӇ hiӋn thӭ 1) còn xem tӟLWLrXÿӅ WKѭ WKӇ hiӋn thӭ 2), nӝi dung bên trong (thӇ hiӋn thӭ 3) hoһc tài liӋXÿtQKNqP WKӇ hiӋn thӭ 4);

- D - Bài toán phân loҥi ÿDQKmQÿDWKӇ hiӋn: ví dө QKѭphân loҥi tӵ ÿӝng mӝt WKѭYjROӟSWKѭFKtQK QKmQWKӭ  WKѭVSDP QKmQWKӭ  WKѭTXҧng cáo (nhãn thӭ 3) hoһFWKѭWӯ thông báo tӯ mҥng xã hӝi (nhãn thӭ 4) tӯ ÿӏa chӍ

Trang 20

gӱi (thӇ hiӋn thӭ   WLrX ÿӅ WKѭ (thӇ hiӋn thӭ 2), nӝi dung bên trong (thӇ hiӋn thӭ 3) hoһc tài liӋXÿtQKNqP WKӇ hiӋn thӭ 4);

&iFEjLWRjQQj\ÿѭӧc phát biӇu lҥLQKѭVDX.êKLӋu ܺ là không gian thӇ hiӋn (hoһc không gian thuӝc tính) và ܻ là tұS FiF QKmQ &KR WUѭӟc mӝt tұp mүu ܦ ൌሼሺݔଵǡ ݕଵሻǡ ሺݔଶǡ ݕଶሻǡ ǥ ǡ ሺݔ௠ǡ ݕ௠ሻሽWURQJÿy

B̫ng 2.1 Phát bi͋u các d̩ng bài toán phân lo̩i A Phân lo̩i ÿ˯QQKmQ%Phân lo̩i ÿDQKmQ&Phân lo̩i ÿ˯QQKmQÿDWK͋ hi͋n; D Phân lo̩i ÿDQKmQÿDWK͋ hi͏n [4]

ܺ௜

x ܻ௜ א ܻ là mӝt tұp nhãn ܻ௜ ൌ

൛ݕ௜ଵǡ ݕǡ ǥ ǡ ݕ௜௟೔ൟǡ ݕ௜௞ א ܻሺ݇ ൌͳǡʹǡ ǥ ǡ ݈௜, ݈௜là sӕ nhãn trong ܻ௜

o Cҫn hӑc mӝt hàm ݂ǣ ʹ௑ ՜ ʹ௒ánh xҥ

tӯ không gian thӇ hiӋn vào không gian tұp nhãn

b Kӻ thuұt phân loҥi ÿDQKmQ

Phân loҥi ÿDQKmQÿѭӧc chia thành hai nhóm tiӃp cұn chính là tiӃp cұn chuyӇn ÿәi bài toán và tiӃp cұn thích nghi thuұt toán

- TiӃp cұn chuyӇQÿәi bài WRiQOjSKѭѫQJSKiSFKX\ӇQÿәi bài toán phân loҥi ÿDQKmQWKjQKPӝt hoһc nhiӅu bài toán phân loҥi ÿѫQQKmQ phân loҥi ÿDOӟp hoһc phân loҥi nhӏ phân) hoһc các bài toán hӗi quy Theo tiӃp cұn này, các

bӝ phân loҥi ÿѫQQKmQÿѭӧc thӵFWKLVDXÿyFiFGӵ ÿRiQphân loҥi ÿѫQQKmQÿѭӧc kӃt hӧp lҥi thành kӃt quҧ dӵ ÿRiQÿDQKmQ&iFWKXұt toán phân loҥi ÿѫQQKmQÿLӇn hình:

+ OneVsRest: ChuyӇn bài toán phân loҥLÿDQKmQWKjQKWӯ bài toán phân loҥi nhӏn phân, xem mӛLQKmQOjÿӝc lұp vӟLQKDXNK{QJFyP{LWѭѫQJquan nào giӳa các nhãn

Trang 21

+ ThuұW WRiQ WѭѫQJ Kӧp nhӏ phân ± Binary Relevance(BR): ChuyӇn bài WRiQÿDQKmQYӅ ݍ bӝ phân loҥi nhӏ phân;

+ 3KѭѫQJ SKiS FKXӛi bӝ phân loҥi ± Classifier Chain(CC): ChuyӇn bài WRiQÿDQKmQYӅ chuӛi các bӝ phân loҥi nhӏ phân;

+ 3KѭѫQJSKiS [Ӄp hҥng nhãn theo kích cӥ - Calibrated Label Ranking (CLR): ChuyӇQEjLWRiQÿDQKmQYӅ ௤ሺ௤ାଵሻ

ଶ bӝ phân loҥi nhӏ phân + Thuұt toán tұp k nhãn ngүu nhiên ± Random k Labelset (RakEL): ChuyӇQEjLWRiQÿDQKmQYӅ ݊ bӝ phân loҥi ÿDOӟp;

Hình 2.2 Phân lo̩i các thu̵t toán phân lo̩LÿDQKmQ[5]

- TiӃp cұn thích nghi thuұWWRiQOjSKѭѫQJSKiSPӣ rӝng các thuұt toán hӑc phân loҥi ÿѫQQKmQÿmELӃWÿӇ áp dөng trӵc tiӃp giҧi quyӃt bài toán phân loҥi ÿDQKmQ&iFWKXұt toán phân loҥi ÿѫQQKmQÿLӇn hình:

+ Thuұt toán k láng giӅng gҫn nhҩW ÿD QKmQ ± Multi-Label k Nearest Neighbor (ML-kNN): Sӱ dөng thuұt toán k láng giӅng kӃt hӧp luұt cӵc ÿҥi hұu nghiӋPÿӇ [iFÿӏnh tұp nhãn;

&KX\ӇQÿәL

WKjQKSKkQORҥL

ÿDOӟS

Radom labelsets

Trang 22

+ Thuұt toán cây quyӃW ÿӏQK ÿD QKmQ ± Multi-Label Decision DT): Sӱ dөng thuұt toán cây quyӃWÿӏQK[iF ÿӏQKÿӝ lӧi thông tin dӵa trên HQWURS\ÿDQKmQÿӇ xây dӵng cây quyӃWÿӏQKÿӋ quy;

Tree(ML-+ Thuұt toán xӃp hҥng máy vector hӛ trӧ - Rank-SVM: Sӱ dөng thuұt toán SVM thích nghi cho phân loҥi ÿD QKmQ Eҵng cách tӕL ѭX FiF Eӝ phân loҥi tuyӃQ WtQK ÿӇ cӵF ÿҥi hóa biên quyӃW ÿӏnh và cӵc tiӇu rӫi ro xӃp hҥng sӱ dөQJSKѭѫQJSKiSQKkQ

+ Thuұt toán bӝ phân loҥi ÿD QKmQ QKyP ± Collective Multi-Label (CML): Sӱ dөng tiӃp cұn cӵFÿҥi hóa entropy cho bài toán hӑFÿDQKmQdӵa trên ràng buӝc quan hӋ QKmQÿӇ [iFÿӏnh phân phӕi xác suҩWFyÿLӅu kiӋn cӫa tұp nhãn;

Phát biӇu bài toán phân loҥLÿDQKmQQKѭVDX[6]:

Trang 23

Minh hӑa thuұt toán Binary Relevance[5] QKѭVDX

ܻ ൌ ܤ݅݊ܽݎݕܴ݈݁݁ݒܽ݊ܿ݁ሺࣞǡ ࣜǡ ݔሻ

1 Thӵc hiӋn vòng lһp tӯ ݆ ൌ ͳ ÿӃn ݍ

2 Xây dӵng tұp huҩn luyӋn nhӏ phân ࣞ௝ theo công thӭc

ࣞ ൌ ൛ሺݔ௜ǡ ׎൫ܻ௜ǡ ݕ௝൯ሻหͳ ൑ ݅ ൑ ݉ൟ 7URQJÿy׎൫ܻ௜ǡ ݕ௝൯ ൌ ቊ൅ͳ݊ዅݑݕ௝ א  ܻ௜

B̫ng 2.2 Mô hình thu̵t toán Binary Relevance(BR) [5]

ѬX ÿLӇm nәi bұt nhҩt cӫa BR là cách xӱ lý dӳ liӋu ÿD QKmQ Fӵc kǤ ÿѫQJLҧn %ѭӟc 1- ÿѭӧc sӱ dөQJQKѭOjNKӕi xây dӵng cӫa nhiӅu kӻ thuұt hӑc tұSÿDQKmQhiӋQÿҥi1Jѭӧc lҥL QKѭӧFÿLӇm cӫa BR là hoàn toàn bӓ qua các mӕLWѭѫQJTXDQtiӅPQăQJJLӳa các nhãn và phân loҥi nhӏ phân cho mӛi nhãn có thӇ gһp phҧi vҩQÿӅ mҩt cân bҵng lӟp khi ݍ lӟn và mұWÿӝ nhãn thҩp [6]

(CC)

Ý tѭӣng FѫEҧn cӫa thuұt toán này là biӃn bài toán hӑFÿDQKmQWKjQKPӝt chuӛi các phân loҥi nhӏ SKkQ WURQJ ÿy FiF Eӝ phân loҥi nhӏ phân tiӃp theo trong chuӛi ÿѭӧc xây dӵng dӵa trên dӵ ÿRiQFӫa các bӝ phân loҥi WUѭӟFÿy[8][9]

Minh hӑa thuұt toán Classifier Chain[5] QKѭVDX

ܻ ൌ ܥ݈ܽݏݏ݂݅݅݁ݎܥ݄ܽ݅݊ሺࣞǡ ࣜǡ ߬ǡ ݔሻ

1 Thӵc hiӋn vòng lһp tӯ ݆ ൌ ͳ ÿӃn ݍ

2 Xây dӵng chuӛi tұp huҩn luyӋn nhӏ phân ࣞఛሺ௝ሻ theo công thӭc

ࣞఛሺ௝ሻ ൌ ൛ሺൣݔ௝ǡ ܘܚ܍ఛሺ௝ሻ௜ ൧ǡ ׎ሺܻ௜ǡ ݕఛሺ௝ሻሻሻหͳ ൑ ݅ ൑ ݉ൟ 7URQJÿy

ƒ ܘܚ܍ఛሺ௝ሻ௜ ൌ ሺ׎൫ܻ௜ǡ ݕఛሺଵሻ൯ǡ ǥ ǡ ׎൫ܻ௜ǡ ݕఛሺ௝ିଵሻ൯ሻ்

ƒ ൣݔ௝ǡ ܘܚ܍ఛሺ௝ሻ௜ ൧ là vecto kӃt hӧp cӫa vecto ݔ௜ và vecto ܘܚ܍ఛሺ௝ሻ௜

ƒ ܘܚ܍ఛሺ௝ሻ௜ là vecto nhãn nhӏ SKkQFKRFiFQKmQÿӭQJWUѭӟc ݕఛሺ௝ሻ trên dӳ liӋu

ݔ௝

ƒ ߬ǣ ሼͳǡ ǥ ǡ ݍሽ ՜ ሼͳǡ ǥ ǡ ݍሽ là hàm chuyӇn vӏ cho các nhãn ݍ lӟp

ሼݕଵǡ ݕଶǡ ǥ ǡ ݕ௤ሽ theo mӝt thӭ tӵ [iFÿӏnh ݕఛሺଵሻ ظ ݕఛሺଶሻ ظ ڮ ظ ݕఛሺ௤ሻ

3 Gán ݂௝ ൌ ࣜሺࣞఛሺ௝ሻሻ

Trang 24

4 KӃt thúc vòng lһp

5 Trҧ kӃt quҧ Y theo công thӭc

ܻ ൌ ൛ݕఛሺ௝ሻหߣఛሺ௧ሻ௫ ൌ ൅ͳǡ ͳ ൑ ݆ ൑ ݍൟ 7URQJÿyߣఛሺ௝ሻ௫ א ሼെͳǡ ൅ͳሽ là giá trӏ nhӏ phân dӵ ÿRiQFӫa ݕఛሺ௝ሻ trên dӳ liӋu ݔ

B̫ng 2.3 Mô hình thu̵t toán Classifier Chain [5]

Trong thuұt toán CC, mӕi quan hӋ giӳD FiF QKmQ ÿm ÿѭӧc xem xét theo mӝt

cách ngүu nhiên So vӟi thuұt toán BR, thuұt toán chuӛi bӝ phân loҥi có lӧi thӃ Ojÿmkhai thác mӕi WѭѫQJ TXDQ giӳD FiF QKmQ QKѭQJ mҩW ÿL Fѫ Kӝi là không thӵc hiӋn song song ÿѭӧFGRÿһFÿLӇm cӫa chuӛi [6]

Labelset (RakEL)

éWѭӣng FѫEҧn cӫa thuұt toán này là chuyӇn bài toán hӑFÿDQKmQWKjQKPӝt tұp hӧp các phân loҥi ÿDOӟSWURQJÿyPӛi máy hӑc thành phҫn trong tұp nhҳm vào mӝt tұp con ngүu nhiên cӫa không gian nhãn ࣳ dӵa trên bӝ phân loҥi ÿDOӟSÿѭӧc tҥo ra bҵng kӻ thuұt tұSONJ\WKӯa nhãn ± Label Powerset (LP) [10][11]

Minh hӑa thuұt toán Random k Labelset[5] QKѭVDX

ܻ ൌ ܴܽ݊݀݋݉ െ ݇ െ ܮܾ݈ܽ݁ݏ݁ݐሺࣞǡ ܯǡ ݇ǡ ݊ǡ ݔሻ

1 Thӵc hiӋn vòng lһp tӯ ݎ ൌ ͳ ÿӃn ݊

2 Chӑn ngүu nhiên mӝt tұp ݇ nhãn ࣳ௞ሺ݈௥ሻ ك ࣳ vӟi ȁࣳ௞ሺ݈௥ሻȁ ൌ ݇

Vӟi ࣳ là không gian nhãn

3 Xây dӵng mӝt tұp huҩn luyӋQÿDOӟp ࣞࣳೖ ሺ௟ೝሻ

B̫ng 2.4 Minh h͕a thu̵t toán Random k Labelset [5]

Mһc dù k-labelset tham gia viӋc hӑFQKѭOjPӝt phҫn tҩt yӃu cӫDQyÿӇ sӱDÿәi QKѭӧFÿLӇm lӟn cӫa Label PowersetQKѭQJYLӋc hӑc có thӇ ÿѭӧc sӱ dөQJQKѭPӝt chiӃQOѭӧc cҩSÿӝ PHWDÿӇ tҥRÿLӅu kiӋn cho viӋc hӑFÿDQKmQEҵng cách bao gӗm ÿӗng nhҩt hoһFNK{QJÿӗng nhҩt hӑFÿDQKmQWKjQKSKҫn [5]

Multi-Label k Nearest Neighbor (ML-kNN)

éWѭӣng cѫEҧn cӫa thuұt toán này là ÿLӅu chӍnh các kӻ thuұt k láng giӅng gҫn nhҩWÿӇ [iFÿӏnh các láng giӅng gҫn nhҩt cӫa dӳ liӋu cҫQJiQQKmQVDXÿyVӱ dөng

Trang 25

quy tҳc posteriori (MAP) tӕLÿDÿӇ ÿѭDUDGӵ ÿRiQEҵng cách suy luұn vӟi thông tin JKLQKmQÿѭӧc thӇ hiӋn trong các láng giӅQJÿӇ ÿѭDUDWұp nhãn dӵ ÿRiQ[12]

Mô tҧ thuұt toán Multi-Label k Nearest Neighbor (ML-kNN)[5] QKѭVDX

6 Tính màng tҫn suҩt ࣥ௝ và ࣥ෩௜ theo công thӭc

B̫ng 2.5 Mô t̫ thu̵t toán Multi-Label k Nearest Neighbor (ML-kNN)[5]

ML-kNN có lӧi thӃ kӃ thӯa ѭXÿLӇm cӫa cҧ hӑFOѭӡi biӃng và lý luұn Bayes: a) ranh giӟi quyӃWÿӏnh có thӇ ÿѭӧFÿLӅu chӍnh mӝt cách thích ӭng do các láng giӃng NKiFQKDXÿѭӧF[iFÿӏnh cho tӯQJWUѭӡng hӧp không nhìn thҩy; b) vҩQÿӅ mҩt cân bҵng lӟp có thӇ ÿѭӧc giҧm thiӇu phҫn lӟn do các xác suҩWWUѭӟFÿyÿѭӧFѭӟc tính cho mӛi nhãn lӟp Có nhiӅXFiFKNKiFÿӇ sӱ dөng viӋc hӑFOѭӡi biӃQJÿӇ xӱ lý dӳ liӋX ÿD QKmQ FKҷng hҥQ QKѭ NӃt hӧp kNN vӟi tәng hӧp xӃp hҥQJ [iF ÿӏnh kNN theo kiӇu cө thӇ nhã, mӣ rӝQJN11ÿӇ bao quát toàn bӝ tұp huҩn luyӋn Tuy nhiên, ML-kNN không quan tâm khai thác sӵ WѭѫQJTXDQgiӳa các nhãn, mӝt sӕ phҫn mӣ rӝQJÿmÿѭӧFÿӅ xuҩWÿӇ cung cҩp các cҧi thiӋn cho ML-N11WKHRKѭӟng này[5]

Trang 26

v Thích nghi thu̵t toán: Thu̵t toán cây quy͇Wÿ͓QKÿDQKmQ± Multi-Label Decision Tree(ML-DT)

éWѭӣng cѫEҧn cӫDSKѭѫQJSKiSQj\Ojáp dөng các thuұt toán cây quyӃWÿӏnh

ÿӇ giҧi quyӃt vӟi dӳ liӋXÿDQKmQWURQJÿymӝWWLrXFKtÿҥWÿѭӧc ÿӝ lӧi thông tin dӵDWUrQHQWURS\ÿDQKmQÿӇ xây dӵng cây quyӃWÿӏnh theo cách ÿӋ quy [13]

Mô tҧ thuұt toán Multi-Label Decision Tree(ML-DT)[5] QKѭVDX

4 NӃu không thӓa

5 ;iFÿӏnh cһp thuӝc tính-giá trӏ ሺ݈ǡ ݒሻ làm cӵFÿҥi công thӭc

ȁ࣮ȁ Ǥ ܯܮܧ݊ݐሺఘאሼିǡାሽ

B̫ng 2.6 Mô t̫ thu̵t toán Multi-Label Decision Tree(ML-DT)[5]

Ĉk\OjFiFKWLӃp cұn theo thӭ tӵ ÿҫu tiên giҧ ÿӏQKWtQKÿӝc lұp cӫa nhãn trong viӋF WtQK WRiQ HQWURS\ ÿD QKmQ 0ӝW ѭX ÿLӇm nәi bұt cӫa ML-DT nҵm ӣ hiӋu quҧ cao trong viӋc tҥo ra mô hình cây quyӃWÿӏnh tӯ dӳ liӋXÿDQKmQ1Kӳng cҧi tiӃn có thӇ có trên cây quyӃWÿӏQKÿDQKmQKLӋu bao gӗm sӱ dөng chiӃQOѭӧc cҳt tӍa hoһc kӻ thuұt hӑc tұSÿӗng bӝ[5]

2.1.2 3KkQÿRҥn tӯ tiӃng ViӋt

a Xӱ lý ngôn ngӳ tӵ QKLrQÿӕi vӟi TiӃng ViӋt

Xӱ lý ngôn ngӳ tӵ nhiên (natural language processing - NLP) là mӝt nhánh cӫa trí tuӋ nhân tҥo, xӱ lý ngôn ngӳ tӵ nhiên tұp trung vào các ӭng dөng trên ngôn ngӳ cӫDFRQQJѭӡi Ĉҫu tiên khi nhҳc ÿӃn xӱ lý ngôn ngӳ, thì xem lҥi khái niӋm vӅ ³[ӱ OêWK{QJWLQ´, nó ÿyOjPӝt quy trình chuyӇQÿәi dӳ liӋu tӯ dҥng này sang mӝt dҥng

Trang 27

khác vӟi mөF ÿích là tìm kiӃm thông tin và tri thӭc Xӱ lý ngôn ngӳ là mӝt quy trình xӱ lý thông tin vӟL ÿҫu vào là dӳ liӋu ngôn ngӳ (YăQ Eҧn hoһc tiӃng nói) và ÿҫu ra là ngôn ngӳ ÿѭӧc sӕ hóa - dӳ liӋu dҥQJÿLӋn tӱĈһFÿLӇm chung cӫa dӳ liӋu ngôn ngӳ ÿҫu vào là không có cҩu trúc (non-structured) hoһc bán câu trúc (semi-structured) hoһc không thӇ OѭXOҥLGѭӟi dҥng bҧng biӇu

1KѭÿmÿӅ cұp xӱ lý ngôn ngӳ tӵ nhiên tұp trung vào các ӭng dөng trên ngôn ngӳ cӫDFRQQJѭӡi, xӱ lý ngôn ngӳ FNJQJÿyQJPӝt vai trò quan trӑng trong viӋFÿҭy mҥnh sӵ phát triӇn các ӭng dөng phөc vө FKRÿӡi sӕQJFNJQJQKѭNLQKGRDQKQKѭ

- Nhұn dҥng tiӃng nói - Speech recognition (hӋ thӕng trӧ ý ҧo);

- Tәng hӧp tiӃng nói - speech synthesis (chuyӇQÿәLYăQEҧn thành tiӃng nói);

- Nhұn dҥng chӳ viӃt - optical character recognition (chuyӇn bҧn scan trên giҩy, chӳ viӃt tay thành dӳ liӋu trên máy tính);

- Dӏch tӵ ÿӝng - machine translation; tóm tҳW YăQ Eҧn - text summarization (rút ngҳQYăQEҧn vӟLÿӫ nӝi dung)

- Tìm kiӃm thông tin - information retrieval;

- Trích chӑn thông tin - information extraction;

- Phát hiӋn tri thӭc và khai phá dӳ liӋX YăQ Eҧn - knowledge discovery and text data mining

Tuy nhiên, QKѭ ông bà ta vүQ WKѭӡng hay nói ³Phong ba bão táp không bҵng ngӳ pháp ViӋt Nam´1Jѭӡi ViӋW1DPÿ{LNKLFzQJһp nhiӅu NKyNKăQNKLVӱ dөng tiӃng ViӋt, GRÿy viӋc dҥy cho máy có thӇ dùng tiӃng ViӋWQKѭFRQQJѭӡi ÿk\OjPӝt viӋc rҩWNKyNKăQ PKkQÿRҥn tӯ hoһc tách tӯ là nhiӋm vө ÿҫXWLrQÿӇ xӱ lý ngôn ngӳ tiӃng ViӋt [14]9ăQ EҧQSKkQ ÿRҥn tӯ Ojÿҫu vào cӫa hҫu hӃt các nhiӋm vө xӱ lý ngôn ngӳ tӵ nhiên khác NhiӋm vө này phҧLÿӕi mһt vӟi mӝt sӕ thách thӭFGRÿһc ÿLӇm cө thӇ cӫa ngôn ngӳ Trong nghiên cӭu cӫa tác giҧ ĈLQKĈLӅn và các cӝng sӵ [15] tiӃng ViӋt là mӝt ngôn ngӳ ÿѫQOұp, không biӃn hình, các ký tӵ ÿѭӧc dӵa trên

hӋ chӳ cái Latin 7ѭѫQJ ÿӗng vӟi tiӃng Trung, tiӃng Nhұt, tiӃng Hàn thì tӯ trong tiӃng ViӋWNK{QJÿѭӧF[iFÿӏnh bӣi khoҧng trҳng giӕQJQKѭWLӃng Anh 1KѭWURQJnhiӅu ngôn ngӳ FKkX È NKiF QKѭ WLӃng Nhұt, tiӃng Hàn và tiӃng Trung, khoҧng trҳng trong tiӃng ViӋt không phҧLO~FQjRFNJQJÿѭӧc sӱ dөng làm dҩu SKkQÿRҥn tӯ

và mӝt tӯ có thӇ chӭa mӝt hoһc nhiӅu âm [14]

b Các mô hình liên quan SKkQÿRҥn tӯ tiӃng ViӋt

HiӋQ QD\ Fy  P{ KuQK SKkQ ÿRҥn tӯ là mô hình dӵa trên tӯ ÿLӇn, mô hình nhұn dҥng tên thӵc thӇ và mô hình N-gram

Trang 28

- Mô hình dӵa vào tӯ ÿLӇn: Hai SKѭѫQJ SKiSNLQKÿLӇn cӫDKѭӟng tiӃp cұn

dӵa trên tӯ ÿLӇn là:

+ 3KѭѫQJSKiS kӃt hӧp dài nhҩt Longest Matching (LM) sӁ duyӋt câu

ÿҫu vào tuҫn tӵ tӯ trái qua phҧi và chӑn tӯ dài nhҩt nӃu tӯ ÿyFyWURQJ

tӯ ÿLӇQ3KѭѫQJSKiS Qj\ UҩWÿѫQJLҧn QKѭQJVӁ dӉ ra ra sai sót trong mӝt sӕ WUѭӡng hӧp Ví dө:

x Ĉҫu vào: ³Ĉk\OjPӝWFiFKÿӇ truyӅQWK{QJWLQ´

x Ĉҫu ra: ³Ĉk\ / là / mӝt / cách / ÿӇ / truyӅn thông WLQ´

x KӃt quҧ ÿ~QJ³Ĉk\OjPӝWFiFKÿӇ / truyӅn / thông tin´

+ 3KѭѫQJSKiSkӃt hӧp nhiӅu nhҩt Maximal Matching (MM) sӁ tách

FkXÿҫu vào thành tҩt cҧ FiFSKkQÿRҥn có thӇVDXÿySKkQÿRҥQÿѭӧc chӑn là câu chӭa ít tӯ nhҩt PKѭѫQJ SKiS Qj\ FNJQJ Fy \ӃX ÿLӇm là không thӇ chӑn SKkQ ÿRҥQ ÿ~QJ WURQJ WUѭӡng hӧp nhiӅu kӃt quҧ phân ÿRҥn lҥi chӭa cùng mӝt sӕ Oѭӧng tӯ ít nhҩt Ví dө:

x Ĉҫu vào: ³+ӑc sinh hӑc sinh hӑF´

x Ĉҫu ra 1: ³+ӑc sinh / hӑc / sinh hӑF´

x Ĉҫu ra 2: ³+ӑc / sinh hӑc / sinh hӑF´

x ĈҫXUD³+ӑc sinh / hӑc sinh / hӑF´

Vӟi các WUѭӡng hӧp này, ÿӇ [iFÿӏQKÿѭӧFSKkQÿRҥQÿ~QJcҫn áp dөQJFiFSKѭѫQJSKiSKӑc máy trên mӝWFѫVӣ dӳ liӋu lӟn

- Mô hình nhұn dҥng tên thӵc thӇ - Named Entity Recognition: Bài toán

nhұn dҥng tên thӵc thӇ là bài toán gán nhãn mӛi tӯ WURQJYăQEҧn vào mӝt trong các lӟS ÿѭӧF ÿӏQK QJKƭD WUѭӟF QKѭ WrQ QJѭӡL WrQ ÿӏa danh, tên tә chӭc, ngày tháng, sӕ, tiӅn tӋ, Ví dө ³>3(5621 ÐQJ 9} 9ăQ +RjL@[FUNCTION kӻ thuұt viên] cӫa [DEPARTMENT phòng Công nghӋ] sӁ nghӍ mát tҥi [PLACE Nha Trang] trong khoҧng thӡi gian tӯ [TIME 15/6/2018 ± @´

- Mô hình N-gram: Mô hình ngôn ngӳ N-gram thӇ hiӋn khá tӕt mӕi quan hӋ

ngӳ cҧnh cӫa tӯ NhiӋm vө cӫa mô hình ngôn ngӳ là cho biӃt xác suҩt cӫa mӝt câu ݓଵݓଶǥ ݓ௠ là bao nhiêu Theo công thӭc Bayes: ܲሺܣܤሻ ൌ

ܲሺܤȁܣሻܲሺܣሻ, thì:

ܲሺݓଵݓଶǥ ݓ௠ሻ ൌ ܲሺݓଵሻܲሺݓଶȁݓଵሻܲሺݓଷȁݓଵݓଶሻ ǥ ܲሺݓ௠ȁݓଵݓଶǥ ݓ௠ିଵሻ 3KѭѫQJ SKiS Qj\ Oj Pӝt trong nhӳQJ SKѭѫQJ SKiS WKӕQJ Nr FKtQK ÿӇ giҧLEjLWRiQSKkQÿRҥn tӯ khi không có thông tin tӯ ÿLӇn và dӳ liӋu gán nhãn

Trang 29

2.2 CÁC NGHIÊN CӬU LIÊN QUAN

Ӣ ViӋW1DPFNJQJÿmFyPӝt sӕ nhóm bҳWÿҫu nghiên cӭu vӅ xӱ lý ngôn ngӳ, EѭӟFÿҫXÿmFó nhӳng kӃt quҧ nhҩWÿӏnh Phҫn lӟn các sҧn phҭm hiӋQQD\ÿDQJWұp WUXQJYjROƭQKYӵc dӏch máy, ngoài ra còn có các bài toán phân loҥLFKLDQKyPYăQbҧn 9jÿDSKҫn chӍ dӯng lҥi ӣ ÿӅ tài tiӃQVƭWKҥFVƭPDQJWtQKFKҩt tìm hiӇXFKѭD

hӋ thӕQJYjÿӏQKKѭӟng rõ ràng tiêu biӇXQKѭ nghiên cӭX³3KkQÿR̩n tͳ cho phân

lo̩LYăQE̫n ti͇ng Vi͏t: Cách ti͇p c̵n tr͹c tuy͇n´Fӫa các tác giҧ Thanh và cӝng sӵ

  ÿm mӣ rӝng mӝt cách tiӃp cұn phân ÿRҥn tiӃng ViӋt mӟLÿӇ phân loҥLYăQbҧn Thay vì sӱ dөng tұSYăQEҧn chú giҧi hoһc tӯ vӵng vүn còn thiӃu ӣ ViӋt Nam, các tác giҧ sӱ dөng thông tin thӕQJNrÿѭӧc trích xuҩt trӵc tiӃp tӯ mӝt công cө tìm kiӃPWKѭѫQJPҥi và thuұt toán di truyӅQÿӇ tìm ra cách phân ÿRҥn hӧp lý nhҩt Các WK{QJWLQÿѭӧc trích xuҩt là tҫn sӕ tài liӋu cӫa các tӯ ÿѭӧFSKkQÿRҥn KӃt quҧ thӱ nghiӋm vӅ phân ÿRҥn và phân loҥL WKX ÿѭӧc tӯ các tóm tҳt tin tӭc trӵc tuyӃn cho thҩy rõ ràng rҵQJSKѭѫQJSKiSWѭѫQJÿӕi khҧ quan1yÿҥWÿѭӧc kӃt quҧ trong gҫn

ÿiQKJLiFӫDFRQQJѭӡi vӅ SKkQÿRҥn YjKѫQ)Wrung bình vi mô trong phân loҥi Thӡi gian xӱ OêtWKѫQPӝt phút cho mӛi tài liӋXNKLÿӫ thông tin thӕng kê ÿѭӧFOѭXWUӳ [16]

Bài nghiên cӭX ³3KkQ ÿR̩n tͳ cͯD YăQ E̫n ti͇ng Vi͏t: so sánh các cách ti͇p

c̵n´ cӫa các tác giҧ ĈLQKQuang Thҳng cùng các cӝng sӵ (2008) trình bày mӝt so

sánh giӳa ba hӋ thӕng phân ÿRҥn cho tiӃng ViӋt là vnTokenizer, PvnSeg và

JVnSegmenter Ngoài viӋc trình bày các hӋ thӕQJ ÿѭӧc thӱ nghiӋm, các tác FNJQJ

ÿӅ xuҩt mӝWÿӏQKQJKƭDFKXҭQFKRSKkQÿRҥn tӯ trong tiӃng ViӋt và giӟi thiӋu mӝt YăQEҧn tham chiӃXÿѭӧc phát triӇn cho mөFÿtFKÿiQKJLiPӝt nhiӋm vө SKkQÿRҥn

tӯ tiӃng ViӋt Các kӃt quҧ TXDQViWÿѭӧc xác nhұn rҵng nó có thӇ ÿѭӧc xӱ OêWѭѫQJÿӕi tӕt bҵQJFiFSKѭѫQJWLӋn tӵ ÿӝng, mһc dù cҫn tìm ra giҧLSKiSÿӇ WtQKÿӃn các tӯ không có tӯ vӵng [17]

Trong nghiên cӭX ³Cách ti͇p c̵n lai vͣi phân khúc tͳ ti͇ng Vi͏t´ Fӫa tác giҧ

NguyӉn Tҩn Phong và cӝng sӵ (2016) ÿӅ xuҩt mӝW SKѭѫQJ SKiS ODL KLӋu quҧ ÿӇ phát hiӋn ranh giӟi tӯ FKRFiFYăQEҧn tiӃng ViӋt sӱ dөng hӗLTX\ORJLVWLFQKѭPӝt phân loҥi nhӏ phân kӃt hӧp vӟi thuұt toán khӟp dài nhҩW Ĉҫu tiên, thuұt toán kӃt hӧp dài nhҩWÿѭӧc sӱ dөQJÿӇ bҳt các tӯ có chӭa nhiӅXKѫQKDLkPWLӃWWURQJFkXÿҫu vào TiӃp theo, hӋ thӕng sӱ dөng trình phân loҥLÿӇ [iFÿӏnh ranh giӟi cӫa các tӯ có

2 âm tiӃWYjWrQULrQJ6DXÿyFiFGӵ ÿRiQFyÿӝ tin cұy thҩSÿѭӧc thӵc hiӋn bӣi bӝ phân loҥLÿѭӧc xác minh bҵng tӯ ÿLӇQÿӇ có kӃt quҧ cuӕi cùng HӋ thӕng có thӇ ÿҥt

Trang 30

ÿѭӧc sӕ ÿR )Oj82% +ѫQQӳa, hӋ thӕQJFNJQJFy WӕF ÿӝ cao Nó có thӇ chҥy SKkQÿRҥn tӯ vӟi gҫn 34k mã thông báo mӛi giây [14]

Ӣ ViӋt Nam, bài toán phân loҥLÿDQKmQFyPӝt sӕ nghiên cӭXQKѭWURQJOXұn

YăQ ³S͵ dͭng c̭u trúc danh mͭF ÿ͋ phân lo̩i nhi͉u lͣp´ Fӫa tác giҧ Lê Quang

HiӃu (2010) ÿӅ cұS ÿӃn hai vҩQ ÿӅ nghiên cӭu khác nhau vӅ phân loҥi nhiӅu lӟp VҩQÿӅ ÿҫu tiên là phân loҥi các nguӗn dӳ liӋu có cҩu trúc trên Web, chӑn mӝt tұp hӧS FRQ FiF WtQK QăQJ SK KӧS ÿӇ phân loҥi các nguӗn web, bҵng kӻ thuұt chӑn WtQKQăQJYӟi mӝt sӕ liӋXYjVѫÿӗ lӵa chӑn mӟi Sӱ dөQJSKѭѫQJSKiSOӵa chӑn WtQKQăQJWtFKFӵc, cùng vӟi bӝ phân loҥi Máy Vector Hӛ trӧ nhiӅu lӟSÿmÿҥWÿѭӧc hiӋu suҩt phân loҥLFDRWURQJÿiQKJLiGӳ liӋu web thӵc VҩQÿӅ thӭ hai là phát triӇn thuұt toán phân loҥLÿDQKmQ Trong bài toán phân loҥi nhiӅu nhãn, mӝt mүu dӳ liӋu

có thӇ ÿѭӧc gán cho mӝt hoһc nhiӅu ví dө Vӟi mӝt vҩQÿӅ ÿDQKmQFӫa m loҥi, cách tiӃp cұn One-Vs-$OO 29$

Ngày đăng: 05/08/2024, 00:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN