1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Xây dựng hệ thống đánh giá độ tin cậy của các website thương mại điện tử

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng Hệ thống Đánh giá Độ Tin cậy Của Các Website Thương Mại Điện Tử
Tác giả Lê Thị Huyền Thu, Lê Thị Huyền My
Người hướng dẫn ThS Trần Thị Dung
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành An Toàn Thông Tin
Thể loại Khóa Luận Tốt Nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 83
Dung lượng 43,97 MB

Nội dung

Trong nghiên cứu này, chúng tôi đã phát triển một hệ thống có thé hỗ trợ đánh giá cũng như cung cấp các thông tin cần thiết cho người dùng về độ tin cậy của một website thương mại điện t

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

LE THI HUYEN THU

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

LÊ THỊ HUYEN THU - 17521104

LÊ THỊ HUYEN MY - 17520771

KHÓA LUẬN TÓT NGHIỆP

XÂY DỰNG HỆ THÓNG ĐÁNH GIÁ ĐỘ TIN CẬY

CỦA CÁC WEBSITE THƯƠNG MẠI ĐIỆN TỬ

Implementing a system to evaluate the reliability of

e-commerce websites

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

THS TRAN THI DUNG

TP HO CHi MINH, 2021

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

¬ eens cnet enee eae enas Nay của Hiệu trưởng Trường Dai hoc Công nghệ Thông tin.

Trang 4

các thầy, cô bỏ qua và giúp chúng em hoàn thiện hơn Đồng thời kiến thức cũng

như kinh nghiệm của các thành viên trong đề tài còn hạn chế nên bài báo cáo khôngthể tránh khỏi những thiếu sót, em rất mong nhận được ý kiến đóng góp từ phíathay, cô dé có thé học thêm được nhiều kinh nghiệm và hoàn thành tốt hơn

Chúng em cũng xin chân thành cảm ơn các thầy cô giảng viên trong trường Đại họcCông nghệ Thông tin đã giúp chúng em có được cơ sở lý thuyết vững vàng về cácmôn đại cương cũng như các môn chuyên ngành, tạo điều kiện giúp đỡ chúng emtrong suốt quá trình học tập

Chúng em xin chân thành cảm ơn!

Trang 5

MỤC LỤC

Io0e v00

DANH MỤC HÌNH 0 ecseeeecssseessssseecssneecssnecessneeessnecssuseeesnnesssnecssnecssaneessaneessneesssansDANH MUC BANG

TOM TAT KHOA LUAN csscscsssssssssssessessssesesssneseessneceessnesessnnesessnieeseesnnesessnnsecs 1

Chương 1 GIỚI THIEU TONG QUAN DE TÀI -¿ 5¿©52255+2cx+2cse2 2

1.1 Bối cảnh để ti eee ceecsseeeecssseeessneeesssnecessneccssnecessnneessnnecssneessneessnnseessnnes 2

1⁄2 Mục tiêu đề tài cccrnhtnh Hee 2

1.3 Đối tượng và phạm vi nghiên cứu -¿ ¿-s¿+++2x++x++zx+zx+zzx+zzxezrxez 2

1.4 Bố cục bài nghiên cứu - c¿+c2++s+Ek+EE2EE+EEEEEEEEEEEEEEEEEEEEEEEEErrrrkerveee 3

Chương2 CO SỞ LÝ THUYÉT 2- ¿©++2++EE++Ex++E+tzE+erx+zrxzrxee 4

2.1 Độ tin cậy trong website thương mại điện tử ¿5c s 55s ++<<++s+ss 4

2.1.1 Website thương mại điện tử tại Việt Nam - - 5++-ss+<x++ss++ 4

2.1.2 Các rủi ro trong thương mại điện tử đối với người dùng 4

2.1.3 Độ tin cậy trong thương mại điện tỬ 5 +55 +++s<++>+sx+sx++ 7

2.1.4 Các yếu t6 ảnh hưởng đến độ tin cậy -5+©5c+czcs+rxcred 7

2.2 Phishing và các nghiên cứu liên quan - 5 55335 ‡ + ++seexxeeeeees 11

2.3 Các nghiên cứu phân loại website tự Ong ce eeeeseeseeseeseeeseeeeeseeeteens 13

2.4 Machine LearnInB - cv nh ng HH HH Hưng nh ng 14

2.4.1 Phân loại thuật toán machine learning - - 5+ +s+++<<+ 152.4.2 Một số thuật toán machine learning trong nghiên cứu - 17

2.5 Natural language processing (NLP) - - - Ă vn n rry 27

2.5.1 Term Frequency - Inverse Document Frequency (TF-IDF) 28

2.5.2 Bag-of-words model (BoÝW) - kg HH HH HH Hy 29

Trang 6

Chương 3 PHƯƠNG PHAP ĐỀ XUẤTT -52+e+EE+£EtzEeEerkerreres 30

3.1 Phương pháp thu thập dữ liỆu - - +25 +2** SE +ksetrerrrrrererrrrree 31

3.1.1 Nguén thu thập -2-55+2c+2EkeEEEeEEerkrrrkerkrerkrerkee 313.1.2 Phương pháp trích xuất thông tỉn - 2 2+sz+se+x+zxersersssee 323.2 Phương pháp nhận biết website thương mại điện tử - 33

3.2.1 Xây dựng đafas€( HH TH HH ng 33

3.2.2 Tiền xử lý đữ liệu ¿© c2ckcckerkerkrrrkerkrerkrerxee 343.2.3 Môi trường huấn luyện -¿ ¿©++2++x++rx+rxvrxesrxeerxee 413.2.4 Thuật toán huấn luyỆn -¿- 2 ¿+s+Sk+EE+EE+EE£EE+EEEerkerxerxererree 41

3.2.5 _ Cách đánh giá mô hình - 52c +1 E+kEsErerrrererrrrrerree 42 3.3 Phương pháp phát hiện phishing ứng dung machine learning 43

3.3.1 DatasCt 6 44

3.3.2 Phương pháp lựa chọn đặc trưng - -s+ + s+ssexseeeeesesesrs 44 3.3.3 Lua chọn thuật toán va cách đánh giá mô hình - - + 47 3.4 Phương pháp đánh giá độ tin cậy website thương mại điện tử 47

3.4.1 _ Các tiêu chí đánh giá - 5 S5 «Sư 48

3.4.2 _ Phương pháp đánh giá - SĂ 3c S2 Strirrrrrirerrrserree 51

Chuong 4 XÂY DỰNG VÀ TRIEN KHAI -2- 2 + x+2s++£++zxerxczez 53

4.1 Xây dựng Web S€TV€T -QG HH TH TH HH TH net 53

4.1.1 _ Thu thập và trích xuất dữ liệu -¿- 2 2 x++x++£z+reerxerseee 554.1.2 Nhận biết website thương mại điện tử - -. <<+<<<-x++ 55

4.1.3 Phát hiện phishing - 6 5 5kg gi gi, 61 4.1.4 Đánh giá độ tin cậy - nh HH HH HH HH Hy 64

4.1.5 Các thành phan dữ liệu trong database - 2 2 2s x+cxz se 65

A.D : c nn ằẢĂẮ 66

Trang 8

DANH MỤC HÌNH

Hình 2.1 Các trở ngại khi mua hàng trực tuyến [2] -22<<<<<c<<<<<<eeeceeses 5Hình 2.2 Ly do chưa mua sắm trực tuyến [2] 2-2 s+£+£++£++£x+zxzzEzrxerxeee 5

Hình 2.3 Mô hình tin cậy trong nghiên cứu [Š] - 5555555 ‡+++sseeeeereeeeres 8

Hình 2.4 The Trust PyTA1T1C G5 11210118931 1993 83111 91 1 93 1x ng 9

Hình 2.5 Các nhóm và thuộc tinh tin cậy trong nghiên cứu [7] - ‹- -«- 10

Hình 2.6 Các yếu tổ người mua hang quan tâm khi mua sắm trực tuyến [2] 10Hình 2.7 Ly do lựa chon 1 website/ứng dụng dé mua hàng qua mạng [2] 11Hình 2.8 Mối quan hệ của ML với một số ngành khác 2 ¿2 s2 s2 +2 15

Hình 2.9 Đồ thị ham sigmoid -¿- 2-52 ©522S22EE‡EESEEEEEEEEEEEEEEEErEkerkrrkrrex 17

Hình 2.10 Cách phân loại nếu đặt ngưỡng t=0.5 -¿-2- + ++2E++£++zxvrxzsz 18

Hình 2.11 Ví du cách phân chia của Support Vector Machine 7 19

Hình 2.12 Các Support Vector được khoanh tròn nằm ngay trên margin 20

Hình 2.13 Chuyển các điểm vào chiều không gian mới có thé giúp phân loại đượccác tập dit liệu phi tuyến ¿- ¿5c + k+SE+EE2EE2EE2EEEEEEEE1EE1EE121121121 2111111 cxe 21

Hình 2.14 Minh họa thuật toán K-NN dự đoán cho điểm dữ liệu màu trắng VớiK=5, sử dụng khoảng cach Euclid và phương pháp major voting, điểm này được dự

oan Va0 16p MAU 3 1007 23

Hình 2.15 Ví dụ về cách phân chia tập dữ liệu dé huấn luyện được nhiều Decision

Tree Khac nhau 0 na l.2l1 24

Trang 9

Hình 3.3 Danh sách website TMĐT trên website của Bộ Cơng Thương 32

Hình 3.4 Sơ đồ xây dựng mơ hình ML nhận dạng website TMĐT - 33

Hình 3.5 Ví dụ về các HTML tag trong website -¿- 5:2 cc+cxcczxrsrxerreeree 34 Hình 3.6 Hệ số tương quan giữa các đặc trưng và kết quả - 5s s2 36 Hình 3.7 Hệ số tương quan giữa các đặc trưng -:- ¿+cz+cx+rxerxczrssrxerrcres 37 Hình 3.8 Số điểm của mỗi lớp dữ liệu trong dataset - 2 s¿+cscs+ecs+ 38 Hinh 3.9 Chia tap dit 1@u oo 39

Hình 3.10 Số điểm dữ liệu của mỗi lớp trong tập huấn luyện . 39

Hình 3.11 Số lượng điểm dữ liệu ở mỗi lớp sau khi áp dụng over sampling 40

Hình 3.12 số lượng điểm dữ liệu ở mỗi lớp sau khi áp dung under sampling 40

Hình 3.13 Google CỌabOTAfOTV - ccc + 2 EE931<11 E3 911 1K HH ngư 41 Hình 3.14 Cách tinh Precision va Recall - - s- s xxx 3E see 43 Hình 3.15 Sơ đồ xây dựng mơ hình phát hiện Phishing -. -5- 43 Hình 3.16 Số điểm dit liệu của các lớp trong phishing website dataset 47

Hình 3.17 Mơ hình đánh giá độ tin cậy và đưa ra khuyến nghị - 47

Hình 4.1 Mơ hình triển khai hệ thong đề xuất -¿- 5: ©+2©5++zxz+z++zs+szsz 53 Hinh 4.2 Data flow 0n 54

Hình 4.3 Đánh giá các mơ hình trên tap dữ liệu oversampling 56

Hình 4.4 Đánh giá các mơ hình trên tập dữ liệu under sampling . 57

Hình 4.5 Tổng hợp tat cả các mơ hình 2-2 22 x+E+2E£+EE+EE+EEtzE+zEezrxerxerez 58 Hình 4.6 Ngưỡng 0.53 tạo ra kết quả tốt nhất cho mơ hình -:- 5: 60 Hình 4.7 Kết quả các phép do accuracy, recall, precision va fl-score trên tập \M:1' 9 05LU9HHHIIaaẳaẳđadaaadiiiddddaddŸI 62

Hình 4.8 Kết quả các phép do accuracy, recall, precision và fl-score trên cả 2 tập M6 0i08šy ii 00787 63

Trang 10

Hình 4.9 Phần kết quả của mô hình trong triển khai thực tẾ - -s- 64Hình 4.10 Phần kết quả đánh giá độ tin cậy của website trong triển khai thực té 65Hình 4.11 Khuyến nghị dành cho người dùng dựa trên các thông tin từ website 65

Hình 4.12 Giao diện nơi nhập URL trên trang chủ websIfe -s++<x+++ 66

Trang 11

DANH MỤC BANG

Bang 3.1 Khoảng giá trị TF-IDF trung bình của mỗi từ khóa - - 35

Bảng 3.2 Ưu và nhược điểm của mỗi phương pháp cân bằng - - 41

Bang 3.3 Dac trung để xuất lựa COM .eeeceeccecsceceecsesesecscseseucscsescecsesesecsesvsseaesveneacees 46

Bang 3.4 Các tiêu chí đánh giá độ tin cậy được đề xuất -2- 2 sccxccsz 51

Bang 4.1 Đánh gia các mô hình trên tập dữ liệu oversampling - 56 Bang 4.2 Đánh giá mô hình Logistic Regression trên tập dữ liệu under sampling .57

Bảng 4.3 Bộ tham số của Random Forest tìm ra bằng Grid Search 59Bảng 4.4 Kết quả đánh giá mô hình nhận diện website TMĐT đã được tối ưu 60Bảng 4.5 Kết quả các phép do accuracy, recall, precision và fl-score trên tập

Bang 4.6 Kết quả đánh giá mô hình phát hiện Phishing đã được tối ưu 64

Bảng quy đổi điểm số các yếu t6 tin cậy 22 2 s+2x+2E2EE+EEeEEerEerrkerkerkrrex 72

Trang 12

TÓM TÁT KHÓA LUẬN

Sự phát triển mạnh mẽ của thương mại điện tử đang kéo theo các loại hình lừa đảo

trực tuyến cũng gia tăng nhanh chóng với nhiều hình thức khác nhau Việc mạodanh website của một tổ chức, cá nhân uy tin dé lừa người mua hàng trực tuyến làmột trong những hình thức phô biến nhất khi mà việc xây dựng website riêng đangtrở thành xu hướng trong chiến lược phát triển của các doanh nghiệp và cả những

hộ kinh doanh Trong nghiên cứu này, chúng tôi đã phát triển một hệ thống có thé

hỗ trợ đánh giá cũng như cung cấp các thông tin cần thiết cho người dùng về độ tin

cậy của một website thương mại điện tử bán hàng Chúng tôi đã nghiên cứu tiêu

chuẩn của một website thương mại điện tử bán hàng cũng như những yếu tố quantrọng giúp thiết lập lòng tin của người tiêu dùng đối với thương mại điện tử Chúng

được sử dụng làm cơ sở nghiên cứu phát triển hệ thống, trong đó, mục tiêu củachúng tôi đối với hệ thống là có thê tự động xem xét các thông tin được chủ sở hữu

cung cấp trên website để đưa ra đánh giá về độ tin cậy, hợp pháp của website; ứngdung machine learning vào việc phân tích các yếu tô cấu trúc dé phát hiện websitephishing, lừa đảo trực tuyến Việc đánh giá độ tin cậy được thể hiện thông qua côngthức tính độ tin cậy từ các yếu tổ mà chúng tôi đã xây dựng Hệ thống được triểnkhai thử nghiệm dưới dạng ứng dụng web để người dùng có cái nhìn trực quan về

các thông tin được cung cấp Các kết quả của hệ thống chỉ mang tính tham khảo,người dùng có thể dựa trên nó để xem xét và tự đưa ra quyết định Thông quanghiên cứu này, chúng tôi hy vọng có thé giúp những người chưa có hoặc thiếu kinh

nghiệm mua hàng trực tuyến có thể có cái nhìn trực quan và rõ ràng hơn về các yếu

tố nên được xem xét, giúp nâng cao hiểu biết và nhận thức của người dùng trongviệc mua hàng trực tuyến, giảm khả năng bị lừa đảo trong tương lai

Trang 13

Chương 1 GIỚI THIỆU TONG QUAN DE TÀI

1.1 Bối cảnh đề tài

Năm 2020 có ý nghĩa nổi bật đối với sự phát triển thương mại điện tử (TMĐT) ở

nước ta Với người tiêu dùng, mua sắm qua mạng đã trở nên phổ biến bởi sự thuậntiện trong giao dịch cũng như các chương trình khuyến mãi hấp dẫn Với các doanhnghiệp, đây là thời điểm dé chuyền đổi từ nhận thức sang hành động, lợi ích màthương mại điện tử mang lại là rất lớn và doanh nghiệp cần biết cách triển khai nómột cách hiệu quả Với các cơ quan và tổ chức liên quan, năm 2020 là điểm giữa

của giai đoạn mười năm được dự đoán là giai đoạn vàng của thương mại điện tử Việt Nam.

Nhiều cá nhân, hộ gia đình và doanh nghiệp đã kinh doanh trực tuyến khá thành

công mà không có website riêng Họ có thé bán hàng trên các sàn thương mại điện

tử, mạng xã hội Tuy nhiên, hoạt động kinh doanh trực tuyến sẽ ôn định và hiệuquả hơn nếu các doanh nghiệp xây dựng website riêng [1] Điều này dang trở thành

xu hướng trong chiến lược phát triển của các doanh nghiệp và cả những hộ kinh

doanh trong thời đại kinh tế số Số lượng website TMĐT tại Việt Nam tăng lên

nhanh chóng, bao gồm cả những trang web lừa đảo, mục đích không lành mạnh

Các công cụ và kỹ thuật khác nhau là cần thiết dé giúp cho người dùng trong việc

lựa chon website dang tin cậy dé thuc hién giao dich

1.2 Muc tiéu dé tai

Xây dựng được một hệ thống có thé hỗ trợ đánh giá cũng như cung cấp các thôngtin cần thiết cho người dùng về độ tin cậy của một website TMĐT bán hàng (xem

chỉ tiết trong phần 2.1.1) Đồng thời, hệ thống còn có thể đưa ra các khuyến nghịphù hợp cho người dùng đối với website họ cung cấp, giúp người dùng có cơ sở đểquyết định lựa chọn trong việc thực hiện giao dịch hoặc tham gia mua hàng, giảmthiểu rủi ro về lừa đảo trực tuyến

1.3 Đối tượng và phạm vi nghiên cứu

Đôi tượng nghiên cứu chủ yêu xoay quanh việc nghiên cứu tiêu chuân của một

website TMĐT bán hang; những yếu tố quan trọng giúp thiết lập lòng tin của người

Trang 14

tiêu dùng đối với thương mại điện tử Những yếu tố này sẽ làm cơ sở nghiên cứu

thực nghiệm, trong đó mục đích của chúng tôi là xem xét các thông tin được chủ sở

hữu cung cấp trên website để đưa ra đánh giá về độ tin cậy, hợp pháp của website;ứng dụng machine learning vào việc phân tích các yếu tố cấu trúc để phát hiệnwebsite phishing, lừa đảo trực tuyến Xây dựng một ứng dụng web để có cái nhìn

trực quan về các thông tin được cung cap.

Phạm vi nghiên cứu và thử nghiệm của đề tài tập trung vào việc đánh giá các

website TMĐT bán hàng tại Việt Nam Xây dựng hệ thống hỗ trợ người tiêu dùngtrong việc đánh giá độ tin cậy, hợp pháp của website Phân tích các yếu tố thông tin

ảnh hưởng đến độ tin cậy của một website TMĐT bán hàng, đưa ra khuyến nghị

cho người dùng.

1.4 Bố cục bài nghiên cứu

Chương 1: GIỚI THIỆU TONG QUAN DE TÀI - Trình bày lí do chọn đề tài, mục

đích, đôi tượng và phạm vi nghiên cứu.

Chương 2: CƠ SỞ LÝ THUYET - Chương này sẽ bao gồm các khái niệm quan

trong trong bài báo cáo; chi ra những van dé mà dé tài cần tập trung, nghiên cứugiải quyết; phân tích đánh giá các hướng nghiên cứu đã có của các tác giả liên quanđến đề tài; nêu những van dé còn tồn tại

Chương 3: PHƯƠNG PHAP DE XUẤT - Trong chương 3 chúng tôi sẽ mô tả môhình logic của hệ thống đề xuất và nhiệm vụ của các thành phần chính trong hệthống Ngoài ra các phương pháp được sử dụng trong các thành phần cũng sẽ đượctrình bày chỉ tiết

Chương 4: TRIEN KHAI HE THONG - Mô hình triển khai thực tế của hệ thống sẽđược trình bày trong chương này cũng như kết quả của các phương pháp đã đề xuất

và ứng dụng thực tế của chúng trong mô hình

Chương 5: KET LUẬN - Tổng kết các nội dung đã trình bày trong báo cáo này, kếtqua mà nghiên cứu đạt được cũng nhưng những ưu/khuyết điểm tôn tại, từ đó đềxuất các phương hướng nghiên cứu trong tương lai dé cải thiện hệ thống

Trang 15

Chương 2 CƠ SỞ LÝ THUYET

2.1 Độ tin cậy trong website thương mại điện tử

2.1.1 Website thương mại điện tử tại Việt Nam

Theo nghị định số 52/2013/NĐ-CP ngày 16 tháng 5 năm 2013 của Chính phủ về

Thương mại điện tử: “Website thương mại điện tử là trang thông tin điện tử được

thiết lập dé phục vụ một phần hoặc toàn bộ quy trình của hoạt động mua bán hàng

hóa hay cung ứng dịch vụ, từ trưng bày giới thiệu hàng hóa, dịch vụ đến giao kết

hợp đồng, cung ứng dịch vụ, thanh toán và dịch vụ sau bán hàng” Nghị định cũng

nêu rõ, tại Việt Nam hiện nay công nhận các loại hình website TMĐT như sau:

— Website TMĐT bán hàng: La website do chính thương nhân, tổ chức, cá

nhân thiết lập để phục vụ hoạt động xúc tiến thương mại, bán hàng hóa hoặc

cung ứng dịch vụ của mình.

— Sàn giao dich TMĐT: La website TMĐT cho phép các thương nhân, tổ chức

cá nhân không phải chủ sở hữu website có thé tiễn hành một phần hoặc toàn

bộ quy trình mua bán hàng hóa, dịch vụ trên đó.

— Website dau giá trực tuyến: Là website TMĐT cung cấp giải pháp cho phép

thương nhân, tô chức, cá nhân không phải chủ sở hữu website có thể tổ chứcdau giá cho hàng hóa của mình trên đó

— Website khuyến mại trực tuyến: Là website TMĐT do thương nhân, tô chức

thiết lập để thực hiện khuyến mại cho hàng hóa, dịch vụ của thương nhân, tổchức, cá nhân khác theo các điều khoản của hợp đồng dịch vụ khuyến mại

Báo cáo này chủ yếu tập trung vào việc thử nghiệm trên các website TMĐT bán

hàng (dưới đây sẽ gọi tắt là website TMĐT)

2.1.2 Các rủi ro trong thương mại điện tử đối với người dùng

Dưới sự phát triển nhanh chóng của các ngành công nghệ, trước hết là công nghệ

thông tin, thương mại điện tử đang trở một loại hình kinh doanh có sức ảnh hưởng

lớn, chi phối nhiều hoạt động, mang lại nhiều lợi ích kinh tế - xã hội Tuy nhiên,

giống như các loại hình kinh doanh khác, thương mại điện tử cũng có những mặt

hạn chê và rủi ro đặc biệt đôi với người mua hàng.

Trang 16

Theo thong kờ của Cục thương mại điện tử và Kinh tế số năm 2020 [2], những vấn

đề khú khăn mà người tiờu dựng lo ngại cũng như gặp phải khi mua hàng trực tuyến

đa phan là vỡ khụng tin tưởng vào chất lượng hàng húa, dịch vụ thương mại điện tử,khụng an tõm khi thực hiện thanh toỏn trực tuyến và nhiều người khụng biết cỏchmua hàng trực tuyến

Sản phẩm kộm chất lượng so với quảng cỏo | mm

Lo ngại thụng tin cỏ nhõn bị tiết lộ |

ĐQQ%%%%<6:=-Giỏ cả (đắt hơn mua trực tiếp/khụng rừ ràng) | SG ‹:›

Dịch vụ chăm súc khỏch hàng kộm | SE 27,

Cỏch thức dat hàng trực tuyến rắc rối | NN ›s›.

Dịch vụ vận chuyển và giao nhận cũn kộm | SE 230, Website/ứng dụng bỏn hàng thiết kế khụng chuyờn nghiệp | Q6 13%

Cỏch thức thanh toỏn phức tap | (NN 12%

Khỏc |] 1%

(Ty lệ người tiờu dựng)

Hỡnh 2.1 Cỏc trở ngại khi mua hàng trực tuyến [2]

Mua hàng tại cửa hàng thuận tiện hơn | mơ ss

Khú kiểm định chất lượng hàng húa | Q4 „;:.

Khụng tin tưởng đơn vị bỏn hang | min đđđđ“đđbđọ

Sợ lộ thụng tin cỏ nhõn | QQ%( ::-.

Khụng cú đủ thụng tin để ra quyết định | SG ›››.

Khụng cú nhu cầu mua bỏn | SN :;:.

Chưa cú kinh nghiệm mua bỏn trờn mang | SE ;;:.

Hàng húa, dịch vụ khụng phong phỳ | Q% 15%

Khụng cú cỏc loại thẻ thanh toỏn | Q ››,

Cỏch thức đặt hàng trực tuyến rắc rối | SN i

(Tỷ lệ người chưa tham gia mua sắm trực tuyến)

Hỡnh 2.2 Lý do chưa mua sắm trực tuyến [2]

Trang 17

Rủi ro trong thương mại điện tử có rất nhiều hình thái đối với cả người bán và

người mua Tuy nhiên, bởi vì giới hạn mục tiêu của đề tài, chúng tôi chỉ xét những

rủi ro ở phía người mua Theo kết quả nghiên cứu khoa học và ứng dụng công nghệ

của Ths Mai Hoàng Thịnh [3], những rủi ro người mua hàng gặp phải khi tham gia

giao dịch thương mại điện tử bao gồm:

— Nguồn gốc, chất lượng hàng hóa không đảm bảo: Khách hàng không thể xác

định được chính xác nguồn gốc sản phẩm mà chỉ có thể dựa vào quảng cáo,hình ảnh được đăng tải Đối với những cơ sở bán hàng không uy tín thì việc

sử dụng các hình ảnh hàng chính hãng để quảng cáo, bán với giá rẻ hơnnhiều so với thực tế nhăm thu hút người tiêu dùng là rất phổ biến Mặt khác,khi mua sắm trực tuyến có thể gặp phải việc sản pham không được như

mong muốn, sai kích thước, mẫu mã, màu sắc

— Sự cố trong quá trình vận chuyển hàng hóa: TMĐT gắn liền với dịch vụ

chuyên phát nham tiết kiệm thời gian cho việc giao nhận hàng hóa Tuynhiên rất nhiều sự cố trong việc giao hang chậm, hang bi vỡ, hỏng, mathàng xảy ra thường xuyên ảnh hưởng đến lợi ích của cả người mua và

người bán.

— Thông tin của khách hàng không được bảo vệ: Nhiều tài khoản khách hàng

được người dùng sử dụng chung với các dịch vụ khác, dẫn đến một số kháchhàng bị đánh cắp thông tin liên quan đến tài khoản ngân hàng, bị hack cáctrang cá nhân dé sử dung lừa đảo những người khác Bên cạnh đó, nhiềungười tiêu dùng bức xúc khi tên tuổi, số điện thoại, địa chỉ của họ có thể bịcác doanh nghiệp sử dụng phương thức TMĐT cung cấp cho bên thứ ba, gâyảnh hưởng đến sự an toàn và bảo mật thông tin của khách hàng

Ngoài ra, đối với những người mua hàng thông thường, việc bị lừa bởi một websitegiả mạo tổ chức, công ty uy tin là hoàn toàn có thé Họ thường sẽ không dé ý đếnviệc website này có thật sự của tổ chức này hay không, hoặc nó đã hoạt động được

bao lâu, Các phương thức lừa đảo này rat phố biến, đặc biệt khi việc quảng cáo

sản phâm qua mạng xã hội ngày càng nhiêu và mât kiêm soát.

Trang 18

2.1.3 Độ tin cậy trong thương mại điện tử

Mua sắm trực tuyến đòi hỏi sự tin tưởng nhiều hơn, vì nó phức tạp hơn mua sắmtrong môi trường truyền thống Trên mạng công cộng, như Internet, không dễ dàng

dé thiết lập lòng tin giữa người mua và người bán Sự tin cậy là một lối tắt tinh thần

mà người tiêu dùng có thé sử dụng, khi cố gắng giảm sự không chắc chắn, phức tapcủa giao dịch và các mối quan hệ trên thị trường điện tử Sự tin cậy trong các giaodịch trực tuyến thường được cho là yếu tố chính dé xác định sự thành công và thấtbại của thương mại điện tử Quá trình mua và bán hàng hóa, trong mỗi giao dịch

riêng lẻ, bao gồm nhiều giai đoạn khác nhau, chăng hạn như giai đoạn thông tin,

thỏa thuận và giải quyét, Các giai đoạn giao dịch có thé được kết nối với các mức

độ tin cậy khác nhau, vậy nên rất khó đề định nghĩa khái niệm độ tin cậy, một phầnbởi vì sự tin tưởng luôn nằm trong tình huống cu thé, chưa ké còn phụ thuộc vàonhận thức và hiểu biết của mỗi cá nhân

Trong nghiên cứu này, mục tiêu của chúng tôi là xây dựng một hệ thống đánh giá

độ tin cậy của website thương mại điện tử nhưng không cố gang tao ra một kháiniệm hoàn chỉnh về độ tin cậy và áp đặt vào mục đích nghiên cứu Độ tin cậy ở đâyđược định nghĩa bởi từng cá nhân người mua hàng, hệ thong của chúng tôi sẽ cungcấp các thông tin của website bao gồm nhiều khía cạnh và khuyến nghị dựa trênnhững yếu tố được xem là có ảnh hưởng đến độ tin cậy của website, giúp ngườidùng tự đánh giá và quyết định tin tưởng hay không vào website đó

2.1.4 Các yếu tố ảnh hưởng đến độ tin cậy

Nghiên cứu của France Belanger và các cộng sự [4] đã khảo sát và xem xét anh

hưởng của security (bảo mật), privacy (quyền riêng tư), web features (các tính năngcủa website) và trustworthiness (ở đây được định nghĩa là mức độ nhận biết - danhtiếng, sự đáng tin của nhà cung cấp/người bán) trong thương mại điện tử giữa doanhnghiệp với người tiêu dùng (B2C) Các kết quả chỉ ra rang các yếu tô về security làquan trọng nhất đối với người dùng Mặt khác, việc có hay không dấu xác nhận củathird-party lại không được đánh giá cao Nghiên cứu cũng cho thấy rằng trong một

số trường hợp, danh tiếng của người bán, cho dù là các nhân hay doanh nghiệp, ảnhhưởng đến sự tin tưởng của khách hàng hơn là các yếu tố về security và privacy

Ngoài ra, nghiên cứu còn đánh giá thêm các tác động tương đối của chất lượng

Trang 19

trang web và nhận thấy tầm quan trọng của trang web đối với ý định mua hàng Cáctính năng bao mật và quyên riêng tư có mối quan hệ tiêu cực với ý định mua hàng,

trong khi chất lượng của trang web có mối quan hệ tích cực, nguyên nhân là donhận thức và cảm nhận của từng đối tượng khách hàng Điểm yếu của khảo sát này

là việc không có khả năng thực sự năm bắt được các quy trình hoạt động trong mộtmôi trường kinh doanh phức tạp Hơn nữa, các đối tượng được khảo sát không đa

dạng, sự nhận thức của họ và khách hàng thực tế không giống nhau, cũng như hoàn

cảnh mục tiêu của họ là thực hiện khảo sát chứ không phải thực sự nghĩ đến việc

mua hàng.

Trong báo cáo của S Nefti, F Meziane và K Kasiran [5], nhóm tác giả đã đề xuấtmột hệ thống dựa trên fuzzy logic dé hỗ trợ đánh giá và định lượng sự tin cậy trongthương mại điện tử Mô hình tin cậy chung được đề xuất bao gồm năm module Bốnmodule sẽ được sử dung dé định lượng thước do lòng tin của bốn yếu tố được xácđịnh trong mô hình tin cậy là: Sự ton tại (Existence), Sự liên kết (Affiliation), Chính

sách (Policy) và Quá trình thực hiện (Fulfilment).

Customer Satisfaction |

Privacy Statement |==

Hình 2.3 Mô hình tin cậy trong nghiên cứu [5]

Module thứ năm sẽ là phần ra quyết định cuối cùng Đầu ra của module này là chỉ

số tin cậy của giao dịch, chỉ số tin cậy nay được xác định bởi tỷ lệ thành công của

tất cả các biến đầu ra của 4 module trước này Các tác giả cũng chỉ ra điểm cần cảithiện của hệ thống này là không cho phép người dùng xếp hạng các biến dựa trên

kinh nghiệm và nhận thức của riêng họ.

Trang 20

Một mô hình tin cậy khác được đưa ra trong cuốn “Trust in the Network Economy”

Mô hình trên có thé diễn giải như sau: Ba yếu tổ cốt lõi cần thiết dé duy trì hoạt

động kinh doanh là an toàn công nghệ; tính hợp pháp của người bán và khả năng

thực hiện đơn hàng mạnh mẽ Những hình thức này năm ở đáy của hình chóp Bên

trên các yếu tố cơ bản này, những yếu tố tạo niềm tin mà một công ty có thé sửdụng để tao sự khác biệt và đây là “tone” — được hiểu là thiết kế và nội dungwebsite thân thiện, gọn gàng; kiểm soát khách hàng - yêu cầu quyền khi lấy thông

tin cá nhân và cộng tác — giao tiép và duy trì môi quan hệ với khách hang.

Mục đích được các tác giả của nghiên cứu khảo sát "The Importance Ranking of

Trust Attributes in e-Commerce Website" [7] dé cap đến là: (1) tìm kiếm các thuộctính tin cậy có liên quan cần được đặt trong các trang web TMDT và (2) dé xác địnhxếp hạng tầm quan trọng của các thuộc tính tin cậy góp phần vào độ tin cậy củatrang web TMĐT Năm mô hình tin cậy TMĐT đã được sử dụng dé lay các thuộc

tính tin cậy trong khảo sát này.

Trang 21

customer feedback

Content-trust Website layout and structure, website navigation, website

performance, presentation of content Product-trust Product brand, product price, product promotion, product handling

Process-trust Order procedure, payment procedure, customer tracking facility,

after-sales service

Hình 2.5 Các nhóm và thuộc tinh tin cậy trong nghiên cứu [7]

Theo khảo sát và thống kê được trình bày trong Sách trắng thương mại điện tử ViệtNam (2020) [2], các yếu tố được người mua hàng quan tâm như hình sau:

Thiết kế của website/ứng dụng bán hang | 6% <<6ss‹aaa‹ ::

Chính sách bảo mật thông tin khách hàng | 5 Dã ‹‹

Cách thức đặt hàng | @%% E &ỌœS cox

Dịch vụ chăm sóc khách hàng | B1 31%

Chính sách đổi/trả hàng | SN) 20%

Vận chuyển và giao nhận hang hóa | Q6 ›;-,

Phương thức thanh toán | Q4 ›,;,

Uy tín của người bán | S4 26

Chất lượng của hàng héa/dich vụ | SN 25%

Giá cả | BBBIN

(Tỷ lệ người mua hàng trực tuyến)

Hình 2.6 Các yếu tổ người mua hàng quan tâm khi mua sắm trực tuyến [2]

10

Trang 22

Bạn bè, người thân giới thiệu trực tiếp | MU 5755

Xem bình luật, đánh giá trên mang (Mạng xã hội/website TMĐT bán hang) | %%% s‹›‹

Xem quảng cáo (tivi/báo điện tử/báo giấy) | SG 30%

Website/ứng dụng có gắn nhãn uy tín | SNE 210,

Website/ứng dụng đã thông báo/đăng ký với Bộ Công Thương | SN 18%

Khác | § 1%

(Ty lệ người mua hàng trực tuyến)

Hình 2.7 Lý do lựa chọn I website/ứng dụng dé mua hang qua mạng [2]

2.2 Phishing và các nghiên cứu liên quan

Phishing là hình thức tan công mạng mà kẻ tan công giả mạo thành một đơn vi uy

tín để lừa đảo người dùng cung cấp thông tin cá nhân cho chúng Phương thức tấn

công nay được thực hiện phổ biến thông qua các tin nhắn hoặc email đính kèmđường link dẫn tới một website giả mạo đã được tạo sẵn và yêu cầu nạn nhân nhập

các thông tin nhạy cảm như: tài khoản và mật khẩu đăng nhập, mật khẩu giao dịch,

thẻ tín dụng và các thông tin quan trọng khác Thông thường, các website này

thường có hình thức giao dịch trực tuyến, ví điện tử, các công ty thẻ tín dụng, Vớimục tiêu và yêu cầu về độ tin cậy của một website TMĐT, việc xem xét website đó

có hay không dấu hiệu của phishing có thể được xem là một tiêu chí quan trọng

trong việc đánh gia các trang web TMDT.

Về cơ bản có hai cách tiếp cận phổ biến nhất dé phát hiện phishing là List-based và

Heuristic-based List-based là phương pháp sử dụng black/white-list là danh sách

công khai các trang web đã được báo cáo và xác định là phishing hoặc an toàn để

giảm thiểu số nạn nhân tiếp theo Hiện nay có rất nhiều tổ chức cung cấp các danhsách này miễn phí như Phishtank, Virustotal, Google, Hạn chế chính của cách

tiếp cận này là nó sẽ không hoạt động với một website không có trong danh sách

Chỉ khi đã có nạn nhân, hoặc ai đó nhận ra rằng trang web đang thực hiện các hành

vi lừa đảo và báo cáo, danh sách mới được cập nhật Heuristic-based là một cách

tiếp cận khác dé phát hiện phishing dựa trên phân tích mã nguồn của một trang web

bị nghi ngờ là phishing và xác định các thuộc tính thường được liên kết với cáctrang lừa đảo Cách tiếp cận này tốt hơn phương pháp black-list vì nó có thé có khả

I1

Trang 23

năng phát hiện các cuộc tan công phishing mới trong vòng vài phút Nhưng do tinh

chất đa dạng của các cuộc tấn công phishing nên ngày càng khó phát hiện các dạng

tan công mới Ban dau, việc đánh giá theo của mã nguồn trang web chủ yêu là kiêmtra số lượng các thuộc tính liên quan đến phishing đã được xác định và đặt ngưỡngcho chúng Sau đó dùng cách so sánh để xem xét các thuộc tính của website, nếu

vượt qua ngưỡng thì được coi là một trang phishing Việc đặt ngưỡng như vậy

khiến hệ thống phát hiện trở nên cứng nhắc và khó thích ứng với các kiểu tan côngmới trong khi những kẻ tan công ngày càng tinh vi Vì thé nhiều nghiên cứu đã ứngdụng machine learning dé có thé khắc phục những yếu điểm đã nêu trên

Việc ứng dụng machine learning trong phát hiện phishing cũng rất đa dạng và đãđem lại nhiều kết quả tích cực V Rajasekar và các cộng sự đã đề xuất một phươngpháp anti-phishing bang cách sử dung các đặc trưng của URL và thông tin tronghyperlink và được triển khai dưới dang phần mở rộng (extension) của trình duyệt

[8], độ chính xác của phương pháp này đạt 93,8% va có thé phát hiện phishing theo

thời gian thực CANTINA [9] tập trung vào việc phát triển và đánh giá một thuật

toán mới dựa trên TF-IDF, một thuật toán truy xuất thông tin phổ biến CANTINAkhông chỉ sử dụng các thông tin bề nổi mà còn phân tích nội dung dựa trên văn ban

của chính trang web Nghiên cứu này cho thấy rằng phương pháp TF-IDE thuần túy

có thê phát hiện khoảng 97% trang web phishing với khoảng 6% false positives vàsau khi kết hợp một số phương pháp heuristic đơn giản, nó có thê phát hiện khoảng

90% trang web phishing và chỉ có 1% false positives Tuy nhiên báo cáo cũng chỉ ra

rằng phương pháp này có một số vấn đề liên quan đến ngôn ngữ và hiệu suất L.Wenyin cùng cộng sự đã đề xuất một cách tiếp cận mới để phát hiện các trang webphishing dựa trên sự tương đồng trực quan (visual similarity) [10] Bước đầu trongphương pháp sẽ phân tách các trang web thành các khối nỗi bật theo các dấu hiệutrực quan Sau đó, sự tương đồng về hình ảnh giữa hai trang web được đo lường ở

ba khía cạnh: sự giống nhau ở cấp độ khối, sự giống nhau về bố cục và sự giốngnhau về phong cách tông thé Một trang web được báo cáo là nghi ngờ lừa đảo nếubat kỳ điểm nào trong số những điểm tương đồng này với trang web thật cao honngưỡng Họ đã thực hiện thử nghiệm trên tập dữ liệu gồm 328 trang web đáng ngờ.Kết quả sơ bộ cho thay rang cách tiếp cận này có thé phát hiện thành công các trang

12

Trang 24

web lừa dao với một vài cảnh báo sai dé sử dụng trực tuyến Tuy nhiên dé đánh giáchính xác phương pháp vẫn cần thời gian để thử nghiệm trên một lượng dữ liệu lớn

hơn.

Các nghiên cứu liên quan đến ứng dụng machine learning trong phát hiện phishing

của A Kulkarni, L L Brown [11] đã sử dụng tập dữ liệu “Phishing Websites

Dataset” [12] được cung cấp bởi kho lưu trữ UCI Machine Learning Repository(The University of California, Irvine Machine Learning repository) và so sánh kết

quả các thuật toán Supervised Learning khi hoạt động trên tập dữ liệu này Đây

cũng là phương pháp chúng tôi lựa chọn dé thử nghiệm trong nghiên cứu của mình

bởi sự phù hợp của tập dữ liệu và kết quả của các nghiên cứu trên Mô hình thửnghiệm chỉ tiết sẽ được trình bày trong phần sau của báo cáo

2.3 Các nghiên cứu phân loại website tự động

Mục tiêu của nghiên cứu này là xây dựng được một hệ thống có khả năng đánh giá

độ tin cậy của các website TMĐT một cách tự động Đề có thể đánh giá được chínhxác hệ thống hoạt động hiệu quả như thế nào khi thử nghiệm trong thực tế, chúngtôi cần một phương pháp đề hệ thống có thể kiểm tra tự động một website có phải là

website thương mại điện tử hay không trước khi thực hiện nhiệm vụ chính là đánh

giá độ tin cậy.

Đã có nhiều phương pháp đôi với van dé phân loại trang web được thử nghiệm Cácnghiên cứu của X Qi [13] và Min-Yen Kan [14] đã đề xuất một phương pháp tiếpcận thú vị khi thể hiện tính hữu ích của URL trong việc thực hiện phân loạiwebpage Cách tiếp cận này nhanh hơn rất nhiều so với các phương pháp phân loạikhác, vì bản thân các trang không cần phải tìm nạp và phân tích Phương pháp tiếpcận này phân đoạn URL thành các phần có ý nghĩa và thêm các đặc trưng thành

phần, tuần tự và trực quan dé mô hình hóa các mẫu nồi bật Các đặc trưng nhị phân

được sử dụng trong mô hình supervised maximum entropy và được phân tích hiệu

quả trong phân loại nhị phân, đa lớp và phân cấp Ngoài ra các tác giả cũng sử dụngcác tính năng này để dự đoán mức độ uy tín của một trang web (tương tự nhưPagerank) và cho thấy rằng nó có thể được dự đoán với sai số trung bình đưới mộtđiểm (trên thang điểm mười) trong một tập hợp các trang web theo chủ đề Một

nghiên cứu khác khai thác việc sử dụng cấu trúc phân cấp dé phân loại một tập nội

13

Trang 25

dung web lớn, khơng đồng nhất đề hỗ trợ phân loại kết quả tìm kiếm [15] Họ đã sử

dụng SVM, được coi là một phương pháp học tập hiệu quả và hiệu quả dé phân loạivăn bản, nhưng trước đây chưa được khám phá cho các vấn đề phân cấp Trong bàibáo cáo của F D Fausti [16], nhĩm tác giả đã chỉ ra rằng các kỹ thuật DeepLearning cĩ thé giải quyết thành cơng nhiệm vụ dự đốn “thương mại điện tử” trongthí điểm ICT Big Data của Istat Đề đạt được mục tiêu, ho đã phát triển một quytrình xử lý phức tạp và đánh giá hiệu suất của nĩ thơng qua các thử nghiệm rộng rãi.Pipeline bao gồm tập hợp hai bộ phân loại Deep Learning — bộ thứ nhất trích xuấtcác tính năng từ văn bản, bộ thứ hai từ hình ảnh Bằng chứng thực nghiệm cho thấyrằng dé xuất này vượt trội hơn tất cả các giải pháp học máy thay thé đã được thử

nghiệm trong Istat cho cùng một nhiệm vụ X Qi [13] và S.Lassri [17] đã cĩ cuộc

khảo sát xem xét cân thận các đặc trưng và thuật tốn machine learning dành riêngcho việc phân loại trang web Đối với đặc trưng cĩ thê chia thành 2 nhĩm chính baogồm on-page features va features of neighbors Các đặc trưng on-page thưởng được

sử dụng phổ biến hơn bởi việc trích xuất dé dang và ít tốn chi phí Các thuật tốnđược chọn chủ yếu là supervised bao gồm SVM, Nạve Bayes, K-NN, DecisionTree, Phương pháp phân cấp [15] cũng được đề cập đến Ngồi ra nghiên cứu

cũng chỉ ra các phương pháp phân loại webpage hữu ích như thế nào trong việc

phân loại website.

2.4 Machine Learning

Hiện tại cĩ nhiều định nghĩa về Machine learnng (ML) Theo định nghĩa của

Arthur Samuel, ML là một lĩnh vực con của Trí tuệ nhân tao (Artificial Intelligence

- AD sử dụng các thuật tốn cung cấp cho máy tính khả năng học hỏi mà khơng cần

được lập trình một cách rõ ràng [18] Hoặc theo cách lý giải phức tạp hơn của Tom

Mitchell, cĩ thé hiểu ML như một chương trình, nhiệm vụ của nĩ là thưc hiện một

task T nào đĩ, khi thực hiện xong, ta thu được experience E Nhờ vào việc học hỏi

experience E, ta cĩ thể thay đổi (hoặc khơng) dé tiến tới thực hiện task T+1, và

nhăm cải thiện hiệu suât P.

Machine Learning cĩ sự gắn bĩ chặt chẽ với khá nhiều ngành khác, ví dụ như Big

Data, AI, Statistics Learning.

14

Trang 26

Hình 2.8 Mối quan hệ của ML với một số ngành khácTrong thực tế, một số các lĩnh vực phô biến mà ML góp mặt có thé ké đến như:

Xử lý ảnh (Image Processing) Phân tích văn bản (Text analysis): Lọc spam (Spam filtering), phân tích ngữ

nghĩa (Sentiment Analysis), khai thác thông tin (Information Extraction), phân loại văn bản,

Khai thác dữ liệu (Data mining): Phát hiện bất thường (Anomaly detection),

phát hiện các quy luật (Association rules), gom nhóm (Grouping), dự đoán

(Predictions),

Tro chơi điện tử & Robot.

2.4.1 Phân loại thuật toán machine learning

Thuật toán ML có thể coi là cách các chương trình máy tính học dựa trên dữ liệu có

sẵn với thuật toán liên quan đến kinh nghiệm trong quá khứ Các thuật toán MLhoạt động bằng cách xây dựng một mô hình từ các dữ liệu đầu vào và cố gắng đưa

ra những giả thiết đơn giản nhất mà có thé đúng với hầu hết các mẫu trong tập dữliệu có sẵn, từ đó dự đoán hoặc đưa ra quyết định đối với những dữ liệu mới thay vì

tuân theo các hướng dẫn chương trình tinh nghiêm ngặt.

Hai phương pháp học phố biến của ML là Supervised learning (học có giám sát) và

Unsupervised learning (học không giám sát) Sự khác nhau lớn nhất giữa hai

phương pháp này là kiểu tập dữ liệu huấn luyện cần cung cấp cho mô hình; cách sử

dụng đữ liệu và loại vân đê mà chúng giải quyết:

15

Trang 27

— Supervised learning: Trong học có giám sát, thuật toán thực hiện quá trình

“chuyền dit liệu đầu vào thành đầu ra mong muốn” Dữ liệu cung cấp sẽ cócấu trúc theo cặp {x, y} với x được xem là dữ liệu thô (raw data) và y là

nhãn (label) của dữ liệu đó Giá trị y hoàn toàn được gán nhãn dựa vào con

người, điều này có nghĩa là con người huấn luyện cho máy tính giá trị đầu ramong muốn được định trước Tập càng nhỏ thì máy tính học càng ít Hạn chế

khi sử dụng phương pháp này là chúng ta cần cung cấp dữ liệu có nhãn đượcgán một cách thủ công Điều này rất tốn thời gian và công sức Đây cũng là

một rào cản của phương pháp này: xây dựng các tập dữ liệu gán nhãn chất

lượng (có độ tin cậy cao).

+ Supervised Learning được phân loại thành Regression (Bài toán hồi

quy) va Classification (Bài toán phân loại): trong Regression, giải

giá trị của output là liên tục và là các giá trị thực Ví dụ như giá cả,

can nặng, chiều cao, Ngược lại, khi đầu ra mong muốn của chúng ta

là một tập hữu hạn và rời rac, vi dụ như mau sắc, chính là

Classification.

+ Một số thuật toán phd biến của phương pháp này là Logistic

Regression, Decision Tree (DT), Support Vector Machine (SVM), Naive Bayes (NB), Random Forest (RF)

— Unsupervised learning: Khác với Supervised Learning, Unsupervised

Learning không hướng tới việc tim một "correct output", mà hướng tới việc

tìm ra các cấu trúc, mỗi quan hệ ấn trong dataset Tùy thuộc vào tập huấnluyện mà kết quả sẽ khác nhau, máy tính sẽ phải tự học hoàn toàn Có thể

nói, trong học không giám sát thì giá trị đầu ra sẽ phụ thuộc vào thuật toán

Unsupervised learning được chon.

+ Unsupervised Learning Algorithm cũng được chia thành hai nhóm:

Clustering hướng dén viéc phân nhóm, phân đoạn dữ liệu từ tap dữliệu ban đầu và Non-clustering thường được sử dụng dé tìm các cau

trúc ân trong dir liệu.

Một số giải thuật phổ biến trong Unsupervised Learning: K-means, PCA, LDA,

16

Trang 28

Ngoài ra cũng có những phương pháp khác như Semi-supervised Learning (học bán

giám sát), Reinforcement Learning (học tăng cường), Ensemble Learning [18]

2.4.2 Một số thuật toán machine learning trong nghiên cứu

1

: ‘=

sigmoi TM eo

Xây dung (huân luyện, tìm kiêm, giải) mô hình là việc tìm các tham sô mô hình

W = [w,,W2,W3, ,W,] sao cho giá trị y sau khi dự đoán gân với giá trị dau ra

thực tế nhất

| https://machinelearningcoban.com/2017/01/27/logisticregression/

17

Trang 29

Ta xây dựng một hàm dé do độ chênh lệch giữa giá trị dự đoán và giá trị thực, hàmnày được gọi là hàm mắt mát (loss function).

Trong Logistic Regression, ham mat mát là:

LWW) = ) Glogyi + (L— )log(1— yi)

i=1

Hàm mắt mát này còn được gọi là Cross Entropy, trong đó:

— L(W) là ký hiệu hàm mất mát

—_N là số lượng điểm dữ liệu trong tập huấn luyện

— y;, là giá trị đầu ra mà mô hình dự đoán của điềm đữ liệu i

— 9° là giá trị đầu ra thực tế của điểm dit liệu i

Nói cách khác, dé huấn luyện mô hình này với bộ dữ liệu đã cho, ta cần tìm giá trị

các hệ số W = [w;,w;,ws, ,w„] để L(W) đạt giá trị nhỏ nhất

Sau khi huấn luyện mô hình Logistic Regression, dé dự đoán điểm dữ liệu đã chothuộc lớp nào, ta thiết lập một giá trị ngưỡng t Nếu y >t thì ta cho điểm dữ liệuthuộc lớp 1 và ngược lại, nêu y < £ thì ta cho điểm dữ liệu thuộc lớp 0

Hình 2.10 Cách phân loại nếu đặt ngưỡng t=0.5

2.4.2.2 Support Vector Machine

Support Vector Machine là một trong các thuật toán phân loại được sử dung phổbiến nhất trong Machine Learning Mục tiêu của thuật toán này không những phân

18

Trang 30

chia được các lớp dữ liệu với nhau, mà còn tìm cách đê tôi đa khoảng cách giữa

đường phân chia với các điểm dữ liệu giữa các lớp (maximum margin)’.

Hình 2.11 Vi dụ cách phân chia cua Support Vector Machine ?

Khoảng cách từ một điểm (vector) x; bat ky trong không gian đến siêu mặt phang

có công thức wx + b = 0 là:

y¡(wTx;¡ +b)

llwill;

Trong đó:

— y¡ bang 1 hoặc -1, tùy vào lớp mà điểm dữ liệu x; thuộc về

— llWll;= | #.¡w¿2 với đ là số chiều của không gian.

Định nghĩa lề (margin) của mặt (đường) phân chia được tính bằng khoảng cáchngắn nhất từ một điềm dữ liệu đến mặt phân chia:

Trang 31

Sau khi áp dụng bài toán đối ngẫu Lagrange và hệ điều kiện KKT cho bài toán trên,

ta tìm được một số điểm (vector) đặc biệt nằm ngay trên margin, gọi là các Support

Vectors và một giá tri A ứng với môi vector tìm được.

Hình 2.12 Các Support Vector được khoanh tròn nằm ngay trên margin

Gọi các Support Vector và nhãn của nó lần lượt là (X41, y¡), (X2, V2), - , Xm Vn):Các giá trị A tương ứng với mỗi vector là Ay, Âa, , Âm.

Gọi tập hợp S={n: A, # 0} va Ng là số phan tử của tập S

Từ đây ta có thể suy ra được w và b với:

w= » AmYm%Xm

mes

20

Trang 32

Thuật toán Support Vector Machine thông thường chi có thé giải quyết các bài toán

tuyến tinh, dé có thể giải quyết được các bài toán ma đường phân chia là phi tuyến,

người ta thường đưa các vector x vào một không gian mới có số chiều lớn hơn.Tuy nhiên việc này có thê gây ra vấn đề to lớn trong lưu trong đữ liệu và tính toán

Hình 2.13 Chuyển các điểm vào chiều không gian mới có thể giúp phân loại được

các tập dữ liệu phi tuyên.

Nhận xét thấy tính toán giá trị của công thức (1) phụ thuộc vào việc tính toán cáctích vô hướng +?+, do đó, thay vì phải chuyển các điểm dữ liệu vào chiều không

gian mới, người ta thường tìm cách tính tích vô hướng của 2 vector trong không

gian đó (kernel trick) Thuật toán SVM sử dụng các ham kernel gọi là kernel-SVM.

Trang 33

K-nearest neighbor là một trong những thuật toán supervised-learning đơn giản nhất

(mà hiệu qua trong một vài trường hop) trong machine learning Khi training, thuật

toán này không học một điều gì từ dữ liệu training (đây cũng là lý do thuật toán nàyđược xếp vào loại lazy learning), mọi tính toán được thực hiện khi nó cần dự đoán

kết quả của dữ liệu mới K-nearest neighbor có thê áp dụng được vào cả hai loại của

bài toán Supervised learning là Classification và Regression KNN còn được gọi là

một thuật toán Instance-based hay Memory-based learning.

Với KNN, trong bài toán Classification, label của một điểm di liệu mới được suy ratrực tiếp từ K điểm dữ liệu gần nhất trong training set Label của một test data cóthé được quyết định bang major voting (bầu chọn theo số phiếu) giữa các điểm gầnnhất, hoặc nó có thê được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểmgần nhất đó rồi suy ra label.*

Tóm tắt thuật toán:

— Bước 1: Chọn một số K.

— Bước 2: Tính toán khoảng cách của toàn bộ điểm dit liệu trong tập huấn

luyện với điểm cần dự đoán

— Bước 3: Chọn ra K điểm dữ liệu trong tập dữ liệu có khoảng cách gần với

điêm cân dự đoán nhât.

3 https://machinelearningcoban.com/2017/04/22/kernelsmv

4 https://machinelearningcoban.com/2017/01/08/knn/#k-nearest-neighbor

22

Trang 34

— Bước 4: Dựa trên các diém đã chọn, ta có thê dự đoán được kêt qua của điêm

dữ liệu mới bằng phương pháp major voting hoặc weighted voting

Phương pháp major voting: Trong K điểm dữ liệu đã chọn, class nào có số điểm

thuộc về nhiêu nhat sẽ được chọn là kêt quả dự đoán cho điêm dữ liệu mới.

Phương pháp weighted voting: Với mỗi điểm trong K điểm đã chọn, nếu điểm thứ ¡thuộc class C thi class nay được cộng một số điểm có giá trị tỉ lệ nghịch với khoảng

cách của điểm ¡ với điểm cần dự đoán Cuối cùng điểm dữ liệu mới được phân vào

class có sô điêm cao nhat.

Hình 2.14 Minh họa thuật toán K-NN dự đoán cho điển dit liệu mau trắng Với

K=5, sử dụng khoảng cách Euclid và phương pháp major voting, điển này được dự

đoán vào lớp màu sâm

2.4.2.4 Random Forest

Random forest là một thuật toán thuộc phương pháp ensemble learning được sử

dụng cho cả bài toán classification và regression Random Forest là thuật toán kết

hợp rất nhiều Decision Tree khác nhau, mỗi Decision Tree được huấn luyện trên

một phan ngẫu nhiên của tập dữ liệu huấn luyện ban dau.

Decision tree là mô hình đưa ra quyết định dựa trên các câu hỏi và thứ tự của chúng.Với các bài toán và tập dir liệu khác nhau, ta có thể xây dựng rất nhiều cây quyếtđịnh dé giải quyết bài toán đó Trong vô vàn cây quyết định có thé có, ta cần chọn

ra một cây quyết định đủ tốt Một cây quyết định được xem là tốt nếu:

23

Trang 35

— Chiêu cao của cây thap.

— Đạt được hiệu quả/độ chính xác cao.

Điêm đáng lưu ý của decision tree là nó có thê làm việc với cả các đặc trưng (còn được gọi là thuộc tính — attribute) dạng categorical, thường là rời rạc và không có thứ tự (ví dụ, mưa, nang hay xanh, đỏ, ) cũng như dữ liệu có vector đặc trưng bao

gôm cả thuộc tính dạng categorical và liên tục (numeric) Một điêm đáng lưu ý nữa

là decision tree ít yêu câu việc chuân hoá đữ liệu.

Training set Decision Tree 1

Training set Decision Tree 2

Training set Decision Tree 3

Training set Decision Tree 4

Hình 2.15 Ví dụ về cách phân chia tập dt liệu để huấn luyện được nhiều Decision

Trang 36

Mô hình Random Forest thường cho kết quả tốt hơn nhiều so với một Decision Tree

đơn lẻ vì các Decision Tree thành phần trong Random Forest được phép huấn luyện

mà không cần cắt tỉa, do đó có thể dự đoán đúng nhiều điểm dữ liệu mà mộtDecision Tree thông thường không thé dự đoán do dùng các kỹ thuật cắt tia dé tránh

overfit Các Decision Tree trong Random Forest được áp dụng một phương pháp

tránh overfit khác là cross-validation: Các Decision Tree được huấn luyện trên các

tập dữ liệu khác nhau, từ đó có thể tạo ra sự phong phú giữa các thông tin thu được

trong từng cây Cross-Validation được đánh giá là tốt hơn cắt tỉa vì phương phápnày được thực hiện dựa trên ước lượng và thong kê các đặc điểm của từng tập dữ

liệu, còn cat tỉa cân phải được thiết lập các tham sô một cách chủ quan.®

Hình 2.17 Đường phân loại khi áp dụng một Decision Tree và một Random Forest 5

Công thức trên được diễn giải là “xác suất dé đầu ra là c khi dau vào là vector x”,

Băng cách tính toán giá trị công thức trên với mọi lớp trong tập dữ liệu, từ đó có thê giúp xác định class của điêm dữ liệu đó băng cách chon ra class có xác suât cao

nhất:

6 https://towardsdatascience.com/why-random-forests-outperform-decision-trees- Ib0f175a0b5

25

Trang 37

Công thức trên có thể rút gọn p(x) do p(x) không phụ thuộc vào i.

Trong công thức trên, p(c) là xác suất dé một điểm rơi vào class c

Thành phan P(x|c) được xem là phân phối của các điểm dữ liệu thuộc lớp c Nếu

ta xem xét các thành phan trong vector x = [x,,X, ,Xq] là độc lập với nhau thì:

dp(xle) = pÉn,xz, xale) =| [pGle) (3)

Thay (3) vào (2) nếu d lớn và các xác xuất nhỏ thì biêu thức về phải là một sốrất nhỏ, khi tính toán có thé bi sai số nên ta thường được viết lại dưới dạng tươngđương bằng cách lấy log của về phải:

d

c = argmax ego) + 3 log(pŒ,|€)) |

i=1

c€{1, ,C}

Việc tính toán p(x;|c) phụ thuộc vào loại dit liệu Có 3 loại được sử dụng phổ biến

là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli Naive.

Đối với Gaussian Naive Bayes, xác suất p(x;|c) có kỳ vọng g„¡ và phương sai

¿, được tính theo công thức:

Trang 38

— N, là tổng sỐ lượng điểm dit liệu thuộc class c (kể cả lặp).

Đối với Bernoulli Naive Bayes xác xuất p(x;|c) được tính theo công thức:

pŒ¡le) = p(ile)*(1 — p(ilc))

— Với p(ilc) là xác xuất thành phan thứ i xuất hiện trong class c

Naive Bayes Classifiers (NBC) thường được sử dụng trong các bài toán Text Classification.

Mô tả thuật toán tham khảo theo 7.

2.5 Natural language processing (NLP)

Xử lý ngôn ngữ tự nhiên, gọi tắt là NLP, là một lĩnh vực khoa học máy tính và ngônngữ học liên quan đến sự tương tác giữa ngôn ngữ tự nhiên của con người và máytính Mục tiêu của lĩnh vực này là giúp máy tính có thê xử lý hiệu quả những nhiệm

vụ liên quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cảithiện hiệu quả giao tiếp giữa con người với con người, hoặc đơn giản là nâng cao

hiệu quả xử lý văn bản và lời nói.

NLP ngày càng được ứng dụng nhiều Một số ứng dụng có thể kế đến như: Nhận

dạng tiếng nói; truy xuất thông tin (Information Retrieval — IR); trích chọn thông tin

(Information Extraction — IE); trả lời cau hỏi (Question Answering — QA); tóm tat

văn ban tự động (Automatic Text Summarization); chatbot; dịch máy; kiểm lỗi

chính tả tự động (Tham khảo theo Š)

NLP là một lĩnh vực rộng lớn, và do đó phần này sẽ chỉ tập trung vào các khái niệm

cân thiệt cho chương sau của báo cáo này.

Trang 39

2.5.1 Term Frequency - Inverse Document Frequency (TF-IDF)

Term Frequency — Inverse Document Frequency là một thống kê số học nhằm phảnánh tầm quan trọng (trọng số) của một từ đối với một văn bản trong một tập hợp

nhiêu văn bản khác nhau Giá trị cao thê hiện độ quan trọng cao.

TF - Term Frequency (Tan suất xuất hiện của từ) là tần số xuất hiện của một từtrong một văn bản Khi một từ xuất hiện nhiều trong văn bản, nó có thể là một dấu

hiệu quan trọng đối với văn bản đó Tuy nhiên các văn bản có thể có độ dài ngắn

khác nhau nên một số từ có thé xuất hiện nhiều lần hon trong một văn bản Tùy theovăn bản mà ta có thé đưa ra cách tính phù hợp cho giá trị này Don giản nhất có thêđược tính bằng cách chia cho độ dài văn bản (tổng số từ)

f(t, d)

ED) =< Fwd)

Trong do:

— tf(t,d) là giá tri TF của từ t trong văn bản d.

— f(t,đ) là số lần xuất hiện của từ t trong văn bản d

— Yweaf(w,d) là tổng số từ của văn bản d

IDF - Inverse Document Frequency (Nghịch đảo tần suất của văn bản): Khi tínhtoán TF, tất cả các từ được coi như có độ quan trọng bằng nhau Nhưng một số từnhư “và”, “những”, “này”, thường xuất hiện rất nhiều lần nhưng độ quan trọng làkhông cao bởi không mang ý nghĩa cụ thể Vì vậy chúng ta cần giảm độ quan trọng

của những từ này xuông.

— |{d €D:t €d}| là số văn bản trong tập D có chứa từ t Nếu từ đó

không xuất hiện ở bất cứ 1 văn bản nào trong tập thì mẫu số sẽ bằng 0,

28

Trang 40

phép chia cho sẽ không hợp lệ, vì thế người ta thường thay bằng mẫu

thức 1+ |{d €D:t €d)|.

Giá trị TF-IDF phản ánh trọng số của một từ được tính bằng công thức sau:

tfidf(t,d,D) = tƒ(t,d) xidf(t,D) (4)

2.5.2 Bag-of-words model (BoW)

Mô hình bag-of-words là một mô hình don giản hóa các tài liệu Bag-of-words là

một tập hợp các từ của văn bản nhưng không quan tâm đến thứ tự và ngữ pháp

Mô hình túi từ chủ yếu được sử dụng như một công cụ tạo đặc trưng Cách biểu

diễn phô biến nhất của mô hình này là dạng vector, mỗi thành phần của vector làmột từ khóa riêng biệt trong tập văn bản gốc và đươc gán một giá trị là hàm f thê

hiện sự hiện diện của từ khóa đó trong văn bản Ví dụ, ta có văn bản:

“My cats want to go out but I want to stay at home to study.”

Túi từ của văn ban trên sẽ là: {“My”: 1, “cats”: 1, “want”: 2, “to”: 3, “go”: 1, “out”:

1, “but”: 1, “I”: 1, “stay”: 1, “at”: 1, “home”: 1, “study”: 1}.

Gia sử ham f cua chúng ta là số lần xuất hiện của mỗi từ, ta có thé biểu diễn vector

cua văn bản trên như sau: BoW1 = (1,1,2,3, 1, 1, 1, 1, 1,1,1, 1).

29

Ngày đăng: 23/10/2024, 00:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w