Trong nghiên cứu này, chúng tôi đã phát triển một hệ thống có thé hỗ trợ đánh giá cũng như cung cấp các thông tin cần thiết cho người dùng về độ tin cậy của một website thương mại điện t
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
LE THI HUYEN THU
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
LÊ THỊ HUYEN THU - 17521104
LÊ THỊ HUYEN MY - 17520771
KHÓA LUẬN TÓT NGHIỆP
XÂY DỰNG HỆ THÓNG ĐÁNH GIÁ ĐỘ TIN CẬY
CỦA CÁC WEBSITE THƯƠNG MẠI ĐIỆN TỬ
Implementing a system to evaluate the reliability of
e-commerce websites
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
THS TRAN THI DUNG
TP HO CHi MINH, 2021
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
¬ eens cnet enee eae enas Nay của Hiệu trưởng Trường Dai hoc Công nghệ Thông tin.
Trang 4các thầy, cô bỏ qua và giúp chúng em hoàn thiện hơn Đồng thời kiến thức cũng
như kinh nghiệm của các thành viên trong đề tài còn hạn chế nên bài báo cáo khôngthể tránh khỏi những thiếu sót, em rất mong nhận được ý kiến đóng góp từ phíathay, cô dé có thé học thêm được nhiều kinh nghiệm và hoàn thành tốt hơn
Chúng em cũng xin chân thành cảm ơn các thầy cô giảng viên trong trường Đại họcCông nghệ Thông tin đã giúp chúng em có được cơ sở lý thuyết vững vàng về cácmôn đại cương cũng như các môn chuyên ngành, tạo điều kiện giúp đỡ chúng emtrong suốt quá trình học tập
Chúng em xin chân thành cảm ơn!
Trang 5MỤC LỤC
Io0e v00
DANH MỤC HÌNH 0 ecseeeecssseessssseecssneecssnecessneeessnecssuseeesnnesssnecssnecssaneessaneessneesssansDANH MUC BANG
TOM TAT KHOA LUAN csscscsssssssssssessessssesesssneseessneceessnesessnnesessnieeseesnnesessnnsecs 1
Chương 1 GIỚI THIEU TONG QUAN DE TÀI -¿ 5¿©52255+2cx+2cse2 2
1.1 Bối cảnh để ti eee ceecsseeeecssseeessneeesssnecessneccssnecessnneessnnecssneessneessnnseessnnes 2
1⁄2 Mục tiêu đề tài cccrnhtnh Hee 2
1.3 Đối tượng và phạm vi nghiên cứu -¿ ¿-s¿+++2x++x++zx+zx+zzx+zzxezrxez 2
1.4 Bố cục bài nghiên cứu - c¿+c2++s+Ek+EE2EE+EEEEEEEEEEEEEEEEEEEEEEEEErrrrkerveee 3
Chương2 CO SỞ LÝ THUYÉT 2- ¿©++2++EE++Ex++E+tzE+erx+zrxzrxee 4
2.1 Độ tin cậy trong website thương mại điện tử ¿5c s 55s ++<<++s+ss 4
2.1.1 Website thương mại điện tử tại Việt Nam - - 5++-ss+<x++ss++ 4
2.1.2 Các rủi ro trong thương mại điện tử đối với người dùng 4
2.1.3 Độ tin cậy trong thương mại điện tỬ 5 +55 +++s<++>+sx+sx++ 7
2.1.4 Các yếu t6 ảnh hưởng đến độ tin cậy -5+©5c+czcs+rxcred 7
2.2 Phishing và các nghiên cứu liên quan - 5 55335 ‡ + ++seexxeeeeees 11
2.3 Các nghiên cứu phân loại website tự Ong ce eeeeseeseeseeseeeseeeeeseeeteens 13
2.4 Machine LearnInB - cv nh ng HH HH Hưng nh ng 14
2.4.1 Phân loại thuật toán machine learning - - 5+ +s+++<<+ 152.4.2 Một số thuật toán machine learning trong nghiên cứu - 17
2.5 Natural language processing (NLP) - - - Ă vn n rry 27
2.5.1 Term Frequency - Inverse Document Frequency (TF-IDF) 28
2.5.2 Bag-of-words model (BoÝW) - kg HH HH HH Hy 29
Trang 6Chương 3 PHƯƠNG PHAP ĐỀ XUẤTT -52+e+EE+£EtzEeEerkerreres 30
3.1 Phương pháp thu thập dữ liỆu - - +25 +2** SE +ksetrerrrrrererrrrree 31
3.1.1 Nguén thu thập -2-55+2c+2EkeEEEeEEerkrrrkerkrerkrerkee 313.1.2 Phương pháp trích xuất thông tỉn - 2 2+sz+se+x+zxersersssee 323.2 Phương pháp nhận biết website thương mại điện tử - 33
3.2.1 Xây dựng đafas€( HH TH HH ng 33
3.2.2 Tiền xử lý đữ liệu ¿© c2ckcckerkerkrrrkerkrerkrerxee 343.2.3 Môi trường huấn luyện -¿ ¿©++2++x++rx+rxvrxesrxeerxee 413.2.4 Thuật toán huấn luyỆn -¿- 2 ¿+s+Sk+EE+EE+EE£EE+EEEerkerxerxererree 41
3.2.5 _ Cách đánh giá mô hình - 52c +1 E+kEsErerrrererrrrrerree 42 3.3 Phương pháp phát hiện phishing ứng dung machine learning 43
3.3.1 DatasCt 6 44
3.3.2 Phương pháp lựa chọn đặc trưng - -s+ + s+ssexseeeeesesesrs 44 3.3.3 Lua chọn thuật toán va cách đánh giá mô hình - - + 47 3.4 Phương pháp đánh giá độ tin cậy website thương mại điện tử 47
3.4.1 _ Các tiêu chí đánh giá - 5 S5 «Sư 48
3.4.2 _ Phương pháp đánh giá - SĂ 3c S2 Strirrrrrirerrrserree 51
Chuong 4 XÂY DỰNG VÀ TRIEN KHAI -2- 2 + x+2s++£++zxerxczez 53
4.1 Xây dựng Web S€TV€T -QG HH TH TH HH TH net 53
4.1.1 _ Thu thập và trích xuất dữ liệu -¿- 2 2 x++x++£z+reerxerseee 554.1.2 Nhận biết website thương mại điện tử - -. <<+<<<-x++ 55
4.1.3 Phát hiện phishing - 6 5 5kg gi gi, 61 4.1.4 Đánh giá độ tin cậy - nh HH HH HH HH Hy 64
4.1.5 Các thành phan dữ liệu trong database - 2 2 2s x+cxz se 65
A.D : c nn ằẢĂẮ 66
Trang 8DANH MỤC HÌNH
Hình 2.1 Các trở ngại khi mua hàng trực tuyến [2] -22<<<<<c<<<<<<eeeceeses 5Hình 2.2 Ly do chưa mua sắm trực tuyến [2] 2-2 s+£+£++£++£x+zxzzEzrxerxeee 5
Hình 2.3 Mô hình tin cậy trong nghiên cứu [Š] - 5555555 ‡+++sseeeeereeeeres 8
Hình 2.4 The Trust PyTA1T1C G5 11210118931 1993 83111 91 1 93 1x ng 9
Hình 2.5 Các nhóm và thuộc tinh tin cậy trong nghiên cứu [7] - ‹- -«- 10
Hình 2.6 Các yếu tổ người mua hang quan tâm khi mua sắm trực tuyến [2] 10Hình 2.7 Ly do lựa chon 1 website/ứng dụng dé mua hàng qua mạng [2] 11Hình 2.8 Mối quan hệ của ML với một số ngành khác 2 ¿2 s2 s2 +2 15
Hình 2.9 Đồ thị ham sigmoid -¿- 2-52 ©522S22EE‡EESEEEEEEEEEEEEEEEErEkerkrrkrrex 17
Hình 2.10 Cách phân loại nếu đặt ngưỡng t=0.5 -¿-2- + ++2E++£++zxvrxzsz 18
Hình 2.11 Ví du cách phân chia của Support Vector Machine 7 19
Hình 2.12 Các Support Vector được khoanh tròn nằm ngay trên margin 20
Hình 2.13 Chuyển các điểm vào chiều không gian mới có thé giúp phân loại đượccác tập dit liệu phi tuyến ¿- ¿5c + k+SE+EE2EE2EE2EEEEEEEE1EE1EE121121121 2111111 cxe 21
Hình 2.14 Minh họa thuật toán K-NN dự đoán cho điểm dữ liệu màu trắng VớiK=5, sử dụng khoảng cach Euclid và phương pháp major voting, điểm này được dự
oan Va0 16p MAU 3 1007 23
Hình 2.15 Ví dụ về cách phân chia tập dữ liệu dé huấn luyện được nhiều Decision
Tree Khac nhau 0 na l.2l1 24
Trang 9Hình 3.3 Danh sách website TMĐT trên website của Bộ Cơng Thương 32
Hình 3.4 Sơ đồ xây dựng mơ hình ML nhận dạng website TMĐT - 33
Hình 3.5 Ví dụ về các HTML tag trong website -¿- 5:2 cc+cxcczxrsrxerreeree 34 Hình 3.6 Hệ số tương quan giữa các đặc trưng và kết quả - 5s s2 36 Hình 3.7 Hệ số tương quan giữa các đặc trưng -:- ¿+cz+cx+rxerxczrssrxerrcres 37 Hình 3.8 Số điểm của mỗi lớp dữ liệu trong dataset - 2 s¿+cscs+ecs+ 38 Hinh 3.9 Chia tap dit 1@u oo 39
Hình 3.10 Số điểm dữ liệu của mỗi lớp trong tập huấn luyện . 39
Hình 3.11 Số lượng điểm dữ liệu ở mỗi lớp sau khi áp dụng over sampling 40
Hình 3.12 số lượng điểm dữ liệu ở mỗi lớp sau khi áp dung under sampling 40
Hình 3.13 Google CỌabOTAfOTV - ccc + 2 EE931<11 E3 911 1K HH ngư 41 Hình 3.14 Cách tinh Precision va Recall - - s- s xxx 3E see 43 Hình 3.15 Sơ đồ xây dựng mơ hình phát hiện Phishing -. -5- 43 Hình 3.16 Số điểm dit liệu của các lớp trong phishing website dataset 47
Hình 3.17 Mơ hình đánh giá độ tin cậy và đưa ra khuyến nghị - 47
Hình 4.1 Mơ hình triển khai hệ thong đề xuất -¿- 5: ©+2©5++zxz+z++zs+szsz 53 Hinh 4.2 Data flow 0n 54
Hình 4.3 Đánh giá các mơ hình trên tap dữ liệu oversampling 56
Hình 4.4 Đánh giá các mơ hình trên tập dữ liệu under sampling . 57
Hình 4.5 Tổng hợp tat cả các mơ hình 2-2 22 x+E+2E£+EE+EE+EEtzE+zEezrxerxerez 58 Hình 4.6 Ngưỡng 0.53 tạo ra kết quả tốt nhất cho mơ hình -:- 5: 60 Hình 4.7 Kết quả các phép do accuracy, recall, precision va fl-score trên tập \M:1' 9 05LU9HHHIIaaẳaẳđadaaadiiiddddaddŸI 62
Hình 4.8 Kết quả các phép do accuracy, recall, precision và fl-score trên cả 2 tập M6 0i08šy ii 00787 63
Trang 10Hình 4.9 Phần kết quả của mô hình trong triển khai thực tẾ - -s- 64Hình 4.10 Phần kết quả đánh giá độ tin cậy của website trong triển khai thực té 65Hình 4.11 Khuyến nghị dành cho người dùng dựa trên các thông tin từ website 65
Hình 4.12 Giao diện nơi nhập URL trên trang chủ websIfe -s++<x+++ 66
Trang 11DANH MỤC BANG
Bang 3.1 Khoảng giá trị TF-IDF trung bình của mỗi từ khóa - - 35
Bảng 3.2 Ưu và nhược điểm của mỗi phương pháp cân bằng - - 41
Bang 3.3 Dac trung để xuất lựa COM .eeeceeccecsceceecsesesecscseseucscsescecsesesecsesvsseaesveneacees 46
Bang 3.4 Các tiêu chí đánh giá độ tin cậy được đề xuất -2- 2 sccxccsz 51
Bang 4.1 Đánh gia các mô hình trên tập dữ liệu oversampling - 56 Bang 4.2 Đánh giá mô hình Logistic Regression trên tập dữ liệu under sampling .57
Bảng 4.3 Bộ tham số của Random Forest tìm ra bằng Grid Search 59Bảng 4.4 Kết quả đánh giá mô hình nhận diện website TMĐT đã được tối ưu 60Bảng 4.5 Kết quả các phép do accuracy, recall, precision và fl-score trên tập
Bang 4.6 Kết quả đánh giá mô hình phát hiện Phishing đã được tối ưu 64
Bảng quy đổi điểm số các yếu t6 tin cậy 22 2 s+2x+2E2EE+EEeEEerEerrkerkerkrrex 72
Trang 12TÓM TÁT KHÓA LUẬN
Sự phát triển mạnh mẽ của thương mại điện tử đang kéo theo các loại hình lừa đảo
trực tuyến cũng gia tăng nhanh chóng với nhiều hình thức khác nhau Việc mạodanh website của một tổ chức, cá nhân uy tin dé lừa người mua hàng trực tuyến làmột trong những hình thức phô biến nhất khi mà việc xây dựng website riêng đangtrở thành xu hướng trong chiến lược phát triển của các doanh nghiệp và cả những
hộ kinh doanh Trong nghiên cứu này, chúng tôi đã phát triển một hệ thống có thé
hỗ trợ đánh giá cũng như cung cấp các thông tin cần thiết cho người dùng về độ tin
cậy của một website thương mại điện tử bán hàng Chúng tôi đã nghiên cứu tiêu
chuẩn của một website thương mại điện tử bán hàng cũng như những yếu tố quantrọng giúp thiết lập lòng tin của người tiêu dùng đối với thương mại điện tử Chúng
được sử dụng làm cơ sở nghiên cứu phát triển hệ thống, trong đó, mục tiêu củachúng tôi đối với hệ thống là có thê tự động xem xét các thông tin được chủ sở hữu
cung cấp trên website để đưa ra đánh giá về độ tin cậy, hợp pháp của website; ứngdung machine learning vào việc phân tích các yếu tô cấu trúc dé phát hiện websitephishing, lừa đảo trực tuyến Việc đánh giá độ tin cậy được thể hiện thông qua côngthức tính độ tin cậy từ các yếu tổ mà chúng tôi đã xây dựng Hệ thống được triểnkhai thử nghiệm dưới dạng ứng dụng web để người dùng có cái nhìn trực quan về
các thông tin được cung cấp Các kết quả của hệ thống chỉ mang tính tham khảo,người dùng có thể dựa trên nó để xem xét và tự đưa ra quyết định Thông quanghiên cứu này, chúng tôi hy vọng có thé giúp những người chưa có hoặc thiếu kinh
nghiệm mua hàng trực tuyến có thể có cái nhìn trực quan và rõ ràng hơn về các yếu
tố nên được xem xét, giúp nâng cao hiểu biết và nhận thức của người dùng trongviệc mua hàng trực tuyến, giảm khả năng bị lừa đảo trong tương lai
Trang 13Chương 1 GIỚI THIỆU TONG QUAN DE TÀI
1.1 Bối cảnh đề tài
Năm 2020 có ý nghĩa nổi bật đối với sự phát triển thương mại điện tử (TMĐT) ở
nước ta Với người tiêu dùng, mua sắm qua mạng đã trở nên phổ biến bởi sự thuậntiện trong giao dịch cũng như các chương trình khuyến mãi hấp dẫn Với các doanhnghiệp, đây là thời điểm dé chuyền đổi từ nhận thức sang hành động, lợi ích màthương mại điện tử mang lại là rất lớn và doanh nghiệp cần biết cách triển khai nómột cách hiệu quả Với các cơ quan và tổ chức liên quan, năm 2020 là điểm giữa
của giai đoạn mười năm được dự đoán là giai đoạn vàng của thương mại điện tử Việt Nam.
Nhiều cá nhân, hộ gia đình và doanh nghiệp đã kinh doanh trực tuyến khá thành
công mà không có website riêng Họ có thé bán hàng trên các sàn thương mại điện
tử, mạng xã hội Tuy nhiên, hoạt động kinh doanh trực tuyến sẽ ôn định và hiệuquả hơn nếu các doanh nghiệp xây dựng website riêng [1] Điều này dang trở thành
xu hướng trong chiến lược phát triển của các doanh nghiệp và cả những hộ kinh
doanh trong thời đại kinh tế số Số lượng website TMĐT tại Việt Nam tăng lên
nhanh chóng, bao gồm cả những trang web lừa đảo, mục đích không lành mạnh
Các công cụ và kỹ thuật khác nhau là cần thiết dé giúp cho người dùng trong việc
lựa chon website dang tin cậy dé thuc hién giao dich
1.2 Muc tiéu dé tai
Xây dựng được một hệ thống có thé hỗ trợ đánh giá cũng như cung cấp các thôngtin cần thiết cho người dùng về độ tin cậy của một website TMĐT bán hàng (xem
chỉ tiết trong phần 2.1.1) Đồng thời, hệ thống còn có thể đưa ra các khuyến nghịphù hợp cho người dùng đối với website họ cung cấp, giúp người dùng có cơ sở đểquyết định lựa chọn trong việc thực hiện giao dịch hoặc tham gia mua hàng, giảmthiểu rủi ro về lừa đảo trực tuyến
1.3 Đối tượng và phạm vi nghiên cứu
Đôi tượng nghiên cứu chủ yêu xoay quanh việc nghiên cứu tiêu chuân của một
website TMĐT bán hang; những yếu tố quan trọng giúp thiết lập lòng tin của người
Trang 14tiêu dùng đối với thương mại điện tử Những yếu tố này sẽ làm cơ sở nghiên cứu
thực nghiệm, trong đó mục đích của chúng tôi là xem xét các thông tin được chủ sở
hữu cung cấp trên website để đưa ra đánh giá về độ tin cậy, hợp pháp của website;ứng dụng machine learning vào việc phân tích các yếu tố cấu trúc để phát hiệnwebsite phishing, lừa đảo trực tuyến Xây dựng một ứng dụng web để có cái nhìn
trực quan về các thông tin được cung cap.
Phạm vi nghiên cứu và thử nghiệm của đề tài tập trung vào việc đánh giá các
website TMĐT bán hàng tại Việt Nam Xây dựng hệ thống hỗ trợ người tiêu dùngtrong việc đánh giá độ tin cậy, hợp pháp của website Phân tích các yếu tố thông tin
ảnh hưởng đến độ tin cậy của một website TMĐT bán hàng, đưa ra khuyến nghị
cho người dùng.
1.4 Bố cục bài nghiên cứu
Chương 1: GIỚI THIỆU TONG QUAN DE TÀI - Trình bày lí do chọn đề tài, mục
đích, đôi tượng và phạm vi nghiên cứu.
Chương 2: CƠ SỞ LÝ THUYET - Chương này sẽ bao gồm các khái niệm quan
trong trong bài báo cáo; chi ra những van dé mà dé tài cần tập trung, nghiên cứugiải quyết; phân tích đánh giá các hướng nghiên cứu đã có của các tác giả liên quanđến đề tài; nêu những van dé còn tồn tại
Chương 3: PHƯƠNG PHAP DE XUẤT - Trong chương 3 chúng tôi sẽ mô tả môhình logic của hệ thống đề xuất và nhiệm vụ của các thành phần chính trong hệthống Ngoài ra các phương pháp được sử dụng trong các thành phần cũng sẽ đượctrình bày chỉ tiết
Chương 4: TRIEN KHAI HE THONG - Mô hình triển khai thực tế của hệ thống sẽđược trình bày trong chương này cũng như kết quả của các phương pháp đã đề xuất
và ứng dụng thực tế của chúng trong mô hình
Chương 5: KET LUẬN - Tổng kết các nội dung đã trình bày trong báo cáo này, kếtqua mà nghiên cứu đạt được cũng nhưng những ưu/khuyết điểm tôn tại, từ đó đềxuất các phương hướng nghiên cứu trong tương lai dé cải thiện hệ thống
Trang 15Chương 2 CƠ SỞ LÝ THUYET
2.1 Độ tin cậy trong website thương mại điện tử
2.1.1 Website thương mại điện tử tại Việt Nam
Theo nghị định số 52/2013/NĐ-CP ngày 16 tháng 5 năm 2013 của Chính phủ về
Thương mại điện tử: “Website thương mại điện tử là trang thông tin điện tử được
thiết lập dé phục vụ một phần hoặc toàn bộ quy trình của hoạt động mua bán hàng
hóa hay cung ứng dịch vụ, từ trưng bày giới thiệu hàng hóa, dịch vụ đến giao kết
hợp đồng, cung ứng dịch vụ, thanh toán và dịch vụ sau bán hàng” Nghị định cũng
nêu rõ, tại Việt Nam hiện nay công nhận các loại hình website TMĐT như sau:
— Website TMĐT bán hàng: La website do chính thương nhân, tổ chức, cá
nhân thiết lập để phục vụ hoạt động xúc tiến thương mại, bán hàng hóa hoặc
cung ứng dịch vụ của mình.
— Sàn giao dich TMĐT: La website TMĐT cho phép các thương nhân, tổ chức
cá nhân không phải chủ sở hữu website có thé tiễn hành một phần hoặc toàn
bộ quy trình mua bán hàng hóa, dịch vụ trên đó.
— Website dau giá trực tuyến: Là website TMĐT cung cấp giải pháp cho phép
thương nhân, tô chức, cá nhân không phải chủ sở hữu website có thể tổ chứcdau giá cho hàng hóa của mình trên đó
— Website khuyến mại trực tuyến: Là website TMĐT do thương nhân, tô chức
thiết lập để thực hiện khuyến mại cho hàng hóa, dịch vụ của thương nhân, tổchức, cá nhân khác theo các điều khoản của hợp đồng dịch vụ khuyến mại
Báo cáo này chủ yếu tập trung vào việc thử nghiệm trên các website TMĐT bán
hàng (dưới đây sẽ gọi tắt là website TMĐT)
2.1.2 Các rủi ro trong thương mại điện tử đối với người dùng
Dưới sự phát triển nhanh chóng của các ngành công nghệ, trước hết là công nghệ
thông tin, thương mại điện tử đang trở một loại hình kinh doanh có sức ảnh hưởng
lớn, chi phối nhiều hoạt động, mang lại nhiều lợi ích kinh tế - xã hội Tuy nhiên,
giống như các loại hình kinh doanh khác, thương mại điện tử cũng có những mặt
hạn chê và rủi ro đặc biệt đôi với người mua hàng.
Trang 16Theo thong kờ của Cục thương mại điện tử và Kinh tế số năm 2020 [2], những vấn
đề khú khăn mà người tiờu dựng lo ngại cũng như gặp phải khi mua hàng trực tuyến
đa phan là vỡ khụng tin tưởng vào chất lượng hàng húa, dịch vụ thương mại điện tử,khụng an tõm khi thực hiện thanh toỏn trực tuyến và nhiều người khụng biết cỏchmua hàng trực tuyến
Sản phẩm kộm chất lượng so với quảng cỏo | mm
Lo ngại thụng tin cỏ nhõn bị tiết lộ |
ĐQQ%%%%<6:=-Giỏ cả (đắt hơn mua trực tiếp/khụng rừ ràng) | SG ‹:›
Dịch vụ chăm súc khỏch hàng kộm | SE 27,
Cỏch thức dat hàng trực tuyến rắc rối | NN ›s›.
Dịch vụ vận chuyển và giao nhận cũn kộm | SE 230, Website/ứng dụng bỏn hàng thiết kế khụng chuyờn nghiệp | Q6 13%
Cỏch thức thanh toỏn phức tap | (NN 12%
Khỏc |] 1%
(Ty lệ người tiờu dựng)
Hỡnh 2.1 Cỏc trở ngại khi mua hàng trực tuyến [2]
Mua hàng tại cửa hàng thuận tiện hơn | mơ ss
Khú kiểm định chất lượng hàng húa | Q4 „;:.
Khụng tin tưởng đơn vị bỏn hang | min đđđđ“đđbđọ
Sợ lộ thụng tin cỏ nhõn | QQ%( ::-.
Khụng cú đủ thụng tin để ra quyết định | SG ›››.
Khụng cú nhu cầu mua bỏn | SN :;:.
Chưa cú kinh nghiệm mua bỏn trờn mang | SE ;;:.
Hàng húa, dịch vụ khụng phong phỳ | Q% 15%
Khụng cú cỏc loại thẻ thanh toỏn | Q ››,
Cỏch thức đặt hàng trực tuyến rắc rối | SN i
(Tỷ lệ người chưa tham gia mua sắm trực tuyến)
Hỡnh 2.2 Lý do chưa mua sắm trực tuyến [2]
Trang 17Rủi ro trong thương mại điện tử có rất nhiều hình thái đối với cả người bán và
người mua Tuy nhiên, bởi vì giới hạn mục tiêu của đề tài, chúng tôi chỉ xét những
rủi ro ở phía người mua Theo kết quả nghiên cứu khoa học và ứng dụng công nghệ
của Ths Mai Hoàng Thịnh [3], những rủi ro người mua hàng gặp phải khi tham gia
giao dịch thương mại điện tử bao gồm:
— Nguồn gốc, chất lượng hàng hóa không đảm bảo: Khách hàng không thể xác
định được chính xác nguồn gốc sản phẩm mà chỉ có thể dựa vào quảng cáo,hình ảnh được đăng tải Đối với những cơ sở bán hàng không uy tín thì việc
sử dụng các hình ảnh hàng chính hãng để quảng cáo, bán với giá rẻ hơnnhiều so với thực tế nhăm thu hút người tiêu dùng là rất phổ biến Mặt khác,khi mua sắm trực tuyến có thể gặp phải việc sản pham không được như
mong muốn, sai kích thước, mẫu mã, màu sắc
— Sự cố trong quá trình vận chuyển hàng hóa: TMĐT gắn liền với dịch vụ
chuyên phát nham tiết kiệm thời gian cho việc giao nhận hàng hóa Tuynhiên rất nhiều sự cố trong việc giao hang chậm, hang bi vỡ, hỏng, mathàng xảy ra thường xuyên ảnh hưởng đến lợi ích của cả người mua và
người bán.
— Thông tin của khách hàng không được bảo vệ: Nhiều tài khoản khách hàng
được người dùng sử dụng chung với các dịch vụ khác, dẫn đến một số kháchhàng bị đánh cắp thông tin liên quan đến tài khoản ngân hàng, bị hack cáctrang cá nhân dé sử dung lừa đảo những người khác Bên cạnh đó, nhiềungười tiêu dùng bức xúc khi tên tuổi, số điện thoại, địa chỉ của họ có thể bịcác doanh nghiệp sử dụng phương thức TMĐT cung cấp cho bên thứ ba, gâyảnh hưởng đến sự an toàn và bảo mật thông tin của khách hàng
Ngoài ra, đối với những người mua hàng thông thường, việc bị lừa bởi một websitegiả mạo tổ chức, công ty uy tin là hoàn toàn có thé Họ thường sẽ không dé ý đếnviệc website này có thật sự của tổ chức này hay không, hoặc nó đã hoạt động được
bao lâu, Các phương thức lừa đảo này rat phố biến, đặc biệt khi việc quảng cáo
sản phâm qua mạng xã hội ngày càng nhiêu và mât kiêm soát.
Trang 182.1.3 Độ tin cậy trong thương mại điện tử
Mua sắm trực tuyến đòi hỏi sự tin tưởng nhiều hơn, vì nó phức tạp hơn mua sắmtrong môi trường truyền thống Trên mạng công cộng, như Internet, không dễ dàng
dé thiết lập lòng tin giữa người mua và người bán Sự tin cậy là một lối tắt tinh thần
mà người tiêu dùng có thé sử dụng, khi cố gắng giảm sự không chắc chắn, phức tapcủa giao dịch và các mối quan hệ trên thị trường điện tử Sự tin cậy trong các giaodịch trực tuyến thường được cho là yếu tố chính dé xác định sự thành công và thấtbại của thương mại điện tử Quá trình mua và bán hàng hóa, trong mỗi giao dịch
riêng lẻ, bao gồm nhiều giai đoạn khác nhau, chăng hạn như giai đoạn thông tin,
thỏa thuận và giải quyét, Các giai đoạn giao dịch có thé được kết nối với các mức
độ tin cậy khác nhau, vậy nên rất khó đề định nghĩa khái niệm độ tin cậy, một phầnbởi vì sự tin tưởng luôn nằm trong tình huống cu thé, chưa ké còn phụ thuộc vàonhận thức và hiểu biết của mỗi cá nhân
Trong nghiên cứu này, mục tiêu của chúng tôi là xây dựng một hệ thống đánh giá
độ tin cậy của website thương mại điện tử nhưng không cố gang tao ra một kháiniệm hoàn chỉnh về độ tin cậy và áp đặt vào mục đích nghiên cứu Độ tin cậy ở đâyđược định nghĩa bởi từng cá nhân người mua hàng, hệ thong của chúng tôi sẽ cungcấp các thông tin của website bao gồm nhiều khía cạnh và khuyến nghị dựa trênnhững yếu tố được xem là có ảnh hưởng đến độ tin cậy của website, giúp ngườidùng tự đánh giá và quyết định tin tưởng hay không vào website đó
2.1.4 Các yếu tố ảnh hưởng đến độ tin cậy
Nghiên cứu của France Belanger và các cộng sự [4] đã khảo sát và xem xét anh
hưởng của security (bảo mật), privacy (quyền riêng tư), web features (các tính năngcủa website) và trustworthiness (ở đây được định nghĩa là mức độ nhận biết - danhtiếng, sự đáng tin của nhà cung cấp/người bán) trong thương mại điện tử giữa doanhnghiệp với người tiêu dùng (B2C) Các kết quả chỉ ra rang các yếu tô về security làquan trọng nhất đối với người dùng Mặt khác, việc có hay không dấu xác nhận củathird-party lại không được đánh giá cao Nghiên cứu cũng cho thấy rằng trong một
số trường hợp, danh tiếng của người bán, cho dù là các nhân hay doanh nghiệp, ảnhhưởng đến sự tin tưởng của khách hàng hơn là các yếu tố về security và privacy
Ngoài ra, nghiên cứu còn đánh giá thêm các tác động tương đối của chất lượng
Trang 19trang web và nhận thấy tầm quan trọng của trang web đối với ý định mua hàng Cáctính năng bao mật và quyên riêng tư có mối quan hệ tiêu cực với ý định mua hàng,
trong khi chất lượng của trang web có mối quan hệ tích cực, nguyên nhân là donhận thức và cảm nhận của từng đối tượng khách hàng Điểm yếu của khảo sát này
là việc không có khả năng thực sự năm bắt được các quy trình hoạt động trong mộtmôi trường kinh doanh phức tạp Hơn nữa, các đối tượng được khảo sát không đa
dạng, sự nhận thức của họ và khách hàng thực tế không giống nhau, cũng như hoàn
cảnh mục tiêu của họ là thực hiện khảo sát chứ không phải thực sự nghĩ đến việc
mua hàng.
Trong báo cáo của S Nefti, F Meziane và K Kasiran [5], nhóm tác giả đã đề xuấtmột hệ thống dựa trên fuzzy logic dé hỗ trợ đánh giá và định lượng sự tin cậy trongthương mại điện tử Mô hình tin cậy chung được đề xuất bao gồm năm module Bốnmodule sẽ được sử dung dé định lượng thước do lòng tin của bốn yếu tố được xácđịnh trong mô hình tin cậy là: Sự ton tại (Existence), Sự liên kết (Affiliation), Chính
sách (Policy) và Quá trình thực hiện (Fulfilment).
Customer Satisfaction |
Privacy Statement |==
Hình 2.3 Mô hình tin cậy trong nghiên cứu [5]
Module thứ năm sẽ là phần ra quyết định cuối cùng Đầu ra của module này là chỉ
số tin cậy của giao dịch, chỉ số tin cậy nay được xác định bởi tỷ lệ thành công của
tất cả các biến đầu ra của 4 module trước này Các tác giả cũng chỉ ra điểm cần cảithiện của hệ thống này là không cho phép người dùng xếp hạng các biến dựa trên
kinh nghiệm và nhận thức của riêng họ.
Trang 20Một mô hình tin cậy khác được đưa ra trong cuốn “Trust in the Network Economy”
Mô hình trên có thé diễn giải như sau: Ba yếu tổ cốt lõi cần thiết dé duy trì hoạt
động kinh doanh là an toàn công nghệ; tính hợp pháp của người bán và khả năng
thực hiện đơn hàng mạnh mẽ Những hình thức này năm ở đáy của hình chóp Bên
trên các yếu tố cơ bản này, những yếu tố tạo niềm tin mà một công ty có thé sửdụng để tao sự khác biệt và đây là “tone” — được hiểu là thiết kế và nội dungwebsite thân thiện, gọn gàng; kiểm soát khách hàng - yêu cầu quyền khi lấy thông
tin cá nhân và cộng tác — giao tiép và duy trì môi quan hệ với khách hang.
Mục đích được các tác giả của nghiên cứu khảo sát "The Importance Ranking of
Trust Attributes in e-Commerce Website" [7] dé cap đến là: (1) tìm kiếm các thuộctính tin cậy có liên quan cần được đặt trong các trang web TMDT và (2) dé xác địnhxếp hạng tầm quan trọng của các thuộc tính tin cậy góp phần vào độ tin cậy củatrang web TMĐT Năm mô hình tin cậy TMĐT đã được sử dụng dé lay các thuộc
tính tin cậy trong khảo sát này.
Trang 21customer feedback
Content-trust Website layout and structure, website navigation, website
performance, presentation of content Product-trust Product brand, product price, product promotion, product handling
Process-trust Order procedure, payment procedure, customer tracking facility,
after-sales service
Hình 2.5 Các nhóm và thuộc tinh tin cậy trong nghiên cứu [7]
Theo khảo sát và thống kê được trình bày trong Sách trắng thương mại điện tử ViệtNam (2020) [2], các yếu tố được người mua hàng quan tâm như hình sau:
Thiết kế của website/ứng dụng bán hang | 6% <<6ss‹aaa‹ ::
Chính sách bảo mật thông tin khách hàng | 5 Dã ‹‹
Cách thức đặt hàng | @%% E &ỌœS cox
Dịch vụ chăm sóc khách hàng | B1 31%
Chính sách đổi/trả hàng | SN) 20%
Vận chuyển và giao nhận hang hóa | Q6 ›;-,
Phương thức thanh toán | Q4 ›,;,
Uy tín của người bán | S4 26
Chất lượng của hàng héa/dich vụ | SN 25%
Giá cả | BBBIN
(Tỷ lệ người mua hàng trực tuyến)
Hình 2.6 Các yếu tổ người mua hàng quan tâm khi mua sắm trực tuyến [2]
10
Trang 22Bạn bè, người thân giới thiệu trực tiếp | MU 5755
Xem bình luật, đánh giá trên mang (Mạng xã hội/website TMĐT bán hang) | %%% s‹›‹
Xem quảng cáo (tivi/báo điện tử/báo giấy) | SG 30%
Website/ứng dụng có gắn nhãn uy tín | SNE 210,
Website/ứng dụng đã thông báo/đăng ký với Bộ Công Thương | SN 18%
Khác | § 1%
(Ty lệ người mua hàng trực tuyến)
Hình 2.7 Lý do lựa chọn I website/ứng dụng dé mua hang qua mạng [2]
2.2 Phishing và các nghiên cứu liên quan
Phishing là hình thức tan công mạng mà kẻ tan công giả mạo thành một đơn vi uy
tín để lừa đảo người dùng cung cấp thông tin cá nhân cho chúng Phương thức tấn
công nay được thực hiện phổ biến thông qua các tin nhắn hoặc email đính kèmđường link dẫn tới một website giả mạo đã được tạo sẵn và yêu cầu nạn nhân nhập
các thông tin nhạy cảm như: tài khoản và mật khẩu đăng nhập, mật khẩu giao dịch,
thẻ tín dụng và các thông tin quan trọng khác Thông thường, các website này
thường có hình thức giao dịch trực tuyến, ví điện tử, các công ty thẻ tín dụng, Vớimục tiêu và yêu cầu về độ tin cậy của một website TMĐT, việc xem xét website đó
có hay không dấu hiệu của phishing có thể được xem là một tiêu chí quan trọng
trong việc đánh gia các trang web TMDT.
Về cơ bản có hai cách tiếp cận phổ biến nhất dé phát hiện phishing là List-based và
Heuristic-based List-based là phương pháp sử dụng black/white-list là danh sách
công khai các trang web đã được báo cáo và xác định là phishing hoặc an toàn để
giảm thiểu số nạn nhân tiếp theo Hiện nay có rất nhiều tổ chức cung cấp các danhsách này miễn phí như Phishtank, Virustotal, Google, Hạn chế chính của cách
tiếp cận này là nó sẽ không hoạt động với một website không có trong danh sách
Chỉ khi đã có nạn nhân, hoặc ai đó nhận ra rằng trang web đang thực hiện các hành
vi lừa đảo và báo cáo, danh sách mới được cập nhật Heuristic-based là một cách
tiếp cận khác dé phát hiện phishing dựa trên phân tích mã nguồn của một trang web
bị nghi ngờ là phishing và xác định các thuộc tính thường được liên kết với cáctrang lừa đảo Cách tiếp cận này tốt hơn phương pháp black-list vì nó có thé có khả
I1
Trang 23năng phát hiện các cuộc tan công phishing mới trong vòng vài phút Nhưng do tinh
chất đa dạng của các cuộc tấn công phishing nên ngày càng khó phát hiện các dạng
tan công mới Ban dau, việc đánh giá theo của mã nguồn trang web chủ yêu là kiêmtra số lượng các thuộc tính liên quan đến phishing đã được xác định và đặt ngưỡngcho chúng Sau đó dùng cách so sánh để xem xét các thuộc tính của website, nếu
vượt qua ngưỡng thì được coi là một trang phishing Việc đặt ngưỡng như vậy
khiến hệ thống phát hiện trở nên cứng nhắc và khó thích ứng với các kiểu tan côngmới trong khi những kẻ tan công ngày càng tinh vi Vì thé nhiều nghiên cứu đã ứngdụng machine learning dé có thé khắc phục những yếu điểm đã nêu trên
Việc ứng dụng machine learning trong phát hiện phishing cũng rất đa dạng và đãđem lại nhiều kết quả tích cực V Rajasekar và các cộng sự đã đề xuất một phươngpháp anti-phishing bang cách sử dung các đặc trưng của URL và thông tin tronghyperlink và được triển khai dưới dang phần mở rộng (extension) của trình duyệt
[8], độ chính xác của phương pháp này đạt 93,8% va có thé phát hiện phishing theo
thời gian thực CANTINA [9] tập trung vào việc phát triển và đánh giá một thuật
toán mới dựa trên TF-IDF, một thuật toán truy xuất thông tin phổ biến CANTINAkhông chỉ sử dụng các thông tin bề nổi mà còn phân tích nội dung dựa trên văn ban
của chính trang web Nghiên cứu này cho thấy rằng phương pháp TF-IDE thuần túy
có thê phát hiện khoảng 97% trang web phishing với khoảng 6% false positives vàsau khi kết hợp một số phương pháp heuristic đơn giản, nó có thê phát hiện khoảng
90% trang web phishing và chỉ có 1% false positives Tuy nhiên báo cáo cũng chỉ ra
rằng phương pháp này có một số vấn đề liên quan đến ngôn ngữ và hiệu suất L.Wenyin cùng cộng sự đã đề xuất một cách tiếp cận mới để phát hiện các trang webphishing dựa trên sự tương đồng trực quan (visual similarity) [10] Bước đầu trongphương pháp sẽ phân tách các trang web thành các khối nỗi bật theo các dấu hiệutrực quan Sau đó, sự tương đồng về hình ảnh giữa hai trang web được đo lường ở
ba khía cạnh: sự giống nhau ở cấp độ khối, sự giống nhau về bố cục và sự giốngnhau về phong cách tông thé Một trang web được báo cáo là nghi ngờ lừa đảo nếubat kỳ điểm nào trong số những điểm tương đồng này với trang web thật cao honngưỡng Họ đã thực hiện thử nghiệm trên tập dữ liệu gồm 328 trang web đáng ngờ.Kết quả sơ bộ cho thay rang cách tiếp cận này có thé phát hiện thành công các trang
12
Trang 24web lừa dao với một vài cảnh báo sai dé sử dụng trực tuyến Tuy nhiên dé đánh giáchính xác phương pháp vẫn cần thời gian để thử nghiệm trên một lượng dữ liệu lớn
hơn.
Các nghiên cứu liên quan đến ứng dụng machine learning trong phát hiện phishing
của A Kulkarni, L L Brown [11] đã sử dụng tập dữ liệu “Phishing Websites
Dataset” [12] được cung cấp bởi kho lưu trữ UCI Machine Learning Repository(The University of California, Irvine Machine Learning repository) và so sánh kết
quả các thuật toán Supervised Learning khi hoạt động trên tập dữ liệu này Đây
cũng là phương pháp chúng tôi lựa chọn dé thử nghiệm trong nghiên cứu của mình
bởi sự phù hợp của tập dữ liệu và kết quả của các nghiên cứu trên Mô hình thửnghiệm chỉ tiết sẽ được trình bày trong phần sau của báo cáo
2.3 Các nghiên cứu phân loại website tự động
Mục tiêu của nghiên cứu này là xây dựng được một hệ thống có khả năng đánh giá
độ tin cậy của các website TMĐT một cách tự động Đề có thể đánh giá được chínhxác hệ thống hoạt động hiệu quả như thế nào khi thử nghiệm trong thực tế, chúngtôi cần một phương pháp đề hệ thống có thể kiểm tra tự động một website có phải là
website thương mại điện tử hay không trước khi thực hiện nhiệm vụ chính là đánh
giá độ tin cậy.
Đã có nhiều phương pháp đôi với van dé phân loại trang web được thử nghiệm Cácnghiên cứu của X Qi [13] và Min-Yen Kan [14] đã đề xuất một phương pháp tiếpcận thú vị khi thể hiện tính hữu ích của URL trong việc thực hiện phân loạiwebpage Cách tiếp cận này nhanh hơn rất nhiều so với các phương pháp phân loạikhác, vì bản thân các trang không cần phải tìm nạp và phân tích Phương pháp tiếpcận này phân đoạn URL thành các phần có ý nghĩa và thêm các đặc trưng thành
phần, tuần tự và trực quan dé mô hình hóa các mẫu nồi bật Các đặc trưng nhị phân
được sử dụng trong mô hình supervised maximum entropy và được phân tích hiệu
quả trong phân loại nhị phân, đa lớp và phân cấp Ngoài ra các tác giả cũng sử dụngcác tính năng này để dự đoán mức độ uy tín của một trang web (tương tự nhưPagerank) và cho thấy rằng nó có thể được dự đoán với sai số trung bình đưới mộtđiểm (trên thang điểm mười) trong một tập hợp các trang web theo chủ đề Một
nghiên cứu khác khai thác việc sử dụng cấu trúc phân cấp dé phân loại một tập nội
13
Trang 25dung web lớn, khơng đồng nhất đề hỗ trợ phân loại kết quả tìm kiếm [15] Họ đã sử
dụng SVM, được coi là một phương pháp học tập hiệu quả và hiệu quả dé phân loạivăn bản, nhưng trước đây chưa được khám phá cho các vấn đề phân cấp Trong bàibáo cáo của F D Fausti [16], nhĩm tác giả đã chỉ ra rằng các kỹ thuật DeepLearning cĩ thé giải quyết thành cơng nhiệm vụ dự đốn “thương mại điện tử” trongthí điểm ICT Big Data của Istat Đề đạt được mục tiêu, ho đã phát triển một quytrình xử lý phức tạp và đánh giá hiệu suất của nĩ thơng qua các thử nghiệm rộng rãi.Pipeline bao gồm tập hợp hai bộ phân loại Deep Learning — bộ thứ nhất trích xuấtcác tính năng từ văn bản, bộ thứ hai từ hình ảnh Bằng chứng thực nghiệm cho thấyrằng dé xuất này vượt trội hơn tất cả các giải pháp học máy thay thé đã được thử
nghiệm trong Istat cho cùng một nhiệm vụ X Qi [13] và S.Lassri [17] đã cĩ cuộc
khảo sát xem xét cân thận các đặc trưng và thuật tốn machine learning dành riêngcho việc phân loại trang web Đối với đặc trưng cĩ thê chia thành 2 nhĩm chính baogồm on-page features va features of neighbors Các đặc trưng on-page thưởng được
sử dụng phổ biến hơn bởi việc trích xuất dé dang và ít tốn chi phí Các thuật tốnđược chọn chủ yếu là supervised bao gồm SVM, Nạve Bayes, K-NN, DecisionTree, Phương pháp phân cấp [15] cũng được đề cập đến Ngồi ra nghiên cứu
cũng chỉ ra các phương pháp phân loại webpage hữu ích như thế nào trong việc
phân loại website.
2.4 Machine Learning
Hiện tại cĩ nhiều định nghĩa về Machine learnng (ML) Theo định nghĩa của
Arthur Samuel, ML là một lĩnh vực con của Trí tuệ nhân tao (Artificial Intelligence
- AD sử dụng các thuật tốn cung cấp cho máy tính khả năng học hỏi mà khơng cần
được lập trình một cách rõ ràng [18] Hoặc theo cách lý giải phức tạp hơn của Tom
Mitchell, cĩ thé hiểu ML như một chương trình, nhiệm vụ của nĩ là thưc hiện một
task T nào đĩ, khi thực hiện xong, ta thu được experience E Nhờ vào việc học hỏi
experience E, ta cĩ thể thay đổi (hoặc khơng) dé tiến tới thực hiện task T+1, và
nhăm cải thiện hiệu suât P.
Machine Learning cĩ sự gắn bĩ chặt chẽ với khá nhiều ngành khác, ví dụ như Big
Data, AI, Statistics Learning.
14
Trang 26Hình 2.8 Mối quan hệ của ML với một số ngành khácTrong thực tế, một số các lĩnh vực phô biến mà ML góp mặt có thé ké đến như:
Xử lý ảnh (Image Processing) Phân tích văn bản (Text analysis): Lọc spam (Spam filtering), phân tích ngữ
nghĩa (Sentiment Analysis), khai thác thông tin (Information Extraction), phân loại văn bản,
Khai thác dữ liệu (Data mining): Phát hiện bất thường (Anomaly detection),
phát hiện các quy luật (Association rules), gom nhóm (Grouping), dự đoán
(Predictions),
Tro chơi điện tử & Robot.
2.4.1 Phân loại thuật toán machine learning
Thuật toán ML có thể coi là cách các chương trình máy tính học dựa trên dữ liệu có
sẵn với thuật toán liên quan đến kinh nghiệm trong quá khứ Các thuật toán MLhoạt động bằng cách xây dựng một mô hình từ các dữ liệu đầu vào và cố gắng đưa
ra những giả thiết đơn giản nhất mà có thé đúng với hầu hết các mẫu trong tập dữliệu có sẵn, từ đó dự đoán hoặc đưa ra quyết định đối với những dữ liệu mới thay vì
tuân theo các hướng dẫn chương trình tinh nghiêm ngặt.
Hai phương pháp học phố biến của ML là Supervised learning (học có giám sát) và
Unsupervised learning (học không giám sát) Sự khác nhau lớn nhất giữa hai
phương pháp này là kiểu tập dữ liệu huấn luyện cần cung cấp cho mô hình; cách sử
dụng đữ liệu và loại vân đê mà chúng giải quyết:
15
Trang 27— Supervised learning: Trong học có giám sát, thuật toán thực hiện quá trình
“chuyền dit liệu đầu vào thành đầu ra mong muốn” Dữ liệu cung cấp sẽ cócấu trúc theo cặp {x, y} với x được xem là dữ liệu thô (raw data) và y là
nhãn (label) của dữ liệu đó Giá trị y hoàn toàn được gán nhãn dựa vào con
người, điều này có nghĩa là con người huấn luyện cho máy tính giá trị đầu ramong muốn được định trước Tập càng nhỏ thì máy tính học càng ít Hạn chế
khi sử dụng phương pháp này là chúng ta cần cung cấp dữ liệu có nhãn đượcgán một cách thủ công Điều này rất tốn thời gian và công sức Đây cũng là
một rào cản của phương pháp này: xây dựng các tập dữ liệu gán nhãn chất
lượng (có độ tin cậy cao).
+ Supervised Learning được phân loại thành Regression (Bài toán hồi
quy) va Classification (Bài toán phân loại): trong Regression, giải
giá trị của output là liên tục và là các giá trị thực Ví dụ như giá cả,
can nặng, chiều cao, Ngược lại, khi đầu ra mong muốn của chúng ta
là một tập hữu hạn và rời rac, vi dụ như mau sắc, chính là
Classification.
+ Một số thuật toán phd biến của phương pháp này là Logistic
Regression, Decision Tree (DT), Support Vector Machine (SVM), Naive Bayes (NB), Random Forest (RF)
— Unsupervised learning: Khác với Supervised Learning, Unsupervised
Learning không hướng tới việc tim một "correct output", mà hướng tới việc
tìm ra các cấu trúc, mỗi quan hệ ấn trong dataset Tùy thuộc vào tập huấnluyện mà kết quả sẽ khác nhau, máy tính sẽ phải tự học hoàn toàn Có thể
nói, trong học không giám sát thì giá trị đầu ra sẽ phụ thuộc vào thuật toán
Unsupervised learning được chon.
+ Unsupervised Learning Algorithm cũng được chia thành hai nhóm:
Clustering hướng dén viéc phân nhóm, phân đoạn dữ liệu từ tap dữliệu ban đầu và Non-clustering thường được sử dụng dé tìm các cau
trúc ân trong dir liệu.
Một số giải thuật phổ biến trong Unsupervised Learning: K-means, PCA, LDA,
16
Trang 28Ngoài ra cũng có những phương pháp khác như Semi-supervised Learning (học bán
giám sát), Reinforcement Learning (học tăng cường), Ensemble Learning [18]
2.4.2 Một số thuật toán machine learning trong nghiên cứu
1
: ‘=
sigmoi TM eo
Xây dung (huân luyện, tìm kiêm, giải) mô hình là việc tìm các tham sô mô hình
W = [w,,W2,W3, ,W,] sao cho giá trị y sau khi dự đoán gân với giá trị dau ra
thực tế nhất
| https://machinelearningcoban.com/2017/01/27/logisticregression/
17
Trang 29Ta xây dựng một hàm dé do độ chênh lệch giữa giá trị dự đoán và giá trị thực, hàmnày được gọi là hàm mắt mát (loss function).
Trong Logistic Regression, ham mat mát là:
LWW) = ) Glogyi + (L— )log(1— yi)
i=1
Hàm mắt mát này còn được gọi là Cross Entropy, trong đó:
— L(W) là ký hiệu hàm mất mát
—_N là số lượng điểm dữ liệu trong tập huấn luyện
— y;, là giá trị đầu ra mà mô hình dự đoán của điềm đữ liệu i
— 9° là giá trị đầu ra thực tế của điểm dit liệu i
Nói cách khác, dé huấn luyện mô hình này với bộ dữ liệu đã cho, ta cần tìm giá trị
các hệ số W = [w;,w;,ws, ,w„] để L(W) đạt giá trị nhỏ nhất
Sau khi huấn luyện mô hình Logistic Regression, dé dự đoán điểm dữ liệu đã chothuộc lớp nào, ta thiết lập một giá trị ngưỡng t Nếu y >t thì ta cho điểm dữ liệuthuộc lớp 1 và ngược lại, nêu y < £ thì ta cho điểm dữ liệu thuộc lớp 0
Hình 2.10 Cách phân loại nếu đặt ngưỡng t=0.5
2.4.2.2 Support Vector Machine
Support Vector Machine là một trong các thuật toán phân loại được sử dung phổbiến nhất trong Machine Learning Mục tiêu của thuật toán này không những phân
18
Trang 30chia được các lớp dữ liệu với nhau, mà còn tìm cách đê tôi đa khoảng cách giữa
đường phân chia với các điểm dữ liệu giữa các lớp (maximum margin)’.
Hình 2.11 Vi dụ cách phân chia cua Support Vector Machine ?
Khoảng cách từ một điểm (vector) x; bat ky trong không gian đến siêu mặt phang
có công thức wx + b = 0 là:
y¡(wTx;¡ +b)
llwill;
Trong đó:
— y¡ bang 1 hoặc -1, tùy vào lớp mà điểm dữ liệu x; thuộc về
— llWll;= | #.¡w¿2 với đ là số chiều của không gian.
Định nghĩa lề (margin) của mặt (đường) phân chia được tính bằng khoảng cáchngắn nhất từ một điềm dữ liệu đến mặt phân chia:
Trang 31Sau khi áp dụng bài toán đối ngẫu Lagrange và hệ điều kiện KKT cho bài toán trên,
ta tìm được một số điểm (vector) đặc biệt nằm ngay trên margin, gọi là các Support
Vectors và một giá tri A ứng với môi vector tìm được.
Hình 2.12 Các Support Vector được khoanh tròn nằm ngay trên margin
Gọi các Support Vector và nhãn của nó lần lượt là (X41, y¡), (X2, V2), - , Xm Vn):Các giá trị A tương ứng với mỗi vector là Ay, Âa, , Âm.
Gọi tập hợp S={n: A, # 0} va Ng là số phan tử của tập S
Từ đây ta có thể suy ra được w và b với:
w= » AmYm%Xm
mes
20
Trang 32Thuật toán Support Vector Machine thông thường chi có thé giải quyết các bài toán
tuyến tinh, dé có thể giải quyết được các bài toán ma đường phân chia là phi tuyến,
người ta thường đưa các vector x vào một không gian mới có số chiều lớn hơn.Tuy nhiên việc này có thê gây ra vấn đề to lớn trong lưu trong đữ liệu và tính toán
Hình 2.13 Chuyển các điểm vào chiều không gian mới có thể giúp phân loại được
các tập dữ liệu phi tuyên.
Nhận xét thấy tính toán giá trị của công thức (1) phụ thuộc vào việc tính toán cáctích vô hướng +?+, do đó, thay vì phải chuyển các điểm dữ liệu vào chiều không
gian mới, người ta thường tìm cách tính tích vô hướng của 2 vector trong không
gian đó (kernel trick) Thuật toán SVM sử dụng các ham kernel gọi là kernel-SVM.
Trang 33K-nearest neighbor là một trong những thuật toán supervised-learning đơn giản nhất
(mà hiệu qua trong một vài trường hop) trong machine learning Khi training, thuật
toán này không học một điều gì từ dữ liệu training (đây cũng là lý do thuật toán nàyđược xếp vào loại lazy learning), mọi tính toán được thực hiện khi nó cần dự đoán
kết quả của dữ liệu mới K-nearest neighbor có thê áp dụng được vào cả hai loại của
bài toán Supervised learning là Classification và Regression KNN còn được gọi là
một thuật toán Instance-based hay Memory-based learning.
Với KNN, trong bài toán Classification, label của một điểm di liệu mới được suy ratrực tiếp từ K điểm dữ liệu gần nhất trong training set Label của một test data cóthé được quyết định bang major voting (bầu chọn theo số phiếu) giữa các điểm gầnnhất, hoặc nó có thê được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểmgần nhất đó rồi suy ra label.*
Tóm tắt thuật toán:
— Bước 1: Chọn một số K.
— Bước 2: Tính toán khoảng cách của toàn bộ điểm dit liệu trong tập huấn
luyện với điểm cần dự đoán
— Bước 3: Chọn ra K điểm dữ liệu trong tập dữ liệu có khoảng cách gần với
điêm cân dự đoán nhât.
3 https://machinelearningcoban.com/2017/04/22/kernelsmv
4 https://machinelearningcoban.com/2017/01/08/knn/#k-nearest-neighbor
22
Trang 34— Bước 4: Dựa trên các diém đã chọn, ta có thê dự đoán được kêt qua của điêm
dữ liệu mới bằng phương pháp major voting hoặc weighted voting
Phương pháp major voting: Trong K điểm dữ liệu đã chọn, class nào có số điểm
thuộc về nhiêu nhat sẽ được chọn là kêt quả dự đoán cho điêm dữ liệu mới.
Phương pháp weighted voting: Với mỗi điểm trong K điểm đã chọn, nếu điểm thứ ¡thuộc class C thi class nay được cộng một số điểm có giá trị tỉ lệ nghịch với khoảng
cách của điểm ¡ với điểm cần dự đoán Cuối cùng điểm dữ liệu mới được phân vào
class có sô điêm cao nhat.
Hình 2.14 Minh họa thuật toán K-NN dự đoán cho điển dit liệu mau trắng Với
K=5, sử dụng khoảng cách Euclid và phương pháp major voting, điển này được dự
đoán vào lớp màu sâm
2.4.2.4 Random Forest
Random forest là một thuật toán thuộc phương pháp ensemble learning được sử
dụng cho cả bài toán classification và regression Random Forest là thuật toán kết
hợp rất nhiều Decision Tree khác nhau, mỗi Decision Tree được huấn luyện trên
một phan ngẫu nhiên của tập dữ liệu huấn luyện ban dau.
Decision tree là mô hình đưa ra quyết định dựa trên các câu hỏi và thứ tự của chúng.Với các bài toán và tập dir liệu khác nhau, ta có thể xây dựng rất nhiều cây quyếtđịnh dé giải quyết bài toán đó Trong vô vàn cây quyết định có thé có, ta cần chọn
ra một cây quyết định đủ tốt Một cây quyết định được xem là tốt nếu:
23
Trang 35— Chiêu cao của cây thap.
— Đạt được hiệu quả/độ chính xác cao.
Điêm đáng lưu ý của decision tree là nó có thê làm việc với cả các đặc trưng (còn được gọi là thuộc tính — attribute) dạng categorical, thường là rời rạc và không có thứ tự (ví dụ, mưa, nang hay xanh, đỏ, ) cũng như dữ liệu có vector đặc trưng bao
gôm cả thuộc tính dạng categorical và liên tục (numeric) Một điêm đáng lưu ý nữa
là decision tree ít yêu câu việc chuân hoá đữ liệu.
Training set Decision Tree 1
Training set Decision Tree 2
Training set Decision Tree 3
Training set Decision Tree 4
Hình 2.15 Ví dụ về cách phân chia tập dt liệu để huấn luyện được nhiều Decision
Trang 36Mô hình Random Forest thường cho kết quả tốt hơn nhiều so với một Decision Tree
đơn lẻ vì các Decision Tree thành phần trong Random Forest được phép huấn luyện
mà không cần cắt tỉa, do đó có thể dự đoán đúng nhiều điểm dữ liệu mà mộtDecision Tree thông thường không thé dự đoán do dùng các kỹ thuật cắt tia dé tránh
overfit Các Decision Tree trong Random Forest được áp dụng một phương pháp
tránh overfit khác là cross-validation: Các Decision Tree được huấn luyện trên các
tập dữ liệu khác nhau, từ đó có thể tạo ra sự phong phú giữa các thông tin thu được
trong từng cây Cross-Validation được đánh giá là tốt hơn cắt tỉa vì phương phápnày được thực hiện dựa trên ước lượng và thong kê các đặc điểm của từng tập dữ
liệu, còn cat tỉa cân phải được thiết lập các tham sô một cách chủ quan.®
Hình 2.17 Đường phân loại khi áp dụng một Decision Tree và một Random Forest 5
Công thức trên được diễn giải là “xác suất dé đầu ra là c khi dau vào là vector x”,
Băng cách tính toán giá trị công thức trên với mọi lớp trong tập dữ liệu, từ đó có thê giúp xác định class của điêm dữ liệu đó băng cách chon ra class có xác suât cao
nhất:
6 https://towardsdatascience.com/why-random-forests-outperform-decision-trees- Ib0f175a0b5
25
Trang 37Công thức trên có thể rút gọn p(x) do p(x) không phụ thuộc vào i.
Trong công thức trên, p(c) là xác suất dé một điểm rơi vào class c
Thành phan P(x|c) được xem là phân phối của các điểm dữ liệu thuộc lớp c Nếu
ta xem xét các thành phan trong vector x = [x,,X, ,Xq] là độc lập với nhau thì:
dp(xle) = pÉn,xz, xale) =| [pGle) (3)
Thay (3) vào (2) nếu d lớn và các xác xuất nhỏ thì biêu thức về phải là một sốrất nhỏ, khi tính toán có thé bi sai số nên ta thường được viết lại dưới dạng tươngđương bằng cách lấy log của về phải:
d
c = argmax ego) + 3 log(pŒ,|€)) |
i=1
c€{1, ,C}
Việc tính toán p(x;|c) phụ thuộc vào loại dit liệu Có 3 loại được sử dụng phổ biến
là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli Naive.
Đối với Gaussian Naive Bayes, xác suất p(x;|c) có kỳ vọng g„¡ và phương sai
¿, được tính theo công thức:
Trang 38— N, là tổng sỐ lượng điểm dit liệu thuộc class c (kể cả lặp).
Đối với Bernoulli Naive Bayes xác xuất p(x;|c) được tính theo công thức:
pŒ¡le) = p(ile)*(1 — p(ilc))
— Với p(ilc) là xác xuất thành phan thứ i xuất hiện trong class c
Naive Bayes Classifiers (NBC) thường được sử dụng trong các bài toán Text Classification.
Mô tả thuật toán tham khảo theo 7.
2.5 Natural language processing (NLP)
Xử lý ngôn ngữ tự nhiên, gọi tắt là NLP, là một lĩnh vực khoa học máy tính và ngônngữ học liên quan đến sự tương tác giữa ngôn ngữ tự nhiên của con người và máytính Mục tiêu của lĩnh vực này là giúp máy tính có thê xử lý hiệu quả những nhiệm
vụ liên quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cảithiện hiệu quả giao tiếp giữa con người với con người, hoặc đơn giản là nâng cao
hiệu quả xử lý văn bản và lời nói.
NLP ngày càng được ứng dụng nhiều Một số ứng dụng có thể kế đến như: Nhận
dạng tiếng nói; truy xuất thông tin (Information Retrieval — IR); trích chọn thông tin
(Information Extraction — IE); trả lời cau hỏi (Question Answering — QA); tóm tat
văn ban tự động (Automatic Text Summarization); chatbot; dịch máy; kiểm lỗi
chính tả tự động (Tham khảo theo Š)
NLP là một lĩnh vực rộng lớn, và do đó phần này sẽ chỉ tập trung vào các khái niệm
cân thiệt cho chương sau của báo cáo này.
Trang 392.5.1 Term Frequency - Inverse Document Frequency (TF-IDF)
Term Frequency — Inverse Document Frequency là một thống kê số học nhằm phảnánh tầm quan trọng (trọng số) của một từ đối với một văn bản trong một tập hợp
nhiêu văn bản khác nhau Giá trị cao thê hiện độ quan trọng cao.
TF - Term Frequency (Tan suất xuất hiện của từ) là tần số xuất hiện của một từtrong một văn bản Khi một từ xuất hiện nhiều trong văn bản, nó có thể là một dấu
hiệu quan trọng đối với văn bản đó Tuy nhiên các văn bản có thể có độ dài ngắn
khác nhau nên một số từ có thé xuất hiện nhiều lần hon trong một văn bản Tùy theovăn bản mà ta có thé đưa ra cách tính phù hợp cho giá trị này Don giản nhất có thêđược tính bằng cách chia cho độ dài văn bản (tổng số từ)
f(t, d)
ED) =< Fwd)
Trong do:
— tf(t,d) là giá tri TF của từ t trong văn bản d.
— f(t,đ) là số lần xuất hiện của từ t trong văn bản d
— Yweaf(w,d) là tổng số từ của văn bản d
IDF - Inverse Document Frequency (Nghịch đảo tần suất của văn bản): Khi tínhtoán TF, tất cả các từ được coi như có độ quan trọng bằng nhau Nhưng một số từnhư “và”, “những”, “này”, thường xuất hiện rất nhiều lần nhưng độ quan trọng làkhông cao bởi không mang ý nghĩa cụ thể Vì vậy chúng ta cần giảm độ quan trọng
của những từ này xuông.
— |{d €D:t €d}| là số văn bản trong tập D có chứa từ t Nếu từ đó
không xuất hiện ở bất cứ 1 văn bản nào trong tập thì mẫu số sẽ bằng 0,
28
Trang 40phép chia cho sẽ không hợp lệ, vì thế người ta thường thay bằng mẫu
thức 1+ |{d €D:t €d)|.
Giá trị TF-IDF phản ánh trọng số của một từ được tính bằng công thức sau:
tfidf(t,d,D) = tƒ(t,d) xidf(t,D) (4)
2.5.2 Bag-of-words model (BoW)
Mô hình bag-of-words là một mô hình don giản hóa các tài liệu Bag-of-words là
một tập hợp các từ của văn bản nhưng không quan tâm đến thứ tự và ngữ pháp
Mô hình túi từ chủ yếu được sử dụng như một công cụ tạo đặc trưng Cách biểu
diễn phô biến nhất của mô hình này là dạng vector, mỗi thành phần của vector làmột từ khóa riêng biệt trong tập văn bản gốc và đươc gán một giá trị là hàm f thê
hiện sự hiện diện của từ khóa đó trong văn bản Ví dụ, ta có văn bản:
“My cats want to go out but I want to stay at home to study.”
Túi từ của văn ban trên sẽ là: {“My”: 1, “cats”: 1, “want”: 2, “to”: 3, “go”: 1, “out”:
1, “but”: 1, “I”: 1, “stay”: 1, “at”: 1, “home”: 1, “study”: 1}.
Gia sử ham f cua chúng ta là số lần xuất hiện của mỗi từ, ta có thé biểu diễn vector
cua văn bản trên như sau: BoW1 = (1,1,2,3, 1, 1, 1, 1, 1,1,1, 1).
29