1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại chủ đề bản tin online sử dụng máy học

118 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Chủ Đề Bản Tin Online Sử Dụng Máy Học
Tác giả Tể Nguyễn Phước Vinh
Người hướng dẫn PGS.TS. Hà Hoàng Kha
Trường học Đại Học Bách Khoa
Chuyên ngành Kỹ Thuật Viễn Thông
Thể loại luận văn thạc sĩ
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 118
Dung lượng 3,81 MB

Nội dung

I H C QU C GIA TP HCM I H C BÁCH KHOA TÔ NGUY C VINH PHÂN LO I CH B N TIN ONLINE S D NG MÁY H C TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES USING MACHINE LEARNING Chuyên ngành: K Thu t Vi n Thông Mã s : 8520208 LU TP H CHÍ MINH, tháng C HOÀN THÀNH T I: I H C BÁCH KHOA Cán Thành ph -HCM TR C NG HÒA XÃ H I CH NGH A VI T NAM c l p - T - H nh phúc I H C QU C GIA TP.HCM NG I H C BÁCH KHOA NHI M V LU N V N TH C S H tên h c viên: TÔ NGUY N PH C VINH MSHV: 1870325 Ngày, tháng, n m sinh: 06/06/1995 N i sinh: Chuyên ngành: K thu t Vi n thông Mã s : 8520208 I TÊN ng Tháp TÀI: Ti ng Vi t: PHÂN LO I CH B N TIN ONLINE S D NG MÁY H C Ti ng Anh: TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES USING MACHINE LEARNING II NHI M V VÀ N I DUNG:  Th c hi n thu th p, xây d ng c s d li u b n tin online  Kh o sát nghiên c u m t s ph lo i v n b n  xu t ph ng pháp trích xu t đ c tr ng ph bi n phân ng pháp trích xu t đ c tr ng m i cho b n tin online  Kh o sát thu t toán máy h c, xây d ng mơ hình máy h c áp d ng cho phân lo i b n tin online III NGÀY GIAO NHI M V : (Ghi theo Q giao đ tài) 22/02/2021 IV NGÀY HOÀN THÀNH NHI M V : (Ghi theo Q giao đ tài) 05/12/2021 V CÁN B H NG D N (Ghi rõ h c hàm, h c v , h , tên): PGS.TS HÀ HOÀNG KHA Tp HCM, ngày tháng n m 20 CH NHI M B MÔN ÀO T O (H tên ch ký) CÁN B H NG D N (H tên ch ký) TR NG KHOA I N - I N T (H tên ch ký) i LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn sâu sắc đến công ơn sinh thành nuôi dưỡng cha mẹ Tình u thương vơ bờ bến cha mẹ nguồn sức mạnh to lớn cho hành trình chặn đường dài tương lai Xin cảm ơn nhiều đến giảng viên hướng dẫn Thầy PGS TS Hà Hoàng Kha - người dành thời gian quý báu để gặp gỡ, thảo luận, nghiên cứu giải vấn đề khó khăn Ln theo sát q trình đưa góp ý kịp thời từ ngày đầu nhận đề tài luận văn thạc sĩ Cảm ơn Thầy tận tình bảo, ln hối thúc để tiến độ cơng việc hoàn thành hạn Cảm ơn Thầy ủng hộ tinh thần, hỗ trợ chuyên mơn, đóng góp ý kiến Ngồi lời góp ý sâu sắc sau buổi báo cáo để luận văn hồn hảo, thầy cịn cho kinh nghiệm vô giá học tập nghiên cứu; lời khun vơ bổ ích sống định hướng phát triển tương lai Cũng vô biết ơn đến ban chủ nhiệm khoa Điện - Điện tử; ban chủ nhiệm môn Viễn thơng nói riêng tạo điều kiện sở vật chất phịng thí nghiệm, máy móc, thiết bị, bàn ghế, để việc học tập nghiên cứu thuận lợi Cuối cùng, xin gửi lời cảm ơn đến công sự, bạn bè chia sẻ, giúp đỡ suốt trình thực luận văn Tp Hồ Chí Minh, ngày 19 tháng 07 năm 2021 Tơ Nguyễn Phước Vinh ii TĨM TẮT Trong nhiều thập kỷ qua, chuyển đổi mạnh trang báo in sang báo điện tử làm cho ngày có hàng ngàn báo quan báo điện tử khác đăng tải lên Internet Khác với báo in, báo điện tử cần chia rõ danh sách tin dựa theo chủ đề mà chúng đề cập đến Việc tốn lượng lớn thời gian biên tập viên cho việc phân loại chủ đề Cùng với đó, phát triển liên tục mơ hình máy học thúc đẩy ý tưởng áp dụng mơ hình vào việc phân loại chủ đề tin online, nhằm giảm thời gian phân loại thủ công biên tập viên Trong số mơ hình máy học, mơ hình neural networks (NN) mơ hình support vector machine (SVM) xem hai mơ hình mạnh mẽ Chính điều thúc đẩy, tạo động lực để luận văn đóng góp nghiên cứu, phát triển mơ hình kết hợp hai mơ hình máy học mạnh mẽ cho vấn đề phân loại tin online tiếng Việt Cụ thể hơn, luận văn xây dựng liệu cho tin online tiếng Việt thu thập từ trang báo điện tử lớn uy tín Việt Nam với số lượng lớn chủ đề Các chủ đề phân chia cách hợp lý theo mong muốn biên tập viên nhằm tránh nhầm lẫn chủ đề với xa rời định biên tập viên giàu kinh nghiệm Tiếp đến luận văn trình bày bước tiền xử lý Sau đó, tin tiền xử lý áp dụng phương pháp Term Frequency - Inverse Document Frequency (TF-IDF) để biến đổi từ tin thành số thực, tạo vector đặc trưng TF-IDF cho việc phân lớp Tuy nhiên, điểm yếu vector đặc trưng vector TF-IDF vector thưa có tính phân lớp yếu Do đó, luận văn đề xuất sử dụng mơ hình NN để tạo vector đặc trưng có tính phân lớp cao với số chiều thấp nhiều từ vector TF-IDF Mơ hình phân loại SVM tận dụng để phân loại tin với vector đặc trưng ngõ vào đặc trưng lấy từ NN Cuối cùng, luận văn so sánh với phương pháp giảm chiều liệu kinh điển sử dụng nhiều nghiên cứu trước Các kết mô cho thấy mơ hình kết hợp NN-SVM đề xuất cho kết tốt nhiều so với phương pháp trước mặt hiệu phân loại thời gian huấn luyện iii ABSTRACT During the last decades, the traditional news articles have changed into the online news, which results in a thousand news articles have been uploaded onto the Internet everyday Apart from traditional newspaper, online news articles need to be categorized their appropriate topics before publishing on news websites As a result, editors should spend a lot of time and efforts to accomplish this task At the same time, machine learning models have exponentially thrived that encourages to apply those models into the online news article topic classification task in order to reduce editors’ workloads Among many impressive machine learning models, neural network models (NN) and support vector machine (SVM) are most powerful For these points, the contribution of this thesis is to research and develop a combination of these two best models NN and SVM for Vietnamese online news articles topic classification To be more specific, this thesis has contributed a Vietnamese online news article dataset which is collected from the famous official online news websites in Vietnam with the large number of topics The topics in this dataset is appropriately divided following editors’ wishes to avoid mislabeling and conflicting with experienced editors’ decisions The first basic preprocessing step is to eliminate noise in the collected news articles The Term Frequency - Inverse Document Frequency (TF-IDF) method has been then applied to transform the list of words in articles into the real number vectors called TF-IDF feature vectors However, the drawback of these feature vectors is that TF-IDF vectors is the sparse vectors and less discriminating power Therefore, the NN models have been proposed in this thesis as a solution to generate the more discriminating feature vectors with the smaller dimension than TF-IDF feature vectors’ one The SVM classifiers is utilized to label topics for Vietnamese online news articles from these improved feature vectors which is the output of NN model Finally, this thesis compares the efficiency between traditional dimensional reduction methods and the proposed method with NN models The experimental results have shown that the proposed combination of NN and SVM models outperforms the traditional methods in both accuracy and time iv LỜI CAM ĐOAN Tôi tên Tô Nguyễn Phước Vinh, học viên cao học chun ngành Kỹ thuật Viễn Thơng, khóa 2018, Đại Học Quốc Gia TP.HCM - Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh Tơi xin cam đoan nội dung sau thật: - Công trình nghiên cứu hồn tồn tơi thực suốt trình thực đề tài hướng dẫn PGS TS Hà Hoàng Kha - Các tài liệu trích dẫn luận văn tham khảo từ nguồn thực tế, uy tín có độ xác cao - Các số liệu kết mô thực cách độc lập hoàn toàn trung thực Tp Hồ Chí Minh, ngày 19 tháng 07 năm 2021 Tơ Nguyễn Phước Vinh v Mục lục NHIỆM VỤ LUẬN VĂN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv LỜI CAM ĐOAN v DANH MỤC BẢNG BIỂU ix DANH MỤC HÌNH ẢNH x DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC LƯU ĐỒ GIẢI THUẬT xv MỞ ĐẦU 1.1 Đặt vấn đề nghiên cứu 1.1.1 Tổng quan 1.1.2 Tình hình nghiên cứu 1.2 Lý chọn đề tài 1.3 Mục tiêu nhiệm vụ luận văn 1.4 Đối tượng phạm vi nghiên cứu 1.4.1 Đối tượng nghiên cứu 1.4.2 Phạm vi nghiên cứu 1.5 Phương pháp nghiên cứu 1.6 Bố cục luận văn 1.7 Các báo hoàn thành luận văn vi 1 6 7 8 MỤC LỤC TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU VÀ LÝ THUYẾT LIÊN QUAN 2.1 Nhúng từ 2.1.1 One-hot vector 2.1.2 Mơ hình Skip-gram 2.1.3 Mơ hình Continuous Bag of Words 2.1.4 Mơ hình nhúng từ với vectors toàn cục 2.2 Chọn lọc đặc trưng 2.2.1 Mutual Information 2.2.2 Chi square 2.2.3 Information gain 2.2.4 Frequency-based feature selection 2.2.5 Orthogonal centroid feature selection 2.3 Lý thuyết toán tối ưu 2.3.1 Tối ưu không ràng buộc 2.3.2 Momentum gradient descent 2.3.3 Tối ưu ràng buộc 2.3.4 Tối ưu lồi 2.4 Kết luận chương MÔ 3.1 3.2 3.3 33 34 35 38 38 40 48 64 68 KẾT QUẢ THỰC NGHIỆM 4.1 Thực nghiệm chọn mơ hình Neural Networks cho phân loại chủ đề tin 4.2 Kết phân lớp 4.3 Kết thực nghiệm phân lớp khác 70 70 79 90 3.4 3.5 3.6 HÌNH KẾT HỢP NN VÀ SVM Bộ liệu tin online tiếng Việt Tiền xử lý liệu Trích xuất đặc trưng Term Frequency - Inverse Document Frequency 3.3.1 Phân tách từ 3.3.2 Biến đổi Term Frequency - Inverse Document Frequency Neural Networks cho giảm chiều liệu Bộ phân lớp sử dụng Support Vector Machine Kết luận chương 10 10 10 11 13 15 19 19 20 20 21 21 21 22 25 28 30 32 KẾT LUẬN CHUNG 5.1 Kết luận chung 5.2 Hướng phát triển 5.2.1 Bộ liệu VÀ HƯỚNG NGHIÊN CỨU vii KẾ TIẾP 93 93 94 94 MỤC LỤC 5.2.2 5.2.3 5.2.4 Trích xuất đặc trưng 95 Mơ hình Neural Networks 95 Bộ phân lớp Support Vector Machine 95 DANH MỤC CÔNG TRÌNH ĐÃ CƠNG BỐ 96 TÀI LIỆU THAM KHẢO 97 viii KẾT QUẢ THỰC NGHIỆM Hình 4.14: Mơ phân bố vectors đặc trưng tin chủ đề “văn học”, “cuộc sống đây”, “kiều bào”, “du học”, “tuyển sinh” mặt phẳng chiều Hình 4.15 Hình 4.16 kết khảo sát tập kiểm tra kernel khác mô hình phân loại SVM sử dụng kỹ thuật “one-vs-rest” “one-vs-one” Nhận thấy rằng, khơng có nhiều khác biệt giá trị precision recall F1 score hai kỹ thuật “one-vs-rest” “one-vs-one” Ngoài ra, việc sử dụng RBF kernel cho kết phân loại cao chút so với Linear kernal Polynomial kernel bậc 3, nguyên nhân vector đặc trưng ngõ lớp thứ L NN mang đặc tính phân loại cao nên việc chiếu điểm liệu lên không gian khác không thay đổi đặc tính phân lớp 87 KẾT QUẢ THỰC NGHIỆM Hình 4.15: Kết khảo sát kernel khác mơ hình phân loại SVM sử dụng kỹ thuật “one-vs-rest” Hình 4.16: Kết khảo sát kernel khác mơ hình phân loại SVM sử dụng kỹ thuật “one-vs-one” 88 KẾT QUẢ THỰC NGHIỆM Thêm vào đó, luận văn so sánh phương pháp giảm chiều liệu sử dụng NN đề xuất với hai phương pháp giảm chiều liệu hiệu báo cáo [9] OCFS χ2 Thực nghiệm so sánh thực liệu thu thập luận văn đề cập Mục 3.1 Kết so sánh mô tả Hình 4.17 Rõ ràng, dù OCFS χ2 thể hiệu việc giảm chiều liệu vector đặc trưng TF-IDF, phục vụ cho phân loại tin online tiếng Việt số chiều liệu chọn sau giảm 2500 báo cáo [9], nhiên, số chiều chọn giảm xuống 128 chiều ngang với số chiều ngõ giảm chiều liệu sử dụng NN thực luận văn, kết hai phương pháp lại so với phương pháp đề xuất sử dụng TF ranking - phương pháp giữ lại K phần tử có giá trị TF cao tồn liệu Cụ thể là: ❼ Ở giá trị precision, kết nhận dạng chủ đề tin tập kiểm tra phương pháp kết hợp NN SVM đề xuất luận văn 89.82% so với 68, 989% phương pháp OCFS 68, 787% phương pháp χ2 Cho thấy được, đặc trưng rút từ lớp ẩn thứ L NN đem lại hiệu phân lớp cho phân lớp SVM hai phương pháp cịn lại, đó, mặt phân chia mơ hình phân lớp SVM nhận dạng nhầm lẫn chủ đề mà tin tập kiểm tra thuộc ❼ Với giá trị recall, luận văn cho thấy SVM bỏ sót chủ đề mà tin tập kiểm tra thuộc sử dụng đặc trưng ngõ từ lớp ẩn thứ L NN so với hai phương pháp OCFS χ2 Các giá trị 89.085% NN 64.534% OCFS 50.701% χ2 ❼ Cuối giá trị F1 score, giá trị phương pháp đề xuất 89.418% so với 63.944% 54.424% OCFS χ2 ❼ Điều đáng ý so với phương pháp TF ranking, hai phương pháp OCFS χ2 yếu kết phân loại với K = 128 Cụ thể trình kiểm tra, phương pháp TF ranking cho kết là: 70.348% cho precise, 71.558% cho recall, 70.415% cho F1 score Về tốc độ huấn luyện mơ hình phân lớp SVM thực nhận dạng cho trình kiểm thử tập liệu kiểm tra, luận văn thực khảo sát so sánh phương pháp giảm chiều liệu sử dụng NN với phương pháp chọn lọc đặc trưng OCFS, χ2 , TF ranking Kết mô tả Bảng 4.13 89 KẾT QUẢ THỰC NGHIỆM Hình 4.17: Kết so sánh phương pháp giảm chiều liệu đề xuất với hai phương pháp hiệu [9] Bảng 4.13: Thời gian huấn luyện kiểm tra cho phân lớp SVM phương pháp giảm chiều liệu khác với K = 128 NN OCFS χ2 TF ranking Huấn luyện Kiểm tra 210 giây 27 phút giờ 45 phút 19 giây 28 phút 33 phút 15 phút Tóm lại, so với phương pháp nghiên cứu trước đây, phương pháp đề xuất sử dụng NN để giảm chiều vector đặc trưng TF-IDF cho kết tốt hiệu suất phân loại cho tin tập kiểm tra; thời gian huấn luyện phân loại tin Bên cạnh đó, luận văn nhận rằng, chọn số lượng đặc trưng giữ lại mức thấp (chẳng hạn 128 đặc trưng) phương pháp chọn lọc đặc trưng OCFS χ2 hiệu TF ranking thời gian huấn luyện lẫn hiệu suất 4.3 Kết thực nghiệm phân lớp khác Ngồi việc kết hợp mơ hình NN với phân lớp SVM, luận văn thực phân loại chủ đề tin online tiếng Việt phân lớp khác giống số nghiên 90 KẾT QUẢ THỰC NGHIỆM cứu đề cập Mục 1.1.2 Điểm khác biệt luận văn sử dụng vectors đặc trưng trích xuất từ lớp ẩn A[L] từ mơ hình NN, thay sử dụng trực tiếp vectors đặc trưng TF-IDF nghiên cứu trước Hình 4.18 kết phân loại tin online tiếng Việt thực phân lớp khác Hình 4.18: Kết thực nghiệm phân loại tin online tiếng Việt phân lớp khác Như thấy, phân lớp SVM sử dụng luận văn cho kết tốt đa số phân lớp khác máy học LR, DT, DF Dù so giá trị F1 score phân lớp SVM sử dụng luận văn với phân lớp KNN có K = neighbors, giá trị F1 score phân lớp SVM có nhỏ chút, tổng thể phân lớp SVM thực tốt nhiệm vụ phân loại chủ đề tin online tiếng Việt Cụ thể: ❼ Khi so sánh giá trị precision, ta thấy phân lớp SVM tốt việc phân loại xác chủ đề tin online tiếng Việt Các giá trị precision phân lớp KNN, LR, DT, RF 0.89895, 0.89374, 0.86416, 0.89581 ❼ Trong đó, giá trị recall phân lớp KNN đạt hiệu cao với 0.89256, 91 KẾT QUẢ THỰC NGHIỆM cho thấy phân lớp bỏ sót bỏ sót chủ đề mà tin tập kiểm tra nên thuộc Bộ phân lớp sử dụng RF cho kết recall tương đương với phân lớp SVM với 0.89083; phân lớp LR, DT cho kết xấu 0.88669 0.86233 ❼ Tổng hợp lại, giá trị F 1score phân lớp SVM nhỏ 0.11% so với phân lớp KNN, nhiên, lớn phân lớp LR, DT, RF 0.432%, 3.17%, 0.118% Bên cạnh đó, luận văn thực phân loại tin online tiếng Việt trực tiếp mơ hình NN huấn luyện Kết thực nghiệm thể Bảng 4.14 Bảng 4.14: So sánh mơ hình SVM NN cho phân loại SVM NN precise 0.89820 0.89663 recall 0.89085 0.89069 F1 0.89418 0.89307 92 Chương KẾT LUẬN CHUNG VÀ HƯỚNG NGHIÊN CỨU KẾ TIẾP 5.1 Kết luận chung Xuyên suốt luận văn, phương pháp phân loại tin online tiếng Việt nghiên cứu, khảo sát giải thuật thực hiện, cơng thức tính tốn, ưu nhược điểm phương pháp Luận văn cịn xây dựng mơ hình kết hợp NN SVM với mục đích tận dụng NN để tạo vectors đặc trưng cho tin online Luận văn trình bày cách chi tiết mạch lạc mô tả rõ vấn đề hướng giải vấn đề Đầu tiên, luận văn đưa tranh tổng thể vai trò quan trọng máy học việc phân loại tin online tiếng Việt Cùng với loạt khảo sát nghiên cứu trước đây, luận văn cho thấy quan tâm chuyên gia, học giả vấn đề phân loại tin online không cho tiếng Việt mà cịn nhiều ngơn ngữ khác Kèm theo đó, phần tiếp theo, luận văn nghiên cứu số phương pháp trích xuất đặc trưng phổ biến TC, kỹ thuật chọn lọc đặc trưng mạnh mẽ thường xuyên góp phần nghiên cứu vấn đề TC Các kiến thức tốn tối ưu cho mơ hình máy học trình bày chi tiết nhằm giúp người đọc hiểu sâu phương pháp thực luận văn Luận văn xây dựng sở liệu tin online tiếng Việt, áp dụng vào thực nghiệm nghiên cứu Các bước thực từ việc thu thập liệu trang báo điện tử thống tiếng Việt Nam, đến cách thức xử lý loại bỏ tin không phù hợp với nghiên cứu, phân chia chủ đề cách phù hợp trình bày chi tiết Các bước tiền xử lý cho tác vụ TC đươc áp dụng cho liệu Luận văn thực biến đổi văn chứa từ ngữ thành vector số thực phương pháp trích xuất đặc trưng TF-IDF, điểm mạnh điểm yếu phương pháp Từ điểm yếu vector 93 KẾT LUẬN CHUNG, HƯỚNG PHÁT TRIỂN đặc trưng TF-IDF vector thưa có tính phân loại yếu, luận văn tiến hành áp dụng mơ hình NN máy học để huấn luyện trích xuất đặc trưng Các vectors đặc trưng có chiều nhỏ so với vectors đặc trưng TF-IDF; đồng thời, vector đặc trưng có tính phân lớp cao nhiều so với vector đặc trung TF-IDF Cuối việc áp dụng mơ hình phân lớp SVM chủ đề dự đoán tin dựa đặc trưng trích xuất từ lớp ẩn cuối NN Cuối cùng, luận văn thực loạt thực nghiệm khảo sát cho mơ hình NN nhằm tìm mơ hình hiệu tối ưu cho việc trích xuất đặc trưng Bên cạnh đó, kết tập kiểm tra với 10000 tin cho thấy mức độ hiệu kernel khác kỹ thuật phân lớp đa lớp khác mơ hình SVM Quan trọng hơn, luận văn mô lại hai phương pháp chọn lọc đặc trưng mạnh mẽ khác OCFS χ2 , qua cho thấy phương pháp sử dụng NN để giảm chiều liệu vector đặc trưng TF-IDF hiệu nhiều so với hai phương pháp kể hiệu phân loại thời gian huân luyện Một phát đáng ý giảm số chiều vector đặc trưng xuống mức thấp, OCFS χ2 cho kết chí so với phương pháp TF ranking Bên cạnh kết khả quan cho thấy luận văn đạt mục tiêu đặt ban đầu, dù nỗ lực thực nghiên cứu tốt khả năng, nhiều khía cạnh kiến thức liên quan tới vấn đề trích xuất đặc trưng giảm chiều liệu chưa thực luận văn Tuy nhiên, luận văn đề sở lý thuyết thực mô với mô hình cụ thể để đánh giá kết dựa sở lý thuyết Qua đó, số định hướng nghiên cứu thực dựa nội dung luận văn, mở rộng tính tổng quát vấn đề luận văn mục sau 5.2 Hướng phát triển Trong phần này, luận văn đưa định hướng nghiên cứu tương lai liên quan đến vấn đề phân loại chủ đề tin online tiếng Việt sau 5.2.1 Bộ liệu Bộ liệu tin online tiếng Việt thu thập sử dụng luận văn liệu có nhiều chủ đề bám sát với cách biên tập viên phân loại chủ đề tin Tuy nhiên, số lượng chủ đề tin chủ đề cịn q so với u cầu thực tế trang báo điện tử Trong tương lai, liệu 94 KẾT LUẬN CHUNG, HƯỚNG PHÁT TRIỂN làm giàu thêm với đa dạng chủ đề tin 5.2.2 Trích xuất đặc trưng Như trình bày, luận văn sử dụng kết hợp hai mơ hình uni-gram bi-gram để tách từ, nhằm giúp việc xây dựng từ điển cho phương pháp TF-IDF xác nhóm ngữ hệ đa ngữ tiếng Việt Tuy nhiên, việc áp dụng gây vấn đề có lượng khơng nhỏ cặp từ khơng có ý nghĩa; bỏ sót cụm từ gồm ba bốn từ Do đó, luận văn nghiên cứu thêm việc áp dụng NLP toolkit cho tiếng Việt underthesea [45], vnTokernizer [46] để tách từ cách hợp lý 5.2.3 Mơ hình Neural Networks Việc áp dụng NN không giúp vector đặc trưng TF-IDF giảm chiều liệu nhiều mà giúp tạo đặc trưng mang tính phân loại cao Với mục tiêu vừa giúp phân lớp tối ưu nhanh chóng, vừa giảm lượng thơng tin cần lưu trữ cho tin, NN làm việc hiệu chứng minh Chương Tuy nhiên, thời gian hạn chế, luận văn chưa thể xây dựng mơ hình giải mã từ đặc trưng từ lớp cuối NN lại tin hoàn chỉnh Đây thách thức cho định hướng nghiên cứu luận văn sau 5.2.4 Bộ phân lớp Support Vector Machine Dù SVM phân lớp mạnh mẽ thể qua nhiều nghiên cứu cho vấn đề TC nói chung hay phân loại tin online nói riêng Tuy nhiên, trình bày Mục 4.3, phân lớp SVM sử dụng luận văn không cho kết vượt trội so với phân lớp khác máy học Đặc biệt, sử dụng trực tiếp mơ hình NN huấn luyện phân loại chủ đề tin online tiếng Việt, kết phân loại không thấp nhiều so với việc kết hợp phân lớp SVM Qua đó, thấy luận văn cần phải định hướng nghiên cứu sử dụng mộ phân lớp tận dụng đặc trưng từ lớp ẩn cuối NN để tăng thêm hiệu phân loại 95 DANH M 2021 International Symposium on Electrical and Electronics Engineering (ISEE), IEEE, Apr 2021, pp 120 124 T N P Vinh and H H Kha, Vietnamese news articles classification Journal of Advances in Information Technology(JAIT) Accepted Jan 5, 2021 96 TÀI LI U THAM KH O [1] O Phelan et al., Term of a feather: Content-based news recommendation and discovery using twitter, in Proc 33rd European Conf Advances in Information Retireval, Springer, Springer, 2011, pp 448 459 [2] H Al-Sahaf et al., A survey on evolutionary machine learning, J Royal Society of New Zealand, vol 49, no 2, pp 205 228, 2019 [3] Q Li et al., A survey on text classification: From shallow to deep learning, Internet: https://arxiv.org/abs/2008.00364, Oct 26, 2020 [4] W Feng et al., A support vector machine based naive bayes algorithm for spam filtering, in Proc IEEE 35th Int Performance Computing and Communications Conference (IPCCC) IEEE, Dec 2016, pp [5] N Djuric et al., Hate speech detection with comment embeddings, in Proc 24th Int Conf World Wide Web ACM, 2015, pp 29 30 [6] P Mukalov et al., -tagging articles, based on 125 [7] K Kuksenok and A Martyniv, classification data quality using plausible negative examples, https://arxiv.org/abs/1906.01910, Jun 05, 2019 [8] W IJntema et al., EDBT/ICDT Workshops, ACM ACM, 2010, pp [9] V C D Hoang et al., 2007 IEEE Int Conf Research, Innovation and Vision for the Future, 2007, pp 267 273 [10] F Sebastiani, Machine learning in automated text categorization New York, NY, USA: ACM, 2002, pp 47 [11] J Yan et al., Proc 28th Ann Int ACM SIGIR Conf Research and Development in Information Retrieval, 2005, pp 122 129 97 [12] G.-S Nguyen et al., Proc Int Joint Conf Web Intelligence and Intelligent Agent Technology, vol IEEE, Sep 2009, pp 466 469 [13] J ACM (JACM), vol 8, no 3, pp 404 417, 1961 [14] IEEE Trans Inform Theory, vol 13, no 1, pp 21 27, 1967 [15] many relevant Proc Europ Conf Machine Learning Berlin, Germany: Springer-Verlag, 1998, pp 137 142 [16] N T Hai et al., 7th Int Conf Knowledge and Systems Engineering (KSE) IEEE, 2015, pp 91 96 [17] T N Quang, Master Thesis Information Technology, University of Science VNU-HCM, Ho Chi Minh City, 2008 [18] J Post and Telecommunication and Information Technology, 2005 [19] C Silva and B Ribeiro, Inductive inference for large scale text classification: kernel approaches and techniques Berlin: Springer, 2010 [20] Proc 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems (IES) IEEE, Nov 2017, pp 43 48 [21] H.Proc IEEE 11th Int Conf Knowledge and Smart Technology (KST) Phuket, Thailand: IEEE, Jan 2019, pp 23 28 [22] F Miao et al., Proc 10th Int Conf Intelligent Human-Machine Systems and Cybernetics (IHMSC), vol Hangzhou, China: IEEE, Aug 2018, pp 48 51 [23] L Al Qadi et al., Proc 2nd Int Conf New Trends in Computing Sciences (ICTCS) IEEE, 2019, pp 98 [24] R Wongso et al., Procedia Computer Science, vol 116, pp 137 143, Jan 2017 [25] A Zhang et al., pytorch.pdf, 2021 , Internet: https://d2l.ai/d2l-en- [26] T Mikolov et al., Internet: https://arxiv.org/abs/1301.3781, Sep 7, 2013 , [27] J Pennington et al., Proc 2014 Conf Empirical Methods in Natural Language Processing (EMNLP), vol 14, 2014, pp 1532 1543 [28] H Schutze et al., Introduction to Information Retrieval New York, NY, USA: Cambridge Univ Press, 2008 [29] generalized si IEEE Trans Pattern Analysis and Machine Intelligence, vol 26, no 8, pp 995 1006, 2004 [30] M Jeon et al., Proc the 2001 SIAM Conf Data Mining SIAM, 2001, pp 13 [31] L Trefethen and D Bau, Numerical linear algebra SIAM, 1997 [32] M Toussaint Some notes on gradient descent Internet: http://www.cs.virginia.edu/yanjun/teach/2015f/lecture/L4-GD.pdf, 2012 [33] D E Rumelhart et al., Nature, vol 323, no 6088, pp 533 536, 1986 - [34] I Sutskever et al., J Mach Learn Res., vol 23, no 3, 2013, pp 1139 1147 [35] Dokl Akad Nauk SSSR, vol 269, 1983, pp 543 547 [36] and Neural Networks, 1998 [37] S Boyd and L Vandenberghe, Convex optimization Cambridge, UK: Cambridge Univ Press, 2004 99 [38] V D Le Internet: https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords.txt, 2015 [39] J Documentation, vol 28, no 1, pp 11 21, 1972 [40] Proc International Conf Machine Learning PMLR, 2015, pp 448 456 [41] V H Ti p, Machi thu t, 2018 n HCMC: Nhà xu t b n Khoa h c K [42] D P Kingma and J Ba, hod for stochastic optimization, Internet: https://arxiv.org/abs/1412.6980, Jan 30, 2017 [43] J Duchi, , Internet: https://web stanford edu/~jduchi/projects/matrix_prop.pdf, 2007 [44] M Mohri et al., Foundations of machine learning MA: MIT Press, 2018 [45] V Anh et al., vietnamese nlp toolkit, Internet: https://underthesea.readthedocs.io/en/v1.1.5/index.html, 2019 [46] N M Le et al., Proc 4th Symposium on Information and Communication Technology, 2013, pp 88 93 100 PH N LÝ L CH TRÍCH NGANG H tên: Tơ Nguy c Vinh ng Tháp a ch liên l c: 528/7B Minh Ph ng, ng 9, qu n 11, thành ph H Chí Minh O 2013 i h c Bách Khoa thành phố Hồ Chí Minh 2018 hi n t i: H c Cao h c t i h c Bách Khoa thành phố Hồ Chí Minh Q TRÌNH CƠNG TÁC Hi n t i: Công ty TNHH Robert Bosch Vi t Nam 101 ... Việc áp dụng máy học vào phân loại tin online không giúp giảm thời gian phân loại chủ đề cho tin, mà giúp xây dựng tảng nhằm cung cấp đề xuất đắn chủ đề tin cho người đọc giảm việc tải thông tin. .. học nhằm tìm hướng hiệu cho vấn đề phân loại chủ đề tin tiếng Việt Chính lý định hướng trên, luận văn thực có tên “PHÂN LOẠI CHỦ ĐỀ BẢN TIN ONLINE SỬ DỤNG MÁY HỌC” 1.3 Mục tiêu nhiệm vụ luận... chủ đề riêng Do tin chia thành chủ đề kinh doanh bất động sản xảy việc chồng lấn chủ đề Để loại bỏ tượng khỏi liệu, làm cho liệu đáng tin cậy hơn, chủ đề chọn theo chủ đề có loại bỏ chủ đề gốc tin

Ngày đăng: 13/01/2022, 07:43

HÌNH ẢNH LIÊN QUAN

Hình 1.3: Mô hình NN sử dụng trong nghiên cứu [20]. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 1.3 Mô hình NN sử dụng trong nghiên cứu [20] (Trang 21)
Hình 2.1: Mô hình skip-gram sử dụng central target word để tính xác suất có điều kiện của việc tạo ra những context words về ngữ nghĩa. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 2.1 Mô hình skip-gram sử dụng central target word để tính xác suất có điều kiện của việc tạo ra những context words về ngữ nghĩa (Trang 29)
Hình 2.2: Mô hình CBOW quan tâm tới xác suất có điều kiện của việc tạo central target word từ những context words đã cho. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 2.2 Mô hình CBOW quan tâm tới xác suất có điều kiện của việc tạo central target word từ những context words đã cho (Trang 31)
Hình 2.4: Gradient descent trên cho mặt phẳn g2 chiều. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 2.4 Gradient descent trên cho mặt phẳn g2 chiều (Trang 41)
Hình 2.5: Minh họa chọn tốc độ học không phù hợp. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 2.5 Minh họa chọn tốc độ học không phù hợp (Trang 41)
Hình 3.1: Phân bố số lượng bản tin theo từng chủ đề. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.1 Phân bố số lượng bản tin theo từng chủ đề (Trang 52)
Hình 3.5: Các phương pháp N-gram khác nhau cho tách từ. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.5 Các phương pháp N-gram khác nhau cho tách từ (Trang 56)
Hình 3.7: Ví dụ tập dữ liệu với ba bản tin ngắn được tiền xử lý. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.7 Ví dụ tập dữ liệu với ba bản tin ngắn được tiền xử lý (Trang 62)
Hình 3.9: Vector đặc trưng của các bản tin mẫu với K= 164 chiều. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.9 Vector đặc trưng của các bản tin mẫu với K= 164 chiều (Trang 63)
Hình 3.16: Mô hình NN được huấn luyện cho giảm chiều dữ liệu. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.16 Mô hình NN được huấn luyện cho giảm chiều dữ liệu (Trang 71)
Hình 3.18: Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ẩn thứ l. Tương tự vậy, các đạo hàm∂J - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.18 Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ẩn thứ l. Tương tự vậy, các đạo hàm∂J (Trang 78)
Hình 3.20: Sơ đồ hệ thống đề xuất trong luân văn. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 3.20 Sơ đồ hệ thống đề xuất trong luân văn (Trang 86)
Mô hình sẽ được huấn luyện trong 30 epochs tức là các hệ số học sẽ được cập nhật - Phân loại chủ đề bản tin online sử dụng máy học
h ình sẽ được huấn luyện trong 30 epochs tức là các hệ số học sẽ được cập nhật (Trang 88)
Hình 4.1: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.1: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.1 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.1: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU (Trang 88)
Hình 4.2: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.2: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.2 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.2: Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh (Trang 89)
Hình 4.3: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.3: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.3 Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.3: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU (Trang 90)
Hình 4.4: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.4: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.4 Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.4: Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh (Trang 91)
Hình 4.5: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.5: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.5 Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.5: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU (Trang 92)
Hình 4.6: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.6: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.6 Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.6: Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh (Trang 93)
Hình 4.7: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.7: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.7 Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU Bảng 4.7: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU (Trang 94)
Hình 4.8: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.8: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.8 Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh Bảng 4.8: Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh (Trang 95)
Hình 4.15: Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sử dụng kỹ thuật “one-vs-rest”. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.15 Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sử dụng kỹ thuật “one-vs-rest” (Trang 105)
Hình 4.17: Kết quả so sánh phương pháp giảm chiều dữ liệu đề xuất với hai phương pháp hiệu quả nhất trong [9]. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.17 Kết quả so sánh phương pháp giảm chiều dữ liệu đề xuất với hai phương pháp hiệu quả nhất trong [9] (Trang 107)
Hình 4.18: Kết quả thực nghiệm phân loại bản tin online tiếng Việt trên các bộ phân lớp khác nhau. - Phân loại chủ đề bản tin online sử dụng máy học
Hình 4.18 Kết quả thực nghiệm phân loại bản tin online tiếng Việt trên các bộ phân lớp khác nhau (Trang 108)
w