Luận văn này thực hiện nghiên cứu đánh giá việc phân loại văn bản tin tức dựa trên phương pháp máy học Support vector machine SVM cùng với sự kết hợp giữa biểu diễn văn bản bằng mô hình túi từ BoW Bag of Words và thuật toán TF TDF Term frequency – Inverse document frequency Một số phương pháp máy học và khai phá dữ liệu văn bản phổ biến được áp dụng để huấn luyện tập dữ liệu cho phân loại văn bản như SVM Bayes đơn giản Naïve Bayes Cây quyết định Decision tree Quá trình thực nghiệm phân loại văn bản tin tức với tập dữ liệu hơn 10 000 tin tức trong nhiều chủ đề được tổng hợp từ các nguồn báo chí trên Internet Tập dữ liệu huấn luyện được trích xuất và tóm gọn trong một số chủ đề chính như Thế giới Giáo dục Sức khỏe Khoa học Công nghệ…Kết quả thực nghiệm bước đầu đã khẳng định tính khả thi của mô hình khi kết quả phân loại đạt được độ chính xác khoảng 87
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGÔ HẢI NAM PHÂN LOẠI VĂN BẢN TIN TỨC DÙNG MÁY VEC-TƠ HỖ TRỢ Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Ngƣời hƣớng dẫn khoa học: TS NINH KHÁNH DUY Đà Nẵng - Năm 2019 LỜI CAM ĐOAN Tôi xin cam đoan luận án thạc sĩ “Phân loại văn tin tức dùng máy vec-tơ hỗ trợ” nghiên cứu hướng dẫn TS Ninh Khánh Duy Các kết luận án hoàn toàn trung thực chưa công bố nghiên cứu Các nguồn tài liệu tham khảo kế thừa trích dẫn tham chiếu đầy đủ, phù hợp với quy định Giáo dục Đào tạo, trường Đại học Bách khoa Đà Nẵng Ngƣời cam đoan Ngơ Hải Nam MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TÓM TẮT LUẬN VĂN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài Mục tiêu nhiệm vụ Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Kết luận Bố cục luận văn CHƯƠNG BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Phân loại văn 1.1.1 Khái niệm 1.1.2 Bài toán phân loại văn 1.2 Mơ hình phân loại văn dùng tiếp cận học máy 1.2.1 Khái niệm học máy 1.2.2 Phân loại học máy 1.2.3 Dữ liệu huấn luyện học máy 1.2.4 Mơ hình phân loại văn 1.3 Thu thập liệu 1.4 Tiền xử lý văn 1.4.1 Xử lý ngôn ngữ tự nhiên 1.4.2 Biểu diễn văn dƣới dạng vec-tơ đặc trƣng 13 1.4.3 Giảm chiều liệu 15 CHƯƠNG THUẬT TOÁN MÁY VEC-TƠ HỖ TRỢ TRONG PHÂN LOẠI VĂN BẢN 16 2.1 Thuật toán máy vec-tơ hỗ trợ 16 2.1.1 Lý thuyết máy vec-tơ hỗ trợ 16 2.1.2 Nội dung phƣơng pháp SVM 16 2.1.3 Hàm nhân kernel SVM 20 2.2 Ứng dụng phân loại văn 22 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ 24 3.1 Dữ liệu thử nghiệm 24 3.2 Triển khai chƣơng trình 25 3.2.1 Các công cụ sử dụng 25 3.2.2 Các bƣớc xây dựng mơ hình phân loại văn 26 3.3 Kết thử nghiệm với SVM 27 3.4 So sánh với thuật toán Naive Bayes 34 3.4.1 Thuật toán Naive Bayes 34 3.4.2 Kết phân loại với Naive Bayes 35 3.5 Đánh giá 36 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37 TÀI LIỆU THAM KHẢO 38 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN Học viên Hoàng Đại Thọ TRANG TÓM TẮT LUẬN VĂN Tên đề tài: PHÂN LOẠI VĂN BẢN TIN TỨC DÙNG MÁY VEC-TƠ HỖ TRỢ Học viên: Ngô Hải Nam Chuyên ngành: Khoa Học Máy Tính - Mã số: 8480101 Khóa: 34 Trƣờng Đại học Bách khoa – Đại học Đà Nẵng Tóm tắt - Luận văn thực nghiên cứu, đánh giá việc phân loại văn tin tức dựa phƣơng pháp máy học Support vector machine (SVM) với kết hợp biểu diễn văn mơ hình túi từ BoW (Bag-of-Words) thuật toán TF-TDF (Term frequency – Inverse document frequency) Một số phƣơng pháp máy học khai phá liệu văn phổ biến đƣợc áp dụng để huấn luyện tập liệu cho phân loại văn nhƣ SVM, Bayes đơn giản (Naïve Bayes), Cây định (Decision tree) Quá trình thực nghiệm phân loại văn tin tức với tập liệu 10.000 tin tức nhiều chủ đề đƣợc tổng hợp từ nguồn báo chí Internet Tập liệu huấn luyện đƣợc trích xuất tóm gọn số chủ đề nhƣ: Thế giới, Giáo dục, Sức khỏe, Khoa học-Công nghệ…Kết thực nghiệm bƣớc đầu khẳng định tính khả thi mơ hình kết phân loại đạt đƣợc độ xác khoảng 87% Từ khóa- Phân loại văn tiếng việt, máy vec-tơ hỗ trợ Abstract: This thesis studies and evaluates the categorization of news text based on the support vector machine (SVM) method together with the combination of text representation by bag-of-Words and TF-TDF (Term frequency - Inverse document frequency) algorithm A number of popular machine learning and data mining methods are used to train data sets for text classification such as SVM, Naïve Bayes, decision tree The empirical process categorizes news texts with more than 10,000 multi-threaded news aggregated from Internet newspaper sources Training data was extracted and summarized in a number of major topics such as: World, Education, Health, Science-Technology The experimental results initially confirmed the feasibility of the model classification results are approximately 87% accurate Keywords - Vietnamese text classification, Support vector machine DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machines BoW Bag of Words TF-IDF Term frequency – Inverse document frequency URL Uniform Resource Locator HTML HyperText Markup Language ML Machine Learning NLP Natural Language Processing PCA Principle Component Analysis LDA Linear Discriminant Analysis DANH MỤC CÁC BẢNG Bảng 3.1 Tập liệu tin tức thu thập theo chủ đề 24 Bảng 3.2 Tập liệu training testing 24 Bảng 3.3 Kết đánh giá độ xác (Precision) với hàm nhân số chiều vec-tơ đặc trƣng thay đổi .27 Bảng 3.4 Kết đánh giá SVM với hàm nhân linear 33 Bảng 3.5 So sánh kết phân loại Naïve Bayes SVM Linear 35 DANH MỤC CÁC HÌNH Hình 1.1 Phân loại văn tin tức theo chủ đề Hình 1.2 Gmail tự động xác định xem email spam hay khơng .5 Hình 1.3 Mơ hình phân loại văn Hình 1.4 Quá trình thu thập liệu website Hình 1.5 Ví dụ cơng đoạn làm văn 10 Hình 1.6 Minh họa kết giai đoạn tách từ 11 Hình 1.7 Một số từ stopwords tiếng Việt 12 Hình 1.8 Cách sử dụng Bag of Words 13 Hình 2.1 Siêu phẳng phân chia liệu thành lớp + – với khoảng cách biên lớn Các điểm gần Support Vector 16 Hình 2.2 Bài tốn phân loại điểm sử dụng SVM 17 Hình 2.3 Phƣơng pháp 1-vs-tất cho máy học SVM đa lớp 18 Hình 2.4 Phƣơng pháp 1-vs-1 cho máy học SVM đa lớp 19 Hình 2.5 Các điểm khơng gian phi tuyến 20 Hình 2.6 Chuyển đổi không gian liệu đầu vào tốn SVM 20 Hình 2.7 Sự khác phân loại liệu kernel .22 Hình 2.8 Mơ hình ứng dụng phân loại văn 23 Hình 3.1 Các cơng đoạn tiền xử lý văn 26 Hình 3.2 Giao diện chƣơng trình phân loại văn 27 Hình 3.3 Tokenize văn tin tức .28 Hình 3.4 Giao diện phân loại văn tin tức .28 Hình 3.5 Văn tin tức chủ đề “thể thao” 29 Hình 3.6 Kết phân loại tin tức chủ đề “Thể thao” 29 Hình 3.7 Văn tin tức chủ đề “Kinh tế” 30 Hình 3.8 Kết phân loại tin tức chủ đề “Kinh tế” 30 Hình 3.9 Mơ hình hóa số ML 31 Hình 3.10 Cách tính Precision Recall 32 Hình 3.11 Tỷ lệ xác dự đoán chủ đề 34 MỞ ĐẦU Lý chọn đề tài Nhƣ biết, hầu hết thông tin nằm dƣới dạng văn bản, kể đến nhƣ báo, tài liệu học tập, tài liệu sản xuất kinh doanh, nghiên cứu khoa học Với nhu cầu trao đổi thông tin ngày lớn nay, việc ứng dụng công cụ quản lý văn xu tất yếu Tuy nhiên, cách quản lý luồng liệu văn bản, cung cấp công cụ kho chứa, chƣa có giải pháp phân loại, trích lọc thơng tin nhằm mục đích thống kê, phát hiên tri thức, đinh trực tiếp nguồn liệu Với thực tế đó, vấn đề đặt làm để khai thác đƣợc thơng tin hữu ích từ nguồn tài liệu văn nói chung Các nguồn liệu phải đƣợc xử lý nhƣ để ngƣời dùng có cơng cụ tự động hóa trợ giúp việc khai thác thơng tin Rõ ràng, phải hiểu rõ chất liệu văn bản, đặc trƣng liệu loại để có phƣơng pháp luận cần thiết Việc khai thác thông tin từ nguồn liệu văn Việt Nam dựa vào kết nghiên cứu văn nói chung Tuy nhiên văn tiếng Việt lại có đặc trƣng riêng nó: ví dụ khác biệt cú pháp, ngữ pháp so với ngôn ngữ phổ biến giới nhƣ tiếng Anh, tiếng Pháp…Để làm rõ vấn đề này, vào chủ đề thƣờng gặp việc xử lý văn bản, phân loại văn tiếng Việt Đây nơi dung đề tài “Phân loại văn tin tức dùng máy vec-tơ hỗ trợ” Mục đích ý nghĩa đề tài Mục đích Xây dựng chƣơng trình có khả phân loại văn tin tức theo chủ đề (các chủ đề nhƣ Giáo dục, Thể thao, Thế giới, Sức khỏe …) dựa việc xử lý văn bản, trích rút đặc trƣng áp dụng máy vec-tơ hỗ trợ để học, phân loại dựa đặc trƣng Để thoả mãn mục tiêu cần đạt đƣợc mục tiêu cụ thể sau: Nghiên cứu bƣớc giải toán Machine Learning lý thuyết phân lớp Máy vec-tơ hỗ trợ Nắm vững cách trích chọn đặc trƣng văn tin tức tiếng Việt Xây dựng đƣợc phần mềm phân loại văn cách xác Đánh giá hiệu thuật toán máy vec-tơ hỗ trợ qua liệu kiểm tra so sánh với thuật tốn phân loại khác nhƣ Nạve Bayes Ý nghĩa khoa học thực tiễn đề tài Đóng góp mặt phƣơng pháp thực nghiệm vào lĩnh vực phân loại văn bản, nhánh nghiên cứu xử lý ngơn ngữ tự nhiên Nghiên cứu chuẩn hóa, trích rút đặc trƣng văn tin tức tiếng Việt cho toán phân loại văn Xây dựng hƣớng tiếp cận cho toán phân loại tin tức, ứng dụng phục vụ cho công tác quản lý thông tin văn Mục tiêu nhiệm vụ Mục tiêu Mục tiêu đề tài nghiên cứu phƣơng pháp phân loại văn tin tức ứng dụng máy vec-tơ hỗ trợ thông qua ngôn ngữ Python Để thỏa mãn mục tiêu này, cần đạt đƣợc mục tiêu cụ thể sau: Thu thập sở liệu văn tin tức tiếng Việt Nắm vững kiến thức lập trình Python tảng thuật tốn máy vec-tơ hỗ trợ Đề xuất giải pháp ứng dụng máy vec-tơ hỗ trợ vào việc phân loại văn tin tức so sánh với phƣơng pháp khác Nhiệm vụ Để đạt đƣợc mục tiêu nhiệm vụ đặt đề tài là: Thu thập liệu văn tin tức tiếng Việt Phát biểu, phân tích cài đặt giải thuật ngôn ngữ Python cho toán phân loại văn Đánh giá kết theo yêu cầu đề tài Đối tƣợng phạm vi nghiên cứu Trong khuôn khổ luận văn thạc sĩ thuộc loại ứng dụng với thời gian thực 06 tháng, giới hạn nghiên cứu vấn đề sau: Thuật toán máy vec-tơ hỗ trợ sử dụng ngơn ngữ Python Ứng dụng thuật tốn máy vec-tơ hỗ trợ việc phân loại văn tiếng Việt triển khai ngôn ngữ Python Đánh giá giải pháp thực 32 Recall đƣợc định nghĩa tỉ lệ số điểm thực (true positive) số điểm thực (TP + FN) Có giá trị nằm khoản (0, 1] (3.2) Hình 3.10 Cách tính Precision Recall Khi Precision = 1, điểm tìm đƣợc thực (positive), tức khơng có điểm sai (negative) lẫn vào kết Tuy nhiên, Precision = không đảm bảo mô hình tốt, câu hỏi đặt liệu mơ hình tìm đƣợc tất điểm hay chƣa Nếu mơ hình tìm đƣợc điểm mà chắn ta khơng thể gọi mơ hình tốt Khi Recall = 1, điểm đƣợc tìm thấy Tuy nhiên, đại lƣợng lại khơng đo liệu có điểm sai bị lẫn Nếu mơ hình phân loại điểm chắn Recall = 1, nhiên dễ nhận mơ hình cực tồi Một mơ hình phân lớp tốt mơ hình có Precision Recall cao, tức gần tốt F1-Score hàm harmonic mean precision and recall (3.3) 33 F1-Score có giá trị nằm khoảng (0, 1], F1-Score cao mơ hình phân loại tốt F1 trung bình điều hịa (harmonic mean) tiêu chí Precision Recall - F1 có xu hƣớng lấy giá trị gần với giá trị nhỏ giá trị Precision Recall - F1 có giá trị lớn giá trị Precision Recall lớn Cho thử nghiệm phân loại văn với kernel=Linear độ lớn vec-tơ tối đa=4000 tập liệu nêu ta có Bảng 3.4: Bảng 3.4 Kết đánh giá SVM với hàm nhân linear Thông số Precision Recall F1-Score Support Thế giới 0.82 0.79 0.81 212 Đời sống 0.76 0.72 0.74 239 Sức khỏe 0.89 0.87 0.88 965 Khoa học-Công nghệ 0.90 0.87 0.88 450 Thể thao 0.97 0.92 0.94 769 Du lịch 0.73 0.81 0.77 302 Giáo dục 0.82 0.86 0.84 1353 Kinh doanh 0.83 0.76 0.79 272 Pháp luật 0.93 0.94 0.94 713 Chủ đề 34 Hình 3.11 Tỷ lệ xác dự đốn chủ đề Trong bảng 3.4, độ xác tất lớp văn 88% đƣợc tính tỷ số số tài liệu đƣợc dự đoán tổng số tài liệu tập tài liệu kiểm thử Kết thực nghiệm cho thấy chủ đề” pháp luật” có độ xác cao chủ đề” du lịch” có độ xác thấp Điều q trình tiền xử lý văn liệu huấn luyện thử nghiệm chƣa đƣợc phân loại chƣa xác liệu đƣợc lấy từ nguồn báo chí internet Chẳng hạn văn thuộc lĩnh vực “âm nhạc” thuộc lĩnh vực “giáo dục” nhƣ nội dung đề cập tới vấn đề “giáo dục âm nhạc” Nhƣ phân loại văn thực tế khơng hồn tồn đƣợc phân tách tuyến tính mà có vùng mập mờ, điều ảnh hƣởng tới trình huấn luyện phân loại 3.4 So sánh với thuật toán Naive Bayes 3.4.1 Thuật toán Naive Bayes Để đánh giá thuật toán SVM toán phân loại văn tin tức ta kiểm nghiệm với thuật tốn phân loại khác Naive Bayes Naive Bayes thuật toán dựa định lý Bayes lý thuyết xác suất để đƣa phán đoán nhƣ phân loại liệu dựa liệu đƣợc quan sát thống kê Định lý Bayes phát biểu nhƣ sau: ” Xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy ra, ký hiệu P(A|B), phụ thuộc vào yếu tố: o Xác suất xảy A riêng nó, không quan tâm đến B, ký hiệu P(A) o Xác suất xảy B riêng nó, khơng quan tâm đến A, ký hiệu P(B) 35 o Xác suất xảy B biết A xảy ra, ký hiệu P(B|A), đọc xác suất B có A Công thức định luật Bayes đƣợc phát biểu nhƣ sau: (3.4) Ở ta thấy xác suất sảy giả thuyết A phụ thuộc xác suất giả thuyết B, nhƣng thực tế xác suất A phụ thuộc vào xác suất nhiều giác thuyết khác B1, B2, B3 … Bn Vậy định luật Bayes đƣợc mở rộng công thức sau: (3.5) Cho tập liệu huấn luyện đƣợc gán nhãn D={(x(i), y(i))} với i=1~N Ở x(i) vector đặc trƣng thứ i tập huấn luyện, y(i) thuộc {1, 2, …, C} nhãn tƣơng ứng với vector x(i)= (x(i)1, x(i)2, x(i)D) x(i)d số lần xuất từ thứ d từ điển (từ gắn số thứ tự với từ, nên gọi từ d) Áp dụng cơng thứ Bayes, ta tính giá trị p(y|x), giá trị lớn giá trị t cho trƣớc, ta kết luận nhãn vector x y 3.4.2 Kết phân loại với Naive Bayes Sử dụng thƣ viện mã nguồn mở, thuật toán Naive Bayes đƣợc cài đặt đánh giá tập liệu huấn luyện kiểm thử, kịch nhƣ thuật toán SVM Cho độ lớn vec-tơ đặc trƣng giá trị 500, 1000, 2000, 3000, 4000 Kết cụ thể nhƣ bảng 3.5 Bảng 3.5 So sánh kết phân loại Naïve Bayes SVM Linear Số chiều 500 1000 2000 3000 4000 Naive Bayes 0.75 0.77 0.75 0.75 0.73 SVM Linear 0.81 0.84 0.86 0.87 0.87 Thuật toán 36 Cùng dƣ liệu training testing thuật tốn SVM Linear cho kết tốt ổn định thuật toán Naive Bayes Điều giải thích ƣu điểm SVM phù hợp cho toán phân loại với số chiều cao 3.5 Đánh giá Với mơ hình xây dựng, tập liệu văn tin tức huấn luyện đƣợc chia thành chủ đề với số lƣợng khác Q trình kiểm nghiệm mơ hình học máy dùng thuật toán SVM với hàm nhân cho kết tƣơng đối giống độ xác thay đổi độ lớn tối đa vec-tơ đặt trƣng Tỷ lệ xác đạt cao với hàm nhân tuyến tính (linear) đạt 87% Cùng liệu SVM cho kết tốt ổn định phƣơng pháp Nạve Bayes Thuật tốn SVM tỏ phù hợp cho toán phân loại tin tức, thử nghiệm SVM cho độ xác phân loại 87% chấp nhận đƣợc điều kiện thực tế Tuy nhiên để nâng cao độ xác, theo tơi cần tiếp tục cải tiến khâu tiền xử lý văn xây dựng mẫu huấn luyện tiêu chuẩn cho toán phân loại tin tức Các kết cho thấy rằng, việc sử dụng kỹ thuật xử lý văn mơ hình phân lớp SVM toán phân loại tin tức văn có hiệu 37 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Với tốc độ bùng nổ thông tin nhƣ nay, hàng ngày tiếp cận nhiều nguồn thơng tin tài liệu Việc lƣu trữ, tìm kiếm văn dễ dàng nhờ trợ giúp máy tính Cùng với việc phân loại văn cịn mang tính thủ cơng không đáp ứng đƣợc nhu cầu sống Bởi vậy, việc nghiên cứu, tối ƣu toán phân lớp văn tin tức cần thiết Trong toán phân loại văn bản, việc tiền xử lý văn quan trọng, không xử lý tốt ảnh hƣởng xấu đến kết phân loại Bƣớc việc phân loại, chọn thuật toán SVM nhƣng biết cách tối ƣu tham số giải thuật chọn hàm nhân tốt cho kết khả quan Với kết nhận đƣợc, tơi cho việc áp dụng thuật tốn SVM xuất từ lâu nhƣng phù hợp với văn tin tức hiên Hƣớng nghiên cứu tƣơng lai, với quy mô tập liệu lớn số lƣợng từ vài trăm ngàn chí hàng triệu số chủ đề đến hàng chục ngàn Việc phân loại xác khơng dễ dàng, cần phải thử nghiệm phƣơng pháp, thuật toán tốt kết hợp với SVM độ xác cao tốc độ xử lý nhanh 38 TÀI LIỆU THAM KHẢO [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiền (2004), Phân loại văn tiếng Việt với phân loại vec-tơ hỗ trợ, Hà Nội: Bài báo khoa học, 2004 [2] Vũ Hữu Tiệp, “Machine Learning bản”, 2017 [3] Kieu Quoc Hung, “Tìm hiểu Machine Learning”, [online] Available at: https://viblo.asia/p/tim-hieu-ve-machine-learning-924lJDnbKPM [4] Trần Thị Lan Hƣơng, luận văn thạc sĩ ngành Hệ thống thông tin “Nghiên cứu phân loại tự động văn báo chí tiếng Việt tài ngun mơi trƣờng”, trƣờng Đại học Công nghệ, 2012 [5] Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị, “Sự ảnh hƣởng phƣơng pháp tách từ toán phân loại văn tiếng Việt”, khoa Công nghệ thông tin truyền thông, trƣờng Đại học Cần Thơ, 2016 [6] Triệu Thị Ly Ly, luận văn tốt nghiệp ngành Công nghệ thông tin “Feature Extraction Methods in News Document Classification Problem”, trƣờng Đại học Bách khoa Đà Nẵng [7] “Scikit-learn”, [online] Available at: http://scikit-learn.org/ [8] “VnTokenizer”, [online] Available at: https://pypi.org/project/pyvi/ [9] Lê Văn Duyệt, “Vietnamese Stopwords”, [online] Available at: https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamesestopwords.txt [10] T Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, LS8, Baroper Str 301 44221 Dortmund, Germany: Universitat Dortmund Informatik, 1998 [11] D L Elizabeth, Natural Language Processing, Syracuse University, 2001 [12] E G David H H John, Genetic Algorithms and Machine Learning, Kluwer Academic Publishers-Plenum Publishers, 1998 [13] H Kruse A Mukherjee, “Preprocessing text to improve compression ratios,” IEEE, Snowbird, UT, USA, USA, 1998 [14] W John Wilbur Karl Sirotkin, “The automatic identification of stop words,” tập 18, số 1, pp 45-55, February 1, 1992 [15] Ethem Alpaydin, Introduction to Machine Learning, MIT Press, 2014 39 [16] Tom Mitchell, Machine Learning, McGraw-Hill Education, 1997 [17] Ramos, J., 2003, December Using tf-idf to determine word relevance in document queries In Proceedings of the first instructional conference on machine learning (Vol 242, pp 133-142) [18] Wallach, H.M., 2006, June Topic modeling: beyond bag-of-words In Proceedings of the 23rd international conference on Machine learning (pp 977-984) ACM [19] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K and Kuksa, P., 2011 Natural language processing (almost) from scratch Journal of machine learning research, 12(Aug), pp.2493-2537 DAI HQC BA NANG TRUaNG DAI HOC BACH KHOA ONG HOA X'A HO CHU NGHTA VItT NAM Dec lap - Tty - Hanh phtic s6:9421QD-DHBK-DT n a Nang, 21 thang 05 nam 2018 QUYET DINH viec giao d tat va trach nhiem can nguiri htrang dan luan van thac s'y HItU TIWONG TRUtiNG DAI HOC BACH KHOA Can dr Nghi dinh s6 32/CP 04 thang nam 1994 tha Chinh phü ve viec lap Dai hoc Da Nang; Can dr Thong tix s6 08/2 014/TT-BGDDT 20 thang narn 2014 dm Bo trmang BO Gido due va Dao tao ye viec ban hanh Quy cher t6 chile va boat dOng ella dai hoc vAng ya the co s& giao doe dai hoc vien; Quyet dinh so 6950/QD-DHDN 01 thang 12 Mani 2014 coa Giam &Se Dai hoc Da Nang ye viec ban hanh Quy dinh nhiem vg, quyen han tha Dai he Da Nang, cac co sa gido due dai hoc vien va the don vi trgc thuOc; Can cir Thong tu so,15/2 014/TT-BGD&DT 15 thang nam 2014 dm BO twang BO Giao due va Dao tao ye viec ban hanh Quy che Dao tact trinh dO Thac syk Quyet dinh so 598/QD-DHBK 27/12/2016 tha Hieu trmang twang Dai hoc Bach khoa ye viee ban hanh Quy dinh dao tao trinh dO thac sy; Can dr Quyet clinh s6 423/DHBK-DT 28/02/2017 dm Hieu truang truang Dai hoc Bach Khoa ve viec cOng nhan hoc vien cao hoc triang tuyen; San cir Tex trinh sa 04/TTr-CNTT cfm khoa Cong nghe thong tin ve viec Quyet dinh giao de tai va ngtrai huang dan lu'an van thee sy cho hoc vien cao hoc chuyen nganh Khoa hoc may tinh; Xet de nglii ena Trwang Pheng Dao tao, QUYET DINH Dieu Giao cho hoc vien cao hoc Ng8 Hai Nam, lap K34.KMT.QB, chuyen nganh Khoa hpc may tinh, thgc hien tai luan van "Phdn loaf van ban tin Sr clung may vec-to hg trq", dual sty huang clan caa TS Ninh Khanh Duy, Truang Doi h9c Bach khoa - Dal hpc Da Nang a Dieu He vien cao he va ngtrai huong clan c6 ten & Dieu dugc huang cac quyen lgi va time hi'en nhiem \fp theo clang quy che tao thac sy hi'en hanh tha BO Gig") due va Dao Mc), quy dinh dao tao thac sy ella Twang Dai hoc Bach khoa Dieu Cac ong/ba Twang Phong Dao tao, Truang phOng Ke hoach — TM chinh, Tnremg khoa Cong nghe thong tin, ngued huang dan luan van Ira hoc vien ea ten & Dieu can cir Quyet dinh thi hanh./ U TRUONG U TRUONG No! - NIlir di6.1 3; - Lau: Pliang DT Phan Minh Mt Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner ... trọng cho viêc phân lớp 16 CHƢƠNG 2: THUẬT TOÁN MÁY VEC- TƠ HỖ TRỢ TRONG PHÂN LOẠI VĂN BẢN 2.1 Thuật toán máy vec- tơ hỗ trợ 2.1.1 Lý thuyết máy vec- tơ hỗ trợ Bài toán phân loại /phân lớp (Classification)... xử lý văn bản, phân loại văn tiếng Việt Đây nơi dung đề tài ? ?Phân loại văn tin tức dùng máy vec- tơ hỗ trợ? ?? Mục đích ý nghĩa đề tài Mục đích Xây dựng chƣơng trình có khả phân loại văn tin tức theo... PHÂN LOẠI VĂN BẢN + Phân loại văn + Mơ hình phân loại văn dùng tiếp cận học máy + Thu thập liệu + Tiền xử lý văn + Biểu diễn văn dƣới dạng vec- tơ đặc trƣng ● CHƢƠNG 2: THUẬT TOÁN MÁY VEC- TƠ HỖ