1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM

38 131 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o TÌM HIỂU VỀ SUPPORT VECTOR MACHINE CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Sinh viên thực hiện: Phạm Văn Sơn Giáo viên hướng dẫn: Ths Nguyễn Thị Xuân Hương Mã số sinh viên: 120704 HẢI PHÒNG 12/2019 MỤC LỤC MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG 1: TÌM HIỂU VỀ SUPPORT VECTOR MACHINE 1.1 PHÁT BIỂU BÀI TOÁN 1.1.1 Trình bày tóm tắt phân lớp liệu 1.1.2 Tại lại sử dụng thuật toán SVM phân lớp liệu 1.2 THUẬT TOÁN SVM 10 1.2.1 Giới thiệu 10 1.2.2 Định nghĩa 10 1.2.3 Ý tưởng phương pháp 10 1.2.4 Nội dung phương pháp 11 1.2.4.1 Cơ sở lý thuyết 11 1.2.4.2 Bài toán phân lớp với SVM 12 1.2.4.3 Bài toán nhiều phân lớp với SVM 13 1.2.4.4 Các bước phương pháp SVM 14 CHƯƠNG 2: BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 15 2.1 SỰ KIỆN (Facts) VÀ QUAN ĐIỂM (Opinions) 15 2.2 NHU CẦU VỀ THÔNG TIN QUAN ĐIỂM VÀ NHẬN XÉT15 2.3 MÁY TÌM KIỂM QUAN ĐIỂM / NHẬN XÉT 17 2.4 LỊCH SỬ CỦA PHÂN TÍCH QUAN ĐIỂM VÀ KHAI THÁC QUAN ĐIỂM 18 2.5 XU HƯỚNG NGHIÊN CỨU GẦN ĐÂY 19 2.5.1 Xác định cụm từ, quan điểm 19 2.5.2 Sử dụng tính từ phó từ 20 2.5.3 Sử dụng động từ 21 2.5.4 Xác định chiều hướng, cụm từ, quan điểm 22 2.6 NHIỆM VỤ CỦA PHÂN TÍCH QUAN ĐIỂM 22 2.7 BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 22 2.7.1 Phân cực quan điểm mức độ phân cực 23 2.7.2 Nhiệm vụ toán phân lớp quan điểm 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài liệu 25 CHƯƠNG III: CHƯƠNG TRÌNH THỰC NGHIỆM 26 3.1 DỮ LIỆU THỬ NGHIỆM 26 3.2 CÔNG CỤ SỬ DỤNG 26 3.2.1 Công cụ sinh SRIML 26 3.2.2 Ngơn ngữ lập trình java 27 3.2.3 Công cụ phân lớp liệu SVMLight 28 3.3 Kết thực nghiệm 29 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 35 LỜI CẢM ƠN Trước hết, em xin chân thành cảm ơn Trường Đại học Dân Lập Hải Phịng Các Thầy, Cơ Khoa Công nghệ Thông tin tạo điều kiện thuận lợi cho em suốt trình học tập làm luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn sâu sắc Cơ Nguyễn Thị Xuân Hương, người tận tình hướng dẫn em thực luận văn tốt nghiệp Cô định hướng cho luận văn, giúp sinh viên có mơi trường học thuật để trao đổi ý tưởng, kiến thức thu thập qua đọc sách, tạp chí, tài liệu, qua tìm hiểu giảng, qua mạng Inernet, đặc biệt Cô cho phép sinh viên tiếp cận với kho tài liệu tương đối đầy đủ, có tính cập nhật cao mà cô dày công sưu tầm Em xin cảm ơn Thầy, Cơ quan tâm góp ý nhận xét quý báu cho đồ án em Xin cảm ơn bạn chia sẻ góp ý cho tơi q trình hồn thành luận văn Hải Phòng, ngày… tháng… năm…… Sinh viên MỞ ĐẦU Trong thời đại nay, phát triển vũ bão công nghệ thông tin (CNTT) kéo theo phát triển nhiều lĩnh vực khác Có thể nói, CNTT làm thay đổi hình hài kinh tế giới, giúp nhân loại bước bước vững đường kinh tế tri thức, thương mại điện tử Ngày nay, người không cịn phải vất vả nhọc nhằn cơng việc thu thập dư liệu có trợ thủ đắc lực hệ thống máy tính mạng truyền số liệu triển khai quy mơ tồn cầu Tuy nhiên, phát triển vượt bậc CNTT làm tăng số lượng giao dịch thông tin mạng Internet cách đáng kể, đặc biệt thư điện tử, tin tức điện tử, Theo số liệu thống kê từ Brođer et (2008) sau khoảng đến 10 tháng lượng thơng tin lại tảng gấp đơi, bên cạnh tốc độ thay đổi thơng tin nhanh Hoạt động lĩnh vực đặt phải xử lý khối lượng thông tin đồ sộ Một yêu cầu lớn đặt chứng ta tổ chức, tìm kiếm thơng tin cách hiệu phân loại thông tin giải pháp hợp lý cho yêu cầu Nhưng vối khối lượng thông tin lớn địi hỏi phải xử lý nhanh việc phân loại thủ công điều không tưởng Hướng giải xây dựng giải pháp cho phép thuật tốn hóa chương trình hóa máy tính để tự động phân loại thơng tin Trong đề tài tốt nghiệp đại học Trường Đại Học Dân Lập Hải Phịng, em thực đề tài “TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM” Lý chọn đề tài Vấn đề phân lớp dự đoán khâu quan trọng học máy khai phá liệu, phát trí thức Kỹ thuật Support Vector Machines (SVM) đánh giá công cụ mạnh tinh vi cho toán phân lớp phi tuyến Nhiều ứng dụng xây dựng dựa kỹ thuật SVM hiệu Mục đích, đối tượng phạm vi nghiên cứu Trong khn khổ luận văn nghiên cứu phần toán phân lớp quan điểm, sở lý thuyết phương pháp SVM vấn đề liên quan Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM Đưa kỹ thuật mờ vào SVM cho phép phân chia không gian liệu cách tốt hơn, nhằm loại bỏ vùng khơng phân lớp SVM thơng thường Trình bày hướng áp dụng kỹ thuật SVM cải tiến, mở rộng vào giải số tốn ứng dụng thực tiễn Trình bày tổng quan toán phân lớp quan điểm cụ thể toán phân lớp phân cực để phân chia tài liệu chứa quan điểm tích cực hay tiêu cực Tìm hiểu liệu quan điểm viết chương trình thử nghiệm phân lớp phan cực tài liệu sử dụng SVM Ý nghĩa khoa học thực tiễn SVM phương pháp phân lớp đại hiệu quả, nắm phương pháp tạo tảng giúp việc phát triển giải pháp phân loại dự đoán , xây dựng ứng dụng quan trọng thực tế Ứng dụng phân lớp SVM cho toán phân lớp quan điểm toán nghiên cứu phát triển rộng rãi có ý nghĩa học thuật lẫn ứng dụng thực tế Nội dung luận văn bao gồm Chương 2: Tìm hiểu Support Vector Machine Chương 2: Bài tốn phân lớp quan điểm Chương 3: Chương trình thực nghiệm Phần Kết Luận Phần tài liệu tham khảo CHƯƠNG 1: TÌM HIỂU VỀ SUPPORT VECTOR MACHINE 1.1 PHÁT BIỂU BÀI TOÁN Support Vector Machines (SVM) kỹ thuật việc phân lớp liệu, phương pháp học sử dụng không gian giả thuyết hàm tuyến tính khơng gian đặc trưng nhiều chiều, dựa lý thuyết tối ưu lý thuyết thống kê Trong kỹ thuật SVM không gian liệu nhập ban đầu ánh xạ vào không gian đặc trưng không gian đặc trưng mặt siêu phẳng phân chia tối ưu xác định Ta có tập S gồm e mẫu học (X x Y)e S = {(x1,y1), (x2,y2), (x3,y3)… ( xe,ye)} n với vectơ đầu vào n chiều xi ∈ R thuộc lớp I lớp II (tương ứng nhãn y i = lớp I v y i = - lớp II) Một tập mẫu học gọi tầm thường tất nhãn Đối với liệu phân chia tuyển tính, xác định siêu phẳng f(x) mà chia tập liệu Khí đó, với siêu phẳng nhận ta có: f(x)≥ đầu vào x thuộc lớp dương, f(x)< x thuộc lớp âm f(x) = w.x +b = n wi xi + b j yi f(xi) = yi (w.xi + b) ≥ , i=1,….,l w vector pháp tuyến n chiều b giá trị ngưỡng Vector pháp tuyến w xác định chiều siêu phẳng f(x), giá trị ngưỡng b xác định khoảng cách siêu phẳng gốc Hình 1: Phân tách theo siêu phẳng (w,b) không gian chiều tập mẫu Siêu phẳng có khoảng cách với liệu gần lớn (tức có biên lớn nhất) gọi siêu phẳng tối ưu Hình 2: Siêu phẳng tối ưu Mục đích đặt tìm ngưỡng (w,b) phân chia tập mẫu vào lớp có nhãn (lớp I) -1 (lớp II) nêu với khoảng cách lớn 1.1.1 Trình bày tóm tắt phân lớp liệu - Phân lớp liệu kỹ thuật khai phá liệu sử dụng rộng rãi nghiên cứu mở rộng - Mục đích: Để dự đoán nhãn phân lớp cho liệu mẫu Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu Đầu ra: Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp Phân lớp liệu dựa tập huấn luyện giá trị thuộc tính phân lớp dùng để xác định lớp cho liệu Kỹ thuật phân lớp liệu tiến hành bao gồm bước: Bước 1: Xây dựng mơ hình từ tập huấn luyện Bước 2: Sử dụng mơ hình – kiểm tra tính đắn mơ hình dùng để phân lớp liệu Bước Xây dựng mô hình - Mỗi bộ/mẫu liệu phân vào lớp xác định trước - Lớp bộ/mẫu liệu xác định thuộc tính gán nhãn lớp - Tập bộ/mẫu liệu huấn luyện - tập huấn luyện - dùng để xây dựng mô hình - Mơ hình biểu diễn luật phân lớp,các định cơng thức tốn học Hình 2.3: Ví dụ xây dựng mơ hình Bước 2: Sử dụng mơ hình - Phân lớp cho đối tượng chưa phân lớp - Đánh giá độ xác mơ hình Lớp biết trước mẫu/bộ liệu đem kiểm tra so sánh với kết thu từ mơ hình Tỉ lệ xác phần trăm mẫu/bộ liệu phân lớp mơ hình số lần kiểm tra Hình 2.4: Sử dụng mơ hình 1.1.2 Tại lại sử dụng thuật toán SVM phân lớp liệu  SVM hiệu để giải tốn liệu có số chiều lớn (ảnh liệu biểu diễn gene, protein, tế bào)  SVM giải vấn đề overfitting tốt (dữ liệu có nhiễu tách dời nhóm liệu huấn luyện ít)  Là phương pháp phân lớp nhanh  Có hiệu suất tổng hợp tốt hiệu suất tính tốn cao dự đốn định hướng tất tính từ danh sách từ quan điểm rút cách tìm kiếm qua cụm lưỡng cực để tìm liệu từ đồng nghĩa hay trái nghĩa có danh sách khởi đầu hay khơng Khi định hướng tính từ dự đốn, bổ sung vào danh sách khởi đầu sử dụng để xác định định hướng tính từ khác Trong phương pháp này, danh sách khởi đầu dần tăng lên định hướng tính từ nhận dạng, ngừng gia tăng, tức qui mơ danh sách khởi đầu trùng với qui mô danh sách từ quan điểm, tất định hướng tính từ nhận biết q trình kết thúc Những từ quan điểm thường tập trung chủ yế phó từ nhận dạng xác nhiều hai loại từ hệ thống có độ xác cao 2.5.3 Sử dụng động từ Các tính từ phó từ đóng vai trị quan trọng việc phân tích quan điểm loại từ có lợi việc nhận biết định hướng rút từ quan điểm nghiên cứu Tuy nhiên, loại từ khác, ví dụ động từ sử dụng để diễn tả cảm xúc hay ý kiến viết Nasukawa Yi (2003) xem xét bên cạnh tính từ phó từ, động từ diễn tả quan điểm hệ thống đánh giá quan điểm họ Họ phân loại động từ có liên quan đến quan điểm thành loại Loại thứ trực tiếp thể quan điểm tích cực hay tiêu cực, theo lý giải họ “beat” “X beats Y” Loại thứ hai quan điểm trực tiếp dẫn đến quan điểm , giống “is” “X is good” Họ sử dụ ựa mơ hình Markov (HMM) (Manning and Schutze, 1999) phân tích cú pháp nơng dựa luật (Neff et al., 2003) cho bước tiền xử lý Sau họ phân tích tính phụ thuộc mặt cú pháp cụm từ tìm kiếm cụm từ có từ quan điểm mà bổ nghĩa bổ nghĩa thuật ngữ chủ thể 21 2.5.4 Xác định chiều hướng, cụm từ, quan điểm Trong phân tích quan điểm, xu hướng từ, cụm từ trực tiếp thể quan điểm, cảm xúc người viết Phương pháp để nhận biết xu hướng quan điểm từ, cụm từ cảm nghĩ dựa thống kê dựa từ vựng 2.6 NHIỆM VỤ CỦA PHÂN TÍCH QUAN ĐIỂM Phân tích quan điể : (Sentiment Extraction) nhiên Có hai hướ (Sentiment Classification : bao gồm nhiệm vụ là: positive , ) negative - 2.7 BÀI TỐN PHÂN LỚP QUAN ĐIỂM Phân lớp q trình "nhóm” đối tượng "giống” vào "một lớp” dựa đặc trưng liệu chúng Tuy nhiên, phân lớp hoạt động tiềm ẩn tư người nhận dạng giới thực, đóng vai trò quan trọng làm sở đưa dự báo, định Phân lớp cách mô tả lớp giúp cho tri thức định dạng lưu trữ Khi nghiên cứu đối tượng, tượng, dựa vào số hữu hạn đặc trưng chúng Nói cách khác, ta xem xét biểu diễn đối tượng, tượng không gian hữu hạn chiều, chiểu ứng với đặc trưng lựa chọn Khi đó, phân lớp liệu trở thành phân hoạch tập liệu thành tập theo tiêu chuẩn nhận dạng : Nhiệm vụ 22 Phân lớp câu/tài liệu chứa quan điể ực(positive) hay tiêu cực (negative (neutral) Theo Bo Pang Lillian Lee (2002) phân lớp câu/tài liệu quan điểm khơng có nhận biết từ/ cụm từ quan điểm Họ sử dụng học máy có giám sát để phân loại nhận xét phim ảnh Không cần phải phân lớp từ hay cụm từ quan điểm, họ rút đặc điểm khác quan điểm sử dụng thuật tốn Nạve Bayes (NB), Maximum Entropy (ME) Support Vector Machine (SVM) để phân lớp quan điểm Phương pháp đạt độ xác từ 78, 7% đến 82, 9% Input: (polarity) ) Output : tiếp cận ngữ Phân lớp tài liệu theo hướng quan điểm thật vấn đề thách thức khó khăn lĩnh vự xử lý ngơn ngữ chất phức tạp ngơn ngữ người, đặc biệt đa nghĩa nhập nhằng nghĩa ngôn ngữ Sự nhập nhằng rõ ràng ảnh hưởng đến độ xác phân lớp mức độ định Một khía cạnh thách thức vấn đề dường phân biệt với việc phân loại chủ đề theo truyền thống chủ đề nhận dạng từ khóa đứng mình, quan điểm diễn tả cách tinh tế Ví dụ câu sau: “Làm để ngồi xem hết phim ?”khơng chứa ý có nghĩa mà rõ ràng nghĩa tiêu cực Theo đó, quan điểm dường đòi hỏi hiểu biết nhiều hơn, tinh tế 2.7.1 Phân cực quan điểm mức độ phân cực - : positive/negative/neutral : Like/ dislike/ So so - p/ thumbs down - :like to win/ unlike to win Liberal/conservative / bad new 23 : / : “This laptop is great” ” => VD: “The stock prise rose” ” ” : Rating inference (ordinal regression ,… : positive, negative, neutral positive negative neutral ) neutral Theo negative negative 10% 2.7.2 Nhiệm vụ toán phân lớp quan điểm Bài toán phân lớp quan điểm biết đến toán phân lớp tài liệu với mục tiêu phân loại tài liệu theo định hướng quan điểm Đã có nhiều tiếp cận khác nghiên cứu để giải cho loại toán Để thực hiện, chia thành hai nhiệm vụ sau: - Trích đặc trưng nhằm khai thác thơng tin quan điểm để phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa - Xây dựng mơ hình để phân lớp tài liệu 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài liệu Trong phân tích quan điểm, xu hướng từ, cụm từ trực tiếp thể quan điểm, cảm xúc người viết Phương pháp để nhận biết xu hướng quan điểm từ, cụm từ cảm nghĩ dựa thống kê dựa từ vựng Với nhiệm vụ phân lớp tài liệu, có nhiều phương pháp học máy thống kê sử dụng cho mục đích này, là: Naive Bayes, phân loại Maximum Entropy, học máy giám sát SVM, định,… Thuật toán gồm bước: Bước 1: Xác định n-gram, đặc trưng lọc qua toàn tập liệu Bước 2: Tính tốn tần số xuất n-gram tích cực, tiêu cực tính trọng số n-gram Bước 3: Chọn n-gram thỏa mãn ngưỡng có trọng số cao loại bỏ bigram khơng có ý nghĩa cho việc phân loại Bước 4: Tính tốn độ xác q trình huấn luyện phân lớp 25 CHƯƠNG III: CHƯƠNG TRÌNH THỰC NGHIỆM 3.1 DỮ LIỆU THỬ NGHIỆM Trong đồ án này, sử dụng liệu từ viết đánh giá phim gồm 700 nhận xét tích cực 700 nhận xét tiêu cực Dữ liệu cung cấp tác giả Lillian Lee (http://www.cs.cornell.edu/people/pabo/movie-reviewdata/) Các liệu dược loại bỏ số đánh giá rút thông tin nguyên văn từ tài liệu gốc định dạng HTML, xử lý dấu chấm câu mục từ vựng riêng biệt Chúng tập trung vào đặc trưng dựa từ đơn cặp từ 3.2 CƠNG CỤ SỬ DỤNG 3.2.1 Cơng cụ sinh SRIML SRILM công cụ để xây dựng áp dụng mơ hình ngơn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ cơng cụ phát triển “Phịng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux Windows SRILM bao gồm thành phần sau: Một tập hợp thư viện C++ giúp cài đặt mơ hình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chương trình thực thi thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ cơng cụ SRILM có nhiều chương trình con, để xây dựng mơ hình ngơn ngữ ta sử dụng chương trình Ngram 26 Chương trình Ngram thống kê tần số xuất cụm Ngram Kết việc thống kê ghi lại vào tệp sử dụng chúng để xây dựng mơ hình ngơn ngữ Kết việc thống kê ghi lại theo định dạng sau: ngram –count –ordern -interpolate -text -lm Trong đó: order n: thiết lập độ dài lớn cụm Ngram thống kê n Giá trị mặc định không thiết lập tham số n = interpolaten: với n nhận giá trị 1, 2, 3, 4, 5, 6, 7, 8, Tính tốn tần số cụm Ngram có độ dài n cách nội suy từ cụm Ngram có độ dài nhỏ text: File liệu cần thống kê tần số cụm Ngram Tệp văn chứa câu dịng Kí hiệu kết thúc bắt đầu dòng tự động thêm vào tệp đầu vào chưa có Các dòng trống tệp bị loại bỏ lm: xây dựng mơ hình ngơn ngữ truy hồi từ tần số vừa thống kê, sau ghi lại vào tệp fileketqua theo định dạng 3.2.2 Ngôn ngữ lập trình java Java ngơn ngữ lập trình dạng lập trình hướng đối tượng (OOP) Khác với phần lớn ngơn ngữ lập trình thơng thường, thay biên dịch mã nguồn thành mã máy thông dịch mã nguồn chạy, Java thiết kế để biên dịch mã nguồn thành bytecode, bytecode sau môi trường thực thi (runtime environment) chạy Bằng cách này, Java thường chạy nhanh ngơn ngữ lập trình thông dịch khác Python, Perl, PHP,… Cú pháp Java vay mượn nhiều từ C & C++ có cú pháp hướng đối tượng đơn giản tính xử lý cấp thấp 27 Một số đặc điểm bật java - Máy ảo java - Thông dịch - Độc lập - Hướng đối tượng Đa nhiệm, đa luồng 3.2.3 Công cụ phân lớp liệu SVMLight SVMnh sau: Thorste phát triển Joachims - Tối ưu hóa thuật tốn nhanh - Giải nhanh vấn đề phân loại hồi quy kết đầu đa biến - Hỗ trợ phương pháp nhận dạng mẫu - SVMTlearn - SVMTagger - SVMClassicfy: kiểm thử kết Thực hiện: : svm-learn [-option] train_file model_file 28 : train_file - Tên train_file model_file: - ố ủ ) - 3.3 Kết thực nghiệm Các bước thực Bước 1: sử dụng công cụ N-gram để sinh file liệu chứa N-gram tài liệu chứa quan điểm Ở đây, sử dụng uni-gram (1-gram) Bigram (2-gram) Bước 2: Từ tập liệu này, trước sử dụng để huấn luyện kiểm thử cần qua số bước lọc bỏ đặc trưng không tốt Bước thứ nhất, lọc bỏ từ vô nghĩa (stop word), ký tự đặc biệt {! ,?,/,@.#,“, } Bước lọc bỏ đặc trưng theo tần số Những đặc trưng có tần số xuất liệu huấn luyện thấp giá trị (đối với unigram nhỏ bigram nhỏ 7) bị loại bỏ Bước cuối thực sau gán trọng số cho đặc trưng 29 Bước 3: Gán nhãn cho N-gram tập liệu huấn luyện để lấy thông tin phân loại: nhận xét chứa quan điểm tích cực gán nhãn 1, nhận xét chứa quan điểm tiêu cực gán nhãn -1 chọn Để thực phân lớp tài liệu quan điểm, chia tập liệu thành hai tập tập huấn luyện (train) tập kiểm thử (test) Tập huấn luyện gồm có 550 nhận xét tích cực 550 nhận xét tiêu cực Tập kiểm thử (test) gồm có 150 nhận xét tích cực 150 nhận xét tiêu cực Kết thực phân lớp Support Vector Machine với đặc trưng Unigram Bigram sau: Đặc trưng Uni-gram Bi-gram Độ xác (Precision) 91,38 % 56,49% Độ phản hồi (Recall) 91,54% 58% Chương trình trích đặc trưng n-gram tạo liệu cho phân lớp SVM để phân lớp bình luận tích cực hay tiêu cực 30 1: Giao diện chương trình 3.2: Mở file liệu đầu vào 31 3.3: Hiển thị liệu dùng để chạy Get Pos Data 3.4: Dữ liệu cho phân lớp SVM 32 3.5: Hình ảnh chạy Lệnh SVM mơi trường DOS 33 KẾT LUẬN Luận văn hướng tới mục tiêu phân lớp liệu đạt độ xác cao, xem xét tất mục tiêu phần giới thiệu thời gian có hạn, nên số vấn đề chưa hoàn chỉnh Tuy nhiên, luận văn đạt số kết quả: Nghiên cứu trình bày sở lý thuyết phương pháp học máy Trình bày phương pháp SVM Đây phương pháp phân lớp hiệu nghiên cứu nhiều thời gian qua Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM: Cài đặt số công cụ giúp đỡ cho việc xây dựng mơ hình ngơn ngữ như: chuẩn hóa văn bản, tách từ ngôn ngữ Java Cài đặt chương trình để trích đặc trưng tạo liệu cho phân lớp SVM Tìm kiếm sử dụng liệu phân lớp tài liệu chứa quan điểm Cài đặt chạy thành công mã nguồn mở Srilm môi trường Linux Sử dụng công cụ mã nguồn mở SRILM để xây dựng mơ hình ngơn ngữ cho liệu đầu vào Do thời gian có hạn, nên luận văn nghiên cứu trích đặc trưng n-gram từ bình luận sử dụng phân lớp SVM để phân lớp bình luận tích cực hay tiêu cực Trong thời gian tới, tơi tiếp tục nghiên cứu trích đặc trưng khác cho toán phương pháp phân lớp thống kê khác 34 TÀI LIỆU THAM KHẢO Ths Nguyễn Thị Xuân Hương Ths Lê Thụy “phân tích quan điểm số hướng tiếp cận” Hội nghị khoa học lần thứ nhất, 2012, trường ĐHDL Hải Phịng Nghiên cứu thuật tốn phân lớp nhị phân ứng dụng cho bào toán Protein Folding – Nguyễn Quang Phước – Trường Đại học Khoa học tự nhiên TPHCM Bo Pang and Lillian Lee Shivakumar Vaithyanathan Thumbs up Sentiment Classification using Machine Learning Techniques http://en.wikipedia.org/wiki/Support_vector_machine http://www.cs.cornell.edu http://svmlight.joachims.org/ ftp://ftp.cs.cornell.edu/pub/smart/english.stop http://www.speech.sri.com/projects/srilm/download.html 35 ... ĐIỂM 22 2.7 BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 22 2.7.1 Phân cực quan điểm mức độ phân cực 23 2.7.2 Nhiệm vụ toán phân lớp quan điểm 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài... vụ toán phân lớp quan điểm Bài toán phân lớp quan điểm biết đến toán phân lớp tài liệu với mục tiêu phân loại tài liệu theo định hướng quan điểm Đã có nhiều tiếp cận khác nghiên cứu để giải cho. .. giải số toán ứng dụng thực tiễn Trình bày tổng quan tốn phân lớp quan điểm cụ thể toán phân lớp phân cực để phân chia tài liệu chứa quan điểm tích cực hay tiêu cực Tìm hiểu liệu quan điểm viết

Ngày đăng: 31/08/2020, 14:45

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 2. 2: Siêu phẳng tối ưu - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
Hình 2. 2: Siêu phẳng tối ưu (Trang 8)
Hình 2. 1: Phân tách theo siêu phẳng (w,b) trong khơng gian 2 chiều của tập mẫu - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
Hình 2. 1: Phân tách theo siêu phẳng (w,b) trong khơng gian 2 chiều của tập mẫu (Trang 8)
Bước 1: Xây dựng mơ hình từ tập huấn luyện - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
c 1: Xây dựng mơ hình từ tập huấn luyện (Trang 9)
Bước 2: Sử dụng mơ hình - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
c 2: Sử dụng mơ hình (Trang 10)
Hình 2. 5: Siêu phẳng phân chia dữ liệu học thành 2 lớp + và - với khoảng cách biên lớn nhất - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
Hình 2. 5: Siêu phẳng phân chia dữ liệu học thành 2 lớp + và - với khoảng cách biên lớn nhất (Trang 12)
Hình 2. 6: Minh họa bài tốn 2 phân lớp bằng phương pháp SVM - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
Hình 2. 6: Minh họa bài tốn 2 phân lớp bằng phương pháp SVM (Trang 14)
- Xây dựng mơ hình để phân lớp các tài liệu. - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
y dựng mơ hình để phân lớp các tài liệu (Trang 27)
3.5: Hình ảnh khi chạy Lệnh SVM trong mơi trường DOS - TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM
3.5 Hình ảnh khi chạy Lệnh SVM trong mơi trường DOS (Trang 36)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w