Phân loại tin rao vặt theo nhu cầu

Phân loại tin rao vặt theo nhu cầu Cán hướng dẫn: TS Phan Xuân Hiếu ThS Trần Mai Vũ Sinh viên thực hiện: Đậu Đình Nghĩa Lý thực đề tài    Internet đời, kéo theo phát triển mạnh mẽ thương mại điện tử quảng cáo trực tuyến Rao vặt hình thức quảng cáo trực tuyến, cho phép ngưởi sử dụng tự đăng tin quảng cáo tùy theo mục đích cá nhân Việc phân loại tin rao vặt cho phép xác định xu hướng quảng cáo người sử dụng, đồng thời đánh giá mức độ trội nhu cầu so với nhu cầu khác Nội dung     Tổng quan phân lớp văn Một số giải thuật phân lớp văn Mô hình cho toán phân loại tin rao vặt theo nhu cầu sử dụng SVMs Thực nghiệm đánh giá Tổng quan phân lớp văn    Phân lớp văn nhiệm vụ nghiên cứu quan trọng lĩnh vực khai phá văn Phân lớp văn xếp văn vào hay nhiều lớp cho trước Internet đời => liệu tăng trưởng nhanh => nhu cầu phân loại liệu, đặc biệt liệu văn Ứng dụng:     Phân loại thư điện tử lọc thư rác Dự đoán ngôn ngữ: tiếng Việt, tiếng Anh, tiếng Nhật,… Phân tích quan điểm (ví dụ: quan điểm sản phẩm tích cực, tiêu cực hay trung lập) Phân loại chủ đề (chẳng hạn trị, kinh doanh, công nghệ,…) Một số giải thuật phân lớp văn    Perceptron: xây dựng siêu phẳng phân tách mẫu dương khỏi mẫu âm K Nearest Neighbors (kNN): phân lớp đối tượng dựa vào khoảng cách gần đối tượng cần phân lớp với tất đối tượng tập liệu huấn luyện Sau dựa vào k láng giềng để phân lớp Support Vector Machines (SVMs): xây dựng siêu phẳng phân tách mẫu dương khỏi mẫu âm với độ chênh lệch cực đại – độ chênh lệch gọi lề (margin) Khái quát toán phân loại tin rao vặt theo nhu cầu  Yêu cầu phân loại tin rao vặt dựa theo nhu cầu, gồm lớp: cần bán, cần mua, cần cho thuê, cần thuê, cần tìm, cần tuyển, khác Mô hình cho toán phân loại tin rao vặt theo nhu cầu sử dụng SVMs Tiền xử lý liệu   Do đặc trưng tin rao vặt, liệu chứa nhiều tiếng lóng, ký tự viết tắt, lỗi tả, viết hoa,… khiến trình xử lý gặp nhiều khó khăn Dùng biểu thức quy (regular expression) để quán số đặc trưng thường gặp (nhưng viết không theo mẫu cố định):    097.992.834, 01662523485, 0165 883 2959 … ==> sodienthoai example@yahoo.com, example@gmail.com … ==> email example.com, http://example.com, … ==> siteaddress Biểu diễn văn vector     Unstructured data ==> structured data Tách câu, tách từ, loại bỏ stop-word Xét tập liệu huấn luyện D = {D1, D2,…, Dm} với m số văn tập liệu huấn luyện Mỗi văn Di biểu diễn dạng vector đặc trưng di với , di = (wi1, wi2,…, win) với n số vector đặc trưng văn bản, wij trọng số đặc trưng thứ j Biểu diễn văn vector (tiếp)  Trọng số đặc trưng tính toán nhiều cách khác Dưới số cách tính trọng số đặc trưng  Term Frequency  Inverse Document Frequency  Term Frequency Inverse Document Frequency Đánh giá mô hình phân lớp Dữ liệu cân   Dữ liệu bị cân cao số lớp có số file trội hẳn lớp khác Có số phương pháp để giải việc cân liệu chỉnh tham số C cho lớp resampling Thực nghiệm đánh giá  Dữ liệu       Thu thập từ website http://muaban.net Tập liệu gồm 16940 file, gồm 13540 file cho huấn luyện 3400 cho kiểm thử, chuyển thành file vector đặc trưng muaban muaban.test Tổng số đặc trưng: 15228 Bao gồm lớp: cần bán, cần mua, cần cho thuê, cần thuê, cần tìm, cần tuyển, khác Sử dụng libSVM để thực nghiệm với liệu Phần mềm hỗ trợ Kết   Bài toán sử dụng SVMs với soft margin hàm nhân RBF, đánh giá kết việc điều chỉnh hai tham số C gamma Ở đây, em giữ nguyên gamma (mặc định 1/tổng số đặc trưng), tăng dần C, đồng thời chỉnh C cho lớp, thu kết hình bên với tham số sau svm-train -c –w1 –w2 15 –w3 –w4 240 –w5 12 –w6 –w7 muaban Kết với c = 10000 Ước lượng tham số       LibSVM có công cụ cho phép grid search để ước lượng tham số C g Dưới số tham số tốt sử dụng grid search: C=2 g=0.125 rate=97.777 C=2 g=0.015625 rate=95.8789 C=64 g=0.125 rate=98.065 C=64 g=0.015625 rate=98.161  Accuracy = 97.76% Kết luận  Kết   Mặc dù liệu cân cao kết phân lớp tương đối tốt Hướng phát triển    Tập trung vào phần tiền xử lý liệu, làm chuẩn hóa liệu Lựa chọn đặc trưng Thử nghiệm tập liệu Cảm ơn Thầy, Cô bạn lắng nghe [...]...Đánh giá mô hình phân lớp Dữ liệu mất cân bằng   Dữ liệu bị mất cân bằng cao khi một số lớp có số file trội hơn hẳn các lớp khác Có một số phương pháp để giải quyết việc mất cân bằng dữ liệu như căn chỉnh tham số C cho... search: C=2 g=0.125 rate=97.777 C=2 g=0.015625 rate=95.8789 C=64 g=0.125 rate=98.065 C=64 g=0.015625 rate=98.161  Accuracy = 97.76% Kết luận  Kết quả   Mặc dù dữ liệu mất cân bằng cao nhưng kết quả phân lớp tương đối tốt Hướng phát triển    Tập trung vào phần tiền xử lý dữ liệu, làm sạch và chuẩn hóa dữ liệu Lựa chọn đặc trưng Thử nghiệm trên tập dữ liệu mới Cảm ơn Thầy, Cô và các bạn đã lắng