Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
479,72 KB
Nội dung
Xử lý ngôn ngữ tự nhiên Phân lớp văn bản – Phân loại website Nhóm sinh viên thực hiện : Đinh Quang Huy - 20081124 Nguyễn Hữu Hạnh - 20080903 Nguyễn Đức Yên - 20083244 Doãn Đình Việt - 20083124 Giáo viên hướng dẫn : TS. Lê Thanh Hương Nội dung • Tổng quan • Phương pháp giải quyết bài toán • Chương trình Demo • Kết luận Tổng quan • Phân lớp văn bản được coi là quá trình phân loại 1 văn bản bất kỳ vào một hay nhiều lớp cho trước. • Quá trình này gồm 2 bước: Xây dựng mô hình phân lớp Sử dụng mô hình phân lớp trên để phân lớp cho những văn bản (chưa được phân loại) Tổng quan • Ứng dụng lớn nhất của bài toán phân lớp văn bản là áp dụng vào bài toán phân loại hay lọc nội dung. Các ứng dụng cụ thể như: Lọc thư rác Lọc trang web có nội dung phản động, không lành mạnh,… • Một ứng dụng khác của bài toán phân lớp là xây dựng bộ phân lớp sau tìm kiếm. Phương pháp giải quyết bài toán • Phương pháp Naïve Bayes Định lý Bayes Phân loại Naïve Bayes Phân loại Naïve Bayes – Giải thuật Phân loại văn bản bằng phương pháp Naïve Bayes • Áp dụng vào bài toán phân lớp website Phương pháp Naïve Bayes • Định lý Bayes: Phân loại Naïve Bayes • Biểu diễn bài toán phân loại: Một tập học D_train, trong đó mỗi ví dụ học x được biểu diễn là 1 vector n chiều (x1, x2,…, xn) Một tập xác định các nhãn lớp: C = {c1, c2,…, cm} Với 1 ví dụ mới z, ta cần xác định xem z sẽ được phân loại vào lớp nào? • Mục tiêu: xác định phân lớp phù hợp nhất với z Phân loại Naïve Bayes • Vì xác suất P(z1, z2,…, zn) là như nhau đối với các lớp nên ta cần tìm: Phân loại Naïve Bayes • Lại có, trong phương pháp phân loại Naïve Bayes, giả sử các thuộc tính là độc lập có điều kiện đối với các lớp. Vậy: Phân loại Naïve Bayes • Phân loại Naïve Bayes tìm phân lớp có thể nhất đối với ví dụ mới z sẽ là: [...]... đoạn phân lớp cho 1 văn bản mới d: Từ văn bản d, trích ra tập T_d gồm các từ khóa được định nghĩa trong tập T (T_d T) Giả sử rằng xác suất xuất hiện của từ khóa tj đối với lớp ci là độc lập đối với vị trí của từ khóa đó trong văn bản Phân loại văn bản bằng phương pháp Naïve Bayes • Giai đoạn phân lớp cho 1 văn bản mới d: Đối với mỗi phân lớp ci, ta tính giá trị likehood của văn bản d đối với lớp. .. là tập các văn bản trong D_train có nhãn lớp là ci Đối với mỗi phân lớp ci : Tính giá trị xác suất trước của phân lớp ci Phân loại văn bản bằng phương pháp Naïve Bayes • Giai đoạn học: Đối với mỗi phân lớp ci : Đối với mỗi từ khóa tj, tính xác suất từ khóa tj xuất hiện đối với lớp ci theo công thức: Trong đó: n(dk, tj) là số lần xuất hiện từ khóa tj trong văn bản dk Phân loại văn bản bằng phương... Xác định phân lớp của z là có thể nhất: Phân loại văn bản bằng phương pháp Naïve Bayes • Biểu diễn bài toán phân loại văn bản: Tập học D_train, trong đó mỗi ví dụ học là một biểu diễn văn bản đã gắn với 1 nhãn lớp xác định: D = {(dk, ci)} Một tập các nhãn lớp xác định: C = {ci} Phân loại văn bản bằng phương pháp Naïve Bayes • Giai đoạn học: Từ tập các văn bản trong D_train, ta trích ra tập các.. .Phân loại Naïve Bayes – giải thuật • Giai đoạn học: sử dụng 1 tập học D_train Đối với mỗi phân lớp có thể C, tính xác suất trước P(ci) Đối với mỗi giá trị thuộc tính xj, tính xác suất xảy ra của giá trị thuộc tính đó với một phân lớp ci P(xj | ci ) Phân loại Naïve Bayes – giải thuật • Giai đoạn phân lớp, với mỗi ví dụ mới: Đối với mỗi phân lớp C, tính giá trị likehood: Xác định phân lớp. .. công thức: Văn bản d sẽ được phân vào lớp c* có giá trị likehood lớn nhất: Áp dụng vào bài toán phân loại website Mô hình giải quyết bài toán và còn hay hoặc không không những không chỉ mà còn nếu thì nên hễ tuy nhưng bả lại giá vì bởi tại do song dầu mặc dầu dù dẫu dẫu cho chẳng lẽ làm như thế mà bậy mà có điều hơn nữa huống hồ huống gì huống nữa ngay cũng chính cả Bảng danh sách các stop-word STT... dục 3 Văn hóa, giải trí ent 4 Sức khỏe hel Các nội dung liên quan đến sức khỏe 5 Chính trị, xã hội plt Các nội dung liên quan đến tình hình chính trị, xã hội,… 6 Khoa học sci Các nội dung liên quan đến khoa học 7 Thể thao spt Các nội dung liên quan đến thể thao 8 Công nhệ tec Các nội dung liên quan đến công nghệ Các nội dung liên quan đến nghệ thuật, âm nhạc, điện ảnh Bảng các lớp tin tức Chương trình . Xử lý ngôn ngữ tự nhiên Phân lớp văn bản – Phân loại website Nhóm sinh viên thực hiện : Đinh Quang Huy - 20081124 Nguyễn Hữu Hạnh - 20080903 Nguyễn Đức Yên - 20083244 Doãn Đình Việt - 20083124 Giáo. phân lớp Sử dụng mô hình phân lớp trên để phân lớp cho những văn bản (chưa được phân loại) Tổng quan • Ứng dụng lớn nhất của bài toán phân lớp văn bản là áp dụng vào bài toán phân loại hay. toán • Chương trình Demo • Kết luận Tổng quan • Phân lớp văn bản được coi là quá trình phân loại 1 văn bản bất kỳ vào một hay nhiều lớp cho trước. • Quá trình này gồm 2 bước: Xây dựng mô hình phân lớp