1. Trang chủ
  2. » Tất cả

Phương pháp phân loại văn bản dựa trên cách tiếp cận knn

81 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 1,22 MB

Nội dung

Phân loại văn tiếng Việt với giải thuật K-NN MỞ ĐẦU Trong năm gần phân loại văn trở thành kỹ thuật then chốt để tổ chức thơng tin trực tuyến Nó sử dụng để tổ chức sở liệu văn bản, lọc thư điện tử tìm kiếm thơng tin liên quan đến Web, để dẫn người dùng tìm kiếm thông tin qua siêu văn hypertext) Mà đó, việc phân loại văn tay thực được, thực với chi phí tốn Do đó, với phát triển thông tin trực tuyến, yêu cầu cấp thiết đặt cần phải xây dựng hệ thống phân loại văn tự động Cho đến nay, có nhiều đề xuất xây dựng tốn phân loại văn tự động Neive Bayes, Bayes net, K- láng giêng gần nhất, định, mạng nơron, Support Vector Machines, Các phương pháp phân loại này, đạt thành đáng kể đối vớ văn tiếng anh, Pháp, Nhật, Trung Quốc ứng dụng thực tế tìm kiếm Yahoo, Altavista, Google, Trong đó, K- láng giềng gần cách tiếp cận cho độ xác phân loại văn cao hẳn phương pháp phân loại khác Ơ Việt Nam, có nhiều nghiên cứu lĩnh vực xử lý văn tiếng Việt, đề tìa nghiên cứu Máy dịch tự động Anh –Việt (EVTRan) viện nghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc viện công nghệ thông tin nhiều luận văn tôt nghiệp cao học đại học khác Nhưng nghiên cứu phân loại văn tiếng việt chưa nhiều kết hạn chế Bởi vậy, luận văn em tập trung nghiên cứu toán phân loại văn Tiếng Việt dựa cách tiếp cận K- láng giêng gần Một vấn đề liên quan mật thiết đến tốc độ xử lý độ xác q trình phân loại số chiều vector biểu diễn văn Nếu dùng từ từ điển làm đặc trưng để biểu diễn văn văn tiếng Việt biểu diễn vector có 70 nghìn chiều (tương đương với số từ tư điển tiếng Việt) 70 nghìn số lớn ta có đến hàng triệu văn cần ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN xử lý trình phân loại Để tăng tốc độ xử lý độ xác kết phân loại văn bản, luận văn em xin đề xuất phương pháp xây dựng phân loại văn Các từ đặc trưng để biểu diễn văn tiếng Việt, đồng thời, đưa phương pháp xây dựng phân loại văn Tiếng Việt Sử dụng phương pháp KNN Nội dung luận văn bao gồm chương, cụ thể: - Chương I: Trình bày tổng quan khai phá liệu văn toán phân loại văn - Chương II: Trinh bày vấn đề trình tiền xử lý văn tiếng Việt (tách từ lựa chọn đặc trưng, biểu diễn văn bản) - Chương II: Một số phương pháp phân loại truyền thống - Chương IV: Phương pháp phân loại văn dựa cách tiếp cận KNN - Chương V: Chương trình kết thực nghiệm - Chương VI: Kết luận hướng phát triển luận văn Do thời gian hiểu biết hạn chế, nên luận văn nhiều thiếu sót, em mong nhận góp ý thầy bạn, để hồn thiện luận văn ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN Mục đích chương giới thiệu cách tóm tắt vấn đề khai phá liệu văn bản, toán phân loại văn - Khai phá liệu văn gì? - Các bước để xây dựng toán khai phá liệu văn - Bài toán phân loại văn 1.1 Khai phá liệu văn (Text mining) Văn dạng liệu phổ biến nhất, nay, có mặt khắp nơi chung ta thường xuyên bắt gặp hàng ngày Do đó, tốn xử lý văn đặt từ lâu vấn vấn đề hay khai phá liệu văn (text), có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản, dẫn đường văn bản, Các văn tập hợp sơ liệu văn chia làm hai loại: - Dạng khơng có cấu trúc (unstructured): Những văn thông thường mà thường đọc hàng ngày thể dạng ngơn ngữ tự nhiên người khơng có cấu trúc định dạng - Dạng bán cấu trúc (semi- structured): Những văn tổ chức dạng cấu trúc không chặt chẽ thành ghi mà dùng ký hiệu đánh dấu văn thể nội dung văn bản, ví dụ dạng HTML, email, Trong luận văn này, em quan tâm xử lý liệu văn dạng phi cấu trúc (biểu diễn văn dạng tập tin TXT), toán giải theo hướng liệu mở để tương lài áp dụng với mục đích sử dụng khác ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN Có nhiều cách phân lớp lĩnh vực xử lý văn bản, Lewis chia thành hai nhóm lĩnh vực phân lớp văn (TextClàssifition) gồm công việc xác định văn phần văn vào hay nhiều lớp xác định trước hiểu nghĩa văn (Text Understanding) bao gồm công việc phức tạp để xử lý nội dung văn tóm tắt văn (Text Summarization Abstraction), trích chọn thơng tin (Text Extraction), Tuy nhiên, việc phân làm hai lớp không thật rõ ràng, hệ phần mềm, người ta thường kết hợp hai lớp toán hệ tìm kiếm (Search Engine), toán tim kiếm văn (Text Retrievàl), linh vực quan tâm Chẳng hạn hệ tim kiếm Yahoo, Altavíta, Google tổ chức liệu theo nhóm mục, nhóm lại bao gồm nhiều nhóm năm Hệ phần mềm tìm kiếm Altavista, Google, tich hợp thêm chương trình dịch tự động dịch chuyển đổi sang nhiều thứ Tiếng khác cho kết tốt Khai phá văn (Text mining) nhánh khai phá liệu (Data mining), có mục đích phát rút thơng tin, tìm kiếm thơng tin từ tài liệu văn (text documents) Khai phá văn liên quan tới vấn đề như: xử lý ngôn ngữ tự nhiên trích rút thơng tin, tìm kiếm thơng tin, khai phá Web, Text Mining (applied to text data) + Lànguage Engineering 1.2 Các bước khai phá liệu văn Mục đích q trình tiền xử lý văn đưa cách biểu diễn văn thích hợp Các bước trình tiền xử lý văn bao gồm: - Phân tích ngữ pháp/ngữ nghĩa văn bản: tìm từ loại, loại bỏ nhập nhằng ngữ nghĩa, phân tích ngữ pháp - Sinh tập từ (còn gọi túi từ - bag of words): Biểu diễn văn từ văn đó, nhận dạng từ, loại bỏ tư dừng (stop words, tư khơng có ích cho khai phá văn bản) Ví dụ, số từ dừng văn tiếng việt là: và, vậy, tóm lại, nếu, chẳng hạn, ĐỒ ÁN TƠT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN - Lựa chọn từ: Sau loại bỏ từ dừng, trình giảm số chiều việc biểu diễn văn thực cách loại bỏ đặc trưng khơng thích hợp Việc lự chọn đặc trưng văn liên quan đến trọng số từ xuất văn Trọng số từ độ quan trọng, hay hàm lượng thơng tin mà từ mang lại cho văn Nó đại lượng để đo khác biệt văn chứa với văn khác Đại lượng xác định tay hay đánh giá số lần xuất cụm từ văn số lần xuất cụm từ văn khác Số lần xuất từ văn nhiều độ quan trọng văn lớn ngược lại 1.2.1 Khai phá văn bản/dữ liệu Một số toán khai phá văn liệu là: - Phân loại văn (Text Categorization): cho số lớp văn xác định trước, nhiệm vụ phân loại văn là: gán văn vào ( hay số) lớp văn thích hợp dựa vào nội dung văn - Lập nhóm văn (Text Clustering): cho số văn bản, nhiệm vụ lập nhóm văn chia văn thành nhóm thích hợp vào mặt tương tự mặt nội dung văn - Tóm tắt văn (Text Summairzation): Tóm tắt, chắt lọc thơng tin từ (hay nhiều) nguồn để đưa mô tả ngắn gọn, cô đọng thơng tin từ nguồn tài liệu - phát xu hương bật (Emerging Trend Detection): Phát chủ đề quan tâm có ích tương lài - Trả lời câu hỏi: Đưa câu chả lời thích hợp cho câu hỏi (tìm tài liệu thích hợp cho câu hỏi) - 1.2.2 Ứng dụng kết khai phá liệu văn thực tế Ứng dụng kết khai phá liệu văn sử dụng cá kết khai thác văn cho mục đích cụ thể Kết trình khai phá liệu ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN văn sử dụng cho việc trích lọc thơng tin, tóm tắt thơng tin, dịch tự động văn bản, dự đoán xu hướng tương lài, tim kiếm thông tin, phân loại thông tin, Và ứng dụng lại sử dụng công cụ hỗ trợ hệ thống thơng tin khác Ví dụ, chương trình dịch tự động văn hệ tìm kiếm Google dể chuyên dịch văn sang nhiều thứ Tiếng khác Các kết trình phân loại thơng tin, trích lọc thơng tin tìm kiếm văn việc tổ chức, phân loại thơng tin hệ tìm kiếm để mang lại hiệu cao việc tim kiếm thông tin 1.3 Bài toán phân loại văn (Text categorization) 1.3.1 Bài toán phân loại văn Phân loại văn trình gán nhãn văn vào (hay số) chủ đề cho trước, dựa nội dung văn Trong thập kỷ 80 hầu hết cách tiếp cận (ít thiết đặt thao tác) để phân loại văn tự động gồm kỹ thuật điều khiển tay chuyên gia tri thức (Knowledge Engineering- KE), hệ thống chuyên gia có khả đưa định phân loại Hệ chuyên gia bao gồm tập logic định nghĩa tay, cho loại, có dạng: If (DNF formulà) then (category) Mỗi công thức DNF (“Disjiunctive Normal Form”) hợp mệnh đề liên kết, tài liệu phân loại vào category thỏa mãn cơng thức, nghĩa là, thỏa mãn mệnh đề công thức Một ví dụ tiếng cho cách tiếp cận hệ thống CONSTRUE [Hayes et al 1990], xây dựng bở Carnegie Group cho tệp tin Reuters sau đây, ví dụ luật sử dụng CONSTRUE: IF ( (wheat &farm) OR (wheat & commodity) or (bushels & export) or (wheat & wheat & tonnes) or (wheat & winter & soft) ) then WHEAT else WHEAT ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN Điều trở ngại cách tiếp cận hạn chế trình thu nhận tri thức từ tài liệu hệ thống chuyên gia nghĩa là, luật phải định nghĩa tay kỹ sư tri thức với giúp đỡ chuyên gia lĩnh vực nêu tài liệu: tập hợp loại cập nhật, hai nhà chuyên gia lĩnh vực nêu tài liệu: tập hợp loại cập nhật, hai nhà chuyên nghiệp phải can thiệp lại phân loại chuyển hoàn toàn sau phạm vi khác, chuyên gia lĩnh vực phải can thiệp vào công việc phải tập tài liệu hỗn tạp ban đầu Đầu kỷ 90, cách tiếp cận học máy (Machine Learning) để phân loại văn coi tiếng trở thành thống trị, cộng đồng người nghiên cứu (Mitchell[1996]), Theo cách tiếp cận này, trình xử lý quy nạp chung (cũng gọi trình học) xây dựng tự động phần lớp cho loại c quan sát đặc trưng tập hợp tài liệu phân tay vào c hay chuyên gia lĩnh vực này; từ đó, q trình qui nạp thu lươm đặc trưng để phân loại tài liệu (không nhìn thấy) vào c Trong kỹ thuật học máy, tốn phân lớp hoạt động học có giam sát, trình học “giám sát” tri thức phân loại mẫu huấn luyện thuộc chúng Với phương pháp học máy, cố găng phương diên công việc kỹ sư theo hướng xây dựng phân lớp tự động (học) từ tập tài liệu phân loại tay Trong tiếp cận học máy, tài liệu phân loại tay Trong tiếp cận học máy, tài liệu phân lớp trở thành nguồn Trường hợp thuận lợi nhất, chúng có sẵn, q trình phân loại bắt đầu việc học từ tập liệu này, sau thực phân loại tự động với tài liệu khác Trường hợp thuận lợi, khơng có sẵn tài liệu phân loại tay; q trình phân loại động bắt đầu hành động phân loại chọn phương pháp tự động Do đó, cách tiếp cận học máy thuận lợi cách tiếp cận kỹ sư tri thức ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN Các phân lớp xây dựng theo nghĩa kỹ thuật học máy ngày gây ấn tương sâu sắc mức độ hiệu quả, khiến cho phân lớp tự động trở thành lựa trọn tốt để thay phân loại tay (Không phương diện kinh tế) Chúng ta hình dung cơng việc tốn phân loại văn dựa kỹ thuật học máy sau: Cách tiếp cận học máy dựa tập liệu có sẵn từ dầu } ={d , , d , D tập tất tài liệu phân lớp trước, d thứ j, Tập lớp C= {c , , c C }, c kí hiệu lớp thứ i Hàm {T, F} với < d , c> văn Một tài liệu d ( d , c ) = T, làu mẫu âm :D mẫu dương c ( d , c ) = F Với cách phân loại đưa ra, người ta mong muốn đánh giá hiệu chúng Bởi vậy, trước xây dựng phân loại chúng Bởi vậy, trước xây dựng phân loại người ta chia tập liệu ban đầu thành tập hợp - Tập huấn luyện (training (- and- validation) set) Tr = {d , , d Phân lớp cho phân loại C = {c , , c } } xây dựng quy nạp dựa quan sat đặc trưng tài liệu Tr - Tập kiểm tra (test set) Te = {d hiệu phân lớp Mỗi d định giá trị T , d }, sử dụng để kiểm tra đưa vào hệ thống phân lớp để xác ( d , c ) so sánh giá trị với định chuyên gia Hiệu phân lớp dựa phù hợp ( d , c ) ( d , c ) ( d , c ) Số tài liệu tập luỵên tập kiểm tra thường chọn theo tỷ lệ tương ứng 70% 30% Trong đó, Tr Te = , điều kiện bi vi phạm kết đánh giá hiệu mơ hình yếu tố khách quan, khoa học Phân loại văn chủ yếu dựa chế rút trích thơng tin Kỹ thuật trích rút thơng tin sử dụng giai đoạn trình phân loại văn bản: 1) Đánh số: Các văn dạng thơ chuyển sang dạng biểu diễn để xử lý Quá trình gọi trình biểu diễn văn bả, dạng biểu ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN diễn văn bản, dạng biểu diễn văn phải có cấu trúc dễ dàng xử lý Chi tiết việc biểu diễn văn trình bày chương 2) Kỹ thuật: Kỹ thuật phương pháp học để phân loại văn bản, thường sử dụng q trình xây dựng quy nạp phân loại 3) Đánh giá: đánh giá hiệu phân lớp thực Sự khác cách tiếp cận trước phần lớn để giải (2) số đề xuất sử dụng (1) (3) Hầu hết phương pháp phân loại văn dựa kỹ thuật học máy dựa vào tần suất (số lần xuất hiện) từ cụm từ văn bản, dựa vào tần suất xuất từ văn tần suất văn (số văn tập liệu huấn luyện có chứa từ đó) Độ xác kết tách từ có ảnh hưởng lớn đến kết phân loại, có kết phân loại tốt khơng tách từ văn Bởi vậy, vấn đề quan trọng phân loại văn phải tách xác từ văn Các văn viết ngôn ngữ khác có đặc trưng riêng ngơn ngữ khơng có phương pháp chung để tách từ văn viết ngôn ngữ khác Trong chương sau, em giới thiệu số phương pháp tách từ dùng cho văn tiếng Việt, phục phụ cho bước tiền xử lý phân loại văn Tóm lại, toán phân loại văn dựa kỹ thuật học máy gồm bước sau: - Chuẩn bị tập liệu huấn luyện (Training Set) tập liệu kiểm tra (Test set) - Tách từ văn - Biểu diễn văn - Phương pháp học máy để phân loại văn - Đánh giá hiệu phương pháp học 1.3.2 Một Số phương pháp phân loại văn ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN Có nhiều phương pháp phân loại văn đề xuất, khác phương pháp thuật toán quy nạp Nhiều thực nghiệm cho thấy phương pháp như: định (decision tree), K- làng giềng gần (K- nearest neighbos), phương pháp sử dụng vector hỗ trợ (Support Vector Machines) phương pháp có hiệu phân loại cao Việt Nam số nghiên cứu sử dụng định, k- láng giềng gần để phân loại văn tiếng Việt - Phương pháp định: Ý tưởng phương pháp xây dựng nhị phân định gồm nút cung trọng số liên kết nút cụ thể: Các nút gán nhãn từ, nhãn cung tương ứng với trọng số từ tài liệu mẫu, nhãn tương ứng với nhãn lớp Cho tài liệu d , ta thực so sánh nhã cung xuất phát từ nút (tương ứng với từ đó) với trọng số từ d , để định nút duyệt Quá trình lặp từ nút gốc cây, nút duyệt Kết thúc trình này, nhãn nút nhãn lớp gán cho văn - Phương pháp k- láng giềng gần nhất: Tư tưởng cảu phương pháp tình độ phù hợp văn xét với nhóm chủ đề dựa k văn mẫu có độ tương tự gần - Phương pháp Support Vector Machines: Phương pháp suất phát từ suy nghĩ, làm để tối thiểu lỗi trình kiểm tra (test orror minimization ) Bởi vậy, ý tương Support Vectort Machines (SVNs) tìm siêu phăng tối ưu để phân chia tập liệu huấn luyện cho văn thuộc lớp c thuộc phía siêu phẳng, văn không thuộc lớp c thuộc phía bên siêu phẳng Một siêu phẳng gọi tối ưu khoảng cách từ mẫu gần đến siêu phẳng lớn Các phương pháp định, k- láng giềng gần có ưu điểm dễ hiểu, dễ xây dựng mặt thuật toán, định dựng phức tạp vector dùng để biểu diễn văn có số chiều q lớn, cịn với k- láng ĐỒ ÁN TÔT NGHIỆP 10 Phân loại văn tiếng Việt vi gii thut K-NN tiền xử lý cách tăng thêm từ có ý nghĩa đợc phát 5.2.3.3 Xác định từ khóa văn Để phân tích từ, trớc hết ta phải xác định văn đâu từ Từ đơn vị có sẵn ngôn ngữ, đợc ngầm định đợc ngời coi diện từ tất nhiên Hầu nh quy tắc cấu tạo từ Do ta phải dùng phơng pháp so sánh từ đề xuất trình phân tách từ văn với từ thực tế kiểm nghiệm từ có không Vì số lợng từ vựng tiếng Việt vô hạn nên ta lu vào từ điển từ Các tõ míi ph¸t sinh cã thĨ tiÕp tơc bỉ xung vào từ điển từ Một vấn đề việc kiểm tra từ lựa chọn độ dài tối đa từ ghép Trong tiếng Việt, từ đơn có từ ghép đôi, ghép baNếu ta chọn giới hạn độ dài từ ghép lớn nhiều thời gian kiểm tra tổ hợp từ dài không cần thiết Còn chọn ngỡng nhỏ từ Vì vấn đề đặt phải lựa chọn giới hạn cho phù hợp tránh làm mÊt tõ ĐỒ ÁN TÔT NGHIỆP 67 Phân loại văn bn ting Vit vi gii thut K-NN 5.3 Cài đặt thử nghiệm đánh giá kết 5.3.1 Ci đặt chơng trình Chơng trình đợc cài đặt ngôn ngữ Java, lý em chọn ngôn ngữ tốc độ xử lý nhanh, có khả hỗ trợ cho nhiều loại font văn lấy nhiều trang web 5.3.2 Lựa chọn tính trọng số từ đặc trng văn tiếng Việt Kết phân tích, đánh giá hai phơng pháp tách từ chơng 2, cho thấy phơng pháp tách từ sử dụng mô hình Markov ẩn cho kết phân loại xác Nên em sử dụng kết tách từ trrong văn tiếng Việt phơng pháp nh đầu vào toán phân loại Số lợng từ từ điển tiếng Việt lớn (hơn 70 000 từ), nhng tất từ có mặt từ điển xuất tập văn huấn luyện Ngợc lại, có nhiều từ xuất văn bản, có ý nghĩa quan trọng việc phân loại văn bản, nhng lại từ điển, ví dụ nh unesco, HTX (hợp tác xÃ), Euro, France 98, world cup, Do để giảm số chiều trình tính toán, tăng chất lợng từ đặc trng, em xin đề xuất phơng pháp để giảm số chiều biểu diẽn văn tiếng Việt nh sau: ÁN TÔT NGHIỆP 68 Phân loại văn tiếng Việt vi gii thut K-NN - Bớc 1: Vì dấu câu (nh, () ? ), số, phụ từ, trợ từ từ xuất hầu hết văn nên không đợc coi đặc trng để phân biệt văn với văn khác Do đó, với văn chọn từ, trợ từ, số hay dấu câu Tập tất từ xuất cac văn huâns luyện mà phụ từ, trợ từ, số hay dấu câu đợc gọi tập từ điển ban đầu, kí hiệu Dr - Bớc 2: Với số lợng văn lớn, từ có tần xuất văn thấp không đợc coi đặc trng để biểu diễn văn toán phân loại văn Bởi bớc này, thực lựa chọn tập từ đặc trng T, từ tập từ điển ban đầu Dr nh sau: T = {t Dr\#t k IG (t, c) }, #t số lần st hiƯn cđa t toµn bé tËp hn lun, IG (t, c) lợi nhuận thôngg tin từ t phân loại c (tính theo công thc Information Gain), k ngỡng tập liệu huấn luyện, xuất t ngỡng để đánh giá lợi nhuận thông tin từ t phân loại c Tập từ T, đ ợc coi đặc trng để biểu diễn văn tập liệu huấn luyện nh tập liệu kiểm tra - Bớc 3: Mỗi văn d đợc biểu diễn tơng ứng với vector x = (w ,w , , w văn d , (t ĐỒ ÁN TƠT NGHIỆP ), ®ã w lµ träng sè cđa tõ t ) 69 Phân loại văn tiếng Việt với giải thuật K-NN NhËn xÐt: Quá trình huấn luyện để lựa tron từ đặc trng, biểu diễn văn huấn luyện đợc thực lần, nhng kết phải dùng đợc cho nhiều tập liệu kiểm tra khác Hơn nữa, từ tập T đợc dùng làm đặc trng để biểu diễn văn tập liệu kiểm tra Bởi vậy, chơng trình em, trình mô tả lại văn huấn luyện, sử dụng đặc trng để biểu diễn văn huấn luyện, sử dụng từ đặc trng T từ tập văn huấn luyện, sử dụng từ đặc trng để biểu diễn văn huấn luyện Modul thứ 2, sử dụng từ đặc trng T để biểu diễn văn tập huấn luyện Cụ thể cách thực hai modul nh sau: Modul 1: Input: Tập văn tập huấn luyện đà đợc tách từ, ngỡng k để xác định tần xuất văn từ tập liệu huấn luyện, ngỡng để đánh giá lợi nhuận thông tin từ tập văn huấn luyện Thuật toán: Bớc1: Với văn bản, đọc từ văn đếm số lần xuất từ (mà phụ từ, trợ từ, dấu câu, số, ) văn bản, lu từ vào danh sách từ điển ban đầu Dr Bớc2: Chọn tập đặc trng T N TễT NGHIP 70 Phân loại văn tiếng Việt với giải thuật K-NN T={t Dr\#t k IG (t, c) }, #t tần số xuất cảu t toàn tập liệu huấn luyện IG (t, c) lợi nhậu thông tin từ t phân loại c (tính theo công thức Information Gain), k ngìng chØ sè lÇn xt hiƯn cđa t tËp liệu huấn luyện, ngỡng để đánh giá lợi nhuận thông tin từ t phân loại c Bíc 3: TÝnh träng sè cđa c¸c tõ t T văn tập huấn luyện, công thức (2.10) Mỗi văn d đợc biểu diễn băng vector x = (w ,w , , w ), w trọng số từ t văn d Bớc 4: Lu lại tập từ đặc trng T, tập vector biểu diễn văn huấn luyện VTr Modul 2: Input: Các văn tập liệu kiểm tra đà đợc tách từ Tập từ đặc trng T ={t , t , t } (kÕt qu¶ lùa chän cđa modul) Output: Tập vector biểu diễn văn tập liệu kiểm tra VTs thuật toán: Bớc 1: với văn đếm số lần xuất từ t T văn Bớc 2: Tính trọng số từ t công thức (2.10) Mỗi văn d T văn đợc biĨu diƠn b»g mét vector x = (w ,w , , w ), w trọng số từ t văn d Bớc 3: Lu lại tập vector biểu diễn văn kiểm tra VTs ĐỒ ÁN TÔT NGHIỆP 71 Phân loại văn bn ting Vit vi gii thut K-NN Đánh giá: Sau thực modul 1, thuật ngữ T đợc giảm đáng kể so với Dr Ví dụ, thực nghiệm em với 700 văn huấn luyện, số đặc trng T 1336 từ, số từ Dr 26886 từ Vì số chiều T đợc giảm nhiều, nên việc biểu diễn văn kiểm tra modul 2, đợc thực đơn giản, góp phần tối thiểu thời gian phân loại văn tăng tốc độ xác chơng trinh phân loại 5.3.3 Phân loại văn sử dụng phơng pháp K- NN Phân loại văn sử dụng phơng pháp K- NN nhiều thời gian giai đoạn huấn luyện, đà có kết qủa trình huấn luyên việc định phân loại văn kiểm tra cần công thức tính toán đơn giản Vì vậy, để giảm thời gian thực phân loại văn bản, chung đề xuất mô hình phân loại văn sử dụng phơng pháp KNN gôm hai modul, liệu đầu vào hai modul kết modul modul 2, đà trình bày phần 1.1 5.3.4 Phơng pháp đánh giá hiệu phân loại Giả sử: TP: số văn đợc gán nhÃn 1và việc đợc gán nhÃn FP: số văn đợc gán nhÃn nhng việc gán nhÃn sai FN: số văn đợc gán nhÃn - nhng việc gán nhÃn sai TN: số văn đợc gán nhÃn - việc gán nhÃn N TễT NGHIP 72 Phân loại văn tiếng Việt với giải thuật K-NN Hiệu (hay độ xác ) hệ thống phân loại, đợc đánh giá công thức sau: Precision Recall= F- score= (5 1) (5 2) (5 3) 5.4 Kết qủa thực nghiệm Phần em tiến hành sè thùc nghiƯm víi nhiỊu bé sè vµ nhiỊu bé liệu kiểm tra khác nhau, để kiểm tra đánh giá hiệu thực chơng chình phân loại 5.4.1 Phân loại văn khoa học: Với liệu gồm 50 văn 35 văn khoa học Kết phân loại nh sau: Lần 1: Thực lựa chọn tất từ có tần xuất văn thấp (k=1) ngỡng lợi nhuận cho thông tin từ 005, lựa chọn đợc 4500 từ đặc trng kết gán nhÃn cho 48 văn kiểm tra là: Precision = 7059 Recall = F- score 828 LÇn 2: Thùc hiƯn lùa chọn tất từ có tần xuất văn thấp l1 (k=2) ngỡng lợi nhuận thông tin từ 005, lựa chọn đợc 1912 t đặc trng thực gán nhÃn cho 48 văn tét giống lần 1, kÕt qu¶ nh sau: Precision = 8846 ĐỒ ÁN TÔT NGHIỆP 73 Phân loại văn tiếng Việt với giải thuật K-NN Recall = 9583 F- score 92 So sánh kết lần 1, em thấy, chất lợng phân loại đợc cải tiến đáng kể Điều chứng tỏ việc lựa chất lợng từ đặc trng đợc chọn lân tốt lần 1, việc giảm số chiều biểu diễn văn với ngữ độ xác chơng trình phân loại văn Với liệu gồm 392 văn bản, có 262 văn khoa học 130 văn khhoa häc, víi ngìng v=0 001, qua nhiỊu lÇn thùc hiƯn em thây phân loại đạt hiệu cao trờng hợp tỷ lệ văn huấn luyện 180 văn thuộc lớp khoa học 100 văn không thuộc lớp khoa học, hệ số v=0 001, ngỡng xuất từ 3, ngỡng thuận lợi cho thông tin từ 1.Với tỷ lệ thực lần huấn luyện kiểm tra kết Kết cụ thể nh sau: Bảng Kết phân loại văn khoa học Lần Lần Lần Lần Lần Lần Trung bình Precisio n 9625 9518 975 975 9878 9754 Recall 9625 9634 9512 9512 9024 9878 953 Fscore 9625 9576 963 963 9487 9878 9573 ĐỒ ÁN TÔT NGHIỆP 74 Phân loại văn tiếng Việt với giải thuật K-NN KÕt qu¶ cho thấy độ xác phân loại với nhóm văn khoa học l cao 5.4.2 Phõn loi văn thể thao Chúng thực huấn luyện kiếm tra tập liệu gồm 1000 văn (500 văn thuộc lớp thể thao 500 văn không thuộc lớp thể thao), với hệ số v=0.001.Chúng chia tập văn thành tập, tập huấn luyện VTr tập kiểm tra VTs, theo tỉ lệ VTr: VTs=70: 10 Qua nhiều lần thực nghiệm thấy kết phân loại đạt độ xác cao tỷ lệ liệu tập huấn luyện 1: 1, nghĩa số văn thuộc lớp văn thể thao số văn không thuộc lớp thể thao tập huấn luyện Cụ thể, lần thực nghiệm, em sử dụng 350 văn thuộc lớp thể thao 350 văn không thuộc lớp thể thao để huấn luyện sử dụng 300 văn lại để kiểm tra kết thực nghiệm chúng em là: Bảng 5.2 Kết phân loại văn thể thao Lần Lần Lần Lần Lần Precision 0.9136 0.8315 0.8352 0.8655 0.8167 0.8525 Recall 0.9867 0.9867 0.98 0.9867 0.98 F- score 0.9487 0.9024 0.9018 0.9221 0.8909 0.9132 ĐỒ ÁN TƠT NGHIỆP Trung bình 0.984 75 Phân loại văn tiếng Việt với giải thuật K-NN Cũng với liệu chúng em thực với giá trị khác v, kết sau: (với giá trị v, kết tính trung bình liệu tương ứng với lần thực nghiệm 1, 2, ,6) Bảng 5.3 Kết phân loại văn thể thao với số giá trị v v=0.001 v=0.03 v=0.2 v=0.5 v=0.7 v=0.9 v=1 Rrecision 0.8504 0.8523 0.907 0.9323 0.95295 0.95795 0.9578 Recall 0.9834 0.98 0.9734 0.9634 0.9434 0.9369 0.9369 F- score 0.912 0.9117 0.939 0.9476 0.9481 0.9315 0.9315 Nhận xet: Từ bảng ta thấy, giá trị v tăng giá trị Recall giảm dần nhìn chung độ xác đạt cao v [0.5,0.7] Qua nhiều thực nghiệm, chúng em thấy việc chọn tỷ lệ số văn gán nhãn với số văn gán nhãn - tập liệu huấn luyện có ảnh hưởng nhiều đến độ xác chương trình phân loại văn Ngoài chất lượng phân loại văn phụ thuộc vào tham số lụa chọn v 5.5 Kết luận Chương chúng em chình bày số kết thực nghiệm chương trình phân loại văn phương pháp K- NN Chung em chúng em thực số thực nghiệm thấy phương pháp lựa chọn từ đặc trưng chúng em cải thiện đáng kể chất lượng phân loại Trong chương chúng em đưa số nhận xét lựa chọn tập liệu để huấn luyện, để đạt hiệu phân loại văn cao ĐỒ ÁN TÔT NGHIỆP 76 Phân loại văn tiếng Việt với giải thuật K-NN CHƯƠNG VI: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 6.1 KÕt luËn Trong luận văn chúng em trình bày bước cần thực để xây dựng hệ thông phân loại văn dựa cách tiếp cận K- Nearest Neighbor Xây dựng chương trình phân loại văn tiếng Việt sử dụng phương pháp K- Nearest Neighbor Cụ thể : Chúng em trình bay tách từ văn tiếng Việt, bước trích chọn đặc đặc trưng để biểu diễn văn bản, làm để lựa chọn từ đặc trưng tốt Với phương pháp K- Nearest Neighbor chúng em trình bày chi tiết mơ thuật tốn để xây dựng chương trình phân loại văn Đồng thời đưa số đánh giá phương pháp K- Nearest Neighbor, so sánh độ xác phân loại văn với số văn khác Chúng em đề xuất phương pháp lựa chọn từ đặc trưng để biểu diễn văn tiếng Việt nhằm tăng tốc độ xử lý, tăng độ xác thực phân loại văn Kết thực nghiệm cho thấy phương pháp chúng em có khả lựa chọn đặc trưng tốt để biểu diễn văn giảm đáng kể số chiều văn mà không gây thông tin, chí cịn tăng độ xác thực phân loại văn Chúng em đưa phương pháp xây dựng hệ thống phân loại văn dựa cách tiếp cận K- Nearest Neighbor Với Phương pháp này, thời gian để đưa định phân loại không đáng kể, nhiều thời gian để huấn luyện, mà thực phân loại nhiều lần với nhiều văn khác ĐỒ ÁN TÔT NGHIỆP 77 Phân loại văn tiếng Việt với giải thuật K-NN Cuối cùng, xây dựng chương trình thực nghiệm để kiểm nghiệm đánh giá hiệu phương pháp phân loại văn K- Nearest Neighbor văn tiếng Việt Chúng em thử nghiệm chương trình nhiều lần với nhiều liệu khác Với liệu gồm 1000 văn (7000 văn huấn luyện 300 văn kiểm tra), độ xác chương trình phân loại đạt 90% Kết cho thấy chương trình phân loại văn chúng tơi, có khả phân loại văn với độ xác cao 6.2 Hướng phát triển luận văn Hoàn thiện chương trình phân loại văn chương V để sử dụng vào thực tiễn phân loại văn tự động quan hành nhà nước, tự động phân loại, tổ tìm kiếm thơng tin tiếng Việt Web, Trong văn nói chung văn tiếng Việt nói riêng xuất nhiều từ đồng nghĩa từ gần nghĩa, có cách để đánh giá độ tương tự giá trị thông tin từ hiệu phân loại văn cao Bởi vậy, hướng nghiên cứu luận văn nghiên cứu phương pháp đánh giá độ tương tự giá trị thông tin từ đồng nghĩa, từ gần nghĩa để áp dụng cho toán phân loại văn Sử dụng kết phân loại văn để nghiên cứu bìa tốn khai phá văn khác như : tóm tắt văn bản, dịch tự động văn bản, Xung quanh toán phân loại văn nói riêng khai phá liệu nói chung có nhiều vấn đề chưa giải giải chưa triệt để Luận văn bước khởi đầu em làm quen nghiên cứu toán khai phá liệu văn bản, đặc biệt văn Tiếng Việt Em mong muốn nhận đóng góp thây cô vá bạn bè người quan tâm lĩnh vực này, để em nghiên cứu toán khai phá liệu văn tiếng Việt ĐỒ ÁN TÔT NGHIỆP 78 Phân loại văn tiếng Việt với giải thuật K-NN MỤC LỤC Trang MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN 1.1 Khai phá liệu văn (Text mining) 1.2 Các bước khai phá liệu văn 1.2.1 Khai phá văn bản/dữ liệu 1.2.2 Ứng dụng kết khai phá liệu văn thực tế 1.3 Bài toán phân loại văn (Text categorization) .6 1.3.1 Bài toán phân loại văn 1.3.2 Một Số phương pháp phân loại văn 10 1.4 Kết chương .11 CHƯƠNG II: TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT .12 2.1 Một số phương pháp tách từ văn Tiếng Việt 12 2.1.1 Các đặc trưng văn 12 2.1.2 Một số đặc trưng Tiếng việt 13 1.2.2.1 Đặc điểm từ 13 2.1.3 Một số Phương pháp tách từ 19 2.1.3.1 Xây dựng Ơtơmát để đốn nhân từ 20 2.2 Phương pháp biểu diễn văn .33 2.2.1 Các kỹ thuật trích chọn đặc trưng văn .34 2.2.1.1 Loại bỏ từ dừng 34 2.2.1.2 Giảm số chiều 35 2.2.2 Một số phương pháp biểu diễn văn mơ hình khơng gian vector 39 2.2.2.2 Mơ hình tần suất .40 2.2.2.3 Phương pháp vector thưa 42 2.3 Kết chương .43 CHƯƠNG III: MỘT SỐ PHƯƠNG PHÁP PHÂM LOẠI VĂN BẢN 44 3.1 Cây định 44 ĐỒ ÁN TÔT NGHIỆP 79 Phân loại văn tiếng Việt với giải thuật K-NN 3.1.1 Thuật toán ID3 47 3.1.2 Cách lựa chọn thuộc tính tốt 48 3.1.3 Hiện tượng vượt ngưỡng 49 3.2 Phương pháp máy véc tơ hộ trợ (Support Vector Machine- SVM) .50 CHƯƠNG IV: PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 52 K- LÁNG GIỀNG GẦN NHẤT (K- Nearest Neighbor) 52 4.1 Lý thuyết 52 4.1.1 Gán nhãn văn gần .53 4.1.2 Gán nhãn theo số dông 53 4.1.3 Gán nhãn theo độ phù hợp chủ đề 54 4.2 Từ khóa 54 4.2.1 Từ khoá gì? 54 4.2.2 Ph¸t hiƯn tõ kho¸ 55 4.3 Bảng tần suất 55 4.3.1 Giíi thiƯu vỊ b¶ng tần suất 55 4.3.1.1 Khái niệm 55 4.3.1.2 Mục đích bảng tần suất 56 4.3.2 Cấu tạo bảng tần suất .56 4.3.2.1 Danh s¸ch c¸c tõ, kÌm theo từ từ loại, tần số thứ hạng Các từ đợc xếp theo thứ tự giảm dần 56 4.3.2.2 Danh sách cho phép ta tra cứu dễ dạng từ xem đợc dùng nhiều hay ít, độ phân bố 56 4.3.2.3 Độ phân bố .56 4.3.2.4 C¸c chØ sè kh¸c 57 4.3.2.5 C¸ch danh s¸ch kh¸c .58 4.3.3 Từ điểm bảng tần suất tiếng Việt 58 4.3.3.1 Trong bảng tần suất tiếng Việt thống kê 524 500 đơn vị có: .58 4.3.3.2 Sù phân bố từ thuộc vùng tần số cao 58 4.3.3.3 Sự phân bố từ thuộc vùng tÇn sè thÊp 59 ĐỒ ÁN TƠT NGHIỆP 80 Phân loại văn tiếng Việt với giải thuật K-NN 4.3.4 Tần số âm tiết 59 CHƯƠNG V: CàI ĐặT THử NGHIệM Và ĐáNH GIá KếT QUả 61 5.1 Mô hình tổng thể hệ thèng 61 5.1.1 C¸c thành phần thiết kế hệ thống 61 5.1.2 Mơc ®Ých 62 5.2 TiỊn xư lý d÷ liƯu 62 5.2.1 Yêu cầu tiỊn xư lý d÷ liƯu .62 5.2.2 Tổ chức liệu từ điển tiếng Việt 62 5.2.2.1 Tỉ chøc d÷ liƯu .62 5.2.2.2 Tæ chøc tõ ®iÓn 64 5.2.3 Công đoạn cho tiền xử lý .64 5.2.3.1 Loại bỏ từ mang thông tin 64 5.2.3.2 Tính toán tần suất từ văn 65 5.2.3.3 Xác định từ khóa văn .65 5.3 Cài đặt thử nghiệm đánh giá kết 66 5.3.1 Ci đặt chơng trình 66 5.3.2 Lùa chän vµ tÝnh träng sè từ đặc trng văn tiếng Việt 66 5.3.4 Ph¬ng pháp đánh giá hiệu phân loại .69 5.4 KÕt qđa thùc nghiƯm 69 5.4.1 Phân loại văn khoa học: 69 5.4.2 Phân loại văn thể thao .71 5.5 Kết luận 72 CHƯƠNG VI: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 73 6.1 KÕt luËn 73 6.2 Hướng phát triển luận văn .74 ĐỒ ÁN TÔT NGHIỆP 81 ... giá hiệu phương pháp học 1.3.2 Một Số phương pháp phân loại văn ĐỒ ÁN TÔT NGHIỆP Phân loại văn tiếng Việt với giải thuật K-NN Có nhiều phương pháp phân loại văn đề xuất, khác phương pháp thuật... lý văn đặt từ lâu vấn vấn đề hay khai phá liệu văn (text), có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản, dẫn đường văn bản, Các văn tập hợp sơ liệu văn chia làm hai loại: ... toán phân loại văn (Text categorization) 1.3.1 Bài toán phân loại văn Phân loại văn trình gán nhãn văn vào (hay số) chủ đề cho trước, dựa nội dung văn Trong thập kỷ 80 hầu hết cách tiếp cận (ít

Ngày đăng: 16/02/2023, 09:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w