Đồ án tốt nghiệp - Phân loại văn bản tiếng Việt với giải thuật K-NN

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	71
Dung lượng	1,51 MB

Nội dung

Trong những năm gần đây phân loại văn bản đã trở thành một kỹ thuật then chốt để tổ chức thông tin trực tuyến. Nó có thể được sử dụng để tổ chức cơ sở dữ liệu văn bản, lọc thư điện tử tìm kiếm thông tin liên quan đến Web, hoặc để chỉ dẫn người dùng tìm kiếm thông tin qua các siêu văn bản hypertext). Mà ở đó, việc phân loại văn bản bằng tay là không thể thực hiện được, hoặc thực hiện với chi phí tốn kém nhất. Do đó, cùng với sự phát triển của thông tin trực tuyến, một yêu cầu cấp thiết đặt ra là cần phải xây dựng hệ thống phân loại văn bản tự động. Cho đến nay, đã có nhiều đề xuất xây dựng bài toán phân loại văn bản tự động như Neive Bayes, Bayes net, K- láng giêng gần nhất, cây quyết định, mạng nơron, Support Vector Machines,... Các phương pháp phân loại này, đạt được những thành đáng kể đối vớ các văn bản tiếng anh, Pháp, Nhật, Trung Quốc đã được ứng dụng thực tế như trong các tìm kiếm của Yahoo, Altavista, Google,... Trong đó, K- láng giềng gần nhất là một cách tiếp cận cho độ chính xác của phân loại văn bản cao hơn hẳn các phương pháp phân loại khác. Ơ Việt Nam, cũng đã có nhiều nghiên cứu về lĩnh vực xử lý văn bản tiếng Việt, như đề tìa nghiên cứu về Máy dịch tự động Anh –Việt (EVTRan) của viện nghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc của viện công nghệ thông tin và nhiều luận văn tôt nghiệp cao học đại học khác. Nhưng nghiên cứu về phân loại văn bản tiếng việt chưa nhiều và kết quả con hạn chế. Bởi vậy, trong luận văn này em sẽ tập trung nghiên cứu bài toán phân loại văn bản Tiếng Việt dựa trên cách tiếp cận K- láng giêng gần nhất. Một vấn đề liên quan mật thiết đến tốc độ xử lý cũng như độ chính xác của quá trình phân loại số chiều của vector biểu diễn văn bản. Nếu dùng các từ trong từ điển làm đặc trưng để biểu diễn văn bản thì mỗi văn bản tiếng Việt được biểu diễn bằng một vector có hơn 70 nghìn chiều (tương đương với số từ trong tư điển tiếng Việt). 70 nghìn là con số quá lớn khi ta có đến hàng triệu văn bản cần xử lý trong quá trình phân loại. Để tăng tốc độ xử lý và độ chính xác của kết quả phân loại văn bản, trong luận văn này em xin đề xuất một phương pháp xây dựng phân loại văn bản. Các từ đặc trưng để biểu diễn văn bản tiếng Việt, đồng thời, cũng đưa ra phương pháp xây dựng phân loại văn bản Tiếng Việt Sử dụng phương pháp KNN.

Phân loại văn bản tiếng Việt với giải thuật K-NN MỞ ĐẦU Trong những năm gần đây phân loại văn bản đã trở thành một kỹ thuật then chốt để tổ chức thông tin trực tuyến. Nó có thể được sử dụng để tổ chức cơ sở dữ liệu văn bản, lọc thư điện tử tìm kiếm thông tin liên quan đến Web, hoặc để chỉ dẫn người dùng tìm kiếm thông tin qua các siêu văn bản hypertext). Mà ở đó, việc phân loại văn bản bằng tay là không thể thực hiện được, hoặc thực hiện với chi phí tốn kém nhất. Do đó, cùng với sự phát triển của thông tin trực tuyến, một yêu cầu cấp thiết đặt ra là cần phải xây dựng hệ thống phân loại văn bản tự động. Cho đến nay, đã có nhiều đề xuất xây dựng bài toán phân loại văn bản tự động như Neive Bayes, Bayes net, K- láng giêng gần nhất, cây quyết định, mạng nơron, Support Vector Machines, Các phương pháp phân loại này, đạt được những thành đáng kể đối vớ các văn bản tiếng anh, Pháp, Nhật, Trung Quốc đã được ứng dụng thực tế như trong các tìm kiếm của Yahoo, Altavista, Google, Trong đó, K- láng giềng gần nhất là một cách tiếp cận cho độ chính xác của phân loại văn bản cao hơn hẳn các phương pháp phân loại khác. Ơ Việt Nam, cũng đã có nhiều nghiên cứu về lĩnh vực xử lý văn bản tiếng Việt, như đề tìa nghiên cứu về Máy dịch tự động Anh –Việt (EVTRan) của viện nghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc của viện công nghệ thông tin và nhiều luận văn tôt nghiệp cao học đại học khác. Nhưng nghiên cứu về phân loại văn bản tiếng việt chưa nhiều và kết quả con hạn chế. Bởi vậy, trong luận văn này em sẽ tập trung nghiên cứu bài toán phân loại văn bản Tiếng Việt dựa trên cách tiếp cận K- láng giêng gần nhất. Một vấn đề liên quan mật thiết đến tốc độ xử lý cũng như độ chính xác của quá trình phân loại số chiều của vector biểu diễn văn bản. Nếu dùng các từ trong từ điển làm đặc trưng để biểu diễn văn bản thì mỗi văn bản tiếng Việt được biểu diễn bằng một vector có hơn 70 nghìn chiều (tương đương với số từ trong tư điển tiếng Việt). 70 nghìn là con số quá lớn khi ta có đến hàng triệu văn bản cần ĐỒ ÁN TÔT NGHIỆP 1 Phân loại văn bản tiếng Việt với giải thuật K-NN xử lý trong quá trình phân loại. Để tăng tốc độ xử lý và độ chính xác của kết quả phân loại văn bản, trong luận văn này em xin đề xuất một phương pháp xây dựng phân loại văn bản. Các từ đặc trưng để biểu diễn văn bản tiếng Việt, đồng thời, cũng đưa ra phương pháp xây dựng phân loại văn bản Tiếng Việt Sử dụng phương pháp KNN. Nội dung luận văn bao gồm 6 chương, cụ thể: - Chương I: Trình bày tổng quan về khai phá dữ liệu văn bản và bài toán phân loại văn bản. - Chương II: Trinh bày các vấn đề của quá trình tiền xử lý văn bản tiếng Việt (tách từ lựa chọn đặc trưng, biểu diễn văn bản). - Chương II: Một số phương pháp phân loại truyền thống. - Chương IV: Phương pháp phân loại văn bản dựa trên cách tiếp cận KNN. - Chương V: Chương trình kết quả thực nghiệm. - Chương VI: Kết luận và hướng phát triển của luận văn. Do thời gian và hiểu biết còn hạn chế, nên luận văn còn nhiều thiếu sót, em rất mong nhận được sự góp ý của thầy cô và các bạn, để hoàn thiện luận văn hơn nữa. ĐỒ ÁN TÔT NGHIỆP 2 Phân loại văn bản tiếng Việt với giải thuật K-NN CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN Mục đích của chương này là giới thiệu một cách tóm tắt về vấn đề khai phá dữ liệu văn bản, bài toán phân loại văn bản. - Khai phá dữ liệu văn bản là gì? - Các bước để xây dựng bài toán khai phá dữ liệu văn bản. - Bài toán phân loại văn bản 1.1. Khai phá dữ liệu văn bản (Text mining) Văn bản là một trong những dạng dữ liệu phổ biến nhất, hiện nay, nó có mặt ở khắp mọi nơi và chung ta thường xuyên bắt gặp hàng ngày. Do đó, các bài toán xử lý văn bản đã được đặt ra từ khá lâu và cho đến nay vấn là một trong những vấn đề hay trong khai phá dữ liệu văn bản (text), trong đó có những bài toán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản, hoặc dẫn đường văn bản, Các văn bản được tập hợp trong cơ sơ dữ liệu văn bản có thể chia làm hai loại: - Dạng không có cấu trúc (unstructured): Những văn bản thông thường mà chúng ta thường đọc hàng ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và nó không có một cấu trúc định dạng nào. - Dạng bán cấu trúc (semi- structured): Những văn bản được tổ chức dưới dạng cấu trúc không chặt chẽ thành bản ghi mà dùng các ký hiệu đánh dấu văn bản vẫn thể hiện được nội dung của văn bản, ví dụ như các dạng HTML, email, Trong luận văn này, em chỉ quan tâm xử lý dữ liệu văn bản ở dạng phi cấu trúc (biểu diễn văn bản dưới dạng tập tin TXT), bài toán được giải quyết theo hướng dữ liệu mở để tương lài có thể áp dụng với các mục đích sử dụng khác nhau. ĐỒ ÁN TÔT NGHIỆP 3 Phân loại văn bản tiếng Việt với giải thuật K-NN Có nhiều cách phân lớp các lĩnh vực trong xử lý văn bản, Lewis đã chia thành hai nhóm lĩnh vực chính là phân lớp văn bản (TextClàssifition) gồm các công việc xác định văn bản hoặc một phần của văn bản vào một hay nhiều lớp xác định trước và hiểu nghĩa văn bản (Text Understanding) bao gồm các công việc phức tạp hơn để xử lý nội dung của văn bản như tóm tắt văn bản (Text Summarization hoặc Abstraction), trích chọn thông tin (Text Extraction), Tuy nhiên, việc phân làm hai lớp cũng không thật rõ ràng, trong các hệ phần mềm, người ta thường kết hợp hai lớp bài toán trên như trong hệ tìm kiếm (Search Engine), hoặc trong bài toán tim kiếm văn bản (Text Retrievàl), một trong những linh vực được quan tâm nhất hiện nay. Chẳng hạn như trong hệ tim kiếm Yahoo, Altavíta, Google đều tổ chức dữ liệu theo các nhóm và các mục, mỗi nhóm lại bao gồm nhiều nhóm con năm trong nó. Hệ phần mềm tìm kiếm của Altavista, Google, con tich hợp thêm chương trình dịch tự động có thể dịch chuyển đổi sang nhiều thứ Tiếng khác nhau và cho kết quả rất tốt. Khai phá văn bản (Text mining) là một nhánh của khai phá dữ liệu (Data mining), có mục đích là phát hiện và rút thông tin, tìm kiếm thông tin từ các tài liệu văn bản (text documents). Khai phá văn bản liên quan tới các vấn đề như: xử lý ngôn ngữ tự nhiên trích rút thông tin, tìm kiếm thông tin, khai phá Web, Text Mining (applied to text data) + Lànguage Engineering 1.2. Các bước khai phá dữ liệu văn bản Mục đích của quá trình tiền xử lý văn bản là đưa ra cách biểu diễn văn bản thích hợp nhất. Các bước của quá trình tiền xử lý văn bản bao gồm: - Phân tích ngữ pháp/ngữ nghĩa của văn bản: tìm từ loại, loại bỏ sự nhập nhằng về ngữ nghĩa, phân tích ngữ pháp. - Sinh ra các tập các từ (còn gọi là túi từ - bag of words): Biểu diễn văn bản bởi các từ trong văn bản đó, nhận dạng từ, loại bỏ các tư dừng (stop words, là những tư không có ích cho khai phá văn bản). Ví dụ, một số từ dừng trong các văn bản tiếng việt là: và, vì vậy, tóm lại, nếu, chẳng hạn, ĐỒ ÁN TÔT NGHIỆP 4 Phân loại văn bản tiếng Việt với giải thuật K-NN - Lựa chọn các từ: Sau khi đã loại bỏ các từ dừng, quá trình giảm số chiều của việc biểu diễn văn bản được thực hiện bằng cách loại bỏ những đặc trưng không thích hợp. Việc lự chọn các đặc trưng của văn bản liên quan đến trọng số của các từ xuất hiện trong văn bản đó. Trọng số của từ là độ quan trọng, hay hàm lượng thông tin mà từ đó mang lại cho văn bản. Nó là đại lượng để đo sự khác biệt giữa văn bản chứa nó với văn bản khác. Đại lượng này có thể xác định bằng tay hay đánh giá số lần xuất hiện của cụm từ đó trong văn bản và số lần xuất hiện của cụm từ đó trong các văn bản khác. Số lần xuất hiện của từ trong văn bản càng nhiều thì độ quan trọng của nó trong văn bản càng lớn và ngược lại. 1.2.1. Khai phá văn bản/dữ liệu Một số bài toán của khai phá văn bản dữ liệu là: - Phân loại văn bản (Text Categorization): cho một số lớp văn bản đã được xác định trước, nhiệm vụ của phân loại văn bản là: gán các văn bản vào ( một hay một số) lớp văn bản thích hợp dựa vào nội dung của văn bản. - Lập nhóm của văn bản (Text Clustering): cho một số văn bản, nhiệm vụ của lập nhóm văn bản là chia các văn bản này thành các nhóm thích hợp căn cứ vào mặt tương tự về mặt nội dung giữa các văn bản. - Tóm tắt văn bản (Text Summairzation): Tóm tắt, chắt lọc thông tin từ một (hay nhiều) nguồn để đưa ra mô tả ngắn gọn, cô đọng thông tin từ nguồn tài liệu đó. - phát hiện xu hương nổi bật (Emerging Trend Detection): Phát hiện các chủ đề sẽ được quan tâm và có ích trong tương lài. - Trả lời câu hỏi: Đưa ra câu chả lời thích hợp cho câu hỏi (tìm tài liệu thích hợp cho câu hỏi) - 1.2.2. Ứng dụng các kết quả khai phá dữ liệu văn bản trong thực tế Ứng dụng các kết quả khai phá dữ liệu văn bản là sử dụng cá kết quả khai thác văn bản cho những mục đích cụ thể. Kết quả của quá trình khai phá dữ liệu ĐỒ ÁN TÔT NGHIỆP 5 Phân loại văn bản tiếng Việt với giải thuật K-NN văn bản có thể sử dụng cho việc trích lọc thông tin, tóm tắt thông tin, dịch tự động văn bản, dự đoán các xu hướng trong tương lài, tim kiếm thông tin, phân loại thông tin, Và các ứng dụng này lại được sử dụng như một công cụ hỗ trợ trong các hệ thống thông tin khác. Ví dụ, chương trình dịch tự động văn bản trong hệ tìm kiếm của Google dể có thể chuyên dịch văn bản sang nhiều thứ Tiếng khác nhau. Các kết quả của quá trình phân loại thông tin, trích lọc thông tin tìm kiếm văn bản có thể được trong việc tổ chức, phân loại thông tin trong hệ tìm kiếm để mang lại hiệu quả cao trong việc tim kiếm thông tin 1.3. Bài toán phân loại văn bản (Text categorization) 1.3.1. Bài toán phân loại văn bản Phân loại văn bản quá trình gán nhãn văn bản vào một (hay một số) chủ đề cho trước, dựa trên nội dung của văn bản. Trong thập kỷ 80 hầu hết cách tiếp cận (ít nhất là trong thiết đặt thao tác) để phân loại văn bản tự động gồm các kỹ thuật điều khiển bằng tay bởi chuyên gia tri thức (Knowledge Engineering- KE), một hệ thống chuyên gia có khả năng đưa ra quyết định phân loại. Hệ chuyên gia bao gồm các tập logic định nghĩa bằng tay, cho mỗi loại, có dạng: If (DNF formulà) then (category) Mỗi công thức DNF (“Disjiunctive Normal Form”) là hợp của các mệnh đề liên kết, tài liệu được phân loại vào category nếu nó thỏa mãn công thức, nghĩa là, nếu nó thỏa mãn ít nhất một mệnh đề trong công thức. Một ví dụ nổi tiếng cho cách tiếp cận này là hệ thống CONSTRUE [Hayes et al. 1990], xây dựng bở Carnegie Group cho tệp tin Reuters. sau đây, là một ví dụ về luật được sử dụng trong CONSTRUE: IF ( (wheat &farm) OR (wheat & commodity) or (bushels & export) or (wheat & wheat & tonnes) or (wheat & winter & soft) ) then WHEAT else WHEAT ĐỒ ÁN TÔT NGHIỆP 6 Phân loại văn bản tiếng Việt với giải thuật K-NN Điều trở ngại của cách tiếp cận này là hạn chế trong quá trình thu nhận tri thức từ tài liệu của hệ thống chuyên gia. nghĩa là, các luật phải được định nghĩa bằng tay bởi các kỹ sư tri thức với sự giúp đỡ của chuyên gia trong lĩnh vực được nêu trong tài liệu: nếu tập hợp của các loại được cập nhật, thì hai nhà chuyên gia về lĩnh vực được nêu trong tài liệu: nếu tập hợp của các loại được cập nhật, thì hai nhà chuyên nghiệp phải can thiệp lại và nếu phân loại được chuyển hoàn toàn sau một phạm vi khác, một chuyên gia về lĩnh vực này phải can thiệp vào công việc phải được bắt đầu từ tập tài liệu hỗn tạp ban đầu. Đầu thế kỷ 90, cách tiếp cận học máy (Machine Learning) để phân loại văn bản được coi là nổi tiếng và trở thành thống trị, ít nhất là trong cộng đồng người nghiên cứu (Mitchell[1996]), Theo cách tiếp cận này, một quá trình xử lý quy nạp chung (cũng được gọi là quá trình học) xây dựng tự động một phần lớp cho một loại c i bằng quan sát các đặc trưng của tập hợp các tài liệu đã được phân bằng tay vào c i hay i c bởi chuyên gia về lĩnh vực này; từ đó, quá trình qui nạp thu lươm các đặc trưng để phân loại một tài liệu mới (không nhìn thấy) vào c i . Trong kỹ thuật học máy, bài toán phân lớp là hoạt động học có giam sát, quá trình học được “giám sát” bởi tri thức của các phân loại và của mẫu huấn luyện thuộc chúng. Với phương pháp học máy, sự cố găng về phương diên công việc của kỹ sư theo hướng không phải xây dựng một phân lớp tự động (học) từ một tập các tài liệu đã được phân loại bằng tay. Trong các tiếp cận học máy, các tài liệu đã được phân loại bằng tay. Trong các tiếp cận học máy, các tài liệu đã được phân lớp trở thành nguồn. Trường hợp thuận lợi nhất, chúng đã có sẵn, khi đó quá trình phân loại bắt đầu bằng việc học từ tập dữ liệu này, sau đó thực hiện phân loại tự động với các tài liệu khác. Trường hợp ít thuận lợi, không có sẵn tài liệu đã phân loại bằng tay; khi đó quá trình phân loại động bắt đầu một hành động phân loại và chọn một phương pháp tự động ngay lập tức. Do đó, cách tiếp cận học máy là thuận lợi hơn cách tiếp cận kỹ sư tri thức. ĐỒ ÁN TÔT NGHIỆP 7 Phân loại văn bản tiếng Việt với giải thuật K-NN Các phân lớp xây dựng theo nghĩa kỹ thuật học máy ngày nay gây được ấn tương sâu sắc về mức độ hiệu quả, khiến cho phân lớp tự động trở thành một sự lựa trọn tốt để thay thế phân loại bằng tay (Không chỉ về phương diện kinh tế). Chúng ta có thể hình dung các công việc của bài toán phân loại văn bản dựa trên kỹ thuật học máy như sau: Cách tiếp cận học máy dựa trên một tập dữ liệu có sẵn từ dầu Ω ={d 1 , , d Ω } D⊂ , trong đó D tập tất cả các tài liệu đã được phân lớp trước, d j là văn bản thứ j, Tập các lớp C= {c 1 , , c C }, c i là kí hiệu của lớp thứ i. Hàm Φ : D × C → {T, F} với mọi < d j , c> C×Ω∈ . Một tài liệu d j là mẫu dương của c i nếu Φ ( d j , c i ) = T, làu một mẫu âm nếu Φ ( d j , c i ) = F. Với cách phân loại đưa ra, người ta mong muốn đánh giá được hiệu quả của chúng. Bởi vậy, trước khi xây dựng phân loại của chúng. Bởi vậy, trước khi xây dựng phân loại người ta chia tập dữ liệu ban đầu thành 2 tập hợp. - Tập huấn luyện (training (- and- validation) set) Tr = {d 1 , , d TV }. Phân lớp Φ cho các phân loại C = {c 1 , , c C } được xây dựng quy nạp dựa trên sự quan sat các đặc trưng của các tài liệu trong Tr. - Tập kiểm tra (test set) Te = {d 1+TV , d Ω }, được sử dụng để kiểm tra hiệu quả của phân lớp. Mỗi d j ∈ T e được đưa vào hệ thống phân lớp để xác định giá trị Φ ( d j , c i ) và so sánh giá trị này với quyết định Φ ( d j , c i ) của chuyên gia. Hiệu quả của phân lớp dựa trên sự phù hợp giữa Φ ( d j , c i ) và Φ ( d j , c i ). Số tài liệu trong tập luỵên và tập kiểm tra thường được chọn theo tỷ lệ tương ứng là 70% và 30% Trong đó, Tr ∩ Te = φ , nếu điều kiện này bi vi phạm thì kết quả đánh giá hiệu quả của mô hình mất đi yếu tố khách quan, khoa học. ĐỒ ÁN TÔT NGHIỆP 8 Phân loại văn bản tiếng Việt với giải thuật K-NN Phân loại văn bản chủ yếu dựa trên cơ chế rút trích thông tin. Kỹ thuật trích rút thông tin được sử dụng trong 3 giai đoạn của quá trình phân loại văn bản: 1) Đánh chỉ số: Các văn bản ở dạng thô được chuyển sang dạng biểu diễn nào đó để xử lý. Quá trình này được gọi là quá trình biểu diễn văn bả, dạng biểu diễn của văn bản, dạng biểu diễn của văn bản phải có cấu trúc và dễ dàng xử lý. Chi tiết về việc biểu diễn văn bản sẽ được trình bày trong chương 2. 2) Kỹ thuật: Kỹ thuật ở đây là phương pháp học để phân loại văn bản, nó thường được sử dụng trong quá trình xây dựng quy nạp của các phân loại. 3) Đánh giá: đánh giá hiệu quả của các phân lớp được thực hiện. Sự khác nhau trong các cách tiếp cận trước đây phần lớn là để giải quyết (2) mặc dù trong một số ít đề xuất cũng sử dụng (1) và (3). Hầu hết các phương pháp phân loại văn bản dựa trên các kỹ thuật học máy hiện nay đều dựa vào tần suất hiện (số lần xuất hiện) của từ hoặc cụm từ trong văn bản, hoặc dựa vào tần suất xuất hiện của từ trong văn bản và tần suất văn bản (số các văn bản trong tập dữ liệu huấn luyện có chứa từ đó). Độ chính xác của kết quả tách từ có ảnh hưởng rất lớn đến kết quả của phân loại, không thể có kết quả phân loại tốt nếu không tách được đúng các từ trong văn bản. Bởi vậy, một vấn đề quan trọng đối với phân loại văn bản là phải tách được chính xác các từ trong văn bản. Các văn bản được viết bằng các ngôn ngữ khác nhau thì có đặc trưng riêng của ngôn ngữ đó và không có một phương pháp chung nào để tách các từ trong các văn bản được viết bằng ngôn ngữ khác nhau. Trong chương sau, em sẽ giới thiệu một số phương pháp tách từ dùng cho các văn bản tiếng Việt, phục phụ cho các bước tiền xử lý của phân loại văn bản. Tóm lại, một bài toán phân loại văn bản dựa trên kỹ thuật học máy gồm các bước sau: - Chuẩn bị tập dữ liệu huấn luyện (Training Set) và tập dữ liệu kiểm tra (Test set). - Tách từ trong văn bản. ĐỒ ÁN TÔT NGHIỆP 9 Phân loại văn bản tiếng Việt với giải thuật K-NN - Biểu diễn văn bản - Phương pháp học máy để phân loại văn bản - Đánh giá hiệu quả của phương pháp học 1.3.2. Một Số phương pháp phân loại văn bản Có nhiều phương pháp phân loại văn bản được đề xuất, sự khác nhau cơ bản giữa các phương pháp này là ở thuật toán quy nạp. Nhiều thực nghiệm cho thấy các phương pháp như: cây quyết định (decision tree), K- làng giềng gần nhất (K- nearest neighbos), phương pháp sử dụng các vector hỗ trợ (Support Vector Machines) là những phương pháp có hiệu quả phân loại cao ở Việt Nam cũng như một số nghiên cứu sử dụng cây quyết định, k- láng giềng gần nhất để phân loại văn bản tiếng Việt. - Phương pháp cây quyết định: Ý tưởng của phương pháp này là xây dựng một cây nhị phân quyết định gồm các nút và các cung trọng số liên kết giữa các nút cụ thể: Các nút trong được gán nhãn bởi các từ, nhãn của các cung tương ứng với trọng số của các từ trong tài liệu mẫu, nhãn của các lá tương ứng với nhãn của các lớp. Cho một tài liệu d j , ta sẽ thực hiện so sánh các nhã của cung xuất phát từ một nút trong (tương ứng với một từ nào đó) với trọng số của từ trong d j , để quyết định nút trong nào sẽ được duyệt kế tiếp. Quá trình này được lặp từ nút gốc của cây, cho tới khi nút được duyệt là một lá của cây. Kết thúc quá trình này, nhãn của nút làn nhãn của lớp được gán cho văn bản. - Phương pháp k- láng giềng gần nhất: Tư tưởng chính cảu phương pháp này là tình độ phù hợp của văn bản đang xét với từng nhóm chủ đề dựa trên k văn bản mẫu có độ tương tự gần nhất. - Phương pháp Support Vector Machines: Phương pháp này suất phát từ suy nghĩ, làm thế nào để tối thiểu lỗi trong quá trình kiểm tra (test orror minimization ). Bởi vậy, ý tương của Support Vectort Machines (SVNs) là tìm một siêu phăng tối ưu để phân chia tập dữ liệu huấn luyện sao cho các văn bản thuộc lớp c i thuộc về phía siêu phẳng, con các văn bản không thuộc lớp c i sẽ ĐỒ ÁN TÔT NGHIỆP 10 [...]... loi l thun tin cỏc c im ca mụ hỡnh n- gram ny l: - Nú l mụ hỡnh markov n bc n- 1 vỡ ta khụng quan sỏt c dóy t (dóy trng thỏi) m ch quan sỏt c dóy õm tit - Cựng mt dóy õm tit cú th ng vi nhiu n- gram khỏc nhau Vớ d dóy hc sinh hc ng vi hai bi- gram l hc#sinh hc v hc sinh#hc - Cỏc n- gram cú th cú s õm tit khỏc nhau Vớ d vin#ngụn ng hc v i#hc l hai bi- gram: Chỳng ta cn c lng hm xỏc sut: P (w n |w 1... ting Vit vi gii thut K-NN Cụm ny có sự nhập nhằng, ta có hai kết quả phân tách là "học, sinh học" và "học, sinh, học" Ta có thể chỉ ra rất nhiều cụm nhập nhằng trong tiếng Việt Trờng hợp trong câu có âm tiết không nằm trong từ điển thì rõ ràng ôtômát âm tiết không đoạn nhận đợc âm tiết này Kết quả là đồ thị xây dựng từ câu đó là không liên thông Dựa vào tính chất này, ta thấy rằng nếu đồ thị không liên... phi y v phng din hỡnh thc, ng ngha v c lp v mt ng phỏp T c xõy dng t ting Chỳng cú th gm cỏc t n ( 1- Ting), hoc cỏc t phc (n- ting, n . tra (Test set). - Tách từ trong văn bản. ĐỒ ÁN TÔT NGHIỆP 9 Phân loại văn bản tiếng Việt với giải thuật K-NN - Biểu diễn văn bản - Phương pháp học máy để phân loại văn bản - Đánh giá hiệu quả. để phân loại văn bản tiếng Việt. ĐỒ ÁN TÔT NGHIỆP 11 Phân loại văn bản tiếng Việt với giải thuật K-NN CHƯƠNG II TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT Để máy tính có thể tự động phân loại văn. xuất bản Giáo Dục. a) Tiếng ĐỒ ÁN TÔT NGHIỆP 13 Phân loại văn bản tiếng Việt với giải thuật K-NN Ngôn ngữ Việt Nam có một đơn vị đặc biệt gọi là tiếng. Mỗi tiếng trong tiếng Việt được viết thành

Ngày đăng: 28/05/2015, 16:39

Xem thêm