Phân loại văn bản tiếng việt với giải thuật k nn

84 2 0
Phân loại văn bản tiếng việt với giải thuật k nn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

đồ án tốt nghiệp Nguyễn Tuấn Anh Đề ti: Phõn loại văn tiếng Việt với giải thuật K-NN GVHD: ThS MỞ ĐẦU Trong năm gần phân loại văn trở thành kỹ thuật then chốt để tổ chức thơng tin trực tuyến Nó sử dụng để tổ chức sở liệu văn bản, lọc thư điện tử tìm kiếm thơng tin liên quan đến Web, để dẫn người dùng tìm kiếm thơng tin qua siêu văn hypertext) Mà đó, việc phân loại văn tay thực được, thực với chi phí tốn Do đó, với phát triển thông tin trực tuyến, yêu cầu cấp thiết đặt cần phải xây dựng hệ thống phân loại văn tự động Cho đến nay, có nhiều đề xuất xây dựng tốn phân loại văn tự động Neive Bayes, Bayes net, K- láng giêng gần nhất, định, mạng nơron, Support Vector Machines, Các phương pháp phân loại này, đạt thành đáng kể đối vớ văn tiếng anh, Pháp, Nhật, Trung Quốc ứng dụng thực tế tìm kiếm Yahoo, Altavista, Google, Trong đó, K- láng giềng gần cách tiếp cận cho độ xác phân loại văn cao hẳn phương pháp phân loại khác Ơ Việt Nam, có nhiều nghiên cứu lĩnh vực xử lý văn tiếng Việt, đề tìa nghiên cứu Máy dịch tự động Anh –Việt (EVTRan) viện nghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc viện công nghệ thông tin nhiều luận văn tôt nghiệp cao học đại học khác Nhưng nghiên cứu phân loại văn tiếng việt chưa nhiều kết hạn chế Bởi vậy, luận văn em tập trung nghiên cứu toán phân loại văn Tiếng Việt dựa cách tiếp cận K- láng giêng gần Một vấn đề liên quan mật thiết đến tốc độ xử lý độ xác q trình phân loại số chiều vector biểu diễn văn Nếu dùng từ từ điển làm đặc trưng để biểu diễn văn văn tiếng Việt biểu diễn vector có 70 nghìn chiều (tương đương với số từ tư SVTH: Lª minh quang – MSSV: 505101038 đồ án tốt nghiệp Nguyễn Tuấn Anh §Ò tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS điển tiếng Việt) 70 nghìn số lớn ta có đến hàng triệu văn cần xử lý trình phân loại Để tăng tốc độ xử lý độ xác kết phân loại văn bản, luận văn em xin đề xuất phương pháp xây dựng phân loại văn Các từ đặc trưng để biểu diễn văn tiếng Việt, đồng thời, đưa phương pháp xây dựng phân loại văn Tiếng Việt Sử dụng phương pháp KNN Nội dung luận văn bao gồm chương, cụ thể: - Chương I: Trình bày tổng quan khai phá liệu văn toán phân loại văn - Chương II: Trinh bày vấn đề trình tiền xử lý văn tiếng Việt (tách từ lựa chọn đặc trưng, biểu diễn văn bản) - Chương II: Một số phương pháp phân loại truyền thống - Chương IV: Phương pháp phân loại văn dựa cách tiếp cận KNN - Chương V: Chương trình kết thực nghiệm - Chương VI: Kết luận hướng phát triển luận văn Do thời gian hiểu biết hạn chế, nên luận văn cịn nhiều thiếu sót, em mong nhận góp ý thầy bạn, để hồn thiện luận văn SVTH: Lª minh quang MSSV: 505101038 đồ án tốt nghiệp Ngun Tn Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN Mục đích chương giới thiệu cách tóm tắt vấn đề khai phá liệu văn bản, toán phân loại văn - Khai phá liệu văn gì? - Các bước để xây dựng tốn khai phá liệu văn - Bài toán phân loại văn 1.1 Khai phá liệu văn (Text mining) Văn dạng liệu phổ biến nhất, nay, có mặt khắp nơi chung ta thường xuyên bắt gặp hàng ngày Do đó, tốn xử lý văn đặt từ lâu vấn vấn đề hay khai phá liệu văn (text), có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản, dẫn đường văn bản, Các văn tập hợp sơ liệu văn chia làm hai loại: - Dạng khơng có cấu trúc (unstructured): Những văn thông thường mà thường đọc hàng ngày thể dạng ngôn ngữ tự nhiên người khơng có cấu trúc định dạng - Dạng bán cấu trúc (semi- structured): Những văn tổ chức dạng cấu trúc không chặt chẽ thành ghi mà dùng ký hiệu đánh dấu văn thể nội dung văn bản, ví dụ dạng HTML, email, Trong luận văn này, em quan tâm xử lý liệu văn dạng phi cấu trúc (biểu diễn văn dạng tập tin TXT), toán giải theo hướng liệu mở để tương lài áp dụng với mục đích sử dụng khác SVTH: Lª minh quang MSSV: 505101038 đồ án tốt nghiệp Ngun Tn Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS Có nhiều cách phân lớp lĩnh vực xử lý văn bản, Lewis chia thành hai nhóm lĩnh vực phân lớp văn (TextClàssifition) gồm công việc xác định văn phần văn vào hay nhiều lớp xác định trước hiểu nghĩa văn (Text Understanding) bao gồm công việc phức tạp để xử lý nội dung văn tóm tắt văn (Text Summarization Abstraction), trích chọn thông tin (Text Extraction), Tuy nhiên, việc phân làm hai lớp không thật rõ ràng, hệ phần mềm, người ta thường kết hợp hai lớp tốn hệ tìm kiếm (Search Engine), toán tim kiếm văn (Text Retrievàl), linh vực quan tâm Chẳng hạn hệ tim kiếm Yahoo, Altavíta, Google tổ chức liệu theo nhóm mục, nhóm lại bao gồm nhiều nhóm năm Hệ phần mềm tìm kiếm Altavista, Google, tich hợp thêm chương trình dịch tự động dịch chuyển đổi sang nhiều thứ Tiếng khác cho kết tốt Khai phá văn (Text mining) nhánh khai phá liệu (Data mining), có mục đích phát rút thơng tin, tìm kiếm thơng tin từ tài liệu văn (text documents) Khai phá văn liên quan tới vấn đề như: xử lý ngôn ngữ tự nhiên trích rút thơng tin, tìm kiếm thơng tin, khai phá Web, Text Mining (applied to text data) + Lànguage Engineering 1.2 Các bước khai phá liệu văn Mục đích q trình tiền xử lý văn đưa cách biểu diễn văn thích hợp Các bước q trình tiền xử lý văn bao gồm: - Phân tích ngữ pháp/ngữ nghĩa văn bản: tìm từ loại, loại bỏ nhập nhằng ngữ nghĩa, phân tích ngữ pháp - Sinh tập từ (còn gọi túi từ - bag of words): Biểu diễn văn từ văn đó, nhận dạng từ, loại bỏ tư dừng (stop words, tư khơng có ích cho khai phá văn bản) Ví dụ, số từ dừng văn tiếng việt là: và, vậy, tóm lại, nếu, chẳng hạn, SVTH: Lê minh quang MSSV: 505101038 đồ án tèt nghiƯp Ngun Tn Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS - Lựa chọn từ: Sau loại bỏ từ dừng, trình giảm số chiều việc biểu diễn văn thực cách loại bỏ đặc trưng khơng thích hợp Việc lự chọn đặc trưng văn liên quan đến trọng số từ xuất văn Trọng số từ độ quan trọng, hay hàm lượng thơng tin mà từ mang lại cho văn Nó đại lượng để đo khác biệt văn chứa với văn khác Đại lượng xác định tay hay đánh giá số lần xuất cụm từ văn số lần xuất cụm từ văn khác Số lần xuất từ văn nhiều độ quan trọng văn lớn ngược lại 1.2.1 Khai phá văn bản/dữ liệu Một số toán khai phá văn liệu là: - Phân loại văn (Text Categorization): cho số lớp văn xác định trước, nhiệm vụ phân loại văn là: gán văn vào ( hay số) lớp văn thích hợp dựa vào nội dung văn - Lập nhóm văn (Text Clustering): cho số văn bản, nhiệm vụ lập nhóm văn chia văn thành nhóm thích hợp vào mặt tương tự mặt nội dung văn - Tóm tắt văn (Text Summairzation): Tóm tắt, chắt lọc thông tin từ (hay nhiều) nguồn để đưa mô tả ngắn gọn, cô đọng thông tin từ nguồn tài liệu - phát xu hương bật (Emerging Trend Detection): Phát chủ đề quan tâm có ích tương lài - Trả lời câu hỏi: Đưa câu chả lời thích hợp cho câu hỏi (tìm tài liệu thích hợp cho câu hỏi) - 1.2.2 Ứng dụng kết khai phá liệu văn thực tế Ứng dụng kết khai phá liệu văn sử dụng cá kết khai thác văn cho mục đích cụ thể Kết q trình khai phá liệu SVTH: Lª minh quang MSSV: 505101038 đồ án tốt nghiệp Nguyễn Tuấn Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS văn sử dụng cho việc trích lọc thơng tin, tóm tắt thơng tin, dịch tự động văn bản, dự đoán xu hướng tương lài, tim kiếm thông tin, phân loại thông tin, Và ứng dụng lại sử dụng công cụ hỗ trợ hệ thống thơng tin khác Ví dụ, chương trình dịch tự động văn hệ tìm kiếm Google dể chuyên dịch văn sang nhiều thứ Tiếng khác Các kết trình phân loại thơng tin, trích lọc thơng tin tìm kiếm văn việc tổ chức, phân loại thơng tin hệ tìm kiếm để mang lại hiệu cao việc tim kiếm thông tin 1.3 Bài toán phân loại văn (Text categorization) 1.3.1 Bài toán phân loại văn Phân loại văn trình gán nhãn văn vào (hay số) chủ đề cho trước, dựa nội dung văn Trong thập kỷ 80 hầu hết cách tiếp cận (ít thiết đặt thao tác) để phân loại văn tự động gồm kỹ thuật điều khiển tay chuyên gia tri thức (Knowledge Engineering- KE), hệ thống chuyên gia có khả đưa định phân loại Hệ chuyên gia bao gồm tập logic định nghĩa tay, cho loại, có dạng: If (DNF formulà) then (category) Mỗi cơng thức DNF (“Disjiunctive Normal Form”) hợp mệnh đề liên kết, tài liệu phân loại vào category thỏa mãn cơng thức, nghĩa là, thỏa mãn mệnh đề cơng thức Một ví dụ tiếng cho cách tiếp cận hệ thống CONSTRUE [Hayes et al 1990], xây dựng bở Carnegie Group cho tệp tin Reuters sau đây, ví dụ luật sử dụng CONSTRUE: IF ( (wheat &farm) OR (wheat & commodity) or (bushels & export) or (wheat & wheat & tonnes) or (wheat & winter & soft) ) then WHEAT else WHEAT SVTH: Lª minh quang MSSV: 505101038 đồ án tốt nghiệp Ngun Tn Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS Điều trở ngại cách tiếp cận hạn chế trình thu nhận tri thức từ tài liệu hệ thống chuyên gia nghĩa là, luật phải định nghĩa tay kỹ sư tri thức với giúp đỡ chuyên gia lĩnh vực nêu tài liệu: tập hợp loại cập nhật, hai nhà chuyên gia lĩnh vực nêu tài liệu: tập hợp loại cập nhật, hai nhà chuyên nghiệp phải can thiệp lại phân loại chuyển hoàn toàn sau phạm vi khác, chuyên gia lĩnh vực phải can thiệp vào công việc phải tập tài liệu hỗn tạp ban đầu Đầu kỷ 90, cách tiếp cận học máy (Machine Learning) để phân loại văn coi tiếng trở thành thống trị, cộng đồng người nghiên cứu (Mitchell[1996]), Theo cách tiếp cận này, trình xử lý quy nạp chung (cũng gọi trình học) xây dựng tự động phần lớp cho loại c quan sát đặc trưng tập hợp tài liệu phân tay vào c hay chun gia lĩnh vực này; từ đó, q trình qui nạp thu lươm đặc trưng để phân loại tài liệu (khơng nhìn thấy) vào c Trong kỹ thuật học máy, toán phân lớp hoạt động học có giam sát, q trình học “giám sát” tri thức phân loại mẫu huấn luyện thuộc chúng Với phương pháp học máy, cố găng phương diên công việc kỹ sư theo hướng xây dựng phân lớp tự động (học) từ tập tài liệu phân loại tay Trong tiếp cận học máy, tài liệu phân loại tay Trong tiếp cận học máy, tài liệu phân lớp trở thành nguồn Trường hợp thuận lợi nhất, chúng có sẵn, q trình phân loại bắt đầu việc học từ tập liệu này, sau thực phân loại tự động với tài liệu khác Trường hợp thuận lợi, khơng có sẵn tài liệu phân loại tay; q trình phân loại động bắt đầu hành động phân loại chọn phương pháp tự động Do đó, cách tiếp cận học máy thuận lợi cách tiếp cận kỹ sư tri thức SVTH: Lª minh quang – MSSV: 505101038 đồ án tốt nghiệp Nguyễn Tuấn Anh Đề ti: Phõn loại văn tiếng Việt với giải thuật K-NN GVHD: ThS Các phân lớp xây dựng theo nghĩa kỹ thuật học máy ngày gây ấn tương sâu sắc mức độ hiệu quả, khiến cho phân lớp tự động trở thành lựa trọn tốt để thay phân loại tay (Không phương diện kinh tế) Chúng ta hình dung cơng việc toán phân loại văn dựa kỹ thuật học máy sau: Cách tiếp cận học máy dựa tập liệu có sẵn từ dầu } ={d , , d , D tập tất tài liệu phân lớp trước, d văn thứ j, Tập lớp C= {c , , c }, c kí hiệu lớp thứ i Hàm :D C mẫu dương c {T, F} với < d , c> Một tài liệu d ( d , c ) = T, làu mẫu âm ( d , c ) = F Với cách phân loại đưa ra, người ta mong muốn đánh giá hiệu chúng Bởi vậy, trước xây dựng phân loại chúng Bởi vậy, trước xây dựng phân loại người ta chia tập liệu ban đầu thành tập hợp - Tập huấn luyện (training (- and- validation) set) Tr = {d , , d lớp } Phân cho phân loại C = {c , , c } xây dựng quy nạp dựa quan sat đặc trưng tài liệu Tr - Tập kiểm tra (test set) Te = {d hiệu phân lớp Mỗi d giá trị , d }, sử dụng để kiểm tra T đưa vào hệ thống phân lớp để xác định ( d , c ) so sánh giá trị với định Hiệu phân lớp dựa phù hợp ( d , c ) chuyên gia ( d , c ) ( d , c ) Số tài liệu tập luỵên tập kiểm tra thường chọn theo tỷ lệ tương ứng 70% 30% Trong đó, Tr Te = , điều kiện bi vi phạm kết đánh giá hiệu mơ hình yếu tố khách quan, khoa học Phân loại văn chủ yếu dựa chế rút trích thơng tin Kỹ thuật trích rút thơng tin sử dụng giai đoạn trình phân loại văn bản: 1) Đánh số: Các văn dạng thô chuyển sang dạng biểu diễn để xử lý Quá trình gọi trình biểu diễn văn bả, dạng biểu SVTH: Lª minh quang – MSSV: 505101038 đồ án tốt nghiệp Nguyễn Tuấn Anh §Ò tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS diễn văn bản, dạng biểu diễn văn phải có cấu trúc dễ dàng xử lý Chi tiết việc biểu diễn văn trình bày chương 2) Kỹ thuật: Kỹ thuật phương pháp học để phân loại văn bản, thường sử dụng trình xây dựng quy nạp phân loại 3) Đánh giá: đánh giá hiệu phân lớp thực Sự khác cách tiếp cận trước phần lớn để giải (2) số đề xuất sử dụng (1) (3) Hầu hết phương pháp phân loại văn dựa kỹ thuật học máy dựa vào tần suất (số lần xuất hiện) từ cụm từ văn bản, dựa vào tần suất xuất từ văn tần suất văn (số văn tập liệu huấn luyện có chứa từ đó) Độ xác kết tách từ có ảnh hưởng lớn đến kết phân loại, khơng thể có kết phân loại tốt không tách từ văn Bởi vậy, vấn đề quan trọng phân loại văn phải tách xác từ văn Các văn viết ngơn ngữ khác có đặc trưng riêng ngơn ngữ khơng có phương pháp chung để tách từ văn viết ngôn ngữ khác Trong chương sau, em giới thiệu số phương pháp tách từ dùng cho văn tiếng Việt, phục phụ cho bước tiền xử lý phân loại văn Tóm lại, toán phân loại văn dựa kỹ thuật học máy gồm bước sau: - Chuẩn bị tập liệu huấn luyện (Training Set) tập liệu kiểm tra (Test set) - Tách từ văn - Biểu diễn văn - Phương pháp học máy để phân loại văn - Đánh giá hiệu phương pháp học 1.3.2 Một Số phương pháp phân loại văn SVTH: Lª minh quang – MSSV: 505101038 đồ án tốt nghiệp Nguyễn Tuấn Anh §Ò tài: Phân loại văn tiếng Việt với giải thuật K-NN GVHD: ThS Có nhiều phương pháp phân loại văn đề xuất, khác phương pháp thuật toán quy nạp Nhiều thực nghiệm cho thấy phương pháp như: định (decision tree), K- làng giềng gần (K- nearest neighbos), phương pháp sử dụng vector hỗ trợ (Support Vector Machines) phương pháp có hiệu phân loại cao Việt Nam số nghiên cứu sử dụng định, k- láng giềng gần để phân loại văn tiếng Việt - Phương pháp định: Ý tưởng phương pháp xây dựng nhị phân định gồm nút cung trọng số liên kết nút cụ thể: Các nút gán nhãn từ, nhãn cung tương ứng với trọng số từ tài liệu mẫu, nhãn tương ứng với nhãn lớp Cho tài liệu d , ta thực so sánh nhã cung xuất phát từ nút (tương ứng với từ đó) với trọng số từ d , để định nút duyệt Quá trình lặp từ nút gốc cây, nút duyệt Kết thúc trình này, nhãn nút nhãn lớp gán cho văn - Phương pháp k- láng giềng gần nhất: Tư tưởng cảu phương pháp tình độ phù hợp văn xét với nhóm chủ đề dựa k văn mẫu có độ tương tự gần - Phương pháp Support Vector Machines: Phương pháp suất phát từ suy nghĩ, làm để tối thiểu lỗi trình kiểm tra (test orror minimization ) Bởi vậy, ý tương Support Vectort Machines (SVNs) tìm siêu phăng tối ưu để phân chia tập liệu huấn luyện cho văn thuộc lớp c thuộc phía siêu phẳng, văn khơng thuộc lớp c thuộc phía bên siêu phẳng Một siêu phẳng gọi tối ưu khoảng cách từ mẫu gần đến siêu phẳng lớn Các phương pháp định, k- láng giềng gần có ưu điểm dễ hiểu, dễ xây dựng mặt thuật toán, định dựng phức tạp vector dùng để biểu diễn văn có số chiều q lớn, cịn với k- láng SVTH: Lª minh quang – MSSV: 505101038 10 ... loại văn tiếng Việt với giải thuật K- NN GVHD: ThS điển tiếng Việt) 70 nghìn số lớn ta có đến hàng triệu văn cần xử lý trình phân loại Để tăng tốc độ xử lý độ xác k? ??t phân loại văn bản, luận văn. .. Anh §Ị tài: Phân loại văn tiếng Việt với giải thuật K- NN GVHD: ThS CHƯƠNG II TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT Để máy tính tự động phân loại văn bản, văn trình bày dạng chuỗi k? ? tự cần phải... ti: Phõn loại văn tiếng Việt với giải thuật K- NN GVHD: ThS diễn văn bản, dạng biểu diễn văn phải có cấu trúc dễ dàng xử lý Chi tiết việc biểu diễn văn trình bày chương 2) K? ?? thuật: K? ?? thuật phương

Ngày đăng: 15/02/2023, 13:42

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan