Tìm hiểu thuật toán naïve bayes và ứng dụng phân loại tài liệu

46 29 0
Tìm hiểu thuật toán naïve bayes và ứng dụng phân loại tài liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN HỒ DIÊN CÔNG BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: Tìm hiểu thuật tốn Nạve Bayes ứng dụng phân loại tài liệu Nghệ An, tháng 01 năm 2017 TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: Tìm hiểu thuật tốn Nạve Bayes ứng dụng phân loại tài liệu Sinh viên thực hiện: Hồ Diên Công – Mã sinh viên :1251075305 Lớp: 53K2 - CNTT Giáo viên hướng dẫn: T.S Hoàng Hữu Việt Nghệ An, tháng 01 năm 2017 Đồ án tốt nghiệp đại học LỜI CẢM ƠN Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới T.S Hoàng Hữu Việt tận tụy hƣớng dẫn, động viên, giúp đỡ em suốt thời gian thực đề tài Em xin chân thành cảm ơn quý Thầy Cô khoa Công Nghệ Thông Tin - Trƣờng Đại học Vinh truyền đạt kiến thức kinh nghiệm quý báu cho em năm học vừa qua Mặc dù em cố gắng hoàn thành đồ án phạm vi khả cho phép nhƣng chắn em khơng tránh khỏi thiếu sót q trình thực đề tài Em kính mong nhận đƣợc cảm thơng ý kiến đóng góp q Thầy Cô bạn Sau em xin chúc quý thầy cô Khoa Công Nghệ Thông Tin thật dồi sức khỏe, niềm tin để tiếp tục thực sứ mệnh cao đẹp truyền đạt kiến thức cho thê hệ mai sau Một lần nữa, xin chân thành cảm ơn Nghệ An, ngày tháng năm 2016 Sinh viên thực hiện, Hồ Diên Công Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học LỜI MỞ ĐẦU Trong năm gần đây, với phát triển mạnh mẽ công nghệ thông tin nhu cầu sử dụng Internet ngƣời làm tăng vọt lƣợng thông tin giao dịch Internet Vì mà số lƣợng văn điện tử tăng nhanh chóng mặt số lƣợng chủ đề đặc biệt thƣ viện điện tử, tin tức điện tử mạng toàn cầu… Với lƣợng thông tin đồ sộ nhƣ vậy, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin cách xác, có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhƣng thực tế cho thấy khối lƣợng thông tin lớn, việc phân loại liệu thủ công điều vô khó khăn Hƣớng giải cho việc xây dựng chƣơng trình phân loại thơng tin tự động máy tính Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ Nhiệm vụ toán gán tài liệu văn vào nhóm chủ đề cho trƣớc Đây toán thƣờng gặp thực tế điển hình nhƣ việc phân nhóm tin tức, phân nhóm văn theo thể loại khác Tuy nhiên, lúc đọc tất tin tức, viết, báo hay tài liệu để phân loại chúng theo mục đích số tài liệu lớn, để đọc hết đƣợc tất nhiều thời gian Đó lý cần có hệ thống phân loại tài liệu tiếng Việt Em chọn thực đề tài “Tìm hiểu thuật tốn Nạve Bayes (NB) ứng dụng phân loại tài liệu” nhằm tìm hiểu thử nghiệm phƣơng pháp phân loại văn, tài liệu Trong luận văn này, em tìm hiểu số cách phân loại tài liệu thử nghiệm phƣơng pháp phân loại áp dụng thuật toán Nạve Bayes để xây dựng chƣơng trình dựa tập liệu huấn luyện từ hƣớng đến việc phân loại theo chuyên ngành Việc thực đề tài “Tìm hiểu thuật tốn Nạve Bayes (NB) ứng dụng phân loại tài liệu” em hy vọng đem đến cách phân loại mới, nhanh chóng hiệu việc phân loại thủ công nhƣ Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học Mục lục CHƢƠNG 1: TỔNG QUAN 1.1 Đặt vấn đề 1.2 Tổng quan tình hình nghiên cứu ngồi nƣớc 1.2.1 Tổng quan giới 1.2.2 Tổng quan nƣớc 1.3 Mục tiêu luận văn 1.4 Nội dung thực CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN 2.1 Tổng quát phƣơng pháp phân loại văn 2.2 Mô tả toán phân loại văn 2.3 Các phƣơng pháp phân loại văn 2.3.1 Support vector Machine (SVM) 2.3.2 Naïve Bayes (NB) 2.3.3 Biểu diễn văn 2.3.4 K–Nearest Neighbor (kNN) 2.3.5 Linear Least Square Fit (LLSF) 11 2.3.6 Neural Network (NNet) 11 2.3.7 Centroid- based Vector 12 2.4 Kết luận chung phƣơng pháp phân loại văn 13 2.5 Tách từ toán phân loại văn 14 2.5.1 Khó khăn vƣớng mắc 14 2.5.2 Các phƣơng pháp tách từ 15 CHƢƠNG 3: ỨNG DỤNG PHÂN LOẠI TÀI LIỆU 19 3.1 Quy trình xử lý phân loại báo 19 3.1.1 Tách từ văn 19 3.1.2 Loại bỏ từ tầm thƣờng 20 3.2 Trích chọn đặc trƣng văn 20 3.2.1 Các ý tƣởng 20 3.2.2 Phƣơng pháp rút trích đặc trƣng 21 Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học 3.2.3 Phƣơng pháp đặc trƣng đề nghị sử dụng 21 3.4 Sử dụng thuật tốn Nạve Bayes để phân loại văn 22 3.4.1 Lý chọn Naïve Bayes 22 3.4.2 Ý tƣởng cơng thức Nạve Bayes 22 3.5 Ứng dụng Naïve Bayes vào toán phân loại 23 3.5.1 Ý tƣởng 23 3.5.2 Hƣớng dẫn cài đặt 24 CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH 27 4.1 Xây dựng sở liệu 27 4.1.1 Từ điển tiếng Việt 27 4.1.2 Mô tả thực thể 28 4.1.3 Mơ hình sở liệu 29 4.1.4 Thiết kế giao diện 31 4.1.5 Xây dựng chức 32 KẾT LUẬN 35 i Kết đạt đƣợc 35 ii Hạn chế đề tài 35 iii Hƣớng khắc phục phát triển đề tài 35 TÀI LIỆU THAM KHẢO 37 PHỤ LỤC 38 Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG 1: TỔNG QUAN 1.1 Đặt vấn đề Trong thời đại bùng nổ công nghệ thông tin nay, phƣơng thức sử dụng giấy tờ giao dịch dần đƣợc số hoá chuyển sang dạng văn lƣu trữ máy tính truyền tải mạng Bởi nhiều tính ƣu việt tài liệu số nhƣ: cách lƣu trữ gọn nhẹ, thời gian lƣu trữ lâu dài, tiện dụng trao đổi đặc biệt qua Internet, dễ dàng sửa đổi… Nên ngày nay, số lƣợng văn số tăng lên cách chóng mặt đặc biệt world-wide-web Cùng với gia tăng số lƣợng văn bản, nhu cầu tìm kiếm văn tăng theo Với số lƣợng văn đồ sộ việc phân loại văn tự động nhu cầu thiết Tại phải phân loại văn tự động? Việc phân loại văn giúp tìm kiếm thơng tin dễ dàng nhanh chóng nhiều so với việc phải bới tung thứ ổ đĩa lƣu trữ để tìm kiếm thơng tin Mặt khác, lƣợng thơng tin ngày tăng lên đáng kể, việc phân loại văn tự động giúp ngƣời tiết kiệm đƣợc nhiều thời gian công sức Do vậy, phƣơng pháp phân loại văn tự động đời để phục vụ cho nhu cầu đáng 1.2 Tổng quan tình hình nghiên cứu ngồi nƣớc Công tác phân loại đƣợc thƣ viện quan thông tin giới quan tâm Phân loại tài liệu khâu công tác quan trọng giúp cho việc kiểm sốt thƣ mục, góp phần thúc đẩy việc khai thác, trao đổi thông tin phạm vi quốc gia quốc tế Trên giới số thƣ viện lớn Việt Nam, phân loại đƣợc áp dụng sâu rộng việc tổ chức kho mở tra cứu thông tin 1.2.1 Tổng quan giới Theo Yang & Xiu, 1999, “việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tƣơng tự văn so với văn đƣợc gán nhãn tập huấn luyện” Từ trƣớc đến nay, phân loại văn tự động tiếng Anh có nhiều cơng trình nghiên cứu đạt đƣợc kết đáng khích lệ Dựa thống kê Yang & Xiu (1999) tìm hiểu em, số phƣơng pháp phân loại thông dụng là: Support Vector Machine (SVM) – Joachims năm 1998, k-Nearest Neighbor –Yang năm 1994, Linear Least Squares Fit Yang and Chute năm 1994 Neural Network -Wiener et al năm 1995, Naïve Bayes Baker and Mccallum năm 2000, Centroid- based- Shankar and Karypis năm 1998 Các Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học phƣơng pháp dựa vào xác suất thống kê thông tin trọng số từ văn Chi tiết ý tƣởng cơng thức tính tốn phƣơng pháp đƣợc em trình bày chƣơng 2, mục 2.3 Mỗi phƣơng pháp phân loại văn có cách tính tốn, áp dụng cơng thức khác nhau, nhiên, nhìn cách tổng quan phƣơng pháp phải thực số bƣớc chung nhƣ sau: đầu tiên, phƣơng pháp dựa thông tin xuất từ văn (ví dụ tần số, số văn chứa từ…) để biểu diễn văn thành dạng vector Sau đó, tuỳ phƣơng pháp mà ta áp dụng công thức cách thức tính tốn khác để thực việc phân loại Đối với tiếng Anh, kết lĩnh vực khả quan, tiếng Việt, cơng trình nghiên cứu phân loại văn gần có số kết ban đầu nhƣng nhiều hạn chế Nguyên nhân bƣớc đầu tiên, gặp khó khăn việc xử lý văn để rút tần số xuất từ Trong đó, để phân loại văn nói bƣớc quan trọng bƣớc tách từ sai việc phân loại hầu nhƣ khơng thể thành cơng đƣợc Phần trình bày cho biết thách thức đặt việc tách từ tiếng Việt, nhƣ ứng dụng thú vị 1.2.2 Tổng quan nƣớc Vấn đề phân loại văn tiếng Việt đƣợc nhiều sở nghiên cứu nƣớc quan tâm năm gần Một số cơng trình nghiên cứu đạt đƣợc kết khả quan Các hƣớng tiếp cận toán phân loại văn đƣợc nghiên cứu bao gồm: hƣớng tiếp cận toán phân loại lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, cách tiếp cận thống kê, cách tiếp cận sử dụng phƣơng pháp học không giám sát đánh mục Nhìn chung, cách tiếp cận cho kết tốt Tuy để đến triển khai khả thi cần đẩy mạnh nghiên cứu nhƣng dựa hƣớng nghiên cứu Một khó khăn việc áp dụng thuật toán phân loại văn vào tiếng Việt xây dựng đƣợc tập hợp từ vựng văn Vấn đề liên quan tới việc phân tách câu thành từ cách xác Có thể kể đến cơng trình nghiên cứu GS.TSKH Hoàng Kiếm TS Đỗ Phúc Đối với tiếng Anh, “từ nhóm ký tự có nghĩa đƣợc tách biệt với khoảng trắng câu” (Webster Dictionary), việc tách từ trở nên đơn giản Trong tiếng Việt, ranh giới từ không đƣợc xác định mặc định khoảng trắng mà tùy thuộc vào ngữ cảnh dùng câu tiếng Việt Ví dụ từ tiếng Anh “book”, “cat”, “stadium” tiếng Việt “quyển sách”, “con mèo”, “sân vận động” Vấn đề thực đƣa thách thức Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học - ngƣời làm tin học Thách thức có hay Khi giải đƣợc việc tách từ cách xác, kết mà đạt đƣợc bƣớc phát triển hƣớng nghiên cứu có liên quan đến việc xử lý ngôn ngữ tự nhiên nhƣ: phân loại văn bản, dịch tự động, kiểm tra lỗi tả, kiểm tra ngữ pháp… Đây ứng dụng cần thiết ngƣời mục tiêu ngƣời hƣớng tới Theo nghiên cứu, phƣơng pháp tách từ sau có nguồn gốc từ tiếng Hoa đƣợc thử nghiệm tiếng Việt: Maximum Matching: forward/backward hay gọi LRMM (Left Right Maximum Matching); giải thuật học cải biến TBL; mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finite-state Transducer); giải thuật dựa nén (compression);….Theo cách tiếp cận trên, điều kiện quan trọng cần có hệ thống từ điển ngữ liệu đánh dấu đầy đủ, chuẩn xác Một từ điển hay tập ngữ liệu khơng hồn chỉnh làm giảm hiệu suất thuật toán Gần đây, phƣơng pháp tách từ đƣợc giới thiệu có ƣu điểm khơng cần đến tập liệu hay từ điển để lấy thông tin thống kê hay trọng số từ, phƣơng pháp Internet and Genetics Algorithm-based Text Categorization (IGATEC) H Nguyen et al (2005) Điểm sáng tạo thuật toán kết hợp thuật tốn di truyền với việc trích xuất thông tin thống kê từ Internet thông qua cơng cụ tìm kiếm (ví dụ nhƣ Google) thay lấy từ tập liệu nhƣ phƣơng pháp trƣớc Để thực bƣớc tách từ luận văn em dựa ý tƣởng mơ hình N-gram chia văn thành nhiều chuỗi, chuỗi gồm hai, ba ký tự trở lên với tập liệu xây dƣng thô liệu đƣợc phân loại sẵn 1.3 Mục tiêu luận văn Tìm hiểu thuật tốn Nạve Bayes ứng dụng vào xây dựng chƣơng trình phân loại văn 1.4 Nội dung thực i) Tìm tập liệu bao gồm tập kiểm thử chƣơng trình tập máy học bao gồm test đó: + Tập máy học bao gồm báo đƣợc phân loại theo tri thức, phân loại thủ công hay dựa vào đề tài để phân loại làm liệu + Tập dùng để kiểm thử tập hợp báo đƣợc phân loại sẵn dùng để kiểm thử chƣơng trình lấy kết thống kê hồn thành chƣơng trình ii) Tìm hiểu phƣơng pháp tách từ để chọn phƣơng pháp phù hợp Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học iii) Tách từ, xóa stop word dựa phƣơng pháp chọn tập liệu tìm đƣợc iv) Tìm hiểu phƣơng pháp tính trọng số từ, chọn lựa phƣơng pháp phù hợp v) Rút trích đặc trƣng ƣớc lƣợng xác suất theo phƣơng pháp Naïve Bayes vào chƣơng trình phân loại văn tiếng Việt v) Thử nghiệm rút kết luận Hồ Diên Công – Lớp 53K2 - Khoa CNTT Đồ án tốt nghiệp đại học = 0.50 × 0.17 × 0.33 × 0.17 = 0.0048 P(d6|spam) =P(good|spam) × P(bad|spam) × P(very|spam) × P(bad|spam) = 0.10 × 0.50 × 0.40 × 0.50 = 0.010 iv) Tính xác suất sau (posterior probability): P(ham|d6) = P(d6|ham) × P(ham)/P(d6) = 0.0048 × 0.40/P(d6) = 0.0019/P(d6) P(spam|d6) = P(d6|spam) × P(spam)/P(d6) = 0.010 × 0.60/P(d6) = 0.0060/P(d6)  Phân lớp: P(ham|d6) < P(spam|d6) ⇒ d6 thuộc lớp "spam" Hồ Diên Công – Lớp 53K2 - Khoa CNTT 26 Đồ án tốt nghiệp đại học CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH Thơng qua kiến thức có đƣợc tìm hiểu thuật tốn phân loại văn em xây dựng chƣơng trình phân loại tài liệu Chƣơng trình đƣợc viết ngơn ngữ C# Chƣơng trình đƣợc xây dựng nhằm mục đích phân loại tệp tài liệu theo chun ngành , ngồi cịn cho phép huấn luyện đề tài theo ý muốn ngƣời sử dụng có tập liệu chuẩn Kết nối sở liệu cho phép ngƣời dùng thao tác thêm sửa xóa liệu nhƣ: từ phổ thông, chuyên ngành, báo…vv 4.1 Xây dựng sở liệu Trong trình xây dựng chƣơng trình xây dựng phân loại văn cần trải qua bƣớc nhƣ: huấn luyện văn bản, phân loại văn chƣa kể đền bƣớc nhỏ trình thực nhƣ: tách từ, loại bỏ ký tự đặc biệt, xóa topsword, giữ lại từ có nghĩa nên địi hỏi phải có sở liệu để lƣu trữ thông tin cần thiết 4.1.1 Từ điển tiếng Việt Bảng 4.1 Thuộc tính thực thể STT TÊN TRƢỜNG DIỄN GIẢI Mã chuyên ngành KIỂU DỮ LIỆU KÍCH CỠ ChuyenNganhID TenChuyenNganh Tên chuyên ngành Chuỗi BaiBaoID Mã báo Số nguyên TenBaiBao Tên báo Chuỗi 100 DuongDan Đƣờng dẫn báo Chuỗi 100 TuID Mã từ đƣợc tách Số nguyên Tu Từ đƣợc tách Chuỗi WordWeight Số lần xuất từ Số nguyên TPTID Mã từ phổ thông Số nguyên 10 TPT Từ phổ thông Chuỗi 11 UserID Mã tài khoản Số nguyên 12 Pass Mật Khẩu Chuỗi 50 13 FullName Tên đầy đủ Chuỗi 50 14 Sex Giới tính Số ngun Hồ Diên Cơng – Lớp 53K2 - Khoa CNTT Số nguyên 100 50 50 27 Đồ án tốt nghiệp đại học 4.1.2 Mô tả thực thể Bảng 4.2 Bảng Chuyên ngành STT TÊN TRƢỜNG ChuyenNganhID Mã chuyên ngành Số nguyên ChuyenNganh Chuỗi DIỄN GIẢI Tên chuyên ngành KIỂU DỮ LIỆU Thực thể : ChuyenNganh Tên thực thể : Chuyên ngành Ý nghĩa : Dùng để lƣu trữ tên chuyên ngành Bảng 4.3 Bảng tài khoản STT TÊN TRƢỜNG UserID Mã tài khoản Số nguyên Pass Mật tài khoản Chuỗi FullName Tên đầy đủ Chuỗi Sex Giới tính Số nguyên DIỄN GIẢI KIỂU DỮ LIỆU Thực thể : User Tên thực thể : Tài khoản đăng nhập chƣơng trình để quản lý Ý nghĩa : Dùng để lƣu trữ thông tin ngƣời dùng Bảng 4.4 Từ đƣợc tách STT TÊN TRƢỜNG TuID Mã từ đƣợc tách Số nguyên Tu Từ đƣợc tách Chuỗi WordWeight Số lần xuất Số nguyên BaiBaoID DIỄN GIẢI Mã báo chứa từ đƣợc tách KIỂU DỮ LIỆU Số nguyên Thực thể : TuDuocTach Tên thực thể : Từ đƣợc tách Ý nghĩa : Lƣu trữ từ đƣợc tách từ báo số lần xuất từ báo Hồ Diên Cơng – Lớp 53K2 - Khoa CNTT 28 Đồ án tốt nghiệp đại học Bảng 4.5 Bảng từ phổ thông STT TÊN TRƢỜNG TPTID Mã từ phổ thông Số nguyên TPT Từ phổ thông Chuỗi DIỄN GIẢI KIỂU DỮ LIỆU Thực thể : TuPhoThong Tên thực thể : Từ phổ thông Ý nghĩa : Dùng để lƣu trữ từ thông dụng thƣờng xuất báo Bảng 4.6 Bảng báo STT TÊN TRƢỜNG DIỄN GIẢI KIỂU DỮ LIỆU BaiBaoID Mã báo Số nguyên TenBaiBao Tên báo Chuỗi DuongDan Đƣờng dẫn báo Chuỗi ChuyenNganhID Mã chuyên ngành Số nguyên Thực thể : BaiBao Tên thực thể : Bài báo Ý nghĩa : Dùng để lƣu trữ thông tin báo đƣợc huấn luyện 4.1.3 Mơ hình sở liệu Hình 4.1 Mơ hình sở liệu Hồ Diên Công – Lớp 53K2 - Khoa CNTT 29 Đồ án tốt nghiệp đại học Bƣớc 1: Chuyển thực thể thành mối quan hệ tƣơng ứng tạo khóa cho quan hệ Bảng 4.11 Bảng mối quan hệ thực Tên quan hệ Quan hệ ChuyenNganh ChuyenNganh(ChuyenNganhID,TenChuyenNganh) User User(UserID,Pass,Fullname,Sex) TuPhoThong TuPhoThong(TPTID,TPT) TuDuocTach TuDuocTach(TuID, Tu, WordWeight) BaiBao BaiBao(BaiBaoID,TenBaiBao,DuongDan) Bƣớc 2: Chuyển mối kết hợp thành quan hệ có khóa khóa ngoại Bảng 4.12 Bảng mối kết hợp thực thể Tên quan hệ Quan hệ ChuyenNganh ChuyenNganh(ChuyenNganhID,TenChuyenNganh) User User(UserID,Pass,Fullname,Sex) TuPhoThong TuPhoThong(TPTID,TPT) TuDuocTach TuDuocTach(TuID, Tu, WordWeight,#BaiBaoID) BaiBao BaiBao(BaiBaoID,TenBaiBao,DuongDan,#ChuyenNganhID) 4.1 Xây dựng giao diện phân loại văn 4.1.1 Lƣu đồ phân loại văn Dữ liệu báo (thƣ mục, báo) Giai đoạn huấn luyện (tách từ, loại bỏ từ phổ thông, loại bỏ ký tự đặc biệt,…) Dữ liệu thu đƣợc sau huấn luyện Lớp văn Giao đoạn phân loại ( Sử dụng thuật tốn Nạve Bayes) Văn đƣợc phân loại Hình 4.2 Lƣu đồ phân loại văn Hồ Diên Công – Lớp 53K2 - Khoa CNTT 30 Đồ án tốt nghiệp đại học 4.1.4 Thiết kế giao diện Giao diện chƣơng trình đƣợc thiết kế với mục đích đem lại dễ dàng việc huấn luyện nhƣ phân loại văn Hình 4.3 Giao diện chƣơng trình - Button đăng nhập: Dùng để thực thao tác đăng nhập - Button đăng xuất: Dùng để thực thao tác đăng xuất khỏi hệ thống - Button đổi mật khẩu: Dùng để thực thao tác đổi mật - Button thông tin: Hiển thị thông tin chƣơng tình - Button trợ giúp: Hiện thị form trợ giúp hƣớng dẫn sử dụng chƣơng trình Hồ Diên Cơng – Lớp 53K2 - Khoa CNTT 31 Đồ án tốt nghiệp đại học 4.1.5 Xây dựng chức i) Huấn luyện văn Hình 4.4 Huấn luyện văn - Combobox Chuyên Ngành: Hiện thị chuyên ngành - Button Duyệt file: Tìm báo cần huấn luyện - Button Thực hiện: Thực trình huấn luyện báo GridView - Button Xóa: Gỡ báo vừa chọn khỏi danh sách chuẩn bị huấn luyện – Datagrid View: Hiển thị danh sách báo chọn Hồ Diên Công – Lớp 53K2 - Khoa CNTT 32 Đồ án tốt nghiệp đại học ii) Phân loại văn Hình 4.5 Phân loại văn - Textbox: Hiện thị đƣờng dẫn file cần phân loại - Button Duyệt file: Tìm báo cần phần loại - Button Thực hiện: Thực trình phân loại - Textbox : Hiện thị q trình tính thơng báo văn thuộc lớp iii) Quản lý sở liệu Ngồi chức huấn luyện phân loại văn chƣơng trình cịn cho phép quản lý thông tin nhƣ: báo, từ phổ thông, chuyên ngành…vv  Quản lý chuyên ngành: Cho phép thao tác thêm, sửa, xóa chun ngành Hình 4.6 Quản lý chun ngành - Textbox Chuyên Ngành: Cho phép nhập liệu tên chuyên ngành Hồ Diên Công – Lớp 53K2 - Khoa CNTT 33 Đồ án tốt nghiệp đại học - Button Thêm:Thực thao tác thêm chuyên ngành - Button Xóa: Thực thao tác xố chun ngành có sẵn sở liệu - Datagrid View Chuyên ngành: Hiển thị danh sách chuyên ngành  Quản lý báo: Quản lý báo sử dụng trình huấn luyện Hình 4.7 Quản lý báo - Datagrid View báo: Hiển thị danh sách báo - Button Xóa: Thực thao tác xoá báo huấn luyện sở liệu - Button Xem nội dung báo: Xem nội dung báo Hồ Diên Công – Lớp 53K2 - Khoa CNTT 34 Đồ án tốt nghiệp đại học KẾT LUẬN i Kết đạt đƣợc Với yêu cầu đặt việc nắm bắt thuật toán Naïve Bayes để hiểu cách thức phân loại tài liệu theo chuyên ngành huấn luyện sẵn, chƣơng trình đáp ứng đƣợc yêu cầu Cùng với đó, chƣơng trình cung cấp thêm số chức giúp cho việc thêm sửa xóa, quản lý báo cách dễ dàng thuận tiện Sau thời gian thực đề tài em hồn thành đƣợc cơng việc cụ thể sau: - Tìm hiểu cài đặt thành cơng thuật tốn Nạve Bayes ngôn ngữ C# - Xây dựng form huấn luyện cho phép ngƣời dùng huấn luyện văn bản, tạo chuyên ngành có tập liệu chuẩn - Không cho phép thao tác báo mà thao tác tập liệu - Tìm hiểu sơ lƣợc thuật toán phân loại văn bản, ƣu nhƣợc điểm thuật tốn Nạve Bayes so với thuật tốn khác - Phân tích nội dung thiết lập sở liệu để xây dựng phần mềm - Xây dựng phần mềm phân loại tài liệu theo chủ đề - Bƣớc đầu đáp ứng đƣợc chức theo yêu cầu thiết kế ý tƣởng ii Hạn chế đề tài - Do thời gian nghiên cứu có hạn khả cịn hạn chế nên số chức em chƣa làm đƣợc, vẩn cịn ý tƣởng - Do kiến thức hạn chế nên chƣa thể cài đặt thuật tốn tách từ theo mơ hình N-Gram - Lần đầu tiếp xúc với công cụ hỗ trợ làm form DevExpress nên chƣa đƣợc linh hoạt phù hợp, nhiều khiếm khuyết iii Hƣớng khắc phục phát triển đề tài Trong thời gian tới, bên cạnh sử dụng thuật tốn Nạve Bayes để phân loại văn bản, đề tài muốn sử dụng thêm thuật toán khác để so sánh đƣợc độ xác thuật tốn Do nhiều hạn chế thời gian kiến thức, luận văn số vấn đề phải tiếp tục hoàn thiện phát triển thời gian tới nhƣ: - Cài đặt thuật toán tách từ theo mơ hình ngơn ngữ N-Gram nhằm cải thiện độ xác xử lý văn có nội dung tiếng Việt Hồ Diên Công – Lớp 53K2 - Khoa CNTT 35 Đồ án tốt nghiệp đại học - Xây dựng danh sách hồn thiện từ phổ thơng, ký tự đặc biệt nhẳm loại bỏ yếu tố gây nhiễu trình huấn luyện nhƣ phân loại văn - Thực thử nghiệm số lƣợng lớn văn chƣa đƣợc phân loại Hồ Diên Công – Lớp 53K2 - Khoa CNTT 36 Đồ án tốt nghiệp đại học TÀI LIỆU THAM KHẢO [1] T.S Hoàng Hữu Việt, giảng Dạng mẫu maximum-likelihood and bayesian parameter estimation [2]Hồ Quốc Bảo, Đơng Thị Bích Thủy, Ứng dụng xử lý ngơn ngữ tự nhiên tìm kiếm thông tin văn tiếng việt [3] T.S Hồng Hữu Việt ,Tài liệu Lập trình C# cho ứng dụng sở liệu [4] Trần Thị Thu Thảo, Vũ Văn Chinh, Báo cáo nghiên cứu khoa học đề tài: xây dựng hệ thống phân loại tài liệu tiếng Việt [5] LinQ To SQL Địa : https://www.tutorialspoint.com/asp.net/asp.net_linq.htm [6] Địa http://stackoverflow.com/ [7] Công cụ hồ trợ thiết kế form DevExpress địa : https://www.devexpress.com/ [8] Công cụ hồ trợ thiết kế form DevComponents địa : http://www.devcomponents.com/ [9] Lập trình cơng cụ Microsoft Visual Studio Hồ Diên Công – Lớp 53K2 - Khoa CNTT 37 Đồ án tốt nghiệp đại học PHỤ LỤC Danh sách từ tầm thƣờng (stopword) bạn chúng cần họ chúng tao vừa mày chúng mày gồm chúng anh tơi chị dƣới ngồi anh chị tơi mày bạn bạn vài sau đằng sau trƣớc trái phải bên vì đồng thời cụ thể tuy chín mặc kệ lại phải bên cuối trƣớc bên trái bên phải mà vậy sau đằng bao gồm Hồ Diên Công – Lớp 53K2 - Khoa CNTT nên tám riêng tao mày tớ 38 Đồ án tốt nghiệp đại học bên dƣới nhiều cuối trừ mi vào lúc chí dù lúc lúc lúc dù mà bị đƣợc Hay khoảng chừng cỡ chừng dù thuộc khoảng nên với nhiều thật thật theo trƣớc cho cho cho rằng năm sáu bảy nhiên hồi trời ôi từ bất dù bất chấp không để thế nhƣng mà Hồ Diên Công – Lớp 53K2 - Khoa CNTT đủ lúc trƣớc trƣớc lúc hầu hết vậy thơi thơi vân vân tức luôn ối trời 39 Đồ án tốt nghiệp đại học tiếp đến mà ối ơ tiếp tục mãi lại lẫn nè liên tiếp nghĩa tức thơi tức khắc mặc mà thế nhƣng nhƣng mà mà mà chƣa qúa hai ba bốn số mặt tự nhƣ hồn tồn ví dụ vân vân cịn có mặt khác liên tục sẵn sàng phía mƣời làm lên Hồ Diên Cơng – Lớp 53K2 - Khoa CNTT 40 ... có hệ thống phân loại tài liệu tiếng Việt Em chọn thực đề tài ? ?Tìm hiểu thuật tốn Nạve Bayes (NB) ứng dụng phân loại tài liệu? ?? nhằm tìm hiểu thử nghiệm phƣơng pháp phân loại văn, tài liệu Trong... theo chuyên ngành Việc thực đề tài ? ?Tìm hiểu thuật tốn Naïve Bayes (NB) ứng dụng phân loại tài liệu? ?? em hy vọng đem đến cách phân loại mới, nhanh chóng hiệu việc phân loại thủ công nhƣ Hồ Diên Công... lên với tập liệu xây dƣng thô liệu đƣợc phân loại sẵn 1.3 Mục tiêu luận văn Tìm hiểu thuật tốn Nạve Bayes ứng dụng vào xây dựng chƣơng trình phân loại văn 1.4 Nội dung thực i) Tìm tập liệu bao gồm

Ngày đăng: 01/08/2021, 10:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan