CHƯƠNG 4 KẾT QUẢ

Một phần của tài liệu TÍCH HỢP GÓI MÃ NGUỒN MỞ TÁCH TỪ TỰ ĐỘNG VÀ ÁP DỤNG VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN THEO NAVIE BAYS (Trang 27)

Mục tiêu đã hoàn thành

- Về các chức năng:

Chương trình xây dựng về cơ bản đã hoàn thành tốt và đáp ứng được các mục tiêu đã đề ra.

Chương trình được xây dựng dựa trên các từ vựng do chúng ta đưa vào nên độ chính xác trong phân loại cũng cao hơn.

- Về giao diện:

Chương trình được xây dựng với giao diện khá trực quan, đáp ứng được các tiêu chí về dễ dử dụng và khá thân thiện.

Sau đây là một số giao diện đã hoàn thành cùng với hướng dẫn sử dụng cơ bản: • Giao diện chương trình

Hình 4.1: Giao diện trang chủ của hệ thống

Trang chủ của hệ thống gồm tiêu đề, các menu vào các phần quản trị và phục vụ cho viêc huấn luyện cũng như phân loại văn bản.

Giao diện trang chủ cũng chứa thông tin về đề tài khái quát về đề tài và thực tập để xây dựng nên hệ thống.

Giao diện mục huấn luyện

Hình 4.2: Giao diện chức năng Huấn luyện phần Huấn luyện

- Giao diện phần huấn luyện: để huấn luyện việc học cho bộ phân loại. Gồm các chức năng chọn lĩnh vực, chọn loại để xem, thêm văn bản và huấn luyện.

+ Chức năng chọn lĩnh vực trong một DropDownList: để chúng ta có thể xem các văn bản được chọn để huấn luyện theo từng lĩnh vực.

+ Chức năng chọn tất cả: để xem tất cả các văn bản được chọn để huấn luyện trong lần huấn luyện hiện tại. Khi chọn vào mục này nút huấn luyện sẽ được bật ta có thể bấm nút huấn huyện.

+ Chức năng thêm văn bản: để có thể thêm hay xóa văn bản được chọn để huấn luyện. Thao tác này sẽ gọi form quản lý văn bản để chúng ta thực hiện các thao tác này. + Chức năng huấn luyện: để huấn luyện trích rút các thông tin, tính toán gồm số từ theo

văn bản, số từ theo lĩnh vực, tổng số từ của lĩnh vực, thông tin về lần huấn luyện và chi tiết huấn luyện.

Giao diện mục phân loại

Hình 4.3: Giao diện chức năng Phân loại

Phần phân loại gồm có các thông tin và chức năng để chúng ta lấy văn bản và đưa vào phân loại chúng. Các chức năng bao gồm chọn bộ dữ liệu huấn luyện để thực hiện phân loại, thêm, xóa văn bản chọn để phân loại và phân loại.

- Chọn bộ dữ liệu: thông tin huấn luyện được lưu trong CSDL gồm nhiều thông tin cho các lần huấn luyện khác nhau. Do vậy bạn cần phải lựa chọn đúng thông tin lần huấn luyện cần thiết. Mặc định sẽ là lần huấn luyện mới nhất được chọn.

- Thêm văn bản phân loại: chọn và đưa văn bản cần phân loại vào phân loại, có thể thêm nhiều văn bản cùng một lúc.

- Xóa văn bản: khi ta chọn nhầm văn bản đưa vào phân loại, hay mục đích phân loại cho một văn bản mà ta đưa vào là không cần thiết ta có thể chọn xóa và xóa văn bản này. - Phân loại: Phân loại văn bản, trong nút này ta sẽ duyệt văn bản trên lưới mã hóa và

trích rút thông tin từ nó sau đó tính xác suất các khả năng phân loại về từng lĩnh vực, xác suất cao nhất sẽ được chọn.

Hình 4.4: Quản lý Văn bản

Hình 4.5: Quản lý văn bản (T)

Khi thêm văn bản tất cả các mục về trạng thái ban đầu ta chỉ cần upload lên từ phía client, sau đó chọn lĩnh vực và loại văn bản và nhấn nút lưu. Có thể thêm nhiều văn bản cùng một lúc các văn bản lúc đo khi lưu sẽ cùng một loại và lĩnh vực (có thể có hoặc không).

Văn bản cũng có thể chọn bằng cách tự tạo file văn bản, file văn bản được lưu trong hệ thống sẽ có phần mở rộng mặc định là ‘.txt’.

Văn bản cũng có thể được thêm bằng cách khác là dùng modul tách văn bản tự động từ các link RSS.

Khi muốn xóa văn bản ta chọn tích vào các mục cần xóa và chọn nút xóa.

Khi muốn sửa thông tin văn bản ta chọn nút sửa sửa chọn lại văn bản nếu muốn hoặc loại hay lĩnh vực cho văn bản sau đó nhấn nút lưu.

Giao diện phần quản lý từ vựng

Hình 4.6: Quản lý Từ vựng

Hình 4.7: Quản lý từ vựng(T)

Nhằm quản lý các từ vựng cho mục đích mã hóa và thống kê dữ liệu cho mục huấn luyện. Các từ ở đây được đưa vào nên là các từ chuyên biệt của từng lĩnh vực để

khi huấn luyện chúng ta có được các kết quả đáng tin cậy, và không đưa trùng lặp từ vựng.

Để thêm một từ vựng ta chọn nút thêm, nhập từ vựng và chọn nút lưu. Ở đây ta còn có thể chọn một văn bản để hiển thị nội dung sau đó copy các từ trong khung này vào từ vựng và lưu lại. Điều này sẽ hạn chế đáng kể thời gian cho mục nhập từ vựng này. Chương trình sẽ tự động chuyển các từ vựng về chữ thường, loại bỏ các dẫu cách thừa đầu và cuối cụm từ sau đó lưu lại. Chương trình cũng sẽ thông bảo khi có từ trùng lặp được đưa vào.

Để xóa một từ ta tích chọn các từ cần xóa và chọn xóa. Để sửa một từ ta chọn nút sửa sau đó sửa và lưu lại. • Giao diện phần quản lý lĩnh vực

Hình 4.8: Quản lý Lĩnh vực

Quản lý các lĩnh vực cần phân loại. Các thông tin quản lý gồm tên lĩnh vực và nơi lưu khi văn bản được phân loại và chuyển đến.

Để thêm một lĩnh vực ta chọn thêm, gõ tên lĩnh vực và chọn thư mục chứa, sau đó chọn lưu để lưu lĩnh vực.

Để xóa một lĩnh vực ta chọn các lĩnh vực cần xóa sau đó nhấn xút xóa. Nếu các thông tin lĩnh vực hiện đang được sử dụng bạn không thể xóa nó. Một thông báo sẽ được hiển thị ra màn hình.

Để sửa thông tin một lĩnh vực ta chọn nút sửa trên lĩnh vực cần sửa, sửa thông tin sau đó chọn lưu để lưu lại.

Giao diện phần quản lý mã hóa

Hình 4.9: Quản lý Mã hóa

Quản lý các thông tin mã hóa của các văn bản khi huấn luyện, các thông tin là đếm số từ tìm được trong danh mục từ vựng trong một văn bản nào đó đưa vào huấn luyện. Thông tin lưu trong bảng là thông tin lưu của lần huấn luyện gần nhất.

Đây là mục được tạo ra tự động do máy tiến hành xử lý nên ta không được phép sửa cũng như thêm mới bất cứ một thông tin nào, điều này sẽ dẫn đến sai lệch trong thông tin huấn luyện. Chúng ta chỉ được phép xem trong mục này.

Chúng ta có thể xem thông tin mã hóa theo từng văn bản trong DropDownList văn bản. Các thông tin mã hóa sẽ được hiển thị lên lưới.

Giao diện phần quản lý huấn luyện

Hình 4.10: Quản lý Huấn luyện

Quản lý thông tin về các lần huấn luyện như là một lịch sử huấn luyện. Huấn luyện sẽ được ta thêm vào khi ta huấn luyện nên ta không thể sửa hay thêm nó. Ở đây ta chỉ có thể xóa bỏ thông tin huấn luyện.

Để xóa thông tin huấn luyện ta chọn mục huấn luyện cần xóa và chọn xóa. • Giao diện phần quản lý chi tiết huấn luyện

Hình 4.11: Quản lý Chi tiết huấn luyện

Quản lý thông tin về các lần huấn luyện một cách chi tiết hơn. Thống kê số từ của từng lĩnh vực mà ta huấn luyện được trong các lần huấn luyện.

Đây cũng là mục được sinh ra từ động nên ta không thể thêm hay sửa bất kỳ thông tin nào. Ta chỉ có thể xem thông tin trong bảng này.

Trong mục này ta cũng có thể chọn xem thông tin theo từng lần huấn luyện. • Giao diện quản lý RSS

Hình 4.12: Giao diện quản lý RSS

Hình 4.13: Giao diện quản lý RSS (T)  Các thiếu sót của chương trình

Chương trình tuy được xây dựng khá đầy đủ các chức năng tuy nhiên do chưa được thử nghiệm nhiều nên khả năng có lỗi xảy ra là không thể thể tránh khỏi.

Do lượng data được lấy tự động để xử lý là rất lớn nên tốc độ huấn luyện cũng như phân loại còn rất chậm.

+ Lỗi về mặt thiết kế: một số trang hiện tại về mặt thiết kế chưa được tối ưu, mới chỉ đáp ứng được về mặt chức năng như các trang quản lý.

+ Một số trang quản lý chưa được bắt lỗi đầy đủ dẫn đến gây khó khăn cho việc thao tác cũng như quản lý.

+ Việc quản lý từ vựng do chúng ta đưa vào do đó độ chính xác của thuật toán sẽ cao nếu như chúng ta đưa vào các từ vựng có độ phân loại cao tuy nhiên nếu chúng ta đưa vào các từ nhiễu sẽ làm giảm độc chính xác của thuật toán.

Khả năng ứng dụng

Chương trình sau khi hoàn thành có thể được ứng dụng trong các trang báo điện tử để phân tin tự động, trong các trang tài liệu trực tuyến,…

Hướng phát triển

Chương trình có thể được phát triển thêm các chức năng phân loại văn bản bằng các thuật toán khác, có thể kết hợp với các chức năng về tóm tắt hay phân cụm văn bản.

Kết luận

Mô hình Bayes là mô hình phân lớp dựa trên xác suất. Trong một số lĩnh vực khả năng áp dụng của nó có thể so sánh với các phương pháp khác như mạng nơ ron hoặc cây quyết định. Trong thực tế mô hình phân loại Bayes thực hiện rât tốt trong phân lớp văn bản như trong các hệ thống phân loại email.

Các thuật toán Bayes tính toán các khả năng cụ thể đối với các kiểu học có giám sát. Việc thiết kế một hệ thống phân lớp Bayes trong thực tế thường dễ dàng hơn so với các phương pháp phân lớp khác vì tính đơn giản của nó và thời gian thực hiện rất nhanh.

Phương pháp Bayes tính xác suất rõ ràng cho các khả năng bằng cách đếm tần suất các kết hợp dữ liệu khác nhau trong tập dữ liệu huấn luyện để tính xác xuất. Tùy theo mỗi mẫu văn bản mà có thể xác xuất thu được sẽ tăng hay giảm phụ thuộc vào lượng từ tính được trong mỗi văn bản. Chính vì thế mà nó uyển chuyển hơn các phương pháp khác.

Phương pháp học theo thuật toán Bayes có tính tăng trưởng tùy theo mẫu huấn luyện, kết quả đưa ra là một xác suất dự đoán. Độ chính xác của thuật toán phụ thuộc nhiều vào dữ liệu huấn luyện ban đầu.

Chương trình mà chúng em xây dựng đã đáp ứng được các yêu cầu về phân loại văn bản theo thuật toán Naïve Bayes. Chương trình có thể lưu lại các dữ liệu trong các

lần huấn luyện để chúng ta có thể dễ dàng sao sánh đánh giá thuật toán Bayes khi mà số lượng văn bản đưa vào huấn luyện thay đổi hay số lượng thuật ngữ thay đổi. Giúp chúng ta có cái nhìn rõ hơn về thuật toán Bayes. Tuy nhiên độ chính xác của chương trình phụ thuộc vào các thông tin mà chúng ta đưa vào hay thông tin và chúng ta huấn luyện.Chương trình có thể được phát triển thêm các chức năng phân loại văn bản bằng các thuật toán khác, có thể kết hợp với các chức năng về tóm tắt hay phân cụm văn bản.

Để xây dựng được chương trình này chúng em xin chân thành cảm ơn sự giúp đỡ và tận tình giảng dạy của cô Nguyễn Thị Thu Hà cùng các thầy cô trong khoa. Chương trình xây dựng có thể còn nhiều thiếu sót mong các thầy cô đóng góp ý kiến để chương trình được hoàn thiện hơn. Chúng em xin chân thành cảm ơn!

Một phần của tài liệu TÍCH HỢP GÓI MÃ NGUỒN MỞ TÁCH TỪ TỰ ĐỘNG VÀ ÁP DỤNG VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN THEO NAVIE BAYS (Trang 27)

Tải bản đầy đủ (DOCX)

(38 trang)
w