Hiện trạng

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống phân loại tài liệu tiếng việt (Trang 32)

Theo xu hƣớng phát triển, các hội thảo trong nƣớc về chuyên ngành CNTT rất phổ biến gồm nhiều thể loại và nhiều chủ đề khác nhau. Để phân loại theo từng chuyên mục thì rất khó khăn, mất thời gian và công sức cho công việc sắp xếp và phân chia các bài tham dự hội thảo ra các tiểu ban khác nhau. Hiện nay công việc đó chủ yếu là do những nhà chuyên môn của hội thảo tự phân loại một cách thủ công, nghĩa là phải đọc hết bài tham dự rồi mới quyết định đƣa bài báo đó vào chuyên ngành nào cho phù hợp. Nhƣ vậy không tránh khỏi tính chủ quan trong việc phân loại vì ngƣời phụ trách chỉ có chuyên môn trong một số lĩnh vực, bên cạnh đó công việc này tốn rất nhiều thời gian và công sức, không thể tránh khỏi các nhầm lẫn khi một bài báo thuộc chuyên ngành này lại đƣợc xếp vô một chuyên ngành khác. Điều đó gây ra khó khăn cho các thành viên của tiểu ban phụ trách vì họ không thuộc chuyên ngành của bài báo nên khó mà đƣa ra những đánh giá cũng nhƣ những ý kiến đóng góp thiết thực.

Chính vì thế để có thể trình bày những hiểu biết của chúng em về thuật toán Naïve Bayes, chúng em sẽ ứng dụng vào việc xây dựng một chƣơng trình có thể phân loại các bài báo theo các chuyên ngành khác nhau đã đƣợc quy định từ trƣớc, các chuyên ngành này quy định dựa trên việc khảo sát một số hội thảo nhƣ: hội thảo Fair, Hội thảo @ Cần Thơ.

Bao gồm các chuyên ngành:

- Các hệ thống tính toán đi động - Công nghệ đa phƣơng tiện - Công nghệ phần mềm

- Cơ sở toán học của công nghệ thông tin - Hệ thống thông tin

- Mạng máy tính và truyền thông - Trí tuệ nhân tạo

- Xử lý ngôn ngữ tự nhiên và tiếng nói

Qua đó giảm bớt khối lƣợng công việc, rút ngắn thời gian phân loại của ban tổ chức hội thảo, đồng thời cũng tăng tính chính xác khách quan của việc phân loại vì dựa trên tập dữ liệu huấn luyện.

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống phân loại tài liệu tiếng việt (Trang 32)