Việt cho nội dung các trang báo.
- _ Để xuất cơ chế chọn bài hotnews, cơ chế phân loại lĩnh vực.
* Số liệu thống kê tại các thành phố lớn của Việt Nam (do tổng dài 1080
cung cấp ngày 4/12/2000)
Các kết quả thống kê:
Để thực hiện để tài này, chúng tôi đã xây dựng hệ thống thông tin cho việc
quần lý nội dung, hình ảnh, âm thanh của bài báo, các đối tượng sử dụng và
quyển hạn thao tác trên dữ liệu. Thực hiện xây dựng các giao tác của đối
tượng người dùng. Và gặp rất nhiều khó khăn trong trong việc tranh chấp tài nguyên, kết nối với cơ sở dữ liệu. Quá trình kiểm tra gặp rất nhiều vấn tài nguyên, kết nối với cơ sở dữ liệu. Quá trình kiểm tra gặp rất nhiều vấn
để khi các đối tượng cùng tham gia đọc báo, gửi bài. Và cuối cùng sau khi vượt qua các khó khăn này, chúng tôi đã thực hiện giả lập trên 2 loại báo:
Tuổi trẻ và Lao động.
Để đưa ra mô hình cho thuật toán chọn keyword trên 200 văn bản được dùng thử nghiệm với nội dung là các bài báo từ Internet. Số từ trung bình
trong mỗi bài báo 1000 từ đơn. Các từ khóa đều nằm trong danh mục các
từ của chuyên ngành mà bài báo này trực thuộc.
Với gần 200 bài báo từ các trang Web của báo Lao động, Nhân dân, trang tin tức của Vnn,... đem vào cho công đoạn phân loại lĩnh vực, 97% bài được
phân loại đúng lĩnh vực xuất phát ban đầu của các bài báo này.
Và các bài báo hotnews của từng số báo đã được đề nghị tương ứng.
Tuy nhiên vì đây là một để tài rất mới, nên đề tài không thể kế thừa được
kết quả của các để tài khác. Hy vọng những nỗ lực khi thực hiện để tài này
là bước mở đâu khả quan cho tình hình xuất bản tạp chí hiện nay.
7.2 Hướng phát triển của hệ thống
Sau giai đoạn thử nghiệm này chúng tôi sẽ nghiên cứu phát triển đề tài tiếp
tục theo những hướng mở để hoàn chỉnh hơn hệ thống này.
Do tình hình hệ thống xuất bản tạp chí điện tử đang ở trong giai đoạn đầu
nên để tài này còn rất nhiều hướng phát triển khá lý thú:
Xây dựng hoàn chỉnh hệ thống thanh toán điện tử cho các loại
báo. Đây chính là một trong những lý do làm cho các cơ quan báo chí e dè trong việc đưa nội dung thông tin lên Internet.
Mở rộng hệ thống, cung cấp dịch vụ quảng cáo, dịch vụ quản lý
nhân sự cho từng loại báo tham gia và hệ thống. Do đã thực hiện
việc quản lý các nhân sự, đối tượng quảng cáo nên việc cung cấp
tính năng này là điều có thể thực hiện được.
Cải thiện tính thông minh cho loại báo, nghiên cứu và hoàn thiện các thuật toán phân loại văn bản theo nội dung.
Có thể áp dụng các khái niệm về máy học, khai khoáng dữ liệu để
tạo hệ thống tự điển cho lĩnh vực với độ chính xác cao hơn nâng cao kết quả của việc phân loại theo nội dung.
PHỤ LỤC
Tài liệu tham khảo
Tài liệu tiếng Việt lễ
2.
Hoàng Phê, Tờ điển chính tả, Nhà xuất bản Đà Nẵng, 1989.
Hoàng Phê chủ biên, Từ điển Tiếng Việt, Nhà xuất bản Đà Nẵng, 2000.
Huỳnh Văn Gia, Tự động rút trích từ khóa đa ngôn ngữ, Báo cáo môn
học Hệ thống thông tin lớp Cao học khóa 8,1999.
. Nguyễn Đức Hải, Phân tích cú pháp câu tiếng Việt và ứng dụng vào
việc bắt lỗi chính tả, Luận văn Cử nhân, 1998, Trường ĐH Khoa Học
Tự Nhiên, (chương 2).