Nghiên cứu, đề xuất và cài đặt phương pháp tìm từ khóa tiếng

Một phần của tài liệu Đề Tài: Xây dựng hệ thống Auto intelligent web publishing ứng dụng xuất bản tạp chí điện tử. potx (Trang 80 - 85)

Việt cho nội dung các trang báo.

- _ Để xuất cơ chế chọn bài hotnews, cơ chế phân loại lĩnh vực.

* Số liệu thống kê tại các thành phố lớn của Việt Nam (do tổng dài 1080

cung cấp ngày 4/12/2000)

Các kết quả thống kê:

Để thực hiện để tài này, chúng tôi đã xây dựng hệ thống thông tin cho việc

quần lý nội dung, hình ảnh, âm thanh của bài báo, các đối tượng sử dụng và

quyển hạn thao tác trên dữ liệu. Thực hiện xây dựng các giao tác của đối

tượng người dùng. Và gặp rất nhiều khó khăn trong trong việc tranh chấp tài nguyên, kết nối với cơ sở dữ liệu. Quá trình kiểm tra gặp rất nhiều vấn tài nguyên, kết nối với cơ sở dữ liệu. Quá trình kiểm tra gặp rất nhiều vấn

để khi các đối tượng cùng tham gia đọc báo, gửi bài. Và cuối cùng sau khi vượt qua các khó khăn này, chúng tôi đã thực hiện giả lập trên 2 loại báo:

Tuổi trẻ và Lao động.

Để đưa ra mô hình cho thuật toán chọn keyword trên 200 văn bản được dùng thử nghiệm với nội dung là các bài báo từ Internet. Số từ trung bình

trong mỗi bài báo 1000 từ đơn. Các từ khóa đều nằm trong danh mục các

từ của chuyên ngành mà bài báo này trực thuộc.

Với gần 200 bài báo từ các trang Web của báo Lao động, Nhân dân, trang tin tức của Vnn,... đem vào cho công đoạn phân loại lĩnh vực, 97% bài được

phân loại đúng lĩnh vực xuất phát ban đầu của các bài báo này.

Và các bài báo hotnews của từng số báo đã được đề nghị tương ứng.

Tuy nhiên vì đây là một để tài rất mới, nên đề tài không thể kế thừa được

kết quả của các để tài khác. Hy vọng những nỗ lực khi thực hiện để tài này

là bước mở đâu khả quan cho tình hình xuất bản tạp chí hiện nay.

7.2 Hướng phát triển của hệ thống

Sau giai đoạn thử nghiệm này chúng tôi sẽ nghiên cứu phát triển đề tài tiếp

tục theo những hướng mở để hoàn chỉnh hơn hệ thống này.

Do tình hình hệ thống xuất bản tạp chí điện tử đang ở trong giai đoạn đầu

nên để tài này còn rất nhiều hướng phát triển khá lý thú:

Xây dựng hoàn chỉnh hệ thống thanh toán điện tử cho các loại

báo. Đây chính là một trong những lý do làm cho các cơ quan báo chí e dè trong việc đưa nội dung thông tin lên Internet.

Mở rộng hệ thống, cung cấp dịch vụ quảng cáo, dịch vụ quản lý

nhân sự cho từng loại báo tham gia và hệ thống. Do đã thực hiện

việc quản lý các nhân sự, đối tượng quảng cáo nên việc cung cấp

tính năng này là điều có thể thực hiện được. (adsbygoogle = window.adsbygoogle || []).push({});

Cải thiện tính thông minh cho loại báo, nghiên cứu và hoàn thiện các thuật toán phân loại văn bản theo nội dung.

Có thể áp dụng các khái niệm về máy học, khai khoáng dữ liệu để

tạo hệ thống tự điển cho lĩnh vực với độ chính xác cao hơn nâng cao kết quả của việc phân loại theo nội dung.

PHỤ LỤC

Tài liệu tham khảo

Tài liệu tiếng Việt lễ

2.

Hoàng Phê, Tờ điển chính tả, Nhà xuất bản Đà Nẵng, 1989.

Hoàng Phê chủ biên, Từ điển Tiếng Việt, Nhà xuất bản Đà Nẵng, 2000.

Huỳnh Văn Gia, Tự động rút trích từ khóa đa ngôn ngữ, Báo cáo môn

học Hệ thống thông tin lớp Cao học khóa 8,1999.

. Nguyễn Đức Hải, Phân tích cú pháp câu tiếng Việt và ứng dụng vào

việc bắt lỗi chính tả, Luận văn Cử nhân, 1998, Trường ĐH Khoa Học

Tự Nhiên, (chương 2).

Một phần của tài liệu Đề Tài: Xây dựng hệ thống Auto intelligent web publishing ứng dụng xuất bản tạp chí điện tử. potx (Trang 80 - 85)