BỘ GIÁO DỤC VÀ ĐÀO TẠO
Trang 2MỤC LỤC Lời cám ơn 1 Mục lục 2 Lời mở đầu 6
CHUONG l1 GIỚI THIÊU 9 1.1 Sơ lược về các loại hình truyền thông đại chúng cổ điển 10
1.1.1 Hệ thống xuất bản trên giấy 10
1.1.2 Hé truyén tin qua sóng 11
1.2 Hệ xuất bản tạp chí điện tử 13
CHUONG 2 PHAN TICH HIEN TRANG VA YEU CAU DAT RA
CHO HE THONG 15 2.1 Tổng quan về tình hình xuất bản tạp chí điện tử 16
2.2 Tình hình xuất bản tạp chí điện tử ở Việt Nam hiện nay 18
2.3 Yêu cầu đặt ra cho hệ thống 21 2.4 Thời gian tiến hành 23
2.5 Các yêu cầu về thiết bị và phần mềm 25
Trang 3CHƯƠNG 3 THIẾT KẾ HỆ THỐNG AUTO INTELLIGENT WEB
PUBLISHING26
31 Mô hình hoạt động thực tế khi xuất bản một trang báo 27
3.2 Mô hình đề nghị của hệ thống 28
3.2.1 Mô hình phân cấp các đối tượng bên trong hệ thống 30 3.2.2 Vai trò và nhiệm vụ của người quản trị hệ thống 31
3.2.3 Mô hình hoạt động của một loại báo 32 3.2.4 Tổ chức đữ liệu cho hệ thống 36 3.3 Quản lý việc thanh toán của đối tượng bạn đọc 43 3.4 Tính tự động và thông mỉnh (auto và intelligent) của hệ thống 44
CHƯƠNG 4 ĐẶC DIEM NGU PHAP TIENG VIỆT VÀ VIỆC TÌM
TỪ KHÓA TƯ ĐỘNG 46
41 Khái niệm từ khóa 47
4.2 Tại sao cần có hệ thống các từ khóa (keyword) 47
4.3 Đặc điểm từ loại tiếng Việt 48
4.4 Tạo từ khóa tự động cho văn bản 55 4.4.1 Tạo từ khóa thủ công và những những khó khăn trong việc tìm kiếm
55
4.4.2 Các giai đoạn tạo từ khóa tự động 56
Trang 4CHƯƠNG 5.XÂY DỰNG CÁC MODULE THÔNG MINH CHO HỆ
THỐNG AUTO INTELLIGENT WEB PUBLISHING 60 5.1 Tạo từ khóa cho văn bản tiếng Việt 61 5.1.1 Các nhận xét về đặc điểm từ khóa 61 5.1.2 Mô hình hoạt động và ý tưởng chung 62
5.2 Co ché chon bai hotnews 71
5.2.1 Giai đoạn 1: Hình thành tự điển từ của hotnews 73 5.2.2 Giai đoạn 2: Đánh giá một bài báo thỏa hotnews 74
5.2.3 Ý nghĩa của Tự điển báo 75
5.2.4 Ý nghĩa của Tự điển tổng quát 75
5.3 Cơ chế huấn luyện bộ tự điển 76
5.4 Phân loại văn bản theo lĩnh vực 77 5.4.1 Cơ chế phân loại bài báo theo lĩnh vực 78
5.4.2 Ý nghĩa của từng công đoạn trong cơ chế phân loại lĩnh vực 80
Trang 6Loi mb dau
Ngày nay với nhu cau phát triển ngày càng cao của xã hội, thông tin đã trở thành yếu tố không thể thiếu trong đời sống của con người Các hệ thống truyền thông đại chúng cổ điển như báo chí, đài truyển thanh, đài
truyền hình chưa đáp ứng được nhu câu truy cập thông tin mọi lúc mọi nơi
của người sử dụng Trong khi đó hệ thống Internet ngày càng phát triển và
trở nên phổ biến đối với quảng đại quần chúng Chính sự phát triển của hệ thống Internet đã mở ra một hướng giải quyết cho ngành truyền thông
Khái niệm xuất bản tạp chí điện tử được ra đời
Cho đến nay việc hỗ trợ cho xuất bản tạp chí điện tử đang ở những giai đoạn đầu, đặc biệt là đối với việc xuất bản các tạp chí của Việt Nam
Trong khi đó Việt Nam chúng ta đang rất cần những nguồn thông tin quý giá nhanh chóng, kịp thời để có thể đuổi kịp sự phát triển của các quốc gia
khác Vì thế cần có những nghiên cứu hỗ trợ cho việc xuất bản tạp chí điện
tử một cách thông minh cho chính Việt Nam chúng ta Chính vì mong muốn
này mà chúng tôi đã quyết định nghiên cứu đề tài: Xây dựng hệ thống Auto
Intelligent Web Publishing ứng dụng cho xuất bản tạp chí điện tử
Trang 7Và trong luận văn này sẽ trình bày các phần sau:
Chương 1 - Giới thiệu
Giới thiệu sơ lược về ngành truyền thông đại chúng cổ điển cùng các ưu khuyết điểm Và giới thiệu một hệ truyền thông đại chúng khác đang thu hút sự quan tâm cũng như ủng hộ của nhiều người: hệ thống xuất bản tạp
chí điện tử
Chương 2 - Phân tích hiện trạng và yêu cầu của hệ thống
Với nhu cầu xây dựng một hệ thống cho xuất bản tạp chí
điện tử, chương 2 sẽ thực hiện phân tích một số hiện
trạng và yêu cầu đặt ra cho hệ thống
Chuong 3 - Thiét ké hé thong Auto Intelligent Web Publishing
- Khái quát về lý thuyết trong việc thiết kế các trang
Web cho xuất ban tạp chí điện tử
- Giới thiệu về các phương pháp Lọc tin một cách thông
minh
Chuơng 4 - Cơ sở lý thuyết
Chương này sẽ nêu nền tảng lý thuyết của việc hình
thành keyword cho một văn bản
Chương 5 - Áp dụng phương pháp cho hệ thống Auto Intelligent 'Web Publishing
Trang 8Với cơ sở lý thuyết đã nêu ra ở chương 4, chương 5 sẽ
chọn ra một phương pháp khả thi và áp dụng vào mơ
hình bài tốn của để tài
Chương 6 - Cài đặt
Với những phân tích, thiết kế ở các chương trước chương
này trình bày các màn hình kết quả của công đoạn cài
đặt
Chương 7 - Kết luận và Hướng phát triển
Đánh giá lại toàn bộ hệ thống và phân tích một số ưu
điểm và một số hạn chế trong phương pháp và dé nghị hướng phát triển tiếp theo cho dé tai
Phụ lục:
Trình bày tài liệu tham khảo
Hiển nhiên trong quá trình trình bày cũng như nghiên cứu không thể tránh được các thiếu sót Rất mong được sự đóng góp ý kiến của quý Thầy Cô, đồng nghiệp và mọi người quan tâm để đề tài được hoàn thiện
Trang 9
CHƯƠNG I
Trang 101.1 Sơ lược về các loại hình truyền thông đại
chúng cổ điển
Khi nhắc đến loại hình truyền thông đại chúng, chúng ta thường nghĩ
ngay đến hai hình thức cơ bản: xuất bản trên giấy và truyền tin qua sóng 1.1.1 Hệ thống xuất bản trên giấy
Với hệ xuất bản trên giấy, các Phóng viên thu thập các thông tin,
hình ảnh và gửi tin, bài về tòa soạn và sau đó các bài được hiệu chỉnh, lên
trang in Cuối cùng các trang báo được các hệ thống phát hành phân phối báo đến với đối tượng tiếp nhận thông tin là: người đọc
Qua hệ thống xuất bản trên giấy, người đọc cảm thấy vô cùng thoải
mái vì khoảng thời gian tiếp nhận các thông tin trên báo do bản thân người Giá mà có hình ảnh, âm thanh thì sinh động hơn nhỉ? Xem mục mình thích trước đã
Hình 1: Uu và khuyết điểm của hệ truyền tin qua báo chí đọc chủ động Những nội dung đã được in trên trang báo có thể được đọc
Trang 11ngay khi mua hoặc có thể được đọc lướt qua các tiêu đề, và khi cần có thể
tìm và xem lại nội dung chỉ tiết
Tuy nhiên nhu cầu của người đọc không chỉ dừng lại ở việc tiếp nhận các thông tin thông qua các dòng chữ Nhu cầu được nghe, được thấy những âm thanh sôi động, những hình ảnh linh hoạt cũng là một yếu tố khá
quan trọng
1.1.2 Hệ truyễn tin qua sóng
Hệ truyền tin qua sóng được hình thành đã dẫn dần đáp ứng nhu cầu tiếp nhận thông tin sinh động cho người dùng Ban đầu là hệ truyển thanh
với các đối tượng tiếp nhận thông tin là người nghe đài Sau đến là hệ
truyền hình đã đem đến cho người tiếp nhận thông tin - người xem đài -
Trang 12Vấn để chất lượng thông tin sinh động hơn, thuyết phục hơn là ưu
điểm của hệ thống truyền tin qua sóng, nhưng thời gian tiếp nhận thông tin lại là một vấn để cần suy nghĩ Ở dạng xuất bản trên giấy, mỗi người khác
nhau có thể có trình tự đọc các trang báo khác nhau và chủ động trong thời
gian đọc báo Trong khi đó dạng truyén qua sóng không thể đáp ứng nhu cầu này cho tất cả mọi người được Người nghe, người xem đài phải tiếp
nhận các thông tin theo trình tự của đài phát và phụ thuộc vào giờ phát sóng
Trang 131.2 Hệ xuất bản tạp chí điện tử
Từ những ưu khuyết điểm của hai hệ thống trên, một câu hỏi tất yếu
đã được đặt ra: "Liệu có một hệ thống nào có thể giúp cho người nhận tin có thể vừa tiếp nhận những thông tin dạng multimedia, vừa có thể chủ động
trong thời gian nhận tin hay không?" Câu trả lời đã bắt đầu có lời giải đáp
khi hệ thống Internet ngày càng phục vụ nhiều tính năng hơn (như tính
multimedia, khả năng phục vụ 24/24 bất cứ khi nào bạn kết nối vào, ) và
ngày càng phổ biến với mọi người hơn Ø đây cũng có cả hình ảnh và âm thanh minh họa nữa Trên Internet mình đã có thể chủ động thời gian và trình tư xem rỒi
Hình 3: Ưu điểm của hệ xuất bản tạp chí điện tử
Ở các nước trên thế giới, các trang Web xuất bản các tạp chí chuyên
ngành như www.elsevier.com, www.computer.org, cũng đã tổ chức và
phục vụ việc truyền thông tin đến với người dùng rất tốt Các hãng truyền
Trang 14hình nổi tiếng trên thế giới như CNN đã hình thành trang Web đưa các thông tin của họ đến với người sử dụng Internet
Nhưng thật ra hệ thống Internet chỉ là câu trả lời cho hình thức truyền
tin, vấn để cần quan tâm là làm thế nào tổ chức được một hệ thống thu thập thông tin, chọn lọc và trình bày tất cả các thông tin và đến với người tiếp
nhận thông tin — những bạn đọc trên Internet
Trang 15
CHƯƠNG 2
PHAN TICH HIEN TRANG
Trang 162.1 Tổng quan về tình hình xuất bản tạp chí điện
2
tử
Có thể nói khái niệm xuất bản tạp chí điện tử đến nay không phải là
một khái niệm hòan toàn xa lạ, đã có những hãng truyên hình, nhà xuất bản đã đưa các thông tin của mình đến với người dùng Internet
Template Trang Web nội dung +
Trang | Trang Web
Web Nội dùng lạ mộ; dung Cc Nội dung hình thức tinh động động Đã phát triển
Hình 4: Các giai đoạn của hệ xuất bản tạp chí điện tử
Khái niệm xuất bản tạp chí điện tử đến nay đã và đang trải qua 3 giai
đoạn:
-_ Giai đoạn 1 - trang Web tĩnh: với giai đoạn đầu, nội dung các trang Web được trình bày trên các trang HTML đơn thuần Nội
dung các trang HTML được được bất biến từ ngày này sang này
khác Khi có nhu câu sửa đổi, cập nhật, nội dung cũ sẽ mất hoàn
tồn, khơng thể nào xem lại được nội dung cũ
Trang 17Ưu điểm: với cách thức này việc trình bày lại nội dung rất dơn
giản, chỉ cần thực hiện một cách thủ công xóa nội dung cũ và thay
hẳn bằng nội dung mới
Khuyết điểm: Các nội dung cũ sẽ bị mất hoàn toàn, hoặc tên tập
tin HTML bị thay đổi, không còn vết để quay trổ lại tham khảo
nội dung cũ
Giai đoạn 2 - trang Web nội dung động: ở giai đoạn này các trang Web không đơn thuần là các tập tin HTML nữa mà thay vào đó là hai thành phần: một là nội dung và một là khuôn mẫu (template) Nội dung được tổ chức thành hệ thống dữ liệu và do
các hệ quản trị cơ sở dữ liệu quản lý Template quy định cách
trình bày các thành phần nội dung Khi người dùng có nhu cầu
xem nội dung của một ngày hoặc một khoảng thời gian, một phiên
bản (nói chung là có yêu cầu liên quan đến thời gian), yêu cầu về thành phần sẽ được lấy tương ứng từ cơ sở dữ liệu và đổ vào
khuôn template
Uu điểm: Các nội dung vẫn tổn tại trong cơ sở dữ liệu Việc quay
lại vết cũ thực chất là truy vấn lại trong cơ sở dữ liệu theo yếu tố
thời gian
Khuyết điểm: do hệ thống phải tổ chức lưu trữ nội dung nên việc
xây dựng hệ thống khá phức tạp Bên cạnh đó do chỉ có một khuôn mẫu nên việc trình bày trở nên đơn điệu
Giai đoạn 3 - trang Web nội dung và hình thức động: giai đoạn
này mong muốn kế thừa các ưu điểm của hai giai đoạn trước
Trang 18Không chỉ đơn điệu sử dụng một template trong cách trình bày, thay vào đó nhiều template được tạo ra và được tùy chọn tùy vào
thời điểm người sử dụng đăng nhập
Uu điểm: kế thừa được các ưu điểm của hai giai đoạn trước Khuyết điểm: nâng tính khó khăn khi xây dựng hệ thống
2.2 Tình hình xuất bản tạp chí điện tử ở Việt
Nam hiện nay
Ớ Việt Nam, một số đài truyền thanh, truyền hình cũng đã bắt đầu có trang Web và truyền thông tin đến với người dùng như hãng truyền hình
HTV, Đài Tiếng Nói Việt Nam, Và một số loại báo đã có các trang Web
các báo Nhân Dân, Thông tấn xã Việt Nam, Lao Động, Thời báo kinh tế,
Sài Gòn giải phóng, Mạng Thông Tin KH&CN Việt Nam Nhưng vẫn còn
rất nhiều đơn vị truyền thông đại chúng lại chưa có được trang Web cho
mình
Với các loại báo đã có trang Web đưa thông tin của trang báo lên
Internet, cách thiết kế trang Web của các loại báo này khá đa dạng và có nhiều vấn dé cần phải suy nghĩ
Hầu hết các trang Web của các báo đều mắc phải một trong các khuyết điểm sau:
- Một số báo chỉ gồm nội dung của các trang được đăng trong
ngày Đọc giả không thể đọc nội dung các trang báo đã phát
hành trước đó
Trang 19Một số báo khác như Tạp chí thông tin thương mại việc nhập nội dung các bài báo để biên tập thành trang Web có một bộ phận chuyên nhập liệu đảm trách (ham khảo thông tin thực
tế của hệ thống tạp chí này vào ngày 25/4/2000) Điều này
dẫn đến tình trạng trách nhiệm trong sai sót thông tin thuộc về ai? Ngoài ra tính năng tìm kiếm thông tin được thực hiện
trên toàn bộ trang Web (dạng full text) chứ không hề có bộ
từ khóa để giúp việc tìm kiếm nhanh chóng
Hoặc một số báo khác như báo Lao Động, bạn đọc muốn xem các trang báo đã ra trước đó có thể chọn vào mục số báo
đã ra, các số báo được liệt kê thành danh sách ở một trang
html riêng biệt Và trang báo của một ngày lại ứng với một trang HTML khác Với số lượng báo ra hàng ngày (trong số đó có 5 ngày là nội dung báo Lao Động và 2 ngày là nội
dung của mục Đọc báo giùm bạn), việc quản lý các bài báo chính là quản lý các trang html Với các quản lý này việc
truy tìm lại nội dung của một lĩnh vực của số báo đã qua là
một vấn đề khó khăn
Cho đến đầu tháng 10/2000 (sau khi để tài này được đăng ký 6
tháng), báo Sài Gòn Giải Phóng mới hình thành một trang Web cung cấp
cho người dùng khả năng chọn ngày đọc báo và khi đó nội dung các trang
báo mới được nạp về Việc quản lý bài báo được chỉ tiết hơn ở cấp độ các bài cụ thể, lĩnh vực cụ thể Tuy nhiên trang này chỉ trình bày nội dung cho
đến trước ngày hiện tại Người đọc xem bài trễ hơn ít nhất một ngày, mặc
Trang 20dù thông tin về bài báo đã tổn tại và in ấn trước đó Trong khi đó một điều
phi lý là công việc chế bản, trang trí một trang báo trên giấy được thực hiện trên máy tính, rồi sau đó mới được đưa ra sang cho nhà xuất bản in ấn
Trong giai đoạn ban đầu, các thông tin của các báo được đưa lên
trang Web đa phần là miễn phí Khi hệ thống xuất bản tạp chi đã qua giai
đoạn thử nghiệm, các nội dung trên trang Web có giá trị như các nội dung trên trang giấy báo Việc thanh toán chỉ phí truy cập thông tin của các trang
báo này cũng cần phải xét đến
Vấn đề thứ ba cần phải quan tâm đó chính là việc quan lý những bài
được gửi Công việc tiếp nhận và phân loại bài báo thành các lĩnh vực của
bộ phận biên soạn cũng gặp phải vấn để Bài được gửi về sẽ được sắp xếp
vào cho mục nào, lĩnh vực nào; các bài trước đó chưa được đăng nhưng có
thể có nội dung phù hợp làm sao để tìm lại được các bài này, làm sao có
những gợi ý phù hợp người biên tập
Tiếp đến công việc lên khuôn trang báo phải đảm bảo về mặt cấu trúc của những chuyên mục, lĩnh vực cho số báo sắp ra, đảm bảo cách trang
trí theo đúng phong cách của loại báo đó
Và cuối cùng các bài, các tin này phải là các thông tin được lưu trữ
sao cho người đọc dễ dàng xem lại các trang báo trước đó, lẫn trang báo của ngày hiện hành
Và với người đọc việc phải đến quầy báo xem có loại báo cần tìm
hay không, nếu không có thì phải sang quây báo khác Vậy tại sao không
cung cấp các bài báo tại cùng một nơi?
Trang 21Bên cạnh đó, việc tìm kiếm một nội dung trong trang thông tin tiếng Việt đang gặp vấn để khó khăn khi có nhu câu tìm kiếm Các khái niệm từ khóa (keyword) trong văn bản tiếng Anh đã được tổ chức rất tốt, nhưng khó
lòng đem áp dụng vào tiếng Việt
Tóm lại hiện nay tình hình xuất bản tạp chí điện tử tại Việt Nam chỉ
mới vừa bước qua giai đoạn đâu trong quá trình phát triển của hệ xuất bản tạp chí điện tử và mang tính tự phát
2.3 Yêu cầu đặt ra cho hệ thống
Từ những phân tích trên, hệ thống xuất bản tạp chí điện tử cần xây
dựng một hệ thống đáp ứng các yêu cầu sau:
-_ Hỗ trợ các đối tượng trong hệ thống trong quá trình vận hành một
trang Web cho việc xuất bản tạp chí điện tử
-_ Xây dựng trang Web đảm bảo tính "dynamic": cập nhật thông tin
thường xuyên, linh động trong việc chọn xem trang báo của một ngày
- Trang Web trình bày đẹp mắt, thay đổi kiểu theo ngày
Trong đó hệ thống xuất bản này khi vận hành cần có các đối tượng sau:
-_ Các Phóng viên gửi bài về cho các báo
-_ Các Biên tập viên cho mỗi lĩnh vực của mỗi chuyên mục của một loại báo
- Các Tổng biên tập quần lý các biên tập của các lĩnh vực trong một
loại báo cụ thể
Trang 22-_ Người quản trị mạng cung cấp quyền thao tác trên các thư mục tại
server
Cụ thể các module trong mô hình thực hiện các công việc sau:
- Module Phóng viên: Hỗ trợ các Phóng viên trong công việc gửi bài về cho ban biên tập Đồng thời thông báo các "tin nóng", các
chủ để cần được người biên tập truyền đến cho mọi Phóng viên
-_ Module Biên tập viên: Hỗ trợ các Biên tập viên trong công đoạn phân loại các bài báo theo lĩnh vực, chuyên mục, đồng thời hỗ trợ cho người Biên tập viên trong công việc duyệt, chọn các bài được đăng
- Module Téng bién tap: Hỗ trợ cho Tổng biên tập trong công việc
trình bày trang báo theo đúng phong cách của loại báo, có khả
năng cho Tổng biên tập xem trước cách trình bày
- Module quan tri hé thong: Hé trợ việc quản lý các thông tin về
từng loại báo, phân chia địa chỉ lưu trữ các thông tin
-_ Và cuối cùng một module không thể thiếu đó là module Bạn đọc:
đáp ứng nhu cầu xem lại các tin bài, của các ngày đã qua, nhằm
đáp ứng nhu câu tiếp nhận thông tin bất cứ lúc nào
Ngoài ra nét đặc thù của hệ thống này là khả năng cung cấp module
xây dựng bộ từ khóa cho một bài báo
Trang 232.4 Thời gian tiến hành
Bảng 1
Stt Công việc Phân bố thời gian
1 | Phân tích các ưu khuyết điểm của hệ 1 tuân thống truyền thông đại chúng cổ điển
2 | Đặt ra các yêu cầu cho hệ thống xuất 1 tuần bản tạp chí điện tử
3 |Tìm hiểu, phân tích và đánh giá hệ 1 tuần thống xuất bản tạp chí ở Việt Nam
4 | Tìm giải pháp cho tình hình xuất bản 1 tuần
tạp chí điện tử tại Việt Nam 5 | Thiết kế mô hình các đối tượng, mô 3 tuân hình các module trong hệ thống
6 | Thiết kế cơ sở dữ liệu cho hệ thống 2 tuân
7 | Xây dung module đăng nhập cho các 1 tuần
đối tượng trong hệ thống
§ | Xây dựng module Phóng viên 1 tuân 9 | Xây dựng module Biên tập viên 1 tuần 104 Xây dựng module Template 2 tuân
11] Xây dựng module cho Tổng biên tập 2 tuần 12| Xây dung module cho quan trị hệ 2 tuần
thống
13.4 Xây dung module tìm bài hotnews 2 tuần
Trang 24
14.4 Xây dung module ban doc 1 tuần
15.| Xâu dựng module tìm từ khóa 3 tuân 16.| Kết nối các module 3 tuân 17, Kiểm tra toàn bộ hệ thống 3 tuần 18.4 Viết báo cáo 4 tuần
Tổng thời gian 34 tuần
Trang 252.5 Các yêu câu về thiết bị và phần mềm
Trang 26CHUGNG 4
DAC DIEM NGON NGU
TIENG VIET VA VIEC
Trang 27Đề tài này bao gồm 3 phần:
- Phan nén tảng giao tiếp của các đối tượng trong hệ thống - _ Phần quản lý các dữ liệu để hệ thống duy trì hoạt động hợp lý - _ Phần cuối cùng cần có là tính năng thông minh cho hệ thống, củng
cố nên tảng hợp lý cho phân trước Vì thế chương 4 và chương 5 sẽ chỉ đề cập đến vấn để liên quan đến việc phân tích nội dung
bài báo gửi về để trích ra các thông tin trì thức đặc thù của bài báo
như bài báo có phù hợp với hotnews hay không, bài báo có những
từ khóa nào để hệ thống truy tìm nhanh chóng
4.1 Khái niệm từ khóa
Từ khóa là từ phản ánh phần nào nội dung được dé cập trong một văn bản
Với các văn bản mang tính chất khoa học, tính thông tin các từ khóa này giữ vai trò đặc biệt quan trọng, được xem là một định hướng giúp người đọc
dễ dàng tìm những nội dung mà họ đang quan tâm
4.2 Tai sao cần có hệ thống các từ khóa
(keyword)
Từ trước đến nay nội dung của các trang Web Việt Nam có khả năng truy
tìm thông tin không cao Việc tìm kiếm nội dung trên các trang Web này
thường ở hình thức phân tích trên toàn bộ văn bản (tìm theo dạng full text)
Với lượng văn bản càng ngày càng nhiều, việc truy tìm thông tin theo dạng
full text sẽ trở nên khó khăn "Chỉ có những người sử dụng nào có một khả
năng tri thức bao quát các lĩnh vực nghiên cứu, hệ thống, và cơ chế phân
Trang 28loại thì mới có khả năng khai thác và duyệt trong các cơ sở đữ liệu văn bản
này." [15]
Cho đến nay, các trang Web tiếng Anh đã có các hệ thống truy tìm thông
tỉn hiệu quả rất cao nhờ các cách tổ chức, phân tích các search engine (cơ
chế tìm kiếm) phù hợp với đặc điểm ngôn ngữ thể hiện (trang tiếng Anh nói
riêng và các ngôn ngữ thuộc các nước phương Tây nói chung)
Do quá trình lịch sử, văn hóa của mỗi quốc gia khác nhau mà mỗi ngôn ngữ
có những nét đặc thù riêng Vì thế không thể áp dụng cơ chế tìm kiếm của
các trang tiếng Anh vào cho tiếng Việt Để các trang Web tiếng Việt tăng
cao giá trị, hệ thống tạo từ khóa là cần thiết
Các giai đoạn xử lý của việc quy trình tạo từ khóa
Giai đoạn 1: Hình thành bộ tự điển từ Để hình thành bộ tự điển này chúng
ta cần xét qua về đặc điểm tự loại của tiếng Việt
Giai đoạn 2: Giai đoạn tạo từ khóa cho mỗi bài báo Các từ khóa tìm được sẽ được lưu trữ vào mục keyword của bài báo mà mô hình quản lý dữ liệu
đã để nghị
Giai đoạn 3: Giai đoạn học nhằm nâng cao chất lượng hệ thống
4.3 Đặc điểm từ loại tiếng Việt
Từ xưa trong dân gian thường đùa “Phong ba bão táp không bằng ngữ pháp
Việt Nam”, quả thật câu nói này chẳng sai vào đâu được cả Chính sự phức tạp của từ loại, ngữ nghĩa trong ngữ pháp tiếng Việt là một trở ngại vô
cùng to lớn trong việc tìm từ khóa cho văn bản tiếng Việt Vì thế cho đến
Trang 29nay vẫn chưa có để tài nghiên cứu chính thức nào công bố về việc tìm từ
khóa cho văn bản tiếng Việt
Khái niệm word đối với từ tiếng Anh khá rõ ràng: word là tập hợp các ký tự
có thứ tự, các word được phân cách nhau bằng khoảng trắng hoặc dấu câu Đặc tính của các từ trong tiếng Anh là từ một từ gốc ban đầu chúng ta có thể hình thành một số từ loại có nghĩa tương ứng Các từ có thể ghép với
nhau để hình thành một thành ngữ hoặc một loại từ mới có nghĩa tương
đồng với những từ ban đầu mà theo ngữ pháp tiếng Anh có thể xác định
được nghĩa
Trong khi đó khái niệm từ trong tiếng Việt khi để cập đến không khỏi dẫn
đến một số hiểu lầm Ở đây để tài sử dụng hai khái niệm từ và mục từ
(hoặc từ) theo "Tự điển Tiếng Việt" [2], "Từ điển chính tả" [1]
Từ đơn: các tập hợp các ký tự, các dấu được kết hợp lại với nhau theo quy
tắc tiếng Việt Bản thân các từ đơn có thể có nghĩa hoặc không có nghĩa Các từ đơn được tách biệt nhau bằng khoảng cách hoặc các ký tự dấu câu
Số lượng các từ đơn theo quy tắc [1] bao gồm 6 876 từ đơn
Mục từ (thường được gọi tắt là từ): kết hợp từ một hoặc nhiều từ đơn để
hình thành một cụm từ có ý nghĩa Theo thống kê tự điển tiếng Việt bao
gồm 39 294 mục từ
Các từ đơn ban đầu kết hợp lại có thể hình thành một mục từ mới không hề liên quan với các từ đơn ban đầu Hoặc có thể các cụm ký tự không hình
thành được từ đơn nhưng khi kết hợp lại thành một mục từ có nghĩa Sở dĩ có hiện tượng này là do quá trình lịch sử đặc thù của nước Việt Nam nên
trong ngôn ngữ tiếng Việt của chúng ta có rất nhiều từ mượn
Trang 3252 | Trợ động từ chỉ khả năng, ý chí 53 | Trợ động từ khởi động 34 | Phó động từchỉ kết quả 55 | Phó động từchỉphương 56 | Tính từ tương đối chỉ màu sắc 57 | Tính từ tương đối chỉ tốc độ
58 | Tính từtương đối chỉ cường độ, thòi tiết 59 | Tính từ tương đối chỉ đúng sai
60 | Tính từ tương đối chỉ số lượng 61 | Tính từ tương đối chỉ khối lượng 62 | Tính từtương đối chỉ hình dáng 63 | Tính từ tương đối chỉ âm thanh 64 | Tính từ tương đối chỉ mùi vị
65 | Tinh từ tương đối chỉ so sánh
66 | Tính từtương đối chỉ cảm giác
67 | Tính từtương đối chỉ không gian 68 | Tính từ tương đất chỉ thời gian
69 _| Tính từ tương đối chỉ tri tệ, chất lượng 70 | Tinh từ tương đối chỉ khái quát
71 | Tính từ tuyệt đối chỉ cách thúc hành động 72 | Tính từ tuyệt đốt chỉ màu sắc
73 | Tính từ tuyệt đối chỉ tốc độ
74 | Tính từ tuyệt đối chỉ cường độ, thoi tiết 75 | Tính từ tuyệt đối chỉ đúng sai
76 | Tính từtuyệt đối chỉ số lượng 77 | Tính từ tuyệt đối chỉ khối lượng 78 | Tính từ tuyệt đối chỉ hình dáng 79 | Tính từ tuyệt đối chỉ âm thanh
Trang 33
80 | Tính từ tuyệt đối chỉ mài vị 81 | Tính từ tuyệt đối chỉ so sánh 80 | Tính từ tuyệt đối chỉ khái quát
81 | Đại từnhân xưng số £
82 | Đại từ nhân xưng số nhồu
83 | Đại từ phẩn thân (đại từ qua lại) 84 | Đại từsố từ chỉ lượng 85 | Đại từ số từ nghỉ vấn 86 | Đại từ chỉ định 87 | Đại từ đại vị từ 88 Dai tit nghi van chi thoi gian 89 Đại từ nghỉ vấn chỉ lượng 90 Đại từ nghỉ vấn chỉ người 9 Đại từ nghỉ vấn chỉ địa điểm 92 | Đại từnghi vấn làm định ngữ 93 | Đại từ chỉ tình hình của sự của vật 94 | Định số từ 95 | Khái số từ 96 | Số từ chỉthứ tự 97 | Thời vị từ chỉ thời điểm 98 | Thời vị từ chỉ không điển
99 | Lién tit chi tap hop 100 | Liên từ chỉ lựa chọn
101 | Liên từ chỉ đứng đầu câu
102 | Liên từ chỉ tăng tiễn và nhượng bộ 103 | Liên từ chỉ điều kiện và kết quả
104 | Liên từ chỉ nguyên nhân
105 | Liên từ chỉ so sánh
Trang 34
106 Liên từ "mà" 107 Liên từ "thì" 108 Pho từ phụ trợ cho vị từ và vị ngữ 109 "Phó từ phụ trợ cho cả câu 110 Giới từ liên kết thành phẩn phụ - thể từ 11 Giới từ liên kết thành phẩn phụ - vị từ 112 Hệ từ "là" 113 Hệ từ "rác là" 114 Trợ từ phục vụ câu tạo câu nghỉ vấn 115 Trợ từ phục vụ câu tạo câu cầu khiến 116 Trợ từ phục vụ câu tạo câu cẩm thắn 117 Trợ từ biểu thị thái độ nói 118 Trợ từ khác 119 Thán từ biểu lộ sự vui mừng 120 Thán từ biểu lộ sự ngạc nhiên, sợ hãi 121 Thán từ biểu lộ sự đau đớn, chắn nẫn 12 Thán từ biểu lộ sự căm giận 12 Thán từ biểu lộ sự ngăn cẩn 124 Đặc biệt "cho" 125 Đặc biệt "của" 126 Đặc biệt "do" 127 Đặc biệt "cũng"
Tuy nhiên có một đặc điểm đáng chú ý là trong các loại từ trên các từ dang danh từ, động từ mới có thể giữ vai trò làm từ khóa cho một văn bản Các từ đạng liên từ, phụ từ, thường đứng độc lập và không giữ vai trò quan trọng trong việc xác định từ khóa Số lượng các loại từ không quan trọng trong
Trang 35việc xác định từ khóa rất nhiều và có thể là một tri thức làm giảm đáng kể
không gian tìm từ khóa
Vì thế để có thể xác định chính xác từ cần có một tự điển phân loại từ loại nhằm giải quyết bài toán chọn từ nào là hợp lý
4.4 Tạo từ khóa tự động cho văn bản
4.4.1 Tạo từ khóa thủ công và những những khó khăn
trong việc tìm kiếm
Theo [9]: Trong các môi trường thu nhận thông tin truyền thống, các từ khóa được thiết lập một cách thủ công hoặc tự động, đông thời các câu truy vấn sẽ
được thiết lập bằng cách sử dụng các từ khóa được kết nối với nhau qua các
toán tử luận lý Tuy đã được sử dụng rộng rãi, nhưng ngôn ngữ truy vấn luận
lý vẫn có một số điểm hạn chế: rất khó xác định câu truy vấn qua việc sử
đụng cú pháp luận lý, các tư liệu thu nhận được không được phân loại theo
bất kỳ một tiêu chuẩn nào và điều quan trọng nhất là các kết quả nhận được
thường là không đây đủ [12] [13] Van dé tit vung trong tương tác người-máy tính lại càng làm sai lệch cơ chế thu nhận luận lý dựa trên từ khóa [16] Trong [14], nhóm Furnat nhận thấy rằng khi lựa chọn các từ một cách tự nhiên để diễn đạt các vấn đề trong năm lãnh vực thì khả năng để hai người
cùng chọn một từ khóa là thấp hơn 20% Đây là thuộc tính ngôn ngữ chủ yếu làm giới hạn sự thành công của các phương pháp thiết kế theo tương tác dựa
trên từ khóa
Ngoài ra còn có một Kỹ thuật xử lý ngôn ngữ tự nhiên dựa trên AI (AI- based natural language processing - NLP) có thể thực hiện việc truy vấn
Trang 36một khái niệm Tiêu biểu cho kỹ thuật này là thuật toán Augmented
Transition Network (ATN) giúp phân tích cú pháp, ngữ pháp và ngữ nghĩa
(tiếng Anh) được sử dụng để tránh sự nhập nhằng và mơ hồ trong ngôn ngữ
tự nhiên và phát hiện các khái niệm trong văn bản theo yêu câu Tuy nhiên
kỹ thuật này tốn rất nhiều chi phí tính toán và phụ thuộc vào ngữ cảnh nên
không thích hợp cho việc phát hiện mô tả nội dung (từ khóa, từ vựng) từ các văn bản
Và để khắc phục giới hạn này, việc hình thành các từ khóa tự động là tất yếu
4.4.2 Các giai đoạn tạo từ khóa tự động
Các phương pháp tạo từ khóa tự động thường qua các giai đoạn sau: Phân tách Giản lược Tạo mục từ Đánh giá >| > các từ đơn một số từ từ các từ đơn chọn mục từ Hình 12: Quá trình chọn từ khóa
Công đoạn Phân tách từ đơn, giản lược một từ không khó, vấn đề khó khăn ở việc thành lập các mục từ từ các từ đơn Lầm thế nào thực hiện việc tạo các mục từ này
4.4.2.1 Giai đoạn tạo mục từ từ các từ đơn
44.2.1.1 Phương pháp tổ hợp
Đây là phương pháp dễ nghĩ đến nhất Từ tập hợp các từ đơn được tách biệt,
các từ đơn lần lượt sẽ được kết hợp với nhau và thực hiện dò tìm trong tự
Trang 37điển Nhưng đây chỉ là ý tưởng sơ khai và không thể thực hiện được vì với số lượng n từ don ta sẽ phải gặp vấn dé bùng nổ tổ hợp:
i
TI@-/
C++ ry G+!
4.4.2.1.2 Phương pháp dùng vector
Với phương pháp tổ hợp trên đã không vận dụng được trình tự xuất hiện của
các từ đơn trong văn bản đã dẫn đến tình trạng bùng nổ tổ hợp Phương
pháp vector tận dụng trình tự này để hình thành các mục từ Ví dụ: hệ thống xuất bản điện tử
Các cụm từ 2: hệ thống; thống xuất; xuất bản; bản điện; điện tử
Các cụm từ 3: hệ thống xuất; thống xuất bản; xuất bản điện; bản điện tử
Các cụm từ 4: hệ thống xuất bản; thống xuất bản điện; xuất bản điện tử
Các cụm từ 5: hệ thống xuất bản điện; thống xuất bản điện tử
Trong phần này, khái niệm cụm từ được dùng để chỉ định sự kết hợp các từ
đơn về mặt số lượng Một cụm từ có thể tương ứng hoặc không tương ứng
với một mục từ
6 đây các vector này sẽ vẫn giao nhau mới không bỏ sót mục từ ví dụ như trong câu:
Hệ thống xuất bản tạp chí ở Việt Nam đang dần dần được hình thành
Nếu các cụm từ 2 không được xây dựng trên các vector không giao nhau, ta sẽ có các cụm từ sau:
Hệ thống / xuất bản / tạp chí / ở Việt / Nam đang / dần dẫn / được hình /
thành
Trang 38Dẫn đến trường hợp mục từ Việt Nưm, hình thành sẽ bị bỏ sót Uu điểm của phương pháp dùng vector:
-_ Chọn ra được toàn bộ các mục từ có thể có từ các từ đơn
Khuyết điểm:
-_ Hình thành quá nhiễu cụm từ không là mục từ
-_ Phải thực hiện nhiễu lần duyệt văn bản, mỗi lần tăng số lượng từ
đơn của việc tìm cụm từ k từ đơn phải thực hiện việc duyệt lại toàn bộ văn bản Với phương pháp này số trường hợp kết hợp các cụm từ này là: (2-1) + (1-2) + (0-3) +41 Kết quả của các cụm từ có được ở cả 2 phương pháp đều chỉ mới hình thành các mục từ
4.4.2.2 Giai đoạn chọn mục từ làm từ khóa 4.4.2.2.1 Phương pháp thống kê độ tu tiên lĩnh vực
Để chọn được các từ khóa thật sự hữu ích, thông thường các cụm từ này sẽ
dựa vào các số liệu thống kê để quyết định chọn độ ưu tiên cho từ khóa
Các số liệu thống kê này phần ánh độ quan trọng của từ trong lĩnh vực 4.4.2.2.2 Phương pháp dựa vào xác suất tương đồng
Ngoài ra phương pháp dựa vào xác suất tương đồng là một cách khác để thể
hiện độ quan trọng của từ
Phương pháp này xây dựng nhằm vận dụng tính tương quan giữa từ và các
văn bản đã có trước đó Trong phương pháp này có hai trọng số thống kê
đáng quan tâm:
Trang 39- _ Tần xuất từ khóa: Trọng số số lần xuất hiện của từ trong văn bản
-_ Tần xuất tư liệu đảo: Trọng số các văn bản mà từ này đã từng xuất hiện trong những văn bản cùng lĩnh vực trước đó
Tần xuất từ khóa xuất hiện của một từ có được trực tiếp từ văn bản Tần số tư liệu đảo có được nhờ quá trình huấn luyện (máy học) Các
từ được đánh giá chọn cao sẽ được ưu tiên trong việc chọn từ khóa
Ưu điểm của phương pháp:
-_ Đã để xuất khái niệm tần xuất từ khóa và tần xuất đảo làm tăng các giá trị ưu tiên giữa các từ và giúp quyết định chọn lọc lại số từ
khóa
Khuyết điểm của phương pháp:
- _ Chi phí thực hiện phương pháp này khá cao Ngoài quá trình duyệt
trên toàn bộ văn bản để tìm tần xuất, còn yêu cầu lưu trữ các tần
xuất tư liệu đảo
-_ Với tần xuất tư liệu đảo dẫn đến việc tìm từ khóa phụ thuộc vào
trình tự đưa các văn bản vào thực hiện
Trang 40
CHƯƠNG 5
XAY DUNG CAC MODULE THONG MINH CHO HE