1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề Tài: Xây dựng hệ thống Auto intelligent web publishing ứng dụng xuất bản tạp chí điện tử. potx

86 316 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 22,54 MB

Nội dung

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Trang 2

MỤC LỤC Lời cám ơn 1 Mục lục 2 Lời mở đầu 6

CHUONG l1 GIỚI THIÊU 9 1.1 Sơ lược về các loại hình truyền thông đại chúng cổ điển 10

1.1.1 Hệ thống xuất bản trên giấy 10

1.1.2 Hé truyén tin qua sóng 11

1.2 Hệ xuất bản tạp chí điện tử 13

CHUONG 2 PHAN TICH HIEN TRANG VA YEU CAU DAT RA

CHO HE THONG 15 2.1 Tổng quan về tình hình xuất bản tạp chí điện tử 16

2.2 Tình hình xuất bản tạp chí điện tử ở Việt Nam hiện nay 18

2.3 Yêu cầu đặt ra cho hệ thống 21 2.4 Thời gian tiến hành 23

2.5 Các yêu cầu về thiết bị và phần mềm 25

Trang 3

CHƯƠNG 3 THIẾT KẾ HỆ THỐNG AUTO INTELLIGENT WEB

PUBLISHING26

31 Mô hình hoạt động thực tế khi xuất bản một trang báo 27

3.2 Mô hình đề nghị của hệ thống 28

3.2.1 Mô hình phân cấp các đối tượng bên trong hệ thống 30 3.2.2 Vai trò và nhiệm vụ của người quản trị hệ thống 31

3.2.3 Mô hình hoạt động của một loại báo 32 3.2.4 Tổ chức đữ liệu cho hệ thống 36 3.3 Quản lý việc thanh toán của đối tượng bạn đọc 43 3.4 Tính tự động và thông mỉnh (auto và intelligent) của hệ thống 44

CHƯƠNG 4 ĐẶC DIEM NGU PHAP TIENG VIỆT VÀ VIỆC TÌM

TỪ KHÓA TƯ ĐỘNG 46

41 Khái niệm từ khóa 47

4.2 Tại sao cần có hệ thống các từ khóa (keyword) 47

4.3 Đặc điểm từ loại tiếng Việt 48

4.4 Tạo từ khóa tự động cho văn bản 55 4.4.1 Tạo từ khóa thủ công và những những khó khăn trong việc tìm kiếm

55

4.4.2 Các giai đoạn tạo từ khóa tự động 56

Trang 4

CHƯƠNG 5.XÂY DỰNG CÁC MODULE THÔNG MINH CHO HỆ

THỐNG AUTO INTELLIGENT WEB PUBLISHING 60 5.1 Tạo từ khóa cho văn bản tiếng Việt 61 5.1.1 Các nhận xét về đặc điểm từ khóa 61 5.1.2 Mô hình hoạt động và ý tưởng chung 62

5.2 Co ché chon bai hotnews 71

5.2.1 Giai đoạn 1: Hình thành tự điển từ của hotnews 73 5.2.2 Giai đoạn 2: Đánh giá một bài báo thỏa hotnews 74

5.2.3 Ý nghĩa của Tự điển báo 75

5.2.4 Ý nghĩa của Tự điển tổng quát 75

5.3 Cơ chế huấn luyện bộ tự điển 76

5.4 Phân loại văn bản theo lĩnh vực 77 5.4.1 Cơ chế phân loại bài báo theo lĩnh vực 78

5.4.2 Ý nghĩa của từng công đoạn trong cơ chế phân loại lĩnh vực 80

Trang 6

Loi mb dau

Ngày nay với nhu cau phát triển ngày càng cao của xã hội, thông tin đã trở thành yếu tố không thể thiếu trong đời sống của con người Các hệ thống truyền thông đại chúng cổ điển như báo chí, đài truyển thanh, đài

truyền hình chưa đáp ứng được nhu câu truy cập thông tin mọi lúc mọi nơi

của người sử dụng Trong khi đó hệ thống Internet ngày càng phát triển và

trở nên phổ biến đối với quảng đại quần chúng Chính sự phát triển của hệ thống Internet đã mở ra một hướng giải quyết cho ngành truyền thông

Khái niệm xuất bản tạp chí điện tử được ra đời

Cho đến nay việc hỗ trợ cho xuất bản tạp chí điện tử đang ở những giai đoạn đầu, đặc biệt là đối với việc xuất bản các tạp chí của Việt Nam

Trong khi đó Việt Nam chúng ta đang rất cần những nguồn thông tin quý giá nhanh chóng, kịp thời để có thể đuổi kịp sự phát triển của các quốc gia

khác Vì thế cần có những nghiên cứu hỗ trợ cho việc xuất bản tạp chí điện

tử một cách thông minh cho chính Việt Nam chúng ta Chính vì mong muốn

này mà chúng tôi đã quyết định nghiên cứu đề tài: Xây dựng hệ thống Auto

Intelligent Web Publishing ứng dụng cho xuất bản tạp chí điện tử

Trang 7

Và trong luận văn này sẽ trình bày các phần sau:

Chương 1 - Giới thiệu

Giới thiệu sơ lược về ngành truyền thông đại chúng cổ điển cùng các ưu khuyết điểm Và giới thiệu một hệ truyền thông đại chúng khác đang thu hút sự quan tâm cũng như ủng hộ của nhiều người: hệ thống xuất bản tạp

chí điện tử

Chương 2 - Phân tích hiện trạng và yêu cầu của hệ thống

Với nhu cầu xây dựng một hệ thống cho xuất bản tạp chí

điện tử, chương 2 sẽ thực hiện phân tích một số hiện

trạng và yêu cầu đặt ra cho hệ thống

Chuong 3 - Thiét ké hé thong Auto Intelligent Web Publishing

- Khái quát về lý thuyết trong việc thiết kế các trang

Web cho xuất ban tạp chí điện tử

- Giới thiệu về các phương pháp Lọc tin một cách thông

minh

Chuơng 4 - Cơ sở lý thuyết

Chương này sẽ nêu nền tảng lý thuyết của việc hình

thành keyword cho một văn bản

Chương 5 - Áp dụng phương pháp cho hệ thống Auto Intelligent 'Web Publishing

Trang 8

Với cơ sở lý thuyết đã nêu ra ở chương 4, chương 5 sẽ

chọn ra một phương pháp khả thi và áp dụng vào mơ

hình bài tốn của để tài

Chương 6 - Cài đặt

Với những phân tích, thiết kế ở các chương trước chương

này trình bày các màn hình kết quả của công đoạn cài

đặt

Chương 7 - Kết luận và Hướng phát triển

Đánh giá lại toàn bộ hệ thống và phân tích một số ưu

điểm và một số hạn chế trong phương pháp và dé nghị hướng phát triển tiếp theo cho dé tai

Phụ lục:

Trình bày tài liệu tham khảo

Hiển nhiên trong quá trình trình bày cũng như nghiên cứu không thể tránh được các thiếu sót Rất mong được sự đóng góp ý kiến của quý Thầy Cô, đồng nghiệp và mọi người quan tâm để đề tài được hoàn thiện

Trang 9

CHƯƠNG I

Trang 10

1.1 Sơ lược về các loại hình truyền thông đại

chúng cổ điển

Khi nhắc đến loại hình truyền thông đại chúng, chúng ta thường nghĩ

ngay đến hai hình thức cơ bản: xuất bản trên giấy và truyền tin qua sóng 1.1.1 Hệ thống xuất bản trên giấy

Với hệ xuất bản trên giấy, các Phóng viên thu thập các thông tin,

hình ảnh và gửi tin, bài về tòa soạn và sau đó các bài được hiệu chỉnh, lên

trang in Cuối cùng các trang báo được các hệ thống phát hành phân phối báo đến với đối tượng tiếp nhận thông tin là: người đọc

Qua hệ thống xuất bản trên giấy, người đọc cảm thấy vô cùng thoải

mái vì khoảng thời gian tiếp nhận các thông tin trên báo do bản thân người Giá mà có hình ảnh, âm thanh thì sinh động hơn nhỉ? Xem mục mình thích trước đã

Hình 1: Uu và khuyết điểm của hệ truyền tin qua báo chí đọc chủ động Những nội dung đã được in trên trang báo có thể được đọc

Trang 11

ngay khi mua hoặc có thể được đọc lướt qua các tiêu đề, và khi cần có thể

tìm và xem lại nội dung chỉ tiết

Tuy nhiên nhu cầu của người đọc không chỉ dừng lại ở việc tiếp nhận các thông tin thông qua các dòng chữ Nhu cầu được nghe, được thấy những âm thanh sôi động, những hình ảnh linh hoạt cũng là một yếu tố khá

quan trọng

1.1.2 Hệ truyễn tin qua sóng

Hệ truyền tin qua sóng được hình thành đã dẫn dần đáp ứng nhu cầu tiếp nhận thông tin sinh động cho người dùng Ban đầu là hệ truyển thanh

với các đối tượng tiếp nhận thông tin là người nghe đài Sau đến là hệ

truyền hình đã đem đến cho người tiếp nhận thông tin - người xem đài -

Trang 12

Vấn để chất lượng thông tin sinh động hơn, thuyết phục hơn là ưu

điểm của hệ thống truyền tin qua sóng, nhưng thời gian tiếp nhận thông tin lại là một vấn để cần suy nghĩ Ở dạng xuất bản trên giấy, mỗi người khác

nhau có thể có trình tự đọc các trang báo khác nhau và chủ động trong thời

gian đọc báo Trong khi đó dạng truyén qua sóng không thể đáp ứng nhu cầu này cho tất cả mọi người được Người nghe, người xem đài phải tiếp

nhận các thông tin theo trình tự của đài phát và phụ thuộc vào giờ phát sóng

Trang 13

1.2 Hệ xuất bản tạp chí điện tử

Từ những ưu khuyết điểm của hai hệ thống trên, một câu hỏi tất yếu

đã được đặt ra: "Liệu có một hệ thống nào có thể giúp cho người nhận tin có thể vừa tiếp nhận những thông tin dạng multimedia, vừa có thể chủ động

trong thời gian nhận tin hay không?" Câu trả lời đã bắt đầu có lời giải đáp

khi hệ thống Internet ngày càng phục vụ nhiều tính năng hơn (như tính

multimedia, khả năng phục vụ 24/24 bất cứ khi nào bạn kết nối vào, ) và

ngày càng phổ biến với mọi người hơn Ø đây cũng có cả hình ảnh và âm thanh minh họa nữa Trên Internet mình đã có thể chủ động thời gian và trình tư xem rỒi

Hình 3: Ưu điểm của hệ xuất bản tạp chí điện tử

Ở các nước trên thế giới, các trang Web xuất bản các tạp chí chuyên

ngành như www.elsevier.com, www.computer.org, cũng đã tổ chức và

phục vụ việc truyền thông tin đến với người dùng rất tốt Các hãng truyền

Trang 14

hình nổi tiếng trên thế giới như CNN đã hình thành trang Web đưa các thông tin của họ đến với người sử dụng Internet

Nhưng thật ra hệ thống Internet chỉ là câu trả lời cho hình thức truyền

tin, vấn để cần quan tâm là làm thế nào tổ chức được một hệ thống thu thập thông tin, chọn lọc và trình bày tất cả các thông tin và đến với người tiếp

nhận thông tin — những bạn đọc trên Internet

Trang 15

CHƯƠNG 2

PHAN TICH HIEN TRANG

Trang 16

2.1 Tổng quan về tình hình xuất bản tạp chí điện

2

tử

Có thể nói khái niệm xuất bản tạp chí điện tử đến nay không phải là

một khái niệm hòan toàn xa lạ, đã có những hãng truyên hình, nhà xuất bản đã đưa các thông tin của mình đến với người dùng Internet

Template Trang Web nội dung +

Trang | Trang Web

Web Nội dùng lạ mộ; dung Cc Nội dung hình thức tinh động động Đã phát triển

Hình 4: Các giai đoạn của hệ xuất bản tạp chí điện tử

Khái niệm xuất bản tạp chí điện tử đến nay đã và đang trải qua 3 giai

đoạn:

-_ Giai đoạn 1 - trang Web tĩnh: với giai đoạn đầu, nội dung các trang Web được trình bày trên các trang HTML đơn thuần Nội

dung các trang HTML được được bất biến từ ngày này sang này

khác Khi có nhu câu sửa đổi, cập nhật, nội dung cũ sẽ mất hoàn

tồn, khơng thể nào xem lại được nội dung cũ

Trang 17

Ưu điểm: với cách thức này việc trình bày lại nội dung rất dơn

giản, chỉ cần thực hiện một cách thủ công xóa nội dung cũ và thay

hẳn bằng nội dung mới

Khuyết điểm: Các nội dung cũ sẽ bị mất hoàn toàn, hoặc tên tập

tin HTML bị thay đổi, không còn vết để quay trổ lại tham khảo

nội dung cũ

Giai đoạn 2 - trang Web nội dung động: ở giai đoạn này các trang Web không đơn thuần là các tập tin HTML nữa mà thay vào đó là hai thành phần: một là nội dung và một là khuôn mẫu (template) Nội dung được tổ chức thành hệ thống dữ liệu và do

các hệ quản trị cơ sở dữ liệu quản lý Template quy định cách

trình bày các thành phần nội dung Khi người dùng có nhu cầu

xem nội dung của một ngày hoặc một khoảng thời gian, một phiên

bản (nói chung là có yêu cầu liên quan đến thời gian), yêu cầu về thành phần sẽ được lấy tương ứng từ cơ sở dữ liệu và đổ vào

khuôn template

Uu điểm: Các nội dung vẫn tổn tại trong cơ sở dữ liệu Việc quay

lại vết cũ thực chất là truy vấn lại trong cơ sở dữ liệu theo yếu tố

thời gian

Khuyết điểm: do hệ thống phải tổ chức lưu trữ nội dung nên việc

xây dựng hệ thống khá phức tạp Bên cạnh đó do chỉ có một khuôn mẫu nên việc trình bày trở nên đơn điệu

Giai đoạn 3 - trang Web nội dung và hình thức động: giai đoạn

này mong muốn kế thừa các ưu điểm của hai giai đoạn trước

Trang 18

Không chỉ đơn điệu sử dụng một template trong cách trình bày, thay vào đó nhiều template được tạo ra và được tùy chọn tùy vào

thời điểm người sử dụng đăng nhập

Uu điểm: kế thừa được các ưu điểm của hai giai đoạn trước Khuyết điểm: nâng tính khó khăn khi xây dựng hệ thống

2.2 Tình hình xuất bản tạp chí điện tử ở Việt

Nam hiện nay

Ớ Việt Nam, một số đài truyền thanh, truyền hình cũng đã bắt đầu có trang Web và truyền thông tin đến với người dùng như hãng truyền hình

HTV, Đài Tiếng Nói Việt Nam, Và một số loại báo đã có các trang Web

các báo Nhân Dân, Thông tấn xã Việt Nam, Lao Động, Thời báo kinh tế,

Sài Gòn giải phóng, Mạng Thông Tin KH&CN Việt Nam Nhưng vẫn còn

rất nhiều đơn vị truyền thông đại chúng lại chưa có được trang Web cho

mình

Với các loại báo đã có trang Web đưa thông tin của trang báo lên

Internet, cách thiết kế trang Web của các loại báo này khá đa dạng và có nhiều vấn dé cần phải suy nghĩ

Hầu hết các trang Web của các báo đều mắc phải một trong các khuyết điểm sau:

- Một số báo chỉ gồm nội dung của các trang được đăng trong

ngày Đọc giả không thể đọc nội dung các trang báo đã phát

hành trước đó

Trang 19

Một số báo khác như Tạp chí thông tin thương mại việc nhập nội dung các bài báo để biên tập thành trang Web có một bộ phận chuyên nhập liệu đảm trách (ham khảo thông tin thực

tế của hệ thống tạp chí này vào ngày 25/4/2000) Điều này

dẫn đến tình trạng trách nhiệm trong sai sót thông tin thuộc về ai? Ngoài ra tính năng tìm kiếm thông tin được thực hiện

trên toàn bộ trang Web (dạng full text) chứ không hề có bộ

từ khóa để giúp việc tìm kiếm nhanh chóng

Hoặc một số báo khác như báo Lao Động, bạn đọc muốn xem các trang báo đã ra trước đó có thể chọn vào mục số báo

đã ra, các số báo được liệt kê thành danh sách ở một trang

html riêng biệt Và trang báo của một ngày lại ứng với một trang HTML khác Với số lượng báo ra hàng ngày (trong số đó có 5 ngày là nội dung báo Lao Động và 2 ngày là nội

dung của mục Đọc báo giùm bạn), việc quản lý các bài báo chính là quản lý các trang html Với các quản lý này việc

truy tìm lại nội dung của một lĩnh vực của số báo đã qua là

một vấn đề khó khăn

Cho đến đầu tháng 10/2000 (sau khi để tài này được đăng ký 6

tháng), báo Sài Gòn Giải Phóng mới hình thành một trang Web cung cấp

cho người dùng khả năng chọn ngày đọc báo và khi đó nội dung các trang

báo mới được nạp về Việc quản lý bài báo được chỉ tiết hơn ở cấp độ các bài cụ thể, lĩnh vực cụ thể Tuy nhiên trang này chỉ trình bày nội dung cho

đến trước ngày hiện tại Người đọc xem bài trễ hơn ít nhất một ngày, mặc

Trang 20

dù thông tin về bài báo đã tổn tại và in ấn trước đó Trong khi đó một điều

phi lý là công việc chế bản, trang trí một trang báo trên giấy được thực hiện trên máy tính, rồi sau đó mới được đưa ra sang cho nhà xuất bản in ấn

Trong giai đoạn ban đầu, các thông tin của các báo được đưa lên

trang Web đa phần là miễn phí Khi hệ thống xuất bản tạp chi đã qua giai

đoạn thử nghiệm, các nội dung trên trang Web có giá trị như các nội dung trên trang giấy báo Việc thanh toán chỉ phí truy cập thông tin của các trang

báo này cũng cần phải xét đến

Vấn đề thứ ba cần phải quan tâm đó chính là việc quan lý những bài

được gửi Công việc tiếp nhận và phân loại bài báo thành các lĩnh vực của

bộ phận biên soạn cũng gặp phải vấn để Bài được gửi về sẽ được sắp xếp

vào cho mục nào, lĩnh vực nào; các bài trước đó chưa được đăng nhưng có

thể có nội dung phù hợp làm sao để tìm lại được các bài này, làm sao có

những gợi ý phù hợp người biên tập

Tiếp đến công việc lên khuôn trang báo phải đảm bảo về mặt cấu trúc của những chuyên mục, lĩnh vực cho số báo sắp ra, đảm bảo cách trang

trí theo đúng phong cách của loại báo đó

Và cuối cùng các bài, các tin này phải là các thông tin được lưu trữ

sao cho người đọc dễ dàng xem lại các trang báo trước đó, lẫn trang báo của ngày hiện hành

Và với người đọc việc phải đến quầy báo xem có loại báo cần tìm

hay không, nếu không có thì phải sang quây báo khác Vậy tại sao không

cung cấp các bài báo tại cùng một nơi?

Trang 21

Bên cạnh đó, việc tìm kiếm một nội dung trong trang thông tin tiếng Việt đang gặp vấn để khó khăn khi có nhu câu tìm kiếm Các khái niệm từ khóa (keyword) trong văn bản tiếng Anh đã được tổ chức rất tốt, nhưng khó

lòng đem áp dụng vào tiếng Việt

Tóm lại hiện nay tình hình xuất bản tạp chí điện tử tại Việt Nam chỉ

mới vừa bước qua giai đoạn đâu trong quá trình phát triển của hệ xuất bản tạp chí điện tử và mang tính tự phát

2.3 Yêu cầu đặt ra cho hệ thống

Từ những phân tích trên, hệ thống xuất bản tạp chí điện tử cần xây

dựng một hệ thống đáp ứng các yêu cầu sau:

-_ Hỗ trợ các đối tượng trong hệ thống trong quá trình vận hành một

trang Web cho việc xuất bản tạp chí điện tử

-_ Xây dựng trang Web đảm bảo tính "dynamic": cập nhật thông tin

thường xuyên, linh động trong việc chọn xem trang báo của một ngày

- Trang Web trình bày đẹp mắt, thay đổi kiểu theo ngày

Trong đó hệ thống xuất bản này khi vận hành cần có các đối tượng sau:

-_ Các Phóng viên gửi bài về cho các báo

-_ Các Biên tập viên cho mỗi lĩnh vực của mỗi chuyên mục của một loại báo

- Các Tổng biên tập quần lý các biên tập của các lĩnh vực trong một

loại báo cụ thể

Trang 22

-_ Người quản trị mạng cung cấp quyền thao tác trên các thư mục tại

server

Cụ thể các module trong mô hình thực hiện các công việc sau:

- Module Phóng viên: Hỗ trợ các Phóng viên trong công việc gửi bài về cho ban biên tập Đồng thời thông báo các "tin nóng", các

chủ để cần được người biên tập truyền đến cho mọi Phóng viên

-_ Module Biên tập viên: Hỗ trợ các Biên tập viên trong công đoạn phân loại các bài báo theo lĩnh vực, chuyên mục, đồng thời hỗ trợ cho người Biên tập viên trong công việc duyệt, chọn các bài được đăng

- Module Téng bién tap: Hỗ trợ cho Tổng biên tập trong công việc

trình bày trang báo theo đúng phong cách của loại báo, có khả

năng cho Tổng biên tập xem trước cách trình bày

- Module quan tri hé thong: Hé trợ việc quản lý các thông tin về

từng loại báo, phân chia địa chỉ lưu trữ các thông tin

-_ Và cuối cùng một module không thể thiếu đó là module Bạn đọc:

đáp ứng nhu cầu xem lại các tin bài, của các ngày đã qua, nhằm

đáp ứng nhu câu tiếp nhận thông tin bất cứ lúc nào

Ngoài ra nét đặc thù của hệ thống này là khả năng cung cấp module

xây dựng bộ từ khóa cho một bài báo

Trang 23

2.4 Thời gian tiến hành

Bảng 1

Stt Công việc Phân bố thời gian

1 | Phân tích các ưu khuyết điểm của hệ 1 tuân thống truyền thông đại chúng cổ điển

2 | Đặt ra các yêu cầu cho hệ thống xuất 1 tuần bản tạp chí điện tử

3 |Tìm hiểu, phân tích và đánh giá hệ 1 tuần thống xuất bản tạp chí ở Việt Nam

4 | Tìm giải pháp cho tình hình xuất bản 1 tuần

tạp chí điện tử tại Việt Nam 5 | Thiết kế mô hình các đối tượng, mô 3 tuân hình các module trong hệ thống

6 | Thiết kế cơ sở dữ liệu cho hệ thống 2 tuân

7 | Xây dung module đăng nhập cho các 1 tuần

đối tượng trong hệ thống

§ | Xây dựng module Phóng viên 1 tuân 9 | Xây dựng module Biên tập viên 1 tuần 104 Xây dựng module Template 2 tuân

11] Xây dựng module cho Tổng biên tập 2 tuần 12| Xây dung module cho quan trị hệ 2 tuần

thống

13.4 Xây dung module tìm bài hotnews 2 tuần

Trang 24

14.4 Xây dung module ban doc 1 tuần

15.| Xâu dựng module tìm từ khóa 3 tuân 16.| Kết nối các module 3 tuân 17, Kiểm tra toàn bộ hệ thống 3 tuần 18.4 Viết báo cáo 4 tuần

Tổng thời gian 34 tuần

Trang 25

2.5 Các yêu câu về thiết bị và phần mềm

Trang 26

CHUGNG 4

DAC DIEM NGON NGU

TIENG VIET VA VIEC

Trang 27

Đề tài này bao gồm 3 phần:

- Phan nén tảng giao tiếp của các đối tượng trong hệ thống - _ Phần quản lý các dữ liệu để hệ thống duy trì hoạt động hợp lý - _ Phần cuối cùng cần có là tính năng thông minh cho hệ thống, củng

cố nên tảng hợp lý cho phân trước Vì thế chương 4 và chương 5 sẽ chỉ đề cập đến vấn để liên quan đến việc phân tích nội dung

bài báo gửi về để trích ra các thông tin trì thức đặc thù của bài báo

như bài báo có phù hợp với hotnews hay không, bài báo có những

từ khóa nào để hệ thống truy tìm nhanh chóng

4.1 Khái niệm từ khóa

Từ khóa là từ phản ánh phần nào nội dung được dé cập trong một văn bản

Với các văn bản mang tính chất khoa học, tính thông tin các từ khóa này giữ vai trò đặc biệt quan trọng, được xem là một định hướng giúp người đọc

dễ dàng tìm những nội dung mà họ đang quan tâm

4.2 Tai sao cần có hệ thống các từ khóa

(keyword)

Từ trước đến nay nội dung của các trang Web Việt Nam có khả năng truy

tìm thông tin không cao Việc tìm kiếm nội dung trên các trang Web này

thường ở hình thức phân tích trên toàn bộ văn bản (tìm theo dạng full text)

Với lượng văn bản càng ngày càng nhiều, việc truy tìm thông tin theo dạng

full text sẽ trở nên khó khăn "Chỉ có những người sử dụng nào có một khả

năng tri thức bao quát các lĩnh vực nghiên cứu, hệ thống, và cơ chế phân

Trang 28

loại thì mới có khả năng khai thác và duyệt trong các cơ sở đữ liệu văn bản

này." [15]

Cho đến nay, các trang Web tiếng Anh đã có các hệ thống truy tìm thông

tỉn hiệu quả rất cao nhờ các cách tổ chức, phân tích các search engine (cơ

chế tìm kiếm) phù hợp với đặc điểm ngôn ngữ thể hiện (trang tiếng Anh nói

riêng và các ngôn ngữ thuộc các nước phương Tây nói chung)

Do quá trình lịch sử, văn hóa của mỗi quốc gia khác nhau mà mỗi ngôn ngữ

có những nét đặc thù riêng Vì thế không thể áp dụng cơ chế tìm kiếm của

các trang tiếng Anh vào cho tiếng Việt Để các trang Web tiếng Việt tăng

cao giá trị, hệ thống tạo từ khóa là cần thiết

Các giai đoạn xử lý của việc quy trình tạo từ khóa

Giai đoạn 1: Hình thành bộ tự điển từ Để hình thành bộ tự điển này chúng

ta cần xét qua về đặc điểm tự loại của tiếng Việt

Giai đoạn 2: Giai đoạn tạo từ khóa cho mỗi bài báo Các từ khóa tìm được sẽ được lưu trữ vào mục keyword của bài báo mà mô hình quản lý dữ liệu

đã để nghị

Giai đoạn 3: Giai đoạn học nhằm nâng cao chất lượng hệ thống

4.3 Đặc điểm từ loại tiếng Việt

Từ xưa trong dân gian thường đùa “Phong ba bão táp không bằng ngữ pháp

Việt Nam”, quả thật câu nói này chẳng sai vào đâu được cả Chính sự phức tạp của từ loại, ngữ nghĩa trong ngữ pháp tiếng Việt là một trở ngại vô

cùng to lớn trong việc tìm từ khóa cho văn bản tiếng Việt Vì thế cho đến

Trang 29

nay vẫn chưa có để tài nghiên cứu chính thức nào công bố về việc tìm từ

khóa cho văn bản tiếng Việt

Khái niệm word đối với từ tiếng Anh khá rõ ràng: word là tập hợp các ký tự

có thứ tự, các word được phân cách nhau bằng khoảng trắng hoặc dấu câu Đặc tính của các từ trong tiếng Anh là từ một từ gốc ban đầu chúng ta có thể hình thành một số từ loại có nghĩa tương ứng Các từ có thể ghép với

nhau để hình thành một thành ngữ hoặc một loại từ mới có nghĩa tương

đồng với những từ ban đầu mà theo ngữ pháp tiếng Anh có thể xác định

được nghĩa

Trong khi đó khái niệm từ trong tiếng Việt khi để cập đến không khỏi dẫn

đến một số hiểu lầm Ở đây để tài sử dụng hai khái niệm từ và mục từ

(hoặc từ) theo "Tự điển Tiếng Việt" [2], "Từ điển chính tả" [1]

Từ đơn: các tập hợp các ký tự, các dấu được kết hợp lại với nhau theo quy

tắc tiếng Việt Bản thân các từ đơn có thể có nghĩa hoặc không có nghĩa Các từ đơn được tách biệt nhau bằng khoảng cách hoặc các ký tự dấu câu

Số lượng các từ đơn theo quy tắc [1] bao gồm 6 876 từ đơn

Mục từ (thường được gọi tắt là từ): kết hợp từ một hoặc nhiều từ đơn để

hình thành một cụm từ có ý nghĩa Theo thống kê tự điển tiếng Việt bao

gồm 39 294 mục từ

Các từ đơn ban đầu kết hợp lại có thể hình thành một mục từ mới không hề liên quan với các từ đơn ban đầu Hoặc có thể các cụm ký tự không hình

thành được từ đơn nhưng khi kết hợp lại thành một mục từ có nghĩa Sở dĩ có hiện tượng này là do quá trình lịch sử đặc thù của nước Việt Nam nên

trong ngôn ngữ tiếng Việt của chúng ta có rất nhiều từ mượn

Trang 32

52 | Trợ động từ chỉ khả năng, ý chí 53 | Trợ động từ khởi động 34 | Phó động từchỉ kết quả 55 | Phó động từchỉphương 56 | Tính từ tương đối chỉ màu sắc 57 | Tính từ tương đối chỉ tốc độ

58 | Tính từtương đối chỉ cường độ, thòi tiết 59 | Tính từ tương đối chỉ đúng sai

60 | Tính từ tương đối chỉ số lượng 61 | Tính từ tương đối chỉ khối lượng 62 | Tính từtương đối chỉ hình dáng 63 | Tính từ tương đối chỉ âm thanh 64 | Tính từ tương đối chỉ mùi vị

65 | Tinh từ tương đối chỉ so sánh

66 | Tính từtương đối chỉ cảm giác

67 | Tính từtương đối chỉ không gian 68 | Tính từ tương đất chỉ thời gian

69 _| Tính từ tương đối chỉ tri tệ, chất lượng 70 | Tinh từ tương đối chỉ khái quát

71 | Tính từ tuyệt đối chỉ cách thúc hành động 72 | Tính từ tuyệt đốt chỉ màu sắc

73 | Tính từ tuyệt đối chỉ tốc độ

74 | Tính từ tuyệt đối chỉ cường độ, thoi tiết 75 | Tính từ tuyệt đối chỉ đúng sai

76 | Tính từtuyệt đối chỉ số lượng 77 | Tính từ tuyệt đối chỉ khối lượng 78 | Tính từ tuyệt đối chỉ hình dáng 79 | Tính từ tuyệt đối chỉ âm thanh

Trang 33

80 | Tính từ tuyệt đối chỉ mài vị 81 | Tính từ tuyệt đối chỉ so sánh 80 | Tính từ tuyệt đối chỉ khái quát

81 | Đại từnhân xưng số £

82 | Đại từ nhân xưng số nhồu

83 | Đại từ phẩn thân (đại từ qua lại) 84 | Đại từsố từ chỉ lượng 85 | Đại từ số từ nghỉ vấn 86 | Đại từ chỉ định 87 | Đại từ đại vị từ 88 Dai tit nghi van chi thoi gian 89 Đại từ nghỉ vấn chỉ lượng 90 Đại từ nghỉ vấn chỉ người 9 Đại từ nghỉ vấn chỉ địa điểm 92 | Đại từnghi vấn làm định ngữ 93 | Đại từ chỉ tình hình của sự của vật 94 | Định số từ 95 | Khái số từ 96 | Số từ chỉthứ tự 97 | Thời vị từ chỉ thời điểm 98 | Thời vị từ chỉ không điển

99 | Lién tit chi tap hop 100 | Liên từ chỉ lựa chọn

101 | Liên từ chỉ đứng đầu câu

102 | Liên từ chỉ tăng tiễn và nhượng bộ 103 | Liên từ chỉ điều kiện và kết quả

104 | Liên từ chỉ nguyên nhân

105 | Liên từ chỉ so sánh

Trang 34

106 Liên từ "mà" 107 Liên từ "thì" 108 Pho từ phụ trợ cho vị từ và vị ngữ 109 "Phó từ phụ trợ cho cả câu 110 Giới từ liên kết thành phẩn phụ - thể từ 11 Giới từ liên kết thành phẩn phụ - vị từ 112 Hệ từ "là" 113 Hệ từ "rác là" 114 Trợ từ phục vụ câu tạo câu nghỉ vấn 115 Trợ từ phục vụ câu tạo câu cầu khiến 116 Trợ từ phục vụ câu tạo câu cẩm thắn 117 Trợ từ biểu thị thái độ nói 118 Trợ từ khác 119 Thán từ biểu lộ sự vui mừng 120 Thán từ biểu lộ sự ngạc nhiên, sợ hãi 121 Thán từ biểu lộ sự đau đớn, chắn nẫn 12 Thán từ biểu lộ sự căm giận 12 Thán từ biểu lộ sự ngăn cẩn 124 Đặc biệt "cho" 125 Đặc biệt "của" 126 Đặc biệt "do" 127 Đặc biệt "cũng"

Tuy nhiên có một đặc điểm đáng chú ý là trong các loại từ trên các từ dang danh từ, động từ mới có thể giữ vai trò làm từ khóa cho một văn bản Các từ đạng liên từ, phụ từ, thường đứng độc lập và không giữ vai trò quan trọng trong việc xác định từ khóa Số lượng các loại từ không quan trọng trong

Trang 35

việc xác định từ khóa rất nhiều và có thể là một tri thức làm giảm đáng kể

không gian tìm từ khóa

Vì thế để có thể xác định chính xác từ cần có một tự điển phân loại từ loại nhằm giải quyết bài toán chọn từ nào là hợp lý

4.4 Tạo từ khóa tự động cho văn bản

4.4.1 Tạo từ khóa thủ công và những những khó khăn

trong việc tìm kiếm

Theo [9]: Trong các môi trường thu nhận thông tin truyền thống, các từ khóa được thiết lập một cách thủ công hoặc tự động, đông thời các câu truy vấn sẽ

được thiết lập bằng cách sử dụng các từ khóa được kết nối với nhau qua các

toán tử luận lý Tuy đã được sử dụng rộng rãi, nhưng ngôn ngữ truy vấn luận

lý vẫn có một số điểm hạn chế: rất khó xác định câu truy vấn qua việc sử

đụng cú pháp luận lý, các tư liệu thu nhận được không được phân loại theo

bất kỳ một tiêu chuẩn nào và điều quan trọng nhất là các kết quả nhận được

thường là không đây đủ [12] [13] Van dé tit vung trong tương tác người-máy tính lại càng làm sai lệch cơ chế thu nhận luận lý dựa trên từ khóa [16] Trong [14], nhóm Furnat nhận thấy rằng khi lựa chọn các từ một cách tự nhiên để diễn đạt các vấn đề trong năm lãnh vực thì khả năng để hai người

cùng chọn một từ khóa là thấp hơn 20% Đây là thuộc tính ngôn ngữ chủ yếu làm giới hạn sự thành công của các phương pháp thiết kế theo tương tác dựa

trên từ khóa

Ngoài ra còn có một Kỹ thuật xử lý ngôn ngữ tự nhiên dựa trên AI (AI- based natural language processing - NLP) có thể thực hiện việc truy vấn

Trang 36

một khái niệm Tiêu biểu cho kỹ thuật này là thuật toán Augmented

Transition Network (ATN) giúp phân tích cú pháp, ngữ pháp và ngữ nghĩa

(tiếng Anh) được sử dụng để tránh sự nhập nhằng và mơ hồ trong ngôn ngữ

tự nhiên và phát hiện các khái niệm trong văn bản theo yêu câu Tuy nhiên

kỹ thuật này tốn rất nhiều chi phí tính toán và phụ thuộc vào ngữ cảnh nên

không thích hợp cho việc phát hiện mô tả nội dung (từ khóa, từ vựng) từ các văn bản

Và để khắc phục giới hạn này, việc hình thành các từ khóa tự động là tất yếu

4.4.2 Các giai đoạn tạo từ khóa tự động

Các phương pháp tạo từ khóa tự động thường qua các giai đoạn sau: Phân tách Giản lược Tạo mục từ Đánh giá >| > các từ đơn một số từ từ các từ đơn chọn mục từ Hình 12: Quá trình chọn từ khóa

Công đoạn Phân tách từ đơn, giản lược một từ không khó, vấn đề khó khăn ở việc thành lập các mục từ từ các từ đơn Lầm thế nào thực hiện việc tạo các mục từ này

4.4.2.1 Giai đoạn tạo mục từ từ các từ đơn

44.2.1.1 Phương pháp tổ hợp

Đây là phương pháp dễ nghĩ đến nhất Từ tập hợp các từ đơn được tách biệt,

các từ đơn lần lượt sẽ được kết hợp với nhau và thực hiện dò tìm trong tự

Trang 37

điển Nhưng đây chỉ là ý tưởng sơ khai và không thể thực hiện được vì với số lượng n từ don ta sẽ phải gặp vấn dé bùng nổ tổ hợp:

i

TI@-/

C++ ry G+!

4.4.2.1.2 Phương pháp dùng vector

Với phương pháp tổ hợp trên đã không vận dụng được trình tự xuất hiện của

các từ đơn trong văn bản đã dẫn đến tình trạng bùng nổ tổ hợp Phương

pháp vector tận dụng trình tự này để hình thành các mục từ Ví dụ: hệ thống xuất bản điện tử

Các cụm từ 2: hệ thống; thống xuất; xuất bản; bản điện; điện tử

Các cụm từ 3: hệ thống xuất; thống xuất bản; xuất bản điện; bản điện tử

Các cụm từ 4: hệ thống xuất bản; thống xuất bản điện; xuất bản điện tử

Các cụm từ 5: hệ thống xuất bản điện; thống xuất bản điện tử

Trong phần này, khái niệm cụm từ được dùng để chỉ định sự kết hợp các từ

đơn về mặt số lượng Một cụm từ có thể tương ứng hoặc không tương ứng

với một mục từ

6 đây các vector này sẽ vẫn giao nhau mới không bỏ sót mục từ ví dụ như trong câu:

Hệ thống xuất bản tạp chí ở Việt Nam đang dần dần được hình thành

Nếu các cụm từ 2 không được xây dựng trên các vector không giao nhau, ta sẽ có các cụm từ sau:

Hệ thống / xuất bản / tạp chí / ở Việt / Nam đang / dần dẫn / được hình /

thành

Trang 38

Dẫn đến trường hợp mục từ Việt Nưm, hình thành sẽ bị bỏ sót Uu điểm của phương pháp dùng vector:

-_ Chọn ra được toàn bộ các mục từ có thể có từ các từ đơn

Khuyết điểm:

-_ Hình thành quá nhiễu cụm từ không là mục từ

-_ Phải thực hiện nhiễu lần duyệt văn bản, mỗi lần tăng số lượng từ

đơn của việc tìm cụm từ k từ đơn phải thực hiện việc duyệt lại toàn bộ văn bản Với phương pháp này số trường hợp kết hợp các cụm từ này là: (2-1) + (1-2) + (0-3) +41 Kết quả của các cụm từ có được ở cả 2 phương pháp đều chỉ mới hình thành các mục từ

4.4.2.2 Giai đoạn chọn mục từ làm từ khóa 4.4.2.2.1 Phương pháp thống kê độ tu tiên lĩnh vực

Để chọn được các từ khóa thật sự hữu ích, thông thường các cụm từ này sẽ

dựa vào các số liệu thống kê để quyết định chọn độ ưu tiên cho từ khóa

Các số liệu thống kê này phần ánh độ quan trọng của từ trong lĩnh vực 4.4.2.2.2 Phương pháp dựa vào xác suất tương đồng

Ngoài ra phương pháp dựa vào xác suất tương đồng là một cách khác để thể

hiện độ quan trọng của từ

Phương pháp này xây dựng nhằm vận dụng tính tương quan giữa từ và các

văn bản đã có trước đó Trong phương pháp này có hai trọng số thống kê

đáng quan tâm:

Trang 39

- _ Tần xuất từ khóa: Trọng số số lần xuất hiện của từ trong văn bản

-_ Tần xuất tư liệu đảo: Trọng số các văn bản mà từ này đã từng xuất hiện trong những văn bản cùng lĩnh vực trước đó

Tần xuất từ khóa xuất hiện của một từ có được trực tiếp từ văn bản Tần số tư liệu đảo có được nhờ quá trình huấn luyện (máy học) Các

từ được đánh giá chọn cao sẽ được ưu tiên trong việc chọn từ khóa

Ưu điểm của phương pháp:

-_ Đã để xuất khái niệm tần xuất từ khóa và tần xuất đảo làm tăng các giá trị ưu tiên giữa các từ và giúp quyết định chọn lọc lại số từ

khóa

Khuyết điểm của phương pháp:

- _ Chi phí thực hiện phương pháp này khá cao Ngoài quá trình duyệt

trên toàn bộ văn bản để tìm tần xuất, còn yêu cầu lưu trữ các tần

xuất tư liệu đảo

-_ Với tần xuất tư liệu đảo dẫn đến việc tìm từ khóa phụ thuộc vào

trình tự đưa các văn bản vào thực hiện

Trang 40

CHƯƠNG 5

XAY DUNG CAC MODULE THONG MINH CHO HE

Ngày đăng: 28/06/2014, 04:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w