5 Chương 3 Tổng quan về tập mẫu
5.3.1.3 Khuụn dạng dữ liệu tập mẫu Reuters-21578
Tập văn bản mẫu Reuters-21578 được xõy dựng thành 22 file. Mỗi một file trong 21 file đầu tiờn (cỏc file được đỏnh số từ reut2-000.sgm đến reut2-020.sgm) bao gồm 1000 văn bản, và file cuối cựng (reut2-021.sgm) bao gồm 578 văn bản.
Cỏc file đều theo định dạng chuẩn SGML. Ở đõy ta khụng xem xột chi tiết của ngụn ngữ chuẩn SGML mà chỉ xem xột cỏch thức nhúm nghiờn cứu của Giỏo sư
Lewis đó tiến hành để sử dụng cỏc thẻ SGML để phõn chia mỗi file và mỗi văn bản thành cỏc phần.
Tất cả cỏc file trong số 22 file này luụn bắt đầu bằng một cõu khai bỏo như sau: <! DOCTYPE lewis SYSTEM "lewis.dtd">
(File DTD lewis.tdt được phõn phối kốm theo)
Tiếp đú trong mỗi file là những bài bỏo riờng biệt của Reuters đỏnh dấu với thẻ SGML, như miờu tả dưới đõy:
Thẻ Reuters:
Mỗi một bài bỏo bắt đầu với một “open tags” dưới dạng:
<REUTERS TOPICS=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWID=?? >
?? sẽ được điền vào ở cỏc dạng khỏc nhau. Mỗi một bài bỏo kết thỳc với “close tags” dưới dạng:
</REUTERS>
Trong tất cả cỏc trường hợp thẻ <REUTERS> and </REUTERS> là mục duy nhất trong dũng văn bản chứa chỳng.
Mỗi thẻ Reuters bao gồm sự chỉ định rừ ràng về giỏ trị của 5 thuộc tớnh TOPICS, LEWISSPLIT, CGISPLIT, OLDID, và NEWID. Những thuộc tớnh này cú tỏc dụng dể nhận dạng văn bản và cỏc nhúm văn bản, và cú ý nghĩa cụ thể như sau:
1.
TOPICS
Cỏc giỏ trị cú thể cú là YES, NO và BYPASS
- YES chỉ ra rằng trong dữ liệu nguyờn bản, đó cú ớt nhất một mục vào (entry) ở TOPIC
- NO chỉ ra rằng trong dữ liệu nguyờn bản bài bỏo đó khụng cú entries ở TOPIC - BYPASS chỉ ra rằng trong dữ liệu nguyờn bản bài bỏo đó được đỏnh dấu bằng cỏc chuỗi ký tự “bypass” ( hoặc cỏc biến tạo chữ ở cỏc chuỗi ký tự đú)
Cỏc giỏ trị này nhằm chỉ ra cú hay khụng cỏcvăn bản cú sự phõn lớp theo TOPIC trong tập hợp dữ liệu nguyờn gốc của Reuters-22173.
Thuộc tớnh TOPIC “Not” khụng chỉ ra được là cú hay khụng cỏc văn bản của Reuters -21578 cú bất kỳ sự phõn lớp theo TOPIC nào. Phiờn bản 1.0 của văn bản này bị lỗi ở phần này. Bài bỏo cú TOPIC= “yes” cú thể khụng cú sự phõn lớp theo TOPIC và bài bỏo cú TOPIC = “NO” cú thể cú sự phõn lớp theo TOPIC.
Cú thể kết luận rằng tất cỏc bài bỏo cú TOPIC= “yes” cú nghĩa ớt nhất người lập mục lục cũng xem xột tới khả năng bài bỏo này thuộc về một phõn lớp văn bản TOPIC cú hợp lệ hay khụng. Vỡ vậy cỏc bài bỏo cú TOPIC= “yes” nhưng lại khụng thuộc topic nào cú thể được dựng làm vớ dụ mang tớnh phủ nhận cho tất cả 135 phõn lớp TOPIC hợp lệ.
Cỏc bài bỏo cú TOPIC = “NO” khú giải quyết hơn trong quỏ trỡnh diễn giải. Một vài trong số những bài bỏo này được giả định là cú kết quả bởi vỡ người lập thư mục quyết định là chỳng khụng phải bất kỳ trong 135 phõn lớp TOPIC hợp lệ. Tuy nhiờn cũng cú một vài trường hợp rừ ràng một bài bỏo chắc chắn thuộc về một hoặc nhiều hơn sự phõn lớp TOPIC, tuy nhiờn vỡ một vài lý do nào đú mà lại khụng thấy sự phõn lớp này. Và cũng như vậy trong một số trường hợp, người tạo lập thư mục muốn phõn lớp theo TOPIC nhưng lại cú nhầm lẫn giữa cỏc topic. Những trường hợp này đó được sửa chữa ở dữ liệu của Reuter – 21578, lỳc này sẽ được cỏc văn bản được phõn lớp nhưng lại nằm ở phần cú TOPIC= “NO” vỡ sự phõn lớp đó khụng được thực hiện cho phiờn bản nguyờn gốc của dữ liệu.
Cỏc bài bỏo cú giỏ trị “BYPASS” sẽ khụng được sử dụng, và vỡ vậy chỳng chỉ cú tỏc dụng cho những cụng việc như là xõy dựng thụng tin chung về mặt ngụn ngữ sử dụng trong cỏc văn bản.
2.
LEWISSPIT
Cỏc giỏ trị cú thể cú là TRAINING, TEST, và NOT-USED. 3.
CGISPLIT
Cỏc giỏ trị cú thể cú là TRAINING-SET và PUBLISHED-TESTSET. 4.
OLDID:
ID bài bỏo khi nằm ở tập văn bản mẫu Reuters -22173. 5.
NEWID:
ID của bài bỏo nằm ở Reuters-21578 - Distribution 1.0 collection. Cỏc ID này sẽ được gỏn cho cỏc bài bỏo theo thứ tự thời gian.
Ngoài ra, một vài thẻ Reuters cú đặc tớnh thứ sỏu, CSECS, nhưng cú thể bỏ qua. Việc sử dụng cỏc đặc tớnh này chủ yếu và đặc biệt để so sỏnh sự khỏc nhau giữa cỏc nghiờn cứu.
Cỏc thẻ nằm trong văn bản (Document-Internal Tags)
THẻ <REUTERS> and </REUTERS> cú thể giới hạn văn bản trong pham vi một file, cỏc thẻ khỏc dựng để giới hạn cỏc yếu tố trong một văn bản.
Cỏc thẻ cú thể xuất hiện trong văn bản hoặc khụng lần nào, và đặc biệt trong một số trướng hợp, cả open tag (<>)và close tag (</>) đều nằm trờn cựng một dũng văn bản. Điều này sẽ giỳp ớch rất nhiều cho những phõn tớch nghiờn cứu tập móu mà khụng dựng SGML tool
1.<DATE>, </DATE> [ONCE, SAMELINE]:
Kốm theo ngày thỏng,thời gian của văn bản, đõy là cỏc dữ liệu chớnh xỏc, khụng mập mờ
2.<MKNOTE>, </MKNOTE> [VARIABLE]:
Ghi chỳ về sự sủa chữa đó được thực hiện đối với tập sao lục của Reuters bởi Steve Finch.
3.<TOPICS>, </TOPICS> [ONCE, SAMELINE]:
Ghi kốm theo danh sỏch cỏc phõn lớp theo TOPIC, cú thể cú nhiều hơn 1, cho mỗi văn bản. Nếu cỏc phõn lớp TOPIC xuất hiện, nú sẽ được định giới bởi cỏc thẻ <D> và </D>.
4. <PLACES>, </PLACES> [ONCE, SAMELINE]: Giống như <TOPICS> nhưng là dựng cho cỏc phõn lớp PLACES.
5. <PEOPLE>, </PEOPLE> [ONCE, SAMELINE]:
Giống như <TOPICS> nhưng là dựng cho cỏc phõn lớp PEOPLE . 6. <ORGS>, </ORGS> [ONCE, SAMELINE]:
Giống như <TOPICS> nhưng là dựng cho cỏc phõn lớp ORGS.
7. <EXCHANGES>, </EXCHANGES> [ONCE, SAMELINE]: Giống như <TOPICS> nhưng dựng cho cỏc phõn lớp EXCHANGES .
8.<COMPANIES>, </COMPANIES> [ONCE, SAMELINE]:
Những thẻ này luụn xuất hiện ngay sau nhau, vỡ sẽ khụng cú cỏc phõn lớp COMPANIES gỏn cho cỏc văn bản mẫu.
Những thẻ này dựng để qaủn lý cỏc ký tự điều khiển hay là cỏc ký tự “kỳ lạ” trong cỏc văn bản của Reuter
10.<TEXT>, </TEXT> [ONCE]:
Dựng để giới hạn thuộc tớnh text của một văn bản. Thẻ <TEXT> cú những thuộc tớnh sau:
a. TYPE: cú ba giỏ trị sau: NORM, BRIEF, và UNPROC. NORM là giỏ trị mặc định và chỉ ra đú là bài bỏo cú kết cấu thụng thường. Trong trường hợp này thẻ TEXT xuất hiện dưới dạng <TEXT>. Nú sẽ xuất hiện dưới dạng <TEXT TYPE="BRIEF"> khi bài bỏo ngắn hoặc cú hai dũng note. Thẻ xuất hiện dưới dạng <TEXT TYPE="UNPROC">khi định dạng bài bỏo khụng bỡnh thường ở một vài kiểu dạng mà chưa đạt được.
Cỏc thẻ sau đõy nằm bờn trong bờn trong thẻ TEXT. Khụng phải tất cả cỏc bài bỏo đều cú những thẻ sau:
b. <AUTHOR>, </AUTHOR>: tỏc giả của bài bỏo.
c. <DATELINE>, </DATELINE>:nơi xuất hiện bài bỏo, ngày thỏng
d. <TITLE>, </TITLE>: tiờu đề bài bỏo. Nội dung bài bỏo với TYPE="BRIEF" sẽ được lấy qua <TITLE> và </TITLE>
e. <BODY>, </BODY> : nội dung chủ yếu của bài bỏo. Vớ dụ về một văn bản trong Reuter 21578