Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
535,75 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN VĂN TẤN
NGHIÊN CỨUXÂYDỰNGPHÂNHỆTRÍCHLỌC
VÀ PHÂNLOẠIDỮLIỆU
Chuyên ngành: TRUYỀN DỮLIỆUVÀ MẠNG MÁY TÍNH
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
2
LỜI CẢM ƠN
Lời ñầu tiên tôi xin chân thành cảm ơn TS.Trần Thiện Chính ñã tận tình hướng dẫn,
gợi mở và ñộng viên tôi suốt quá trình học tập và thực hiện luận văn
Tôi xin chân thành cảm ơn các thầy, các cô Khoa Sau ñại học - Học viện Công nghệ Bưu
chính Viễn thông, ñã tận tình giảng dạy, truyền ñạt, giúp ñỡ tôi trong quá trình học tập và tạo
ñiều kiện thuận lợi cho tôi thực hiện tốt luận văn.
Tôi xin gửi lời cám ơn ñến tất cả bạn bè, người thân và ñồng nghiệp tại Trung tâm ñiều
hành thông tin - VNPT Hà Nội ñã tạo ñiều kiện và giúp ñỡ, hỗ trợ ñộng viên tôi trong quá trình
thực hiện luận văn.
Tôi xin chân thành cảm ơn!
Hà nội ngày 10 tháng 10 năm 2012
Học viên
Nguyễn Văn Tấn
3
CHƯƠNG 1 -MỞ ðẦU
1.1. ðặt vấn ñề
Nhận thức ñược lợi ích và tầm quan trọng của công nghệ thông tin và truyền thông
trong việc duy trì và thúc ñẩy sự phát triển bền vững, trong những năm qua lĩnh vực công
nghệ thông tin (CNTT) nói chung và hoạt ñộng ứng dụng công nghệ thông tin trong xử lý
dữ liệu nói riêng ñã phát triển nhanh chóng, mạnh mẽ và ngày càng có ý nghĩa quan trọng
trong mọi mặt của kinh tế - xãhội.
Vì vậy nhu cầu phân loại, lọcdữliệu là một nhiệm vụ rất quan trọng có thể hữu ích
trong tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn. Phân lớp dữliệu là
một nhiệm vụ rất quan trọng trong việc tổ chức cũng như tìm kiếm dữliệu trên nhiều nguồn
khác nhau. Mặt khác, phân lớp dữliệu là một trong những thành phần cơ bản nhưng quan
trọng nhất trong kiến trúc tổng thể của hầu hết các máy tìm kiếm. Hiện nay, bài toán này ñã
và ñang nhận ñược nhiều sự quan tâm, nghiêncứu của các nhà khoa học.
ðể tổng hợp tríchlọcdữliệuvàphânloạidữliệu cần phải xâydựng công cụ hỗ trợ tác
nghiệp xử lý thành thông tin ñể hỗ trợ nhu cầu phân tích của các nhà lãnh ñạo, các nhà chiến
lược trong tổ chức và sự ra ñời ứng dụng mới phục vụ cho mục ñích này ñược gọi là “Hệ
trích lọcvà xử lý dữ liệu”. Dữliệu ñược lưu trữ, xử lý, kết xuất theo các nhóm và loại, các
mục ñích cụ thể dưới dạng hướng chủ ñề.
1.2. Mục tiêu và phạm vi luận văn
1.2.1.
Mục tiêu luận văn
Với xu hướng phát triển mạnh mẽ trong công nghệ thông tin, ñặc biệt là lượng thông
tin, nguồn dữliệu cực kỳ lớn ñã ñòi hỏi phải có hệ thống lọc, xử lý vàphânloạidữ liệu. Do
vậy nhu cầu cần nghiêncứuvàxâydựng các công cụ trích lọc, phânloạidữliệu ñược ñặt ra
nhằm nâng cao hiệu quả sử dụng nguồn dữ liệu.
Xuất phát từ yêu cầu ñó, tác giả ñặt vấn ñề nghiêncứuxâydựngphânhệtríchlọcvà
phân tích dữ liệu. Mục ñích của ñề tài là hướng tới xâydựng bộ công cụ trích lọc, phân tích
dữ liệu từ các nguồn khác nhau.
1.2.2.
Phạm vi luận văn
ðối tượng của ñề tài là các nguồn dữliệu khác nhau trên Web hay Internet. Phạm vi
nghiên cứu của ñề tài trong lĩnh vực trao ñổi, xử lý dữliệu trên trang Web và các nguồn
RSS, do thời hạn thực hiện luận văn có hạn nên trong phạm vi của luận văn này, sẽ thực
hiện nghiêncứu phương pháp rút tríchvàphânloại trên công cụ GATE Framework 7.0 .
4
1.3. Kết quả ñạt ñược
Nghiêncứuhệ thống tríchlọcvàphânloạidữliệu từ nguồn URLs, RSS dụng GATE
Framework trên các thư viện số, ñồng thời kết hợp với việc sử dụng cơ sở dữliệu có sẵn, ñể
dữ liệutríchlọc ñược ñảm bảo tính ñầy ñủ, chính xác cao.
Tập trung vào cách rút ra ñược các thực thể và quan hệ dựa vào các API của GATE:
Trong ñó tập trung vào rút trích thực thể và quan hệ của các chương trình ñã ñược xâydựng
trước.
1.4. Bố cục luận văn
Nội dung chính của luận văn ñược bố cục gồm có 3 chương như sau:
Chương 1: Mở ñầu.Nội dung chương này xác ñịnh vấn ñề cần nghiêncứu của luận
văn, mục tiêu và phạm vi của luận văn cũng như tóm lược kết quả ñạt ñược của luận văn.
Chương 2: Khái quát trích lọc.Nội dung chương này phânloạidữ liệu, ñịnh nghĩa và
khái niệm tríchlọcdữliệu từ trước ñến nay trên thế giới. Nghiêncứu nguyên tắc rút trích,
phân loạidữ liệu, phương pháp rút trích hiện nay. phạm vi ứng dụng rút trich thông tin,ñặc
trưng dữliệu trong quá trình xử lý rút trích.
Chương 3:Kỹ thuật rút tríchdữliệuvàphân loại.Nội dung chương này thể hiện mô
hình dữliệu sử SVM và GATE Framework. ðặc tả dữliệuvà biểu diễn mô hình.
Chương 4: Kết quả rút trích, vàphânloạidữliệu khi sử dụng công cụ GATE
Framwork.
CHƯƠNG 1-KHÁI QUÁT TRÍCH LỌC, PHÂNLOẠI DỮLIỆU
1.5. ðịnh nghĩa rút trích thông tin
Các ñịnh nghĩa ñược dùng phổ biến trên internet liên quan ñến trích xuất thông tin bao
gồm:
Các nghiêncứu hiện nay liên quan ñến rút trích thông tin văn bản tập trung vào:
- Rút trích các thuật ngữ (Terminology Extraction): Tìm kiếm các thuật ngữ chính có
liên quan, thể hiện ngữ nghĩa, nội dung, chủ ñề tài liệu hay một tập các tài liệu.
- Rút trích các thực thể ñịnh danh (NER):Việc rút trích ra các thực thể ñịnh danh tập
trung vào các phương pháp nhận diện các ñối tượng, thực thể như: tên người, tên công ty,
tên tổ chức, một ñịa danh, nơi chốn.
- Rút trích quan hệ (Relationship Extraction):Cần xác ñịnh mối quan hệ giữa các thực
thể ñã nhận biết từ tài liệu. Chẳng hạn xác ñịnh nơi chốn cho một tổ chức, công ty hay nơi
làm việc của một người nào ñó.
5
1.6. Nguyên tắc rút trích thông tin
Theo tiến sĩ Diana Maynard hầu hết các hệ thống rút trích thông tin(IE) nói chung
thường tiến hành các bước sau:
- Tiền xử lý .
- Nhận biết ñịnh dạng tài liệu (Format detection).
- Tách từ (Tokenization).
- Phân ñoạn từ (Word Segmentation).
- Giải quyết nhập nhằng ngữ nghĩa (Sense Disambiguation).
- Tách câu (Sentence Splitting).
- Gán nhãn từ loại (POS Tagging).
- Nhận diện thực thể ñịnh danh (Named Entity Detection).
- Nhận biết thực thể (Entity Detection).
- Xác ñịnh ñồng tham chiếu (Coreference).
1.7. Phương pháp tiếp cận rút trích thông tin
Các phương pháp trích xuất hiện nay có thể chia thành hai cách tiếp cận chính: tiếp
cận công nghê tri thức (Knowledge Engineering) và tiếp cận học máy tự ñộng (Automatic
Training).
1.8. Phương pháp ñánh giá rút trích thông tin Sadflk
ðể ñánh giá kết quả của thông tin ñược trích xuất, các chuyên gia ñã ñưa ra ñộ ño và
ñược sử dụng trong lĩnh vực truy vấn thông tin (IR) ñó là ñộ chính xác “Precision” và ñộ tin
cậy “Recall”.
ðộ chính xác Precision (P): Là phân số thể hiện tỷ lệ thông tin ñược rút trích ñúng.
Bao nhiêu phần trăm thông tin ñược rút là ñúng. Tỷ lệ giữa số lượng câu trả lời ñúng tìm
thấy với tổng số câu trả lời ñúng có thể.
ðộ tin cậy Recall (R): Là ñộ ño hay phân số thể hiện khả năng tin cậy của thông tin
ñược trích xuất. Tỷ lệ giữa tổng số câu trả lời ñúng tìm thấy với tổng số câu trả lời tìm thấy.
)( tntp
tp
R
+
=
(1)
)( fptp
tp
P
+
=
(2)
Với: tp là số kết quả ñúng ñược tìm thấy; tn là số kết quả ñúng mà không tìm thấy; fp
6
là số kết quả tìm thấy mà không ñúng.
Người ta ñã tìm cách kết hợp hai ñộ ño này và ñề xuất một ñộ ño mới, ñó là F-Measure
(F).
Thông số β xác ñịnh mức ñộ tương quan giữa ñộ chính xác P (Precision) và ñộ tin cậy
R (Recall). Các chuyên gia về rút trích thông tin thường sử dụng β = 1 ñể ñánh giá ñộ ño F.
Khi ñó P và R ñược gán trọng số bằng nhau, hiệu năng của hệ thống ñược ñánh giá thông
qua các giá trị khác nhau của ñộ chính xác R và ñộ tin cậy P, từ ñó có thể so sánh một cách
dễ dàng.
Với β = 1 thì F-Mearsure:
)(
2
RP
RP
F
+
×
×
=
1.9. Một số phương pháp tríchlọcvàphânloạidữliệu hiện nay
1.9.1.
Phương pháp rút trích cụm từ khóa (Keyphrase Extraction)
Việc rút trích trước ñây hầu hết dựa vào tiếp cận phân tích cú pháp, tách câu, thống kê
tần xuất xuất hiện tf*idf ñể rút ra các cụm. Kết quả rút trích vẫn chưa thực sự tốt, còn khá
nhiều “rác” (cụm vô nghĩa, cụm không thể hiện ñiện ngữ nghĩa của tài liệu ñề cập). Vấn ñề
xác ñịnh chính xác các cụm từ khóa, cũng như xác ñịnh ñược biên giới của các từ khóa, cụm
từ khóa từ tài liệu tiếng Việt hiện nay vẫn là một bài toán khó và vẫn ñang ñược quan tâm
nghiên cứu.
1.9.2.
Phương pháp sinh cụm từ khóa tự ñộng
Phương pháp gán cụm từ khóa (Keyphrase Assignment):Tìm kiếm và chọn các cụm từ
khóa từ từ vựng quản lý (Controlled Vocabulary) thích hợp nhất ñể mô tả tài liệu. Tập dữ
liệu huấn luyện là một tập hợp các tài liệu với mỗi cụm từ trong từ vựng và dựa vào ñó ñể
xây dựng một bộ phân lớp (classifier).
Phương pháp trích xuất cụm từ khóa (Keyphrase Extraction):Sẽ dùng các kỹ thuật truy
vấn thông tin và xử lý từ vựng ñể chọn ra các cụm từ khóa từ chính tài liệu ñang xét thay vì
dùng các cụm từ ñịnh nghĩa trước trong từ vựng quản lý.
1.9.3.
Phương pháp trích xuất các cụm từ khóa (KEA)
KEA dùng phương pháp học máy Naïve Bayes ñể huấn luyện và rút trích các cụm từ
khóa.
7
Theo nhận ñịnh của các tác giả, KEA là thuật toán có khả năng ñộc lập ngôn ngữ.Các
bước sau thực hiện thuật toán KEA: Chi tiết tham khảo (Phụ lục A).
1.9.4.
Phương pháp thống kê
Hầu hết các nghiêncứu ñầu tiên cho rút tríchdữliệu ñều tập trung trên những tài liệu
kỹ thuật (các bài báo khoa học). Các phương pháp cổ ñiển thường tập trung vào các ñặc
trưng hình thái ñể tính ñiểm cho các câu và rút trích các câu quan trọng ñể ñưa vào tóm tắt.
Sử dụng các ñặc trưng như: wordfrequency, stopwords, position, cuewords, title. Sử
dụng phương pháp kết nối tuyến tính ñể kết hợp các ñiểm ñặc trưng lại với nhau:
+ Thử nghiệm với 400 dữ liệukỹthuật và kết quảñạt 44%.
1.9.5.
Phương phápthống kê trên TF.IDF
Phương pháp này còn gọi là mô hình túi từ (bag-of-words), sử dụng mô hình trọng số
tần suất thuật ngữ và tần suất câu ñảo ngược (TF.IDF). Ở mô hình này, giá trị IDF ñược
tính trên câu. Trongñó, TF là số lần xuất hiện của term trong1 câu. Và DF là số câu có chứa
thuật ngữ.
Tuy nhiên, phương pháp dung ñộ ño TF.IDF không ñược dùng ñộc lập, mà thường
ñược kết hợp với các phương pháp khác như máy học, ñồ thị… ñể ñạt ñược hiệu quả cao
hơn.
1.9.6.
Phương pháp Naïve-Bayes
Các hướng tiếp cận theo phương pháp này giả ñịnh rằng các ñặc trưng của dữliệu ñộc
lập nhau. Sử dụngbộ phân lớp Naïve-Bayes ñể xác ñịnh câu nào thuộc về tóm tắt và ngược
lại:
Chos là các câu cần xác ñịnh. F
1
…F
k
là các ñặc trưng ñã ñược chọn, và giả ñịnh các
thuộc tính ñộc lập nhau. Xác suất của câu s thuộc về tóm tắt ñược tính như sau:
Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ ñược rút trích.
+ Kết hợp thêm nhiều ñặc trưng phong phú hơn: tf.idf(singleword, two-noun word,
named-entities), discourse(cohension) (sử dụng Wordnet và kỹ thuật sử lý ngôn ngữ tự
nhiên ñể phân tích sự tham chiếu ñối với các thực thể).
1.9.7.
Phương pháp mô hình Makov ẩn (Hidden Makov Model)
Tác giả ñưa ra khái niệm về sự phụ thuộc cục bộ (local dependencies) giữa các câu và
8
sử dụng mô hình HMM ñể xác ñịnh sự phụ thuộc này.
Các ñặc trưng sử dụng: position, number of term, like lihood of sentence.
Mô hình HMM bao gồm 2s+1 trạng thái, trong ñó s là số trạng thái tóm tắt (câu thuộc
tóm tắt) và s+1 là câu không thuộc tóm tắt.
Hình 1.1
: Mô hình Hidden Makov Model
Mô hình HMM xâydựng ma trận chuyển vị M, coi các ñặc trưng là ña biến và tính
xác suất của các câu qua từng trạng thái.
1.9.8.
Phương pháp máy học SVM
SVM là một phương pháp phânloại xuất phát từ lý thuyết học thống kê. Ý tưởng của
nó là ánh xạ (tuyến tính hoặc phi tuyến) dữliệu vào không gian các vector ñặc trưng (space
of feature vectors) mà ở ñó một siêu phẳng tối ưu ñược tìm ra ñể tách dữliệu thuộc hai lớp
khác nhau.
Giả sử, chúng ta lựa chọn ñược tập các ñặc trưng là T={t
1
, t
2
, …, t
n
}, x
i
là vector dữ
liệu ñược biểu diễn x
i
=(w
i1
, w
i2
, …, w
in
), w
in
∈R là trọng số của ñặc trưng t
n
. Với tập dữliệu
huấn luyện Tr={(x
1
, y
1
), (x
2
, y
2
), …, (x
l
, y
l
)}, (x
i
∈
R
n
), y
i
∈
{+1, -1}, cặp (x
i
, y
i
) ñược hiểu là
vector x
i
ñược gán nhãn là y
i
.
Nếu coi mỗi x
i
ñược biểu diễn tương ứng với một ñiểm dữliệu trong không gian R
n
thì
ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-
chiều ñể phân chia dữliệu sao cho tất cả các ñiểm x
+
ñược gán nhãn 1 thuộc về phía dương
của siêu phẳng (f(x
+
)>0), các ñiểm x
-
ñược gán nhãn –1 thuộc về phía âm của siêu phẳng
(f(x
-
)<0).
9
Hình 1.2
: H
2
là mặt phẳng tốt nhất
Việc tính toán ñể tìm ra siêu mặt phẳng tối ưu dùng kỹ thuật sử dụng toán tử Lagrange
ñể biến ñổi thành dạng ñẳng thức là rất phức tạp và khó khăn. Hiện nay ñã có những bộ thư
viện ñã hỗ trợ cho việc tính toán trên như : SVM
light
, LIBSVM, jSVM,
Ví dụ: Giả sử ta có một tập các ñiểm ñược gán nhãn dương (+1): {(3,1), (3, -1), (6, 1),
(6, -1)}; và tập các ñiểm ñược gán nhãn âm (-1) trong mặt phẳng R
+
: {(1, 0), (0, 1), (0, -1),
(-1, 0)}.
Chúng ta sẽ dùng SVM ñể phân biệt hai lớp (+1 và -1). Bởi vì dữliệu ñược chia tách
một cách tuyến tính, rõ ràng, nên chúng ta sử dụng linear SVM (SVM tuyến tính) ñể thực
hiện.
Hình 1.3
: Các ñiểm dữliệu ñược biểu diễn trên R
+
Theo quan sát Hình 3.6, chúng ta chọn ra 3 vector hỗ trợ ñể thực thi các phép toán
10
nhằm tìm ra mặt phẳng phân tách tối ưu nhất:
{s
1
= (1,0), s
2
= (3,1), s
3
= (3, -1)}
Hình 1.4
: Các vector hỗ trợ (support vector) ñược chọn
Các vector hỗ trợ ñược tăng cường (augmented) bằng cách thêm 1. Tức là s
1
= (1, 0),
thì nó sẽ ñược chuyển ñổi thành
s
%
= (1, 0, 1). Theo kiến trúc SVM, công việc của chúng ta
là tìm ra những giá trị
i
α
.
1 1 1 2 2 1 3 3 1
1 1 2 2 2 2 3 3 2
1 1 1 2 2 3 3 3 3
( ). ( ) ( ). ( ) ( ). ( ) 1
( ). ( ) ( ). ( ) ( ). ( ) 1
( ). ( ) ( ). ( ) ( ). ( ) 1
s s s s s s
s s s s s s
s s s s s s
α α α
α α α
α α α
Φ Φ + Φ Φ + Φ Φ = −
Φ Φ + Φ Φ + Φ Φ = +
Φ Φ + Φ Φ + Φ Φ = +
Bởi vì chúng ta sử dụng SVM tuyến tính nên hảm
()
Φ
- dùng ñể chuyển ñổi vector từ
không gia dữliệu ñầu vào sang không gian ñặc trưng – sẽ bằng
()
I
Φ =
. Biểu thức trên ñược
viết lại như sau:
1 1 1 2 2 1 3 3 1
1 1 2 2 2 2 3 3 2
1 1 3 2 2 3 3 3 3
. . . 1
. . . 1
. . . 1
s s s s s s
s s s s s s
s s s s s s
α α α
α α α
α α α
+ + = −
+ + = +
+ + = +
% % % % % %
% % % % % %
% % % % % %
Rút gọn biểu thức trên thông qua việc tính toán tích vô hướng giữa các vector.
1 2 3
1 2 3
1 2 3
2 4 4 1
4 11 9 1
4 9 11 1
α α α
α α α
α α α
+ + = −
+ + = +
+ + = +
Giải hệ phương trình 3 ẩn trên ta có: α
1
= -3.5, α
2
= 0.75, α
3
= 0.75. Tiếp ñến ta tính
trọng số
ω
%
thông qua công thức:
1 3 3 1
3.5 0 0.75 1 0.75 1 0
1 1 1 2
i i
i
s
ω α
= = − + + − =
−
∑
%
%
Siêu phẳng phân chia 2 lớp ñó là: y = wx + b với w = (1, 0) và b = -2.
[...]... a ch n GATE Frame ñ nghiên c u trích l c vàphân lo i d li u t các ngu n Internet.GATE ñư c vi t hoàn toàn b ng Java và là ph n m m mã ngu n m , ngoài ra, nó còn s d ng JAPE (Java Annotation Patterns Engine) ñ xây d ng các b lu t cho vi c gán nhãn d li u CHƯƠNG 2 -K THU T TRÍCH L C VÀ PH N LO I D LI U GATE Framework 2.1 Bi u di n d li u c n trích l c vàphân lo i 2.1.1 D li u ñ u vào a Các ñ i tư ng... trưng là nh ng nhãn c a 5 dòng trư c và 5 dòng sau dòng ñang xét CHƯƠNG 3 - NG D NG CÔNG C TRÍCH L C VÀPHÂN LO I 3.1 ng d ng GATE trích l c vàphân lo i d li u 3.1.1 Sơ lư c GATE 3.1.1.1 Gi i thi u v GATE ð tài d a trên xây d ng các lu t, m u d a trên thông tin c u trúc và trình bày c a tài li u, k t h p v i nh ng t ñi n, ontologies và thư vi n s n có c a GATE ñ rút trích các metadata cho các tài li... c ñ ng nghĩa Hi n nay ñã có các phương pháp trích l c (SVM, CRF, GATE, Naïve-Bayes, KEA ) Trong ñó phương pháp trích l c vàphân lo i GATE có nh ng ưu như c ñi m: - Trích l c ñư c nhi u d ng d li u ñ u vào: Text, Internet, Rss, XML, DBF và m t s d ng văn b n khác - Là công c mã ngu n m , cho phép phát tri n ti p thành công c h u ích ñ trích l c d li u, vàphân lo i d li u cho m t lĩnh v c chuyên sâu... c cơ b n v trích l c d li u, ng d ng c a rút trích d li u văn b n - Các phương pháp rút trích c m t khóa, th c th , quan h gi a các th c th và các phương pháp rút trích siêu d li u (metadata) d li u t ngu n Internet, Rss - ð xu t phương pháp rút trích metadata d a trên vi c xây d ng các lu t, m u k t h p các t ñi n, thông tin ti n t và h u t - Xây d ng công c trên n n API GATE Frameword trích l c d... nay như: H u h t các phương pháp rút trích quan h ti p c n theo các hư ng như d a trên lu t (rule-base), d a trên ñ c trưng (feature-based) và các phương pháp kernel (kernel-based) 2.2 Phương pháp trích l c vàphân lo i d li u t m t s ngu n khác nhau 2.2.1 Trích l c 13 D li u D hu n D li u tóm t t li u test Rút Ngu n trích ñ c trưng d li u Ngu n d li u ðóng Rút trích nhãn ñ c trưng T p Lu t Thu t toán... Degree Publish name CsenLen : 6 … ClinePos : 2 Ví d : 2.3.2 Bư c 2: Phân l p các dòng ñ c l p theo 15 ñ c trưng, và gán nhãn t m th i cho 16 t ng dòng 2.3.3 Bư c 3: Bi u di n t ng dòng l i theo 15 + 150 ñ c trưng ðưa vào b phân l p theo ng c nh (context) và ti n hành gán nhãn l i: - Thông qua b phân l p ñ c l p ta xây d ng t p ph n trên, b phân l p theo ng c nh 1c 2 1v i 15 ñ c trưng ñư c ñ c p v i 15 +... Dubline Core Metadata, và k t qu ñư c th hi n trong B ng 3.1: 24 B ng 3.1 : K t qu ñư c ñanh giá như bi u ñ trên Metadata Precision (%) Recall (%) F-Measure (%) Tittel 50,0% 100,0% 67% Location 97,22% 83,63% 89,91% Person 68% 83% 74,99% K T LU N VÀ KI N NGH K t lu n Lu n văn ñã t p trung nghiên c u t ng quan v lĩnh v c trích l c d li u vàphân lo i d li u t URLs, Rss trên internet và các ngu n d li u... theo 15 + 150 ñ c trưng ðưa vào b phân l p theo ng c nh (context) và ti n hành gán nhãn l i 2.2.3 Phương pháp ti p c n rút trích thông tin: 2.2.3.1 Phương pháp rút trích thông tin d a trên h c máy (Machine Learning) B ng cách h c t t p hu n luy n (quan sát các ñ c trưng c a t p d li u ñã ñư c xác ñ nh b i chuyên gia), h th ng s phân tích n i dung d li u mà ngư i dùng ñưa vào (thư ng là d ng text), ñ... li u Hình 2.1 : Mô hình trích l c d li u SVM Framework chung cho h th ng tóm t t d li u b ng phương pháp máy h c 2.2.2 Phân lo i d li u 2.2.2.1 Khái ni m: Phân lo i văn tài li u là vi c gán các nhãn phân lo i lên m t tài li u m i d a trên m c ñ tương t c a tài li u ñó so v i các tài li u ñã ñư c gán nhãn trong t p hu n luy n” 2.2.2.2 SVM trong bài toán rút trích metadata Rút trích nh ng trư ng metadata... chu n và ñ l n ñ cho thu t toán h c phân lo i Các phương pháp h u h t ñ u s d ng mô hình vector ñ bi u di n d li u, do ñó phương pháp tách t là m t y u t quan tr ng Thu t toán s d ng ñ phân lo i ph i có th i gian x lý h p lý , th i gian này bao g m : th i gian h c , th i gian phân lo i d li u , ngoài ra thu t toán này ph i có tính tăng cư ng (incremental function) 2.3 ð c t trích rút d li u và bi u . vấn ñề nghiên cứu xây dựng phân hệ trích lọc và
phân tích dữ liệu. Mục ñích của ñề tài là hướng tới xây dựng bộ công cụ trích lọc, phân tích
dữ liệu từ. NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN VĂN TẤN
NGHIÊN CỨU XÂY DỰNG PHÂN HỆ TRÍCH LỌC
VÀ PHÂN LOẠI DỮ LIỆU
Chuyên ngành: TRUYỀN DỮ LIỆU VÀ