Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
334,37 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
BÙI ĐỨC TRUNG
NGHIÊN CỨUKỸTHUẬT GÁN NHÃNCHODỮLIỆU
DẠNG CHUỖIVÀỨNGDỤNG
CHUYÊN NGÀNH :
TRUYỀN DỮLIỆUVÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ KỸTHUẬT
HÀ NỘI – 2010
Luận văn được hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông
Tập đoàn Bưu chính Viễn thông Việt Nam
Người hướng dẫn khoa học:
PGS.TS. TỪ MINH PHƯƠNG
Phản biện 1: ……………………………………………………
……………………………………………………
Phản biện 2: ……………………………………………………
……………………………………………………
Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại Học viện Công nghệ
Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện Học viện Công nghệ Bưu chính Viễn thông
1
LỜI MỞ ĐẦU
Dữ liệudạngchuỗi là một tập các phần tử được sắp thứ tự s:= a
1
, a
2
, a
n
.
Trong đó mỗi phần tử a
i
có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n
của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có
thể sắp đều hoặc không.
Bài toán gánnhãnchodữliệudạngchuỗi là một phần quan trọng của vấn đề
phân loại giám sát, khi mà các nhãncho một bộ các biến mục tiêu sẽ được dự đoán
đồng thời với nhãn các biến khác trong chuỗi.
Có nhiều bài toán trong thực tế được giải quyết dựa trên vấn đề gánnhãn
cho dữliệudạng chuỗi. Gánnhãnchodữliệudạngchuỗi có vai trò cốt lõi, quan
trọng trong ba bài toán cơ bản sau: thông tin, nhậndạng giọng nói, ngôn ngữ và
chữ viết. Các ứngdụng cổ điển của bài toán gánnhãnchodữliệudạngchuỗi là về
giọng nói với chuỗi các âm vị, ngôn ngữ với chuỗi các từ và khoảng trắng và chữ
viết tay với chuỗi các nét chữ. Ngoài ra, hiện nay một số ứngdụng mới của
phương pháp này như Tin sinh học với các bài toán về dự đoán gen, các ứngdụng
trong viễn thông về cảnh báo lỗi, gánnhãncho các gói dữliệu …
Mô hình Markov ẩn đã thành công với bài toán gánnhãnchodữliệudạng
chuỗi này trong nhiều năm. Gần đây, một số mô hình có điều kiện như Maximum
Entropy Markov Model (MEMM) và Conditional Random Field (CRF) được sử
dụng nhiều bởi khả năng cho phép các tính năng chồng chéo. Đặc biệt là CRF
được coi như là một phương pháp rất triển vọng đối với bài toán gánnhãncho
chuỗi.
Bưu điện tỉnh Lạng Sơn là một doanh nghiệp kinh doanh các dịch vụ Bưu
chính, viễn thông trên địa bàn tỉnh Lạng Sơn, các dữliệudạngchuỗi ngày càng
2
xuất hiện nhiều trong quá trình sản xuất kinh doanh tại đơn vị vàcho thấy có thể có
nhiều ứng dụng. Vì lý do đó, tôi chọn đề tài: “Nghiên cứukỹthuật gán nhãncho
dữ liệudạngchuỗivàứng dụng”
Mục đích nghiên cứu: Nghiêncứu các dạngdữliệudạng chuỗi, các kỹ
thuật gánnhãnchodữliệudạngchuỗivà các ứngdụng trong các bài toán có cấu
trúc trong thực tế.
Với mục tiêu cụ thể như sau:
- Nghiêncứu bài toán gánnhãnchodữliệudạng chuỗi.
- Nghiêncứu một sỗ kỹthuậtgánnhãnchodữliệudạngchuỗi cụ thể là
máy vecto hỗ trợ (Support Vector Machines –SVM)
s
, Mô hình Markov ẩn (Hidden
Markov Model – HMM), Mạng Markov với lề cực đại (Max Margin Markov
Network -M3N) và Trường ngẫu nhiêu điều kiện (Conditional Random Field –
CRF).
- Minh hoạ các kỹthuật trên bằng hai bài toán thường gặp.
Đối tượng và phạm vi nghiên cứu:
Luận văn tập trung vào nghiêncứu các dữliệudạngchuỗi có cấu trúc, các
kỹ thuậtgánnhãnchodữliệudạng chuỗi, đây là một lĩnh vực giành được nhiều sự
chú ý trong Machine Learning và lĩnh vực mới thu hút sự quan tâm của nhiều đối
tượng. Kỹthuậtgánnhãnchodữliệudạngvàứngdụng cụ thể của kỹthuật này.
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết trong các kỹthuậtgánnhãnchodữliệudạng chuỗi,
nghiên cứu cụ thể kỹthuật SVM, HMM, M3N và CRF. Nghiêncứu bài toán “Gán
nhãn từ loại” và bài toán “Nhận dạngký tự viết tay” cùng với các ứngdụng trong
thực tế từ đó có hướng giải quyết cụ thể.
3
Luận văn này được trình bày trong ba chương:
Chương 1: Tổng quan
Chương 1 giới thiệu chung về dữliệudạng chuỗi, bài toán gánnhãnchodữliệu
dạng chuỗivà các ứngdụng trong trí tuệ nhân tạo hiện nay. Chương này cũng đề cập
đến các công nghệ đã vàđang được ứngdụng bài toán gánnhãnchodữliệudạng
chuỗi.
Chương 2: Một số mô hình giải bài toán gánnhãnchodữliệudạng
chuỗi
Chương này sẽ giới thiệu một số mô hình để giải bài toán gánnhãnchodữ
liệu dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứngdụng
nhiều hiện nay là SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô
hình bài toán gánnhãnchodữliệudạngchuỗi đối với các phương pháp này.
Chương 3: Thiết kế thử nghiệm và phân tích
Trong phần này ta sẽ áp dụng các thuật toán đã đề cập trong các phần trước
để mô hình hai bài toán học có cấu trúc đã được biết rộng rãi là: gánnhãn từ loại
(Part-of-speech (POS) tagging) vànhậndạngký tự viết tay (handwritten character
recognition - OCR).
4
Chương 1
TỔNG QUAN
1.1 DỮLIỆUDẠNGCHUỖI
Dữ liệudạngchuỗi là một tập các phần tử được sắp thứ tự s:= a
1
, a
2
, a
n
.
Trong đó mỗi phần tử a
i
có thể là kiểu số hoặc có thể nhận giá trị rời rạc. Độ dài n
của chuỗi là không cố định, chuỗi được sắp theo thứ tự thời gian hoặc vị trí và có
thể sắp đều hoặc không.
Ngày nay, dữliệudạngchuỗi được ứngdụng thực tế trong nhiều ngành và
có vai trò quan trọng trong các bài toán phân loại hay nhận dạng.
1.2 BÀI TOÁN GÁNNHÃNCHODỮLIỆUDẠNGCHUỖI
Gán nhãnchochuỗi là xác định nhãn phân loại cho từng thành phần trong
chuỗi quan sát được. Để xác định nhãncho các thành phần của một chuỗi, ta có thể
xác định nhãncho từng thành phần độc lập với các thành phần khác. Khi đó, bài
toán có thể coi như là một tập các nhiệm phụ phân lớp độc lập đối với các thành
phần của chuỗi. Tuy nhiên, có thể nhận thấy nhãn phân loại của mỗi thành phần lại
phụ thuộc vào nhãn các thành phần xung quanh. Vì vậy, việc gánnhãnchochuỗi
cần được thực hiện theo phương pháp cho phép tính tới sự phụ thuộc giữa các nhãn
trong chuỗi với nhau. Từ đây dẫn tới nhu cầu phát triển và sử dụngkỹthuật phân
loại đặc thù chodữliệu có dạng chuỗi.
Trong bài toán gánnhãnchodữliệudạng chuỗi, đầu ra là chuỗi của các
nhãn y = (y
1
, y
2
, …, y
T
) tương ứng với một chuỗi quan sát x = (x
1
, x
2
, …, x
T
). Nếu
mỗi nhãn có thể nhận giá trị từ tập ∑ thì đầu ra có thể coi như là một vấn đề phân
loại đa lớp với |∑|
T
các lớp khác nhau. Bài toán có thể được đưa ra như sau:
Bài toán: Cho trước
5
Đầu vào: x = (x
1
, x
2
, …, x
T
)
Và các nhãn tương ứng: y = (y
1
, y
2
, …, y
T
)
Khi đó, với mỗi x, hãy tiên đoán y.
Gán nhãnchodữliệudạngchuỗi được sử dụng nhiều trong các bài toán gán
nhãn từ loại, nhậndạng hình ảnh, âm thanh hay các bài toán về dự đoán gen. Mô
hình Markov ẩn đã thành công trong một thời gian dài với bài toán gánnhãncho
dữ liệudạng chuỗi. Gần đây, một số mô hình có điều kiện như Maximum Entropy
Markov Model (MEMM) và Conditional Random Field (CRF) được sử dụng nhiều
bởi khả năng cho phép các tính năng chồng chéoTrong đó CRF là phương pháp
được chú ý nhiều nhất.
Sự quan tâm dành cho bộ môn Trí tuệ nhân tạo cũng như bài toán gánnhãn
cho dữliệudạngchuỗi trong những năm gần đây là rất đáng kể. Nhiều công trình
nghiên cứu trong và ngoài nước đã vàđang sử dụnggánnhãnchodữliệudạng
chuỗi và có những ứngdụng nhất định. Trong những năm gần đây, việc giải bài
toán gánnhãnchodữliệudạngchuỗi với dữliệu có cấu trúc thu hút được nhiều sự
chú ý trong các vấn đề về xử lý ngôn ngữ tự nhiên. Mục đích của bài toán học có
cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây hay đồ thị.
6
Chương 2
MỘT SỐ MÔ HÌNH GIẢI BÀI TOÁN GÁNNHÃNCHODỮ
LIỆU DẠNGCHUỖI
Chương này giới thiệu một số mô hình để giải bài toán gánnhãnchodữliệu
dạng chuỗi. Trong chương này ta sẽ xem xét các phương pháp được ứngdụng
nhiều hiện nay là SW, SVM, HMM, M3N và CRF. Ta cũng xem xét cụ thể cách mô
hình bài toán gánnhãnchodữliệudạngchuỗi đối với các phương pháp này.
2.1 MÔ HÌNH CỬA SỔ TRƯỢT (SW)
Đối với bài toán gánnhãnchodữliệudạngchuỗi nêu trên, có một số mô
hình thích hợp dùng để giải như Mô hình Markov ẩn (Hidden Markov Model –
HMM), mô hình máy vector hỗ trợ (Support Vector Machine – SVM), mô hình
Cửa sổ trượt (Sliding Window) hay mô hình Các trường điều kiện ngẫu nhiên
(Conditional Random Fields – CRFs). Trong đó có thể nói mô hình cửa sổ trượt là
một mô hình đơn giản nhất.
Mô hình cửa sổ trượt chuyển vấn đề học có giám sát một chuỗi thành mô
hình học có giám sát kinh điển. Phương pháp này xây dựng một bộ phân loại cửa
sổ h
w
mà sắp xếp một cửa sổ đầu vào w với một giá trị đầu ra y riêng. Cụ thể, lấy d
= (w-1)/2 là một nửa độ dài của cửa sổ. Khi đo cửa sổ h
w
sẽ dự đoán phần tử y
i,t
sử
dụng cửa sổ <x
i,t-d
, x
i,t-d+1
, …, x
i,t
, …, x
i,t+d-1
, x
i,t+d
>. Kết quả là với mỗi chuỗi đầu
vào x
i
được thêm vào một giá trị d null ở cuối và sau đó được chuyển thành N
i
mẫu
riêng biệt.
7
Phương pháp cửa sổ trượt cho kết quả tương đối tốt trong một số ứng dụng.
tuy nhiên phương pháp này không cho phép tính đến sự phụ thuộc giữa giá trị của
y
t
với các giá trị y khác gần đó.
Một cách để cải tiến mô hình cửa sổ trượt đã nêu ở trên là làm cho nó hồi
quy. Trong mô hình cửa sổ trượt hồi quy, các giá trị được dự đoán
,
được cung
cấp như là đầu vào để hỗ trợ trong việc dự đoán giá trị y
i,t+1
. Cụ thể, với một cửa sổ
của nửa độ dài d, hầu hết các dự đoán d gần đây
,
,
,
,…,
,
được sử
dụng như là các đầu vào (cùng với cửa sổ trượt <x
i,t-d
, x
i,t-d+1
, …, x
i,t
, …, x
i,t+d-1
,
x
i,t+d
>) để dự đoán y
y,t
.
2.2 PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ (SVM)
Lấy =
{(
̅
,
)
,…,
(
̅
,
)}
là một tập gồm m mẫu huấn luyện. Giả sử
rằng mỗi mẫu ̅
là được đưa vào từ miền ⊆
và mỗi nhãn
là một giá trị
nguyên từ tập =
{
1,…,
}
. Một bộ phân loại đa lớp là một hàm : → mà
ánh xạ một ̅ tới một phần tử y trong . Trong phần này ta tập trung vào nền tảng
mà sử dụng bộ phân loại được cho bởi
(
̅
)
= arg
{
.̅
}
Để xây dựng được bộ dự đoán, ta thay thế lỗi phân loại sai của một mẫu
([
(
̅
)
≠]) bằng các phần biên tuyến tính sau đây
max
.̅+ 1 −
,
−
.̅
Phương pháp SVM có thể sử dụngcho bài toán gánnhãnchodữliệudạng
chuỗi. Thay vì sử dụngchuỗi cặp (x,y) làm các mẫu huấn luyện, SVM sử dụng mỗi
cặp dấu hiệu nhãn (x, y) trong chuỗi làm mẫu huấn luyện. Với ánh xạ đặc trưng
(
,
)
=
…
|
Σ
|
ở đây
= (= ), SVM học vector trọng số w và
biến lỏng ξ cho vấn đề tối ưu bậc hai sau đây
8
min
,
1
2
‖
‖
+
Với điều kiện ∀,∀∈ \
:
〈
,
(
(
,
)
−(
,))
〉
≥1 −
SVM sử dụng phưong pháp lát cắt để xử lý vấn đề tối ưu này lặp đi lặp lại
việc thêm hầu hết các hạn chế vi phạm vào tập hợp các hạn chế được tối ưu cho
công thức kép. Sau đó ta được w đã học và ξ, sự phân loại của mẫu x mới được
thực hiện bởi
(
)
= arg
∈
〈
,
(
,
)
〉
với sự tìm kiếm đầy đủ của nhãn y.
Phương pháp này bao gồm một tham số điều chỉnh C là sự thoả hiệp giữa lỗi
huấn luyện và biên
2.3 MÔ HÌNH MARKOV ẨN (HMM)
Ta đã biết mô hình Markov là mô hình mà mỗi trạng thái tương ứng với một
sự kiện có thể quan sát được. Tuy nhiên các mô hình như vậy có ứngdụng rất hạn
chế trong các bài toán thực tế. Do đó, mô hình được mở rộng bao gồm cả những
trường hợp thống kê chồng kép với một quá trình thống kê mà bên trong không
quan sát được (ẩn sâu bên trong), chỉ có thể quan sát được thông qua một tập các
quá trình thống kê khác, các quá trình mà tạo ra dãy quan sát được. Mô hình như
vậy được gọi là mô hình Markov ẩn (HMM).
Một mô hình Markov ẩn học một mô hình có khả năng sinh qua các cặp đầu
vào, mỗi cặp gồm một chuỗi của các quan sát vàchuỗi của các nhãn. Mô hình
Markov ẩn đã có được nhiều thành công trước đây, các mô hình Markov ẩn khó
mô hình các đa đặc trưng không độc lập. Đúng ra thì, cho trước một chuỗi quan
sát, ta có thể tìm được tuyến trạng thái có khả năng nhất chochuỗi quan sát bằng
thuật toán Viterbi.
[...]... toán phổ biến trong vấn đề gánnhãnchodữliệudạngchuỗi đó là Gánnhãn từ loại” và “Nhận dạn ký tự viết tay” Qua các bài toán thực tế cho thấy, mô hình CRF cho kết quả tốt nhất trong các mô hình trên đối với các bài toán gánnhãnchodữliệudạngchuỗi Luận văn đã tập trung nghiên cứu và đưa ra các kết quả sau: Trình bày tổng quan bài toán gánnhãnchodữliệudạngchuỗi Trình bày một số mô... toán gánnhãnchodữliệudạngchuỗi Đưa ra bài toán và so sánh các kết quả đạt được khi giải bài toán bằng các mô hình khác nhau Luận văn này có thể được phát triển theo một số hướng: Tìm hiểu kỹ hơn một số mô hình để giải bài toán gánnhãnchodữliệudạngchuỗi Xây dựng một số ứngdụng khác sử dụng các phương pháp gánnhãnchodữliệudạngchuỗi Mặc dù có rất nhiều cố gắng trong nghiên cứu. .. là một phương thức tốt nhất để gánnhãnchodữliệudạngchuỗi Trong chương 3 ta sẽ mô hình một ứngdụng sử dụng CRF để gánnhãnchodữliệudạngchuỗi 13 Chương 3 THIẾT KẾ THỬ NGHIỆM VÀ PHÂN TÍCH Dữliệugánnhãn từ loại được lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chia thành 5 tập huấn luyện riêng biệt với kích thước khác nhau: 500, 1000, 2000, 4000, và 8000 câu Đối với mỗi kích thước... thấy CRF đã cho hiệu quả tốt nhất trong việc giải bài toán gánnhãn từ loại cũng như bài toán nhậndạngký tự viết tay Bên cạnh đó, các phương pháp SVM và M3N cũng thực hiện tương đối tốt công việc này 17 KẾT LUẬN Gánnhãnchodữliệudạngchuỗi là một chủ đề rộng lớn Luận văn này đã mô tả và so sánh một số mô hình khác nhau trong việc gánnhãnchodữliệudạngchuỗi là SW, SVM, HMM, M3N và CRF Luận... viết tay Trong chương này ta đã nghiên cứu ứng dụng của các mô hình giải bài toán dữliệudạngchuỗi vào hai bài toán học có cấu trúc nổi tiếng cụ thể là bài toán gánnhãn từ loại và bài toán nhậndạngký tự viết tay Đối với bài toán nhậndạngký tự viết tay, ta thấy mô hình Markov ẩn có được hiệu tương đối tốt, qua đó ta có thể cho rằng tuỳ thuộc vào bài toán, ta có thể áp dụng các mô hình một cách linh... đối với bài toán gánnhãn từ loại với các kích thước tập dữliệu khác nhau (tính theo %) Với phạm vi của bài toán nhậndạngký tự viết tay, ta chỉ xét dữliệu là các chuỗi toạ độ không gắn với nhãn thời gian và được xử lý với tốc độ đồng nhất 15 Trong bài toán nhậndạngký tự viết tay, công đoạn tiền xử lý bao gồm các chức năng lọc nhiễu và chuẩn hoá hình ảnh đầu vào Với đầu vào là các chuỗi quan sát,... 600 dữliệu huấn luyện, 100 dữliệu xác thực và xấp xỉ 5.400 mẫu kiểm tra Các đặc trưng đầu vào cho mỗi tín hiệu là một vector miêu tả bằng một hình ảnh nhị phân 16 x 8 của chữ cái Để đánh giá hiệu suất của tất cả các mô hình, ta sử dụng lỗi trung bình (AverageLoss) trên chuỗi: = ở đây và 1 1 (( ) ≠ ( ) lần lượt là chuỗi được dự đoán vàchuỗi thực tế; N là tổng số các mẫu kiểm tra; Li là độ dài của chuỗi. .. loại bỏ 10% các chuỗi là dữliệu xác thực Các đặc trưng đầu vào cho mỗi dấu hiệu (trong POS là một từ) thay đổi theo vị trí của nó trong câu Trong bài toán nhậndạngký tự viết tay, tập dữliệu cũng được lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chứa khoảng 6.000 chữ viết tay, với độ dài xấp xỉ 8 ký tự, từ 150 người khác nhau, dữliệu này được thu thập bởi Kassel Tập dữliệu này được chia... Chương trình bậc hai cơ bản đối với M3N sử dụng công thức giống như trong công thức (2.4.6) Tuy nhiên M3N cũng cung cấp một cách thông số hoá các biến đôi để có được các ưu điểm của cấu trúc mạng của vấn đề gánnhãnchodữliệudạngchuỗi 2.5 MÔ HÌNH CÁC TRƯỜNG ĐIỀU KIỆN NGẪU NHIÊN (CRF) CRF đưa ra một định nghĩa tốt về sự phân bổ xác suất dựa trên khả năng gán nhãn, được huấn luyện bởi khả năng lớn nhất... thông tin quan trọng nhất của dữliệu quan sát và mối quan hệ giữa dữliệu đầu vào với đầu ra Vấn đề lựa chọn đặc trưng được biết đến một cách rộng rãi trong học máy đối với các không gian đầu ra không có cấu trúc Nói rộng ra, có ba hướng tiếp cận đối với vấn đề này Tiếp cận theo hướng lọc sử dụng một số thuật toán heuristic nhanh và đơn giản để chọn các đặc trưng theo một vài tiêu chuẩn độc lập Tiếp . tài: Nghiên cứu kỹ thuật gán nhãn cho
dữ liệu dạng chuỗi và ứng dụng
Mục đích nghiên cứu: Nghiên cứu các dạng dữ liệu dạng chuỗi, các kỹ
thuật gán nhãn.
Nghiên cứu lý thuyết trong các kỹ thuật gán nhãn cho dữ liệu dạng chuỗi,
nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N và CRF. Nghiên cứu bài toán Gán
nhãn