Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Tài liệu tham khảo công nghệ thông tin Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 3

Lời cảm ơn

Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS Nguyễn Trí Thành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếp hướng dẫn giúp em hoàn thành luận văn tốt nghiệp Em xin chân thành cảm ơn các thầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đã truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.

Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, động viên từ gia đình, thầy cô và bạn bè Em xin gửi lời cảm ơn tới những người bạn của em, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trong cuộc sống.

Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồn động viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc và trong cuộc sống.

Sinh viênVũ Quốc Đạt

Trang 4

Tóm tắt nội dung

Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó trích chọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng Nó có thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thực thể,

và góp phần quan trọng cho việc xây dựng web ngữ nghĩa.

Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể như phương pháp học máy HMM, … Trong khóa luận này em trình bày một phương pháp

để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường

Web Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán

DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng

Anh trên môi trường Web Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS – tag) Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này tương đối khả quan.

Trang 5

CHƯƠNG 1 SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 10

CHƯƠNG 2 HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ 13

2.1.Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web 13

2.1.1.Occurrences của sách 13

2.1.2.Patterns của sách 14

2.1.3.Quy trình rút trích 14

2.1.4.Thuật toán sinh Patterns 15

2.2.Thu thập tên và miền tương ứng từ tập tài liệu web 16

3.3.1.Biểu diễn PrefixString 32

3.3.2.Thuật toán sinh PrefixPattern 33

3.4.Quy tắc cắt tỉa 35

3.4.1.Extract_By_Capitalize_Rule 37

3.4.2.Extract_By_Left_Rule 37

3.4.3.Extract_Standard_Name 38

Trang 7

Bảng từ viết tắt

Dual Iterative Pattern Relation Expansion

DIPRE

Trang 8

Mở đầu

Trích chọn thực thể là bài toán đơn giản nhất trong các bài toán trích chọn thông tin Tuy cơ bản nhưng lại đóng vai trò khá quan trọng, như hỗ trợ các hệ thống tóm tắt văn bản tự động, ứng dụng cho máy tìm kiếm hướng thực thể … Bài toán trích chọn thực thể tên tiếng Việt đã được nghiên cứu vài năm gần đây, có nhiều phương pháp giải quyết được đưa ra với những kết quả thu được tương đối khả quan Trong khóa luận này, em đưa ra một phương pháp mới “học gần không giám sát” để áp dụng cho bài toán trên Tuy nhiên, trong phạm vi của khóa luận này em chỉ thực hiện rút trích một loại thực thể đó là thực thể tên tổ chức Luận văn được chia thành 4 chương:

 Chương 1 Giới thiệu qua về trích chọn thông tin và bài toán trích chọn thực thể tên tổ chức cũng như ý nghĩa của nó.

 Chương 2 trình bày hướng tiếp cận để giải quyết bài toán Chương đưa ra 3 bài toán

rút trích các cặp quan hệ hệ khác nhau trên tập tài liệu (quan hệ <author, title>, <category, named entity>, <organization, location> ) Ý tưởng chính của các bài

toàn này là dựa vào thông tin ngữ cảnh của đối tượng cần rút trích để biểu diễn chúng dưới dạng mẫu (pattern), từ mẫu này rút trích ra đối tượng Bài toán cơ bản

nhất là của Brin – rút trích cặp quan hệ <author, title> Kỹ thuật quay vòng được áp

dụng để rút trích thực thể, dựa vào thuật toán DIPRE Vòng lặp sau sử dụng kết quả của vòng lặp trước làm đầu vào Các thực thể lần lượt được rút trích ở mỗi vòng, kết thúc vòng lặp khi thỏa mãn điều kiện dừng đã cho Mỗi bài toán đưa ra đều có cách biểu diễn mẫu riêng, phù hợp với ngữ cảnh của từng quan hệ cần rút trích.Từ bài toán của Pasca nãy ra ý nghĩ về một phương pháp học gần không giám sát để áp dụng cho bài toán trong khóa luận này Hệ thống Snowball độc đáo với cách biểu diễn pattern và phương thức đánh giá chất lượng của thực thể thu được

 Chương 3 trình bày mô hình tổng quát và các bước chi tiết của bài toán rút trích thực thể tên tổ chức Mô hình tổng quát dựa trên bài toán của Brin về rút trích cặp quan hệ <author, title>, đặc biệt là kỹ thuật DIPRE Tuy nhiên, điểm xuất phát ban đầu giống với bài toán của Pasca – xuất phát là patterns Với cách xuất phát này thì có thể giảm được số vòng lặp thực hiện Chi tiết các bước thực hiện là: Ban đầu cho một mẫu (pattern) để đoán nhận tiền tố tên tổ chức; ước lượng một xâu (được kỳ vọng là có chứa tên thực thể) ngay sau tiền tố đó; cắt tỉa xâu trên thu được tên thực

Trang 9

thể; chọn lọc những thực thể đại diện từ tập thực thể thu được; ánh xạ ngược thực thể đại diện vào dữ liệu để tìm xâu tiền tố; sinh ra các pattern mới từ tập xâu tiền tố đó; tiếp tục vòng lặp mới… Chương cũng trình bày thuật toán sinh pattern từ cho tiền tố của thực thể; cuối cùng là đưa một số nhập nhằng trong cách biểu diễn tên, từ đó xây dựng chiến lược cắt tỉa để thu được tên hợp lý.

 Chương 4 là phần thực nghiệm Dữ liệu chuẩn bị, môi trường thực nghiệm và kết quả thực nghiệm Chỉ đưa ra một số kết quả thực nghiệm đại diện để thể hiện tính chất của bài toán.

Trang 10

CHƯƠNG 1 SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

1.1 Tổng quan về trích chọn thông tin

Với sự bùng nổ của Internet và các phương tiện lưu trữ đã tạo ra một lượng thông tin khổng lồ Bên cạnh đó nhu cầu về tốc độ xử lý thông tin, cũng như tính chính xác ngày càng tăng Do đó bài toán đặt ra đối với các nhà nghiên cứu là tìm ra những phương pháp mới, hiệu quả cho việc xử lý thông tin đáp ứng nhu cầu sử dụng Hiện nay, các máy tìm kiếm (search engine) thực hiện việc tìm những trang web phù hợp với yêu cầu câu hỏi người dùng Tuy nhiên bởi vì đối tượng tác động của nó là trang Web trong hệ thống tài liệu, nên miền tri thức nó thu được đôi khi không đủ để đáp ứng yêu cầu tìm kiếm của người dùng Vẫn còn tiềm ẩn những giá trị trong các câu, bộ phận của trang Web Do đó khai thác được những tri thức đó sẽ mang lại nhiều thông tin bổ ích Đó là lĩnh vực mà “trích chọn thông tin” nghiên cứu

Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu, thực hiện việc rút trích ra thông tin có cấu trúc từ tập tài liệu thô – không có cấu trúc Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số thông tin đáng quan tâm ở một lĩnh vực nào đó Hay nói một cách khác, cho một mẫu (template) bao gồm các trường thực thể, quan hệ thực thể …., hệ thống trích chọn thông tin có nhiệm vụ phân tích tài liệu thô để tìm ra thông tin thích hợp điền vào các trường tương ứng trong mẫu đó

Ví dụ về hệ thống trích chọn thông tin :

Trang 11

Hình 1 : Hệ thống trích chọn thông tin

Hệ thống trên thực hiện rút trích ra bộ ba quan hệ <NAME, TITLE, ORGANIZATION>

từ tập tài liệu web và bổ sung các bản ghi 3 trường đó vào cơ sở dữ liệu.

1.2 Bài toán rút trích thực thể tên tổ chức

Tổ chức là một trong những đối tượng cơ bản xuất hiện trong văn bản, đặc biệt là trong các website về kinh tế, xã hội, thế giới… Cùng với sự phát triển của thương mại điện tử, sự toàn cầu hóa …nên nhu cầu tìm hiểu về các tổ chức Việt Nam cũng như thế giới là vấn đề đáng được quan tâm Rút trích tên tổ chức là liệt kê ra danh sách tên các tổ chức xuất hiện trong văn bản.

Bài toán rút trích tên thực thể (mà cụ thể ở khóa luận này là bài toán trích chọn thực thể tên các tổ chức) là bài toán cơ bản trong các bài toán trích chọn thông tin Bởi vì trước khi khai phá được các tri thức về thuộc tính, tính chất của các thực thể, thì đầu tiên chúng ta phải rút trích ra được chính xác tên của thực thể đó Tuy nó là bài toán cơ bản, nhưng tồn tại rất nhiều vấn đề nhập nhằng làm cho việc rút trích gặp khó khăn Đặc biệt với ngôn ngữ tiếng Việt, đa dạng trong cách viết, đôi khi nhập nhằng về ngữ pháp, và chưa có một chuẩn

Trang 12

nào cụ thể về chữ hoa, chữ thường cho tên tiếng Việt cũng như xuất hiện nhiều từ “thừa” chỉ mang tính chất liệt kê, bổ nghĩa

Có nhiều phương pháp được áp dụng cho bài toán rút trích tên thực thể như phương pháp học máy HMM [4] … Trong khóa luận này, em sử dụng phương pháp “học gần

không giám sát“ dựa trên thuật toán DIPRE và ý tưởng rút trích cặp quan hệ (author, title)

của Brin [7], kết hợp các luật hỗ trợ để rút trích thực thể tên tổ chức Tuy nhiên, có một hạn chế là thuật toán DIPRE thường áp dụng cho bài toán rút trích cặp quan hệ như (tên sách, tên tác giả), (tổ chức, trụ sở chính của tổ chức) …., còn nội dung khóa luận này chỉ là trích chọn thực thể đơn – tên tổ chức Nhưng lợi thế của DIPRE là tính tự động (automatic), cần ít thao tác thủ công của con người, có thể áp dụng trong miền dữ liệu lớn Hơn thế nữa tên các tổ chức thường có “quan hệ” nào đó với các “tiền tố” đứng liền nó Đấy là những tiền đề để áp dụng kỹ thuật DIPRE vào bài toán trong khóa luận này Các chương tiếp theo sẽ đề cập chi tiết hơn.

1.3 Ý nghĩa của bài toán rút trích thực thể tên tổ chức

Một hệ thống rút trích các loại thực thể hiểu quả có thể có nhiều ứng dụng trong thực tế:

- Hỗ trợ xây dưng Web ngữ nghĩa

- Xây dựng các máy tìm kiếm hướng thực thể Ví dụ với từ khóa “Washington“ có thể trả về những trang web nói về vị tổng thống đầu tiên nước Mỹ, hoặc về thành Phố Washington – thủ đô nước Mỹ, hoặc về một công ty nào đó… Do đó thời gian tiềm kiếm sẽ giảm đi khi có sự trợ giúp của hệ thống trích chọn thực thể.

- Hỗ trợ hệ thống tóm tắt văn bản tự động …

Bài toán rút trích thực thể tên tổ chức trong khóa luận này đưa ra chỉ là bài toán cơ bản, chưa có ứng nhiều trong thực tế Mới chỉ dừng lại ở mức là làm giàu thông tin cho dữ liệu Tuy nhiên nó là cơ sở để phát triển bài toán phức tạp hơn, hữu ích hơn

Trang 13

CHƯƠNG 2 HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ

Học máy là hướng tiếp cận phổ biến nhất cho bài toán trích chọn thực thể Bài toán trong khóa luận sẽ tiếp cận theo một cách khác Chương này sẽ giới thiệu một số bài toán điển hình đã được thực nghiệm để rút trích cặp quan hệ, từ đó có thể rút ra ý tưởng áp dụng cho bài toán rút trích thực thể tên tổ chức

2.1 Rút trích cặp quan hệ (title, author) của cuốn sách trong tài

Occurrences của cuốn sách được hiểu là thông tin về sự “xuất hiện” của cuốn sách

(gồm title và author) trên tập dữ liệu Để thuận tiện cho việc xử lý, Brin biểu diễn occurrences của cuốn sách là một bộ gồm 7 trường:

(author,title,order,url,prefix,middle,suffix)order : Thứ tự xuất hiện của author và title

url : Địa chỉ trang web mà nội dung có chứa author, title

prefix : Xâu ký tự đứng trước author hay title (tùy theo thứ tự của author, title)middle : Xâu nằm giữa author và title.

suffix : Xâu đứng sau author hay title.

Trang 14

2.1.2.Patterns của sách

Patterns sẽ được “ánh xạ” ngược vào tập tài liệu để rút trích ra tập quan hệ mới (ở đây

là “title” và “author”) Patterns được “sinh ra” từ tập các Occurrences ở trên theo một tiêu chí, quy tắc nào đó (sẽ được trình bày ở dưới) Patterns có ý nghĩa quan trọng trong việc rút trích Patterns tốt sẽ tăng số lượng cũng như chất lượng tìm kiếm, rút trích Patterns cho những cuốn sách sách là một bộ gồm 5 trường

order : Giống ở Occurrences

Một cặp (author, title) được rút trích nếu có một URL trên web hợp (matchs) với

urlprefix* và nội dung của nó có chứa đoạn hợp với biểu thức chính quy “*prefix, author, middle, title, suffix*” , đồng thời khi đó biến order = true Biểu thức chinh quy cho author

và title lần lượt là:

[A-Z][A-Za-z ,&]5;30[A-Za-z.]

[A-Z0-9][A-Za-z0-9 ,:'#!?;&]4;45[A-Za-z0-9?!]

2.1.3 Quy trình rút trích

Quy trình rút trích dựa theo thuật toán DIPRE Ý tưởng là:

1) Bắt đầu bằng mẫu nhỏ R’ – tập 5 cuốn sách và tên tác giả tương ứng Mẫu này được thao tác trực tiếp bằng tay.

Trang 15

5) Nếu R’ đủ lớn thì kết thúc Ngược lại nhảy về bước 2Kỹ thuật trên có thể được mô tả như hình dưới đây :

Hình 2: Quy trình rút trích

2.1.4 Thuật toán sinh Patterns

Như đã trình bày trong mục trên, thủ tục GenPatterns có nhiệm vụ sinh ra các patterns dựa vào các occurrences Nó là một quy trình quan trọng trong DIPRE Giả sử chúng ta có

một bộ occurrences , và sẽ “thử” dựng nên một pattern từ bộ đó Khi đã có thủ tục sinh ra 1

pattern, thì thủ tục sinh tất cả các patterns có thể cũng sẽ tương tự, như được trình bày dưới đây :

2.1.4.1.Sinh một Pattern

Các bước cho thủ tục GenOnePattern(O) – sinh 1 pattern như sau:

1) Cần phải chắc chắn rằng order và middle của tất cả sự xuất hiện (occurrences) phải giống nhau Nếu không thì không thế sinh ra được pattern để match với tất cả

occurrences Đặt outpattern.order và outpattern.middle tương ứng với order và middle.

2) Tìm đoạn prefix dài nhất của các urls mà chúng giống nhau Đặt outpattern.urlprefix =

Trang 16

Kết quả thu được một pattern.

- Nếu tất cả occurrences o trong Oi có chung url thì bỏ Oi.

- Ngược lại : Tách các occurrences o trong Oi thành những nhóm con dựa vào

đặc điểm urls của chúng – qua p.urlprefix Lặp lại thủ tục ở bước 2 cho

2.2 Thu thập tên và miền tương ứng từ tập tài liệu web

Con người, thời gian, địa điểm…là những thực thể cơ bản trong văn bản dù ở bất cứ ngôn ngữ nào Nhưng với từng “chuyên ngành” hay lĩnh vực riêng thì vẫn tồn tại rất nhiều thực thể và miền của thực thể đó Ví dụ như miền “Universities” có các thực thể “Harvard”, “Cambridge” …., hay miền “Programming” có “C++, Java …” Nếu rút trích được các cặp

tên miền và thực thể (C, N) rồi tích hợp vào các hệ thống như WordNet [1] thì sẽ tạo ra cơ

Trang 17

Ở đây X là một “categorical fact” tạm hiểu nó là một xâu mà được coi là có chứa miền C

N là “potential instance name” tạm hiểu là thực thể cần tìm thuộc miền C Một đặc điểm để

nhận dạng N đó là nó là một danh từ riêng nên thường được viết hoa Ánh xạ pattern này vào tài liệu sẽ thu được cặp (X,N) Ví dụ như câu sau :

“That is because software firewalls, including Zone Alarm, offer some semblance of this feature”.

Cặp (X,N ) thu được là (That is because software firewalls, Zone Alarm).

Cuối cùng, từ X rút trích ra cụm danh từ thỏa mãn là miền C của N Nó được ước

lượng là cụm danh từ không đệ quy phải nhất, sao cho thành phần cuối cùng của nó là một

danh từ số nhiều Như ví dụ câu trên, sẽ rút trích được cụm danh từ “software firewalls” nó chính miền C Chiến lược ước lượng này tuân theo một số quy tắc :

- Nếu không có cụm danh từ dạng số nhiều nằm gần cuối của “categorical

fact”, thì cặp (X, N) bị loại bỏ.

- Một cụm danh từ dạng số nhiều nằm gần cuối của “categorical fact” nhưng ngay trước nó cũng là một cụm danh từ số nhiều, thì cặp (X, N) bị loại bỏ.

- Trường hợp còn lại thì (X, N) là phù hợp và thu được cặp (C,N).

Bảng dưới đây mô tả kết quả áp dụng các quy tắc nói trên:

Bảng 1: Sự lựa chọn cateogries từ cateogrical facts

Trang 18

Categorical fact and instance name Selection

Anti-GMO food movements sprouted up Discardin European nations in the 1990s, including Germany

Our customers’ chipsets compete with Discardproducts from other vendors of standardsbasedand ADSL chipsets, including Alcatel

programming languages such as C++

Trang 19

LeftContext, InnerPattern và RightContext là dãy những phần tử liên tiếp trong câu Pattern

chỉ đoán nhận các xâu trong từng câu riêng biệt hay nói cách khác mỗi pattern “nằm” hoàn

toàn trong 1 câu Trong thực nghiệm này LeftContext, RightContext được biểu diễn theo

dạng từ loại (POS –tag ) bởi Penn Treebank [5] Kết quả xếp hạng top 15 patterns được liệt kê như bảng bên dưới:

Bảng 2 : Phân hạng các Pattern rút trích đượcLeftContext

(POS tags)

InnerPattern (words)

RightContext (POS tags)

Nhìn vào bảng trên ta thấy, ngoài việc tìm lại được” các InnerPaterns mồi là “such

as” và “including” thủ tục trên còn “khám phá” ra những InnerPatterns hữu ích khác như

“and other”, “include” và “are” Những patterns mới này lại được sử dụng để rút trích thực

thể cho vòng lặp tiếp theo

2.3 Hệ thống Snowball

Cũng dựa trên tư tưởng của DIPRE, Eugene Agichtein và Luis Gravano đã xây dựng

hệ thống Snowball [3] để rút trích cặp quan hệ (organization, location) – tổ chức và địa

Trang 20

điểm Biểu diễn mối quan hệ một tổ chức organization có trục sở đặt tại địa điểm location

Snowball đã đưa ra một kỹ thuật mới để sinh patterns và rút trích cặp quan hệ từ tài liệu Snowball cũng có thêm chiến lược đánh giá chất lượng của mỗi patterns và cặp quan hệ, nếu cái nào đủ tin cậy thì mới được sử dụng cho các vòng lặp tiếp theo Tuy nhiên Snowball cần đến sự hỗ trợ của NER (Named Entity Recognition)

Mô hình của Snowball được biểu diễn như dưới :

<left, tag1, middle, tag2, right>

Trong đó tag1, tag2 là các thẻ tên thực thể (cụ thể ở đây là <ORGANIZATION> và <LOCATION> ) và left, middle, right là các vector liên kết “terms” và “weights” (terms là xâu tùy ý hoặc kí tự trống, weights – trọng số biểu thị độ quan trọng của terms) Mỗi vector các terms có trọng số weights nằm trong khoảng từ 0 đến 1 Trọng số càng lớn thì độ ưu tiên của term đó càng cao

Ví dụ : <{the , 0.2>}, LOCATION, {<-, 0.5> , <based, 0.5> }, ORGANIZATION, {}>

Để sinh pattern, đầu tiên Snowball tìm tất cả sự xuất hiện (occurrences) của các bộ

<o, l> , biểu diễn dưới dạng giống như dạng của các pattern Mỗi thành phần left, middle,

Trang 21

right có một giới hạn m terms Trọng số của mỗi term xác định dựa theo tần số của các terms trong ngữ cảnh tương ứng Từ tập các occurrences, sử dụng thuật toán phân cụm đơn

giản [8] để phân thành các cụm Với mỗi cụm, các vector left được biểu diễn bằng vector trung tâm l’s , tương tự biểu diễn các vector middle, right bằng các vector trung tâm m’s, r’s

Ví dụ từ tập các occurrences :

Sẽ được phân thành 2 cụm :

Trang 22

Tính toán vector trung tâm của mỗi cụm, thu được các patterns :

2.3.2.Sinh cặp quan hệ

Trước hết định nghĩa độ phù hợp của hai bộ tP = < lP , t1, mP , t2, rP > (t1, t2 là các thẻ)

tS = <lS, t’1, mS, t’2, rS > (t’1, t’2 là các thẻ) theo công thức :

Trang 23

Sau khi sinh được các patterns, Snowball quét tập tài liệu để tìm ra những cặp (o, l)

mới Dùng MITRE Corporation’s Alembic Workbench [2] để nhận dạng những câu có

chứa một organization và location Phân tích nội dung xung quanh nó và sinh ra 1 bộ 5 trường t = <lc, t1, mc, t2, rc > theo quy tắc giống ở trên Gọi cặp <o, l> là cặp “ứng cử

viên” nếu có một pattern tp thỏa mãn Match(t, tp) >= tsim (tsim là ngưỡng) Mỗi một cặp “ứng

cử viên” được sinh bởi các patterns ứng với từng “độ phù hợp” (như giá trị Match(t , tp)

trên ) Và mỗi một pattern cũng có một độ đo tính “chọn lọc” của nó Snowball sẽ sử dụng hai thông số này để quyết định cặp “ứng cử viên” nào là thích hợp.

Chương đã đưa ra 3 bài toán để rút trích các cặp quan hệ khác nhau.

Rút trích cặp quan hệ (title, author) là bài toán cơ bản nhất, kỹ thuật biểu diễn pattern

và occurrence đơn giản, thuật toán để sinh pattern từ occurrence cũng không phức tạp Độc đáo nhất ở bài toán là thuật toán DIPRE.

Bài toán của Pasca xuất phát là một pattern “mồi”, với cách thực hiện này hệ thống có thể rút trích được một lượng lớn cặp quan hệ ở vòng lặp đầu tiên, do đó sẽ có nhiều patterns mới được sinh ra cho vòng lặp tiếp theo Với cách thực hiện này, thuật toán có thể sẽ phải thực hiện số vòng lặp ít hơn Tuy nhiên nó cần sự hỗ trợ của POS - tag ( thẻ từ loại ) để biểu diễn pattern, đối với tiếng Việt thì vẫn chưa xây dựng được POS –tagger (gán nhãn từ loại ) hoàn chỉnh.

Hệ thống Snowball độc đáo với cách biểu diễn pattern mềm dẻo , cộng với sự hỗ trợ của thẻ tên thực thể (NER) nên có kết quả thu được tốt nhất Tuy nhiên chỉ “học “ được ở Snowball chiến lược đánh giá pattern và cặp thực thể thu được để áp dụng vào khóa luận, còn để biểu diễn được pattern thì cần sự hỗ trợ của NER – trong khi bài toán trong khóa luận này bản chất chính là xây dựng NER

Định dạng
Số trang	46
Dung lượng	695 KB