1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tríh rút thông tin từ dữ liệu web cá nhân

84 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích Rút Thông Tin Từ Dữ Liệu Web Cá Nhân
Tác giả Phan Đức Minh
Người hướng dẫn TS. Lê Thanh Hương
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 84
Dung lượng 3,61 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU (10)
    • 1.1 Đặt vấn đề (0)
    • 1.2 Mục đích nghiên c .............................................................................................10 ứu (12)
    • 1.3 Đối tượng nghiên c ứu (13)
    • 1.4 Phạm vi nghiên cứu (13)
    • 1.5 Ý nghĩa khoa học và thực tiễn của đề tài (0)
  • CHƯƠNG 2: NỀN TẢNG VÀ CÁC HƯỚNG NGHIÊN CỨU LIÊN QUAN (15)
    • 2.1 M t s khái ni ộ ố ệm (15)
      • 2.1.1 Khái niệm trích rút thông tin (15)
        • 2.1.1.1 Phân đoạn (16)
        • 2.1.1.2 Phân loại và kết hợp (16)
        • 2.1.1.3 Phân cụm (17)
      • 2.1.2 Các kiểu trích rút thông tin (17)
    • 2.2 Các bước thực hiện ủ c a h th ệ ống trích rút thông tin (0)
    • 2.3 Một số cách tiếp cận trong hệ thống trích rút thông tin (23)
      • 2.3.1 Ph ng pháp th ươ ủ công (0)
      • 2.3.2 Ph ng pháp t ươ ự động (học máy) (0)
      • 2.3.3 Cách tiếp cận mô hình đồ ị th (0)
        • 2.3.3.1 Mô hình Markov ẩn (HMM) (25)
        • 2.3.3.2 Mô hình Markov Entropy cực đại (MEMM) (28)
        • 2.3.3.3 Trường ngẫu nhiên điều kiện (CRF) (0)
      • 2.3.4 Đánh giá các cách ti p c n liên quan.............................................................30 ế ậ CHƯƠNG 3: CÁC BÀI TOÁN CON TRONG TRÍCH RÚT THÔNG TIN (0)
    • 3.1 Bài toán trích rút dựa trên xây dựng mẫu (37)
      • 3.1.1 Xây dựng mẫu thủ công (0)
      • 3.1.2 Xây dựng mẫu tự động (0)
    • 3.2 Bài toán trích rút dựa tr ên lu ..............................................................................42 ật (44)
      • 3.2.1 Luật gán nhãn (45)
      • 3.2.2 Luật ngữ cảnh (46)
      • 3.2.3 Luật hiệu chỉnh (47)
      • 3.2.4 Khái quát luật (48)
    • 3.3 Bài toán trích rút dựa trên phân loại (48)
    • 3.4 Bài toán trích rút dựa trên gán nhãn tuần tự (50)
  • CHƯƠNG 4: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG (51)
    • 4.1 Kiến trúc hệ thống (51)
    • 4.2 Các chức năng hệ thống (0)
      • 4.2.1 Mô-đun phân vùng văn bản (53)
      • 4.2.2 Mô-đun gán nhãn và phân tích từ vựng (54)
      • 4.2.3 Mô-đun học (56)
      • 4.2.4 Mô-đun nhận dạng thực thể định danh (58)
      • 4.2.5 Mô-đun loại bỏ sự nhập nhằng (0)
      • 4.2.6 Mô-đun đồng tham chiếu (61)
    • 4.3 Hệ thống trích rút thông tin dùng CRF (61)
      • 4.3.1 Suy diễn tham số cực đại khả năng (62)
      • 4.3.2 Quy nạp đặc trưng trong mô hình CRF (62)
      • 4.3.3 Quy n ạp mô h ình CRF c ấu trúc tùy ý (63)
      • 4.3.4 Suy diễn đặc trưng cho chuỗi tuyến tính CRF (64)
      • 4.3.5 Lập tr ình Động (65)
      • 4.3.6 Huấn luyện mô hình CRF (66)
  • CHƯƠNG 5: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG (68)
    • 5.1 Cài đặt ứ ng d ụng (68)
    • 5.2 Giới thiệu ứng dụng trích rút thông tin StanfordCRF (68)
    • 5.3 Th c hi ự ện hu ấn luyện v à ki ểm thử (0)
    • 5.3 Đánh giá kết quả (72)
      • 5.3.1 Dữ liệu (72)
      • 5.3.2 Các tiêu chí đánh giá (73)
      • 5.3.3 Kết quả thử nghiệm (75)
      • 5.3.4 Đánh giá kết quả (77)
  • CHƯƠNG 6: KẾT LUẬN (79)
    • 6.1 Các kế t qu ả đạt được (79)
    • 6.2 Hướng phát triển (79)
  • TÀI LIỆU THAM KHẢO (80)

Nội dung

Thước đo thứ hai và nhiều vấn đề hơn là số lượng các nguồndữ liệu khác nhau.1.2 Mục đíchnghiên cứuMục đích của đề tài nghiên cứuvà tìm hiểu xây dựng một mô hình hệthống trích rút thông t

GIỚI THIỆU

Mục đích nghiên c .10 ứu

Mục đích của đề tài nghiên cứuvà tìm hiểu xây dựng một mô hình hệ thống trích rút thông tin mới có những đặc điểm sau:

- Dựa trên cơ sở lý thuyết của ngôn ngữ tự nhiên

- Dựa trên các phương pháp học luật, phân loại và gán nhãn tuần tự

- Dựa trên các kết quả so sánh và thống kê có sẵn

- Đề xuất một số phương pháp học luật ải tiếnc

- Thiết kế ra một hệ thống trích rút thông tin trong phạm vi nghiên cứu

Đối tượng nghiên c ứu

Để đạt được các mục đích nói trên, chúng tôi cần nghiên cứu các vấn đề sau:

- Các kết quả trích rút tự động và bán tự động ủa ệ thống trích rútc h thông tin bằngngôn ngữ tiếng Anh.

Các nghiên cứu so sánh về các hệ thống trích rút thông tin đã dẫn đến việc phát triển mô hình học luật và học máy tự động Những mô hình này kết hợp các phương pháp suy diễn và thống kê để nâng cao hiệu quả trong việc xử lý và phân tích dữ liệu.

Phạm vi nghiên cứu

Việc trích rút thông tin từ tài liệu là một quá trình phức tạp, bao gồm nhiều bước và kỹ thuật kết hợp Mỗi bước liên quan đến hàng trăm bài báo và công trình nghiên cứu với các phương pháp tiếp cận đa dạng Các nghiên cứu này thường được thực hiện bởi các nhóm nhà nghiên cứu trong nhiều năm Do đó, trong khuôn khổ luận văn này, chúng tôi sẽ chỉ tập trung vào việc trích rút thông tin cá nhân từ các website của người dùng.

Việt Nam làm công nghệ thông tin Trước hết là các trang web bằng tiếng Anh.

Trong nghiên cứu của chúng tôi, các bước xây dựng mẫu, xây dựng và học luật, phân loại và gán nhãn tuần tự chiếm phần lớn nội dung Những bước này đã được nghiên cứu tỉ mỉ bởi hàng ngàn nhà khoa học toàn cầu Nhiều công trình đã được công bố, kèm theo mã nguồn và dữ liệu cần thiết để đánh giá và so sánh.

Chúng tôi sẽ kế thừa các mô hình các kết quả tốt nhất từ các bài báo nước ngoài mà chúng tôi đã tham khảo được.

1.5 Ý nghĩa khoa học và thực tiễn ủa đề tc ài

1.5.1 Ý nghĩa khoa học Đề tài này nghiên cứu các mô hình trích rút thông tin tiên tiến nhất cho việc trích rút các thông tin cá nhân từ các website cá nhân Các mô hình mới này có những điểm mới sau:

Dựa trên các phương pháp trích rút thông tin tự động và cho độ chính xác cao hơn các mô hình trước đây.

Dựa trên việc suy diễn, xây dựng ật, huấn luyện mẫulu

Trích rút thông tin không bao giờ là cũ, và những quan điểm và ý tưởng mới luôn được đón nhận.

Trích xuất thông tin từ các website cá nhân để xây dựng cơ sở dữ liệu thuận tiện cho việc tra cứu sau này Bài viết sẽ trình bày những quan điểm và phương pháp mới, đồng thời so sánh và đánh giá hiệu quả giữa các phương pháp trích rút thông tin hồ sơ cá nhân.

Là tài liệu liên quan và tham khảo đến những pháp trích rút thông tin tự động mới hiện này trên toàn thế ớigi

Ý nghĩa khoa học và thực tiễn của đề tài

2.1.1 Khái niệm trích rút thông tin

Trích rút thông tin (IE) là quá trình lựa chọn và phân loại dữ liệu có cấu trúc cũng như dữ liệu kết hợp Quá trình này tập trung vào việc phân loại ngữ nghĩa của các thông tin cụ thể, và được coi là một bài toán con trong lĩnh vực hiểu văn bản.

Mục đích của nghiên cứu trích rút thông tin là phát triển các hệ thống có khả năng tìm kiếm và kết nối những thông tin liên quan, đồng thời loại bỏ các thông tin không liên quan và không cần thiết (Cowie và Lehnert, 1996, tr 81).

Kết quả trích rút thông tin có thể được phân loại hoặc cấu trúc thành các lớp thông tin ngữ nghĩa cụ thể, thường được tìm thấy trong các nguồn dữ liệu không có cấu trúc như văn bản ngôn ngữ tự nhiên Điều này giúp tạo ra thông tin phù hợp hơn cho các nhiệm vụ xử lý thông tin (W Bruce Croft, 2006) Công thức trích rút thông tin cơ bản bao gồm các bước xác định, phân loại và tổ chức dữ liệu.

Information Extraction segmentation + classification + association + clustering

Có hai cách tiếp cận chính cho hệ thống trích rút thông tin (Eikvil L., 1999):

Tiếp cận kỹ nghệ tri thức liên quan đến việc sử dụng ngữ pháp để biểu diễn các quy tắc cho hệ thống Hệ thống này được phát triển thủ công cho các lĩnh vực cụ thể, trong đó kỹ sư tri thức đóng vai trò quan trọng trong việc trích xuất thông tin.

Tiếp cận huấn luyện tự động sử dụng các thuật toán để học từ tập tài liệu chú thích, tạo ra các luật cần thiết Để thực hiện phương pháp này, một lượng lớn dữ liệu huấn luyện là cần thiết cho việc chạy thuật toán hiệu quả.

NỀN TẢNG VÀ CÁC HƯỚNG NGHIÊN CỨU LIÊN QUAN

M t s khái ni ộ ố ệm

2.1.1 Khái niệm trích rút thông tin

Trích rút thông tin (IE) là quá trình lựa chọn dữ liệu có cấu trúc và dữ liệu kết hợp, liên quan đến việc phân loại ngữ nghĩa của các thông tin cụ thể Quá trình này được coi là một bài toán nhỏ trong việc hiểu văn bản.

Mục tiêu của nghiên cứu trích rút thông tin là phát triển các hệ thống có khả năng tìm kiếm và kết nối thông tin liên quan, đồng thời loại bỏ những thông tin không liên quan và không cần thiết (Cowie và Lehnert, 1996, tr 81).

Kết quả trích rút thông tin có thể được phân loại hoặc cấu trúc thành các lớp thông tin ngữ nghĩa từ các nguồn dữ liệu không có cấu trúc như văn bản ngôn ngữ tự nhiên, giúp tạo ra thông tin phù hợp cho các nhiệm vụ xử lý thông tin (W Bruce Croft, 2006) Công thức trích rút thông tin cơ bản bao gồm các bước xác định và tổ chức dữ liệu cần thiết.

Information Extraction segmentation + classification + association + clustering

Có hai cách tiếp cận chính cho hệ thống trích rút thông tin (Eikvil L., 1999):

Tiếp cận kỹ nghệ tri thức bao gồm việc sử dụng ngữ pháp để diễn đạt các quy luật cho hệ thống Hệ thống này được xây dựng thủ công cho các lĩnh vực cụ thể, trong đó kỹ sư tri thức đóng vai trò quan trọng trong việc trích xuất thông tin.

Tiếp cận huấn luyện tự động liên quan đến việc tạo ra các quy tắc và áp dụng thuật toán huấn luyện để học từ tập tài liệu đã được chú thích Phương pháp này yêu cầu một lượng lớn dữ liệu huấn luyện để thực hiện hiệu quả thuật toán.

Phân đoạn văn bản là quá trình chia nhỏ văn bản thành các thành phần như đoạn và thẻ (token), giúp trích xuất thông tin liên quan từ các phần này Sau đó, thông tin được lắp ráp lại trong một khung gắn kết, tạo thành nội dung có cấu trúc rõ ràng và dễ hiểu.

Ví dụ dưới đây mô tả một người, nghề nghiệp, địa điểm làm việc và địa chỉ làm việc trong một văn bản, được trình bày theo hai kiểu phân đoạn khác nhau trước khi được chuyển đến bộ phân loại.

Phân đoạn theo kiểu thông thường (Formal)

“Anita Sundaram Colemanis anAssistant Professorin the School of Information Resources & Library Science at theUniversity of Arizona, 1515 E First St.Tucson, AZ 85719, which she joined in 2001.”

Phân đoạn theo kiểu hình thức (Informal)

School of Information Resources & Library Science

2.1.1.2 Phân loại và kết hợp

Kết quả của việc trích rút thông tin không chỉ giúp phân loại ngữ nghĩa mà còn đảm bảo tính khả dụng trong hệ thống thông tin tương lai Quá trình phân loại này yêu cầu một sơ đồ phân loại ngữ nghĩa phù hợp, chẳng hạn như sơ đồ phân cấp tổ chức, từ các lớp ngữ nghĩa trừu tượng đến các phân loại cụ thể và chi tiết.

Hệ thống trích rút thông tin trong lĩnh vực đóng thường được thiết kế với các chức năng chuyên biệt và sử dụng luật phân loại cụ thể Chẳng hạn, chúng có thể trích rút thông tin cá nhân từ web, thu thập các bài báo tin tức liên quan đến chính trị, văn hóa, thể thao, nghệ thuật, hoặc rút ra số liệu từ các nghiên cứu khoa học.

Phân cụm (Clustering) là một phương pháp hữu ích trong trích rút thông tin, đặc biệt khi không có mẫu huấn luyện sẵn có, khi thông tin liên tục thay đổi, hoặc khi các đặc trưng được chọn dựa trên ngôn ngữ học và nghiên cứu diễn ngôn.

Trong phân giải coreference danh từ, việc phát hiện các đặc trưng nổi bật và phân cụm để tạo nhóm theo các đặc trưng đó là rất quan trọng Ví dụ, trong những câu sau đây:

Bill Clinton đã đến Nigeria để phát biểu trước các công nhân về AIDS Sau đó, cựu tổng thống Mỹ cùng vợ ông có chuyến công du tới Trung Quốc Trong văn bản, các đề cập như Bill Clinton (x1), cựu tổng thống Hoa Kỳ (x5), và "của ông" (x6) đều thuộc về cùng một lớp thực thể C1, đại diện cho Bill Clinton Các đề cập này tạo ra sự đồng tham chiếu và được gán cho lớp thực thể C1 trong văn bản.

2.1.2 Các kiểu trích rút thông tin

Có năm kiểu trích rút thông tin được xác định bởi diễn dàn đứng đầu về lĩnh vực nghiên cứu này - MUC (Message Understanding Conferences [Grishman & Sundheim 96,SAIC 98]):

Nhận dạng thực thể định danh (NE): Tìm và phân loại các thực thể (tên, địa điểm, ).

Phân giải đồng tham chiếu(CO): Xác định các mối quan hệ giữa các thực thể trong các văn bản.

Xây dựng phần tử mẫu (TE): Thêm các thông tin, thuộc tính mô tả vào các kết quả thực thể định danh ử dụng(s CO).

Xây dựng quan hệ mẫu (TR): Tìm ra các mối liên hệ giữa các thực thể phần tử mẫu TE.

Sản sinh mẫu kịch bản (ST):Điều chỉnh (fit) kết quả TE và TR phù hợp trong kịch bản sự kiện cụ thể.

Xem xét các câu sau làm ví dụ:

“The shiny red rocket wasfired on Tuesday It is the brainchild of Dr Big

Head Dr Head is a staffscientist at We Build Rockets Inc”.

Trích rút thực thể đinh danh NE đã phát hiện sự có mặt của rocket, theo thông báo từ Dr Head và We Build Rockets Inc Phân tích đồng tham chiếu CO cho thấy rằng "it" đề cập đến rocket.

TE phát hiện ra rằng rocket có màu đỏ sáng và là ý tưởng của Dr Head Qua việc xây dựng mối quan hệ mẫu TR, TE phát hiện Dr Head làm việc cho We Build Rockets Inc Sự kiện "phóng tên lửa" diễn ra với sự tham gia của nhiều thực thể liên quan, tạo nên một kịch bản hấp dẫn.

2.2 Các bước thực hiện ủc a h th ng trích rút thông tinệ ố

Hệ thống trích rút thông tin được cấu trúc dưới dạng một lớp cascade với nhiều mô đun khác nhau, có nhiệm vụ nhận diện và xóa bỏ thông tin không liên quan từ một đoạn văn bản, đồng thời giữ lại và chú thích dữ liệu quan trọng Sơ đồ kiến trúc cơ bản của hệ thống này bao gồm 10 mô đun, như được trình bày trong tài liệu của W Bruce Croft (2006).

Hình 2.1 Các mô-đun ủa hệ thống trích rút thông tinc

Một số cách tiếp cận trong hệ thống trích rút thông tin

Nghiên cứu về trích xuất thông tin tập trung vào ứng dụng của học máy và mô hình đồ thị, bao gồm cả đồ thị có hướng và vô hướng Những phương pháp này đã được áp dụng rộng rãi và đạt được nhiều thành công trong các bài báo và nghiên cứu liên quan đến lĩnh vực trích xuất thông tin.

Các phương pháp thủ công tạo ra các luật nhận dạng thực thể dựa trên kinh nghiệm và hiểu biết của chuyên gia, từ đó xây dựng các quy tắc nhận dạng hiệu quả.

Hệ thống xây dựng theo phương pháp thủ công bao gồm nhiều quy tắc nhận dạng thực thể khác nhau Dưới đây là một số quy tắc cùng với các ví dụ minh họa cho trường hợp nhận dạng đúng và sai liên quan đến từng quy tắc thủ công đã được thiết lập.

• (Tước hiệu) (Tên viết hoa)⇒(Tước hiệu) (Tên người)

– Đúng: Mr Jones, Gen Charles

–Sai: Mrs Field’s Cookies (Tên doanh nghiệp), Mr Big

(biệt danh của một ca sỹ)

– Sai: Long March 3 (tên của một loại tên lửa của Trung Quốc)

Trong thực tế, hầu hết các quy tắc nhận dạng đều có nhiều ngoại lệ, khiến việc xây dựng và mã hóa tất cả các quy tắc trở nên khó khăn Mặc dù hệ thống nhận dạng thủ công có thể đạt được độ chính xác cao, nhưng nó vẫn tồn tại nhiều nhược điểm.

- Chi phí cao, phải dựa trên nhiều công sức lao động của các chuyên gia ngôn ngữ học tính toán;

- Khi chuyển hệ thống sang kiểu văn bản khác thì tập quy tắc phải chỉnh sửa lại bằng tay;

- Khi chuyển hệ thống sang ngôn ngữ khác thì tập quy tắc phải xây dựng lại từ đầu;

- Hiệu năng của hệ thống phụ thuộc chặt chẽ vào kỹ năng của chuyên gia và công sức bỏ ra.

2.3.2 Phương pháp tự động (học máy)

Các phương pháp học máy như HMMs, CMMs/MEMMs và CRFs đã được phát triển để xử lý các mô hình chuỗi Những mô hình này hoạt động hiệu quả khi có đủ dữ liệu huấn luyện phong phú Một trong những đặc điểm nổi bật của phương pháp học máy là tính linh hoạt và khả năng mở rộng, đồng thời giảm thiểu công sức cần thiết để xây dựng dữ liệu huấn luyện so với việc tạo ra các quy tắc nhận dạng thủ công.

Dữ liệu huấn luyện bao gồm 100 trang web cá nhân, mỗi trang có kích thước khoảng 80KB và chứa khoảng 100,000 từ Thời gian xử lý dữ liệu này chỉ mất từ 1 đến 3 ngày, trong khi hệ thống thủ công có thể mất gần 1 tháng với kết quả kém hơn.

Trong trích rút quan hệ, phương pháp học máy gồm có các cách tiếp cận:

 Giám sát huấn luyện hệ thống trên tập dữ liệu gán nhãn thủ công

 Giám sát thành phần: huấn luyện hệ thống bằng cách mồi ( bootstrapping) từ mẫu ạt giống.h

Hệ thống tương tác hay hỗn hợp (Hybrid) cho phép các chuyên gia kết hợp với các thuật toán học máy, chẳng hạn như trong học thuật toán học chủ động Quá trình này bao gồm việc lặp lại các bước lọc và mở rộng các quy tắc, cùng với tương tác mẫu, có thể liên quan đến việc chú thích, sửa đổi mẫu hoặc bất kỳ sự kết hợp nào khác.

Một số hệ thống gán nhãn thực thể hiện nay áp dụng phương pháp học máy, bao gồm MinorThird, công cụ hỗ trợ trong việc trích xuất, phân loại và minh họa các thực thể Bên cạnh đó, Stanford Named Entity Recognizer sử dụng mô hình CRF với các đặc trưng không cục bộ để thực hiện gán nhãn hiệu quả.

2.3.3 Cách tiếp c n mô hình đồ ịậ th

Mô hình đồ thị có hướng bao gồm đồ thị có hướng á chu trình (acyclic) G = (V,E), trong đó V là tập hợp các đỉnh (nút) của đồ thị G và E là tập hợp các cạnh có hướng giữa các nút thuộc V.

Sự tương ứng giữa các nút V_i trong tập hợp V và biến ngẫu nhiên cho phép mỗi mô hình đồ thị có hướng được biểu diễn dưới dạng các phân bố xác suất điều kiện trên tập biến ngẫu nhiên V.

Các mô hình HMMs, CMMs,MEMMs và CRF có thể được ểu diễnbi như các mô hìnhđồ thị có hướng và vô hướng.

HMMs (Mô hình Markov ẩn) là công cụ xác suất mạnh mẽ trong việc mô hình hóa dữ liệu chuỗi Chúng có thể được biểu diễn dưới dạng đồ thị có hướng, với các nút S_t và X_t thể hiện trạng thái của HMM tại thời điểm t và quan sát tương ứng Hệ thống trích xuất thông tin đầu tiên sử dụng HMM được phát triển bởi Leek (1997), Bikel et al (1997) và McCallum et al (1999).

Trong mô hình Markov ẩn (HMMs), xác suất của trạng thái S tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm trước đó t-1 Tương tự, quan sát X xảy ra tại thời điểm t chỉ phụ thuộc vào trạng thái S của mô hình tại thời điểm t Mối quan hệ phụ thuộc này được thể hiện qua các mũi tên trong hình minh họa.

Hình 2.3 Cấu trúc đồ thị phụ thuộc cho HMMs cấp một với các chuỗi

Sơ đồ Hình 2.4 minh họa ến trúc tổng quát của một HMM ban đầu.ki

Mỗi hình oval đại diện cho một biến ngẫu nhiên có thể nhận bất kỳ giá trị nào Biến ngẫu nhiên x(t) thể hiện trạng thái ẩn tại thời điểm t, trong khi biến ngẫu nhiên y(t) là giá trị quan sát được tại cùng thời điểm đó.

Hình 2.4Sơ đồ ếki n trúc tổng quát của m t HMMộ ban đầu

Mô hình Markov ẩn được trình bày trong Hình 2.5 cho nhiệm vụ nhận dạng thực thể định danh, với các ô hình chữ nhật đại diện cho chuỗi trạng thái quan sát Các ô hình oval biểu thị chuỗi trạng thái chuyển tiếp, bao gồm một số trạng thái ẩn Nhiệm vụ chính của chúng ta là xác định chuỗi trạng thái ẩn tương ứng với chuỗi quan sát đã cho.

Mô hình Markov ẩn (HMM) được áp dụng để nhận dạng thực thể định danh, trong đó ý tưởng chính là xây dựng mô hình ngôn ngữ bigram cho từng loại tên riêng Mô hình HMM đơn giản được xác định thông qua hai phương trình cơ bản.

Bài toán trích rút dựa trên xây dựng mẫu

Mẫu(pattern) trích rút trong IE cònđược gọi là định nghĩa khái niệm.

Mục đích của việc xây dựng mẫu trích rút là để thu thập thông tin từ các lớp tương tự khi có sự khác biệt trong cách biểu diễn nội dung, như đồng nghĩa hoặc cách viết khác nhau Có hai phương pháp chính để thực hiện nhiệm vụ này: xây dựng mẫu thủ công và xây dựng mẫu tự động.

The extracted document includes essential information fields such as Full Name, Nationality, Birthday, Affiliation, Occupation, Major, Email Address, Phone Number, Personal Homepage, and Research Interests.

Giả sử chúng ta cần trích rút thông tin cụ thể có dạng:

1 Tên đầy đủ (Full name): Ho Tu Bao

4 Nơi công tác (Affiliation): School of Knowledge Science

6 Chuyên ngành (Major): Applied Mathematics, ComputerScience

7 Địa chỉ Email: bao@jaist.ac.jp

9 Bằng ấp (Dc egree): B.Tech, M.S and Ph.D

10 Sở thích nghiên cứu (Research interests): Knowledge-Based Systems, Machine Learning, Knowledge Discovery and Data Mining

11 Trang web cá nhân (homepage):http://www.jaist.ac.jp/~bao/

12 Nơi sinh (Birthplace): NA Ở dưới là sơ đồ trích rút giá trị thuộc tính dựa trên sự kết hợp của nhận dạng thực thể định danh, danh sách giá trị thuộc tính, luật ngôn ngữ và phát sinh biến thể.

Hình 3.1 Sơ đồ trích rút giá trị thuộc tính dựa trên mẫu và luật ngôn ngữ

Chúng ta sẽ xây dựng các kiểu thuộc tính bằng cách sử dụng hơn 100 biểu thức chính quy như IsCapitalized, All-Caps, IsDigit, Numeric, ContainsDash, EndsInPeriod, và ContainsAtSign Dưới đây là mô tả chi tiết về cách trích rút các trường chính.

Chúng ta áp dụng một bộ quy tắc để tạo ra các biến thể của tên người Đầu tiên, chúng ta phân tách tên đã cho thành tên riêng (first name) và họ (last name) Sau đó, chúng ta phát sinh hai biến thể: tên trước họ và họ trước tên.

Các biến thể trong cách viết họ và tên bao gồm: tên và họ được ngăn cách bởi dấu phẩy (Alex, Ferguson), một từ xuất hiện giữa hai tên (Alex Sir Ferguson), tên đầu tiên đứng trước họ (Alex Ferguson), và họ đứng trước tên, được ngăn cách bằng dấu phẩy (Ferguson, Alex).

We should consider all combinations of titles with the following variants: Mr., Mrs., Miss, Ms., Rev., Prof., President, Minister, Prime Minister, General, Madame, Lady, Dr., King, Queen, Vice President, Senator, Lawyer, Major, Maj., Gen., Maj Gen., Major General, and Jr.

Ví dụ về tên "George Bush" cho thấy quá trình xử lý nhận diện chuỗi từ "president George W Bush" như một biến thể của tên đã cho Đoạn văn dưới đây minh họa một chú thích mẫu thông qua bước tiền xử lý, trong đó sử dụng thẻ đệm định dạng [TÊN_NHÃN,ĐỘ_DÀI_CÁC].

T _MỪ Ở RỘNG là thẻ được sử dụng để đánh dấu sự mở rộng của thẻ Ví dụ, Benjamin Snyder là một biến thể của tên Benjamin Dưới đây là đoạn văn chú thích với thẻ định dạng đã đề cập.

“Benjamin [VARIANT,1] Snyder and Phedora [ORGANIZATION,3] Blazer Benjamin Snyder and Phoebe Ann Blazer Husband: Benjamin[VARIANT,1] Snyder born 12 DEC 1827 in Dayton, [LOCATION,0] Montgomery [ORGANIZATION,1] Co., OH died 6 JUL

In 1873, Camden Co., MO, a significant event occurred involving the burial at Freedom Church in Linn Creek The individual in question was married to Phoebe Ann Blaser, who was born on July 25, 1838, in Ohio and passed away on February 20 Their union took place before 1855 in Ohio.

Chúng ta xây dựng một danh sách 201 quốc tịch từ Wikipedia Chú ý là họ và tên của người nhiều nhất là 30 ký tự trước quốc tịch (ví dụ mẫu

Chúng ta sử dụng các luật theo dạng biểu thức quy tắc để đánh dấu chuỗi ngày tháng trong văn bản Ví dụ các biểu diễn có dạng “02/03/1945",

Khi trường ngày tháng xuất hiện trong văn bản, chúng ta sẽ gán điểm tin cậy cao hơn cho ngày tháng gần nhất với tên người đã cho hoặc các biến thể của tên đó, cũng như những cụm từ liên quan như “born” hay “birth.”

4 Trường Nơi công tác (Affiliation)

Chúng ta phân tích các công ty và trường đại học như những địa điểm làm việc cụ thể Danh sách các trường đại học và công ty được tổng hợp từ trang Wikipedia Cần lưu ý tần suất xuất hiện của các từ liên quan trong từng loại thực thể mà chúng ta xem xét như là nghề nghiệp.

Theo thống kê, mười từ xuất hiện thường xuyên nhất trong tên công ty bao gồm: Inc (16,137), Corporation (3,932), Ltd (2,277), Limited (2,126), Company (1,993), LLC (1,782), Group (1,685), plc (976), và International (835) Đặc biệt, nếu một chuỗi từ liên tiếp viết hoa chứa các từ này, chúng ta sẽ xác định đó là tên công ty Để tránh sự nhầm lẫn, chúng ta sẽ loại bỏ các từ không cần thiết bằng cách sử dụng danh sách từ dừng, mặc dù những từ như “of” (1,814) và “&” (1,814) cũng xuất hiện nhiều trong tên công ty.

Qua phân tích thông kê thì tần suất cao nhất xuất hiện trong tên trường Đại học là: University (861), College (662), State (234), New (74), Saint (56), and Institute (55).

Trong văn bản, từ "University" được coi là một chỉ dẫn cho một thực thể nơi làm việc Dựa vào danh sách đã được xây dựng sẵn hoặc từ điển định nghĩa, chúng ta có thể dễ dàng trích xuất thông tin liên quan đến thực thể này.

Chúng tôi đã tổng hợp một danh sách các nghề nghiệp từ Wikipedia với khoảng 666 mục Sau đó, chúng tôi lựa chọn nghề nghiệp phù hợp nhất với tên đã cho hoặc bất kỳ biến thể nào trong văn bản.

Bài toán trích rút dựa tr ên lu 42 ật

Trong phần này, chúng ta sẽ khám phá các thuật toán dựa trên luật cho việc trích rút thông tin Một số hệ thống nổi bật bao gồm AutoSlog (Riloff, 1993), (LP)2 (Ciravegna, 2001), Whisk (Soderland, 1999), Rapier (Califf & Mooney, 1998) và SRV (Freitag, 1998) Phương pháp này có thể được phân loại thành ba loại chính: dựa trên từ điển, dựa trên luật và suy diễn gói (wrapper induction).

Phương pháp dựa trên từ điển

Phương pháp này xây dựng một mẫu từ điển để trích rút thông tin không cần thiết từ văn bản không gán nhãn, được gọi là hệ thống dựa trên từ điển hoặc mô hình Ví dụ tiêu biểu cho phương pháp này bao gồm AutoSlog (Riloff, 1993) và CRYSTAL (Soderland et al., 1995).

Hệ thống AutoSlog (Riloff, 1993) là hệ thống đầu tiên học từ điển văn bản từ các mẫu huấn luyện, xây dựng các nút khái niệm để trích xuất thông tin Nó định nghĩa trước một tập hợp 13 mẫu ngôn ngữ, bao gồm các kiểu cú pháp như chủ ngữ, đối tượng trực tiếp và cụm danh từ (NP) Dưới đây là ví dụ về một nút khái niệm.

Hình 3.2 Một nút khái niệm trong AutoSlog

Phương pháp dựa trên luật

Khác với phương pháp dựa trên từ điển, phương pháp này sử dụng các luật thay thế cho từ điển để trích rút thông tin từ văn bản.

Here is a rewritten paragraph that conveys the same meaning while complying with SEO rules:"One common approach to text extraction involves learning syntactic and semantic constraints with delimiters that demarcate the boundaries of the target text, effectively defining the rules for extracting relevant information from a given text."

Thuật toán chính của hệ thống này bao gồm phương pháp dưới lên và trên xuống, học các quy luật từ những trường hợp khái quát đến các trường hợp đặc biệt và ngược lại Một số thuật toán được đề xuất bao gồm (LP)2 (Ciravegna, 2001) và iASA (Tang, Li, Lu et al., 2005).

Phương pháp học dưới lên (LP) 2, theo Ciravegna (2001), học hai kiểu luật để xác định biên bắt đầu và biên kết thúc của văn bản được trích rút Quá trình học này dựa trên các mẫu trong tập dữ liệu huấn luyện do người sử dụng định nghĩa Có ba kiểu luật chính trong (LP) 2, bao gồm luật gán nhãn, luật ngữ cảnh và luật sửa đổi.

Luật gán nhãn bao gồm hai phần: bên trái chứa các điều kiện trên chuỗi từ và bên phải thực hiện hành động chèn một chuỗi SGML vào văn bản Mỗi luật sẽ chèn một nhãn SGML riêng lẻ, như Bên cạnh đó, còn có các luật nhận diện việc làm đầy slot, cho phép chèn cả hai nhãn và , thậm chí nhiều slot cùng lúc.

Dưới đây là một bảng luật gán nhãn, trong đó cột đầu tiên thể hiện chuỗi từ, trong khi các cột từ hai đến năm mô tả từ loại, loại từ, nghĩa tra cứu trong từ điển và kết quả nhận diện thực thể định danh tương ứng Cột cuối cùng thể hiện hành động thực hiện, với hành động “” chỉ ra rằng nếu đoạn văn bản khớp với mẫu, từ “Patrick” sẽ được xác định là biên (boundary) khởi đầu của người nói (speaker).

Bảng3-2 Ví dụ về luật gán nhãn khởi tạo

Khi áp dụng cho ậpt test, các khối quy tắc tốt nhất thường mang lại kết quả chính xác cao nhưng có hiệu quả hạn chế về mặt recall Điều này có nghĩa là các luật chỉ chèn vài nhãn, dẫn đến recall thấp nhưng precision cao Để cải thiện recall mà không làm giảm precision, cần xác định các luật bổ sung Ví dụ, bảng dưới đây minh họa một luật ngữ cảnh bằng cách thêm nhãn trong câu “the seminar at 4 pm…”.

Bảng3-3 Lu ngật ữ cảnhthêm nhãn vào câu (với tri thức NLP kết hợp)

Luật ngữ cảnh (LP) 2 (Ciravegna, 2001) là một ví dụ về cách học các quy tắc chèn nhãn độc lập Một số quy tắc chỉ được sử dụng để đóng ô dữ liệu khi các quy tắc tốt nhất không thể thực hiện điều đó Những quy tắc này được gọi là các luật ngữ cảnh Chẳng hạn, việc chèn nhãn giữa các từ khóa viết hoa và chữ thường không phải là một quy tắc tốt nhất vì nó mang lại recall cao nhưng precision thấp trên tập tài liệu Corpus Tuy nhiên, nó vẫn đáng tin cậy khi chỉ được sử dụng để đóng nhãn m .

Sự tin cậy của các luật ngữ cảnh được xác định thông qua tỷ lệ lỗi tương tự như các luật tốt nhất Tóm lại, các tập hợp luật gán nhãn bao gồm cả khối luật tốt nhất và các luật ngữ cảnh.

Các luật gán nhãn áp dụng trên tập mẫu test có thể gây ra một số sai sót trong việc phát hiện biên bộ lọc cácô dữ liệu (slot) Chẳng hạn, với luật ngữ cảnh “at 4 pm”, chúng ta nhận thấy "pm" cần được coi là một biểu thức thời gian Do đó, luật quỹ dẫn (LP) 2 được sử dụng để điều chỉnh vị trí các nhãn sai lệch về đúng vị trí của chúng, thông qua việc xử lý các lỗi phát sinh trong quá trình gán nhãn tập tài liệu huấn luyện.

Một ví dụ về luật sửa đổi ban đầu cho việc thay đổi nhãn trong “ được chỉ ra ở hình dưới

Bảng3-4 Luật hiểuchỉnh thay đổi nhãn từ vị trí sai đến vị trí đúng

Khái quát hóa đóng vai trò quan trọng trong việc phân tích đầu vào ngôn ngữ tự nhiên Nếu không thực hiện khái quát, sẽ hình thành một tập luật lớn với những quy tắc chỉ áp dụng cho một số trường hợp nhất định Mặc dù các tập luật này có thể hoạt động tốt trên tập huấn luyện, nhưng chúng lại hạn chế độ chính xác khi áp dụng vào mẫu test.

Có hai cách trong đó thuật toán khái quát các luật suy diễn ban đầu: một mặt các ràng buộc trong mẫukhởi tạo được bỏ qua.

Ví dụ “ at 4 pm” và “at 5 pm” có thể được mô hình bởi luật “word at, word *, word pm”.

Bảng3-5 Các luật được khái quát ết hợp với tri thức NLP kết hợpk

(phân loại từ vựng và phân lo ngại ữ nghĩa)

Trong ví dụ trên, việc sử dụng quy tắc "word= at, LexCat = Digit, word= pm" cho phép khái quát tốt hơn so với việc chỉ dùng một ký tự thay thế Điều này cho thấy tầm quan trọng của việc áp dụng các ràng buộc thay thế kết hợp với kiến thức ngôn ngữ tự nhiên để cải thiện khả năng nhận diện và xử lý thông tin.

Bài toán trích rút dựa trên phân loại

Có khả năng khái quát hơn phương pháp dựa trên lu ật Nhược điểm là mô hình của nó thường phức tạp và khó cho người dùng sử dụng.

Tập dữ liệu huấn luyện được ký hiệu là {(x1, y1), … , (xn, yn)}, trong đó x i là một vector đặc trưng và y i ∈{- 1, +1} là nhãn phân loại Mô hình phân loại thường trải qua hai giai đoạn chính: học và dự đoán.

Mô hình phân loại dựa trên phát hiện biên (boundary)

Trong học máy, quy trình bao gồm hai giai đoạn chính: học và trích rút Trong giai đoạn học, hệ thống sử dụng tập tài liệu đã được gán nhãn để tạo ra mô hình cho các dự đoán trong tương lai Giai đoạn trích rút sau đó áp dụng các mô hình này lên tài liệu chưa gán nhãn nhằm tạo ra các trích rút thông tin.

Mẫu trích rút thông tin bằng phân loại được trình bày trong Hình 3.3, sử dụng hai bộ phân loại: một để xác định phần bắt đầu và một để xác định phần kết thúc của đoạn văn bản Các bộ phân loại này hoạt động dựa trên token, trong đó mỗi token được phân loại mà không có điểm bắt đầu và kết thúc, cho phép xem các token nằm giữa hai token như một cụm từ cần tìm (target instance).

Hình 3.3 Ví dụ trích rút thông tin bằng phân loại

Trong ví dụ này, các token “Dr Trinkle’s” được gán nhãn cho người nói (speaker), trong khi token “Dr.” và “Trinkle’s” đều là các thể hiện khẳng định Các token khác trong bộ phân loại được xác định là thể hiện phủ định Dữ liệu chú thích này được sử dụng để cải tiến quá trình huấn luyện hai bộ phân loại Trong giai đoạn trích rút, hai bộ phân loại này sẽ được áp dụng để xác định vị trí bắt đầu và kết thúc của người được nhắc đến.

Các token "Professor", "Steve" và "Skiena" được xác định là token bắt đầu và token kết thúc của bộ phân loại Sau khi kết hợp các kết quả, chúng ta xem xét các token nằm giữa hai token này, và kết quả thu được là "Professor Steve Skiena".

Bài toán trích rút dựa trên gán nhãn tuần tự

Trong gán nhãn tuần tự, tài liệu được xem như một chuỗi các thẻ (token) với các nhãn tương ứng, nhằm chỉ ra thuộc tính của từng token Bài toán trích rút dựa trên gán nhãn tuần tự yêu cầu mỗi từ được gán một nhãn, phản ánh loại từ phù hợp của nó.

Ví dụ cho câu đầu vào: “Pierre Vinken will join the board as a nonexecutive director Nov 29.” sẽ cho kết quả đầu ra như sau:

[NNP Pierre] [NNP Vinken] [MD will] [VB join] [DT the] [NN board] [IN as] [DT a] [JJ nonexecutive] [NN director] [NNP Nov.] [CD 29] [ .]

Nhiệm vụ trích rút thông tin bằng gán nhãn tuần tự với chuỗi quan sát x = (x1, x2, …, xn) nhằm tìm ra chuỗi nhãn y* = (y1, y2, …, yn) để tối đa hóa xác suất điều kiện p(y|x).

Phương pháp học luật khác biệt so với phương pháp phân loại ở chỗ nó sử dụng gán nhãn tuần tự để mô tả mối quan hệ phụ thuộc giữa các thông tin mục tiêu Mối phụ thuộc này được khai thác nhằm nâng cao độ chính xác trong quá trình trích rút thông tin.

HMM (Ghahramani & Jordan, 1997), MEMM (McCallum, Freitag &Pereira, 2000), và CRF (Lafferty, McCallum & Pereira, 2001) là các mô hình gán nhãn tuần tự được sử dụng rộng rãi.

PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

Kiến trúc hệ thống

Hình 4.1 Kiến trúc ệ thống trích rút thông tinh

Hệ thống ực hiện hai pha huth ấn luyện và triển khai song song hoặc ầnl lượt (xem Hình 4.1).

Kỹ sư tri thức hoặc hệ thống cần thiết phải có các mẫu huấn luyện cho các mô-đun huấn luyện, mô-đun xử lý dữ liệu và mô-đun kiểm tra.

Tại bước đầu tiên T1, đầu vào là tập văn bản huấn luyện được lựa chọn đưa vào hệ thống cần xử lý.

Sau khi văn bản được chuyển đến bước xử lý T2, các đặc điểm hình thức sẽ được chuẩn hóa (T2.1) Đồng thời, tại bước T2, dữ liệu văn bản cũng được làm phong phú với siêu dữ liệu ngôn ngữ, và những siêu dữ liệu này sẽ được sử dụng làm tham số cho bước chấp nhận (T2.2).

Theo cách tiếp cận thủ công, chúng ta sẽ sử dụng tập huấn luyện tiền xử lý trongbước ọch (T3) là cở sở để mô tả ngữ pháp trích rút.

Theo phương pháp học máy, mẫu huấn luyện thường được gán nhãn thủ công Các mô-đun học máy sẽ sử dụng các nhãn này trong quá trình huấn luyện để tự động suy diễn từ văn bản và trích xuất thông tin từ tập mẫu.

Here is a rewritten paragraph that meets SEO rules:"Trong quá trình xử lý tri thức, kỹ sư tri thức hay hệ thống yêu cầu đầu vào là các văn bản cần xử lý trích rút Ở giai đoạn này, các mô-đun nhận văn bản, mô-đun xử lý và mô-đun trích rút thực thể đều đóng vai trò quan trọng trong việc trích xuất thông tin có giá trị từ văn bản đầu vào."

Trong giai đoạn triển khai (D1-D4), hệ thống sẽ thực hiện việc trích xuất và phân loại thông tin ngữ nghĩa từ các văn bản mới, bao gồm những văn bản không có trong tập huấn luyện.

Trong bước tiền xử lý D2, các thành phần hoạt động tương tự như trong bước học, giúp chuyển đổi văn bản đầu vào (các văn bản nguồn) đến bước học Sau quá trình này, văn bản có thể kết hợp với tri thức bổ sung (K2) để xác định các thành phần đầu vào phù hợp cho nhiệm vụ trích rút và phân loại theo ngữ nghĩa.

Các phần tử văn bản được trích rút và phân loại đưa ra theo định dạng thông tin cấu trúc(D4).

Các chức năng hệ thống

Trong quá trình thiết kế và xây dựng hệ thống, chúng ta sẽ chú trọng vào hai giai đoạn chính: giai đoạn huấn luyện và giai đoạn thực thi Hệ thống bao gồm các mô đun quan trọng như mô đun phân tích từ vựng, mô đun huấn luyện, mô đun nhận dạng thực thể và mô đun trích rút thông tin.

4.2.1 Mô-đun phân vùng văn bản

Mô-đun phân vùng văn bản có nhiệm vụ chia nhỏ văn bản thành các thực thể từ vựng, hay còn gọi là token, trên một dòng Nó xử lý các văn bản thô và tổ chức các token theo định dạng ngân hàng dữ liệu dưới dạng cây, tương tự như kiểu Penn Treebank.

Ví dụ cho đoạn văn bản:

Sau khi thực hiện token hóa văn bản ta có cây dữ liệu sau:

Professor, School of Knowledge Science email: bao@jaist.ac.jp phone&fax:(81)-761-51-1730 Education and Career

B.Tech degree in Applied Mathematics from Hanoi

: bao@jaist.ac.jp phone

4.2.2 Mô-đun gán nhãn và phân tích từ vựng

Sau khi phân vùng văn bản thành các token riêng biệt, mô-đun phân tích từ vựng (Lexical analyser) sẽ thực hiện nhiệm vụ nhận diện các từ và từ phức tạp có nghĩa từ vựng và ngữ nghĩa Quá trình này được kiểm tra thông qua từ điển và bộ phân tích từ vựng, nhằm tạo ra nghĩa từ vựng và giải quyết các vấn đề nhập nhằng.

Ví dụ: cho hai câu như ở dưới. s1 = " Tu-Bao Ho Professor, School of Knowledge/Science?" s2 = "I go to school at Stanford University, which is located in

Kết quả bộ phân tích từ vựng sẽ đưa ra kết quả đầu ranhận dạng thực thểcó dạng như ở dưới.

S1=“Tu-Bao/O Ho/O Professor/O,/O School/ORGANIZATION of/ORGANIZATION Knowledge/ORGANIZATION

S2= I go to school at Stanford University

, which is located in California

Để thực hiện phân tích từ vựng, chúng ta cần xây dựng các hàm đặc trưng và có thể xuất kết quả dưới dạng file XML.

- Noun Phrase (NP) Mô tả một cụmdanh từ ví dụ Anh ấy là [“my good friends”]

- Verb Phrase (VP) Mô tả một cụm động từ, là một dãy các từ bao gồm các động từ và các từ bổ trợ Ví dụ: Chim [fly high]

- ADVP và ADJP: Tương đương với tiếng việt: cụm tính từ và cụm phó từ.

- PP and SBAR: Tương đương với tiếng Việt Cụm phó từ

Cách tiếp cận học máy và thống kê trong xử lý ngôn ngữ tự nhiên (NLP) cần một lượng quan sát lớn để học hàm chuyển đổi từ chuỗi đầu vào thành các kiểu dữ liệu như cá nhân, tổ chức hoặc địa điểm Phương pháp này kết hợp giữa luật ngữ cảnh và chính tả để nâng cao hiệu quả phân tích ngôn ngữ.

Nhiệm vụ đầu tiên của mô-dun học là học luật Với luật ngữ cảnh xem xét các từ xung quanh chuỗi trong câu nó xuất hiện trong đó.

Ví dụ “Obama is the president of USA”; một tên thích hợp bất kỳ

“Obama” được bổ nghĩa bởi một đồng vị ngữ mà phần đầu ủa ị ngữ nc v ày là

Mô đun học có nhiệm vụ phân đoạn và trích xuất thông tin về người, địa điểm và các vị trí từ văn bản trước khi đưa vào bộ phân loại Trong nhiều trường hợp, việc kiểm tra chính tả và ngữ cảnh một cách độc lập đã đủ để phân loại các mẫu hiệu quả.

1 Xây dựng luật từ các đặc trưng

Sau khi xác định được cặp (chính tả, ngữ cảnh) trong dữ liệu phân tích cú pháp, chúng tôi đã tiến hành trích xuất một số đặc trưng Những đặc trưng này được sử dụng để minh họa cho từng ví dụ của thuật toán học Theo nguyên tắc, mỗi đặc trưng có thể liên quan đến bất kỳ từ nào trong cặp (chính tả, ngữ cảnh).

Sử dụng các đặc trưng tổng quát nhữ is, contains, ends, first, next, begin, in và các đặc trưng khác như:

 Lùi dòng, khoảng trắng, độ dài.

 Đặc trưng về th ủa động từ.ì c

Vấn đề về kiểu chữ bao gồm việc sử dụng chữ viết thường, chữ cái đầu viết hoa, sự kết hợp giữa chữ viết hoa và chữ viết thường, tất cả các chữ cái viết hoa, khởi đầu bằng chữ viết hoa, chữ có chứa số, và tất cả chữ cái viết thường.

 Các loại dấu: dấu chấm ngắt câu, khoảng trắng , ấu phẩy, dấu mócd lửng(phẩy trên), gạch ngang, nhãn html đi trước

Bảng 4-1Các đặc trưng nhị phân

Các giá trị được thực hiện theo thứ tự đã liệt kê Trong trường hợp các lớp đặc điểm không khớp nhau, như “chỉ chứa chữ và số” và “chỉ chứa số và gạch ngang”, lớp đặc điểm trước sẽ được ưu tiên hơn.

2 Xây dựng các b ểu thức chính quyi

Mỗi biểu thức chính quy gồm danh sách trạng thái tùy chọn, biểu thức quy tắc và hành động kết hợp Biểu thức có dạng sau:

[] trong đó:

 Trạng thái là một danh sách tùy chọn, cụ thể hóa các trạng thái mà luật sẽ khớp.

Biểu thức cụ thể mẫu phải khớp với chuỗi từ đầu vào, nếu không sẽ xảy ra lỗi Khi có nhiều luật phù hợp với chuỗi đầu vào, bộ từ vựng sẽ chọn luật có chuỗi dài nhất và ưu tiên luật xuất hiện sớm hơn trong đặc tả.

 Thực hiện:là một hoạt động kết hợp với luật Các chuyển tiếp trạng thái có thể được nhận ra bởi lời gọi hàm.

4.2.4 Mô-đunnhận dạng thực thể định danh

Mô đun này gán các đặc trưng từ loại cho từ hoặc nhóm từ liên quan đến cá nhân, tổ chức và địa điểm Quá trình gán nhãn sử dụng sự kết hợp giữa tìm kiếm từ điển và tri thức nghiệm.

Trích rút thực thể liên quan đến xử lý văn bản nhằm xác định sự xuất hiện của các từ hoặc biểu thức thuộc về một loại thực thể định danh cụ thể Các thực thể này có thể bao gồm tên người, tổ chức, địa danh, cũng như các biểu thức về số, tiền tệ, phần trăm và thời gian.

Gán nhãn thực thể (gán nhãn chuỗi):

Xác định sự đề cập đến các thực thể là một bước quan trọng trong phân tích dữ liệu Để đạt được hiệu quả tốt nhất, cần dựa vào loại thực thể và lĩnh vực liên quan Các phương pháp dưới đây sẽ giúp giải quyết hầu hết các kiểu thực thể phổ biến và điển hình.

Nhận dạng thực thể đơn thường sử dụng các lớp đóng có sẵn trong từ điển, bao gồm vị trí địa lý và các danh sách được liệt kê theo kiểu từ điển, kết hợp với mã nguồn thủ công để nâng cao hiệu quả xử lý dữ liệu.

- Với các thực thể cú pháp như số điện thoai, email, zip code ta sử dụng các biểu thức chính quy có sẵn.

Các lớp ngữ nghĩa như họ tên, tên tổ chức, viện nghiên cứu và trường đại học là những yếu tố quan trọng trong việc tối ưu hóa ngữ cảnh Sự pha trộn giữa ngữ cảnh, đặc trưng cú pháp, từ điển và tri thức kinh nghiệm góp phần tạo nên hiệu quả trong việc truyền tải thông tin.

4.2.5 Mô-đun ại bỏ sự nhập nhằnglo

Ta xem xét một số trường hợp nhập nhằng sau khi trích rút các giá trị thuộc tính với các trường thông tin khác nhau.

* Trường hợp 1: Nhập nhằng giữa “Nghề nghiệp (Occupation)” có đúng hay không?

Hệ thống trích rút thông tin dùng CRF

Phương pháp trích rút thông tin dựa trên cách tiếp cận CRF mang lại nhiều ưu điểm vượt trội so với hai phương pháp truyền thống HMM và MEMMs Trong bài viết này, chúng ta sẽ khám phá chi tiết về ứng dụng của CRF trong hệ thống trích rút thông tin.

Queen Elizabeth set about transforming her husband, King George VI, into a viable monarch Lonel Logue, a renowned speech therapist, was summoned to help the King overcom his speech impediment

Husband, King George, the King

Lonel Logue, a renowned speech therapist

Các lớp đồng tham chiếu tương đương

4.3.1 Suy diễn tham số cực đại khả năng

Giả sử dữ liệu huấn luyện {(x (k), y (k))} là độc lập và được phân bố rõ ràng, tích trong công thức (3) trên tất cả chuỗi huấn luyện, được biểu diễn như một hàm của tham số λ, với p({y (k)}|{x (k)}, λ).

Huấn luyện khả năng cực đại trong mô hình CRF liên quan đến việc chọn lựa các giá trị tham số sao cho hàm log-likelihood đạt giá trị tối đa Hàm log-likelihood trong CRF được định nghĩa như sau:

Hàm L() này là đường cong lõm, đảm bảo hội tụ tới cực đại toàn cục(global) Lấy vi phânlog-likelihood theo tham số λ j ta có:

(4) trong đó P ~ (Y,X) là phân bố thực nghiệm ủa dữ liệu huấn luyệnc và

E p biểu diễn ỳ vọng (expectation)k liên quan tới phân bố p.

Việc cài đặt này dẫn đến đạo hàm bằng 0, cho thấy rằng entropy đạt cực đại Kỳ vọng của mỗi đặc điểm trong mô hình tương ứng với giá trị kỳ vọng trong phân bố thực nghiệm của dữ liệu huấn luyện.

4.3.2 Quy nạp đặc trưng trong mô hình CRF

Đặc trưng f k được xác định dựa trên các bài thử nghiệm quan sát nguyên tử thủ công, như việc phân tích các từ được viết hoa hoặc từ xuất hiện trong tên các quốc gia Đồng thời, một tập hợp các đặc trưng lớn cũng được hình thành từ sự kết hợp của các bài thử nghiệm trong các mẫu đã được xác định rõ ràng.

Ví dụ, sự kết hợp bao gồm tất cả các thử nghiệm bằng cách từ vị trí và chuỗi hiện tại tiếp nối với tất cả thử nghiệm tại vị trí ở bước ngay sau đó Chẳng hạn như: từ hiện tại được viết hoa và từ kế tiếp là “Inc”.

Chúng ta bắt đầu không có đặc trưng nào và suy diễn luật với một vài vòng (round) như sau:

(1) Xem xét một tập các đặc điểm đề xuất (cả các bài thử nghiệm quan sát nguyên tử và cacs kết hợp.

(2) lựa chọn cả những đặc trưng ứng viên mà sẽ tăng nhiều nhất log- likelihood của các đường đi trạng thái đúng (correct state) s (j)

(3) huấn luyện các trọng số cho tất cả các đặc trưng bao hàm.

(4) lặp lại bước(1)cho đến khi tiêu chuẩn dừng (stopping criteria) đạt được.

Các đặc trưng mới được đề xuất dựa trên các bài test quan sát thủ công, bao gồm việc kết hợp nhị phân giữa các bài test đơn lẻ và các bài thử nghiệm khác, cũng như các đặc trưng hiện có trong mô hình.

4.3.3 Quy nạp mô hình CRF cấu trúc tùy ý Để đo lường hiệu quả ủa việc thc êm một đặc trưng mới, chúngta xác định mô hìnhđiều kiệnmới ới các đặc trưng ổ sung g với trọng lượng μv b để cócùng dạng như mô hình gốc.

In a simple model, normalization is the essential adjustment required to ensure that the overall output values sum to one, thereby creating a new function that maintains coherence across all data points.

Theo nghiên cứu của Della Pietra et al (1997), chúng ta đánh giá hiệu quả của nhiều đặc trưng song song bằng cách giả định rằng các tham số λ trên tất cả các đặc trưng đều cố định Trong quá trình này, chúng ta ước lượng hàm lợi ích G(g) và thuộc tính của đặc trưng cử viên g Lợi ích của đặc trưng được xác định là sự cải thiện log-likelihood mà đặc trưng đó mang lại.

Chúng ta tạo ra đặc trưngcó lợi cho tính toán dáng kể về hiệu quả thời gian với CRFs v ập dữ liệu ớnà t l

4.3.4 Suy diễn đặc trưng cho chuỗi tuyến tính CRF Đầu vào:

A dataset consists of pairs of labels and feature vectors, such as a binary vector representing observational test results for each word, along with a label that identifies whether the word is a person's name.

(2) Máy trạng thái hữu hạn với các trạng thái gán nhãn và cấu trúc chuyển tiếp.

1 Bắt đầu không có đặc trưng nào trong mô hình, K = 0.

2 Create a list of candidate features consisting of observational tests, và kết hợp các thử nghiệm quan sát với các đặc trưng tồn tại Giới hạn số lượng các kết hợp với lợi ích (gain) cao nhất tương tự bước( 2 hoặc4).

(3) Evaluate all candidate features, và thêm vào mô hình một vài tập con của các ứng viên với lợi ích cao nhất ằng cách tăng, b K.

Sử dụng phương pháp quasi-Newton để điều chỉnh tất cả các tham số của mô hình CRF nhằm tăng cường likelihood điều kiện cho chuỗi nhãn dựa trên chuỗi đầu vào; đồng thời tránh hiện tượng overfitting bằng cách chỉ thực hiện một số vòng lặp Newton hạn chế.

(5) Chuyển tới bước2 nếu một vài tiêu chuẩn hội tụ không đạt được. Đầu ra:

Mô hình CRF trạng thái hữu hạn xác định chuỗi gán nhãn chính xác nhất cho chuỗi đầu vào thông qua việc sử dụng các đặc trưng suy diễn, cùng với việc học các trọng số và áp dụng thuật toán Viterbi.

Bảng 4-2 Trích rút thực thể dịnh danh tiếng Anh có suy diễn và không suy diễn

Để xác định các giá trị tham số cực đại khả năng trong mô hình CRF, không cần quan tâm đến việc sử dụng phương pháp chia tỷ lệ lặp hay phương pháp dựa trên độ lênh Quá trình này yêu cầu tính toán hiệu quả kỳ vọng của mỗi hàm đặc trưng liên quan đến phân bố mô hình CRF cho từng c ỗi quan sát x(k) trong dữ liệu huấn luyện.

CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG

Cài đặt ứ ng d ụng

Ta thực hiện cài đặt ứng dụng nhận dạng thực thể định danh StanfordNER của đại học Stanford theo các bước ở dưới.

To download the Stanford version, visit the link provided below, then extract the files to test the information extraction capabilities focusing on three fields: person, location, and organization Additionally, the source code of this application can be compiled using various Java compilers For more details, visit [Stanford NER](http://crfpp.sourceforge.net/nlp.stanford.edu/software/CRF-NER.shtml).

Cách tổ chứcSource Code với các lớp ngoài cùng:

Giới thiệu ứng dụng trích rút thông tin StanfordCRF

1 Giao diệnkhởi tạoSau khi giải nén chương trình, từ thư mục gốc ta chạy file “ ner- gui.bat “ để mở ra giao diện khởi tạo của chương trình như hình 1 bên dưới.

Hoặc có thể biên dịch ứng dụng java ừt mã nguồn chương trình gốc trong thư mục src\edu\stanford\nlp\ie\crf\NERGUI.java

Hình 5.1 Giao diện của ệ thốngh khi khởi tạo

Từ giao diện chính của chương trình, chọn chức năng phân loại (Classifier) và nhấn vào “Load default CRF” để mở cửa sổ trích xuất thông tin Cửa sổ này đã được xây dựng sẵn với ba trường thông tin: cá nhân, tổ chức và địa điểm.

Cửa sổ nhận dạng các thực thể mặc định cho phép người dùng mở file dữ liệu cần nhận dạng thông qua mục File->Open File nhận dạng có thể là định dạng txt

Hình 5.2 Chức năng nhận dạng các thực thể định danh theo phương pháp

5.3 Thực hiệnhuấn luyện và kiểm ửth Ở bước tiền xử lý, chúng ta cần phải chuyển đổi các văn bản đó thành văn bản chứa mỗi token trên một dòng, sử dụng câu lệnh command sau đây với file đầu vào file văn bản *.txt và * html và file đầu ra là các token (*.tok) Câu lệnh có dạng: java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer 001.html > 001.tok

Chương trình huấn luyện thành công và đưa ra thông báo

“PTBTokenizer tokenized 1354 tokens at 2880.85 tokens per second”

Để xây dựng hệ thống nhận dạng thực thể cho các trang web cá nhân, bước đầu tiên là huấn luyện dữ liệu Để thực hiện việc này, chúng ta cần chuẩn bị các bộ dữ liệu được tổ chức một cách hợp lý cho mô hình CRF nhằm trích rút thông tin hiệu quả.

Bộ dữ liệu huấn luyện thô với ớpl (cá nhân riêng biệt) bao gồm các thư mục tương ứng với từng lớp, trong đó mỗi thư mục chứa nhiều file HTML, đại diện cho dữ liệu web của cá nhân đó.

Bộ dữ liệu kiểm thử thô bao gồm các lớp cá nhân riêng biệt, mỗi lớp có thư mục tương ứng Thư mục này chứa dữ liệu có định dạng tương tự như dữ liệu huấn luyện, nhưng lượng dữ liệu kiểm thử ít hơn theo một tỷ lệ nhất định Tỷ lệ này sẽ ảnh hưởng đến hiệu năng đánh giá hệ thống trong mỗi vòng lặp với các lượng dữ liệu khác nhau.

Tập dữ liệu huấn luyện này có thể down tại đây: http://nlp.uned.es/weps/weps2/WePS2_AE_training.zip

Tập văn bản huấn luyện và thử nghiệm trong luận văn này được thu thập thủ công từ các trang web cá nhân của những người Việt Nam làm trong lĩnh vực công nghệ thông tin, thông qua việc sử dụng các công cụ tìm kiếm.

Bài viết này trình bày một danh sách các trang web được lưu trữ dưới dạng HTML, chứa các thông tin bán cấu trúc như Tên, Quốc tịch, Ngày sinh, Nơi công tác, Nghề nghiệp, Chuyên môn, Địa chỉ Email, Số điện thoại và Trang web cá nhân Ngoài ra, còn có dữ liệu thống kê về tập văn bản huấn luyện.

Số lượng cáccá nhân (lớp) cần tríchrút (file) 49(8)

Số lượng các trang webhuấn luyện (file) 3557(100)

Dữ liệu nhiều nhất của một cá nhân (trang) 404

Dữ liệu ít nhất của một cá nhân (trang) 4

Dữ liệu trung bình của một cá nhân (trang) ~73

Kích thước trang nhỏ nhất (KB) 0

Kích thước trang lớn nhất (KB) 2662

Kích thước trung bình của một trang (KB) 87

Bảng5-1 Thống kê khái quát về tập dữ liệu huấn luyện

M lỗi ớp dữ liệu cá nhân bao gồm nhiều thư mục được đánh số từ 1 đến 999, trong đó chứa trang web cá nhân được thu thập bằng tay hoặc thông qua máy tìm kiếm.

Bài viết này tập trung vào việc phân tích một file dữ liệu test cơ bản với 18 trường thuộc tính, bao gồm hai cột: cột đầu tiên là lớp thuộc tính và cột thứ hai là giá trị thuộc tính Chúng ta sẽ trích rút các trường thuộc tính quan trọng, bao gồm tên cá nhân (Name), cơ quan trực thuộc (Organization) và nơi công tác (Location).

Bảng5-2 Bảng dữ liệu gồm 18 trường thuộc tính

Website cá nhân có thể được xây dựng dưới nhiều định dạng khác nhau, bao gồm bảng cấu trúc và văn bản tự do Trong bài viết này, chúng tôi sẽ tập trung vào hai định dạng chính là văn bản và HTML, và sẽ sử dụng ngôn ngữ văn bản là tiếng Anh.

5.3.2 Các tiêu chí đánh giá

Hệ ống IE được phát triển với hai mục tiêu chính: đánh giá và so sánh hệ thống Đánh giá hệ thống nhằm xác định mối quan hệ giữa các tham số và hiệu suất của nó, trong khi so sánh hệ thống giúp đối chiếu thiết kế của chúng ta với các hệ thống hiện có khác.

Việc đánh giá hiệu quả hệ thống được thực hiện thông qua việc so sánh đầu ra của nó với dữ liệu tiêu chuẩn, hay còn gọi là dữ liệu vàng, được tạo ra bởi bộ phận chú thích.

Đánh giá kết quả

Tài liệu huấn luyện và thử nghiệm cho luận văn này được thu thập thủ công từ các trang web cá nhân của những người Việt Nam làm trong lĩnh vực công nghệ thông tin, thông qua việc sử dụng các công cụ tìm kiếm.

Bài viết này trình bày một danh sách các trang web được lưu trữ dưới dạng HTML, chứa các thông tin bán cấu trúc như Tên, Quốc tịch, Ngày sinh, Nơi công tác, Nghề nghiệp, Chuyên môn, Địa chỉ Email, Số điện thoại, và Trang web cá nhân Thêm vào đó, có dữ liệu thống kê liên quan đến tập văn bản huấn luyện.

Số lượng cáccá nhân (lớp) cần tríchrút (file) 49(8)

Số lượng các trang webhuấn luyện (file) 3557(100)

Dữ liệu nhiều nhất của một cá nhân (trang) 404

Dữ liệu ít nhất của một cá nhân (trang) 4

Dữ liệu trung bình của một cá nhân (trang) ~73

Kích thước trang nhỏ nhất (KB) 0

Kích thước trang lớn nhất (KB) 2662

Kích thước trung bình của một trang (KB) 87

Bảng5-1 Thống kê khái quát về tập dữ liệu huấn luyện

M lỗi ớp dữ liệu cá nhân bao gồm nhiều thư mục dữ liệu được đánh số từ 1 đến 999 Mỗi thư mục chứa trang web cá nhân được thu thập bằng tay hoặc thông qua máy tìm kiếm.

Bài viết này trình bày về một file dữ liệu test cơ bản với 18 trường thuộc tính, bao gồm hai cột: cột đầu tiên là lớp thuộc tính và cột thứ hai là giá trị thuộc tính Trong luận văn, chúng ta sẽ tập trung vào việc trích rút các trường thuộc tính chính, bao gồm tên cá nhân (Name), cơ quan trực thuộc (Organization) và nơi công tác (Location).

Bảng5-2 Bảng dữ liệu gồm 18 trường thuộc tính

Website cá nhân có thể được xây dựng dưới nhiều định dạng khác nhau, bao gồm bảng cấu trúc và văn bản tự do, sử dụng nhiều ngôn ngữ và kiểu file khác nhau Trong bài viết này, chúng tôi sẽ tập trung vào hai định dạng chính là văn bản và HTML, và chỉ sử dụng ngôn ngữ tiếng Anh.

5.3.2 Các tiêu chí đánh giá

Hệ ống IE được phát triển với hai mục tiêu chính: đánh giá và so sánh hệ thống Đánh giá hệ thống nhằm xác định mối quan hệ giữa các tham số và hiệu suất hoạt động, trong khi so sánh hệ thống giúp đối chiếu thiết kế của chúng ta với các hệ thống hiện có khác.

Đánh giá hệ thống được thực hiện thông qua việc so sánh đầu ra của nó với dữ liệu tiêu chuẩn (dữ liệu vàng) do bộ phận chú thích cung cấp.

Dữ liệu vàng là yếu tố quan trọng cần được tạo ra trước tiên Sau đó, tất cả các kết quả phát sinh quá mức từ hệ thống sẽ được kiểm tra bởi bộ chú thích để xác định các kết quả có thể đã bị bỏ lỡ.

Việc so sánh được ực ện ử dụng các thước đoth hi s recall, precision và F-measures cho mỗi thuộc tính riêng và cho toàn bộ kết quả.

Precision là tỷ lệ phần trăm thông tin chính xác mà hệ thống trích xuất được, trong khi Recall là tỷ lệ phần trăm thông tin liên quan được trích xuất đúng Hai công thức để tính Precision (P) và Recall rất quan trọng trong việc đánh giá hiệu suất của hệ thống.

P = Số thuộc tính trích rút dúng

Số thuộc tính được sản sinh

R = Số thuộc tính trích rút dúng

Hội nghị MUC đã đề xuất sử dụng đại lượng F-measure để so sánh kết quả trong việc trích rút thông tin, kết hợp giữa Precision (P) và Recall (R) Tham số β được sử dụng để đánh trọng số tầm quan trọng tương đối của Precision và Recall.

 thường là 1 và F-measure trong khoảng 0.6 F-measure cho bởi công thức

Ta lấyví dụ cụ thể ề tính Precision, Recall vv à F-measure với đoạn văn bản sau:

“Michael Kearns and Sebastian Seung will start Monday’s tutorial, followed by Richard M KarpeandMartin Cooke.”

Trong một văn bản có 17 từ, có 5 giá trị thuộc tính được gán nhãn tên Hệ thống đã gán đúng 2 giá trị thuộc tính cho tên Richard.

M Karpe, Martin Cooke) trong số 4 giá trị thuộc tính của dữ liệu đích ủac toàn văn bản vì thế Recall của nó sẽ là 2/4 hay 50% Những chỉ 2 trong số 5 giá trị thuộc tính ự đoán là đúng nên Precision chỉ là 2/5 hay 40% Và F-d measure là 44,44%.

Các trang web không đủ điều kiện để sử dụng trong đánh giá bao gồm: a) Những trang không chứa chuỗi tên chính xác của người cần trích dẫn; ví dụ, nếu tên mục tiêu là “John Kennedy” nhưng trang chỉ đề cập đến “John F Kennedy”, thì trang đó không được chấp nhận b) Các trang có hơn hai cá nhân cùng tên; chẳng hạn, nếu có hai nhân vật “John Kennedy (nhà chính trị)” và “John Kennedy (diễn viên)”, trang sẽ không được sử dụng c) Những trang hiển thị thông tin từ cơ sở dữ liệu, như CiteSeer hoặc các trang thương mại như amazon.com d) Các trang có tên nhân vật hư cấu, như trong tiểu thuyết hoặc truyện, cũng không được chấp nhận.

Chúng ta chỉ xem xét độ chính xác trong một phạm vi hẹp, cụ thể là các trang web cá nhân Tuy nhiên, đối với các lĩnh vực mở khác, kết quả có thể thay đổi một cách đáng kể.

Bài test này được thu thập thủ công từ 30 trang web cá nhân, sử dụng hơn 120 file HTML Sau khi xem xét, chúng tôi loại bỏ các tài liệu không phù hợp do thiếu thông tin liên quan Trung bình, mỗi trang web cá nhân có khoảng 4 đến 5 trang web thành phần.

Ngày đăng: 22/01/2024, 17:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN