Cài đặt chương trình

Lựa chọn cơng nghệ và mơi trường cài đặt

Mơi trường .NET và ngơn ngữ lập trình C# đã được lựa chọn để tiến hành cài đặt mơ hình kiểm thử cho hướng tiếp cận. Đây là ngơn ngữ cĩ khả năng xử lý các cơ sở dữ liệu phẳng của bài tốn một cách nhanh chĩng, ngồi ra các đối tượng cấu trúc dữ liệu cĩ sẵn của C# như DictionaryBase, HashTable, ArrayList,… cĩ cơ chế quản lý tìm kiếm và truy xuất phần tử tối ưu, linh hoạt, rất thích hợp cho các bài tốn khai phá văn bản.

Để hạn chế tối đa các nhập nhằng khi xử lý với chuỗi ký hiệu, tồn bộ các dữ liệu xử lý được lưu trữ theo định dạng XML. Các dữ liệu được lưu trữ bao gồm các file văn bản và chú thích sau khi được tách từ và gán nhãn từ loại, file khuơn mẫu định nghĩa các trường thơng tin cần trích rút, file kết quả trích rút, file tập luật.

5.2. Phương pháp thực nghiệm

Các độ đo thực nghiệm

Các thử nghiệm về hệ thống học máy thường đo độ chính xác đơn giản: số lượng các ví dụđược phân loại đúng. Tuy nhiên, trong tác vụ trích rút thơng tin vì chúng ta khơng cĩ số lượng cố định các ví dụđược phân loại, nên độ chính xác đơn giản khơng cĩ ý nghĩa rõ ràng. Cĩ hai phép đo thực sự quan trọng: độ chính xác (precision) và độ bao phủ hay độ hội tụ (recall). Hai đại lượng này được tính theo cơng thức dưới đây.

độ chính xác (P) = Số lượng filler đúng được trích rút

Số lượng filler được trích rút

độ bao phủ(R) = Số lượng filler đúng được trích rút

Nếu cả độ chính xác và độ bao phủđều là 100% cĩ nghĩa là các kết quả hồn tồn đúng. Độ chính xác thấp chỉ ra rằng hệ thống đang tạo ra các thơng tin điền sai, cũng cĩ nghĩa là tập luật của nĩ quá chung chung về một khía cạnh nào đĩ. Độ bao phủ thấp chỉ ra rằng hệ thống khơng tìm được các thơng tin điền đúng, cũng cĩ nghĩa là tập luật của nĩ quá cụ thể về một khía cạnh nào đĩ. Khi một trường thơng tin cĩ nhiều thơng tin điền thì mỗi thơng tin điền được đếm riêng rẽ.

Ngồi độ chính xác và độ bao phủ, người ta thường dùng một tiêu chí tổng hợp của độ chính xác và độ bao phủ. Các hội thảo MUC đã đưa ra độ đo F (DARPA, 1992), kết hợp độ chính xác và độ bao phủ để cung cấp một phép đo duy nhất cho các hệ thống trích rút thơng tin. Độđo F được tính như sau:

Trong đĩ β làsố thực thỏa điều kiện 0 < β≤ 1. Trong thực nghiệm đề cập sau đây, β được lấy bằng 1.

Các phiên bản thực nghiệm

Đểđánh giá tác động của các nguồn tri thức khá nhau tới kết quả, việc thực nghiệm được tiến hành với bốn phiên bản khác nhau của vnRAPIER:

- Phiên bản vnRAPIER đầy đủ: phiên bản thực nghiệm bao gồm sử dụng cả từ điển ngữ nghĩa và tác vụ gán nhãn thực thể cĩ tên văn bản đầu vào;

- Phiên bản vnRAPIER_WT: phiên bản thực nghiệm khơng sử dụng từ điển ngữ nghĩa và khơng cĩ tác vụ gán nhãn thực thể cĩ tên, tức là chỉ cĩ các ràng buộc về từ (W) và nhãn từ loại (T), văn bản đầu vào khơng được gán nhãn thực thể cĩ tên;

- Phiên bản vnRAPIER_WTE: phiên bản thực nghiệm khơng sử dụng từ điển ngữ nghĩa và cĩ tác vụ gán nhãn thực thể (E) cĩ tên văn bản đầu vào;

- Phiên bản vnRAPIER_WTS: phiên bản thực nghiệm bao gồm sử dụng từ điển ngữ nghĩa (S) và khơng cĩ tác vụ gán nhãn thực thể cĩ tên.

F = (β

2 + 1) × P × R β2 × P + R

Trong tất cả các lần thực nghiệm, các tham số cho giải thuật học được đặt theo giá trị mặc định là:

BeamWidth = 7. Độ rộng ưu tiên trong tìm kiếm beam.

NumPairs = 6. Số cặp luật lấy ngẫu nhiên mỗi lần.

CompressFails = 4. Số lần cho phép cơ đọng tập luật khơng thành cơng.

ExtendFails = 3. Số lần cho phép cải thiện khơng thành cơng ở pha chuyên biệt hĩa luật.

MinCoverage = 3. Số ví dụ dương một luật cần phải bao phủ.

5.3. Ngữ liệu thực nghiệm

Tập ngữ liệu đưa vào thực nghiệm là tập các trang web cá nhân của các nhà khoa học người Việt. Khuơn mẫu thơng tin gồm 7 trường: họ tên, cơ quan cơng tác, địa chỉ email, điện thoại, chức vụ, học hàm học vị và các lĩnh vực nghiên cứu. Trong thực nghiệm này, khâu thu thập văn bản được thực hiện bằng tay. Tập ngữ liệu thu thập được bao gồm 210 ví dụ, trong đĩ cĩ một số ví dụ là trang web cá nhân của nhà khoa học người Việt viết bằng tiếng Anh được dịch sang tiếng Việt, một số trang web cá nhân bằng tiếng Việt, một số là trang thơng tin giới thiệu cán bộ, giảng viên ở các trường đại học, đơn vị nghiên cứu… Với các trang thơng tin giới thiệu cán bộở các trường đại học, đơn vị nghiên cứu trong nước thường cĩ cấu trúc nhất định, vì thế ít cĩ ý nghĩa đối với thực nghiệm này. Do vậy, người viết đã biên tập lại các ví dụ này cho cĩ sức thuyết phục hơn bằng cách “văn xuơi hĩa” theo các mẫu trang web cá nhân. Tất nhiên, việc biên tập này được thực hiện với nhiều mẫu khác nhau đểđảm bảo cĩ được tập ví dụđa dạng.

Như đã đề cập ở các chương trước, phần gán nhãn thực thể cĩ tên được thực hiện bằng tay. Để so sánh với trường hợp khơng sử dụng gán nhãn thực thể, tồn bộ tập ngữ liệu trên được gán nhãn thực thể và lưu thành tập riêng để so sánh với tập gốc. Các file chú thích được tạo kèm theo mỗi ví dụ để cho hệ thống học (với tập ví dụ huấn luyện) hoặc đểđối sánh kết quả (với tập ví dụ kiểm thử).

Theo phương pháp học cĩ giám sát, tập ngữ liệu trên được chia thành hai tập: tập ví dụ để huấn luyện và tập ví dụ để kiểm thử. Hệ thống sẽ chia ngẫu nhiên 210 ví dụ này thành hai tập số lượng ngang bằng nhau (mỗi tập 105 ví dụ). Số liệu thống kê được tính là trung bình cộng của 10 lần thực nghiệm ứng với 10 lần chia ngẫu nhiên tập ví dụ nĩi trên.

5.4. Kết quả thực nghiệm

Các thực nghiệm được tiến hành trên máy tính cĩ cầu hình Intel Core2 Duo CPU 2.26GHz, 2GB RAM. Các tiêu chí kiểm thử bao gồm các độđo P, R, F và thời gian huấn luyện, thời gian kiểm thử. Các độ đo P, R, F được đánh giá riêng theo từng trường thơng tin và trên tổng thể.

Kết quả tính trung bình trên 10 lần thực nghiệm trên tổng số 210 ví dụ được trình bày trong các bảng dưới đây. Trong đĩ Bảng 5.1, Bảng 5.2 thể hiện kết quảđo trong trường hợp thực nghiệm cĩ sử dụng các luật trích rút gần đúng và Bảng 5.3, Bảng 5.4 thể hiện kết quả đo trong trường hợp thực nghiệm khơng sử dụng các luật này. Dựa trên kết quảđánh giá được liệt kê chi tiết theo từng phiên bản thực nghiệm ta thấy rõ được tác động của các yếu tố tới kết quả trích rút.

Trường thơng tin

tên cơ-quan email số-phone chức-vụ họhc-hàm-ọc-vị nghiên-clĩnh-vực-ứu

Phiên bản P R P R P R P R P R P R P R vnRAPIER 0.99 0.94 0.93 0.44 0.99 0.86 0.95 0.79 0.89 0.80 0.65 0.33 0.94 0.87 vnRAPIER_WTE 0.99 0.90 0.92 0.40 1.00 0.85 0.94 0.87 0.91 0.73 0.65 0.34 0.94 0.87 vnRAPIER_WTS 0.96 0.75 0.98 0.44 0.98 0.81 1.00 0.42 0.98 0.46 0.92 0.60 0.84 0.42 vnRAPIER_WT 0.96 0.74 0.96 0.41 1.00 0.70 1.00 0.28 0.93 0.61 0.92 0.46 0.84 0.42

Bảng 5.1: Kết quảđo theo từng trường thơng tin trong trường hợp cĩ sử dụng luật trích rút gần đúng

Độđo tổng thể

Phiên bản P R F Thời gian học Thời gian kiểm thử

vnRAPIER_WTE 0.92 0.72 0.81 7.67 phút 11.33 giây

vnRAPIER_WTS 0.93 0.54 0.68 24.67 phút 10 giây

vnRAPIER_WT 0.92 0.50 0.65 7.33 phút 11 giây

Bảng 5.2: Kết quảđo tổng thể và thời gian thực hiện trung bình trong trường hợp cĩ sử dụng luật trích rút gần đúng

Trường thơng tin

tên cơ-quan email số-phone chức-vụ họhc-hàm-ọc-vị nghiên-clĩnh-vực-ứu

Phiên bản P R P R P R P R P R P R P R vnRAPIER 0.99 0.94 0.77 0.18 0.99 0.84 0.95 0.79 0.89 0.63 0.97 0.18 1.00 0.75 vnRAPIER_WTE 0.99 0.90 0.76 0.19 1.00 0.85 0.94 0.87 0.91 0.53 0.94 0.19 1.00 0.75 vnRAPIER_WTS 0.96 0.75 0.98 0.09 0.98 0.76 1.00 0.42 0.98 0.14 0.89 0.36 0.63 0.03 vnRAPIER_WT 0.96 0.74 0.91 0.05 1.00 0.63 1.00 0.28 0.90 0.34 0.82 0.17 0.95 0.03

Bảng 5.3: Kết quảđo theo từng trường thơng tin trong trường hợp khơng sử dụng luật trích rút gần đúng Độđo tổng thể Phiên bản P R F Thời gian học Thời gian kiểm thử vnRAPIER 0.97 0.62 0.76 11.27 phút 8.33 giây vnRAPIER_WTE 0.97 0.62 0.75 7.12 phút 9.33 giây vnRAPIER_WTS 0.95 0.30 0.46 23.56 phút 7.67 giây vnRAPIER_WT 0.94 0.26 0.41 7.01 phút 9.67 giây

Bảng 5.4: Kết quảđo tổng thể và thời gian thực hiện trung bình trong trường hợp khơng sử dụng luật trích rút gần đúng

Nhìn vào bảng kết quả đo chi tiết cho từng trường thơng tin, cĩ thể dễ nhận thấy rằng, trong tất cả các trường hợp thực nghiệm, trường “tên“ đều cĩ độ chính xác và bao phủ cao nhất. Đây chính là do tính chất của tập ngữ liệu thực nghiệm: trong mỗi trang web cá nhân hay trang hồ sơ khoa học, khơng thể thiếu mục “tên” của chủ thể trang đĩ và thường là mục thơng tin cĩ quy luật rõ ràng nhất so với các mục thơng tin khác. Chẳng hạn như mục “tên” thường là những từđầu tiên, hoặc trong câu đầu tiên, hoặc sau một tiêu đề nào đĩ…

Đểđánh giá tác động của số lượng ví dụ huấn luyện tới kết quả kiểm thử, trong thực nghiệm này cũng tiến hành cho học theo phương pháp học chủ động đề cập trong phần 2.3 để đánh giá. Kết quả thực nghiệm đối với phiên bản cĩ sử dụng từ điển ngữ nghĩa và cĩ gán nhãn thực thể cĩ tên (phiên bản VNRAPIER đầy đủ) được biểu diễn bằng đồ thị trong Hình 5.1 với trục tung là độđo tổng hợp F. Biểu đồ này cho thấy chỉ khoảng 50 ví dụđược lựa chọn đầu tiên cĩ nhiều ý nghĩa cho việc học. Các ví dụ cịn lại khơng giúp nhiều cho việc cải thiện tập luật vì chúng gần giống với các ví dụđã học. Điều đĩ phản ảnh phần nào mặt hạn chế của tập ví dụ thực nghiệm.

5.5. Đánh giá thực nghiệm

5.5.1. Về thời gian thực hiện

Về thời gian thực hiện, do tập ví dụ huấn luyện khơng lớn nên thời gian huấn luyện từ vài phút đến vài chục phút như vậy là khá nhanh. Tuy nhiên, khi gia tăng số lương ví dụ huấn luyện thì thời gian huấn luyện gia tăng rất nhiều. Ngồi ra, quá trình thực nghiệm cho thấy, thời gian thực hiện ở các lần huấn luyện cũng khá khác biệt. Cùng một phiên bản, cùng tập ví dụ huấn luyện nhưng thời gian học cĩ thể chênh lệch nhau rất nhiều. Điều này là do trong giải thuật học cĩ sử dụng việc lựa chọn ngẫu nhiên các luật để khái quát hĩa.

Về thời gian kiểm thử, hệ thống thực hiện trong một vài giây với hàng trăm ví dụ kiểm thử. Khi tập ví dụ huấn luyện càng lớn đồng nghĩa với kích thước tập luật tăng lên thì tốc độ kiểm thử cũng chậm đi vì quá trình tìm ra luật trích rút phù hợp sẽ lâu hơn.

Khi so sánh thời gian thực hiện trong trường hợp cĩ sử dụng các luật trích rút gần đúng với trường hợp khơng sử dụng thì thời gian thực hiện sẽ lâu hơn. Điều này cũng dể hiểu vì trong trường hợp cĩ sử dụng các luật trích rút gần đúng, khi huấn luyện hệ thống phải dành thời gian để học thêm các luật gần đúng này, khi thực hiện kiểm thử, sau khi các luật chính khơng áp dụng được, hệ thống sẽ thử áp dụng các luật gần đúng này.

5.5.2. Về cơng cụ tách từ và gán nhãn từ loại

Ở đây, người viết khơng đánh giá về mặt tốc độ thực hiện mà chỉ đưa ra một số nhận xét vềđộ chính xác của cơng cụ và một số tình huống mà cơng cụ này chưa xử lý đúng.

Về độ chính xác, trong thực nghiệm này, việc tách từ và gán nhãn đạt độ chính xác khá cao. Trường hợp phổ biến mà cơng cụ này chưa xử lý đúng là trường hợp dấu gạch ngang (hay gặp trong các địa chỉ email) thường bị thay bằng dấu cách.

Ngồi ra, khi lựa chọn đầu ra của bộ cơng cụ gán nhãn từ loại cĩ định dạng XML thì cơng cụ chưa xử lý triệt để các ký tựđặc biệt như các dấu “&”, “<”, “>” làm cho file XML đầu ra trở nên khơng hợp lệ. Tuy nhiên, đây chỉ là lỗi nhỏ và dễ dàng khắc phục được bằng một đoạn chương trình hậu xử lý file đầu ra đĩ.

5.5.3. Về từđiển ngữ nghĩa và tác vụ gán nhãn thực thể cĩ tên

Các bảng kê kết quả cũng chỉ rõ phiên bản cĩ sử dụng từ điển ngữ nghĩa và gán nhãn thực thể cĩ tên đem lại kết quả tốt hơn so với phiên bản khơng sử dụng. Tuy nhiên, chỉ cĩ tác động của việc gán nhãn thực thể cĩ tên là đáng kể cịn tác động của từđiển ngữ nghĩa khơng rõ rệt lắm.

Trong trường hợp khơng sử dụng các luật trích rút gần đúng, phiên bản cĩ sử dụng từ điển ngữ nghĩa cĩ độ F bằng 0.76 (cĩ gán nhãn thực thể cĩ tên) và 0.46 (khơng gán nhãn thực thể cĩ tên). Nếu khơng sử dụng từđiển ngữ nghĩa, các giá trị này là 0.75 và 0.41. Sự tác động khơng rõ rệt này là do từ điển ngữ nghĩa này cịn rất sơ khai, số lớp ngữ nghĩa cịn ít, đồng thời các từ vựng trong từ điển mới chỉ được phân vào các lớp nghĩa chung chung.

Về tác vụ gán nhãn thực thể cĩ tên, thực nghiệm đã cho thấy rõ đây là tác vụ rất cần thiết trong việc trích rút thơng tin. Ngồi việc đem lại độ chính xác và bao phủ cao, tác vụ này cịn giúp cho tập luật gọn nhẹ hơn cả về số lượng luật và các mẫu, các ràng buộc cấu thành luật.

Trong Bảng 5.3 liệt kê kết quả trong trường hợp khơng sử dụng các luật gần đúng ta thấy trường thơng tin “lĩnh vực nghiên cứu” cĩ độ bao phủ gần như bằng 0 khi khơng gán nhãn thực thể cĩ tên. Trong khi cĩ thực hiện gán nhãn thì đạt độ bao phủ 0.75. Sự khác biệt đĩ chính là vì sau khi gộp theo nhãn thự thể và tiến hành khái quát hĩa thì tồn bộ ràng buộc dài dịng về tên thực thể đĩ sẽđược bỏ qua, chỉ cịn lại ràng buộc về nhãn thực thể.

Tuy nhiên, thực nghiệm trên mới chỉ chủ yếu để đánh giá vai trị của tác vụ gán nhãn thực thể cĩ tên vì thực nghiệm được tiến hành trên điều kiện lý tưởng, tức là thực hiện gán nhãn thực thể cĩ tên bằng tay với độ chính xác coi như bằng 100%. Thực tế thì đây là một bài tốn khĩ và khĩ cĩ thể nhận dạng chính xác thực thể cĩ tên như trường hợp trường thơng tin “lĩnh vực nghiên cứu”.

5.5.4. Về các luật trích rút gần đúng

Nhìn trên các bảng kết quả trên ta cĩ thể dễ dàng nhận thấy khi sử dụng các luật trích rút gần đúng đem lại kết quả tốt hơn, nhất là vềđộ bao phủ. Kết quả đo theo từng trường thơng tin cho thấy trong trường hợp khơng sử dụng các luật trích rút gần đúng và khơng cĩ tác vụ gán nhãn thực thể cĩ tên (phiên bản vnRAPIER_WTS và vnRAPIER_WT) thì các trường cĩ chuỗi giá trị dài như cơ quan hoặc lĩnh vực nghiên cứu hầu như khơng trích rút được. Bởi vì luật cụ thể nhất sinh ra khi học các trường hợp như vậy hầu như khơng thể khái quát được, do vậy khơng thể bao phủ các ví dụ khác. Khi áp dụng các luật gần đúng, độ bao phủ đã đạt tới 0.42 với độ chính xác 0.84.

Việc sinh các luật trích rút gần đúng rõ ràng là cách giải quyết dễ thực hiện mà cĩ

Phân tách từ vựng (Word Segmentation)

Từ điển từ vựng (Lexicon)