STT Tên phần mềm Tác giả Chức năng Nguồn
1. Eclipse-SDK- Kepler-win32 - Mơi trường pháp triển http://www.eclipse.org /downloads 2. Word2vec Mikolov và cộng sự ở Google năm 2013
Lấy vector biểu diễn các từ
https://code.google.co m/p/word2vec/
Ngồi các cơng cụ trên, luận văn tiến hành cài đặt và chỉnh sửa các mơ đun xử lý dựa trên ngơn ngữ Java và C, bao gồm các package chính như sau:
1. Mơ đun l-distance: Được cài đặt sử dụng ngơn ngữ C, mơ đun này lấy đầu vào
vector biểu diễn từ sinh ra sử dụng cơng cụ Word2Vec để đưa ra tệp đầu ra là tệp gồm tập khoảng cách của mỗi cặp nhãn.
2. Mơ đun w2vmodel: Được cài đặt sử dụng ngơn ngữ Java, mơ đun này đọc vào
là tệp tin về khoảng cách mỗi cặp nhãn từ mơ đun l-distance để xây dựng một đối tượng cho việc lấy khoảng cách giữa các nhãn dựa trên chỉ số của nhãn.
3. Mơ đun jdocTag: Được cài đặt sử dụng ngơn ngữ Java, mơ đun này gọi thư
viện weka và mulan http://mulan.source-forge.net/starting.html) sau khi cĩ tệp arff để chạy phương pháp phân lớp đa nhãn Classifier chain, phân rã bài tốn thành các bộ phân lớp nhị phân, đồng thời tiến hành đánh giá phương pháp đĩ trên một số độ đo.
4. Mơ đun jdocTag_m: Được cài đặt sử dụng ngơn ngữ Java, mơ đun này gọi thư
viện weka và sử dụng mã nguồn của mulan http://mulan.source- forge.net/starting.html) để chỉnh sửa hàm xây dựng bộ phân lớp của classifier chain theo phương pháp đã đề xuất ở Chương 2. Khoảng cách giữa cặp nhãn bất kỳ sẽ được lấy sử dụng mơ đun w2vmodel. Sau đĩ tiến hành việc phân lớp đa nhãn và đánh giá phương pháp như trong mơ đun jdocTag.
4.3 Mơ tả tập dữ liệu
4.3.1 Tập dữ liệu đầu vào cho học máy đa nhãn
Luận văn sử dụng tập dữ liệu đã được xử lý [3]. Tập dữ liệu này là các bài báo trên trang http://vnexpress.net với các lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoa- học, Ơ-tơ-xe-máy, Bạn-đọc. Dữ liệu thu thập của các bài báo cĩ cấu trúc: dịng đầu là nhãn (tags) của mỗi bài báo, những dịng cịn lại là nội dung của các bài báo.
Tập dữ liệu là 2694 bài báo sau khi loại bỏ bài báo trùng lặp và loại bỏ một số bài khơng cĩ nhãn trong top 100 nhãn cĩ tần số cao nhất.
Tổng hợp tất cả các nhãn cĩ trong 2694 bài báo, sau đĩ lấy 100 nhãn cĩ tần số lớn nhất làm nhãn của dữ liệu. Sau đây, danh sách 100 nhãn ứng với định dạng nhãn (DF)