5. Nhiệm vụ nghiên cứu
1.2. Thông tin chi tiết về dữ liệu tiếng nói ứng với mỗi ngƣời dùng
Bảng 3.3: Chi tiết dữ liệu thu âm
` Mã Họ tên Tuổi Quê quán Số file Giới Tính
1 VD Vũ Đại Dƣơng 18 Lào Cai 45 Nam 2 DH Đỗ Quốc Hƣng 27 Vân Canh Hà Nội 53 Nam 3 TT Trần Công Tiệp 24 Hà Đông Hà Nội 53 Nam 4 LH Lê Thanh Hùng 23 Hà Đông Hà Nội 52 Nam 5 NA Nguyễn Năng An 25 Long Biên Hà Nội 52 Nam 6 BL Bùi Văn Long 21 Hà Nội 52 Nam 7 PV Phạm Hồng Việt 26 Hà Nội 52 Nam 8 NT Ngô Đăng Thắng 21 Hà Đông Hà Nội 52 Nam 9 PH Phạm Quốc Hoàn 23 Xuân Tranh 52 Nam 10 NH Nguyễn Văn Huy 19 Phùng Khoang Hà Nội 52 Nam
40
` Mã Họ tên Tuổi Quê quán Số file Giới Tính
11 LL Lê Đăng Long 22 Thanh Hóa 52 Nam 12 DL Đinh Tuấn Long 25 Hà Nội 52 Nam 13 ND Ngô Linh Diệu 22 Hà Đông Hà Nội 52 Nam 14 PB Phạm Hồng Binh 27 Từ Liêm Hà Nội 52 Nam 15 PQ Phạm Văn Quyên 19 Hà Nội 52 Nam 16 HL Hoàng Linh Linh 20 Quảng Ninh 52 Nam 17 LP Lã Văn Phi 20 Vĩnh Phúc 52 Nam 18 NN Nguyễn Ngọc Du 24 Hà Nội 52 Nam 19 HD Nguyễn Hoành Đông 26 Hà Nội 52 Nam 20 Đ Đỗ Văn Đô 20 Hà Đông Hà Nội 52 Nam 21 NC Nguyễn Công Hùng 19 Thanh Hóa 52 Nam 22 LM Lê Mạnh Hùng 20 Vĩnh Phúc 52 Nam 23 CH Cao Thanh Hồng 21 Thanh Thủy – Phú Thọ 49 Nam 24 DH2 Đinh Thị Huyền 21 Yên Lạc -Vĩnh Phúc 57 Nữ 25 DT Đỗ Thị Thu 21 Phúc Thọ -Hà Nội 61 Nữ 26 HQ Hà Thị Nhƣ Quỳnh 20 Phù Ninh –Phú Thọ 63 Nữ 27 KT Khổng Thị Thoa 21 Thanh Sơn – Phú Thọ 54 Nữ 28 LP Lê Thị Phƣợng 20 Cẩm Khê –Phú Thọ 71 Nữ 29 LT Lê Thu Trang 22 Yên Sơn -Tuyên Quang 63 Nữ 30 ND Nguyễn Phƣơng Dung 19 Tam Nông –Phú Thọ 60 Nữ 31 NH Nguyễn Thị Hiền 25 Lâm Thao –Phú Thọ 67 Nữ 32 NT Nguyễn Thị Thùy 22 Lâm Thao –Phú Thọ 58 Nữ
41
` Mã Họ tên Tuổi Quê quán Số file Giới Tính
33 PH Phí Thị Hằng 21 Lâm Thao –Phú Thọ 61 Nữ 34 PL Phùng Thị Liễn 19 Việt Trì – Phú Thọ 60 Nữ 35 PT Phạm Thị Tuyết 21 Tam Nông – Phú Thọ 61 Nữ 36 TA Trịnh Lan Anh 20 Thạch Sơn – Phú Thọ 74 Nữ 37 TD Trịnh Thùy Dƣơng 21 Việt Trì - Phú Thọ 43 Nữ 38 TH Trần Thu Huyền 20 Việt Trì –Phú Thọ 70 Nữ 39 TP Tống Thị Phƣơng 22 Lâm Thao – Phú Thọ 59 Nữ 40 TT Triệu Thu Thủy 20 Hạ Hòa – Phú Thọ 51 Nữ 41 TY Trần Hải Yến 28 Việt Trì –Phú Thọ 59 Nữ 42 VH Vũ Thị Hƣờng 19 Yên Lập – Phú Thọ 59 Nữ 43 HH Hoàng Thị Hiền 26 Lâm Thao – Phú Thọ 137 Nữ
44 HN Hoàng Thị Nhung 23 Lâm Thao – Phú Thọ 103 Nữ
45 HY Hoàng Thị Hải Yến 28 Lâm Thao – Phú Thọ 81 Nữ 46 KL Khổng Thị Thùy Linh 22 Lâm Thao – Phú Thọ 188 Nữ
47 NL Nguyễn Thị Lâm 27 Lâm Thao – Phú Thọ 151 Nữ
48 PQ2 Phạm Thị Quyên 21 Lâm Thao – Phú Thọ 132 Nữ 49 PS Phùng Thị Sen 20 Lâm Thao – Phú Thọ 128 Nữ
50 TK Trần Thị Kiều 33 Lâm Thao – Phú Thọ 98 Nữ
Để đảm bảo việc nhận dạng tiếng nói là khách quan, đề tài chia dữ liệu thành 2 tập: huấn luyện và nhận dạng. Việc chia dữ liệu tuân thủ một số nguyên tắc sau:
42
Số dữ liệu dùng để huấn luyện chiếm khoảng 80%, 20% còn lại dùng để nhận dạng.
Trong mỗi tập dữ liệu đều có cả nam và nữ.
Dữ liệu của một ngƣời nói không thể vừa dùng để huấn luyện, vừa dùng để nhận dạng đƣợc. Ví dụ: nếu A là ngƣời nói khi test sẽ tiến hành trên ngƣời B hoặc C.. chứ không là Ạ
Các đặc điểm của giọng nói nhƣ: tuổi ngƣời nói, vùng miền đƣợc trộn lẫn không tách riêng.