Các marker thu được bằng phương pháp giải trình tự hay còn gọi là các mã vạch ADN là các trình tự ADN ngắn từ một vùng nhất định của bộ gen được sử dụng để xác định loài [47]. Để thu được các mã vạch ADN này, toàn bộ ADN bộ gen được chiết tách. Tiếp sau đó là bước khuếch đại PCR và giải trình tự ADN tại
vùng mang mã vạch sử dụng mồi chọn lọc. Giải trình tự ADN là sự xác định vị trí của các base nitơ – A (adenine), G (guanine), C (cytosine) và T (thymine) có mặt trong đoạn ADN mục tiêu [8]. Có nhiều phương pháp khác nhau để giải trình ADN như phương pháp enzym của Sanger, phương pháp hóa học của Maxam – Gilbert và phương pháp pyrosequencing [18].
Số lượng các vùng ADN có thể giải trình tự tăng lên nhanh chóng cùng với sự phát hiện ngày càng nhiều các gen có thể đóng vai trò là các marker phân tử. Vùng gen ở nhân và lục lạp được ưu tiên sử dụng. Do lục lạp có kích thước nhỏ và các gen mục tiêu thường chỉ có một bản sao duy nhất nên việc nghiên cứu được thực hiện dễ dàng hơn [63]. Theo mã vạch của hệ thống dữ liệu sự sống (The Barcode of Life Data Systems) thì có đến 1 100 000 mã vạch ADN được sử dụng cho 95 000 loài [47]. Cách đây khoảng 10 năm, theo số liệu tại GenBank thì có tới 180 000 trình tự mã vạch ADN dùng cho các loại thực vật [47]. Để chuẩn hóa việc sử dụng các mã vạch ADN trên toàn thế giới, các nhà khoa học đã cố gắng tìm ra các vùng ADN thích hợp để tạo mã vạch cho tất cả các loài. Sau khi đánh giá kĩ lưỡng và đưa vào áp dụng, tiêu chuẩn của một mã vạch thích hợp được đưa ra với các đặc điểm sau: thứ nhất, mã vạch phải có tính phổ biến giữa các loài thực vật; thứ hai cho chất lượng trình tự cao và thứ ba là có khả năng nhận diện cao, cho phép phân biệt được hầu hết các loài [47]. Vùng cytochrom c oxidase (CO1) ở ti thể, có kích thước khoảng 650 bp, là một mã vạch chuẩn được sử dụng cho động vật. Tuy nhiên, vùng này lại có sự đa hình thấp và hiệu quả nhận diện thấp ở thực vật. Cùng với đó là sự tiến hóa nhanh về cấu trúc ti thể thực vật. Do đó, nó không được sử dụng để làm mã vạch ở thực vật [47]. Nghiên cứu các mã vạch khác thay thế cho thấy vùng phiên mã nội ở ADN ribosom nhân (ITS) và vùng trnH – psbA ở lục lạp có sự sai khác lớn về trình tự ADN và có sự đa dạng giữa các loài. Bên cạnh đó, vùng mã hóa tiểu đơn vị lớn của gen ribulose-bisphosphat carboxylase (rbcL ) và gen maturase K (matK) cũng là các mã vạch thích hợp do phổ biến và có khả năng nhận diện cao [47]. Do đó, rbcL, matK cùng với ITS và trnH – psbA được coi là các mã vạch chuẩn cho nhận diện thực vật.
Cùng với các marker thu được từ phương pháp PCR, các mã vạch thu được từ phương pháp giải trình tự cũng được sử dụng trong nhận diện thảo dược. Các dược liệu giả mạo có thể có nguồn gốc từ các loài họ hàng thân thuộc của loài chính thức được sử dụng làm thuốc hoặc từ một loài thuộc một họ khác. Do đó, dữ liệu mã vạch ADN bao gồm các trình tự có thể phân biệt tại các cấp độ phân loại khác nhau là cần thiết. Trong cây thuốc, có bốn mã vạch chuẩn chiếm hơn 50% số trình tự, trong đó, vùng ITS là vùng được sử dụng thường xuyên nhất với 28%, tiếp đó là
psbA – trnH với 9%, rbcL chiếm 8% và matK chiếm 8% [47].
Ngoài các mã vạch chuẩn, một số vùng gen khác cũng được sử dụng để nhận diện thảo dược như vùng trnL – trnF ở lục lạp và vùng nối giữa hai gen 5S của ADN ribosom nhân [47].