Mỗi gen phải được phiên mã sang messenger RNA (mRNA) trước khi dịch mã sang protein. Tuy nhiên vì mRNA rất không bền bên ngoài tế bào nên các nhà khoa học phải chuyển nó sang dạng DNA bổ trợ (cDNA = complementary DNA). Ngay sau khi cDNA đã được phân lập, các nhà khoa học có thể giải trình tự vài trăm nts đầu 5’ và đầu 3’ của nó để tạo ra các nhãn chuỗi biểu hiện 5’ETS hoặc 3’ ETS (expressed sequence tags). 3’ETS thường nằm trong vùng không mã hóa (intron) hoặc UTR nên có xu hướng kém bảo thủ giữa các loài hơn.
EST đầu tiên được sử dụng để xác định các transcripts nhưng dần trở thành công cụ để khám phá gen nhằm có được thông tin về biểu hiện và điều hòa gen và để phát triển các marker phân tử như EST-based RFLPs, SSRs, SNPs, và CAPS.
ESTs đã được sử dụng để thiết kế các dò cho microarray DNA; phát triển các marker RFLP đơn hay có số copy thấp. Các marker RFLP xây dựng từ EST đã được sử dụng rộng rãi để xây dựng các bản đồ liên kết di truyền mật độ cao. Thông thường, các marker RFLP dựa trên EST cho phép thiết lập bản đồ liên kết có khả năng so sánh giữa các loài vì vùng mã hóa thường bảo thủ. Do vậy, phát triển một marker cho 1 loài có thể sử dụng sô liệu của loài khác đã có sẵn. EST cũng cho phép tính toán để phát triển các marker SSR hay SNP. Các phần mềm tìm kiếm mô hình (pattern) cho phép xác định các chuỗi lặp SSR trong EST. Thông tin trình tự
nucleotide sẵn có cho phép thiết kế các cặp mồi để kiểm tra tính đa hình của đối tượng nghiên cứu. Khoảng 1 -5% các EST ở nhiều loài cây có các SSR có độ dài thích hợp (>=20 bp). Có thể tìm một số lượng lớn SSR của một đối tượng nếu nhiều EST của nó đã được xác định. Ví dụ Kantety et al. (2002) đã tiềm kiếm các SSR với chuỗi lặp 2,3 và 4 nucleotid với độ dài tối thiểu 18 nucleotid) từ 262,631 EST của 5 loài cây (ngô, lúa, lúa mỳ, lúa miến và yến mạch) sẵn có trên cơ sở dữ liệu và phát hiện thấy rằng 3,2% EST chứa SSR. Các SSR dựa trên EST thường liên kết với các vùng phiên mã bảo thủ trong loài hơn là liên kết với các vùng không phiên mã; do đó, các SSR này có thể áp dụng trên các đối tượng thuộc cùng chi. Các SSR dựa
trên EST cũng có khả năng cao hơn trong đánh giá sự biểu hiện khác nhau của gen so với các SSR dựa trên genome ngẫu nhiễn khác.