Tài liệu Khóa luận Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats):  i 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
************ 
KHÓA LUẬN TỐT NGHIỆP 
KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE 
TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT 
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE 
REPEATS) 
Ngành học: CÔNG NGHỆ SINH HỌC 
Niên khóa: 2003-2007 
Sinh viên thực hiện: LƢU TRẦN CÔNG HUY 
Thành phố Hồ Chí Minh 
Tháng 9/2007 
 ii 
LỜI CẢM ƠN 
Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lòng hỗ trợ, động viên về 
mọi mặt để tôi hoàn thành đề tài. 
Xin chân thành cảm tạ 
 Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh 
 Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã 
truyền đạt kiến thức cho tôi trong suốt quá trình học tại trƣờng. 
Chân thành cảm ơn 
 TS. Trần Thị Dung đã tận tình hƣớng dẫn, giúp đỡ tôi trong suốt thời gian 
thực hiện đề tài tốt nghiệp. 
Xin cảm ơn CN. Lƣu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn. 
Xin...
                
              
                                            
                                
            
 
            
                
71 trang | 
Chia sẻ: hunglv | Lượt xem: 1258 | Lượt tải: 0
              
            Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats), để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
 i 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
************ 
KHÓA LUẬN TỐT NGHIỆP 
KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE 
TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT 
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE 
REPEATS) 
Ngành học: CÔNG NGHỆ SINH HỌC 
Niên khóa: 2003-2007 
Sinh viên thực hiện: LƢU TRẦN CÔNG HUY 
Thành phố Hồ Chí Minh 
Tháng 9/2007 
 ii 
LỜI CẢM ƠN 
Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lòng hỗ trợ, động viên về 
mọi mặt để tôi hoàn thành đề tài. 
Xin chân thành cảm tạ 
 Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh 
 Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã 
truyền đạt kiến thức cho tôi trong suốt quá trình học tại trƣờng. 
Chân thành cảm ơn 
 TS. Trần Thị Dung đã tận tình hƣớng dẫn, giúp đỡ tôi trong suốt thời gian 
thực hiện đề tài tốt nghiệp. 
Xin cảm ơn CN. Lƣu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn. 
Xin cảm ơn bạn bè thân yêu của lớp DH03SH đã chia sẻ cùng tôi những vui buồn 
trong thời gian học cũng nhƣ hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện 
đề tài. 
Tp. Hồ Chí Minh tháng 08 năm 2007 
Sinh viên thực hiện 
Lƣu Trần Công Huy 
 iii 
TÓM TẮT KHOÁ LUẬN 
LƢU TRẦN CÔNG HUY, Đại Học Nông Lâm TP. Hồ Chí Minh, tháng 
07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở 
CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN 
TỬ SSR (SIMPLE SEQUENCE REPEATS)” 
Hội đồng hƣớng dẫn 
TS. Trần Thị Dung 
Cử Nhân. Lƣu Phúc Lợi 
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học, trƣờng đại học 
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2007 đến 8/2007. 
Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những 
kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene ... của 
thực vật lẫn động vật nhƣ các cơ sở dữ liệu sinh học lớn nhƣ NCBI, EMBL, 
DDBj…. Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong 
đó có ESTs của chi cam chanh (citrus). Những trình tự ESTs này có thể đƣợc sử 
dụng để khai thác các SSRs (Simple Sequence Repeats). Những SSRs này rất hữu 
ích vì chúng có rất nhiều ứng dụng nhƣ genome mapping, phenotype mapping và 
chọn giống thực vật nhờ marker phân tử. Hơn thế nữa, việc phát triển marker SSR 
từ EST có chi phí rất thấp so với phƣơng pháp phân lập SSR truyền thống. 
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung nhƣ 
sau: 
1) Dùng Perl script để thu nhận trình tự các nucleotide của ESTs của Citrus 
vừa tìm từ trang cơ sở dữ liệu GenBank NCBI. 
2) Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen. 
3) Tìm SSR nằm trên vùng gen kháng virus Tristeza 
 iv 
4) Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu 
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của chi cam chanh (Citrus), và 
tạo cơ sở dữ liệu chứa những trình tự này. Sau đó đƣa các dữ liệu này vào cơ sở dữ 
liệu chính. 
5) Trang web đƣợc thiết kế để chia sẻ thông tin trực tuyến với ngƣời dùng 
Kết quả 
Thu nhận đƣợc 191.110 trình tự ESTs của các loài Citrus đƣợc thu thập từ 
CSDL dbEST và CoreNucleotide của GenBank. Những trình tự ESTs này đƣợc tìm 
các vùng lặp lại, từ đó xác định đƣợc 28.241 SSRs trong 190412 ESTs . 19755 
primers đƣợc thiết kế trên vùng flanking của các SSRs. Các primers này đã đƣợc 
kiểm tra sự lặp lại và sự bắt cặp đặc hiệu bằng BLAST. Cơ sở dữ liệu có 28241 
trình tự SSRs đƣợc chuyển vào CSDL quan hệ và tích hợp vào website BUILDING 
SSRs DATABASE of Citrus. Sau khi đƣợc loại bỏ các trình tự tạp, nhiễu và dấu 
các trình tự ở các bào quan, trình tự lặp lại và trình tự vector, các trình tự ESTs 
đƣợc phân nhóm thành 2 nhóm Contigs và Singletons. Việc nhóm các trình tự giúp 
ích cho việc giảm bớt các trình tự dƣ thừa, kéo dài các EST-SSR và xác định các 
trình tự bảo tồn. Kết quả là thêm 1071 primers đƣợc thiết kế cho các EST-SSR đƣợc 
kéo dài. Ngoài ra, chúng tôi cũng xác định đƣợc 33 EST-SSRs tƣơng đồng gene 
kháng virus Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10 
 v 
ABSTRACT 
LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING 
FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN 
EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS 
Supervisor: 
Dr Trần Thị Dung 
Bsc Lƣu Phúc Lợi 
The research was carried out at the department of biotechnology at Nong 
Lam University. 
Recent advances in genomic technologies have generated a vast amount of 
publicly available expressed sequence tags (ESTs) in Citrus. These data can be 
mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs 
are useful because of a broad range of application, such as genome mapping and 
characterization, phenotype mapping, marker assisted selection of plant breeding, 
additional map-based cloning of important genes. Moreover, this method of 
developing SSR marker from ESTs is inexpensive comparing to the traditional 
methods. 
Methodology 
1) We used perl script to receive EST sequences from database NCBI 
2) Finded and separated SSRs include in ESTs database 
3) We were learning about relationship database model to used to saved 
nucleotide, SSRs citrus sequences data and created database contain them. 
4) Finding SSR which are homologous with tristeza virus resistance gene. 
5) Designed web that contain database control software to share information 
with users 
Results: 
 28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 
191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank. 
19,755 primers, which were filtered with repetition checking and BLAST checking, 
 vi 
were designed in flanking regions of SSRs. These data were put into relational 
database and integrated SSR finder tool into the BUILDING SSRs DATABASE of 
Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the 
EST-SSR sequences and the related EST sequences without SSRs were assembled 
into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer 
designed and to develop consensus sequences. As a result, more 1071 primers were 
design for these enlarged EST-SSRs. Using a stringent BLAST search with a 
threshold e-value = 10
-10
 against typical pathogen resistance gene database in 
Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus 
resistance gene. 
 vii 
Mục Lục 
LỜI CẢM ƠN .................................................................................................... iii 
TÓM TẮT KHOÁ LUẬN ................................................................................. iv 
ABSTRACT ...................................................................................................... vi 
DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................ xi 
Chƣơng 1 ............................................................................................................ 1 
MỞ ĐẦU ............................................................................................................. 1 
1.1 Đặt vấn đề 
1.2.Mục tiêu của khóa luận 
Chƣơng 2 ............................................................................................................ 3 
TỔNG QUAN TÀI LIỆU ................................................................................... 3 
2.1 Giớ thiệu về chi cam chanh ........................................................................... 3 
2.1.1 Vị trí phân lọai ........................................................................................... 3 
2.1.2 Đặc điểm .................................................................................................... 4 
2.1.3 Sâu hại và bệnh tật .................................... 6 
2.2 EST ............................................................................................................... 7 
2.3.1 Sơ lƣợc về EST .......................................................................................... 7 
2.3.2 Nguồn gốc của EST ................................................................................... 7 
2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) ............................................. 8 
2.3.1Những khái niệm về kỹ thuật microsatellite ............................................... 8 
2.3.2 Giới thiệu chung ......................................................................................... 9 
2.3.2.1 Tính chất .................................................................................................. 9 
2.3.2.2 Khuếch đại của microsatellites ............................................................. 10 
2.3.2.3 Những giới hạn của microsatellite ........................................................ 11 
2.3.3 Các loại microsatellite ............................................................................. 12 
2.3.4 Cơ chế hình thành microsatellite ............................................................. 12 
 viii 
2.3.5 Vai trò của microsatellite ......................................................................... 13 
2.4 Phƣơng pháp xác định microsatellite truyền thống..................................... 15 
2.5 Phƣơng pháp phát hiện microsatellite sử dụng ........................................... 16 
2.6 Ứng dụng ..................................................................................................... 18 
2.7 Cơ sở dữ liệu sinh học ................................................................................. 18 
2.7.1 NCBI ........................................................................................................ 19 
2.7.1.1 Vài nét về NCBI .................................................................................... 19 
3.1.1.2 Một số cơ sở dữ liệu trong NCBI .......................................................... 19 
Chƣơng 3 ......................................................................................................... 20 
VẬT LIỆU VÀ PHƢƠNG PHÁP .................................................................... 20 
 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng............................. 20 
3.1.1 Hệ điều hành ............................................................................................ 20 
3.1.2 Các chƣơng trình phân tích trình tự ......................................................... 20 
3.1.2.1 Chương trình Perl ssrfinder_1 .................................................. 20 
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST .................. 22 
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS ..................................... 23 
3.1.2.4 Egassembler .......................................................................................... 23 
3.1.3 Apache web Server .................................................................................. 24 
3.4 CÁC BƢỚC TIẾN HÀNH ......................................................................... 25 
Chƣơng 4 .......................................................................................................... 37 
KẾT QUẢ VÀ THẢO LUẬN .......................................................................... 37 
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST ....................................... 37 
4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các bƣớc sau: 
 ........................................................................................................................... 38 
4.2.1 Làm sạch trình tự ..................................................................................... 38 
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors ........................... 39 
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan .................................... 39 
 ix 
4.3 Assembling .................................................................................................. 41 
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder .............................. 42 
4.4.1 BLASTn: ................................................................................................. 43 
4.5.Thiết kế và kiểm tra primer ......................................................................... 45 
4.6 tBLASTx ..................................................................................................... 48 
4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng 
truy xuất thông tin. ............................................................................................ 49 
4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ 
thông tin qua mạng. .......................................................................................... 49 
4.8.1 Trang chủ (HOME PAGE) ...................................................................... 49 
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) ................................................. 50 
Chƣơng5 ........................................................................................................... 52 
KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................... 52 
5.1. Kết luận ...................................................................................................... 52 
5.2. Đề nghị ....................................................................................................... 53 
TÀI LIỆU THAM KHẢO ................................................................................. 54 
Phụ Lục ............................................................................................................. 57 
 x 
DANH SÁCH CÁC TỪ VIẾT TẮT 
 BLAST Basic Local Alignment Search Tool 
 CGI Common Gateway Interface 
 CSDL Cơ sở dữ liệu 
 DBD Database Driver 
 DBI Database Interface 
 DNA deoxyribonucleic acid 
 EST Expressed Sequence Tag 
 HTML Hypertext Markup Language 
 HTTP Hypertext Transfer Protocol 
 NCBI the National Center for Biotechnology Information 
 NIG the National Institute of Genetics 
 NIH the National Institutes of Health 
 NLM the Nation Library of Medicine 
 Perl Practical Extraction and Report Language 
 PHP Hypertext Preprocessior 
 RDBMS Relational Database Management System 
 SNP Single Nucleotide Polymorphism 
 SSCP Single- Strand Conformation Polymorphism 
 SSR Simple Sequence Repeats 
 STS Sequence Tagged Site 
 xi 
DANH SÁCH CÁC BẢNG 
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI .................. 26 
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI ............................ 26 
Bảng 3.3 Nội dung tblStrain ............................................................................. 34 
Bảng 3. 4 Nội dung tblMotifLengthGroup ....................................................... 34 
Bảng 3.5 Nội dung tblSSR ................................................................................ 34 
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI ....................... 37 
Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1 ....................................................... 38 
Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3 ....................................................... 39 
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 ....................................................... 39 
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling ................ 41 
Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc .................................................. 42 
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành ..................... 43 
Bảng 4.8 Tổng số primer thiết kế đƣợc ............................................................. 45 
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra ............................................ 45 
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza.................... 48 
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu ..................................... 50 
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu ................................................ 51 
 xii 
DANH SÁCH CÁC HÌNH 
Hình 2.1. CTV dƣới KHV điện tử ..................................................................... 6 
Hình 2.2: Nguồn gốc của EST ............................................................................ 8 
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân ................................................. 12 
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã ............................................. 13 
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống .......................... 16 
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) ...... 19 
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn 
www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) ............................ 27 
Hình 3.2 : Các bƣớc thực hiện của Egassembler .............................................. 29 
Hình 3.3 phân biệt giữa Contig và Singleton .................................................... 30 
Hình 3.4 nội dung tập tin “ssrout20030101.txt” ............................................... 31 
Hình 3.5 nội dung tập tin “labdbout20030101.txt” ........................................... 31 
Hình 3.6 Nội dung tập tin “new_ids20030101.txt” ......................................... 32 
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: 
india.org/ssr/ssr.htm) ......................................................................................... 36 
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài .......................................... 37 
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu ................... 40 
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs ............................................... 41 
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu ... 42-43 
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới ............ 44 
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra .................... 46 
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc .............. 47 
Hình 4.8 : Mối quan hệ giữa các bảng .............................................................. 49 
Hình 4.9: Tổng quan về Website ...................................................................... 49 
Hình 4.10 Trang cơ sở dữ liệu SSRs (All) ........................................................ 50 
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif 
Length Group ID” là 3 ...................................................................................... 51 
Chƣơng 1 
MỞ ĐẦU 
1.1 Đặt vấn đề 
Công tác bảo tồn chọn giống ngày càng cần thiết do quá trình thoái hóa diễn 
ra ngày càng nhanh và phức tạp vì vậy đòi hỏi phải có nhiều công cụ, phƣơng pháp 
đắc lực hỗ trợ. Hiện nay, SSR đã và đang là 1 trong những công cụ đắc lực phục vụ 
cho qui trình này  việc phát triển maker SSR rất cần thiết 
Tình hình bệnh ở cây trồng diễn biến ngày càng phức tạp, nghiêm trọng. 
Chúng ta phải sử dụng các lọai marker khác nhau để chuẩn đoán, phát hiện bệnh 
sớm nhằm tìm biện pháp khắc phục.Hiện nay, maker có độ tin cậy cao nhất là 
Microsatellite. 
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay 
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm. 
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có 
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có và ta có thể sử 
dụng miễn phí 
Lƣợng trình tự EST đƣợc giải mã và công bố ngày càng nhiều, tính đến nay 
có khỏang 46159508 trình tự EST đƣợc công bố (theo NCBI) 
Hiện nay các cây thuộc họ chi cam chanh đƣợc quan tâm nghiên cứu nhiều 
do những giá trị mà nó mang lại nhƣ giá trị thƣơng phẩm, dƣợc phẩm… 
1.2.Mục tiêu của khóa luận 
Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng 
và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen, 
chọn giống nhờ chỉ thị phân tử. 
 2 
Vì vậy, khóa luận “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED 
SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT 
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc 
thực hiện với các mục tiêu lần lƣợt nhƣ sau: 
1. Thu nhận trình tự EST của chi cam chanh từ CSDL ESTs đƣợc lấy tại 
trang chính NCBI. 
2. Dùng Egassembler để để phân tích làm sạch trình tự, dấu những vùng lập 
lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự 
nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs 
3. Dùng Perl script thu nhận các SSR có trong cơ sở dữ liệu ESTs vừa thu 
đƣợc từ đó thiết kế mồi trên vùng FLANKING của SSRs 
4. Kéo dài các EST-SSR và xác định các trình tự bảo tồn bằng cách thực hiện 
BLAST trên các Contigs (thu nhận đƣợc bằng assembly ở Website Egassembler) 
5. Tìm kiếm những SSR có độ tƣơng đồng cao so với các SSR có trong các 
gene kháng bệnh ở thực vật 
6. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ 
liệu. 
7. Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện 
việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin đƣợc tốt hơn . 
 3 
Chƣơng 2 
TỔNG QUAN TÀI LIỆU 
2.1 Giới thiệu về chi cam chanh 
Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hƣơng 
(Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới ở đông nam châu Á. 
Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15 m 
tùy loại, với thân cây có gai và các lá thƣờng xanh mọc so le có mép nhẵn. Hoa mọc 
đơn hay thành ngù hoa nhỏ, mỗi hoa có đƣờng kính 2-4 cm với 5 (ít khi 4) cánh hoa 
màu trắng và rất nhiều nhị hoa. Hoa thông thƣờng có mùi thơm rất mạnh. Quả là 
loại quả có múi, một dạng quả mọng đặc biệt, hình cầu hay cầu thuôn dài, chiều dài 
4-30 cm và đƣờng kính 4-20 cm, bên trong quả khi bóc lớp vỏ và cùi sẽ thấy lớp vỏ 
mỏng, dai, màu trắng bao quanh các múi bên trong chứa nhiều tép mọng nƣớc. Chi 
này là quan trọng về mặt thƣơng mại do nhiều loài (hoặc cây lai ghép) đƣợc trồng 
để lấy quả. Quả đƣợc ăn tƣơi hay vắt, ép lấy nƣớc. 
2.1.1 Vị trí phân lọai 
Giới Plantae 
Ngành Magnoliophyta 
Lớp Magnoliopsida 
Phân lớp Rosidae 
Bộ Sapindales 
Họ Rutaceae 
Chi Citrus 
 4 
2.1.2 Đặc điểm 
Quả của chi Citrus đáng chú ý vì mùi thơm của chúng, một phần là do các 
terpen chứa trong lớp vỏ, và chủ yếu là do nó chứa nhiều nƣớc. Nƣớc quả có hàm 
lƣợng axít citric cao, tạo ra hƣơng vị đặc trƣng của chúng. Chúng cũng là nguồn 
cung cấp vitamin C và các flavonoit đáng chú ý. 
Sự phân loại nội bộ trong chi này rất phức tạp và hiện nay ngƣời ta vẫn 
không biết chính xác số lƣợng loài có nguồn gốc tự nhiên, do nhiều loài đƣợc coi là 
có nguồn gốc lai ghép. Các loại cây trong chi Citrus đƣợc trồng có thể là con cháu 
của chỉ 3 loài tổ tiên. Hiện nay có hàng loạt các loại cây lai ghép tự nhiên hay do 
con ngƣời nuôi trồng, bao gồm nhiều loại quả có giá trị thƣơng mại nhƣ cam ngọt, 
chanh tây, bƣởi chùm, chanh ta, quít, bƣởi v.v. Các nghiên cứu gần đây cho rằng 
các chi có quan hệ họ hàng gần nhƣ Fortunella, và có lẽ cả Poncirus, Microcitrus, 
Eremocitrus, cần đƣợc gộp lại trong chi Citrus. 
Citrus sinensis x Poncirus trifoliata Citrus aurantium 
 5 
 Citrus Unshiu 
Citrus x paradisi 
 Citrus Sinensis 
Citrus Clementina 
 6 
2.1.3 Sâu hại và bệnh tật 
Bệnh do virus 
Virus citrus là loài rất nhỏ chỉ có thể nhân lên trong tế bào sống. Trong tế 
bào của citrus, virus di chuyển theo dòng tế bào chất hoặc di chuyển theo dòng nhựa 
nguyên và nhựa luyện của cây. Theo các mạch dẫn, virus đƣợc truyền trong cây từ 
vùng này sang vùng khác và nhờ cầu nối nguyên sinh virus có thể di chuyển từ tế 
bào này sang tế bào khác. Virus cũng có thể nhân lên trong cơ thể của aphid hoặc 
một vài loài khác làm môi giới truyền bệnh (vectơ truyền bệnh). Khi cây nhiễm 
virus, nó có thể là tác nhân nhiễm bệnh cho các cây khác. Bệnh virus thƣờng không 
lây qua hạt. Một vài loài virus chỉ nhiễm trên một vài loài citrus. Virus có thể nhiễm 
vài tháng hoặc vài năm trƣớc khi có một vài triệu chứng xuất hiện. 
Virus Tristeza (CTV) 
 Có nguồn gốc từ nhiều năm trƣớc ở Trung Quốc. Tristeza là bệnh tàn phá 
rất lớn trên citrus ở Bắc và Nam Mỹ, có khoảng phân bố rất rộng trên thế giới, là 
bệnh nguy hiểm ở Nhật Bản. Bệnh Tristeza đƣợc xác định là có hiện diện ở nƣớc ta. 
 Virus Tristeza dạng hình sợi dài (2 x 10 – 11 nm), tập trung và làm hỏng mạch dẫn 
nhựa libe trong cây, xuống rể và làm suy dinh dƣỡng nhƣ rụng lá, chết đọt, lùn cây 
và thƣờng thối rễ. 
Bệnh có thể lộ ra ở cây con mới trồng hay ở cây lớn bị suy dinh dƣỡng. Cây 
có mang mầm bệnh có thể vẫn thấy khoẻ mạnh trong liếp ƣơm nhƣng sớm lộ triệu 
chứng ngay sau khi trồng. Cây mang bệnh mãn tính sẽ bị lùn, phù gốc do mắt tháp 
phát triển quá khổ. 
Hình 2.1. CTV dƣới KHV điện tử 
 7 
 Hầu hết các giống cam quýt đều có triệu chứng sọc lõm ở gỗ thân và cành 
(stem pitting). Một dạng đặc trƣng của bệnh là triệu chứng tổ ong khi dùng cam 
chua làm gốc ghép: khi tách vỏ ở vùng bên dƣới mắt tháp sẽ thấy nhiều lỗ nhỏ xếp 
cụm trong gỗ. 
Vector chính truyền bệnh do virus Tristeza là loài aphid có tên Toxoptera 
citricida Kirkaldy. Kiểm tra thấy rằng nếu có 5 aphid tấn công cây thì 50% cây sẽ bị 
nhiễm và nếu có 15 aphid tấn công cây thì 70% cây sẽ bị nhiễm. Ngƣời ta cũng 
nhận thấy rằng các type khác nhau của virus này đều gây bệnh đƣợc. 
 CTV nhiễm trên tất cả các loại (nhân giống và tháp ghép) của cây citrus. Nó 
đƣợc tìm thấy trên toàn thế giới và có nhiều giống khác nhau, trong các type khác 
nhau đó có các type tàn phá rất lớn. Bệnh chịu ảnh hƣởng bởi điều kiện môi trƣờng, 
các dạng khác nhau của cây citrus và các nòi virus khác nhau. 
 Khi cây đƣợc ghép trên gốc kháng thì nó có khả năng phục hồi lại sau đó. 
2.2 EST 
2.3.1 Sơ lƣợc về EST 
 Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể đƣợc 
sử dụng để nhận biết những gen chƣa biết và xác lập vị trí của chúng trong bộ gen. 
 ESTs cung cấp một phƣơng pháp nghiên cứu nhanh chóng và không tốn kém 
đối với việc khám phá ra các gen mới, tính bảo toàn của gen về biểu hiện và điều 
khiển hoạt động, và xây dựng bản đồ di truyền. 
2.3.2 Nguồn gốc của EST 
 ESTs là những mảnh nhỏ của cấu trúc DNA (thƣờng có chiều dài từ 200 đến 
500 Nucleotide), chúng đƣợc hình thành bởi một phần hay toàn bộ cấu trúc của một 
gen biểu hiện. Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế 
bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để 
thiết lập một gen nằm ngoài vị trí của chromosome bằng cách bắt cặp với các cặp 
base. 
 Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau 
giữa các loài sinh vật và phụ thuộc vào kích thƣớc của bộ gen khi có mặt hay không 
 8 
có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của 
gen quy định protein. 
Hình 2.2: Nguồn gốc của EST 
2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) 
2.3.1Những khái niệm về kỹ thuật microsatellite 
Microsatellite: Một dạng của VNTR (variable number of tandem repeats) 
(q.v.). Một đoạn DNA đƣợc mô tả đặc điểm bởi sự xảy ra của số lƣợng bản copy 
biến thiên (từ một vài bản lên đến 30 hay nhiều hơn) của dãy trong vòng 5 hoặc số 
bases ít hơn (đƣợc gọi là đơn vị lặp lại, q.v). Một microsatellite điển hình có đơn vị 
lặp lại AC, xảy ra ở khoảng 100 000 vị trí khác nhau trong bộ genome động vật điển 
hình. Ở bất kì một vị trí nào (locus), thƣờng xuyên có khoảng 5 – 7 “alleles” khác 
nhau, mà mỗi alleles có thể nhận biết tuỳ thuộc vào số đơn vị lặp lại. Những alleles 
này có thể phát hiện bởi PCR (q.v), sử dụng primers đƣợc thiết kế từ một dãy đơn 
và cũng có trên cả mặt kia của microsatellite. Khi sản phẩm PCR đƣợc chạy trên gel 
điện di, alleles đƣợc ghi nhận khác biệt về độ dài trong giá trị đến kích cỡ của đơn 
vị lặp lại, e.g., nếu primers tƣơng ứng với dãy duy nhất trực tiếp trên cả 2 mặt của 
microsatellite và là đoạn dài 20 base, và một cá thể là dị hợp tử cho một 
 9 
microsatellite AC với một alleles bao gồm sự lặp lại 5 lần và một alleles khác lặp lại 
6 lần, sự dị hợp sẽ tạo ra 2 bands trên gel, một band dài 20 + (2x5) +20 =50 bases, 
và allele khác dài 20 + (2x6) + 20 = 60 bases. Microsatellites là một marker DNA 
chuẩn: chúng đƣợc phát hiện dễ dàng bằng PCR, và chúng có khuynh hƣớng xác 
định vị trí bằng nhau từ đầu đến cuối của genome. Hàng ngàn SSR đã đƣợc lập bản 
đồ trong nhiều loài khác nhau. 
Tóm lại, microsatellite ngày nay trở thành một thuật ngữ chung nhất để miêu 
tả các trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short 
tandem repeats, Edward; 1991) hay VNTR (variable number of tandem repeats). 
Microsatellite bao gồm các đoạn lặp lại ngắn từ 2 - 6 bp và kích thƣớc tại mỗi locus 
là 20 - 100 bp. Microsatellite đƣợc tìm thấy trong tất cả cơ thể sống, đặc biệt là ở 
những cơ thể sống có bộ gen lớn và phân bố đều trên genome. 
 Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những 
codominant-al hay al đồng trội (bao gồm 2 loại: al đồng hợp và al dị hợp), nó có các 
tính chất cần thiết cho một marker. Tần số đột biến từ 104 - 5.10-6, nó tuân theo định 
luật Mendel. Vị trí của microsatellite trên nhiễm sắc thể có thể đƣợc xác định bằng 
PCR từ một lƣợng DNA rất nhỏ. Xác định microsatellite PCR trên một loài nào đó 
thì có thể áp dụng trên những loài khác có quan hệ họ hàng. 
2.3.2 Giới thiệu chung 
2.3.2.1 Tính chất 
Một ví dụ điển hình của microsatellite là sự lặp lại (CA)n, với n là sự biến 
thiên giữa những alleles. Những markers này thƣờng hiện diện với mức độ cao của 
hiện tƣợng đa hình, đặc biệt khi số lần lặp lại lớn hơn hoặc bằng 10. Trình tự đƣợc 
lặp lại thƣờng đơn giản, bao gồm 2, 3 hoặc 4 nucleotides (tƣơng ứng với việc lặp lại 
di-, tri-, và tetranucleotide), và có thể đƣợc lặp lại từ 10 đến 100 lần. Sự lặp lại của 
nucleotide CA xảy ra rất thƣờng xuyên trong bộ gene ngƣời và các loài khác, và 
đƣợc hiện diện trong khoảng vài ngàn bases pair. Nhƣ vậy có sự xuất hiện thƣờng 
xuyên của nhiều alleles tại vị trí microsatellite, kiểu gene trong phả hệ thƣờng cung 
cấp đầy đủ thông tin về di truyền, trong đó alleles đặc thù của tổ tiên có thể đƣợc 
 10 
nhận biết dễ dàng. Bằng cách này, microsatellite là lý tƣởng để xác định nguồn gốc, 
nghiên cứu di truyền quần thể và bản đồ tái tổ hợp. Nó còn là marker phân tử dùng 
để cung cấp đầu mối về những alleles có mối quan hệ gần nhau hơn. 
Microsatellite có đƣợc tính hay thay đổi với tỉ lệ đột biến tăng dần so với 
vùng trung tính khác của DNA. Tỉ lệ đột biến cao này có thể đƣợc giải thích bởi sự 
bắt cặp sai trong bộ phận trƣợt (slipped strand mispairing - sự giữ không đúng mục 
tiêu) trong suốt quá trình sao chép DNA trên một chuỗi đơn xoắn kép. Sự đột biến 
cũng xảy ra suốt quá trình tái tổ hợp trong quá trình giảm phân. Một vài lỗi sai mục 
tiêu đƣợc sửa bởi cơ chế đọc và sửa trong nhân, thế nhƣng một vài đột biến có thể 
không đƣợc sửa chữa. Kích thƣớc của đơn vị lặp lại, số lần lặp lại và sự hiện diện 
của sự lặp lại khác nhau là tất cả các yếu tố, cũng nhƣ là tính thƣờng xuyên của sự 
dịch mã trong khu vực của DNA lặp lại. Sự gián đoạn của microsatellites, có thể do 
đột biến, có thể là nguyên nhân trong việc giảm sự đa hình. Tuy nhiên, cơ chế tƣơng 
tự này thỉnh thoảng có thể dẫn đến sự khuếch đại không chính xác của 
microsatellites; nếu sự sai mục tiêu xảy ra sớm trong suốt quá trình PCR, thì chiều 
dài không chính xác của microsatellites có thể đƣợc khuếch đại. 
2.3.2.2 Khuếch đại của microsatellites 
 Microsatellites có thể đƣợc khuếch đại để nhận biết bằng việc sử dụng PCR, 
sử dụng mẫu của những vùng lân cận (primer). DNA đƣợc biến tính ở nhiệt độ cao, 
tách ra làm hai dãy, cho phép sự bắt cặp của primer và sự kéo dài của trình tự 
nucleotide dọc theo chuỗi đối diện ở nhiệt độ thấp. Kết quả của quá trình này là có 
đủ hàm lƣợng DNA để có thể nhìn thấy đƣợc trên gel agarose hay arcrylamide, một 
số lƣợng nhỏ DNA cần thiết cho việc khuếch đại kết hợp với chu trình nhiệt cách 
hợp lí để tạo ra sự tăng lên theo số mủ trong đoạn đƣợc sao chép. Với sự phong phú 
của kỹ thuật microsatellite, primer liên kết với vị trí microsatelltes thì đơn giản và 
đƣợc sử dụng nhanh chóng, tuy nhiên sự phát triển của những primers nhƣ vậy 
thƣờng là một quá trình tốn kém và đơn điệu. 
 11 
2.3.2.3 Những giới hạn của microsatellite 
 Microsatellite đƣợc chứng tỏ là marker phân tử hữu hiệu, đặc biệt là trong 
nghiên cứu quần thể, thế nhƣng chúng không phải là không có hạn chế. 
Microsatellite đƣợc phát triển cho những chủng đặc trƣng có thể đƣợc ứng dụng 
thƣờng xuyên với những chủng có mối quan hệ họ hàng gần nhau, tuy nhiên tỉ tệ 
phần trăm vị trí di truyền đƣợc khuếch đại thành công có thể bị giảm bởi sự gia tăng 
khoảng cách di truyền. Điểm đột biến trong vị trí bắt cặp của primer trong một loài 
nào đó có thể dẫn đến sự cố „alleles không giá trị‟ (null alleles), nơi mà primer 
microsatellite không thể đáp ứng để khuếch đại trong thí nghiệm PCR. Null alleles 
có thể đóng góp vào một vài hiện tƣợng. Sự phân kì trong trình tự ở vùng liên kết có 
thể dẫn đến sự bắt cặp nghèo nàn của primer, đặc biệt ở vùng 3‟ nơi mà sự kéo dài 
bắt đầu, sự khuếch đại ƣu tiên của vị trí alleles đặc thù do sự cạnh tranh tự nhiên 
của PCR có thể dẫn đến việc cá thể dị hợp tử đƣợc ghi nhận từ đồng hợp tử (bộ 
phận không có giá trị). Sự thất bại của phản ứng PCR có thể thu nhận kết quả khi sự 
sai khác ở vị trí đặc thù đƣợc khuếch đại. Tuy nhiên, ảnh hƣởng sai khác của quần 
thể nhỏ và khả năng của sự liên kết giới tính cũng cần đƣợc xem xét để không đƣa 
ra giá trị sai của alleles không giá trị do sự tăng tính đồng hình trong phân tích quần 
thể. Sự khác nhau trong kích thƣớc alleles cũng không phản ánh sự khác nhau thật 
sự đột biến có thể có từ sự thêm vào hay mất đi của bases và toàn bộ microsatellite 
có thể chịu sự nén chặt về chiều dài. Tỉ lệ đột biến thì không có tiêu chuẩn để đánh 
giá. Vùng trung tính của một số vùng microsatellite còn đang nghi vấn, có lẽ do sự 
biến thiên tính trạng số lƣợng hoặc sự cố trong vùng exon của genes dƣới sự chọn 
lọc. Khi sử dụng microsatellite để so sánh loài, vị trí đồng hình có thể dễ dàng 
khuếch đại trong những loài có quan hệ, thế nhƣng số vị trí khuếch đại thành công 
trong suốt phản ứng PCR có thể giảm do sự tăng khoảng cách di truyền giữa các 
loài nghi vấn. Đột biến trong alleles microsatellite có thể bị ảnh hƣởng xấu trong 
trƣờng hợp có một đoạn alleles lớn hơn chứa nhiều bases hơn, và do đó có thể đƣợc 
dịch sai trong quá trình phiên mã DNA. Một alleles nhỏ hơn tham gia vào việc làm 
tăng kích thƣớc, trong khi một alleles lớn hơn tham gia để làm giảm kích thƣớc, khi 
 12 
mà chúng có thể là nguyên nhân cho sự giới hạn trên về kích thƣớc, sự ép buộc này 
đã đƣợc xác định nhƣng giá trị khẳng định là chƣa chuyên biệt. Nếu có một sự khác 
biệt lớn về kích cỡ giữa alleles của cá thể, điều đó có thể làm tăng sự không bền 
vững trong sự tái tổ hợp ở quá trình giảm phân. Trong tế bào khối u, nơi mà sự kiểm 
soát trên phiên mã bị phá hủy, microsatellite có thể tăng thêm hay mất đi thƣờng 
xuyên ở tỉ lệ đặc biệt cao trong mỗi chu kỳ nguyên phân. Do đó một dòng tế bào 
khối u có thể chỉ ra những đặc điểm khác biệt di truyền từ những mô kí chủ đó. 
2.3.3 Các loại microsatellite 
Căn cứ vào cấu tạo của đơn vị lặp lại (2-6 lần) chúng ta có : 
 Dinucleotide SSR (GT)6 
 GTGTGTGTGTGT 
 Trinucleotide SSR (CTG)4 
 CTGCTGCTGCTG 
 Tetranucleotide SSR (ACTC)4 
 ACTCACTCACTCACTC 
 Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và 
tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996). 
2.3.4 Cơ chế hình thành microsatellite 
Cơ chế đột biến hình thành microsatellite vẫn chƣa đƣợc hiểu biết một cách 
đầy đủ. Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện 
và hình thành microsatellite là do 2 quá trình sau: 
Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over 
during meiosis) 
. 
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân 
 13 
Quá trình trƣợt lỗi trong sao mã (replication slippage) 
Đây đƣợc coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging 
strand). Quá trình này liên quan đến quá trình trƣợt lỗi của enzyme polymerase trên 
phân tử DNA mới tổng hợp. Sự trƣợt lỗi này tạo ra một chỗ phình nhất thời có thể 
bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo 
thành một đoạn lặp lại dài hơn. 
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã 
2.3.5 Vai trò của microsatellite 
Rất nhiều microsatellite đã đƣợc tìm thấy ở vùng phía trên của các vùng khởi 
đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng nhƣ vậy vẫn còn 
chƣa rõ ràng, mặc dù ngƣời ta tìm thấy chúng tồn tại giữa các vùng exon và có liên 
quan tới các bệnh di truyền. 
Microsatellite đƣợc dùng nhƣ một marker di truyền để nghiên cứu về di 
truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ 
 14 
cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố 
điều hòa. Microsatellite đƣợc tìm thấy khắp nơi ở phần trƣớc vùng khởi đầu sao mã 
của vùng mang mã, và một số đã đƣợc tìm thấy có quan hệ với vùng mã hoá. Số 
lƣợng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ 
với sự biểu hiện của gene và chức năng của gene. 
Ở một số trƣờng hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của 
microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của 
microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi. 
Vùng điều khiển có chứa microsatellite hoạt động nhƣ một nhân tố thúc đẩy quá 
trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng 
của gen. 
 Microsatellite cũng liên kết với các protein bám mà các protein này có chức 
năng bám dính vào các trình tự khởi động của gene, khi trình tự này đƣợc giải 
phóng thì gen đƣợc khởi động và sao mã. Điều này chỉ ra rằng microsatellite hoạt 
động nhƣ một yếu tố điều hòa trong quá trình sao mã, ảnh hƣởng đến quá trình sao 
mã thông qua ảnh hƣởng đến protein bám. Rất nhiều nghiên cứu chỉ ra rằng ảnh 
hƣởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của 
các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó. Nhƣ một trình tự 
mang mã, microsatellite đã đƣợc tìm thấy biểu hiện ở rất nhiều protein và sự khác 
nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác 
nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hƣởng đến 
chức năng sinh lý cũng nhƣ sự phát triển của cơ thể. 
Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hƣởng của chiều dài 
khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan đƣợc 
tổng kết lại nhƣ một yếu tố chức năng của hệ gen. Những tính chất đặc biệt của 
microsatellite nhƣ sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite 
có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lƣợng và quá trình 
tiến hóa thích nghi (Kashi và ctv.,1990,1997). Nó cho phép một quần thể có thể 
khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt 
 15 
động nhƣ một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh 
nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa 
(King và ctv., 1997, 1998). Do vậy microsatellite là một nguồn rất quan trọng trong 
việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa 
2.4 Phƣơng pháp phân lập microsatellite truyền thống 
 Primer của microsatellite đƣợc phát triển bởi việc tạo dòng ngẫu nhiên một 
đoạn DNA từ những giống loài trọng tâm. Những đoạn này đƣợc chèn vào plasmid 
hoặc phage vector, và đƣợc chuyển tiếp vào vi khuẩn Escheria coli. Khuẩn lạc sau 
đó phát triển và đƣợc chụp lên phim với những trình tự nucleotide đƣợc đánh dấu 
huỳnh quang đƣợc lai với trình tự lặp lại của microsatellite, nếu nó có hiện diện trên 
đoạn DNA. Nếu dòng dƣơng tính có thể thu đƣợc từ quy trình này, đoạn DNA đƣợc 
đọc trình tự và primers PCR sẽ đƣợc chọn từ vùng trình tự liên kết nhƣ vùng để xác 
định vị trí đặc trƣng. Quy trình này liên quan đến những thử nghiệm thành công, khi 
trình tự lặp lại của microsatellites phải đƣợc dự đoán trƣớc và primers đƣợc thu 
nhận ngẩu nhiên có thể không biểu hiện tính đa hình có ý nghĩa.Vị trí microsatellite 
đƣợc trải xuyên suốt genome và có thể đƣợc thu nhận từ sự thoái hoá DNA chung 
của những mẫu cũ hơn, khi đó là tất cả những chất nền cần thiết và hợp lí để khuếch 
đại thông qua PCR. 
 Primer microsatellite đặc trƣng cho một loài sẽ giúp phát hiện sự đa hình ở 
những vị trí tƣơng đồng (cùng locus trên mỗi alleles) đối với từng cá thể trong loài. 
Điều này có thể thực hiện đƣợc là nhờ trình tự microsatellite và trình tự của vùng 
flanking- vùng nằm ở 2 bên trình tự microsatellite để thiết kế primer- đƣợc bảo tồn 
trong quá trình di truyền của loài. Vùng flanking rất quan trọng vì nó giúp phát hiện 
trình tự microsatellite đặc trƣng ở mỗi locus trên nhiễm sắc thể. 
 Một qui trình phân lập 1 SSR mất khoảng 3 tuần trong đó giai đọan thiết kế 
mồi và kiểm tra mòi vừa thiết kế cho SSR mất khỏang hơn 2 tuần. Đồng thời phải 
tốn một chi phí khá lớn để mua các hóa chất và máy móc cần thiết để tiến hành thí 
nghiệm ( cần khoảng 200 USD tiền hóa chất để xác định đƣợc 1SSR) nhƣng rủi ro 
thu đƣợc SSR là khá lớn 
 16 
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống 
2.5 Phƣơng pháp phân lập microsatellite sử dụng 
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay 
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm. 
 17 
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có 
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có. 
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ: 
1.MIcroSAtellite (MISA) [] 
2.Sputnik [ /sputnik/index.html] 
3.CUGIssr [] 
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl] 
5.SSRFinder [ 
SSRFINDER/ssrfinder_1_0.tar.gz] 
Công cụ đƣợc tìm kiếm trình tự SSR đƣợc tham khảo và tải về từ địa chỉ 
 của 
tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và 
những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về 
sau. 
So sánh hiệu quả của 2 phƣơng pháp phân lập 
Phƣơng pháp truyền thống Phƣơng pháp sử dụng 
Chỉ xác định đƣợc 1 hoặc vài SSR 
trong 1 lần thí nghiệm 
Tiền hóa chất, nhân công và thiết bị 
khá nhiều 
Thời gian để tiến hành 1 qui trình 
phân lập , thiết kế mồi cho1 SSR khá 
lâu (khoảng 3 tuần) 
Không xác định đƣợc chính xác các 
SSRs có thể có trong gene 
Độ chính xác không cao do có thể bị 
nhiễm trong quá trình làm 
Có thể xác định đƣợc nhiều SSR 1 lúc 
Chi phí cho quá trình phân lập khá 
thấp vì không phải tốn tiền hóa chất và 
máy móc thiết bị nhiều 
Thời gian tiến hành phân lập và thiết 
kế mồi nhanh (1 phút) 
Xác định chính xác các SSRs có thể 
có trong 1 gen 
Độ chính xác cao do cơ sở dữ liệu đã 
đƣợc phân tích và công bố rộng rãi 
 18 
2.6 Ứng dụng 
 Thiết kế bản đồ gen trong di truyền 
 Đa dạng hóa vật liệu di truyền 
 Nghiên cứu quần thể 
 Chẩn đoán và xác định các bệnh ở ngƣời 
 Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên 
2.7 Cơ sở dữ liệu sinh học 
 Dữ liệu sinh học đang đƣợc thu nhận với tốc độ rất nhanh. Đến tháng 8 năm 
2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình 
tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các 
trình tự protein. Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thƣớc sau 
mỗi chu kỳ 15 tháng. Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định 
cấu trúc protein đƣợc mã hóa trong bộ gen... đã tạo ra một lƣợng lớn thông tin sinh 
học và thông tin này ngày càng đa dạng và phong phú. 
Do dữ liệu sinh học tăng trƣởng mạnh mẽ nên công cụ tin học đã trở thành 
một phƣơng tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học. Công nghệ 
thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và 
luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học đƣợc xem là lĩnh vực 
nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông 
tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học 
phân tử. 
Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam , 
ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đƣa ra những 
chƣơng trình máy tính phục vụ nghiên cứu sinh học . 
Có thể tiến hành phân lập SSR từ bất 
cứ đọan gen mong muốn nào 
trên NCBI và các cơ sở dữ liệu sinh 
học lớn khác 
Nếu không có cơ sở dữ liệu EST thì 
không thể tiến hành phân lập SSR 
 19 
Một số cơ sở dữ liệu lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin 
cho các nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,… 
2.7.1 NCBI 
2.7.1.1 Vài nét về NCBI 
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) 
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là 
trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa 
kỳ (NIH – National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày 
4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự 
DNA và từ đó NCBI còn đƣợc gọi là GenBank. 
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông 
qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu 
về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích 
dữ liệu bộ gene, protein,… 
3.1.1.2 Một số cơ sở dữ liệu trong NCBI 
 Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide. 
 Protein: là cơ sở dữ liệu về trình tự amino acid. 
 Genome: trình tự toàn bộ genome của một số sinh vật. 
 Structure: hay còn có tên gọi là MMDB (Molecular Modeling 
Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn 
những chuỗi nucleotide.. DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của 
Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide lớn, mang tính toàn cầu và ba cơ 
sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau. Từ đó, càng làm cho cơ 
sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú
NLM 
NCBI 
NIH 
 20 
Chƣơng 3 
VẬT LIỆU VÀ PHƢƠNG PHÁP 
 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 
3.1.1 Hệ điều hành 
 Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của 
chi cam chanh (Citrus) trên hệ điều hành này. 
3.1.2 Các chƣơng trình phân tích trình tự 
3.1.2.1 Chƣơng trình Perl ssrfinder_1_0 
Đây là một chƣơng trình của tác giả Steven Schroeder thuộc trƣờng 
Đại học Missouri – Michigan. Chƣơng trình gồm 6 Perl scripts có chức năng 
xác định SSR và thiết kế primer thích hợp cho mỗi SSR tìm đƣợc 
- 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng 
flanking cho những phân tích sau. 
- 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại 
vùng trình tự chứa SSR. 
- 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để 
loại bỏ những primer có chứa trình tự lặp lại 
- 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ 
liệu primer 
- 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất 
- 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy 
nhất – file này đƣợc tạo đơn giản chỉ chứa những thông tin cần thiết cho việc 
chọn lựa primer. 
 21 
Yêu cầu: vì chƣơng trình này đƣợc viết cho hệ điều hành Unix hay 
Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể 
chạy trên môi trƣờng Window. 
Chƣơng trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall 
và formatdb để thực thi. Ba phần mềm này có thể tải hoàn toàn miễn phí (có 
phiên bản dành cho Window) từ trang Primer3 
 và trang Blast của NCBI 
Các thông số của chƣơng trình thiết kế primer đều đƣợc mặc định nhƣ 
sau 
TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều 
dài microsatellite (mục tiêu) 
PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích 
thƣớc sản phẩm) 
PRIMER_OPT_SIZE=24 (kích thƣớc tối ƣu của primer) 
PRIMER_MIN_SIZE=20 (kích thƣớc tối thiểu của primer) 
PRIMER_MAX_SIZE=28 (kích thƣớc tối đa của primer) 
PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ƣu của primer) 
PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer) 
PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer) 
PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối 
đa) 
Với các thông số mặc định trên chƣơng trình hoàn toàn có thể sử dụng cho 
mục tiêu của đề tài. 
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ: 
1.MIcroSAtellite (MISA) [], 
2.Sputnik [ /sputnik/index.html], 
3.CUGIssr [] 
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl] 
 22 
5.SSRFinder [ 
SSRFINDER/ssrfinder_1_0.tar.gz] 
Các công cụ này hầu nhƣ dựa trên cùng một thuật toán tìm SSR, tuy nhiên 
mỗi phần mềm đƣợc viết bằng các ngôn ngữ lập trình khác nhau. Một điểm nổi bật 
của công cụ SSRFinder (đƣợc viết bằng Perl, có tích hợp Primer3 và ncbi-BLAST) 
là có tích hợp thêm những Perlscript giúp hỗ trợ việc thiết kế primer cũng nhƣ kiểm 
tra lại primer, tuy nhiên các Perlscript này đƣợc lập trình dƣới hệ điều hành UNIX 
nên cần đƣợc chỉnh sữa để có thể sử dụng trên hệ điều hành Windows. Ngoài ra, 
còn có rất nhiều trang web hỗ trợ việc tìm SSR trên trình tự nhƣ: 
1.SSR Server [] 
2. SSR Primer Discovery [
binpub/ssrprimer/indexssr.pl] 
3. SSRIT [] 
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST 
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc 
nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu 
trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế 
giới nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự 
đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay 
protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống 
kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự. 
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua 
ba bƣớc chính: 
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring 
Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL. 
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự 
tƣơng đồng nào đƣợc tìm thấy. 
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng 
giá trị mà ngƣời dùng mong muốn. 
 23 
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của 
trang CSDL NCBI: blast-2.2.14-ia32-win32.exe 
(ftp://ftp.ncbi.nih.gov.blast/executables/). 
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS 
Microsoft Access là một phần mềm ứng dụng thuộc bộ phần mềm Microsoft 
Office, đƣợc sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tƣ, kế 
toán…).Phần mềm này đƣợc bảo vệ và phân phân phối bởi hãng Microsoft 
Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft 
Office 
Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft 
Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu. 
 Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần 
chính của một tập tin ACCESS gọi là bảng (TABLE). 
 Các bảng này có mối quan hệ với nhau theo một quy luật nào đó do 
ngƣời thiết kế tạo nên. 
3.1.2.4 Egassembler 
 Là 1 công cụ trực tuyến cung cấp những công cụ sinh học tự động mà ngƣời 
dùng có thề sử dụng để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu 
những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu 
của các bào quan, sắp gióng cột và assembly các đọan ESTs và đọan genomic. Hệ 
thống máy chủ chấp nhận nhiều dạng trình tự DNA ở dạng FASTA nhƣ EST, , 
cDNA, gDNA, GSS 
 Hệ thống gồm 5 công cụ chính: 
 Làm sạch trình tự 
 Dấu những vùng lặp lại 
 Dấu những vùng trình tự nhiễu của vector và adaptors 
 Dấu những vùng trình tự nhiễu của các bào quan 
 Assembling: sắp gióng cột vá chồng các trình tự lại với nhau 
tạo thành các Contigs và Singletons 
 24 
Egassembler web có 3 tùy chọn chính, mỗi tùy chọn dành cho những ngƣời 
dùng khác nhau 
 One-Click Assembly : cho ngƣời dùng mới bắt đầu với sinh tin học, các 
bƣớc sẽ đƣợc thực hiện lần lƣợt theo mặc định đã cài sẵn, ngƣời dùng có 
thể lựa chọn thƣ viện dữ liệu để dấu những vùng lặp lại, dấu những vùng 
trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của 
các bào quan.Các quá trình xử lý đƣợc thực hiện lần lƣợt. 
 Step-by-Step Assembly: Ngƣời dùng có thể sử dụng mọi công cụ trong 
web, và có thể chạy từng mục một với các tùy chọn nâng cao. Kết quả 
đầu ra ở bƣớc trƣớc sẽ đƣợc sử dụng làm dữ liệu đầu vào cho bƣớc tiếp 
theo một cách tự động. Ngƣời dùng có thể đi đến bất kỳ bƣớc nào vào bất 
cứ thời điểm nào với kết quả đã đƣợc lƣu lại từ trƣớc 
 Stand-Alone Processing : Tùy chọn này giống với Step-by-Step 
Assembly chỉ khác ở chỗ ngƣời dùng không thể sử dụng kết quả đầu ra ở 
bƣớc trƣớc để làm dữ liệu đầu vào cho các quá trình sử lý khác 
3.1.3 Apache web Server 
. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện 
nay trên Internet. Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là 
một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp 
Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên 
thế giới. 
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web 
thông qua các module. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải 
trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng. 
Apache có thể đƣợc tải về từ địa chỉ : ( 
 25 
3.4 CÁC BƢỚC TIẾN HÀNH 
 1 Thu nhập trình tự 
 2 Lọai các dữ liệu nhiễu và dƣ 
 3. Aseembling 
 4 Tìm SSR 4.1Blastn 4 Tìm SSR 
 5 Thiết kế và kiểm tra Primer 
6. tBLASTx trên cơ 
 sở dữ liệu UniGene 
 7. 7.Đƣa vào 
 Sơ đồ qui trình phân lập và xác định 8 Tích hợp 
 chức năng SSR của cây cam quýt 
CSDL dbEST và CoreNucleotide của NCBI 
ESTs - Citrus 
ESTs Citrus không 
thừa, không nhiễu 
Contigs 
Singletons 
ESTs, SSR Citrus 
CSDL EST-SSr 
Primer Citrus 
Cơ sở dữ liệu quan hệ 
WebSite 
Cơ sở dữ liệu EST-SSR-
Primer Citrus liên quan đến 
gene kháng bệnh 
EST-SSR none 
primer citrus 
 26 
Bƣớc 1. Thu thập trình tự ESTs Citrus từ CSDL dbEST 
Quá trình thu nhận trình tự nucleotide đƣợc tóm tắt thành sơ đồ sau 
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI 
Từ khóa sử dụng cho tung lòai là 
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI 
Citrus aurantium "txid43166"[Organism] AND gbdiv_EST[PROP] 
Citrus clementina "txid85681"[Organism]ANDgbdiv_EST[PROP] 
Citrus jambhiri "txid64884"[Organism]ANDgbdiv_EST[PROP] 
Citrus macrophylla (colo) "txid307630"[Organism]ANDgbdiv_EST[PROP] 
Citrus reticulata x Citrus 
temple 
“xid322160"[Organism]ANDgbdiv_EST[PROP] 
Truy cập trang web NCBI 
Nhập từ khóa 
Chọn lọc theo giống 
Chọn cơ sở dữ liệu EST 
Chọn dạng FASTA 
Thu nhận tất cả trình tự 
nucleotide theo từng giống 
Chọn dạng Summary 
Thu nhận các thông tin liên 
quan 
 27 
Citrus reticulata "txid85571"[Organism] AND gbdiv_EST[PROP] 
Citrus sinensis “xid2711"[Organism] AND gbdiv_EST[PROP] 
Citrus unshiu “xid55188"[Organism] AND gbdiv_EST[PROP] 
Citrus x paradisi ( “xid37656"[Organism] AND gbdiv_EST[PROP] 
Citrus sinensis x Poncirus 
trifoliata 
“xid105581"[Organism]AND gbdiv_EST[PROP] 
Citrus x paradisi x 
Pondcirus trifoliata 
“"txid309804"[Organism]ANDgbdiv_EST[PROP] 
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI 
(www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) 
 28 
Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một giải thuật 
bắt cặp trình tự đƣợc David J. Lipman và William R. Pearson miêu tả lần đầu tiên 
vào năm 1985 (Rapid and sensitive protein similarity searches), nó có một hàng chú 
thích bắt đầu bằng ký tự “>” ở cột đầu tiên. 
 Ví dụ một định dạng FASTA: 
>gi|146351219|gb|EG026743.1|EG026743 KN0AAA2CF05ZM1 AbsAOv1 
(Citrus) clementina cDNA 5', mRNA sequence 
GGCTCAAGTACTTATTTTTTAATATAGTGCACTCGAAGCTAGCAAATATC
TTTTCTGACTTGAAGAATATGAAAACTCTTCCTGGCGCAGGTATGAGCG
ATCCGTCAGAAGGTTACTTACTCCCCCCTTCCAGTATTGCTGATGATGAT
GTTGGGAATGACAATCTTGATCTTATCGTTATTCCTCAATATGGGAGAA
ATCCTGATTATTATGGGTAAGTGTCTGCAATCTGGATGATGATATATATA 
Trong đó: 
 gi là mã số do NCBI quy định. 
 gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài. 
Chúng tôi thu nhận đƣợc tổng cộng 189385 trình tự ESTs, thuộc 11 lòai khác 
nhau. 
 29 
Bƣớc 2.Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các 
bƣớc sau: 
Hình 3.2 : Các bƣớc thực hiện của EGassembler 
 30 
2.1 Làm sạch trình tự: loại các đuôi PolyA/PolyT, những vùng trình tự 
phức tạp thấp, những vùng trình tự kém chất lƣợng (N), những trình tự ESTs < 
100N. 
2.2 Dấu những vùng lặp lại: nhƣ LINEs (long interspersed elements), 
SINEs (short interspersed elements), LTR (Long Tandem Repeat), DNA 
transposon, RNA pseudogenes dựa trên CSDL RepBase, TIGR và TREP. 
2.3 Dấu những vùng trình tự nhiễu của vector và adaptors: dựa trên 
CSDL NCBI-UniVec hay EMBL-emvec. 
2.4 Dấu những vùng trình tự nhiễu của các bào quan: nhƣ Plastids, 
Plasmids, ti thể và Nucleomorph dựa trên CSDL của NCBI-organelle. 
Bƣớc 3. Assembling: bằng EGassembler với hai hoặc nhiều trình tự chồng lên nhau 
có độ tƣơng đồng tối thiểu là 80% và chiều dài của đoạn chồng lên nhau tồi thiểu là 
40N. 
 Các trình tự có độ tƣơng đồng cao đƣợc gom lại thành một gọi là 
Contigs.Các đọan trình tự không có đọan tƣơng đồng với các trình tự khác đƣợc gọi 
là Singleton. 
Hình 3.3 phân biệt giữa Contig và Singleton 
Bƣớc 4.Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder 
Thu nhận trình tự SSR 
Các bƣớc thực hiện: 
Trình tự nucleotide thu nhận từ NCBI về đƣợc lƣu thành tập tin với tên là 
“sequence20030101.txt”. 
 31 
Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chƣơng trình sẽ tạo ra 3 
tập tin khác với tên lần lƣợt là “ssrout20030101.txt”, “labdbout20030101.txt”, 
“new_ids20030101.txt”. 
Hình 3.4 nội dung tập tin “ssrout20030101.txt” 
Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là: 
Mã của đoạn SSR (SSR Version) (EG026717.1a) dựa vào mã số genbank 
(EG026717.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một trình tự có 2 hay 
nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,… (EG026717.1a và 
EG026717.1b) 
Trình tự đoạn SSR: TATATATATATA 
Đoạn SSR (Motif): TA 
Đoạn SSR trong trình tự chính đƣợc rút gọn, nó đƣợc phân biệt trong dấu 
“[]” 
TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTG
ATATCAACTGTTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTC
TATTAACTTGTCAATAAAAGTAAAGAATTCCTGTATTGCAAAATTACTTT
[TATATATATATA]GAGGGGTTATGCGGTCTGGGATCCCAGACTGTAATT
AAAGTCCAGGAT 
Hình 3.5 nội dung tập tin “labdbout20030101.txt” 
EG026717.1 EG026717.1a TATATATATATA TA 369,12
 TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTGATAT
CAACTGTTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTCTATTAACTTGTCAA
TAAAAGTAAAGAATTCCTGTATTGCAAAATTACTTT[TATATATATATA]GAGGGGTTA
TGCGGTCTGGGATCCCAGACTGTAATTAAAGTCCAGGATTGGGACCATGTGTAGCAGA
TTAATAAATAAATAAATAAATCCAACGGCCTCAGTCCGGATACTAGTTTGGAT 
EG026717.1a TATATATATATA TA
 TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTGATATCAACTG
TTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTCTATTAACTTGTCAATAAAAGTAAAGA
ATTCCTGTATTGCAAAATTACTTT[TATATATATATA]GAGGGGTTATGCGGTCTGGGATCCCAGA
CTGTAATTAAAGTCCAGGATTGGGACCATGTGTAGCAGATTAATAAATAAATAAATAAATCCAACG
GCCTCAGTCCGGATACTAGTTTGGAT 
 32 
Nội dung tập tin này gần giống với tập tin “ssrout20030101.txt”, nó chỉ bổ 
sung thêm phần mã genbank (EG026717.1) và vị trí bắt đầu (369) và chiều dài đoạn 
SSR (12). 
Hình 3.6 Nội dung tập tin “new_ids20030101.txt” 
Tập tin “new_ids06062007.txt” bổ sung thêm phần định nghĩa 
Nguyên tắc thu nhận trình tự 
Thu nhận các trình tự SSR bằng cách đếm các trình tự nu lập lại trong gene 
theo nguyên tắc: dimer 6 repeats, trimer 4 repeats, tetramer 4 repeats. Phải chắc 
rằng các SSR thu nhận phải có nhiều trình tự hơn giới hạn đã đặt ra ở trên và không 
thu nhận những trình tự có 1 trình tự lập lại nhiều lần nhƣ 
AAAAAAAAAAAAAAA, TTTTTTTTTTTTTTT 
Bƣớc 4.1 BLASTn: 
Dùng Perl script thực hiện việc tìm kiếm những trình tự EST-SSR không thể 
thiết kế primer do vùng flanking quá ngắn trên các contigs bảo tồn, với mục đích 
kéo dài các EST-SSR. Chúng tôi đã thiết kế Perl script “Blast on Contig” để thực 
hiện qui trình này vì trong phần mềm SSRFinder khong hỗ trợ chức năng này 
Các trình tự EST-SSR không thể thiết kế primer do vùng flanking quá ngắn 
đƣớc lƣu vào tập tin none_primer20030101.txt. Chúng tôi thiết kế perl script “blast 
on contigs” để thực hiện quá trình tBlastx trên các contigs bảo tồn nhằm kéo dài 
các EST-SSR không thiết kế đƣợc primer. Thực thi đoạn mã Perl “Blast on 
contigs.pl”, khi đó chƣơng trình sẽ tạo ra 3 tập tin khác với tên lần lƣợt là 
“blastout120030101.txt”, “fullblastout120030101.txt” và “contigs20030101.txt”. 
Các Ests mới thu nhận đƣợc sẽ đƣợc lƣu trong thƣ mục contigs20030101.txt 
EG026743.1 EG026743 KN0AAA2CF05ZM1 AbsAOv1 Citrus clementina 
cDNA 5', mRNA sequence 
EG026742.1 EG026742 KN0AAA2CD10ZM1 AbsAOv1 Citrus clementina 
cDNA 5', mRNA sequence 
 33 
Bƣớc 5.Thiết kế và kiểm tra primer: 
Thiết kế primer: trong vùng bảo tồn hai bên vùng SSR vừa tìm đƣợc ở trên 
bằng phần mềm Primer3 với nhiệt độ bắt cặp trong khoảng từ 63 đến 650C và sự 
chênh lệch giữa primer xuôi và primer ngƣợc không quá 10C, sản phẩm PCR có độ 
dài trong khoảng từ 80-300bp. 
Kiểm tra primer: bằng SSRFinder. Trƣớc tiên, kiểm tra các base lặp lại trong 
primer, nếu có 1 loại base lặp lại lớn hơn 3 lần thì loại bỏ primer đó. Sau đó, tiếp 
tục kiểm tra tính bắt cặp đặc hiệu của các primer đó bằng công cụ BLAST, nếu có ít 
hay nhiều hơn một primer xuôi và một primer ngƣợc bắt cặp lên một trình tự EST 
thì loại cặp primer đó. 
Bƣớc 6 tBLASTx: trên CSDL gen kháng virus tristeza của Poncitrus Trifoliata: 
nhằm mục đích xác định các EST-SSR có liên quan đến khả năng kháng bệnh dựa 
trên tìm kiếm tƣơng đồng ở các loài lân cận: chức năng của gene chứa các SSR và 
vai trò của các SSR trong chức năng của gene ở thực vật chƣa đƣợc biết rõ và ghi 
nhận nhiều. Một ví dụ khá hiếm và điển hình về loại chức năng này là ở gene waxy, 
khi đầu 5‟-UTR của gene này có số lần lặp lại của GA/CT thay đổi sẽ ảnh hƣởng 
đến hàm lƣợng amylose chứa trong gạo (Ayers et al., 1997). Ngoài ra, còn một số ví 
dụ khác về các gene có chứa SSR liên quan đến bệnh di truyền thần kinh ở ngƣời. 
Trong nghiên cứu này, chúng tôi đặc biệt quan tâm đến SSR trong các gene kháng ở 
thực vật, vì những thay đổi về số lần lặp lại của SSR có ảnh hƣởng rất lớn về khả 
năng kháng lại tác nhân gây bệnh ở thực vật 
 Cơ sở dữ liệu gene kháng virus tristeza đƣợc lấy từ cỏ sở dữ liệu NCBI với 
từ khóa là ”tristeza virus resistance gene” 
Bƣớc 7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ 
dàng truy xuất thông tin. 
Tạo bảng chứa dữ liệu 
Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng sang mô 
hình quan hệ nhƣ sau: 
 34 
 Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình 
quan hệ. 
 Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan hệ 
tƣơng ứng. 
 Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng. 
 Tạo các quan hệ 1: 
Bảng tblStrain 
Bảng 3.3 Nội dung tblStrain 
Tên trƣờng Kiểu dữ 
liệu 
Chú thích 
StrainID Text Mã số quy định giống. 
StrainName Text Tên của giống. 
Bảng tblMotifLengthGroup:chứa nội dung quy định mã các đoạn SSR 
Bảng 3. 4 Nội dung tblMotifLengthGroup 
Tên trƣờng Kiểu dữ 
liệu 
Chú thích 
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR 
MotifLengthGroup Text Chiều dài đoạn SSR. 
MotifDescription Text Chú thích. 
Bảng tblSSR: chứa thông tin về đoạn Microsatellite 
Bảng 3.5 Nội dung tblSSR 
Tên trƣờng Kiểu dữ 
liệu 
Chú thích 
SSRID Text Mã số của đoạn SSR. 
GenbankACC Text Chứa số truy cập trên NCBI. 
 35 
StrainID Text Mã số quy định giống. 
SSRVersion Text Phiên bản của đoạn SSR dựa vào. 
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR 
Motif Text Đoạn SSR. 
SSRSequence Text Trình tự đoạn SSR 
SSRStart Number Vị trí bắt đầu. 
Length Number Chiều dài đọan SSR 
ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn 
trình tự chính để ngƣời xem có thể 
dễ nhận ra vị trí đoạn SSR. 
Xây dựng mối quan hệ (khóa chính và khóa ngoại) 
 tblStrain 
Khóa chính: StrainID 
 tblMotifLengthGroup 
Khóa chính: MotifLengthGroupID 
 tblSSR 
Khóa chính: SSRID 
Khóa ngoại: StrainID, MotifLengthGroupID 
Nhập dữ liệu vào bảng 
Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc nhập cơ 
sở dữ liệu vào các bảng phải đƣợc thực hiện một cách tuần tự, nếu không sẽ phát 
sinh lỗi và không thể nhập đƣợc. 
Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa ngoại) để nó có 
thể quản lý các thông tin một cách chính xác và không trùng lắp. 
Bƣớc 8. Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia 
sẽ thông tin qua mạng. 
 36 
Nhằm tạo giao diện thân mật, dễ sử dụng cho ngƣời dùng cuối, trang web đã 
đƣợc tạo ra để đƣa cơ sở dữ liệu đến ngƣời dùng. Sau đó dựa vào cơ sở dữ liệu 
Microsatelite, ngƣời dùng có thể phục vụ cho việc nghiên cứu riêng của mình. Việc 
thiết kế trang web CSDL microsatellites của chi cam chanh (Citrus) đƣợc tham 
khảo với trang web mẫu về phƣơng pháp micorsatellite khác đã phổ biến trên 
intermet trƣớc đó. 
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn:  
Các bƣớc thực hiện thiết kế Website 
Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ liệu 
Microsatelite, còn có những phần thông tin thêm vào để ngƣời sử dụng có thể hiểu 
rõ hơn về Chi cam chanh (Citrus) và phƣơng pháp Microsatelite. 
Thiết kế mối liên kết tố các cơ sở dữ liệu sinh học lớn khác nhƣ NCBI, 
Egassembler, DDBJ .... 
Thiết kế giao diện để ngƣời dùng có thể sử dụng một cách dễ dàng nhất. 
Tích hợp cơ sở dữ liệu vào trang web. 
 37 
Chƣơng 4 
KẾT QUẢ VÀ THẢO LUẬN 
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST của NCBI 
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI 
Citrus aurantium (Seville orange) 5060 ESTs 
Citrus clementina 62250 ESTs 
Citrus jambhiri (jambhiri orange) 989 ESTs 
Citrus macrophylla (colo) 1076 ESTs 
Citrus reticulata x Citrus temple 1823 ESTs 
Citrus reticulata (tangerine) 3640 ESTs 
Citrus sinensis (apfelsine/navel orange) 94738 ESTs 
Citrus unshiu (Satsuma orange) 4489 ESTs 
Citrus x paradisi (grapefruit) 8039 ESTs 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 1052 ESTs 
Citrus x paradisi x Pondcirus trifoliata 7954 ESTs 
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài 
 38 
Chúng tôi thu nhận đƣợc 11 lòai khác nhau thuôc chi cam chanh, trong đó 
Citrus Clementina và Citrus Sinensis có số trình tự ESTs đƣợc giải mã và công bố 
nhiều nhất, Citrus jambhiri có lƣợng ESTs ít nhất. 
4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler 
4.2.1 Làm sạch trình tự 
Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1 
Citrus aurantium (Seville orange) by 'short': 2 
 by 'shortq': 8 
Citrus clementina by 'dust': 1 
by 'shortq': 18 
Citrus jambhiri (jambhiri orange) 0 
Citrus macrophylla (colo) by 'short': 22 
by 'shortq': 4 
Citrus reticulata x Citrus temple 0 
Citrus reticulata (tangerine) by 'dust': 1 
by 'shortq': 18 
Citrus sinensis (apfelsine/navel orange) by 'dust': 10 
by 'short': 71 
by 'shortq': 330 
by 'low_qual': 78 
Citrus unshiu (Satsuma orange) by 'dust': 1 
by 'short': 5 
by 'shortq': 28 
by 'low_qual': 5 
Citrus x paradisi (grapefruit) by 'dust': 1 
by 'short': 18 
by 'shortq': 13 
by 'low_qual': 25 
Citrus sinensis x Poncirus trifoliata (Carrizo 
citrange) 
by 'shortq': 14 
by 'low_qual': 1 
Citrus x paradisi x Pondcirus trifoliata by 'short': 20 
by 'shortq': 4 
Chú thích: 
 By „dust‟: những vùng trình tự phức tạp thấp 
 by 'shortq': loại các đuôi PolyA/PolyT 
 by 'short': những trình tự ESTs < 100N. 
 by 'low_qual': những vùng trình tự kém chất lƣợng (N) 
 39 
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors 
Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3 
Citrus aurantium (Seville orange) 0 
Citrus clementina 37 
Citrus jambhiri (jambhiri orange) 1 
Citrus macrophylla (colo) 0 
Citrus reticulata x Citrus temple 0 
Citrus reticulata (tangerine) 0 
Citrus sinensis (apfelsine/navel orange) 72 
Citrus unshiu (Satsuma orange) 11 
Citrus x paradisi (grapefruit) 10 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 6 
Citrus x paradisi x Pondcirus trifoliata 1 
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan 
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 
Citrus aurantium (Seville orange) 1 
Citrus clementina 50 
Citrus jambhiri (jambhiri orange) 5 
Citrus macrophylla (colo) 0 
Citrus reticulata x Citrus temple 1 
Citrus reticulata (tangerine) 7 
Citrus sinensis (apfelsine/navel orange) 679 
Citrus unshiu (Satsuma orange) 15 
Citrus x paradisi (grapefruit) 128 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 3 
Citrus x paradisi x Pondcirus trifoliata 0 
 40 
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu 
Sau quá trình lọai nhiễu chúng tôi đã bớt đi một lƣợng khá lớn ESTs không 
đủ tiêu chuẩn (1725 ESTs). Điều này giúp việc tìm kiếm SSRs và thiết kế Primers 
tiến hành dễ dàng và chính xác hơn. 
 41 
4.3 Assembling 
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling 
Citrus aurantium (Seville orange) 875 Contigs 
Citrus clementina 7667 Contigs 
Citrus jambhiri (jambhiri orange) 75 Contigs 
Citrus macrophylla (colo) 77 Contigs 
Citrus reticulata x Citrus temple 257 Contigs 
Citrus reticulata (tangerine) 750 Contigs 
Citrus sinensis (apfelsine/navel orange) 10804 Contigs 
Citrus unshiu (Satsuma orange) 479 Contigs 
Citrus x paradisi (grapefruit) 1176 Contigs 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 125 Contigs 
Citrus x paradisi x Pondcirus trifoliata 1993 Contigs 
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs 
 42 
 Từ cơ sở dữ liệu ESTs ban đầu chúng tôi xác định đƣợc một số lƣợng lớn các 
Contigs có độ tƣơng đồng cao so với các trình tự EST này, từ đó chúng tôi tiến hành 
phân lập và thiết kế primer cho các contigs nhằm xác định thêm các trình tự SSR có 
thể có trong các contigs đó 
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder 
Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc 
Citrus aurantium (Seville orange) 511 SSRs 
Citrus clementina 10937 SSRs 
Citrus jambhiri (jambhiri orange) 81 SSRs 
Citrus macrophylla (colo) 72 SSRs 
Citrus reticulata x Citrus temple 116 SSRs 
Citrus reticulata (tangerine) 432 SSRs 
Citrus sinensis (apfelsine/navel orange) 10145 SSRs 
Citrus unshiu (Satsuma orange) 225 SSRs 
Citrus x paradisi (grapefruit) 2685 SSRs 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 109 SSRs 
Citrus x paradisi x Pondcirus trifoliata 2928 SSRs 
 43 
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu 
 Khả năng phân lập SSR từ EST khá cao. 28241 SSR đã đƣợc phân lập từ cơ 
sở dữ liệu EST ban đầu. 
4.4.1 BLASTn: 
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành 
 None Primers ESTs mới Primer tạo thành 
Citrus aurantium 191 41 20 
Citrus clementina 4876 3510 456 
Citrus jambhiri 25 0 0 
Citrus macrophylla 2 0 0 
Citrus reticulata x Citrus temple 45 9 3 
Citrus reticulata 297 50 14 
Citrus sinensis 5004 3532 489 
Citrus unshiu 70 30 8 
Citrus x paradisi 752 199 35 
Citrus sinensis x Poncirus trifoliata 59 13 2 
Citrus x paradisi x Pondcirus trifoliata 419 251 44 
 44 
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới 
 45 
 Chúng tôi phân lập thêm đƣợc một lƣợng lớn các trình tự EST từ các trình tự 
EST không thể thiết kế mồi ban đầu từ đó phân lập và thiết kế thêm đƣợc 1071 
primer SSR mới. 
4.5.Thiết kế và kiểm tra primer 
Thiết kế primer 
Bảng 4.8 Tổng số primer thiết kế đƣợc 
Citrus aurantium (Seville orange) 413 Primers 
Citrus clementina 9608 Primers 
Citrus jambhiri (jambhiri orange) 69 Primers 
Citrus macrophylla (colo) 70 Primers 
Citrus reticulata x Citrus temple 97 Primers 
Citrus reticulata (tangerine) 352 Primers 
Citrus sinensis (apfelsine/navel orange) 8463 Primers 
Citrus unshiu (Satsuma orange) 171 Primers 
Citrus x paradisi (grapefruit) 1420 Primers 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 94 Primers 
Citrus x paradisi x Pondcirus trifoliata 834 Primers 
Kiểm tra primer 
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra 
Citrus aurantium (Seville orange) 391 Primers 
Citrus clementina 9181 Primers 
Citrus jambhiri (jambhiri orange) 67 Primers 
Citrus macrophylla (colo) 70 Primers 
Citrus reticulata x Citrus temple 94 Primers 
Citrus reticulata (tangerine) 348 Primers 
Citrus sinensis (apfelsine/navel orange) 8242 Primers 
Citrus unshiu (Satsuma orange) 168 Primers 
Citrus x paradisi (grapefruit) 1396 Primers 
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 86 Primers 
Citrus x paradisi x Pondcirus trifoliata 783 Primers 
 Sau khi thiết kế và kiểm tra primer chúng tôi đã xác định đƣợc 19,755 cặp 
mồi đạt yêu cầu đặt ra.So với tỉ lệ các SSR ban đầu thì tỉ lệ các trình tự có thể thiết 
kế mồi khá là cao 
 46 
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra 
 47 
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc 
 48 
 Chúng tôi xác định đƣợc 1 lƣợng lớn các cặp mồi đủ điều kiện đã đặt ra. Đa 
số các SSR tìm đƣợc đều có thể thiết kế mồi. 
4.6 tBLASTx 
Chúng tôi xác định đƣợc 33 EST-SSRs tƣơng đồng gene kháng virus 
Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10. 
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza 
Mã số Lòai SSR Motif 
CX052406.1a 
CN182797.1a 
Citrus sinensis 
Citrus sinensis 
ACACACACACAC AC 
DN799259.1a 
CV718404.1a 
Contig1678a 
CX290096.1a 
Citrus reticulata x 
Citrus sinensis 
Citrus sinensis 
Citrus clementina 
AGAGAGAGAGAG AG 
DR908292.1a 
DN620117.1a 
Citrus sinensis 
Citrus sinensis 
AGAAGAAGAAGA AGA 
CX053145.1a Citrus sinensis AGCAGCAGCAGC AGC 
V715355.1a Citrus sinensis ATAATAATAATA ATA 
DY302690.1a
DY293832.1a 
DY284674.1 
DY269563.1a 
Contig1685a 
Citrus clementina ACCACCACCACC ACC 
DY304067.1a
DY301664.1a
DY294592.1a 
DY267783.1a 
DY265810.1a 
DY263066.1a 
Citrus clementina ATCATCATCATCATC ATC 
CX078270.1a Citrus sinensis TATATATATATA TA 
CX052405.1a Citrus sinensis TGTGTGTGTGTG TG 
CX070771.1a 
CN182794.1a 
Citrus sinensis TCATCATCATCA TCA 
CV719546.1a Citrus sinensis TGGTGGTGGTGG TGG 
DY276141.1b Citrus clementina TCGTCGTCGTCG TCG 
CV719898.1a 
DN958924.1a 
Citrus sinensis 
Citrus x paradisi 
CCTCCTCCTCCT CCT 
CV714983.1 Citrus sinensis CCACCACCACCA CCA 
BQ624932.1a Citrus sinensis CGACGACGACGA CGA 
DY279874.1 Citrus clementina CGACGACGACGA CGA 
 49 
CX296075.1a
Citrus sinensis x 
Poncirus trifoliata 
TCTCTCTCTCTCTCTC TCTC 
 Các ESTs-SSRs tƣơng đồng gene kháng virus Tristeza chủ yếu đƣợc phát 
hiện ở hai loài Citrus Clementina và Citrus Sinensis do lƣợng trình tự EST-SSRs 
khá lớn (hình 4.1). Ở những lòai khác do số lƣợng các ESTs đƣợc giải mã không 
nhiều nên chƣa tìm đƣợc các ESTs-SSRs tƣơng đồng gene kháng virus Tristeza. 
4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ 
dàng truy xuất thông tin. 
Hình 4.8 : Mối quan hệ giữa các bảng 
4.8 Tích hợp CSDL vừa xây dựng vào web 
4.8.1 Trang chủ (HOME PAGE) 
Hình 4.9: Tổng quan về Website 
 50 
Nội dung trang web: Gồm các lựa chọn để liên kết đến các trang web chứa 
thông tin và cơ sở dữ liệu khác. 
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) 
Nội dung của trang web: Chứa cơ sở dữ liệu trình tự microsatellite của chi 
cam chanh (citrus) gồm có: 
Thể hiện tất cả cơ sở dữ liệu SSRs (All): các loại SSRs sẽ đƣợc thể hiện, 
không đƣợc phân loại. Hình thức thể hiện: 
Hình 4.10 Trang cơ sở dữ liệu SSRs (All) 
Tìm kiếm các trình tự cần thiết: 
 Tìm kiếm theo “StrainId” và “MotifLengthGroup”: Khi ngƣời dùng quan 
tâm đến từng nhóm microsatellite. 
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu 
StrainID Name 
ST01 Citrus clementina 
ST02 Citrus sinensis 
ST03 Citrus jambhiri 
ST04 Citrus aurantium 
ST05 Citrus macrophylla 
ST06 Citrus reticulata 
 51 
ST07 Citrus sinensis x Poncirus trifoliata 
ST08 Citrus unshiu 
ST09 Citrus x paradisi 
ST10 Citrus reticulata x Citrus temple 
ST11 Citrus x paradisi x Pondcirus trifoliata 
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu 
Motif Length 
Group ID 
Motif Length 
Group 
Description 
2 Dimer Dinucleotide SSR 
3 Trimer Trinucleotide SSR 
4 Tetramer Tetranucleotide SSR 
5 Pentamer Pentanucleotide SSR 
6 Hexamer Hexanucleotide SSR 
7 Heptamer Heptanucleotide SSR 
8 Octamer Octanucleotide SSR 
9 Nonamer Nonanucleotide SSR 
10 Decamer Decanucleotide SSR 
72 Dodecamer Dodecamer SSR 
Hình thức thể hiện: 
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và 
“Motif Length Group ID” là 3
 52 
Chƣơng 5 
KẾT LUẬN VÀ ĐỀ NGHỊ 
5.1. Kết luận 
 Đề tài gồm 7 bƣớc đƣợc thực hiện lần lƣợt nhằm mục đích xác định 1 cách 
chính xác các SSRs và thiết kế mồi cho SSR đó 
Chúng tôi đã tải đƣợc 191,110 trình tự ESTs của chi Citrus bao gồm 11 loài 
khác nhau, tiến hành loại nhiễu bằng Egassembler lọai bỏ đƣợc 1725 trình tự ESTs 
không phù hợp yêu cầu. 
Tiến hành Assembly Các trình tự ESTs vừa thu nhận đƣợc bằng Egassembler 
chúng tôi thu nhận đƣợc 24278 Contigs. 
Blast các trình tự ESTs không thể thiết kế mồi trên các Contigs phân lập 
đƣợc thêm 7635 ESTs mới 
28241 trình tự SSRs đƣợc phân lập nhờ Perl script từ cơ sở dữ liệu ESTs ban 
đầu 
Kiểm tra thiết kế mồi cho các SSRs mới tìm đƣợc, chúng tôi xác định đƣợc 
19,755 cặp mồi 
Tiến hành Blast trên cơ sở dữ liệu gen kháng virus tristeza xác định đƣợc 33 
ESTs-SSRs có các motif tƣơng đồng với motif của gen kháng virus 
Tích hợp tất cả các cơ sở dữ liệu thu nhận đƣợc vào website SSRs Database 
of Citrus 
Trang Web cơ sở dữ liệu gồm có 7 trang chính, đó là HOME, Citrus, 
ABOUT SSRs, SSRs, TOOLS, ABOUT US, Other Links. Ngoài ra, từ những trang 
web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện 
ích cho ngƣời dùng. Từ các trang web này, ngƣời sử dụng có thể truy xuất thông 
tin. 
 53 
 Về cơ bản chúng tôi đã tìm, thu nhập và phân lập hầu hết các ESTs-SSRs của 
chi cam chanh đã đƣợc công bố trên NCBI 
5.2. Đề nghị 
 Nên cập nhật cơ sở dữ liệu theo định kỳ vì lƣợng trình tự đƣợc giải mã và 
công bố ngày càng nhiều để đảm bào tính cấp bách và phong phú của Website 
 Mở rộng cơ sở dữ liệu sang các chi, các lòai khác nhằm phục vụ cho nhu cầu 
nghiên cứu và tìm hiểu 
Cần thiết lập thêm các bẫy lỗi đƣợc trình bày ở bƣớc 7 để đảm bảo hơn việc 
hạn chế trùng lắp dữ liệu không cần thiết khi nhập. 
Xây dựng nhiều trang web chứa các thông tin tìm kiếm và công cụ 
(assembly, thiết kế primer, enzyme cắt giới hạn, xây dựng mô hình cấu trúc,…) 
phục vụ cho việc khai thác thông tin và các ứng dụng khác. 
Tiến hành thiết kế mồi chung phục vụ cho phản ứng PCR phân biệt các loài 
trong họ và giữa các họ thông qua các trang web thiết kế primer trực tuyến trên 
Internet nhƣ GeneFisher, Primer3,… hay xây dựng trang web chứa công cụ phục vụ 
cho thiết kế primer nhƣ GPRIME, Primer3,…kết hợp với ngôn ngữ lập trình Perl. 
 54 
Chƣơng 6 
TÀI LIỆU THAM KHẢO 
TÀI LIỆU TIẾNG VIỆT 
1. Trần Nguyễn Minh Đăng, 2005. XÂY DỰNG CƠ SỞ DỮ LIỆU SSRS (SIMPLE 
SEQUENCE REPEATS) TỪ ESTS (EXPRESSED SEQUENCE TAGS) CỦA 
CÂY DỨA (Ananas comosus). Khóa luận tốt ngiệp Ngành Công nghệ sinh học, 
Đại học Nông lâm TP Hồ Chí Minh. 
2. Nguyễn Minh Đạo, 2002. MS-Access 2000. Trƣờng đại học Sƣ Phạm Kỹ Thuật, 
khoa Công Nghệ Thông Tin. 
3. Nguyễn Thị Lang – Bùi Chí Bửu, 2005. Sinh học phân tử. Giới thiệu phương 
pháp và ứng dụng. Nhà xuất bản nông nghiệp TP. HCM. 
4. Bùi Huy Quỳnh, 2002. Front Page 2000. Trƣờng đại học Sƣ Phạm Kỹ Thuật, 
khoa Công Nghệ Thông Tin. 
5. Nguyễn Trƣờng Sinh – Lê Minh Hoàng – Hoàng Đức Hải, 2003. Thực hành 
JavaScript (cho web). Nhà xuất bản Thống Kê. 
6. Nguyễn Văn Thái, 2005. Xây dựng cơ sở dữ liệu hai gene Hsp-70 và Reverse 
Transcripte-Rnaseh ở một số loài virus thực vật. Khóa luận tốt ngiệp Ngành 
Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh. 
7. Nguyễn Kỳ Trung – Lê Thành Trung, 2005. Thu thập và tổ chức dữ liệu gene 
phục vụ nghiên cứu cây trồng biến đổi di truyền. Khóa luận tốt ngiệp Ngành 
Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh. 
TÀI LIỆU NƢỚC NGOÀI 
8.Acquadro A., Lee D., Donini P., Portis E., Comino C., Saba E., Lanteri S., 2003. 
Microsatellite Amplified Library (MAL): an alternative approach for STMS 
isolation. Bologna – Italy. 
9.Ali Masoudi-Nejad, Ruy Jauregui, Shuichi Kawashima, Susumu Goto, Minoru 
Kanehisa, Takashi R. Endo, 1999.The kingdom of Plantae EST Indices: a 
resource for plant genomics community 
10.Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, 
Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and 
PSI-BLAST: a new generation of protein database search programs", Nucleic 
Acids Res. 25:3389-3402. 
 55 
11.Andrew J. Robinson , Christopher G. Love , Jacqueline Batley ,Gary Barker and 
David Edwards, 2004. Simple sequence repeat marker loci discovery using SSR 
primer. 
12.Andrew Salywon, Matthew Barber, Nathan Herling, and William Stewart. 2005. 
Data mining for microsatellites in expressed sequence tags (ESTs) from 
arabidopsis thaliana and brassica species (brassicaceae). 
13.A Story Book Future for Lesquerella? Agricultural Research Magazine. (1999) 
November. Benson, G, 1999. Tandem repeats finder: a program to analyze DNA 
sequences. Nucleic Acids Res. 27, 573–580. 
14.Castelo, A.T. et al., 2002. Troll – Tandem Repeat Occurrence Locator. 
Bioinformatics 18, 634–636. Huang, X. and Madan, A., 1999. CAP3: A DNA 
sequence assembly program. Genome Research, 6: 829–845. 
15.Edward F. Gilman, 1999. Ananas comosus. University of Florida. Jorge A. Da 
Silva , Nora Solis-Gracia, 2003.Tagging resistance genes with sugarcane est-
derived microsatellites. 
16.Huang, X. and Madan, A., 1999. CAP3: A DNA sequence assembly program. 
Genome Research, 6: 829–845. 
17.Kantety, R.V., M.L. Rota, D.E. Mathews, and M.E. Sorrells, 2002. Data mining 
for simple sequence repeats in expressed sequence tags from barley, maize, rice, 
sorghum and wheat. Plant. Mol. Biol. Rep. 48:501-510. 
18.K.D. Scott, Microsatellites Derived from ESTs and their Comparison with those 
Derived by Other Methods. Centre for Plant Conservation Genetics, Southern 
Cross University, Lismore, Australia. 
19.Morgante M., Hanafey M., and Powell W, 2002. Microsatellites are 
preferentially associated with non repetitive DNA in plant genomes. Nature 
Genetics . 30:194-200. 
20.Morgante, M. and Olivieri, A.M., 1993. PCR-amplified microsatellites as 
markers in plant genetics. Plant J. 3, 175–182. 
21.Morgante, M. et al., 2002 Microsatellites are preferentially present with non-
repetitive DNA in plant genomes. Nat. Genet. 30, 194–200. 
22.P. K. Gupta, H. S. Balyan, P. C. Sharma and B. Ramesh, 2000.Microsatellites in 
plants: A new class of molecular markers. 
 56 
23.Rozen, S., Skaletsky, H. "Primer3 on the WWW for general users and for 
biologist programmers." In S. Krawetz and S. Misener, eds. Bioinformatics 
Methods and Protocols in the series Methods in Molecular Biology. Humana 
Press, Totowa, NJ, 2000, pages 365-386. Code available at 
24.Ramesh V. Kantety, Mauricio La Rota, David E. Matthews and Mark E. 
Sorrells, 2002. Data mining for simple sequence repeats in expressed sequence 
tags from barley, maize, rice, sorghum and wheat. Kluwer Academic Publishers. 
25.Win Hide, Rob Miller, Andrey Ptitsyn, Janet Kelso, Chellapa Gopallakrishnan 
and Alan Christoffels, 1999. EST Clustering Tutorial. 
TÀI LIỆU TỪ CÁC TRANG WEB: 
26. 
27. < 
28. 
29. 
30.< 
31. 
32. 
33. 
34. 
35. 
36. 
37. 
38. 
39. 
 57 
Phụ Lục 
Trang thông tin về Citrus (Citrus PAGE) 
Nội dung của trang web: Giới thiệu một cách tổng quát về chi cam chanh citrus 
. 
Tổng quan về Citrus 
Trang thông tin về microsatellite (ABOUT SSRs PAGE) 
Nội dung của trang web: Giới thiệu chung về phƣơng pháp microsatellite 
Trang Microsatellites 
Trang tích hợp công cụ để tìm kiếm SSR 
 58 
 Dùng để tìm trình tự microsatellite trong cơ sở dữ liệu của website, kết quả sẽ 
hiển thị kết quả đoạn SSR tìm đƣợc 
Trang web tìm kiếm trình tự microsatellite bằng mã số truy cập 
Trang web tìm kiếm trình tự microsatellite bằng Motif 
 59 
Trang công cụ 
Trang tích hợp công cụ để tìm kiếm SSR 
Dùng để tìm trình tự microsatellite từ một trình tự bất kỳ hay upload file ở định 
dạng FASTA, kết quả sẽ hiển thị kết quả đoạn SSR tìm đƣợc. 
Trang web tìm kiếm trình tự microsatellite 
Tuy nhiên, Website đang dần đƣợc hoàn thiện để có thể chính thức đƣa vào 
sử dụng trực tuyến. 
            Các file đính kèm theo tài liệu này:
LUU TRAN CONG HUY.pdf