پیدا کردن ژن ها در موجودات یوکاریوت و پروکاریوت، کار بسیار سخت و مشکلی است که با کمک تکنیکهای جدیدی مانند Next Generation Sequencing (NGS) میتوان تا حد زیادی آن را ساده و عملی کرد. برای پیدا کردن ژنها در ژنوم موجودات مختلف نیاز به یکسری اطلاعت اولیه در مورد ژنوم میباشیم که در زیر به طور خلاصه آورده شده است.
Example: human genome
3,200,000,000 base pairs
25 chromosomes : 1-22, X, Y, mt
28,000-45,000 genes (current estimate)
128 nucleotides (RNA gene) – 2,800 kb (DMD)
25% of genome are genes (introns, exons)
1% of genome codes for amino acids (CDS)
30 kb gene length (average)
1.4 kb ORF length (average)
3 transcripts per gene (average)
و همچنین شناختن اجزای کلی ژن یوکاریوتها که شامل اگزون، اینترون، نواحی شروع، نواحی خاتمه و … هستند نیز ضروری است که در داده ها و شکل زیر به اختصار آورده شده اند.
On average, a vertebrate gene is about 30KB long
Coding region takes about 1KB
Exon sizes can vary from double digit numbers to kilobases
average 5’ UTR is about 750 bp
An average 3’UTR is about 450 bp but both can be much longer.
مشکلاتی در پیدا کردن ژن ها در ژنوم وجود دارد :
- دانسیته پایین ژنها در ژنوم: یعنی تعداد ژنها در ژنوم آنقدر کم است که پیدا کردن آنها را سخت میکند و همچنین تقریبا هرچه موجود پیشرفتهتر باشد دانسیته ژنی آن کمتر است
- قسمتهای زیادی از ژن نواحی غیر کد کننده هستند که ویژگیهای ساختاری شبیه ژن دارند
- ممکن است طول اگزونها بسیار کوچک باشد و هرگز مورد شناسایی قرار نگیرند
انواع ژنها از نظر میزان اطلاع ما از آنها
1.Known Gene یا ژنهای شناخته شده: به طور کامل و در آزمایشگاه شناسایی و تعیین عملکرد شدهاند
- Putative Gene که پتانسیل ژن بودن را دارند اما هنوز به طور کامل شناسایی نشدهاند
- Unknown Gene که هنوز شناسایی نشدهاند و اطلاعاتی در مورد انها نیست
- Hypothetical Gene ژنهای فرضیای هستند که قطعیتی درمورد وجود آنها نیست
روشهای پیشبینی ژنها
انواع روشهای مبتنی بر شباهت (Extrinsic)
الف) با کمک cDNA: از روی RNA ها میتوان cDNA ساخت و سپس از روی تطابق آنها با توالیهای موجود در پایگاههای اطلاعاتی پی به وجود ژنها برد
ب) با کمک ESTها: از روی بخشهایی از RNA ها میتوان EST ساخت و سپس از روی تطابق آنها با توالیهای موجود در پایگاههای اطلاعاتی پی به وجود ژنها برد
ج) با کمک همولوژی پروتئینها: در این روش با کمک مقایسه توالیهای آمینواسیدی در پروتئینها پی به نواحی ژنی خواهند برد.
ابتدا از روی توالی DNA توالی پروتئین هدف را در شش فریم مختلف ترجمه کرده و هر شش فریم را با دادههای پروتئینی موجود در پایگاههای اطلاعاتی مقایسه میکنند.
این روش یکی از قابل اعتمادترین روشها میباشد.
د) مقایسه DNA در موجودات مختلف: در این مقایسه با کمک روشهایی مانند BLAST و FASTA و با کمک توالیهای به دست آمده از RNA به صورت cDNA و یا EST و همچنین توالیهای مستقیم DNA میتوان به توالی هدف مورد نظر رسید. در این روش فرض بر این است که ژنها محافظت شده تر و Conserved تر از سایر نواحی باشند و بدین ترتیب بتوان از روی شباهت آنها با موجودات همولوگ و ارتولوگ پی به وجود ژنها برد.
محدودیتها:
- ممکن است خیلی از توالیها در دیتابیسها نباشند و بدین ترتیب ما آنها را از دست بدهیم
- چون میزان اینکه چقدر شباهت نیاز است تا یک توالی را به عنوان ژن معرفی کنیم مشخص نیست، تعیین این مقدار سخت بوده و با خطا رو به است.
- عدم وجود تمام توالیها در دیتابیسها
- وجود خطا و دادههای اشتباه در دیتابیسها
- مشکل در تعیین میزان شباهت و اینکه چقدر شباهت نیاز است تا یک توالی را به عنوان ژن معرفی کنیم مشخص نیست، تعیین این مقدار سخت بوده و با خطا رو به است.
پیدا کردن ژن
روشهای مبتنی بر دادههای ریاضی و آماری (ab initio)
در این روشها از هیچ داده قبلیای در مورد ژن استفاده نشده است و تنها پیشبینی بر اساس سیگنالها و کامنتها انجام میگیرد.
این روش بر دو معیار اساسی انجام میگیرد
- بر اساس Content یا همان بازها
بر این معیارهای مختلفی از کانتنت یک ژنوم پی به وجود ژنهای آن برد:
- تعیین کدون آغاز و کدون پایان و سپس یافتن توالیهایی که دارای طول مناسب و معقول هستند
- تعیین درصد فراوانی کدونها در موجود هدف و سپس جستجو بر اساس بیشترین شباهت. مثلا اینکه درصد C برابر 21، درصد A برابر 28 و …. است
- استفاده از نسبت فراوانی کدونهای آمینواسیدهای مختلف. مثلا برای کد کردن آلانین از چه کدی بیشتر استفاده شده است و سپس مقایسه آن با توالیهای موجود در پایگاه دادهها
- بر اساس Signals یا همان توالیهای محافظت شده
بر اساس سیگنالهای مختلفی که در یک ژنوم وجود دارد میتوان پی به وجود ژنهای آن برد:
- consensus sequences
این توالیها در بین موجودات مختلف بسیار حفاظت شده میباشند و از روی آنها میتوان پی به وجود توالی مورد نظر برد.
این توالها در بین موجودات پروکاریوت نسبت یوکاریوتها محافظت شده تر میباشند.
نتایج به دست آمده از این توالیهای محافظت شده به صورت نموداهایی مانند زیر نمایش داده میشود
- weight matrices
از تبدیل توالیهای مختلف بسیار حفاظت شده در بین موجودات مختلف به ماتریس و دادن اسکور به آن میتوان پی به وجود توالی مورد نظر برد.
1 | 2 | 3 | 4 | 5 | 6 | |
A | 0 | 6 | 0 | 3 | 4 | 0 |
C | 0 | 0 | 1 | 0 | 1 | 0 |
G | 1 | 0 | 0 | 3 | 0 | 0 |
T | 5 | 0 | 5 | 0 | 1 | 6 |
TACGAT
TATAAT TATAAT GATACT TATGAT TATGTT |
مثلا TATAAA دارای امتیاز 5+6+5+3+4+0=23 خواهد شد.
- weight arrays
- decision trees
- Hidden Markov Models (HMMs)
- neural networks
لینک های مفید:
مطالب مرتبط
None found
Share It