پیدا کردن ژن‌ ها در موجودات یوکاریوت و پروکاریوت، کار بسیار سخت و مشکلی است که با کمک تکنیک‌های جدیدی مانند Next Generation Sequencing (NGS) می‌توان تا حد زیادی آن را ساده و عملی کرد. برای پیدا کردن ژن‌ها در ژنوم موجودات مختلف نیاز به یکسری اطلاعت اولیه در مورد ژنوم می‌باشیم که در زیر به طور خلاصه آورده شده است.

Example: human genome

3,200,000,000 base pairs

25 chromosomes : 1-22, X, Y, mt

28,000-45,000 genes (current estimate)

128 nucleotides (RNA gene) – 2,800 kb (DMD)

25% of genome are genes (introns, exons)

1% of genome codes for amino acids (CDS)

30 kb gene length (average)

1.4 kb ORF length (average)

3 transcripts per gene (average)

و همچنین شناختن اجزای کلی ژن یوکاریو‌تها که شامل اگزون، اینترون، نواحی شروع، نواحی خاتمه و … هستند نیز ضروری است که در داده ها و شکل زیر به اختصار آورده شده اند.

On average, a vertebrate gene is about 30KB long

Coding region takes about 1KB

Exon sizes can vary from double digit numbers to kilobases

average 5’ UTR is about 750 bp

An average 3’UTR is about 450 bp but both can be much longer.

مشکلاتی در پیدا کردن ژن‌ ها در ژنوم وجود دارد :

دانسیته پایین ژن‌ها در ژنوم: یعنی تعداد ژن‌ها در ژنوم آنقدر کم است که پیدا کردن آنها را سخت می‌کند و همچنین تقریبا هرچه موجود پیش‌رفته‍‌تر باشد دانسیته ژنی آن کمتر است
قسمت‌های زیادی از ژن نواحی غیر کد کننده هستند که ویژگی‌های ساختاری شبیه ژن دارند
ممکن است طول اگزون‌ها بسیار کوچک باشد و هرگز مورد شناسایی قرار نگیرند

انواع ژن‌ها از نظر میزان اطلاع ما از آنها

1.Known Gene یا ژن‌های شناخته شده: به طور کامل و در آزمایشگاه شناسایی و تعیین عملکرد شده‌اند

Putative Gene که پتانسیل ژن بودن را دارند اما هنوز به طور کامل شناسایی نشده‌اند
Unknown Gene که هنوز شناسایی نشده‌اند و اطلاعاتی در مورد انها نیست
Hypothetical Gene ژن‌های فرضی‌ای هستند که قطعیتی درمورد وجود آنها نیست

روش‌های پیش‌بینی ژن‌ها

انواع روش‌های مبتنی بر شباهت (Extrinsic)

الف) با کمک cDNA: از روی RNA ها می‌توان cDNA ساخت و سپس از روی تطابق آنها با توالی‌های موجود در پایگاه‌های اطلاعاتی پی به وجود ژن‌ها برد

ب) با کمک ESTها: از روی بخش‌هایی از RNA ها می‌توان EST ساخت و سپس از روی تطابق آنها با توالی‌های موجود در پایگاه‌های اطلاعاتی پی به وجود ژن‌ها برد

ج) با کمک همولوژی پروتئین‌ها: در این روش با کمک مقایسه توالی‌های آمینواسیدی در پروتئین‌ها پی به نواحی ژنی خواهند برد.

ابتدا از روی توالی DNA توالی پروتئین هدف را در شش فریم مختلف ترجمه کرده و هر شش فریم را با داده‌های پروتئینی موجود در پایگاه‌های اطلاعاتی مقایسه می‌کنند.

این روش یکی از قابل اعتمادترین روش‌ها می‌باشد.

د) مقایسه DNA در موجودات مختلف: در این مقایسه با کمک روش‌هایی مانند BLAST و FASTA و با کمک توالی‌های به دست آمده از RNA به صورت cDNA و یا EST و همچنین توالی‌های مستقیم DNA می‌توان به توالی هدف مورد نظر رسید. در این روش فرض بر این است که ژن‌ها محافظت شده تر و Conserved تر از سایر نواحی باشند و بدین ترتیب بتوان از روی شباهت آنها با موجودات همولوگ و ارتولوگ پی به وجود ژن‌ها برد.

محدودیت‌ها:

ممکن است خیلی از توالی‌ها در دیتابیس‌ها نباشند و بدین ترتیب ما آنها را از دست بدهیم
چون میزان اینکه چقدر شباهت نیاز است تا یک توالی را به عنوان ژن معرفی کنیم مشخص نیست، تعیین این مقدار سخت بوده و با خطا رو به است.

عدم وجود تمام توالی‌ها در دیتابیس‌ها
وجود خطا و داده‌های اشتباه در دیتابیس‌ها
مشکل در تعیین میزان شباهت و اینکه چقدر شباهت نیاز است تا یک توالی را به عنوان ژن معرفی کنیم مشخص نیست، تعیین این مقدار سخت بوده و با خطا رو به است.

پیدا کردن ژن‌

روش‌های مبتنی بر داده‌های ریاضی و آماری (ab initio)

در این روش‌ها از هیچ داده قبلی‌ای در مورد ژن استفاده نشده است و تنها پیش‌بینی بر اساس سیگنال‌ها و کامنت‌ها انجام می‌گیرد.

این روش بر دو معیار اساسی انجام می‌گیرد

بر اساس Content یا همان بازها

بر این معیارهای مختلفی از کانتنت یک ژنوم پی به وجود ژن‌های آن برد:

تعیین کدون آغاز و کدون پایان و سپس یافتن توالی‌هایی که دارای طول مناسب و معقول هستند
تعیین درصد فراوانی کدون‌ها در موجود هدف و سپس جستجو بر اساس بیشترین شباهت. مثلا اینکه درصد C برابر 21، درصد A برابر 28 و …. است
استفاده از نسبت فراوانی کدون‌های آمینواسیدهای مختلف. مثلا برای کد کردن آلانین از چه کدی بیشتر استفاده شده است و سپس مقایسه آن با توالی‌های موجود در پایگاه داده‌ها