原創 Hogg
在之前 [[Gene Id二三事]] 中介紹過,每一個基因都在不同的資料庫當中都有不同的 ID ,但是每一個基因又都有同樣的一個基因名。這個基因名是哪裡命名的呢?今天來介紹一下基因命名資料庫: HUGO Gene Nomenclature Committee: https://www.genenames.org/
基因命名規則
在瞭解這個資料庫之前,先來了解一下關於人類基因名制定的規則 [1] 。
基因命名的總體指導方針
- 一個基因不管有多少個剪下變異體,但它的基因名只有一個。例如, TP53 這個基因有 15 個剪下變異體。它的其他 ID 可以有變化。但是基因名只能是 TP53.
- 人類基因名只能包括大寫字母和數字,除了*- 符號之外避免使用其他符號。
- 為了方便資料檢索,基因名不應該和常用縮寫詞相同。
蛋白質編碼基因
主要是基於基因產物的蛋白功能來進行命名,如果這個基因缺乏功能性的資料則以下面的方式的進行命名:
- 基於基因編碼的公認結構域和基序,例如:BEND7-"BEN domain containing 7";
- 基於人類基因組內的同源基因,例如:GPRIN3-"GPRIN family member 3";
- 基於另一個物種的同源基因,例如:FEM1A-“fem-1 homolog A”;
- 僅基於開放閱讀框的存在,例如:C17orf50-“chromosome 17 open reading frame 50”
假基因 (Pseudogenes)
假基因是無法產生功能性蛋白質產物但與功能性基因具有高度同源性的序列的一類基因。
HGNC 只對和功能性祖先基因保持高度同源的假基因進行命名。命名方式主要是在祖先基因的名稱後面加上P 和數字。例如:NACAP10——“NACA pseudogene 10”。後面的數字一般具有物種特異性
另外,如果一個假基因保留了祖先基因大部分的編碼序列,那麼就直接在這個祖先基因名後面新增P。例如:DDX12P——“DEAD/H-box helicase 12, pseudogene”
非編碼 RNA
關於非編碼 RNA 的命名有興趣的可以檢視 HGNC 之前的綜述[2]
MiRNA
miRBase[3] 為每個 microRNA 莖環序列分配一個“mir-#” 格式的名稱,每個成熟 miRNA 分配一個“miR-#” 格式的名稱。#是一個具體的數字。這個數字代表提交到這個資料庫的 miRNA 的先後順序。HGNC 則以MIR# 的格式來命名 miRNA 基因名。例如,MIR17 代表 miRNA 基因, mir‐17 r 代表其莖環序列 , 同時 miR‐17 代表成熟的 miRNA.
#### Transfer RNAs (tRNAs)
GtRNAdb 資料庫[4]以 tRNA-[三字母氨基酸程式碼]-[反密碼子]-[GtRNAdb 資料庫的 ID 號 ]來命名,例如 tRNA-Ala-AGC-1-1。HGNC 以 TR[一個字母氨基酸程式碼]-[反密碼子] [GtRNAdb 資料庫的 ID 號] 的格式來命名,例如 TRA-AGC1-1
long non-coding RNA
長鏈非編碼 RNA (lncRNA) 根據已發表的類似於蛋白質編碼基因的功能,優先命名。已被 RefSeq 和 GENCODE 專案註釋的 LncRNA 基因以以下方式命名 :
- 與蛋白質編碼基因相關的 LncRNA 以 LINC 後跟一個 5 位數字命名,例如:LINC01018
- 與蛋白質編碼基因的基因組跨度反義的 LncRNA 以 [蛋白質編碼基因符號]-AS#命名,例如:FAS-AS1
- 與蛋白質編碼基因共享雙向啟動子的 LncRNA 以 [蛋白質編碼基因符號]-DT 命名,例如:ABCF1-DT
- 包含在同一鏈上蛋白質編碼基因內含子內的 LncRNA 以 [蛋白質編碼基因符號]-IT#,例如:AOAH-IT1
- 在同一條鏈上與蛋白質編碼基因重疊的 LncRNA 以 [蛋白質基因編碼符號]-OT#,例如:C5-OT1
- 內含子或外顯子中包含 microRNA 或 snoRNA 基因的 LncRNA 被稱為宿主基因 (host gene, HG),例如:MIR17HG
資料庫使用
瞭解了基因的基本命名規則之後,就可以看一下 HGNC 資料庫怎麼使用了。HGNC 的使用十分簡單,就輸入想要檢索的基因名即可。例如輸入:TP53
結果內容的顯示也是十分的簡單,在結果裡面可以看到關於 TP53 這個基因的基本資訊。同時 HGNC 也提供了 TP53 連線到其他基因資料庫的 。
總的來說
HGNC 屬於一個基礎類的資料庫。它本身的功能可能沒有其他資料庫豐富。但是勝在權威。使用推薦的話,還是建議使用綜合性的類似 [[genecards-綜合性基因資訊查詢資料庫]], [[gene-基因基本資訊查詢資料庫]] 這些可以一次性查詢很多基因資訊的資料庫。至於 HGNC 瞭解一下是幹啥的就行。
[1]: HGNC Guidelines | HUGO Gene Nomenclature Committee: https://www.genenames.org/about/guidelines/
[2]: A guide to naming human non‐coding RNA genes | The EMBO Journal: https://www.embopress.org/doi/full/10.15252/embj.2019103777
[3]: miRBase: https://www.mirbase.org/
[4]: GtRNAdb: Genomic tRNA Database: http://gtrnadb.ucsc.edu/