Introduction to CSBB Lab

40 %
60 %
Information about Introduction to CSBB Lab

Published on August 30, 2007

Author: cytang

Source: slideshare.net

Description

Introduction to Computational Systems Biology and Bio-Medicine Laboratory

Computational Biology Laboratory Chuan Yi Tang CS Department, NTHU [email_address]

Our Aims Develop new tools Create aided valued database Apply to systems biology Apply to Biomedicine

Develop new tools

Create aided valued database

Apply to systems biology

Apply to Biomedicine

A transcription factor is a protein that regulates the activation of transcription in the eukaryotic nucleus. Transcription factors localise to regions of promoter and enhancer sequence elements either through direct binding to DNA or through binding other DNA-bound proteins.

A transcription factor is a protein that regulates the activation of

transcription in the eukaryotic nucleus. Transcription factors localise

to regions of promoter and enhancer sequence elements either through

direct binding to DNA or through binding other DNA-bound proteins.

Coregulated genes Gene 1 Gene 2 Gene 3 Transcription factor atgaccgggatactgattaat a caa g gt tgggtataatggagtacgataa attgaga t caa t gt acggcgggtgctctcccgattggaag a caa c gt ggg gcaatcgggatc a caa c gt agaattggatgtcaaaataatggagtggcac gtcaatcgaaaaaacggtggtgagc g caa a gt aaagggattggaccgctt S1 S2 S3 S4

SP 1 5 0 0 0 9 0 0 0 g 4 9 9 6 0 9 9 4 c 0 0 0 3 0 0 0 5 t 0 0 0 0 0 0 0 0 a 8 7 6 5 4 3 2 1

IUPAC code Sp1 binding site Y CCG Y CC S

Degeneracy often tends to occur at specific positions of transcription elements. e.g. Sp1 binding site Y CCG Y CC S When no auxiliary data are used (orthologous sequences), the accuracy of most tools for motif discovery is strongly influenced by the motif degeneracy and the lengths of input sequence . A RR TT YYRS A high motif degeneracy , weak motif AAGTT YYR CA low motif degeneracy , strong motif

Degeneracy often tends to occur at specific positions of transcription elements.

e.g.

Sp1 binding site

Y CCG Y CC S

When no auxiliary data are used (orthologous sequences),

the accuracy of most tools for motif discovery is strongly influenced by the

motif degeneracy and the lengths of input sequence .

A degenerate ( l , d )- motif is defined as a pattern of length l over the IUPAC code with no more than d degenerate positions. (A degenerate position is a position occupied by a character other than A, G, C or T) e.g. A R ATT Y T degenerate (7,2)-motif Degenerate motif discovery problem. Given a set of sequences S = { S 1, S 2, …, S m | Si belongs to {A, G, C, T}* for all i } and three nonnegative integers k , l and d , find all degenerate ( l, d )-motifs, each of which has occurrences in at least k sequences in S. METHODS atgaccgggatactgattaat a caa g gt tgggtataatggagtacgataa attgaga t caa t gt acggcgggtgctctcccgattggaag a caa c gt ggg gcaatcgggatc a caa c gt agaattggatgtcaaaataatggagtggcac gtcaatcgaaaaaacggtggtgagc g caa a gt aaagggattggaccgctt S1 S2 S3 S4

A degenerate ( l , d )- motif is defined as a pattern of length l over the IUPAC code

with no more than d degenerate positions. (A degenerate position is a position

occupied by a character other than A, G, C or T)

e.g. A R ATT Y T degenerate (7,2)-motif

Degenerate motif discovery problem.

Given a set of sequences S = { S 1, S 2, …, S m | Si belongs to {A, G, C, T}* for all i }

and three nonnegative integers k , l and d , find all degenerate ( l, d )-motifs, each of

which has occurrences in at least k sequences in S.

e.g. l =3, d =1 k =4 W ij = ATA All possible set of degenerate positions : {P1, p2,p3} _ TA, A _ A, AT _ For each possible set X = { p 1, …, pd } of degenerate positions, all Wpq with V ( Wij , Wpq )  X are collected. K=4 K=5 K=2 _TA ATA (S1) CTA (S2) ATA (S3) CTA (S3) TTA (S4) A_A ATA (S1) ATA (S2) ATA (S3) ACA (S4) AAA (S4) ACA (S5) AT_ ATC (S2) ATT (S3) ATA (S3) ATA(S3) AAA(S3)

Background letter probabilities are P A = 0.22, P T = 0.22 P C = 0.28, and P G = 0.28. A negative ( p , q )-entry means that the letter p at position q is weakly conserved in G ( Wij | X ). L pq = log[(observed probability of p at position q in G ( W ij | X )) / P p ] Pseudo occurrence elimination

Motif scoring methods s 1 = (  Lij / pj ) / l , This fact is used to measure the conservation and the significance of each reported motif. (1.51+1.51+1.51+1.51+(0.31+0.31)/2+1.51+(0.31+0.82)/2)

The measure used for comparison is the performance coefficient | K  P | / | K  P |. (Pevzner P. A. and Sze, S. H. (2000) Combinatorial approaches to finding subtle signals in DNA sequences. Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology (ISMB 2000), 269-278.) K is the set of positions of the known motif occurrences in the input sequences. P is the set of predicted positions. The best performance coefficients among the top ten motifs found by these tools are compared. Evaluation of performance on synthetic data atgaccgggatactgattaat a caa g gt tgggtataatggagtacgataa attgaga t caa t gt acggcgggtgctctcccgattggaag a caa c gt ggg gcaatcgggatc a caa c gt agaattggatgtcaaccaaagtggagtggcac Red words the set of positions of the known motif occurrences ( K ) the set of predicted positions ( P ) | K  P | = 21 | K  P | = 35 | K  P | / | K  P |= 21/35 = 0.6 S1 S2 S3

Evaluation of performance on synthetic data

MotifSeeker Specificity : | K  P | / | P | false positive Sensitivity : | K  P | / | K | false negative

The best performance coefficient among the top ten motifs selected.

Evaluation of performance on tissue-specific regulatory elements Four liver-specific factors : HNF-1, HNF-3, HNF-4 and C/EBP. Each regulon consists of at least five genes. The average length of the analyzed promoter sequences is about 2.5 k bp.

Four liver-specific factors : HNF-1, HNF-3, HNF-4 and C/EBP.

Each regulon consists of at least five genes.

The average length of the analyzed promoter sequences is about 2.5 k bp.

 

Reference Identification of Degenerate Motifs Using Position Restricted Selection and Hybrid Ranking Combination, by C. H. Peng etc., to appear in NAR 彭千華 鍾允昇 etc.

Identification of Degenerate Motifs Using Position Restricted Selection and Hybrid Ranking Combination,

by C. H. Peng etc., to appear in NAR

彭千華

鍾允昇 etc.

臺灣土雞在育種上所面臨的問題 雜交品系 以肉用雞的篩選方式選拔 飼養期長 結果 : 平均產蛋數低 飼養成本高 市場競爭力弱

雜交品系

以肉用雞的篩選方式選拔

飼養期長

結果 :

平均產蛋數低

飼養成本高

市場競爭力弱

雞群育種 育種計劃 篩選 基因型 表現型

利用血清蛋白質當作篩選標誌 問題 : 多少種標誌 ? 何種標誌 ? 是否可用濃度的臨界值來作篩選 ? 單一階段或多重階段篩選 ?

問題 :

多少種標誌 ?

何種標誌 ?

是否可用濃度的臨界值來作篩選 ?

單一階段或多重階段篩選 ?

研究蛋白質體當做雞群的篩選 Lezczynski et al.(1985) Relationship of plasma estradiol and progesterone levels in domestic chicken hens. Poult. Sci. 64, 545. Kuo et al.(2005) Proteomic analysis of hypothalamic proteins of high and low egg production strains of chicken. Theriogenology 64, 1490 Huang et al. (2006) Analysis of chicken serum proteome and differential protein expression during development in single-comb White Leghorn hens. Proteomics 6, 2217

Lezczynski et al.(1985) Relationship of plasma estradiol and progesterone levels in domestic chicken hens. Poult. Sci. 64, 545.

Kuo et al.(2005) Proteomic analysis of hypothalamic proteins of high and low egg production strains of chicken. Theriogenology 64, 1490

Huang et al. (2006) Analysis of chicken serum proteome and differential protein expression during development in single-comb White Leghorn hens. Proteomics 6, 2217

禽類產蛋之生物路徑分析 科學農業 (2004), 10 月 探討產蛋過程中 , 血清蛋白質的角色 血清蛋白質彼此間的關連 串聯哺乳動物及禽類與生殖相關的分子 , 製作產蛋相關生物路徑圖

探討產蛋過程中 , 血清蛋白質的角色

血清蛋白質彼此間的關連

串聯哺乳動物及禽類與生殖相關的分子 , 製作產蛋相關生物路徑圖

 

Serum protein marker Ovotransferrin Vitellogenin Apolipoprotein A-I X protein (an IGF-I like protein) Apo VLDL-II Exp I Exp II

Ovotransferrin

Vitellogenin

Apolipoprotein A-I

X protein

(an IGF-I like protein)

Apo VLDL-II

Stage selection Exp I : Association of serum protein levels with egg number at two stage. 24 wk (initial egg production) 35 wk (peak egg production) Exp II: Selection strategy at three stage 14 wk (premature stage) 24 wk 35 wk

Exp I : Association of serum protein levels with egg number at two stage.

24 wk (initial egg production)

35 wk (peak egg production)

Exp II: Selection strategy at three stage

14 wk (premature stage)

24 wk

35 wk

Exp (I) Fig. 1. Egg production rate of TRFCC (n=157). (A) Total egg number of all hens, (B) hens in four groups (A) (B)

Fig. 3. Association of relative protein levels with total egg number. (A) Vitellogenin (B) Apo A-I

(C) Ovotransferrin (D) X protein

 

Exp II. 篩選策略 臺灣紅羽土雞 A 批 (n=77) 2003 年七月孵化 B 批 (n=78) 2003 年九月孵化

臺灣紅羽土雞

A 批 (n=77)

2003 年七月孵化

B 批 (n=78)

2003 年九月孵化

Fig. 1. Egg production rate of batch A (n=77) and batch B (n=78) of TRFCC.

Code-selection serum protein level serum protein level Score rank score rank Batch A Batch B Transformation Regional codes code

serum protein level serum protein level

Code-selection Step 1: selection 20% of low egg number of birds in batch B of TRFCC

Step 2: Transform codes in batch A of birds

結論 雞血清蛋白質濃度的變化除了和產蛋有關外 , 也受到環境的影響 將兩批雞的蛋白質濃度轉成分數 (score) 及序號 (Rank), 利用密碼轉換方式可以巧妙的找出兩批雞的蛋白質濃度的規則性 , 進而可作預測 血清蛋白質在 14 週和產蛋無關 , 卻可以在此階段找出低產雞的規則性 利用密碼篩選法可於 14wk 淘汰 19.5% 雞隻,其中包含 78.8% 之 50% 低產雞

雞血清蛋白質濃度的變化除了和產蛋有關外 , 也受到環境的影響

將兩批雞的蛋白質濃度轉成分數 (score) 及序號 (Rank), 利用密碼轉換方式可以巧妙的找出兩批雞的蛋白質濃度的規則性 , 進而可作預測

血清蛋白質在 14 週和產蛋無關 , 卻可以在此階段找出低產雞的規則性

利用密碼篩選法可於 14wk 淘汰 19.5% 雞隻,其中包含 78.8% 之 50% 低產雞

致謝 參與土雞計劃之合作及研究人員 動科所 林志鴻博士 李文權博士 莊景凱博士 土雞計劃相關工作人員 林寶雪小姐 陳欣欣小姐 陳惠卿小姐 陳玉惠小姐 陳宛宜小姐 林冬梅小姐 中興大學 李淵百教授 黃三元副教授 陳志峰副教授 清華大學分醫所 劉銀樟教授 清華大學資工所 唐傳義教授 林沿妊小姐 高首企業股份有限公司 黃次洋執董 黃士人場長

動科所

林志鴻博士

李文權博士

莊景凱博士

土雞計劃相關工作人員

林寶雪小姐 陳欣欣小姐

陳惠卿小姐 陳玉惠小姐

陳宛宜小姐 林冬梅小姐

中興大學

李淵百教授

黃三元副教授

陳志峰副教授

清華大學分醫所

劉銀樟教授

清華大學資工所

唐傳義教授

林沿妊小姐

高首企業股份有限公司

黃次洋執董

黃士人場長

刀鋒式伺服器在尖端科學計算 領域的研發 ( 廣達產學 ) 子計畫二 : 建置叢集計算技術於理論物理及生物資訊的環境 國家實驗研究院 : 莊哲男院長 國家高速網路與計算中心 : 張西亞博士 國家理論科學研究中心 : 張圖南主任 清華大學資訊工程學系 : 唐傳義教授

Performance Comparison between IB and GE on Quanta Blade Server Each blade server contains 10 blades Intel EM64T Xeon (Nacona) 3.2 GHz with 1 MB of L2 cache Each blade contains 4 GB of DDR2 400 Scientific Linux release 4.2 x 86_64 with kernel version 2.6.14.5 IBG2 2.0.1 driver for IB Quanta Blade Server

Each blade server contains 10 blades

Intel EM64T Xeon (Nacona)

3.2 GHz with 1 MB of L2 cache

Each blade contains 4 GB of DDR2 400

Scientific Linux release 4.2 x 86_64 with kernel version 2.6.14.5

IBG2 2.0.1 driver for IB

生物資訊相關應用的研發 (1) 方法的研發 平行演化樹的建立 平行三條序列的比對 平行多條有限制序列的比對 蛋白質二級結構的預測 基因體序列地標的建置與其 SNP 、 EST 序列的比對

方法的研發

平行演化樹的建立

平行三條序列的比對

平行多條有限制序列的比對

蛋白質二級結構的預測

基因體序列地標的建置與其 SNP 、 EST 序列的比對

生物資訊相關應用的研發 (2) 相關服務網站與資料庫的建立 平行演化樹建立的網站 蛋白質二級結構的預測的網站 平行序列比對的網站 蛋白質二級結構預測的資料庫 蛋白質序列與結構資訊的資料庫 基因體序列地標建置的網站

相關服務網站與資料庫的建立

平行演化樹建立的網站

蛋白質二級結構的預測的網站

平行序列比對的網站

蛋白質二級結構預測的資料庫

蛋白質序列與結構資訊的資料庫

基因體序列地標建置的網站

方法的研發 (3) 基因體序列地標的建置與其 SNP 、 EST 序列的比對 建置中 Human EST: 600 萬筆以上 , SNP: 900 萬筆以上 (2002) The human EST alignments compared 1.75×10 9 bases in 3.73×10 6 ESTs against 2.88×10 9 bases of human DNA and took 220 CPU hours on a Linux farm of 800 MHz Pentium IIIs.

基因體序列地標的建置與其 SNP 、 EST 序列的比對

建置中

Human EST: 600 萬筆以上 , SNP: 900 萬筆以上

(2002) The human EST alignments compared 1.75×10 9 bases in 3.73×10 6 ESTs against 2.88×10 9 bases of human DNA and took 220 CPU hours on a Linux farm of 800 MHz Pentium IIIs.

第二年的研究計畫 (2006/11~2007/7) 方法的研發方面 完成基因體序列地標的建置與其 SNP 、 EST 序列的比對 測試相關方法的效能並提供系統方面的建議 相關服務網站與資料庫的建立 (service oriented architectures) 完成平行序列比對的網站 完成基因體序列地標建置的網站 蛋白質序列與結構資訊的資料庫

方法的研發方面

完成基因體序列地標的建置與其 SNP 、 EST 序列的比對

測試相關方法的效能並提供系統方面的建議

相關服務網站與資料庫的建立 (service oriented architectures)

完成平行序列比對的網站

完成基因體序列地標建置的網站

蛋白質序列與結構資訊的資料庫

實驗室未來導向 昇華現有應用與醫療資訊接軌 國科會後卓越計畫「下一世代資訊通訊網路尖端技術與應用」第六分項 經濟部技術處學界科專計畫「智慧型感測系統、網路及應用技術研發」 國科會前瞻計畫「醫療格網-以格網為基礎的 E-health 系統」 國科會與廣達產學合作計畫 整合醫療格網、智慧型感測系統、生物資訊學並從事於人類疾病相關的研究

昇華現有應用與醫療資訊接軌

國科會後卓越計畫「下一世代資訊通訊網路尖端技術與應用」第六分項

經濟部技術處學界科專計畫「智慧型感測系統、網路及應用技術研發」

國科會前瞻計畫「醫療格網-以格網為基礎的 E-health 系統」

國科會與廣達產學合作計畫

整合醫療格網、智慧型感測系統、生物資訊學並從事於人類疾病相關的研究

核醫影像銀行的病史探勘及其在癌症診斷上的應用 唐傳義 閻紫宸 ( 長庚核醫科主任 ) 王速貞 (FDA USA)

背景 長庚核醫科現已設置影像銀行,收集非常多的癌症病人核醫資料,包括 CT 、 MRI 、 PET 、 SPECT 等影像及其醫生對每一張影像所做的診斷 該影像資料代表病人不同分期的腫瘤狀況 除銀行中的病人核醫影像及診斷資料外,可以透過調閱每一個病人在資料庫中的病歷資料,以了解其完整的病史 ( 包括個人資料、治療方式、病理解剖、生化數據 ) 我們希望透過資訊探勘技術對病史獲取有價值的資訊

長庚核醫科現已設置影像銀行,收集非常多的癌症病人核醫資料,包括 CT 、 MRI 、 PET 、 SPECT 等影像及其醫生對每一張影像所做的診斷

該影像資料代表病人不同分期的腫瘤狀況

除銀行中的病人核醫影像及診斷資料外,可以透過調閱每一個病人在資料庫中的病歷資料,以了解其完整的病史 ( 包括個人資料、治療方式、病理解剖、生化數據 )

我們希望透過資訊探勘技術對病史獲取有價值的資訊

那些是有價值的資訊 某一種治療方法對病人不同療效的分類 不同的療效呈現與病人個別差異的相關性 建立依病人個人化資訊的診斷支援系統

某一種治療方法對病人不同療效的分類

不同的療效呈現與病人個別差異的相關性

建立依病人個人化資訊的診斷支援系統

鼻咽癌 ( Nasopharyngenl Carcinoma , NPC ) 被認為是南方中國人特有的癌症。 根據統計,男性每十萬人每年罹患鼻咽癌的人數在台灣是 7.7 人、美國 0.63 人、日本 0.27 人。 鼻咽癌發生之原因經研究結果約有三項,即遺傳因子、 EB 病毒感染、環境因素 ( 小時候多食用醃漬食物或鹹魚、工作環境之空氣污染及久而多的吸菸者 ) 常見症狀可略分為六項:頸部腫塊、單側之聽力障礙或閉塞感、痰中帶血絲或鼻涕中含血、一邊之鼻塞或鼻涕增多、頭痛和臉麻或遠看東西糢糊。 發 病 者 的 人 類 白 細 胞 抗 原 ( HLA ) 亦 顯 示 與 某 些 特 別 的 HLA 有 聯 繫 。 鼻 咽 癌 的 治 療 以 放 射 治 療 為 主 ,晚期 ( 第三、四期 ) 或復發之病人可能需要併用化學及手術治療。治療後,少數病人可能復發,所以定期追蹤檢查是必要的。 台灣鼻咽癌之早期診斷率以及治療成績,如今在世界上是相當突出而有名的。

被認為是南方中國人特有的癌症。

根據統計,男性每十萬人每年罹患鼻咽癌的人數在台灣是 7.7 人、美國 0.63 人、日本 0.27 人。

鼻咽癌發生之原因經研究結果約有三項,即遺傳因子、 EB 病毒感染、環境因素 ( 小時候多食用醃漬食物或鹹魚、工作環境之空氣污染及久而多的吸菸者 )

常見症狀可略分為六項:頸部腫塊、單側之聽力障礙或閉塞感、痰中帶血絲或鼻涕中含血、一邊之鼻塞或鼻涕增多、頭痛和臉麻或遠看東西糢糊。

發 病 者 的 人 類 白 細 胞 抗 原 ( HLA ) 亦 顯 示 與 某 些 特 別 的 HLA 有 聯 繫 。

鼻 咽 癌 的 治 療 以 放 射 治 療 為 主 ,晚期 ( 第三、四期 ) 或復發之病人可能需要併用化學及手術治療。治療後,少數病人可能復發,所以定期追蹤檢查是必要的。

台灣鼻咽癌之早期診斷率以及治療成績,如今在世界上是相當突出而有名的。

Genome-wide Interpretation: Informatics of Immune Responses -The Concept of Immunometer 林口長庚紀念醫院 內科部 感染醫學科 黃景泰醫師 Ching-Tai Huang, M.D., Ph.D. Infectious Diseases, Medicine Chang Gung Memorial Hospital

自體抗原 腫瘤 傳染性微生物 環境抗原 Immune Tolerance & Immune Activation - Balance between Physiology & Pathology Tolerance Activation 移植器官

Transgenic Mouse Model -Adoptive Transfer System Recipients HA expressing Transgenic Mice Pooled splenocytes & lymph node cells C3-HA Low Donors HA specific TCR Transgenic Mice a) CD4 + : 6.5 (I-E d HA 110-120 ) b) CD8 + : clone 4 (K d HA 518-526 ) C3-HA High Non-Tg

Immune Tolerance & Immune Activation -in CD4+ T Cells Tolerance Memory Anergic/Regulatory Activated/Memory Naive

Immune Tolerance & Immune Activation -Dynamic genomic approach (With Affymetrix Gene Chips) Day 2 Day 3 Day 4 Naive Tolerance Memory Anergic/Regulatory Activated/Memory RNA RNA RNA RNA RNA RNA RNA

 

Our Aims Finding the Immunometer: Clustering the genes with similar expression pattern and significant difference Finding the motifs of genes that have similar expression pattern for reconstructing the regulatory relationship of genes. Systems biology: By combining the annotated genes by literature, gene expression data and even signal transduction pathway, to find the interface of signal transduction and regulatory network.

Finding the Immunometer: Clustering the genes with similar expression pattern and significant difference

Finding the motifs of genes that have similar expression pattern for reconstructing the regulatory relationship of genes.

Systems biology: By combining the annotated genes by literature, gene expression data and even signal transduction pathway, to find the interface of signal transduction and regulatory network.

NF- κ B pathway model

NFκB IKK NF- κ B

NFKB ICAM1

 

Add a comment

Related pages

PPT - Linear Programming: Introduction and Duality ...

Linear Programming: Introduction and Duality. NTHU CS CSBB lab 劉至善. Outline. Linear programming The LP-duality theorem. Linear programming.
Read more

Geometric Supergravity in D=11 and its hidden supergroup

GEOMETRIC SUPERGRAVITY IN D = 11 AND ITS HIDDEN SUPERGROUP R. D ... +so,...CsBb,. .bs A B¢,...cs ... obtained via the introduction of a dual basis in ...
Read more

Staff by role - Centre for Synthetic Biology and the ...

Introduction. Microorganisms play ... A preliminary and qualitative study of resource ratio theory to nitrifying lab-scale bioreactors. Microbial ...
Read more

計算系統生物與 ...

... ''About CSBB Lab'' [[Members ... slideshare/ssplayer.swf?id=100623&doc=introduction-to-csbb-lab3786" width="425" height="348"> Read more

Department of Computer Science and Engineering, HKUST

These includes the WeChat HKUST AI Center (WHAT LAB), Big-Data Bio-Intelligence Center (BDBI) and the MSC Program on Big Data Technology (BDT).
Read more

Bank of America — Banking, Credit Cards, Mortgages and ...

Welcome to Bank of America, the nation's leading financial institution and home for all of your personal financial needs.
Read more

Nautilus Live | Explore the ocean LIVE with Dr. Robert ...

Nautilus Live. Explore the ocean LIVE with Dr. Robert Ballard and the Corps of Exploration. Follow Us: Search form. Search . Main; The Expedition; Photos ...
Read more

Colloids and Surfaces B: Biointerfaces - pse.umass.edu

Introduction The quest for antimicrobial materials has diverged into two strategies: Antimicrobial compounds are either leached from a material
Read more