01 Where in a Genome Does DNA Replication Begin?
1-1
- oriC: DNA์์ ๋ณต์ ์ ์์์
- k-mer: mer์ polymerํ ๋ mer
- most frequent k-mer: ๊ธธ์ด k์ text์ค ๊ฐ์ฅ frequentํ text
- kmer ์ฐพ๋๊ฒ์ด ์ค์ ๋ก hidden message๋ฅผ ์ฐพ๋๊ฒ์ ์๋ฏธ๊ฐ ์๋๊ฐ? (15p)
- polymerase: polymer๋ฅผ ๋ง๋๋ ์
- dnaA: replication initiater
- dnaA box
- 19p: ์ด๋ก์๊ณผ ๋นจ๊ฐ์์ complementaryํ ๊ด๊ณ์ ์๋ค
- ์ผ๊ธฐ์์ด์ ์ฒซ๋ถ๋ถ์ 5โ end ๋๋ถ๋ถ์ 3โ end๋ผ๊ณ ํจ
- 5โ end๊ฐ ํญ์ ์ผ์ชฝ์ผ๋ก ์ค๊ฒ ์ด๋ค
- genome(๋๋ ์๋ฌผ ์ข ๋ฅ)์ ๋ฐ๋ผ hidden message๊ฐ ๋ค๋ฅผ ์ ์๋ค
- oriC๊ฐ ์ฃผ์ด์ง ๋๋ hidden message๋ฅผ ์ฐพ์ ์ ์์ง๋ง ์ ์ฒด genome์์ oriC๋ฅผ ์ฐพ์ผ๋ ค๋ฉด?
- oriCํฌ๊ธฐ์ window๋ฅผ ์ก์์ ํด๋น window๋ด์ frequent word๋ฅผ ์ฐพ์์ window๋ผ๋ฆฌ ๋น๊ตํ๋ค
1-2
Probabilities of Patterns in a String
- Pr(4, 2, โ11โ, 2) > Pr(4, 2, โ01โ, 2) ์ธ ์ด์ ๋ 11์ overlap์ด ๊ฐ๋ฅํ๊ธฐ๋๋ฌธ์ด๋ค (111์ด๋ฉด 11์ด ๋๋ฒ ์๋์ )
- 6์ชฝ์ ๊ณต์์ overestimate์. ์๋ํ๋ฉด ์๋ก 0101011์ด๋ผ๋ string์ 0101xxx, xx0101x ๋ฑ ์ค๋ณต๋์ด counting ๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค
Finding Frequent Words
- brute force
- less time: frequency array
- patternToNumber, NumberToPattern -> O(k)
- findingFrequentWordsBySorting -> O(1)
- total -> O(text * k)
- 4์ k์น๋งํผ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉ
- sorting์ ์ถ๊ฐํ๋ค๋ฉด? findingFrequentWordsBySorting -> ๋จ์ด๊ธธ์ด๋งํผ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉ
- k๊ฐ ๊ธธ๊ฒฝ์ฐ์๋ sorting์ ์ฌ์ฉํ๊ณ ์งง์๊ฒฝ์ฐ์๋ sorting์์ด ๊ทธ๋ฅ ํ๋๊ฒ์ด ๋์
Finding Clumps
- index๋ฅผ integer๋ก ๋ฐ๊พธ๋๊ฒ -> text * k
1-3
- dna ๋ณต์ ๋ 2๊ฐ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ์งํ๋ ์ ์๋ค(bidirectional)
- ๊ฐ๋ผ์ง๋๋์ okazaki fragment๊ฐ ๋ถ๋ถ์ ์ผ๋ก ๋ณต์ ๋๋ค
- ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ ํฉ์ณ์ง
- ๋ฐฉํฅ(forward, backward)์ ๋ฐ๋ผ mutation rate๊ฐ ๋ค๋ฆ
- single-stranded DNA has a much higher mutation rate than double-stranded DNA
- cytosine rapidly mutates into thymine through deamination & deamination rates rise 100-fold when DNA is single stranded
- skew diagram
- skew(k): |G| - |C| for the first k nucleotides of genome(๋์ ํจ์)
- skew ํจ์๊ฐ ๊ฐ์ํ๋ค๊ฐ ์ฆ๊ฐํ๋ ๋ถ๋ถ์ด oriC๋ผ๊ณ ์ถ์ธกํ ์ ์๋ค
1-4
- Hamming Distance Problem
- hamming distance: number of mismatches between string p and q
- d-neighborhood: hamming distance๊ฐ d๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ k-mer๋ค
- skew diagram์์ ๊ฐ์-์ฆ๊ฐ ๋ฐ๋๋ ๋ถ๋ถ์ด ๋ฐ๋์ oriC๋ผ๊ณ ํ ์ ์๋ค. reversal๋๋ฌธ์ genome์ด ๋ถ๋ถ์ ์ผ๋ก ๋ฐ๋ ์ ์๊ธฐ ๋๋ฌธ
//Assignment 1
Rosalind - bioinformatics problems - overlap graphs
- fasta format: ํค๋์ ์คํธ๋ง์ด ์๋ ํฌ๋งท
04 How Do We Sequence Antibiotics?
- Searching for Tyrocidine B1
- Translation์ genome์ ์ด๋ ๋ถ๋ถ์์๋ ์์ํด๋ ๋๋ค
- Cyclic
- DNA->RNA
- Transcription ๊ณผ์
- RNA Polymerase์ ์ํด ์งํ๋จ
- RNA->Protein
- Translation ๊ณผ์
- Ribosome์ ์ํด ์งํ๋จ
- ํ์ง๋ง ribosome์ด ์ต์ ๋์ ๋ ํฉ์ฑ๋๋ ๋จ๋ฐฑ์ง๋ ์์. NRP synthetase์ ์ํด ํฉ์ฑ๋๋ tyrocidine
- Mass Spectrometer๋ก ๋ถ์์ ์ง๋์ ๊ณ์ฐ -> ์ด๋ค ๋จ๋ฐฑ์ง์ธ์ง ์์๋
- 1 Dalton = mass of proton/neutron
- mass of molecule = sum of protons/neutrons
- ๋จ, 20๊ฐ ์๋ฏธ๋ ธ์ฐ ์ค ์ ์๋ก ๋ฐ์ง ๊ฒฝ์ฐ ๊ฐ์ ์ง๋์ ๊ฐ์ง ์ ๋ค์ด 2์ ์์ -> 18๊ฐ์ง์ ์ง๋์ ๊ตฌ๋ถํ ์ ์์
- Mass Spectrometer
- 1. Theoretical spectrum์ ๊ตฌํจ
- ๊ธธ์ด n์ ์ฃผ์ด์ง peptide๋ฅผ ์์์ ๋ฐ๋ผ ์ชผ๊ฐ์ ๊ฐ๋ฅํ ๋ชจ๋ subpeptide(1~n-1)์ mass๋ฅผ ๊ตฌํจ
- 2. spectrum์ ํด๋นํ๋ peptide๋ฅผ ์ฐพ๋๋ค(Cyclopeptide Sequencing Problem)
โ
- A Brute Force Algorithm for Cyclopeptide Sequencing
- ์ฃผ์ด์ง mass๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ ๊ฐ๋ฅํ peptide sequence๋ฅผ ์์ฑํ์ฌ ๋น๊ตํจ
- ๊ฒฐ๋ก ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค. ์๋ํ๋ฉด ๊ฐ๋ฅํ sequence์ ์๊ฐ exponentially ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์
- ํด๊ฒฐ์ฑ : branch-and-bound
- Cyclopeptide Sequencing with Branch-and-Bound
- ์ฃผ์ด์ง spectrum์ค 57~186์ ํด๋นํ๋ mass๋ฅผ ๊ณจ๋ผ ๊ฐ๋ฅํ 1-mer๋ค์ ๊ตฌํ๋ค -> ํด๋น 1-mer๋ค๋ก ๋ง๋ค ์ ์๋ ๊ฐ๋ฅํ 2-mer๋ฅผ ๋ง๋ ๋ค -> 2-mer๋ค ์ค spectrum๊ณผ ์ผ์นํ๋ ๊ฒ๋ค๋ง ๋จ๊ธด ํ 3-mer๋ฅผ ๋ง๋ ๋ค -> ๋ฐ๋ณต
- ์ด๋ค dataset์ ๋ํด์๋ exponential ํ ์ ์์ง๋ง ๋ณดํต์ ์ํฉ์์๋ ๊ต์ฅํ ๋น ๋ฆ(์ฆ๋ช ๋์ง๋ ์์)
- Adapting Sequencing for Spectra with Errors
- ์ค์ spectrum์๋ error๊ฐ ์์ ์ ์์. ์์ด์ผ ํ mass๊ฐ ์๊ฑฐ๋ ์์ด์ผ ํ mass๊ฐ ์์ ์ ์์
- false masses: present in experimental spectrum, absent from theoretical spectrum
- missing masses: present in theoretical spectrum, absent from experimental spectrum
- ํด๊ฒฐ์ฑ : theoretical, experimental spectrum์ ๊ณตํต์ ์ผ๋ก ํด๋นํ๋ mass๋ง ์ถ๋ฆผ + LeaderboardCyclopeptideSequencing
- LeaderboardCyclopeptideSequencing
- ์ฃผ์ด์ง spectrum์์ ์ ํํ 1-mer๋ค์ ์ถ๋ ค๋ผ ์ ์๊ธฐ ๋๋ฌธ์(์๋ฌ ๊ฐ๋ฅ์ฑ) 18๊ฐ์ ์๋ฏธ๋ ธ์ฐ mass ๋ชจ๋์ ๋ํด ๋ฐ์ง
- low-scoring peptide๋ฅผ ์ณ๋(๋จ, keep top N with ties)
- candidate์ด ์์ ๋๊น์ง extend, cut ๋ฐ๋ณต
- heuristicํ ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ preciseํ์ง ์๊ณ correct solution์ missํ ๊ฐ๋ฅ์ฑ์ด ์์(์ง์์ ์ณ๋ด์ง branch ์ค ์ ํํ ์๋ฃจ์ ์ด ์กด์ฌํ ๊ฐ๋ฅ์ฑ)
- ์ค์ ์คํ ๊ฒฐ๊ณผ 10%์ error๊ฐ ์์ ๊ฒฝ์ฐ ์ ๋๋ก ์ฐพ์์ง๋ง, 25%์ error๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ์ ํํ ๋ต์ ์ฐพ์ง ๋ชปํจ
- From 20 to More than 100 Amino Acids
- ์ค์ ์๋ฏธ๋ ธ์ฐ ์ค์์๋ mass๊ฐ ์ผ์ ํ์ง ์์ non-standard amino acid๊ฐ ์กด์ฌํ๋ค(Ornithine)
- ๋ฐ๋ผ์ 18๊ฐ์ง์ mass๋ง๊ณ ๊ทธ๋ฅ 57-186์ ํด๋นํ๋ ์ ์๋ก ๋ฐ์ง๋ฉด ๋ฆฌ๋๋ณด๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก 10%์ ์๋ฌ๊ฐ ์์ ๊ฒฝ์ฐ์๋ ์ ๋๋ก ๋ต์ ์ฐพ์ง ๋ชปํจ
- The Spectral Convolution Saves the Day
- ์ฃผ์ด์ง spectrum์์ ์ด๋ค mass pair์ ์ฐจ๋ 1-mer์ mass์ ํด๋นํ ์ ์์. ๋ฌผ๋ก ์๋ ์๋ ์์ => Spectral Convolution!
- ๋ชจ๋ mass pair์ ์ฐจ๋ฅผ ๊ตฌํด์ ํ ์ด๋ธ์ ๋ํ๋
- ํ ์ด๋ธ์ ๋ณด๋ฉด ์ฌ๋ฌ๋ฒ ๋์ค๋ mass๊ฐ ์์ ๊ฒ. ์ค์ spectrum์ ํด๋นํ๋ 1-mer์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค
- ConvolutionCyclopeptideSequencing
- ์ฃผ์ด์ง sequence์ ๋ํด spectral convolution์ ์งํ -> M most frequent mass์ ๋ํด LeaderboardCyclopeptideSequencing์ ์งํ
- ์คํ ๊ฒฐ๊ณผ M=10์ผ ๊ฒฝ์ฐ 10%์ error, 25%์ error ๋ ๊ฒฝ์ฐ์ ๋ํด ๋ชจ๋ ์ ๋๋ก ๋์ด
- The Truth About Spectra
- ์ค์ mass spectrometer์์๋ 25%๋ณด๋ค๋ ๋ ๋ง์ ์๋ฌ ๊ฐ๋ฅ์ฑ์ด ์๋คโฆ์ค์ ์คํํธ๋ผ์ 100๊ฐ์ธ๋ฐ 1000๊ฐ๊ฐ ๋์ฌ์๋ ์์
- Beltway and Turnpike Problems
- ๋ ๋ฌธ์ ๋ชจ๋ polynomialํ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐํ์ง์ง ์์
- turnpike์ ๊ฒฝ์ฐ์๋ pseudo-polynomialํ ์๊ณ ๋ฆฌ์ฆ์ ์ฆ๋ช ๋ ๋ฐ ์์
- ์ ์ ๊ฐ์์ ๋ํด polynomialํ๊ฒ ์๋๋ผ segment์ ๊ธธ์ด์ ๋ํด polynomialํจ
05 How Do We Compare Biological Sequences?
- From Sequence Comparison to Biological Insights
- sequence alignment์ ์ค์์ฑ
- ๊ธธ์ด๊ฐ ๋ค๋ฅธ ์ฌ๋ฌ๊ฐ์ sequence๋ฅผ ์/๋ค๋ ์ค๊ฐ์ ๋์๋์์ sequence๊ฐ์ ๊ณตํต ๋ถ๋ถ์ ์ฐพ์๋ด๋ ๊ฒ
- Cystic Fibrosis
- The Alignment Game and the Longest Common Subsequence
- dynamic programming์ ์ด์ฉํ์ฌ ํด๊ฒฐํด์ผ ํจ. genome์ ํฌ๊ธฐ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์
- ๋๊ฐ์ ์คํธ๋ง์ ๋น๊ตํ๋ฉฐ ๋ง์ ๊ฒฝ์ฐ match, ์ ๋ง์๊ฒฝ์ฐ mismatch, ๋น ๊ณต๊ฐ์ ๋ฃ์ ๊ฒฝ์ฐ insertion ์ฒ๋ฆฌ
- ํ๋์ ์คํธ๋ง ์ ์ฅ์์ insertion์ ๋ค๋ฅธ ์คํธ๋ง์์์ deletion
- Longest Common Subsequence Problem์ด ๋จ.
- Input: ๋๊ฐ์ ์คํธ๋ง
- Output: A longest common subsequence of these strings(unique ํ์ง ์์)
- The Manhattan Tourist Problem
- Longest Path in a Directed Graph Problem(irregular grid)
- The Change Problem
- Input: integer money & array of positive integers(๋์ ๋จ์)
- Output: minimum number of coins with denominations(๋จ์) that changes money
- Greedy ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ฉด ์ต์ ์ ํด๊ฐ ๋๋ ๊ฒฝ์ฐ๊ฐ ์์(์ฐ๋ฆฌ๋๋ผ ๋จ์ ์์คํ ์ ๊ฒฝ์ฐ)
- ์๋๋ ๊ฒฝ์ฐ Recursiveํ ๋ฐฉ๋ฒ์ ์ฐ๋ฉด ๋จ. ํ์ง๋ง ์ด ๊ฒฝ์ฐ์๋ ๋์ผํ ํญ๋ชฉ์ ๋ํ ๊ณ์ฐ์ ์ฌ๋ฌ๋ฒ ํ๊ฒ ๋๋ค๋ ๋ฌธ์ ์ ์ด ์์
- ํด๊ฒฐ์ฑ : ๋ค์ด๋๋ฏน ํ๋ก๊ทธ๋๋ฐ - ํ๋ฒ ๊ณ์ฐํ ํญ๋ชฉ์ ์ ์ฅ
- biology์์๋ ํ๊ท ์ ์ผ๋ก alignment๊ฐ ์ ๋ง๋๊ฒ ๋ณด๋ค localํ๊ฒ alignment๊ฐ ์๋ฒฝํ๊ฒ ๋ง๋๊ฒ์ด ๋ ์ค์ํ ๋๊ฐ ๋ง๋ค
- homeobox genes
- gap penalty
- multiple sequence alignment
- ๋น๊ตํด์ผ ํ๋ sequence์ ๊ฐ์๊ฐ ์ฆ๊ฐํ ์๋ก ์๊ฐ์ด exponentialํ๊ฒ ๋์ด๋๊ธฐ ๋๋ฌธ์ exactํ ๋ต์ ๊ตฌํ๊ธฐ๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๊ณ approximation ํ ์๋ฐ์ ์์ - suboptimal solution
- profile์ ์ด์ฉ
- asymptotic: ์ ๊ทผ์ ์
05 How Did Yeast Become a Wine-Maker?
- Which Yeast Genes Are Responsible for Wine Making
- diauxic shift: yeast๊ฐ ์์ ์ metabolism์ ๋ฐ๊พธ๋๊ฒ(glucose๋ฅผ ๋จน๊ณ ์ด๋ค๊ฐ ์ฃผ๋ณ์ ์์ผ๋ฉด ethanol์ ๋จน๊ณ ์ผ)
- diauxic shift๊ฐ ๋ฐ์ํ๊ธฐ ์ด์ , ๋น์, ์ดํ์ yeast์ gene expression์ ๊ด์ฐฐ -> ๋น์ทํ behavior์ gene๋ค์ clusteringํจ
- clustering
- k-center clustering problem
- noise์ ๋ฏผ๊ฐํจ
- ํด๊ฒฐ๋ฐฉ๋ฒ: maximal distance ๊ธฐ์ค์ผ๋ก center๋ฅผ ์ ํ๋ ๊ฒ์ squared error distortion ๊ธฐ์ค์ผ๋ก ์์ => k-means clustering problem
- ํ์ง๋ง k-means์ ๋ฌธ์ ์ -> NP-Hard for k>1์ ๋ฐ๋ผ์ approximation์ ํ์ฌ suboptimal solution์ ๊ตฌํจ
- lloyd algorithm
- k-means clustering ์๊ณ ๋ฆฌ์ฆ
- ํญ์ convergeํจ
- hard/soft clustering
- soft clustering: clustering with responsibility
- stiffness parameter๋ฅผ ํตํด hard clustering-soft clustering์ ์ ๋๋ฅผ ์กฐ์ ํ ์ ์์
- From Coin Flipping to k-means Clustering
- clustering์ em(expectation-maximization) ์๊ณ ๋ฆฌ์ฆ์ ์ผ์ข
- Hierarchical clustering
- k๊ฐ ์ฃผ์ด์ง ํ์ ์์
00 EXT
02 Motif finding
- greedy approach
- randomized approach
- gibbs sampling
- expectation-maximization
03 Graph for string reconstruction: Assembly
- overlap graph
- de Bruijin graph
- hidden Markov model for gene finding
04 Structural variations
- insertion/deletion
- translocation
โ
- metagenomics
- string match
- genotype(์ ์ ํ) vs phenotype(ํํํ)
- DNA sequencing
- sequencer๋ฅผ ์ด์ฉํ์ฌ ํ ์ ์๋ค
- ์ค์ dna์์ ACGT string์ ์ป์ด๋ด๋ ๊ณผ์
- Assembly
- 100~200๊ฐ ๋๋ base pair๋ฅผ ์ด์ด ๋ถ์ด๋ ๊ณผ์
- ํ์ฌ ๊ธฐ์ ์ผ๋ก๋ sequencer๊ฐ ๋ชจ๋ dna๋ฅผ ์ฒ์๋ถํฐ ๋๊น์ง ์ฝ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ์กฐ๊ฐ์กฐ๊ฐ ์ฝ์ด ๋ถ์ด๋๊ฒ์
- Motif finding
- Text mining for biomedical literature
- ์ค์ literature๋ฅผ trainํ์ฌ ์ด๋ค term๊ณผ ์ด๋ค term์ด ๊ด๋ จ ๋์ด ์๋์ง ์์๋.
<How do we find motifs?>
- motif: ๋ฐ๋ณต๋๋ string
- k-mer = k-word = k-gram
- (k, d)-motif: k-mer that appears in each sequence with at most d mismatches
- consensus: ๊ฐ ์ธ๋ฑ์ค์์ ๊ฐ์ฅ ๋น๋์๊ฐ ๋์ ์ ๋ค์ string
- consensus์ conservation ์ ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด entropy๋ฅผ ์ฌ์ฉํ๋ค
- entropy๊ฐ ๋์์๋ก conservation ๊ฐ์
- EM(expectation maximization)
- k-means์ ๋ฐฉ์์ด ๋น์ทํจ: ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ํ ๋ชจ๋ธ์ ๋ง๋ฌ -> ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ๋ฅผ ๋น๊ต -> ์ ๋ฐ์ดํธ -> ๋ฐ๋ณต
- 20์ชฝ: ๊ทธ๋๋ก implementํ๋ฉด ๋๊ฐ์ง ๋ฌธ์ ๊ฐ ๋ฐ์
- 0์ด ํ๋๋ผ๋ ์์ผ๋ฉด 0์ด ๋จ => pseudocount ๊ฐ๋ ๋์
- ํ๋ฅ ์ ๋ก๊ทธ๋ฅผ ์ทจํด์ค์ผํจ
- randomised motif search
- global max๋ฅผ ๋ณด์ฅํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ๋ฌ๋ฒ ์ํํจ(local max๋ฅผ ์ฌ๋ฌ๋ฒ ๊ตฌํด์ ๋น๊ต)
<Expectation Maximization>
- ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์ด๋์ ์ํ๋์ง(classification)ํ๊ธฐ ์ํด์๋ ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋ค
- ๋ชจ๋ธ์ ๋ง๋๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ -> normal distribution
- class ์ ๋ณด๊ฐ ์ฃผ์ด์ง์ง ์์ ๊ฒฝ์ฐ: EM์ ์ฌ์ฉํ์ฌ hidden variable/parameter๋ฅผ estimate
- naive bayesian classifier
- ํ ๊ฐ์ฒด๊ฐ ํ๋์ cluster๋ฅผ ์ ํ๋ ๋ฐ์๋ง ์ฌ์ฉ๋๋ ๊ฒ์ hard clustering์ด๋ผ๊ณ ํจ => ๊ฒฐ๊ณผ๊ฐ extremeํด์ง ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ
- ํ๋์ ๊ฐ์ฒด์ ๋ํด ์ด๋ค cluster๊ฐ ๋ โํ๋ฅ โ์ ๊ณ์ฐํ๋ฉด ๋จ = soft clustering
- 20์ชฝ k-means clustering์ hard clustering์ ์์ด๋ค
- soft clustering: EM for Gaussian mixture
<Gibbs Sampling>
- randomized motif search์ ๋ค๋ฅธ์
- randomized motif search may replace all k-mers in a single iteration
- gibbs sampling replaces a โsingleโ k-mer at each iteration -> sampling with more caution
- relative entropy
- background probability ๊ฐ๋ ์ ์ด์ฉ
- minimize the entropy of a motif matrix
- maximize the relative entropy
- โ์/๋โ, โ~์ด๋คโ ์ ๊ฐ์ด ๋ง์ด ๋ฑ์ฅํ์ง๋ง ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง ์๋ string์ ์ฒ๋ฆฌํ๊ธฐ ์ํจ
<Assembly Problem>
- overlap graph๋ฅผ ๋ง๋ค๋ฉด ์ฝ๊ฒ ํด๊ฒฐํ ์ ์์
- a์ prefix์ b์ suffix๊ฐ ๊ฐ์ผ๋ฉด edge๋ก ์ฐ๊ฒฐ
- ๋ชจ๋ node๋ฅผ ๋ฑ ํ๋ฒ์ฉ๋ง ๋ฐฉ๋ฌธํ๋ path๋ฅผ ์ฐพ๋ ๋ฌธ์ ๊ฐ ๋จ(Hamiltonian path problem)
- k-mer ์์ฒด๋ฅผ node์ ๋์์ํค์ง ์๊ณ edge์ ๋์์ํด => de Bruijn graph
- node๋ edge์ prefix(TAA์ผ ๊ฒฝ์ฐ ์์ ๋ ธ๋๋ TA, ๋ค์ ๋ ธ๋๋ AA)
- ๋ ธ๋์ ์ค๋ณต์ ํ๋ฝํ์ง ์์(์ค๋ณต์ด ๋์ฌ ๊ฒฝ์ฐ ํฉ์นจ)
- Eulerian path problem์ด ๋จ(๋ชจ๋ edge๋ฅผ ํ๋ฒ์ฉ ๊ฑฐ์นจ)
- Eulerian graph: eulerian cycle์ด ์กด์ฌํ๋ graph
- Eulerian cycle: balanced & strongly connected
- ์ค์ ๋ก๋ k๋ฅผ ๋ณดํต 50์ผ๋ก ์ก์์ ํด๊ฒฐํ๋ค
- ๋๋ฌด ์งง์ ๊ฒฝ์ฐ: ์ค๋ณต edge๊ฐ ๋ง์ด ๋ฐ์
- ๋๋ฌด ๊ธธ ๊ฒฝ์ฐ: ํ node์ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์ปค์ง -> ๋ฉ๋ชจ๋ฆฌ ์ด์
- edge ์ฌ๋ฌ๊ฐ์ผ ๊ฒฝ์ฐ ํด๊ฒฐ๋ฒ
- node๊ฐ edge๊ฐ ์ฌ๋ฌ๊ฐ์ผ ๊ฒฝ์ฐ์ ์ด๋ค edge๋ฅผ ์ ํํ ๊น ํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋จ. ๊ทธ๋ฐ ๊ฒฝ์ฐ์๋ k+1 mer ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆผ. unique path๊ฐ ์๊ธธ ๋๊น์ง k๋ฅผ ๋๋ ค๊ฐ๋ค
- paired composition
- ๋ฐฉํฅ์ ์์ชฝ์ผ๋ก ํด์ ์ฝ์ผ๋ฉด ๋ท๋ถ๋ถ์ ๋ํ ์ ๋ณด๊ฐ ์ถ๊ฐ์ ์ผ๋ก ์๊น => ์ด๋ค edge๋ก ์ด๋ํ ์ง priority๋ฅผ ์ ํด์ค ์ ์์
- maximal non-branching path
- ๋ ธ๋๊ฐ edge๊ฐ ์ฌ๋ฌ๊ฐ์ธ ๊ฒฝ์ฐ ๊ทธ๋ฅ ๊ทธ๋ํ๋ฅผ ๋ฐ๋ก ๋๋๋ค. => ๊ฒฐ๊ณผ๋ก ๋์จ ์ฌ๋ฌ๊ฐ์ง ๊ทธ๋ํ๋ฅผ ์คํ์ ์ผ๋ก ๋ง์ถฐ๋ด
<Hidden Markov Model(HMM)>
- Markov chain
- trainsition probability๋ฅผ ๊ณ ๋ คํ ๋ชจ๋ธ
- inhomogenous Markov chain
- different distributions at different positions in the sequence
- ex) DNA sequence์์ ๋งจ ์ฒ์ ์์น์๋ A๊ฐ ์ฌ ํ๋ฅ ์ด ๋๊ณ ๋๋ฒ์งธ ์์น์๋ ๋ฎ๊ณ โฆ ๋ฑ๋ฑ ์ด๋ฌํ ์ ๋ณด๋ฅผ ๋ฐ์
- MLE(Maximum Likelihood Estimators)
- CpG island
- ~ island: ~๊ฐ ๋ง์ด ์๋ ๋ถ๋ถ์ ๋น์ ์ ์ผ๋ก ์๋ฏธํจ
- dna ์์ด์์๋ ๋ณดํต gene์ด ๋ฑ์ฅํ๊ธฐ ์ ์ CpG island๊ฐ ๋ง์ด ์์
- Hidden Markov Model
- state, state ๋ด์ symbol, transition probability, emission probability๋ฅผ ์ ์ํ๋ค. ์ด๋ป๊ฒ? ๋ฐ์ดํฐ๋ฅผ ํ์ต์์ผ์ผํจ!
- ์ด๋ค ์ข ๋ฅ์ problem์ ํด๊ฒฐํ ์ ์์๊น
- how likely is a given sequence?(forward algorithm)
- ๊ธธ์ด๊ฐ ๊ฐ์ sequence๋ค์ ๋ชจ๋ ์กฐํฉ ์ค ํน์ sequence๊ฐ ๋์ฌ ํ๋ฅ (๊ฒฐ๋ก ์ ์ผ๋ก state๋ฅผ ๊ณ ๋ คํจ)
- what is the most probable path for generating a given sequence?(viterbi algorithm)
- ์ด๋ค sequence๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ sequence์ state ๋ณํ๋ฅผ ์์
- how can we learn the hmm parameters given a set of sequences?(forward-backward(baum-welch) algorithm)
- viterbi algorithm์ ๊ฝค fairํ๊ฒ state๋ณํ๋ฅผ ๊ฐ์ง ํ ์ ์์ง๋ง ์ ํํ๊ฒ๋ ๊ฐ์งํ ์ ์์์๋ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฐ ๊ฒฝ์ฐ์๋ state ๋ชจ๋ธ์ ์ ์ค๊ณํ๋๊ฒ์ด ํจ์จ/์ฑ๋ฅ์ ๋์ผ ์ ์๋ค.
<How Do We Locate Disease-Causing Mutations?>
- Combinatorial Pattern Matching
- genotype-phenotype(ํํํ)๊ฐ ๊ด๋ จ์ฑ์ ์ฐ๊ตฌํ๋ ๊ฒ์ด ์ค์
- read mapping: reference genome์์ ์ด๋ค ๋ถ๋ถ์ด read์ ๋์๋๋์ง ์ฐพ๋ ๊ฒ
- Trie: ๊ทธ๋ํ ์๋ฃ๊ตฌ์กฐ์ ์ผ์ข
- store pairs of keys and data
- represent a collection of strings whose edge has a character
- suffix tree: trie๋ฅผ compressionํ ๊ฒ
- burrows-wheeler transform
- genome์ run-length encoding์ด ๊ฐ๋ฅํ ํํ๋ก ๋ง๋๋ transform
- run-length encoding: aaaabbbccc -> 4a3b3c
'CS > Lecture' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ปดํจํฐ๋น์ (0) | 2017.09.13 |
---|---|
์ด์์ฒด์ (0) | 2017.09.13 |
์ธ๊ณต์ง๋ฅ (3) | 2017.09.12 |
์ปดํจํฐ๊ทธ๋ํฝ์ค (0) | 2017.09.12 |
๋ฐ์ดํฐ์ฌ์ด์ธ์ค (0) | 2017.09.12 |