본문 바로가기

전체 글

(22)
연관 불균형(Linkage disequilibrium, LD)이란? 1. 멘델의 유전법칙생명공학 시간 유전학을 처음 배울 때 가장 먼저 접하는 내용은 보통 멘델의 유전법칙이다. 멘델의 유전법칙은 3가지로 구분되어 설명할 수 있는데, 우열의 법칙: 우성 형질과 열성 형질이 있으면, 우성 형질만 드러난다.분리의 법칙: 우성과 열성은 3:1 비율로 분리돼 나타난다.독립의 법칙: 서로 다른 형질간 우열의 법칙과 분리의 법칙은, 독립적으로 작동한다.사실 근데 현실에서는 이러한 법칙이 작용하지 않는 케이스가 많다. 오늘 다뤄볼 내용은 이중에서 독립의 법칙에 어긋나는 연관불균형에 대한 것이다. 2. 연관 불균형이란? 멘델의 독립의 법칙은 서로 다른 유전자들이 독립적으로 유전된다고 설명하지만, 실제 염색체에서는 유전자들이 선형적으로 배열되어 있다. 따라서 물리적으로 가까운 위치에 있..
유전좌위(Locus) 정보로 SNPID(rsID) 붙이기 변이기반 분석에서는 해당 변이의 고유한 ID를 rsID (혹은 SNPID)라고 부른다. GWAS summary 나 VCF 파일에서 종종 해당 정보가 결측치로 남아있는 경우가 있음 PRS-csx와 같은 Tool을 사용하기 위해서는 SNPID를 붙이는 게 중요함 1. dbSNP 다운로드NCBI에서 제공하는 모든 SNP의 정보를 담은 데이터셋이 있다고한다. dbSNP Build 157 Release - NCBI InsightsRefSNP (rs) exceed 1.2 billion records We are pleased to announce the release of the Database of Single Nucleotide Polymorphisms (dbSNP) Build 157, which has..
"Open problems in human trait genetics" 논문 리뷰 -2 앞의 내용은 1편에서 다루었습니다. "Open problems in human trait genetics" 논문 리뷰 -11. 연구 서론2003년 휴먼 게놈 프로젝트 완료된 이후 20년이 지난 지금도 여전히 유전 데이터로부터 정확한 개인 표현형 예측하기 하지 못하고 있는 상황에 대해 왜 그런지에 대해 탐구합니다. 2.taeyeong-bi.tistory.com6. 비가산적 유전효과 (Non-additive genetic effects: oversight or non-issue?)6-1. 가산적 유전 모델- 대부분의 유전 분석은 가산적 유전 모델을 전제로 한다GWAS, PRS, 유전력 추정(heritability) 등 현재 널리 사용되는 유전학적 방법들은 대체로 각 유전변이의 효과가 서로 독립적으로 더해진다..
제11회 빅데이터 분석기사 실기 시험 후기 아래글에서 필기 본 이후로 원래는 바로 실기도 보려고했으나... 그 당시 대학원 연구 이슈로 바빴기 때문에11회로 거의 연말 되기 직전에 시험을 치렀다. 제 10회 빅데이터 분석기사 필기시험 후기기타 글이기 때문에... 약간 일기 느낌으로 써봄 사실 AI 개발이나 데이터분석에서 자격증이 크게 중요하진 않다고하지만.... 그래도 없는거보단 낫다는 마인드로 시험을 보기로 결심했음 빅데이taeyeong-bi.tistory.com 근데 집에서 가까운 곳 신청하려면 바로바로 시험 접수를 해야할 듯 싶다...ㅠㅠ모르고 있다가 마감 직전에 신청했는데, 집근처는 다 접수 마감되어 조금 멀리 있는 곳으로 갔다그래도 나름 그렇게 멀지는 않아서 다행이였다(대중교통타고 약 1시간정도 소요) 1. 학습 방법참고로 저..
"Open problems in human trait genetics" 논문 리뷰 -1 1. 문제의식: 왜 아직도 유전 데이터만으로 개인 표현형을 정확히 예측하지 못하는가2003년 휴먼 게놈 프로젝트가 완료된 이후 약 20년이 지났지만, 지금도 개인의 유전 정보만으로 질병이나 인간 특성을 정확하게 예측하는 일은 여전히 어렵다.이 리뷰는 바로 그 이유를 탐구하는 데 초점을 둔다.핵심 질문은 다음과 같다.인간 표현형의 차이를 만드는 유전적 변이를 얼마나 잘 찾고 있는가발견된 유전 정보를 이용해 개인의 특성을 얼마나 잘 예측할 수 있는가왜 많은 연구가 진행되었음에도 예측 정확도와 생물학적 이해가 기대만큼 높지 않은가즉, 이 논문은 단순히 “어떤 유전변이가 관련 있는가”를 넘어서, 유전학 연구가 어디까지 왔고 어디에서 한계를 보이는지를 비판적으로 검토하는 것이다.2. 탐구 범위이 리뷰 논문은 인간..
다 유전적 위험 점수 (Polygenic Risk Score) 개념 및 활용 유전 변이 정보에서 GWAS밖에 모르던 대학원 1학기 시절에 연구실 석박 통합 선생님을 통해 PRS의 개념을 처음 접하게 되었다. VCF 등과 같은 변이 기반의 유전체 데이터에서 활용할 수 있는 대표적인 지표인 Polygenic Risk Score를 알아보자 1. PRS 개념PRS 자체는 모든 변이 정보를 합산한 값이다. 참조 유전체와 비교할 때, 변이 대립유전자의 개수가 많아질 수록 점수가 커지고 그런 구조인데, 거기에 SNP마다 갖고있는 가중치를 곱해서 합산한다. 용어의미예시M PRS에 포함된 SNP의 개수 Total Variants NumberG 위험 대립유전자(risk allele) 수 VCF에서는 보통 ALT의 개수를 의미한다(예시: REF가 A, ALT가 T라고 할 때, 유전자형이 "AA..
전장 유전체 분석, GWAS(Genome-wide Association Study) 오늘은 변이 기반의 유전체 데이터 분석하면 뺴놓을 수 없는 GWAS 분석에 대해서 알아보자 GWAS라는 개념을 알게된건 학부 통계유전체학 강의 시간에 어렴풋이 교수님께서 SNP와 GWAS의 개념을 설명해주셨는데 설마 내가 이것을 분석하고 연구하게 될 줄이야... 그 떄 열심히 공부해두길 잘한 것 같기도 (A+의 자부심)1. GWAS란?전장 유전체 수준에서 수십만~수백만 개의 SNP(Single Nucletide Polymerphism)를 동시에 훑으면서, 특정 질병/형질과 통계적으로 연관된 변이를 찾는 연구 방법이다. 분석에 주로 타겟이 되는 표현형은 1. 이진 변수 (질병 유무가 대표적)2. 연속형 변수 (혈압, BMI, 콜레스테롤 등) 으로 구성되며 이진변수인 경우는 로지스틱 회귀, 연속형 변수인 ..
VCF 데이터 전처리 (Bcftools,cyvcf2) VCF를 다루는 프로그램 중에서 Plink를 본격적으로 다루기전에 일부 전처리가 요구될 수 있습니다 그래서 VCF를 자유 자제로 처리할 수 있는 패키지를 소개 해드리려고합니다. 사실 여기 페이지 들어가면 기능이랑 다 설명이 되어있긴합니다 https://samtools.github.io/bcftools/bcftools.html bcftools(1)Comma-separated list of columns or tags to carry over from the annotation file (see also -a, --annotations). If the annotation file is not a VCF/BCF, list describes the columns of the annotation file and ..