유전 변이 정보에서 GWAS밖에 모르던 대학원 1학기 시절에 연구실 석박 통합 선생님을 통해 PRS의 개념을 처음 접하게 되었다.
VCF 등과 같은 변이 기반의 유전체 데이터에서 활용할 수 있는 대표적인 지표인 Polygenic Risk Score를 알아보자
1. PRS 개념
PRS 자체는 모든 변이 정보를 합산한 값이다. 참조 유전체와 비교할 때, 변이 대립유전자의 개수가 많아질 수록 점수가 커지고 그런 구조인데, 거기에 SNP마다 갖고있는 가중치를 곱해서 합산한다.

| 용어 | 의미 | 예시 |
| M | PRS에 포함된 SNP의 개수 | Total Variants Number |
| G | 위험 대립유전자(risk allele) 수 | VCF에서는 보통 ALT의 개수를 의미한다 (예시: REF가 A, ALT가 T라고 할 때, 유전자형이 "AA = 0 , AT=1, TT=2" 로 계산됨) |
| β | GWAS에서 얻은 변이 효과 | log(odds ratio), 회귀계수 |
그러면 PRS를 계산하기 위해서는 어떤 데이터가 필요한가? Basic data와 Target data가 필요하다
- Basic data: 특정 표현형에 수행된 GWAS Summary 데이터
- Target data: 계산하고자하는 샘플의 변이 호출 데이터 (VCF, Bim,bed,fam 등)
때문에 한명의 샘플에서도 다양한 표현형에 대한 PRS를 모두 계산할 수 있다.
2. Basic data
아주 나이스 하게도 GWAS summary에 대한 정보는 대규모 코호트 기반의 바이오뱅크에서 공개하는 경우가 많다.
PheWeb에 들어가서 받아서 사용할 수 도 있다.
아니면, PRS만을 위해서 이러한 Summary 데이터를 모아둔 포털 사이트도 존재한다. PRS Catalog인데 해당 사이트를 통해서 본인이 원하는 표현형의 PRS 계산하기 위한 데이터를 받아 사용하면된다.
PGS Catalog - The Polygenic Score Catalog
www.pgscatalog.org

혹은 BBJ같이 바이오뱅크 사이트에서도 찾아볼 수 있다.
PheWeb.jp
A PheWeb browser for the BioBank Japan summary statistics
pheweb.jp

3. Target data
아쉽게도 Target data 자체는 한 개인의 유전체 정보이기 때문에, 공개 데이터로 받기는 쉽지않다.
바이오뱅크같은 코호트에서는 등록 절차를 밟은 후에 연구 목적으로는 활용할 수 있다고한다.
4. PRS 계산 방법
Plink를 통한 계산 방식과 직접 계산하는 방식으로 나뉘는 듯하다.
Plink를 활용하는 경우에 2.0 버전에서만 PRS 계산 Tool을 제공한다.
직접계산하는 경우는 위의 계산식을 코딩처리해서 진행하기도한다. 어찌보면 단순 계산 방식이니깐
5. PRS 계산 시 주의 혹은 고려할 점
5-1. 사용 유전체 정보 확인
Target data와 Basic data의 참조 유전체 버전을 확인하는 것이 중요하다.
일반적으로는 Hg19, Hg38로 크게 나뉘는데 버전별로 똑같은 rsid (변이 정보에 대한 고유 ID)가 다르게 되어있는 경우가 많다.
아래 예시를 들어서 설명을 하자면, rs62635297 과같이 참조 유전체 버전에서도 같은 위치에 있는 경우가 있다면, rs3213591의 경우는 같은 염색체 번호이긴하지만 그 안에서의 위치가 바뀐것을 확인할 수 있다.

실제로 Hg38에서 6:168316118를 검색해보면 아래 그림과 같이 다른 rsid가 검색된다.

대부분의 GWAS summary는 Hg19 버전이 많기 때문에 LiftOver를 수행해서 참조 유전체 버전을 맞춰주는 작업이 필요하다.
5-2. 인종간의 차이
PRS는 인종간의 영향을 많이 받는다. 그렇기 때문에 본인이 활용하는 Target data의 특성에 따라 Basic data를 어느정도 맞추는 것이 중요하다. Target data가 한국인이라면 한국인 코호트의 Basic data 혹은 유사인종의 결과를 사용하는 식으로 사용한다.
혹은 이러한 인종간의 차이를 극복하기위해 GWAS summary자체를 다인종 결과들로 활용하여 계산하는 방식도 존재한다.
PRS-CS, PRS-CX 가 그런 방식 중 하나이다.
https://github.com/getian107/PRScs
GitHub - getian107/PRScs: Polygenic prediction via continuous shrinkage priors
Polygenic prediction via continuous shrinkage priors - getian107/PRScs
github.com
6. PRS의 활용
6-1. 질병과의 임상적 분석 연구
관상동맥질환(CAD)는 PRS 연구가 많이 되고 있는 질환 중 하나이다.
PRS를 계산하고 점수 구간별로 위험군을 범주화하여 분석하기도 하며, Cox regression과 같은 생존 분석 모델에 적용하기도한다.
Abstract (결론): 본 연구의 결과는 CAD PRS의 예측 능력이 젊은 개인에서 더 크다는 것을 시사하며, 스타틴 치료를 시작해야 하는 경계선 및 중간 임상적 위험이 있는 환자를 더 잘 식별하는 데 사용할 수 있음을 시사합니다.

6-2. PRS 방법론 제시 연구
혹은 새로운 PRS를 개발하여 기존 PRS와 비교하는 연구도 활발하다.
주로 언급되는 PRS의 문제는 인종간의 차이점을 극복하는 것에서 해당 논문의 디자인이 개발된 것 같다.
본 연구에서는 다인종의 GWAS를 기반으로 타겟에 최적화된 인종별 가중치를 부여하는 PRS 계산 방식을 적용한 연구이다. 아래 그림을 보면 총 5개 인종의 Summary 데이터를 활용하였으며, Multi-ancestry GPS를 구축하여 각각 코호트에 적용 후 다른 PRS 계산 방법과의 비교 검증 한 연구이다.
Abstract (결론): 아프리카, 유럽, 히스패닉 및 남아시아 혈통의 다인종 외부 검증 데이터 세트에서 Multi-ancestry GPS는 모든 혈통에서 연관성 강도가 증가했으며 이전에 발표된 모든 CAD 다유전자 점수를 능가했습니다. 이러한 데이터는 CAD 분야에 새로운 GPS Mult 를 제공 하고 다양한 인구 집단의 CAD 및 관련 형질에 대한 유전적 연관성 데이터의 대규모 통합이 다유전자 위험 예측을 의미 있게 개선할 수 있는 방법에 대한 일반화 가능한 프레임워크를 제공한다.

참고문헌
[1] Marston, Nicholas A., et al. "Predictive utility of a coronary artery disease polygenic risk score in primary prevention." JAMA cardiology 8.2 (2023): 130-137.
[2] Patel, Aniruddh P., et al. "A multi-ancestry polygenic risk score improves risk prediction for coronary artery disease." Nature Medicine 29.7 (2023): 1793-1803.
'Bioinformatics' 카테고리의 다른 글
| 연관 불균형(Linkage disequilibrium, LD)이란? (0) | 2026.03.29 |
|---|---|
| 유전좌위(Locus) 정보로 SNPID(rsID) 붙이기 (0) | 2026.03.23 |
| 전장 유전체 분석, GWAS(Genome-wide Association Study) (0) | 2025.11.13 |
| VCF 데이터 전처리 (Bcftools,cyvcf2) (3) | 2025.07.13 |
| 유전체 분석-chapter 4: VCF파일 생성하기 (BQSR/Variant Calling) (11) | 2025.07.09 |