본문 바로가기
molecular_biology

랜덤포레스트 분석

by bioExplorer 2023. 6. 7.

실무에서 랜덤포레스트 분석을 하는 경우는 다음과 같습니다. 연구자들이 진행한 데이터 세트 하나가 있고, 이 연구 데이터의 결과를 다시 확인해 줄 다른 유전자 데이터 세트 하나가 있습니다. 쉽게 이해하자면,  본인의 연구 결과가 다른 연구 결과에서도 증명되었으므로 타당하면서 좋은 연구다라고 주장하고 싶을 때 랜덤포레스트 분석을 한다고 생각하면 됩니다.

 

 랜덤포레스트 분석 순서의 이해

1. 연구 데이터세트와 라벨 할당

unsupervised clustering 방식으로 데이터세트를 그룹핑(grouping) 합니다. 그룹핑 후, 5개의 그룹으로 나누었으면 각 그룹에 라벨을 할당 (cluster1, cluster2, cluster3, cluster4, cluster5)합니다.

2. 랜덤포레스트(random forest) 모델 훈련

이제 각 데이토 포인트에 레이블이 지정되었으므로, 이 레이블을 종속 변수로 사용하고, 특성(feature)은 여러 유전자 데이터를 사용하여 랜덤포레스트 모델을 학습시킵니다.

3. 다른 유전자 데이터 세트

연구자가 선택한 다른 유전자 데이터 세트에 이미 학습된 랜덤포레스트 모델을 적용합니다. 이 모델은 다른 유전자 데이터의 각 샘플에 대해 5개의 그룹 중 하나를 예측할 것입니다.

4. 확증

마지막으로, 랜덤포레스트 모델에 의해 생성된 다른 유전자 데이터 세트의 그룹이 잘 분류되었는지 확인해야 합니다. 이를 확인하는 방법은 여러가지가 있지만, 일반적으로 원래 데이터에서 측정한 그룹과 선택한 데이터세트에서 예측한 그룹 간의 상관관계를 확인하는 것이 일반적입니다. 또한, 각 그룹의 생존 분석을 통해 그룹이 임상적으로 의미 있는지도 확인할 수 있습니다.

 

5. 결론

이 분석 프로세서를 거쳐서, 원래의 유전자 데이터세트의 특성과 유사한 특성을 가진 선택된 데이터세트 내의 그룹을 식별하고, 이 그룹이 임상적으로 의미 있는지를 검증하는 것이 가능합니다.

 

 

 

댓글