실무에서 랜덤포레스트 분석을 하는 경우는 다음과 같습니다. 연구자들이 진행한 데이터 세트 하나가 있고, 이 연구 데이터의 결과를 다시 확인해 줄 다른 유전자 데이터 세트 하나가 있습니다. 쉽게 이해하자면, 본인의 연구 결과가 다른 연구 결과에서도 증명되었으므로 타당하면서 좋은 연구다라고 주장하고 싶을 때 랜덤포레스트 분석을 한다고 생각하면 됩니다.
랜덤포레스트 분석 순서의 이해
1. 연구 데이터세트와 라벨 할당
unsupervised clustering 방식으로 데이터세트를 그룹핑(grouping) 합니다. 그룹핑 후, 5개의 그룹으로 나누었으면 각 그룹에 라벨을 할당 (cluster1, cluster2, cluster3, cluster4, cluster5)합니다.
2. 랜덤포레스트(random forest) 모델 훈련
이제 각 데이토 포인트에 레이블이 지정되었으므로, 이 레이블을 종속 변수로 사용하고, 특성(feature)은 여러 유전자 데이터를 사용하여 랜덤포레스트 모델을 학습시킵니다.
3. 다른 유전자 데이터 세트
연구자가 선택한 다른 유전자 데이터 세트에 이미 학습된 랜덤포레스트 모델을 적용합니다. 이 모델은 다른 유전자 데이터의 각 샘플에 대해 5개의 그룹 중 하나를 예측할 것입니다.
4. 확증
마지막으로, 랜덤포레스트 모델에 의해 생성된 다른 유전자 데이터 세트의 그룹이 잘 분류되었는지 확인해야 합니다. 이를 확인하는 방법은 여러가지가 있지만, 일반적으로 원래 데이터에서 측정한 그룹과 선택한 데이터세트에서 예측한 그룹 간의 상관관계를 확인하는 것이 일반적입니다. 또한, 각 그룹의 생존 분석을 통해 그룹이 임상적으로 의미 있는지도 확인할 수 있습니다.
5. 결론
이 분석 프로세서를 거쳐서, 원래의 유전자 데이터세트의 특성과 유사한 특성을 가진 선택된 데이터세트 내의 그룹을 식별하고, 이 그룹이 임상적으로 의미 있는지를 검증하는 것이 가능합니다.
'molecular_biology' 카테고리의 다른 글
What is the immune checkpoint blockade? (0) | 2023.07.13 |
---|---|
The various Cells in Our Blood: Tiny Guardians Protecting Our Health (0) | 2023.06.28 |
What is the micelles? (0) | 2023.05.23 |
How to organize a good review paper (0) | 2023.05.03 |
Brief Overview about EGFR family (0) | 2023.04.28 |
댓글