Cute Running Puppy

빅데이터분석 5

빅데이터분석(5) - Decision Tree

- 의사결정트리 (Decision Tree)란?기계 학습에서 사용되는 지도 학습 알고리즘 중 하나로 데이터의 특징과 레이블간의 관계를 트리 구조로 표현하는 모델의사결정트리 과정은 스무고개와 비슷한 방식으로 동작- 의사결정트리의 목적데이터의 특징과 레이블 간의 관계를 학습하고 이를 기반으로  예측 및 분류를 수행하는 것예측 및 분류주어진 입력 값에 대해 예측 값을 생성하고 분류를 수행특징의 중요도 파악트리의 규칙은 if-else형태로 표현되며 특징들이 어떤 순서로 사용되고 어떤 특징이 가장 분류에 중요한 영향을 미치는지 알려줌이를 통해 데이터 셋의 특징을 이해하고 문제에 대한 통찰을 얻는데 도움을 줌과적합 방지가지치기 기법을 사용하여 불필요한 가지를 제거하여 과적합 방지에 활용됨 - Decision Tre..

빅데이터분석 2025.03.31

빅데이터분석(4) - Feature Selection

- Feature Selection (특성 선택)이란?데이터의 특성(feature)중에서 가장 중요하게 생각되는 변수를 선택하는 것학습 모델 훈련에 가장 유용한 특성을 선택하는 것이 목표다시 말해 모델의 정확도를 향상시키기 위해 데이터 중에서 가장 좋은 성능을 보여줄 수 있는 데이터의 부분집합(subset)을 찾아내는 것 - Feature Selection의 이점차원의 저주를 높임모델의 성능을 높임과적합 방지계산효율이 좋아짐데이터 분석에서 중요하지 않은 특성 제거 - Filter MethodFilter Method : 데이터 셋에서 각 feature들의 통계적인 특성을 이용하여 feature들의 중요도를 평가하고, 이를 기반으로 feature를 선택하는 방법대표적인 filter method카이제곱검정 (..

빅데이터분석 2025.03.27

빅데이터분석(3) - T-SNE

- 저번 글에서 학습했던 주성분 분석(PCA)는 선형 분석 방식으로 값을 투영하기 때문에 군집화 되어 있거나 비선형 데이터에 대해서 올바른 동작이 어렵다는 한계가 있다. 이는 T-SNE로 해결가능하다. T- distribution Stochastic Neighbor EmbeddingT-SNE란?높은 차원의 복잡한 데이터를 저차원(2 또는 3차원)으로 차원 축소하는 방법비선형 데이터에 대해서도 잘 동작하는 장점오직 데이터의 시각화가 목표핵심 아이디어 고차원에서 특정 데이터와 가까운 데이터는 저차원에서도 가까울 것이며, 멀리 떨어진 데이터는 저차원에서도 멀리 떨어져 있을 것이다.가깝다/멀다 -> 이웃하다 -> Neighbor embedding어떻게 판단? -> 확률적으로 Stochastic어떤 확률 분포가 ..

빅데이터분석 2025.03.24

빅데이터분석(2) - PCA

- 차원 축소-차원의 저주차원이 증가하면서(차원은 변수의 개수와 같음) 문제 공간이 지수적으로 커지는 현상용량이 커진다? -> 더 많은 메모리 필요관측치보다 변수 수가 많아짐 -> 모델의 성능 저하데이터 사이의 거리가 멀어지고 빈공간이 생김 -> sparsity 문제 발생즉, 차원이 커질 수록 공간은 많이 필요하면서 사용할 수 있는 정보량은 상대적으로 작아지는 현상 발생차원 축소(=변수를 줄인다)는 고차원의 데이터를 저차원의 데이터로 변환하는 방법차원 : 데이터 분석에 사용되는 변수의 개수즉, 사용되는 변수를 줄이는 방법차원 축소를 하는 이유비용, 시간, 자원, 용량 문제 해결 (차원의 저주)분석 시간이 증가하며, 불필요한 변수저장에 추가 용량이 필요과적합 문제 해결변수가 많으면 모델 복잡도가 증가함복잡..

빅데이터분석 2025.03.20

빅데이터 분석(1) - Data cleaning

- 데이터 정제데이터 정제는 데이터에서 부정확한 레코드를 감지 및 수정(또는 제거)하는 프로세스데이터의 유효성, 정확도, 완전성, 일관성을 유지하고 신뢰성을 향상시키는 중요한 과정- 데이터 전처리와 차이점데이터 전처리 : 데이터를 주어진 양식에 맞게 변경/수정하는 과정Ex. 이미지 데이터를 256x256 -> 27x27로 사이즈 수정데이터 정제 : 데이터의 부정확한 레코드 감지 및 수정, 데이터 전처리 단계 이전에 수행됨Ex. 이상치 감지하여 제거 / 결측치 찾아 보간 - 데이터 통합데이터 분석은 다양한 기관/위치에서 수집한 데이터를 하나로 모아 진행하기 때문에 다양한 소스에 존재하는 데이터를 합치는 작업이 필요- 단순 데이터 붙이기 여러 개의 데이터 파일이 있는 경우, column 혹은 row를 결합-..

빅데이터분석 2025.03.17