Cute Running Puppy

분류 전체보기 122

딥러닝(2) - Backpropagation

역전파란?Backpropagation(역전파)은 신경망 학습에서 오차를 출력층에서 입력층으로 전달하여 각 가중치의 기여도를 계산하고 업데이트하는 알고리즘역전파의 필요성은닉층이 여러 개인 신경망은 단순한 방법으로 학습이 불가능출력층의 오차만으로 은닉층의 가중치를 직접 조정할 수 없음효율적인 Gradient 계산이 필요 - Parameter updateGradient Descent손실 함수의 기울기 방향으로 파라메터를 업데이트 하는 알고리즘문제점은닉층이 여러개 일 때 미분 불가 문제 발생Chain Rule복합 함수의 도함수를 계산할 때 사용하는 미분 법칙수학적 정의복합 함수 z=f(g(x))의 경우 chain rule은 다음과 같이 표현예 - 문제점모델의 크기가 커지면 계산량이 매우 커진다.역전파의 목적기울..

딥러닝 2025.04.07

딥러닝(1) - Neural Network

- Neuron신경 세포의 가장 작은 기본 단위- Perceptron생물학적 뉴런을 모방한 알고리즘으로 인공신경망의 가장 기본 단위입력 데이터를 받아 가중치와 함께 계산하고, 그 결과를 활성화 함수로 변환하여 출력Perceptron의 구성요소Inputs외부에서 입력되는 값, 입력 값Weights각 입력에 대한 중요도, 가중치Bias모델 고유의 편중 값, 편향Activation Function노드의 출력 값을 결정하는 함수Output노드의 최종 출력, 출력 값- Basic Perceptron선형 회귀는 가장 단순한 노드의 형태위의 그림을 수정하여 입력이 3개인 다변수(Multivariable) 선형회귀 모델을 만들면?위의 다변수 선형회귀 모델에 활성화 함수를 적용하여 Logistic Regression그림..

딥러닝 2025.04.06

빅데이터분석(5) - Decision Tree

- 의사결정트리 (Decision Tree)란?기계 학습에서 사용되는 지도 학습 알고리즘 중 하나로 데이터의 특징과 레이블간의 관계를 트리 구조로 표현하는 모델의사결정트리 과정은 스무고개와 비슷한 방식으로 동작- 의사결정트리의 목적데이터의 특징과 레이블 간의 관계를 학습하고 이를 기반으로  예측 및 분류를 수행하는 것예측 및 분류주어진 입력 값에 대해 예측 값을 생성하고 분류를 수행특징의 중요도 파악트리의 규칙은 if-else형태로 표현되며 특징들이 어떤 순서로 사용되고 어떤 특징이 가장 분류에 중요한 영향을 미치는지 알려줌이를 통해 데이터 셋의 특징을 이해하고 문제에 대한 통찰을 얻는데 도움을 줌과적합 방지가지치기 기법을 사용하여 불필요한 가지를 제거하여 과적합 방지에 활용됨 - Decision Tre..

빅데이터분석 2025.03.31

빅데이터분석(4) - Feature Selection

- Feature Selection (특성 선택)이란?데이터의 특성(feature)중에서 가장 중요하게 생각되는 변수를 선택하는 것학습 모델 훈련에 가장 유용한 특성을 선택하는 것이 목표다시 말해 모델의 정확도를 향상시키기 위해 데이터 중에서 가장 좋은 성능을 보여줄 수 있는 데이터의 부분집합(subset)을 찾아내는 것 - Feature Selection의 이점차원의 저주를 높임모델의 성능을 높임과적합 방지계산효율이 좋아짐데이터 분석에서 중요하지 않은 특성 제거 - Filter MethodFilter Method : 데이터 셋에서 각 feature들의 통계적인 특성을 이용하여 feature들의 중요도를 평가하고, 이를 기반으로 feature를 선택하는 방법대표적인 filter method카이제곱검정 (..

빅데이터분석 2025.03.27

빅데이터분석(3) - T-SNE

- 저번 글에서 학습했던 주성분 분석(PCA)는 선형 분석 방식으로 값을 투영하기 때문에 군집화 되어 있거나 비선형 데이터에 대해서 올바른 동작이 어렵다는 한계가 있다. 이는 T-SNE로 해결가능하다. T- distribution Stochastic Neighbor EmbeddingT-SNE란?높은 차원의 복잡한 데이터를 저차원(2 또는 3차원)으로 차원 축소하는 방법비선형 데이터에 대해서도 잘 동작하는 장점오직 데이터의 시각화가 목표핵심 아이디어 고차원에서 특정 데이터와 가까운 데이터는 저차원에서도 가까울 것이며, 멀리 떨어진 데이터는 저차원에서도 멀리 떨어져 있을 것이다.가깝다/멀다 -> 이웃하다 -> Neighbor embedding어떻게 판단? -> 확률적으로 Stochastic어떤 확률 분포가 ..

빅데이터분석 2025.03.24

빅데이터분석(2) - PCA

- 차원 축소-차원의 저주차원이 증가하면서(차원은 변수의 개수와 같음) 문제 공간이 지수적으로 커지는 현상용량이 커진다? -> 더 많은 메모리 필요관측치보다 변수 수가 많아짐 -> 모델의 성능 저하데이터 사이의 거리가 멀어지고 빈공간이 생김 -> sparsity 문제 발생즉, 차원이 커질 수록 공간은 많이 필요하면서 사용할 수 있는 정보량은 상대적으로 작아지는 현상 발생차원 축소(=변수를 줄인다)는 고차원의 데이터를 저차원의 데이터로 변환하는 방법차원 : 데이터 분석에 사용되는 변수의 개수즉, 사용되는 변수를 줄이는 방법차원 축소를 하는 이유비용, 시간, 자원, 용량 문제 해결 (차원의 저주)분석 시간이 증가하며, 불필요한 변수저장에 추가 용량이 필요과적합 문제 해결변수가 많으면 모델 복잡도가 증가함복잡..

빅데이터분석 2025.03.20

빅데이터 분석(1) - Data cleaning

- 데이터 정제데이터 정제는 데이터에서 부정확한 레코드를 감지 및 수정(또는 제거)하는 프로세스데이터의 유효성, 정확도, 완전성, 일관성을 유지하고 신뢰성을 향상시키는 중요한 과정- 데이터 전처리와 차이점데이터 전처리 : 데이터를 주어진 양식에 맞게 변경/수정하는 과정Ex. 이미지 데이터를 256x256 -> 27x27로 사이즈 수정데이터 정제 : 데이터의 부정확한 레코드 감지 및 수정, 데이터 전처리 단계 이전에 수행됨Ex. 이상치 감지하여 제거 / 결측치 찾아 보간 - 데이터 통합데이터 분석은 다양한 기관/위치에서 수집한 데이터를 하나로 모아 진행하기 때문에 다양한 소스에 존재하는 데이터를 합치는 작업이 필요- 단순 데이터 붙이기 여러 개의 데이터 파일이 있는 경우, column 혹은 row를 결합-..

빅데이터분석 2025.03.17

인공지능(8) - Linear Regression

- 회귀(Regression)이란?독립변수와 종속변수 간의 상관관계를 모델링하는 통계학적 기법독립변수 : 원인변수종속변수 : 예측하려는 값일반적으로 회귀는 예측과 분류문제에서 사용됨 - Linear Regression두 변수 간의 관계를 직선으로 나타내며, 독립변수가 종속변수에 어떻게 영향을 미치는지 예측하는 통계적 기법한 변수가 변할 때 다른 변수가 어떻게 변하는지 예측Linear Regression의 목표 : 학습데이터를 가장 잘 표현하는 직선 라인 찾는 것 - 기본 선형회귀 식y = H(x) = Wx + b'w' : Weight (가중치)'b' : Bias (편향)'x' : Input (입력) - 예측 문제기존 데이터를 기반으로 새로운 데이터에 대한 종속변수 값을 예측독립변수 - 종속변수 간 관계식..

인공지능 2025.03.16

인공지능(7) - K-Means Clustering

- 비지도 학습 (Unsupervised Learning)비지도 학습이란 정답(Label)이 없는 데이터를 학습하는 방법군집화(clustering)는 비지도 학습의 가장 잘 알려진 방법이다이외에 차원 축소, 생성 모델 등 다양한 방법들이 있다. - Clustering라벨이 없는 데이터들 내에서 비슷한 특징이나 패턴을 가진 데이터들 끼리 군집화한 후 새로운 데이터가 어떤 군집에 속하는지 추론하는 방법클러스터링의 대표적인 알고리즘은 K-means clustering이 있다.- K-means ClusteringK 값이 주어져 있을 때, 주어진 n개의 데이터들을 k개의 클러스터로 묶는 알고리즘K는 군집의 수(number of cluster)를 의미하고 means는 평균을 의미한다.데이터의 평균을 활용하여 K개의..

인공지능 2025.03.10

인공지능(6) - K-Nearest Neighbor

- 분류(Classification)란?새로운 데이터가 입력되었을 때, 입력데이터에 대해서 소속을 찾는 것을 분류라고 한다- 최근접 이웃(Nearest Neighbor)새로 입력된 데이터는 기존에 있는 값들 중에서 가장 비슷한 것(가까운 것 : Nearest Neighbor)으로 분류할 수 있다.- Euclidean Distance유사한 정도(거리)를 어떻게 구함? => Euclidean DistanceEuclidean DistanceN차원의 공간에서 두 점 사이의 거리Distance =Idea새로 입력된 데이터는 기존에 있는 값들 중에서 가장 비슷한 것 (가까운 것 : Nearest Neighbor)으로 분류할 수 있다.     - 문제점Noisy Samples 발생서로 다른 종류의 데이터라도 분포가 ..

인공지능 2025.03.10