Certification/ADsP

[ADsP] 2024/02/23 공부일지

효딩 2024. 2. 24. 01:01

드디어 D-1

아 네트워크는 괜찮은데 얘가 더 문제야

 

<1과목>

 

군집분석: 비지도학습

분류, 감정, 회귀분석: 지도학습

 

<2과목>

 

데이터 분석 방법론 구성요소

: 절차, 방법, 도구와 기법, 템플릿과 산출물

 

빅데이터의 경우 수명주기 관리방안을 수립하지 않으면

데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수 있음

 

시급성 - 전략적 중요도와 목표 가치가 평가 요소

난이도 - 데이터 획득/저장/가공비용과 분석 적용 비용, 분석 수준이 평가요소

 

데이터 분석 프로젝트 초기에는 의도했던 결과(모델)가 나오기 쉽지 않기 때문에

많은 시간이 소요될 수 있으며, Time Boxing 기법으로 일정관리를 진행하는 것이 필요

 

BI와 비교하여 빅테이터 분석에 대한 키워드

: Information, Adhoc Report, Clean Data

 

<3과목>

 

통계량

: 모수를 추정하기 위해 구하는 표본의 값들

 

층화 추출법

: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본 추출하는 방법

 

명목척도: 측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도로

성별(남, 여) 구분, 출생지 구분 등을 할 때 사용

 

사분위범위

: 중앙 50%의 데이터들이 흩어진 정도

 

대립가설

: 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설

 

반응변수가 범주형인 경우에 적용되는 회귀 분석 모형: 로지스틱 회귀모형

 

예측 실패의 비용이 큰 분류 분석이 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않은 문제

: 범주 불균형 문제

 

다층 신경망 모형에서 은닉층의 개수 너무 많이 설정

-> 기울기 소실 문제

은닉층 노드 수 너무 적을 경우

-> 네트워크가 복잡한 의사결정 경계 만들 수 없음

 

실루엣 계수

: 군집 모형 평가 기준 중 하나, 군집의 밀집 정도를 계산하는 방법

군집 내의 거리와 군집 간의 거리를 기준으로 군집 분할의 성과를 평가하는 것