본문 바로가기

Data Mining & R

R에서 try(), tryCatch() 함수 (R 예러처리) https://lovetoken.github.io/r/2016/02/11/tryfunction.html 이전에 나는 특정 코드들이 있을 때, 이 코드를 수행하면 에러가 나는지, 나지 않는지 여부를 boolean 값으로 반환하는 그러한 함수를 찾고 있었다. (그보단 이러한 함수를 만들 수 있도록 리소스를 찾아보고 있었다) 그러던 중 우연히 알게 된 try() 함수에 대해 알아보고자 한다.R이 처음으로 실행된 상황에서 (깔끔한 상태에서) 아래 코드는 bsid 라는 객체가 어떠한 환경에서도 없기 때문에 에러를 발생한다. 만약 .rmd 포맷으로 코딩을 하고 있는 상황이라면 오류나는 코드청크가 하나라도 있는 경우 랜더링이 막히게 될 것이다. 우선 랜더링마저 막히는 상황을 피하기 위해 코드청크의 옵션을 eval=F.. 더보기
Netflix Prize 및 프로덕션 머신 러닝 시스템 PDF 더보기
Digit Classification Using HOG Features https://kr.mathworks.com This example shows how to classify digits using HOG features and a multiclass SVM classifier.Object classification is an important task in many computer vision applications, including surveillance, automotive safety, and image retrieval. For example, in an automotive safety application, you may need to classify nearby objects as pedestrians or vehicles. Regardless of the.. 더보기
Classification in the Presence of Missing Data https://kr.mathworks.comMissing data is quite common when dealing with real world datasets. There are several ways to improve prediction accuracy when missing data in some predictors without completely discarding the entire observation. This example shows how decision trees with surrogate splits can be used to improve prediction accuracy in the presence of missing data.Load Data for Classificati.. 더보기
kNN(k Nearest Neighbors) 알고리즘 소개 및 R 구현 http://chapter5k.blogspot.kr/2016/01/knnk-nearest-neighbors-r.htmlkNN(k Nearest Neighbors) 알고리즘 소개 및 R 구현이번 주는 분류에 대한 최근접 알고리즘 접근법인 kNN 알고리즘을 간략하게 공부했다. kNN알고리즘은 범주를 알지 못하는 데이터가 있을 때, 근접한 k개의 데이터를 이용해 범주를 지정해주는 역할이다. 쓰임새는, 이미지나 비디오에서 얼굴과 글자를 인식하는 컴퓨터 비전 애플리케이션 개인별 추천 영화 예측 특정 단백질과 질병을 추출하는 데 사용하는 유전자 데이터의 패턴 식별 등 다양하다. 이러한 kNN알고리즘의 장단점은 아래와 같다. 장점단점- 단순하며 효율적- 데이터 분산에 대한 추정을 만들 필요가 없음- 빠른 훈련 단계-.. 더보기
Supervised Learning, Unsupervised Learning http://bcho.tistory.com/966http://chapter5k.blogspot.kr/2016/01/supervised-learning-unsupervised.htmlhttp://ddiri01.tistory.com/216 데이타마이닝을 할 때에 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)이 자주 거론된다. 지도학습(Supervised Learning)은 말 그대로 학습을 지도한다는 뜻으로, 훈련용 데이터(training data)에 알고리즘을 적용하여 함수를 추론하고, 이제 그 추론된 함수를 통해 컴퓨터가 알아서 답을 찾도록 만드는 것이다. 따라서 지도학습은 명확한 input과 output이 존재한다. 이러한 지도학습에는 분류(Clas.. 더보기
데이터마이닝 소개와 분석 방법 (LG CNS) http://blog.lgcns.com/1268 최근 들어 빅데이터가 사회의 큰 화두도 떠오르고 있는 가운데 빅데이터 분석에 있어서 가장 중요한 분석 도구로 알려져 있는 데이터마이닝(Data mining)에 대한 수요가 급증하고 있습니다. 데이터마이닝은 과거부터 다양하게 정의되고 있는데, 그 정의들을 살펴보면 데이터마이닝은 대용량 데이터에 대한 탐색적 분석 도구라는 관점을 공통적으로 언급하고 있습니다. 데이터마이닝에서 ‘Mining’은 ‘채굴하다’라는 사전적 의미를 가지고 있습니다. 즉, 거대한 데이터 더미 속에서 가치 있는 어떠한 것을 채굴하는 것이지요. 따라서 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이라고 할 수 있습니다. 데이터마이닝이 출현하게 된 배.. 더보기
DataMining의 기법 data mining의 개요에서 우리는 지식발견(KDD)은 데이터로부터 유용한 정보를 발견하는 프로세스 전 과정이고, data mining은 지식발견 프로세스 중에서 데이터로부터 정보를 추출하기 위해 기법을 적용하는 특정단계라 정의했다. 특히 data mining 기법을 선정하여 데이터에 적용하는 과정은 지식발견 프로세스 중에서도 가장 흥미로운 단계임이 분명하다. 지금까지 알려진 data mining 기법들은 그 종류가 상당히 다양할 뿐 아니라 지금도 새로운 기법들이 대학과 연구소를 통해 계속 소개되고 잇다. 이 중에서도 이론적인 검증을 거쳐 상품적 가치를 인정받은 일부 기법들은 소프트적인 검증을 거쳐 상품적 가치를 인정받은 일부 기법들은 소프트웨어 공급업체들에 의해 상용화되어 시장에 등장하고 잇다. 그.. 더보기
T Test R 예제 http://www.dodomira.com/2016/04/02/r%EC%9D%84-%EC%82%AC%EC%9A%A9%ED%95%9C-t-test/R을 사용한 t-test – 두 그룹 간 평균 차이가 유의미 한 지를 비교해 보자.예전 포스팅을 통해 3개 이상의 집단이 있을 때 집단 별 차이가 의미가 있는지를 확인해 보는 일원배치 분산분석(ANOVA)에 대해 알아보았습니다.이번 포스팅에서는 여러 집단 별 차이가 아니라 두 개의 집단 간 차이가 의미가 있는지를 확인해 보는 t-test 를 R에서 실행하는 방법을 정리해 보겠습니다.t-test에서 사용하는 Student’s T-distribution, 소스: xkcd.comt-test의 유형t-test는 비교의 대상이 되는 두개의 그룹이 무엇인지에 따라 크게 세.. 더보기
p-value란 무엇인가 http://adnoctum.tistory.com/332 p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)1이 실제로 관측된 값 이상일 확률을 의미한다. 일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가, 를 의미한다고 할 수 있다. p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게 되는데, 다음과 같은 경우를 살펴 보자. 다음과 같이 모분포가 10,000 개의 값으로 되어 있다고 하자. 그림 1. 평균 100.3023 을 갖는 모분포의 도수분포표. 위 모분포의 평균은 100.3.. 더보기