본문 바로가기

데이터 마이닝

R User Conference 2011 Korea

R User Conference 2011 Korea 에 다녀 왔다.
데이타 분석과 R에 대해서 문외한이기에 제대로 이해하지는 못했지만,
마치 3년전의 Hadoop 세미나를 보는 것 같았고 몇 년후에 Hadoop 처럼 R  또한 국내에서 크게 부흥할 것이라 생각한다.
발표 자료는 http://www.nexr.com/conference/ruser/2011/programs/introduce 에서 PDF로 받아 볼 수 있다.
기억나는 대로 간단히 발표 내용을 요약해 보았다.

R사용자의 저변 확대와 한글화 (정우준)
외국에서는 R이 통계 분석 분야의 표준 언어(툴)로서 자리 잡았으나, 아직 국내에는 거의 알려지지 않았다.
R이 GNU라이센스를 따르며 무료이다. 히자만 다른 시각에서 보면 누구도 책임을 지지 않는다는 것이다.
R User's Group Korea(http://www.openstatistics.net/)는 R 관련 해외 사이트( http://www.r-project.org/http://www.inside-r.org/http://www.r-bloggers.com/ 등) 에서 제공하는 모든 리소스에 대해서 한글화할 수 있는 권한이 있다.
한글화에 대한 보상은 없으며, 홍대에 작은 교류 공간을 개인적으로 만들어 두었다.
많은 참여를 부탁한다.

Must-know things in GNU R for sharing knoledge - OOP and Package - (이철희)
(내용이 전반적으로 어려우며, 기본적으로 R에 대한 지식이 있어야 했다.)
R을 패키지화하여 다른 사람들과 라이브러리 형태로 공유하는 방법에 대한 기술적인 설명이었다.
Java, C++과 같은 방식의 패키지 개념은 없고, 함수 형태로 묶은 것을 패키지라고 불렀다.
또한 내장함수 형태로 배포하는 방법도 설명하였다.
R에 내장된 명령으로 빌드하며, 빌드 결과는 tar.gz 형태이며, 이 파일로서 다른 시스템에도 패키지를 설치할 수 있다.

R Visualization (유충현)
R을 다양한 통계를 바로 출력해 볼 수 있어서 매우 편리하다.
하지만 수치로만 데이타를 분석할 때는, 분석 자체가 어렵거나 빠뜨리는 부분이 생길 수 있다.
따라서 시각화하여 데이타를 분석하는 것이 매우 중요한데, 그 방법에 대한 설명이다.
보리경작률이라고 통계관련 논문에서 매우 자주 쓰이는 자료가 있는데, 데이타 시각화를 통해서 이 자료의 숨은 특징을 나중에 발견했다.
여러 가지 척도가 포함된 데이타의 경우, 모자익 차트와 같은 형태로 시각화하는 것이 좋다.
시각화된 이미지는 png보다 cairo 포맷이 더 깔끔하게 표현된다. pdf 형식도 근래에 자주 사용된다.
최근에는 google map, google earth와 연동한 자료도 많다.
또한 시간에 의한 변화를 파악하는데는 motion chart가 효과 적이다.
R패키지는 4000개가 넘으므로 자신이 원하는 것을 잘 찾는 기술이 중요하다.

Let'sTaste R through Cliquet option Pricing (김동업)
알리안츠 코리아에서 주가지수 연동 상품을 개발하는데 있어서 R을 사용한 사례를 설명했다.
기존에는 엑셀 수식을 이용했기 때문에, 엑셀과 R의 장단점을 비교했다.
엑셀의 경우 장점은 셀에서 직접 데이타를 변경해서 직관적이며, 파일 로딩이 빠르다는 것이다.
하지만,  엑셀 2003의 경우는 셀의 개수가 254개로 제한되어 있고, 중간과정으로 모두 엑셀 함수로 변환하여 생성해야 한다는 점이다. 
R의 경우 데이타 파일 로딩이 1~5분으로 느리다는 점은 있지만, 개념 이론을 바로 대입하여 사용할 수 있다는 큰 장점이 있다.
예를 들어 엑셀로 수십줄을 써야하지만, R에서는 단 6줄로서 프로그래밍을 할 수 있다는 점이다.
R의 큰 단점으로는 오픈소스이기 때문에 검증이 되지 않아서 실무에서는 바로 쓰기 어렵다는 점이다.

SAS와 R의 데이타 처리 방식 비교 (곽희은)
SAS와 R의 차이점을 매우 자세히 설명하였다.
예를 들어, SAS에서는 변수가 딱 2종류(string, numeric)이지만 R에는 5 종류라는 점, 데이타에서 빈 값의 표현 방식의 차이점 등을 자세히 설명하였다. 

SPSS를 이용한 R연동 기능 소개와 분석 기능의 시너지 효과 (허준)
SPSS를 기준으로 하여 SPSS-R Essential을 연동하면 어떤 점이 좋은지에 대해서 설명하였다.
R-Commander가 있지만 R의 큰 단점은 UI라고 정의하고, SPSS에서는 SPSS-R Essential 이라는 플러그인을 지원하여,
UI는 SPSS를 다양한 알고리즘은 R을 이용하여 고객의 편의를 제공한다고 말한다.
특히 병/의원용 플러그인인 Medial plus를 판매하면서 매출이 증가했다고 말한다.
또 시스템화할 때 이용하도록 bach file export 기능도 제공한다.

R을 이용한 빅데이타 분석 (권정민)
우선 R, SAS, SPSS, excel, C, Python 등의 기존 분석방법들을 나열했다.
그 중  빅데이타에 대한 R의 문제점으로 single-core 연산과, in memory 에 의한 데이타 크기 제약 문제를 들었다.
single-core 연산은 추후 2.14에서 multi-core를 지원하게 되면 해결된다고 하였다.
하지만 메모리안에 모든 데이타를 올려 놓아야 하는 문제는 sampling, aggregation등의 방법이 있지만, 모두 효과적인 방법은 아니라고 한다. 왜냐하면  sampling의 경우 1TB의 데이타의 1%만 샘플링하여도 10G로 매우 크기가 크고, aggregation은 각 연산 노드를 관리하는 것이 큰 일이라고 한다.
싱글 머신에서의 해결책으로 상용제품인 RevolutionR을 이용하여 내장된 RevoScaleR을 이용하는 방법과 BigMemory 패키지 군을 이용하는 법, 또 Oracle에서 나온 상용 제품을 이용하는 방법을 설명하였다.
그리고 멀티 노드에서 Hadoop을 이용하는 방법으로 IBM Ricardo, RHadoop, Rhipe, RHive 등이 있다고 했다. RHive는 NEXR에서 개발하고 있으며 R과 Hive를 연동해서 대용량 데이타를 분석하는 오픈소스라고 하며, 곧 오픈예정이란다

R Commander와 R GUI 프로젝트 (신종화)
초보자 입장에서 사용하기 쉬운  R GUI 툴이 무엇인지에 대해서, 여러가지 GUI툴을 비교하면서 설명하였다.
R 사용자중  95%가  프로그래머가 아닌 일반 사용자임을 감안하면, R Studio같은 툴 조차도 일반사용자에게는 어렵다고 말한다.
가장 사용하기 쉬운 툴로 R Commander를 뽑았으며, 그 다음으로 Red-R 을 추천한다.

R을 이용한 유전체 데이타 분석 (김세환)
유전체(DNA) 분석 분야에서 R 이 사용되는 실례를 들었다.
하지만 대부분 R보다는 DNA, RNA 분석 과정에 대한 설명이었다.
게놈(genomic)에 대한 일반적인 정보는 게놈은 46개의 염색체(chromosome)으로 구성되어 있고, 염색체를 구성하는 요소는 모두 4가지 A, G, T, C이며 이 요소가 3*10^9개 모여야만 1개의 염색체가 된다고 한다.

Introduction to Revolution R (David Smith, 김준기)
Revolution Analytics라는 업체에서만든 사용제품 Revolution R에 대한 소개이다.
모두 4가지 방식으로 빅데이타 분석을 지원한다고 한다. xdf 형식의 파일기반 분석과 이 파일을 여러 노드에 분산하여 분석하는 방법, 그리고 Haddop Netezza와 같은 데이타베이스와 연동하는 방법이다.