RadarURL
Skip to content
업무
2018.08.20 14:32

Python & R vs. SPSS & SAS

조회 수 537 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부

안녕하세요, Uncoded입니다. 최근 데이터 분석 툴의 장단점이 궁금했는데 관련 포스팅이 있어서 번역해봤습니다.

 

 


 

우리는 일할 때 SAS, SPSS, R 및 Python과 같은 통계 프로그래밍 언어를 사용합니다. 이 중 SAS 및 SPSS가 가장 많이 사용되고 있죠. 그러나 오픈 소스 언어 R 및 Python에 대한 관심이 증가하고 있습니다. 최근 몇몇 고객들은 SAS나 SPSS를 사용하다가 R 또는 Python으로 이동 했습니다. 그리고 대부분의 상용 소프트웨어 패키지 (SAS와 SPSS 포함)는 요즘 R과 Python에 연결할 수 있습니다.

 

SAS는 노스 캐롤라이나 주립 대학 (North Carolina State University)에서 개발되었으며 주로 농업 데이터를 대량으로 분석 할 수 있도록 개발되었습니다. 약어 SAS는 Statistical Analysis System의 약자입니다. 1976년 SAS는 이러한 소프트웨어에 대한 수요가 증가함에 따라 설립되었습니다. 사회 과학 통계 패키지 (SPSS)는 사회 과학을 위해 개발되었으며 PC를위한 최초의 통계적 프로그래밍 언어입니다. 1968년 스탠포드 대학에서 개발되었고 8년 후 SPSS Inc.가 설립되었으며 2009 년 IBM에 인수 되었습니다.

 

 

01.jpg

 

 

 

 

2000년 오클랜드 대학 (University of Auckland)은 통계 모델링에 초점을 맞춘 프로그래밍 언어 R의 첫 번째 버전을 출시했으며 GNU 라이센스하에 공개되었습니다. python은 이 중에서 유일하게 대학에서 개발되지 않았는데요. python은 Monty Python의 광팬인 네덜란드인에 의해서 만들어졌습니다. 그는 크리스마스 기간 동안 프로젝트를 진행하여 ABC에 기반한 이 언어를 만들었습니다. ABC는 개발자가 아닌 사람에게 프로그래밍 방법을 가르치기 위하여 그가 만든 언어입니다. Python은 C ++ 및 Java와 같은 다목적 언어이지만 배우기에 훨씬 쉬운 언어입니다. 많은 개발자들이 Python을 기반으로 모듈을 만들었으므로 오늘 날에는 광범위한 통계 모델링 기능을 갖추고 있습니다.

 

이 포스팅에서는 methods와 techniques, 학습의 용이함, 시각화, 지원 및 비용 측면에서 네 가지 언어를 비교합니다. 우리는 프로그램 언어에 초점을 맞추고 비교를 진행하고 사용자 인터페이스 인 SAS Enterprise Miner와 SPSS Modeler는 이 포스팅에서 다루지 않겠습니다.

 

02.png

 

 

Statistical methods and Techniques

 
데이터 분석에 대해서 저는 한쪽에 있는 설명 모델과 다른 한 쪽에 있는 예측 모델이 서로 연결되어 있다고 생각합니다. 모델링 프로세스 중에 결정해야 하는 사항은 목표에 따라 다릅니다. 고객 이탈을 예로 들어 보겠습니다. 당신은 당신 고객이 떠나는 이유에 대해 자문해 볼 수도 있고 어떤 고객이 떠나고 있는지에 대해 자문해 볼 수도 있습니다. 첫 번째 질문은 이탈률을 설명하기 위한 질문이고 두 번째 질문은 이탈률을 예측하는 것이 주 목표입니다. 이것들은 근본적으로 다른 두 가지 질문이며 여러분이 모델링 프로세스에서 내려야하는 선택들에게 영향을 끼칩니다. 데이터 분석의 예측 측면은 데이터 마이닝 및 기계 학습과 밀접한 관련이 있습니다.
 
 
SPSS와 SAS는 데이터 분석에서 설명 측면에서 유래했습니다. 이들은 가설 테스트가 중요한 역할을하는 학술 환경에서 개발 되었습니다. 따라서 R 및 Python에 비해 methods와 techniques 측면에서 현저한 차이를 보입니다. 요즘 SAS와 SPSS는 모두 데이터 마이닝 도구 (SAS Enterprise Miner 및 SPSS Modeler)를 가지고 있지만 이러한 툴은 추가 라이센스가 필요합니다.
 
오픈 소스 툴의 주요 이점 중 하나는 커뮤니티를 통해서 기능이 향상된다는 것입니다. R은 알고리즘을 가능한 쉽게 확산시키기를 원하는 학계에서 개발되었습니다. Ergo R은 알고리즘의 데이터 분석에서 설명과 예측 측면에서 R을 강하게 만드는 광범위한 알고리즘을 보유하고 있습니다.
 
python은 학문적 또는 통계적 관점이 아닌 응용 프로그램 구현에 중점을 두고 개발되었습니다. 이러한 특성으로 인해서 알고리즘이 응용 프로그램에서 직접 사용될 때 python이 매우 강력한 기능을 가지게 됩니다. 따라서 python은 통계 기능 중에서 주로 예측 측면에 초점을 맞추고 있음을 알 수 있습니다. python은 데이터 분석가가 개입 할 필요가 없는 데이터 마이닝 또는 기계 학습 응용 프로그램에서 주로 사용됩니다. 따라서 Python은 이미지와 비디오 분석에도 강합니다. 예를 들어 우리는 이번 여름에 Python을 사용하여 자율 주행 RC 자동차를 제작했습니다. Python은 Spark와 같은 Big Data Framework를 사용할 때 가장 쉽게 사용할 수있는 언어입니다.
 

Ease of learning

 
SPSS와 SAS는 통합 사용자 인터페이스를 가지므로 사용자가 반드시 코딩 할 필요는 없습니다. 또한 SPSS에는 사용자 인터페이스에서 실행 구문을 만드는 붙여 넣기 기능이 있으며 SAS에는 Proc SQL이 있으므로 SQL 쿼리 언어를 아는 사람들이 SAS 코딩을 훨씬 쉽게 할 수 있습니다. SAS와 SPSS 코드는 문법적으로 서로 유사하지만 다른 관련 프로그래밍 언어와는 매우 다르므로 처음부터 이들 중 하나를 배워야 할 때는 많은 노력이 필요합니다.
 
Rattle과 같은 R의 GUI가 있지만 기능면에서 SAS 또는 SPSS와 매우 다릅니다. R은 프로그래머에게 쉽게 배울 수 있지만, 많은 데이터 분석가는 프로그래밍에 대한 배경 지식이 없습니다. R은 가장 가파른 학습 곡선을 가지고 있습니다. 가장 어려운 학습부터 시작합니다. 하지만 기본 사항을 익히면 곧 익숙해집니다. Python은 비 프로그래머를 가르치기 위한 목적으로 개발된 ABC를 기반으로합니다. 따라서 가독성은 파이썬의 핵심 기능 중 하나입니다. 이것은 python을 배울 수있는 가장 쉬운 언어로 만듭니다. python은 매우 광범위하기 때문에 파이썬을 위한 GUI는 없습니다.
 
결론적으로 학습의 편의성 측면에서 SPSS와 SAS는 사용자가 프로그래밍 할 필요가 없기 때문에 분석을 시작하기 위한 최상의 선택입니다.
 

Support

 
SAS와 SPSS는 상업용 제품이므로 회사에서 공식적으로 지원됩니다. 이것은 일부 기업이 SAS와 SPSS를 선택하도록 동기를 부여합니다. 오픈 소스 툴의 지원에 관해서는 오해가 있습니다. 제작자 또는 소유자의 공식적인 지원이 없다는 것은 사실이지만, 문제를 해결하는 데 가장 기꺼이 도움을 주는 커다란 커뮤니티가 있습니다. 100에 99는 이미 stack overflow와 같은 사이트에서 질문과 답이 존재합니다. 또한 R 및 Python에 대한 전문적인 지원을 제공하는 수많은 회사가 있습니다. 따라서 R과 Python에 대한 공식적인 지원은 없지만 실제로는 질문이있는 경우 SAS 또는 SPSS와 관련된 경우보다 R 또는 Python에 대한 답변이 빠를 가능성이 더 큽니다.
 

 

03.png

 

 

 

 

 

Visualisation

 
SAS 및 SPSS의 그래픽 기능은 완전히 기능적입니다. 그래프를 사소하게 변경할 수도 있지만 SAS 및 SPSS에서 플롯 및 시각화를 완벽하게 사용자 정의하는 것은 매우 번거롭거나 불가능할 수 있습니다. R 및 Python은 사용 가능한 모듈의 범위가 넓어서 그래프를 사용자 정의하고 최적화 할 수있는 훨씬 더 많은 기회를 제공합니다. R에서 가장 널리 사용되는 모듈은 ggplot2입니다. 여기에는 사용자가 조정할 수있는 다양한 그래프가 있습니다. 이러한 그래프들은 또한 사용자가 shiny와 같은 어플리케이션를 통해 데이터를 가지고 놀 수 있도록 interactive하게 만들 수 있습니다.
 
파이썬과 R은 서로에게서 많은 것을 배웠습니다. 이 중 가장 좋은 예는 python에도 R에서와 거의 동일한 기능과 구문을 가진 ggplot 모듈이 있다는 것입니다. python에서 시각화에 널리 사용되는 또 다른 모듈은 Matplotlib입니다.
 

Costs

 
R과 Python은 오픈 소스이므로 누구나 자유롭게 사용할 수 있습니다. 단점은 이전에 논의했듯이 SAS 또는 SPSS GUI를 사용하는 것 보다는 이런 언어를 배우는 것이 어렵다는 것입니다. 결과적으로 R 또는 python skill을 갖춘 분석가는 그렇지 않은 분석가보다 월급이 높습니다. 그리고 현재 R 또는 python에 익숙하지 않은 직원을 교육하는 것은 비용도 발생시킵니다. 따라서 실제로는 오픈 소스 프로그래밍 언어를 사용한다고 해서 비용에서 완전히 자유로울 수는 완전히 없습니다. 하지만 SAS 또는 SPSS의 라이센스 비용과 비교할 때 비즈니스에서의 결론은 매우 간단합니다. R 및 Python의 비용이 훨씬 저렴합니다.
 
 
 

My choice

 
제가 사용하는 도구는 R 및 Python이므로 라이센스를 구입하지 않고도 사용할 수 있습니다. 또한 라이센스를 기다릴 필요도 없습니다. 라이센스를 외에 또다른 이유는 바로 광범위한 통계적 방법 입니다. 바로 최선의 알고리즘을 선택할 수 있다는 점이죠.
 
 
제가 사용하는 두 언어 중에서도 위에서 언급 한 것처럼 목표에 따라 사용하는 언어가 달라집니다. python은 다목적 언어이며 응용 프로그램에 중점을두고 개발되었습니다. 따라서 python은 기계 학습 응용 프로그램에서 강력합니다. 따라서 Face 또는 Object Recognition 또는 Deep Learning 응용 프로그램의 경우 python을 사용합니다. 나는 고객 행동과 관련된 목표를 위해서는 R을 사용하는데, 이는 모델의 설명적 측면이 중요한 목표이기 때문입니다. 만일 어떤 고객이 이탈한다면 그 이유를 알고 싶기 때문이죠.
 
이 두 언어는 상호 보완적인 부분입니다. Python 코드 (reticulate, rPython)를 실행할 수있는 R용 라이브러리가 있으며 R 코드 (rpy2)를 실행할 수있는 python 모듈이 있습니다. 이것은 두 언어의 조합을 더욱 강하게 만듭니다.
 



출처: http://uncoded.tistory.com/9 [Scientific Thinking]

TAG •
?

공부 게시판

공부에 도움되는 글을 올려주세요.

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
공지 [공지] 공부 게시판 입니다. 처누 2003.08.17 828787
2476 생활 고양시(행신) - 동탄 SRT 역 (지하철, 시외버스) JaeSoo 2018.08.29 753
2475 생활 워커홀릭(Workholic), 알콜홀릭(Alcoholic), -holic file JaeSoo 2018.08.25 669
» 업무 Python & R vs. SPSS & SAS file JaeSoo 2018.08.20 537
2473 업무 R과 SAS 비교 JaeSoo 2018.08.20 211
2472 웹서버,WAS Tomcat7 성능 튜닝 방법 JaeSoo 2018.07.26 626
2471 웹서버,WAS Tomcat7 Tuning file JaeSoo 2018.07.26 643
2470 취업 늦은 나이에 도전한 공무원 합격 수기(스압죄송;;) JaeSoo 2018.07.24 649
2469 업무 팀의 유형과 팀조직 file JaeSoo 2018.07.06 1010
2468 업무 팀장님, 우리팀 인력이 부족해요! file JaeSoo 2018.07.06 771
2467 취업 공공기관 적성검사 (팀장, 팀원, 인력 관련 문제) JaeSoo 2018.07.06 659
2466 업무 HIT 개발한 팀장이 왕초보 팀장들에게 전하는 말 file JaeSoo 2018.07.06 596
2465 건강 피부에 나는 붉은 점들의 정체 file JaeSoo 2018.04.02 3003
2464 건강 내 몸에 '붉은 점'이 생기는 이유는 무엇일까? file JaeSoo 2018.04.02 1106
2463 건강 피부의 붉은 반점, 걱정해야 할까? file JaeSoo 2018.04.02 2444
2462 취업 임기제 공무원 종류 및 비교 file JaeSoo 2018.03.29 1326
2461 취업 지방이전 대상 공공기관 (2018년 3월 기준) JaeSoo 2018.03.26 1507
2460 사무 소프트웨어 한글 에서 목차 자동으로 넣는 방법 file JaeSoo 2018.03.22 2183
2459 사무 소프트웨어 한글 목차 쪽번호가 자동으로 변경되게 하고 싶다면.. <상호참조> file JaeSoo 2018.03.22 2035
2458 사무 소프트웨어 한글 개요만들기 file JaeSoo 2018.03.22 2561
2457 생활 되다 vs 돼다 JaeSoo 2017.12.14 378
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 124 Next
/ 124

 

■ 즐겨찾기 - 가족
JAESOO's HOMEPAGE YOUNGAE's HOMEPAGE 장여은 홈페이지 장여희 홈페이지 장여원 홈페이지

■ 즐겨찾기 - 업무
알리카페 홀릭 숭실대 컴퓨터 통신연구실 (서창진) 말레이시아 KL Sentral 한국인 GuestHouse

■ 즐겨찾기 - 취미
어드민아이디 유에코 사랑회 아스가르드 좋은사람/나쁜사람 JServer.kr 제이서버 메타블로그 재수 티스토리

■ 즐겨찾기 - 강의, 커뮤니티
재수 강의 홈페이지 한소리 VTMODE.COM 숭실대 인공지능학과 숭실대 통신연구실


PageViews   Today : 2,456   Yesterday : 5,346   Total : 61,352,052  /  Counter Status   Today : 825   Yesterday : 912   Total : 3,309,272
Site Info   Member : 1,394  /  Total documents : 7,152   New documents : 0  /  Total comments : 514

design by by JAESOO.com

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소