ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Python의 데이터 분석
    IT의 이해 2019. 11. 11. 22:45


    이 내용은 조작, 가공, 청소의 너트와 볼트에 관한 것이다 그리고 파이썬의 데이터를 바삭바삭 씹고 있다. 그것은 또한 과학에 대한 실용적이고 현대적인 도입이다.데이터 집약적인 애플리케이션에 적합한 Python의 컴퓨팅 이 내용은 이 내용에 관한 것이다.파이선 언어와 도서관의 일부분들은 당신이 효과적으로 다양한 종류의 도서관을 해결하는데 필요할 것이다.데이터 분석 문제 이 내용은 분석적 방법에 대한 설명이 아니다.구현 언어로서의 파이썬.내가 "데이터"라고 말할 때, 내가 정확히 무엇을 말하는가? 일차적인 초점은 구조화된 것에 있다.데이터, 여러 가지 일반적인 형태를 포괄하는 의도적으로 모호한 용어이다
    • 다차원 배열(매트릭스)
    • 각 열이 다른 유형일 수 있는 표 또는 스프레드시트 같은 데이터
    ( 문자열, 숫자, 날짜 또는 기타). 여기에는 일반적으로 대부분의 데이터가 포함된다.
    관계형 데이터베이스 또는 탭 또는 쉼표로 구분된 텍스트 파일에 저장
    • 주요 열과 상호 연관된 여러 개의 데이터 테이블(기본 데이터 또는 기본 데이터 테이블)
    SQL 사용자의 외부 키)
    • 균일하거나 균일하지 않은 시계열
    이것은 결코 완전한 목록이 아니다. 비록 그것이 항상 명백하지는 않지만, 큰 것은데이터 세트의 백분율을 보다 적합한 구조화된 형태로 변환할 수 있음 분석 및 모델링. 그렇지 않은 경우 데이터 세트에서 형상을 추출할 수 있음 구조화된 형태로 예를 들어, 뉴스 기사의 컬렉션은 처리될 수 있다. 단어 빈도 표에 삽입하여 감성 분석을 수행할 수있다.Microsoft Excel과 같은 스프레드시트 프로그램의 대부분의 사용자, 아마도 가장 널리 사용됨세계의 데이터 분석 툴은 이러한 종류의 데이터에 익숙하지 않을 것이다.  왜 파이선 데이터 분석을 위해? 많은 사람들(나도 개중의 한 사람), 파이썬 언어와 사랑에 빠지기가 쉽다.1991년에 처음으로 등장 이후, 파이선 하나가 됐다 가장 인기 있는 dynamic,.프로그래밍 언어, 펄, 루비, 그리고 다른 사람들과 함께. Python, Ruby을 가지고 있다. 특히 최근 몇년간 웹 사이트 팀은 많은 사용을 내기 위해 인기 있는 된다. 웹 프레임워크 같은 레일(루비)고 장고(파이선). 그러한 언어 자주그들이 싸게 만들 수 있는 작은 programs,을 적는데 사용 할을 수 있는 언어 스크립트에서 호출합니다. 또는 스크립트. 로 그들이 말눈치를 들고 있는데 나는“스크립팅 언어”그 용어가 마음에 들지 않는다. 업무에 필수적인 소프트웨어를 만들어 내기 위해 사용할 수 없습니다. interpreted 언어 중에 파이썬의 적극적인 큰 과학적인 컴퓨팅 공동체에 의해 두드러진다. 입양 파이선은 산업 애플리케이션과 학업에서 과학 컴퓨팅을 위한 중. 연구는 2000년대 초반 이후 증폭되었다.

     

     

    자료 분석과 상호 협동적으로, 탐색 컴퓨팅과 데이터 시각화, 파이선을 위해 필연적으로 많은 다른 도메인별 오픈 소스와 비교하게 될 것이다. R, MATLAB와 같이 널리 사용되는 상업용 프로그래밍 언어 및 도구 SAS, Stata 등 최근 몇 년간 Python의 향상된 라이브러리 지원(주로판다)는 데이터 조작 작업의 강력한 대안으로 만들었다와 범용 프로그래밍의 강점으로, 싱글로서 탁월한 선택이다.
    데이터 중심 애플리케이션 구축을 위한 언어. Python as Glue Python이 과학 컴퓨팅 플랫폼으로서 성공한 것의 일부는 C를 통합하는 용이함이다. C++ 및 FORTRAN 코드. 대부분의 최신 컴퓨팅 환경은 유사한 집합을 공유함 기존 FORTRAN 및 C 라이브러리의 선형 대수, 최적화, 통합, Fast Fourier 변환 및 기타 알고리즘 에 대해서도 같은 이야기가 사실이었다. 30년 동안 파이썬을 이용해 온 많은 회사들과 국립 연구소들 가치 있는 레거시 소프트웨어 대부분의 프로그램은 대부분의 시간을 사용하는 코드의 작은 부분으로 구성된다. 자주 실행되지 않는 다량의 "글루코드" 많은 경우, 실행 시간 글루 코드는 보잘것없다; 노력은 가장 보람있게 투자된다. 때로는 하위 레벨 언어로 코드를 이동하여 계산상의 병목 현상 C처럼 최근 몇 년 사이에 사이튼 프로젝트가 그 중 하나가 되었다.

    "이국어" 문제 많은 조직에서는 새로운 아이디어를 연구, 프로토타입, 테스트하는 것이 일반적이다. MATLAB나 R과 같은 좀 더 도메인 고유의 컴퓨팅 언어, 그리고 나중에 그러한 아이디어들을 Java, C# 또는 C++로 쓰여진 더 큰 생산 시스템의 일부가 되도록 포팅한다. 사람들은 점점 파이톤이 단지 하는 것에 적합한 언어라는 것을 발견한다. 연구와 프로토타이핑은 물론 생산 시스템 구축도. 나는 그렇게 믿어요. 중요한 조직들이 종종 있기 때문에 점점 더 많은 회사들이 이 길을 따라갈 것이다. 과학자와 기술자 모두 동일한 프로그래밍 방식을 사용할 경우 얻을 수 있는 이점
    도구들 파이썬은 왜 안 돼? Python은 컴퓨터 집약적인 과학을 구축하기에 아주 좋은 환경이다. 애플리케이션과 대부분의 범용 시스템 구축, 다음과 같은 것들이 있다. Python이 덜 적합할 수 있는 용도 수입니다. Python은 해석된 프로그래밍 언어이기 때문에, 일반적으로 대부분의 Python 코드는 Java 또는 C++와 같은 컴파일된 언어로 작성된 코드보다 상당히 느리게 실행된다. ~하듯이 프로그래머 시간은 일반적으로 CPU 시간보다 더 값지고, 많은 이들이 기꺼이 만들 수 있다. 이번 거래 그러나 지연 시간이 매우 짧은 애플리케이션(예:고주파 거래 시스템), 낮은 수준의 프로그래밍에 소요된 시간, C++와 같은 저생산성 언어로서 가능한 최대 성능 달성 시간이 잘 걸릴지도 몰라 Python은 특히 동시 멀티스레딩 애플리케이션에 이상적인 언어가 아니다. CPU 바인딩 스레드가 많은 애플리케이션 그 이유는 그것이 가지고 있기 때문이다. GIL(Global International Lock)이라고 알려진 것, 이 메커니즘은 다음을 방지한다. 한 번에 둘 이상의 Python 바이트 코드 명령을 실행하는 통역자. 그 GIL이 존재하는 기술적 이유는 이 책의 범위를 벗어나지만 이 글은 GIL이 곧 사라질 것 같지 않다. 그러는 동안  많은 빅 데이터 처리 애플리케이션에서 컴퓨터 클러스터는 적절한 시간 내에 데이터 세트를 처리해야 하는 경우, 여전히 상황이 발생 단일 프로세스, 다중 읽기 시스템이 바람직한 경우. 이것은 Python이 진정으로 다중 읽기 병렬 코드를 실행할 수 없다는 것을 말하는 것이 아니다. 코드는 단일 파이썬 프로세스에서 실행될 수 없다. 그 예로서, 사이튼은 프로젝트는 병렬 컴퓨팅을 위한 C 프레임워크인 OpenMP와의 손쉬운 통합, 루프를 병렬화해서 숫자 알고리즘을 상당히 빠르게 하기 위해서입니다.  필수 파이썬 라이브러리 과학 Python 생태계와 라이브러리에 익숙하지 않은 분들을 위해 전체에 사용되며, 나는 각 도서관의 다음과 같은 개요를 제시한다. NumPy는 숫자 파이썬의 줄임말로 과학 컴퓨팅을 위한 기본 패키지 입니다. 피톤으로 이 책의 대부분은 NumPy와 도서관을 기반으로 할 것이다. 눔피 위에 그것은 무엇보다도 다음을 제공한다.  NumPy가 Python에 추가하는 빠른 어레이 프로세싱 기능 이외에도 데이터 분석과 관련된 일차적인 목적은 데이터를 위한 주요 컨테이너로서 알고리즘 사이에 통하다 숫자 데이터의 경우 NumPy 어레이가 훨씬 더 많음 다른 내장 Python 데이터보다 효율적인 데이터 저장 및 조작 방법 구조물들 또한 C나 Fortran과 같은 하위 수준의 언어로 쓰여진 도서관은 데이터를 복사하지 않고 NumPy 어레이에 저장된 데이터로 작업하십시오. 팬더는 풍부한 데이터 구조와 기능을 제공한다. 빠르고, 쉽고, 표현력이 뛰어난 구조화된 데이터 보시다시피, 그것은 중요한 재료들 중 하나이다. Python을 강력하고 생산적인 데이터 분석 환경으로 만들 수 있다. 이 책에서 사용될 판다의 주요 대상은 2차원인 데이터프레임이다. 팬더들은 NumPy의 고성능 어레이 컴퓨터 기능과 함께 스프레드시트 및 관계형 데이터베이스의 유연한 데이터 조작 기능이 가능해진다.

    'IT의 이해' 카테고리의 다른 글

    IPython 대화형 컴퓨팅 개발  (0) 2019.11.12
    Python 2 그리고 Python 3  (0) 2019.11.11
    python 버전 설치  (0) 2019.11.11
    Python 도구 세트  (0) 2019.11.11
    파이썬의 이해  (0) 2019.11.11

    댓글

Designed by Tistory.