-
히스토그램을 계산하기IT의 이해 2019. 11. 12. 14:20
기술 통계 판다의 개체 요약 및 계산에는 일반적인 수학적 및 통계적 방법이 갖추어져 있다. 이 중 대부분은 데이터 프레임의 행이나 열에서 단일 값(합 또는 평균과 같은)을 추출하는 방법인 감소 또는 요약 통계 범주에 속한다. 바닐라 눔피 어레이의 등가 방법과 비교하면, 누락된 데이터를 제외하기 위해 모두 처음부터 구축된다. 전체 슬라이스가 NA가 아닌 한 NA 값은 제외된다. 이 기능은 다음과 같이 건너뛰기 옵션을 사용하여 비활성화할 수 있다. Unique Value Counts 및 Membership 관련 방법의 다른 클래스는 1차원 시리즈에 포함된 값에 대한 정보를 추출한다. 이러한 예를 설명하려면 다음 예를 참조하십시오. 고유한 값은 반드시 정렬된 순서로 반환되는 것이 아니라, 필요한 경우 사실(유니크.sort()) 후에 정렬할 수 있다. 이와 관련하여 value_counts는 값 빈도를 포함하는 시리즈를 계산한다. 그 시리즈 내림차순에 값으로는 편의상 분류된다 Value_counts 또한 어떠한 배열 또는 배열을 가지고 사용할 수 있는 최상위pandas 방법으로:마지막으로, isinvectorized 세트 회원을 갈망하고 여과하는데 유용할 수 있는이 알려집니다.데이터 값의 시리즈에서 DataFrame에 하위 집합이나 열로:밑에 놓다 어떤 경우에는, 여러 관련된 기둥 위에 DataFrame에서 히스토그램을 계산하기를 원할 겁니다. 예를 들어 보자 처리 없는 데이터 없는 데이터 대부분의 데이터 분석 애플리케이션에서 일반적입니다.
판다를 디자인하는 데 있어서 목표 중 하나는 가능한 한 고통 없이 누락된 데이터를 다루는 일을 하는 것이었다. 예를 들어, 판다의 물체에 대한 모든 서술적 통계는 앞에서 본 것처럼 누락된 데이터를 제외한다. 판다는 부동 소수점 값 NaN를 부동 소수점 배열뿐만 아니라 부동 소수점 배열에서도 누락된 데이터를 나타내기 위해 사용한다. 쉽게 탐지할 수 있는 보초용으로만 사용된다. 나는 판다의 NA 표시가 최적이라고 주장하지는 않지만, 간단하고 합리적으로 일관된다. NumPy의 데이터 유형에서 진정한 NA 데이터 유형이나 비트 패턴이 없을 때 조작할 수 있는 우수한 만능 성능 특성과 단순한 API를 갖춘 최고의 솔루션이다. NumPy에서 진행중인 개발 작업은 미래에 이것을 변화시킬지도 모른다. 누락된 데이터 필터링 누락된 데이터를 필터링하기 위한 여러 가지 옵션이 있다. 반면 직접 손으로 해야 하는 것은 언제나 선택 사항 dropna 매우 도움이 될 수 있다. 는 시리즈에, 그것이 null이 아닌 데이터와 인덱스 값을:시리즈를 반환합니다. DataFrame 개체로, 이것은 좀 더 복잡해진다. 당신은 모두 NA, 아니면 그저 사람 NAs이 들어 있는 행이나 열 내려 주기를 원할 수 있다. Dropna 기본 방울들로는 행 실종된 값이 포함된:. A관련 방법 DataFrame수들은 걸러 내기에 관한 관심의 시계열 데이터는 경향이 있다. 너만 한줄의 관찰 특정 번호를 포함하게 유지하기를 원한다고 가정해 보세요. 당신은 타작하다 주장에:이 표시를 할 수 있다. 없는 데이터를보다는 빠뜨린 데이터(및 잠재적으로 다른 데이터를 버림과 함께 그것)를 제거해 채우는 것, 방법의 수가“구멍”에 채우실 수 있다.
계층적 색인화 계층적 색인화는 한 축에 여러 개의 지수 레벨을 가질 수 있게 하는 판다의 중요한 특징이다. 다소 추상적으로, 그것은 여러분이 더 낮은 차원 형태의 더 높은 차원 데이터로 작업할 수 있는 방법을 제공한다. 먼저 간단한 예를 들어보자. 목록 또는 배열 목록을 인덱스로 포함하는 시리즈 만들기: 계층적 인덱싱은 피벗 테이블을 구성하는 것과 같은 데이터 및 그룹 기반 운영을 재구성하는 데 중요한 역할을 한다. 예를 들어, 이 데이터는 언팩 방법을 사용하여 데이터 프레임으로 다시 정렬할 수 있다. 멀티 인덱스는 자체적으로 생성되었다가 다시 사용할 수 있다. 레벨 이름이 있는 위의 데이터 프레임의 열은 다음과 같이 생성될 수 있다: 레벨 순서 조정 및 정렬하기 때때로 축의 레벨 순서를 다시 정하거나 데이터 정렬을 통해 데이터를 정렬해야 할 수 있다. 특정 수준의 값. 스왑 레벨은 두 개의 레벨 번호 또는 이름을 가져와서 서로 교환된 레벨로 새 객체를 반환한다. 반면, 정렬 레벨은 단일 레벨의 값만 사용하여 데이터를 정렬한다. 레벨을 교환할 때 결과를 사전 지리적으로 정렬할 수 있도록 정렬 수준을 사용하는 것도 드문 일이 아니다. 레벨별 요약 통계 데이터 프레임 및 시리즈에 대한 많은 설명 및 요약 통계에는 특정 축에서 요약할 수준을 지정할 수 있는 수준 옵션이 있다. 위의 DataFrame을 고려해보자. 우리는 이와 같은 행이나 기둥에 대해 수준별로 합칠 수 있다. 후드에 따르면, 이것은 나중에 이 책에서 자세히 논의될 판다들의 집단별 기계를 이용한다. DataFrame의 열 사용 DataFrame의 열을 하나 이상 행 인덱스로 사용하는 것은 드문 일이 아니며, 또는 행 인덱스를 DataFrame의 열로 이동할 수도 있다.
데이터프레임의 예: DataFrame의 set_index 함수는 하나 이상의 열을 인덱스로 사용하여 새 데이터프레임을 생성함: 기본적으로 열은 데이터프레임에서 제거되지만, 재설정_index는 set_index의 반대 역할을 하며 계층 인덱스 수준은 다음과 같이 열로 이동된다. 다른 팬더 주제 데이터 이동 시 유용할 수 있는 몇 가지 추가 주제가 있다. 정수 지수화 정수로 색인된 판다 개체와 함께 작업하는 것은 목록이나 투플과 같은 내장 파이썬 데이터 구조에 대한 의미론과의 차이 때문에 종종 새로운 사용자들을 놀라게 하는 것이다. 예를 들어 다음과 같은 코드가 오류를 발생시킬 것으로 예상하지 않는다.
'IT의 이해' 카테고리의 다른 글
XML 및 HTML (0) 2019.11.12 데이터 로드, 저장 및 파일 형식 (0) 2019.11.12 DataFrame의 구성 (0) 2019.11.12 NumPy 중심 어플리케이션 응용 (0) 2019.11.12 NumPy 포함한 파일 입력 및 출력 (0) 2019.11.12