ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DataFrame의 구성
    IT의 이해 2019. 11. 12. 04:11

     

    DataFrame을 구성하는 방법은 여러 가지가 있지만, 가장 일반적인 방법 중 하나는 동일한 길이 목록 또는 NumPy 어레이를 사용하는 방법임 결과 데이터프레임은 시리즈와 같이 인덱스가 자동으로 할당되고 열이 정렬 순서에 따라 배치된다. 열 순서를 지정하면 DataFrame의 열은 다음과 같이 정확히 전달된다.  Series와 마찬가지로 데이터에 포함되지 않은 열을 통과하면 NAvalues와 함께 다음과 같은 결과가 나타난다.  DataFrame의 열은 받아쓰기와 같은 표기법 또는 속성으로 시리즈로 검색할 수 있다. 반환된 시리즈는 DataFrame과 동일한 인덱스를 가지고 있으며 nameattribe가 적절하게 설정되었다는 점에 유의하십시오. 행은 또한 ix 인덱싱 필드와 같은 두 가지 방법으로 위치 또는 이름으로 검색할 수 있다.

    열은 할당에 의해 수정할 수 있다. 예를 들어, 빈 'debt' 열에 스칼라 값 또는 값의 배열이 할당될 수 있다. 언제 열로 목록 또는 배열을 할당한 이 가치의 길이는 DataFrame의 길이와 일치해야 한다. 시리즈를 할당할 경우, 대신 DataFrame의 인덱스와 정확히 일치하여 누락된 값을 모든 구멍에 삽입하십시오. 

     

    이 섹션에서는 Series 또는 DataFrame에 포함된 데이터와의 상호 작용에 대한 기본적인 메커니즘에 대해 설명드릴 겁니다. 다음 장에서는 판다들을 이용한 데이터 분석과 조작 주제에 대해 더 깊이 탐구할 것이다. 이 책은 의도된 것이 아니다. 판다 도서관의 완벽한 문서화 역할을 한다. 대신 나는 가장 중요한 특징에 초점을 맞추고, 스스로 탐구할 수 있는 덜 난해한 것들을 남겨둔다. 데이터 있는 새로운 지수에 일치한 새로운 objectwith을 만드는 것을 의미하는 판다 개체에 대한 비판적 방법은 reindex. 위의 간단한 예를 들어보자.시계열과 같은 순서 데이터의 경우, 재색인화 시 일부 보간 또는 채우기 값을 수행하는 것이 바람직할 수 있다. method 옵션은 fill과 같은 방법을 사용하여 값을 채울 수 있다. DataFrame을 사용하면 인덱스, 컬럼 또는 둘 모두를 변경할 수 있다. 시퀀스만 통과하면 행이 다시 인덱싱된다.

     

    축에서 항목 삭제
    인덱스 배열이나 리스트가 있는 경우 축에서 하나 이상의 항목을 삭제하는 것은 쉽다. 약간의 munging과 set 로직이 필요할 수 있으므로, drop 메서드는 축에서 지정된 값이나 값이 삭제된 새 객체를 반환한다.  시리즈 인덱싱은 정수만 사용하는 대신 Series의 인덱스 값을 사용할 수 있다는 점을 제외하면 NumPy 어레이 인덱싱과 유사하게 작동한다. 다음은 다음과 같은 몇 가지 예들이다.  레이블을 사용한 슬라이싱은 엔드포인트가 포함된 일반적인 파이썬 슬라이싱과 다르게 동작한다.  위에서 보았듯이 DataFrame으로 인덱싱하는 것은 단일 값 또는 시퀀스로 하나 이상의 열을 검색하기 위한 것이다. 이와 같은 인덱싱에는 몇 가지 특별한 사례가 있다. 먼저 잘라내거나 부울 배열을 사용하여 행 선택, 이것은 일부 독자들에게는 일관성이 없어 보일 수도 있지만, 이 구문은 실용성에서 나온 것이지 그 이상은 아니다. 또 다른 사용 사례는 부울 DataFrame을 사용한 인덱싱으로, 스칼라 비교에 의해 생성된 것과 같다.

     

    이것은 이 경우 DataFrame을 보다 논리적으로 ndarray와 유사하게 만들기 위한 것이다. 행의 DataFrame 레이블 인덱싱에 대해서는 특수 인덱싱 필드 ix를 소개한다. NumPylish 표기법과 축 레이블이 있는 DataFrame에서 행과 열의 하위 집합을 선택할 수 있다. 앞에서 언급했듯이, 이것은 또한 재색인을 하는 덜 장황한 방법이다. 그래서 판다의 물체에 포함된 데이터를 선택하고 재배열하는 많은 방법들이 있다. DataFrame의 경우 그 중 많은 부분을 간략하게 요약한 것이 있다. 나중에 볼 수 있듯이 계층 인덱스로 작업할 때 여러 가지 추가 옵션이 있다. 판다를 디자인할 때, 나는 선택하기 위해 프레임을 타이핑해야 한다는 것을 느꼈다. 컬럼은 선택하기 때문에 가장 흔한 수술의 하나 그래서 나는 디자인을 절충했다.
    모든 풍부한 라벨 색인을 ix에 밀어넣는다.  판다의 특징 중 가장 중요한 것은 지표가 다른 물체들 사이의 산술 행동이다. 객체를 함께 추가할 때, 인덱스 쌍이 동일하지 않은 경우, 결과의 각 인덱스는 인덱스 쌍의 결합이 된다. 내부 데이터 정렬은 중복되지 않는 지수에서 NA 값을 도입한다. 산술 연산에 전파되는 누락된 값. 이를 함께 추가하면 각 DataFrame에 있는 인덱스와 열의 조합인 DataFrame이 반환된다.

    채우기 값이 있는 산술 방법
    다른 색인 객체 간의 산술 연산에 있어 축 레이블이 한 객체에서 발견되지만 다른 객체에서는 발견되지 않을 때 0과 같은 특수 값으로 채울 수 있다.

     

    DataFrame과 Series 간의 운영
    NumPy 어레이와 마찬가지로 DataFrame과 Series 간의 산술도 잘 정의되어 있다. 첫째, 동기를 부여하는 예로서 2D 어레이와 해당 행 중 차이점을 고려해야한다. 데이터 일부 조건에 의해 정해진 분류하는 또 다른 중요한 내장형 운영이다. 행 또는 열 색인별로 사전 그래픽으로 정렬하려면 정렬된 새 개체를 반환하는 sort_index 방법을 사용하십시오.
    DataFrame일, 하나 이상의 열에 값별로 정렬하기를 원할 겁니다. 이렇게 하려면 하나 이상의 열 이름을 기준 옵션에 전달하십시오. 랭킹은 배열에서 유효한 데이터 포인트 수를 1에서 1까지 할당하는 정렬과 밀접한 관련이 있다. 규칙에 따라 동점이 깨진다는 점을 제외하면 numpy.argsort에 의해 생성된 간접 정렬 지수와 유사하다. Series 및 DataFrame에 대한 순위 방법은 살펴봐야 할 부분이다. 기본적으로 각 그룹에 평균 순위를 할당하여 순위를 구분한다. 순위는 또한 데이터에서 관찰된 순서에 따라 배정될 수 있다. 중복 값이 있는 축 인덱스 지금까지 보여드린 모든 예제에는 고유한 축 레이블(색인 값)이 있었다. 많은 판다들이 기능을 하는 반면, 라벨은 독특해야 한다.

    'IT의 이해' 카테고리의 다른 글

    데이터 로드, 저장 및 파일 형식  (0) 2019.11.12
    히스토그램을 계산하기  (0) 2019.11.12
    NumPy 중심 어플리케이션 응용  (0) 2019.11.12
    NumPy 포함한 파일 입력 및 출력  (0) 2019.11.12
    ndarray 데이터 유형  (0) 2019.11.12

    댓글

Designed by Tistory.