일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 파이썬 알고리즘
- it용어
- PYTHON
- python algorithm
- Oracle VM VirtualBox
- linux
- Python 라이브러리
- 파이썬
- tibero
- 알고리즘
- MariaDB
- C#
- it 용어
- 데이터베이스
- putty
- 오라클
- 리눅스 명령어
- Algorithm
- HTML
- sql
- Python DataFrame
- dbeaver
- csharp
- VirtualBox
- 리눅스
- 코딩테스트
- Oracle
- RFP
- 파이썬 데이터프레임
- 파이썬 전처리
- Today
- Total
목록PYTHON (35)
오경석의 개발노트

df['column_name'].value_counts()

결측치(Null) : 값이 존재하지 않고 비어있는것 유효하지 않는 값(NaN, Not a Number) : 주어진 값이 유효하지 않는것 결측치(Null) or 유효하지 않는 값(NaN) 확인 df['column_name'].isnull() df['column_name'].isna() df['column_name'].notnull() df['column_name'].notna() 결측치를 특정 값으로 채우기 df.fillna() 결측치를 변수별 평균으로 대체하기 df.fillna(df.mean(), df.where(pd.notnull(df), df.mean(), axis='columns') 특정 컬럼이 결측치인 행 제거 df.dropna(subset=['column_name']) 결측치가 들어있는 행 전체..

# 하나의 특정 조건과 일치하는 행 추출 df[df['column_name'] == 'value'] # 두개의 특정 조건과 일치하는 행 추출 df['column_name'][df['column_name'] == 'value'] # Series 출력 df['column_name'][df['column_name'] == 'value'][0] # Series가 아닌 해당 값만 출력

중심경향치 : 자료의 중심, 자료 전체를 대표, 평균·중간·최빈값 등이 있다. 1. 평균(mean) : 자료의 합을 자료의 갯수로 나눈 값 x.mean() 2. 중간값(median) : 자료를 크기 순으로 정렬했을때 정 가운데에 있는 값 x.median() 3. 최빈값(mode) : 가장 빈번하게 관찰/측정되는 값 x.mode() 4. 최소값(min) : 가장 작은 값 x.min() 5. 최대값(max) : 가장 큰 값 x.max()

# 컬럼명 변경 df.rename(columns={'Before':'After', 'Before2':'After2', ...}) # 인덱스명 변경 df.rename(index={'Before':'After', 'Before2':'After2', ...}) # 다수의 컬럼명 변경(순서 변경x) df.columns = ['After', 'After2', 'After3', ...] # 컬럼 순서 변경(이름 변경x, 특정 컬럼 삭제 가능) df[['Before', 'Before2', 'Before3', ...]] # 특정 컬럼 삭제 del df['column_name']

Numpy는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리할 수 있도록 지원하는 파이썬의 라이브러리이다. Numpy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공한다. Numpy Numpy는 Python에서 벡터, 행렬 등 수치 연산을 수행하는 선형대수(Linear algebra) 라이브러리 Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다. 난수 생성 과학 계산을 위한 라이브러리 Numpy 라이브러리 불러오기 import numpy as np # Numpy의 경우 np라는 명칭으로 임포트하는것이 관례 출처 : https://ko.wikipedia.org/wiki/NumPy NumPy - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 ..

loc, iloc 차이 loc(location)는 데이터프레임의 행이나 컬럼에 label이나 boolean array로 접근 iloc(integer location)는 데이터프레임의 행이나 컬럼에 인덱스 값으로 접근 data = { "2015": [9904312, 3448737, 2890451, 2466052], "2010": [9631482, 3393191, 2632035, 2431774], "2005": [9762546, 3512547, 2517680, 2456016], "2000": [9853972, 3655437, 2466338, 2473990], "지역": ["수도권", "경상권", "수도권", "경상권"], "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141..

DataFrame 생성 데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열 방향 인덱스는 columns 인수로, 행 방향 인덱스는 index 인수로 지정한다. data = { "2015": [9904312, 3448737, 2890451, 2466052], "2010": [9631482, 3393191, 2632035, 2431774], "2005": [9762546, 3512547, 2517680, 2456016], "2000": [9853972, 3655437, 2466338, 24..