여기서 부터는 내가 생각 할 때, SQL 문법 같은 느낌스~~~
----------------------------------------------------------------------------------------
1) 데이터프레임명.보고싶은열 == 'EU'
--> select 칼럼명
from 테이블명
Where 칼럼명 = 'EU'
--> 상위 20개만 보고싶다!
데이터프레임명[데이터프레임명.보고싶은열 == 'EU' ].head(20)
--> beer_servings의 값이 158보다 큰 경우만 보고싶다
데이터프레임명[데이터프레임명.보고싶은열> 158 ]
데이터프레임명[데이터프레임명['보고싶은 열'] > 158 ]
--> beer_servings의 값이 10 이하이면서 country, beer_servings의 두 개의 열만을 뽑아내는 방법
데이터프레임명[데이터프레임명.보고싶은열 <= 10]['보고싶은열1', '보고싶은열2']
--> 필터링 + 평균
데이터프레임명[데이터프레임명.보고싶은열 == 'EU']['보고싶은열2'.mean()]
--> 보고싶을 열 필터링 + 일정 조건 이상만!
데이터프레임명[데이터프레임명.보고싶은열 > 보고싶은열.mean()]
--> null값만 보기!
데이터프레임명[데이터프레임명.보고싶은열.isnull()]
2) 연산하기 ( AND, OR, NOT 연산자)
- & : AND
- | : OR
- ~ : NOT
다시 말해 다음과 같이 사용할 수 있습니다.
- A조건 & B조건 : A조건과 B조건 모두 만족하는 경우
- A조건 | B조건 : A조건 또는 B조건 둘 중 하나를 만족하는 경우
- ~A조건 : A조건을 만족하는 경우의 반대. 즉, A조건을 만족하지 않는 경우
# NOT 조건
drink_df[~(drink_df.continent=='EU')]
# AND 조건
drink_df[(drink_df.continent=='EU') & (drink_df.wine_servings > 300)]
# OR 조건
len(drink_df[(drink_df.continent=='EU') | (drink_df.wine_servings > 300)])
3) 정렬과 로직과 수치정보의 결합
drink_df 에서 total_litres_of_pure_alchohol의 값이 최대값인 경우의 counry 열을 출력
데이터프레임명[데이터프레임명.보고싶은열 ==데이터프레임명.보고싶은열.max()]['보고싶은열2']
drink_df[drink_de.total_litres_of_pure_alcohol == drink_df.total_litres_of_pure_alcohol.max()]['country']
drink_df 에서 wine_servings의 값이 300보다 크거나, beer_servings의 값이 300보다 크거나, sprit_servings의 값이 300보다 큰 경우의 country열의 데이터를 모두 카운트하였을 때의 숫자를 출력
데이터프레임명[(데이터프레임명.보고싶은열>300)|(데이터프레임명.보고싶은열2>300)|(데이터프레임명.보고싶은열3 >300)]. 보고싶은열4.count()
drink_df[drink_df.wine_servings > 300) | (drink_df.beer_servings > 300) | (drink_df.spirit_servings > 300)].country.count()
데이터를 특정 기준으로 정렬하기(오름차순) / 내림차순 정렬 / 여러 열을 기준으로 정렬
- 데이터프레임명.sort_values('정렬기준 열')
drink_df.sort_values('beer_servings')
- 데이터프레임명.sort_values('정렬기준 열', ascending = False)
- 데이터프레임명.sort_values('정렬기준 열1' , '정렬기준 열2'])
'파이썬' 카테고리의 다른 글
1_1 데이터프레임 (0) | 2021.10.17 |
---|---|
파이썬 시-작 (0) | 2021.10.10 |