📊python/파이썬, 데이터분석

파이썬 데이터분석(2)(파이썬 기초복습 및, pandas 기초)

하얀성 2023. 2. 19. 17:15

파이썬 기본 문제들(틀린부분)

문자열은 1,0이 아닌 문자열일 뿐임.


push는 아래의 예시처럼 뒤에 추가하는 건 맞지만, 출력을 더해진 길이값만을 출력.

 

const count = animals.push('cows');
console.log(count);
// Expected output: 4

 

근데 중요한건... push()는 파이썬에 없다.ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

append만이 답이다.


제어문(조건문, 반복문)

# enumerate를 사용하면 인덱스 번호와 원소를 같이 가져올 수 있습니다.
for i, val in enumerate(lang):
    print(i, val)
#결과 : 0 pyhon

틀린이유가 부주의 때문이지만, 아래의 메서드들을 몰랐고, 헷갈려하므로 틀리길 잘했다는 생각이다.

 

슬라이싱, startswith, in을 통해 문자열에 경기가 있는지 확인하기

# 슬라이싱으로 문자 가져오기
address:[:2]
# 결과 : '경기'


# startswith를 사용하면 특정 문자가 포함되는지 여부를 확인할 수 있습니다.
address.startswith("경기")
# 결과 : True



# in을 사용하게 되면 특정 문자열을 포함하고 있는지 여부를 확인할 수 있습니다.
"경기" in address
# 결과 : True

 


pandas 사용하기

먼저 간단히 알고가자.

 


시작 선언. 데이터 프레임 만들기(2차원 자료구조)


1차원 배열의 시리즈

 

Series는 모든 데이터 유형 (정수, 문자열, 부동 소수점 숫자, Python 객체 등)을 보유 할 수있는 1차원 레이블이 지정된 배열이다. 이때, 축 레이블을 총칭하여 인덱스라고 부른다.

 

[그림 1-1] 시리즈와 데이터프레임 구조

<출처: https://www.kdnuggets.com/2017/01/pandas-cheat-sheet.html>

 


시리즈 만들기

시리즈를 만드는 방법은 다음과 같다.

 


기본 입,출력

이렇게 두 열을 같이 쓰고자 하면 에러발생

 

 


한 개의 ["컬럼명"] 시리즈 출력.

두 개의 [["컬럼명1","컬럼명2",....]]감싸는 코드는 데이터 프레임 형태를 가져온다.

 


다양한 메서드(count, len)

4,5,6이라는 값들의 빈도수를 출력해줌.

1.df의 길이를 출력.

2. a로 분류되는 열의 값들을 가져옴


순서 정리 메서드

 

a col( a열값들의 모임)을기준으로 b,c의 값들을 정렬후(오름차순)

 

역순(내림차순)으로 가져와라는 뜻.


삭제

axis는 행을 의미

drop(["컬럼명"], axis=1)은 행을 기준으로 삭제하기에 선언이 필요하다.

 

다시 df를 입력해서 출력해보면 반영이 안되기에

df = df.drop~ 

윗 식처럼 변수안에 담은 뒤에, 출력해줘야 반영된다.


평균, 합, 갯수 , 퍼센트 구하기

 

a라는 col를 기준으로 b까지의 모든 값들을 묶는 groupby(기준 col)[원하는 col 한개]

평균, 합, 갯수를 구할 수 있다.

 

 


값은 값 두개가 있는 경우(ex, a값이 두개)

그 값을 평균을 내서 하나의 값들로만 나타내고,

다른 중복되지 않은 숫자는 그대로 값을 나타낸다.


데이터 시각화

. + tab 을 통해 다양한 시각화로 표현이 가능하다.