판다스

Language/Python

[python] 데이터 프레임에서 한글만 제거 - pandas

데이터 프레임에서 한글만 제거하기 데이터 프레임에서 특정 문자를 포함하는 경우에 대해 다루고 싶다면 정규표현식을 떠올려보자. 예시 코드 예를 들어 아래와 같은 데이터 프레임이 있다고 하자. 만약 숫자만 남기고 싶다면 정규식을 이용하면 된다. df['col_1']=df['col_1'].str.replace(pat=r'[ㄱ-ㅣ가-힣]+', repl= r'', regex=True) 단 컬럼별로 해야 한다. df['col_1']=df['col_1'].str.replace(pat=r'[ㄱ-ㅣ가-힣]+', repl= r'', regex=True) df['col_2']=df['col_2'].str.replace(pat=r'[ㄱ-ㅣ가-힣]+', repl= r'', regex=True)

Language/Python

[python] 데이터 프레임에 빈 행 추가하기 - pandas

데이터 프레임에 빈 행 추가하기 추가하는 개념을 생각했을 땐 append를 떠올리기 쉽다. 그러나 어떤 빈 값을 추가하면 안 되고 빈 시리즈나 빈 데이터 프레임 자체를 추가 해줘야 한다. 나는 인덱스에 특정 값을 넣은 상태에서 빈 행을 추가해야 하기 때문에 아래와 같이 작성했다. 예시 코드 df = df.append(pd.Series(name=idx_name)) name 이라는 파라미터에 넣고싶은 인덱스 변수를 넣으면 idx_name을 가진 빈행이 추가된다.

Language/Python

[python] 부분 문자열 대체하기 - pandas

result = result.replace('(.*)E(.*)', r'\1F\2', regex=True)

Language/Python

[python] groupby 에서 index 사용 안 하기 - pandas

multi index 피하기 groupby를 쓰면 기본적으로 멀티인덱스가 생성된다. 이 멀티인덱스가 groupby한 후의 전처리를 방해하므로 추후 작업이 남아있다면 멀티인덱스를 생성하는 파라미터를 False로 지정해주는 게 좋다. 예시 코드 'as_index = False' 라는 파라미터를 추가해주자.

Language/Python

[python] 특정 문자열 포함하는 행 제거 - pandas

특정 문자열 포함하는 행 제거하기 전처리를 하다보면 특정 문자열을 포함하는 행 전체를 제거할 일이 많다. 문자열 관련 전처리는 dataframe.str 으로 대부분 해결 되는데 오늘은 str.contains 를 이용해보자. str.contains 사용하기 dfresult = df[~df['Time'].str.contains("2021-03-01", na=False, case=False)] "2021-03-01"

Language/Python

[python] 시트가 여러 개인 엑셀 파일 한 번에 읽기 - pandas

여러 시트 한 번에 읽기 pandas로 excel을 읽을 경우, read_excel 이라는 함수를 쓰게 된다. 만약 백만행이 넘어가 sheet1, sheet2, ... 까지 쓰여있다면 어떻게 해야 할까? 우리가 흔히 쓰는 것 처럼 pd.read_excel()를 쓴다면 sheet1에 있는 데이터만 읽어진다. 따라서 read_excel함수의 파라미터 중 sheet_name = None 을 추가해주면 모든 시트를 읽을 수 있다. 그러나 sheet_name = None 의 원리는 key: sheet1, value: 모든 데이터와 같아서 데이터 프레임으로써 쓸 수 없기 때문에 concat으로 한번 더 묶어줘야 한다. 예제 코드 df = pd.concat([value.assign(sheet_source=key) f..

향식이
'판다스' 태그의 글 목록 (2 Page)