특정 문자열 포함하는 행 제거하기
전처리를 하다보면 특정 문자열을 포함하는 행 전체를 제거할 일이 많다. 문자열 관련 전처리는 dataframe.str 으로 대부분 해결 되는데 오늘은 str.contains 를 이용해보자.
str.contains 사용하기
dfresult = df[~df['Time'].str.contains("2021-03-01", na=False, case=False)]
"2021-03-01" <- 이 곳에 원하는 문자열을 넣어주면 된다.
na = False 는 결측치에 대해서 True로 볼지, False로 볼지 선택하는 파라미터인데 만약 결측값이 있는 데이터 프레임이라면 설정해줘야 한다. 안 그러면 float 형태는 뭐 포함할 수 없다는 오류가 난다.
na = False 로 할 경우, 포함이 안 됐다고 판단하여 제거 되지 않고 True일 경우 제거되니 상황에 맞게 선택해주자.
추가
case = False는 영어의 대소문자를 구분 할지에 대한 파라미터인데
False로 설정할 경우 대소문자에 상관없이 해당 단어를 포함하며 추출해준다.
반응형