유틸리티 소개

정규표현식으로 중복 단어 찾아서 제거하기

문서에서 the the 같이 연속으로 중복된 단어를 찾아서 하나로 만들고 싶다. 정규표현식 역참조로 가능하다.

중복 단어 패턴

([a-z]+)s+1 이 패턴은 같은 단어가 공백 사이에 두 번 나오는 걸 찾는다. 정규표현식 테스터에서 the the cat을 넣으면 the the가 매칭된다.

하나로 치환

매칭된 부분을 $1로 치환하면 중복이 제거된다. the the cat이 the cat이 된다.

대소문자 처리

i 플래그를 쓰면 The the 같은 것도 찾는다. 영어 문서 교정할 때 유용하다. 테스터에서 플래그 옵션도 설정해보자.

복잡한 패턴은 단계별로

긴 정규표현식을 한 번에 작성하려고 하면 실수하기 쉽다. 작은 부분부터 테스트하면서 점점 확장해나가는 게 좋다. 정규표현식 테스터에서 부분 패턴을 먼저 검증하고 합치자.

문서화의 중요성

복잡한 정규표현식은 나중에 보면 이해가 안 된다. 주석을 달거나 패턴이 무엇을 하는지 설명을 남겨두자. 특히 팀 프로젝트에서는 다른 사람도 이해할 수 있게 해야 한다.

성능 고려하기

정규표현식이 느릴 수 있다. 특히 백트래킹이 많은 패턴은 주의해야 한다. 가능한 구체적인 패턴을 쓰고, 너무 복잡해지면 다른 방법을 고려하자. 테스터로 다양한 입력에 대해 테스트해보자.

복잡한 문자열 처리가 필요할 때 gimo.kr 정규표현식 테스터를 활용하면 패턴 작성과 검증이 훨씬 수월해진다. 실무에서 자주 쓰이는 패턴들을 익혀두면 생산성이 크게 올라간다.