* + 같은 수량자는 기본적으로 탐욕적(greedy)이다. 가능한 많이 매칭하려 한다. 이게 원치 않는 결과를 낼 때가 있다.
탐욕적 매칭 문제
<.+> 패턴으로 bold 텍스트에서 태그를 찾으면 bold 전체가 매칭된다. 정규표현식 테스터에서 직접 확인해보자. 원하던 건 와 따로였는데.
게으른 수량자
<.+?> 처럼 ?를 붙이면 게으른(lazy) 매칭이 된다. 최소한만 매칭한다. 이러면 와 가 따로 잡힌다.
언제 뭘 쓸까
HTML 태그 같은 건 게으른 매칭이 좋다. 한 줄 전체를 잡으려면 탐욕적 매칭이 좋다. 상황에 따라 다르니까 테스터로 둘 다 해보고 결정하자.
복잡한 패턴은 단계별로
긴 정규표현식을 한 번에 작성하려고 하면 실수하기 쉽다. 작은 부분부터 테스트하면서 점점 확장해나가는 게 좋다. 정규표현식 테스터에서 부분 패턴을 먼저 검증하고 합치자.
문서화의 중요성
복잡한 정규표현식은 나중에 보면 이해가 안 된다. 주석을 달거나 패턴이 무엇을 하는지 설명을 남겨두자. 특히 팀 프로젝트에서는 다른 사람도 이해할 수 있게 해야 한다.
성능 고려하기
정규표현식이 느릴 수 있다. 특히 백트래킹이 많은 패턴은 주의해야 한다. 가능한 구체적인 패턴을 쓰고, 너무 복잡해지면 다른 방법을 고려하자. 테스터로 다양한 입력에 대해 테스트해보자.
정규표현식 테스터를 적극 활용해서 다양한 패턴을 실험해보자. 실전 경험이 쌓일수록 정규표현식 작성이 수월해진다.