유틸리티 소개

로그 파일에서 특정 패턴 추출하는 정규표현식

서버 로그에서 IP 주소, 시간, 에러 코드 같은 걸 뽑아야 할 때가 많다. 정규표현식이 딱이다.

아파치 로그 예시

192.168.1.1 - - [27/Feb/2024:10:00:00 +0900] GET /index.html HTTP/1.1 200 1234 이런 형식. 여기서 IP를 뽑으려면 ^([0-9.]+) 이면 된다. 정규표현식 테스터에 로그 한 줄 넣고 테스트해보자.

날짜 시간 추출

[([^]]+)] 이 패턴은 대괄호 안의 내용을 뽑는다. [27/Feb/2024:10:00:00 +0900]에서 날짜 시간만 추출.

HTTP 상태 코드

HTTP/[0-9.]+ ([0-9]+) 이러면 200, 404, 500 같은 상태 코드를 그룹으로 캡처할 수 있다. 테스터로 실제 로그를 분석해보자.

복잡한 패턴은 단계별로

긴 정규표현식을 한 번에 작성하려고 하면 실수하기 쉽다. 작은 부분부터 테스트하면서 점점 확장해나가는 게 좋다. 정규표현식 테스터에서 부분 패턴을 먼저 검증하고 합치자.

문서화의 중요성

복잡한 정규표현식은 나중에 보면 이해가 안 된다. 주석을 달거나 패턴이 무엇을 하는지 설명을 남겨두자. 특히 팀 프로젝트에서는 다른 사람도 이해할 수 있게 해야 한다.

성능 고려하기

정규표현식이 느릴 수 있다. 특히 백트래킹이 많은 패턴은 주의해야 한다. 가능한 구체적인 패턴을 쓰고, 너무 복잡해지면 다른 방법을 고려하자. 테스터로 다양한 입력에 대해 테스트해보자.

정규표현식 테스터에서 실시간으로 패턴을 테스트하고 결과를 확인하면서 학습하면 정규표현식 실력이 빠르게 늘어난다.