본문 바로가기
프로그래밍 언어/java + jsp + jstl

[java/jsp] Html Tag(태그) 제거하는 정규식

by 우림 2015. 3. 19.

Html 태그가 갯수가 몇 갠데 그 많은 태그를 어떻게 다 제거해?
게다가 태그 안에는 갖가지 속성들도 들어있는데 말이지..

이렇게 생각을 하셨다면 아직 정규식의 위력을 모르시는 분일 가능성이 큽니다.
정규식 단 한줄이면 모든 Html 태그를 다 제거할 수가 있답니다.

java나 jsp에서 아래 메소드를 만들어서 한번 사용해 보세요~
Html 태그 없는 내용만 추출하실 수 있습니다.

저는 엑셀다운로드할 때 웹에디터의 내용을 엑셀에 넣어야 하는 경우에 사용해 봤습니다.
엑셀에서는 Html 태그를 인식못하기 때문에 모두 제거하고 내용만 뿌려줘야 하거든요.


<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>


/** * 모든 HTML 태그를 제거하고 반환한다. * * @param html * @throws Exception */ public String removeTag(String html) throws Exception { return html.replaceAll("<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>", "") }


댓글