2021년 8월 6일 금요일

Python - Delete HTML tag in string variable

EN - Delete HTML tag in python string variable
KO - python 문자열 변수에서 HTML TAB키워드 지우기

python 에서 web page를 읽어서 문자열 변수에 모두 저장할 일이 생기는데 이때 내용만 추출하기 위해 사용하기 좋음
**주석 역시 동일하게 삭제 된다**

1.변수 확인
    str_content = """<!-- Main content -->\t\t\t<section class="content">\t\t\t\t<div class="row p10 mn bg-white" id="canvas"><div>제1회 고양이 모임</div><div class=\'text-center\'><h1 class=\'bold\'> 시작하쟝"""


2.패키지 import
    import re
**re.sub 를 제거하기 위해 import 해야한다**

3.tag 및 &nbsp 제거
    str_content = re.sub('<.+?>', '', str_content, 0, re.I|re.S)
    str_content = re.sub('&nbsp;|\t|\r|\n', '', str_content)

4.결과 확인


댓글 없음:

댓글 쓰기