메뉴
검색
클라우드포털

강좌

클라우드/리눅스에 관한 강좌입니다.

프로그램

파이썬기초109 : 웹크롤링을 위한 BeautifulSoup 연습하기

관리자 작성
작성일 2023.03.27 16:16

5,010 조회
0 추천
목록

# web02.py

from bs4 import BeautifulSoup

doc = ['<html><head><title>Page title</title></head>', \

'<body><p id="firstpara" align="center">This is paragraph <b>one</b></p>', \

'<p id="secondpara" align="blah">This is a paragraph <b>two</b></p>', '</html>']

soup = BeautifulSoup(''.join(doc), 'html.parser')

#태그를 정렬해서 보여주기

print(soup.prettify())

#문자열 패턴을 손쉽게 정의할 수 있는 정규표현식 패턴을

#사용할 수 있는 re

import re

tagsStartingWithB = soup.findAll(re.compile('^b'))

print([tag.name for tag in tagsStartingWithB])

#리스트로 태그를 나열하면 해당 태그들을 검색합니다.

print(soup.find_all(['title', 'p']))

#람다함수를 정의해서 태그의 속성들이 2개인 경우만 검색합니다.

print(soup.find_all(lambda tag:len(tag.attrs) == 2))

#태그중에 align속성이 "center"인 경우만 검색합니다.

print(soup.find_all(align="center"))

#태그의 id속성이 para로 끝나는 경우만 검색합니다.

print(soup.find_all(id=re.compile("para$")))

#다시 간단한 HTML소스를 생성해서 class속성을 통해 검색합니다.

soup =BeautifulSoup("""

Bob's<b>Bold</b>Barbeque Sauce now available

<b class="hickory">Hickory</b> and <b class="lime">Lime</a>

""", "html.parser")

#<b>태그 중에 class=lime이라고 되어 있는 태그를 검색합니다.

print(soup.find("b", {"class":"lime"}))

#<b>태그 중에 class=hickory이라고 되어 있는 태그를 검색합니다.

print(soup.find("b", {"class":"hickory"}))

"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."

이전

파이썬기초110 : 네이버웹툰 웹크롤링

작성일 2023.03.27 16:18
다음

패킷 이동 경로 및 table 종류

작성일 2023.03.27 16:14

댓글 0

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

목록

공지사항

등록일 09.15

네이버클라우드 콘솔(console) 실무작업 강좌를 시작합니다.
등록일 09.13

네이버클라우드 자격증 NCE 요약강의를 시작하였습니다.
등록일 06.05

쉘프로그래밍(shell programming)강좌를 시작했습니다.
등록일 05.25

록키리눅스(RockyLinux) 강좌를 시작했습니다.
등록일 01.10

리눅스마스터 자격증 강좌를 업로드하고 있습니다.
등록일 01.10

클라우드와 리눅스 보안강좌 업로드 중입니다.
등록일 08.09

파이썬 강좌를 시작합니다.

뉴스광장

등록일 10:55

[다쏘시스템코리아] 1800만원 교육비 전액지원+250만원 노트북 지원_카티아 첨단 모빌리티 스쿨 3기 (~11/30)
등록일 09:46

[모집중] 한컴 AI 아카데미 3기 – 실무 프로젝트로 취업까지 연결! (~11/12)
등록일 11.03

[중앙정보처리학원] 비전공자 환영, 전액국비지원, 클라우드 기반 자바(JAVA) 풀스텍 개발자 취업캠프 ( ~11/24 )
등록일 11.02

(산대특) 영상편집자 + 디자이너 전액무료 취업 과정 (멀티미디어)
등록일 11.02

공동주택아파트경리(관리소ERP운영사) 취업교육
등록일 11.02

[국비지원] 직업상담사2급 자격취득(필기/실기) 교육
등록일 11.02

[국비전액무료] AI활용 디자인(출판편집)/영상/마케팅 교육
등록일 10.31

활용해 보시길 바랍니다.
등록일 10.31

✅ 하이미디어아카데미 국비지원 지점별 안내 ✅ (10월 31일변경)
등록일 10.31

[다쏘시스템코리아] 카티아(CATIA) 첨단 모빌리티 스쿨 3기 (~11/30)

현재 회원수 : 60,505 명
현재 강좌수 : 37,506 개
현재 접속자 : 369 명