메뉴
검색
클라우드포털

강좌

클라우드/리눅스에 관한 강좌입니다.

프로그램

파이썬기초109 : 웹크롤링을 위한 BeautifulSoup 연습하기

관리자 작성
작성일 2023.03.27 16:16

3,640 조회
0 추천
목록

# web02.py

from bs4 import BeautifulSoup

doc = ['<html><head><title>Page title</title></head>', \

'<body><p id="firstpara" align="center">This is paragraph <b>one</b></p>', \

'<p id="secondpara" align="blah">This is a paragraph <b>two</b></p>', '</html>']

soup = BeautifulSoup(''.join(doc), 'html.parser')

#태그를 정렬해서 보여주기

print(soup.prettify())

#문자열 패턴을 손쉽게 정의할 수 있는 정규표현식 패턴을

#사용할 수 있는 re

import re

tagsStartingWithB = soup.findAll(re.compile('^b'))

print([tag.name for tag in tagsStartingWithB])

#리스트로 태그를 나열하면 해당 태그들을 검색합니다.

print(soup.find_all(['title', 'p']))

#람다함수를 정의해서 태그의 속성들이 2개인 경우만 검색합니다.

print(soup.find_all(lambda tag:len(tag.attrs) == 2))

#태그중에 align속성이 "center"인 경우만 검색합니다.

print(soup.find_all(align="center"))

#태그의 id속성이 para로 끝나는 경우만 검색합니다.

print(soup.find_all(id=re.compile("para$")))

#다시 간단한 HTML소스를 생성해서 class속성을 통해 검색합니다.

soup =BeautifulSoup("""

Bob's<b>Bold</b>Barbeque Sauce now available

<b class="hickory">Hickory</b> and <b class="lime">Lime</a>

""", "html.parser")

#<b>태그 중에 class=lime이라고 되어 있는 태그를 검색합니다.

print(soup.find("b", {"class":"lime"}))

#<b>태그 중에 class=hickory이라고 되어 있는 태그를 검색합니다.

print(soup.find("b", {"class":"hickory"}))

"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."

이전

파이썬기초110 : 네이버웹툰 웹크롤링

작성일 2023.03.27 16:18
다음

패킷 이동 경로 및 table 종류

작성일 2023.03.27 16:14

댓글 0

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

목록

공지사항

등록일 09.15

네이버클라우드 콘솔(console) 실무작업 강좌를 시작합니다.
등록일 09.13

네이버클라우드 자격증 NCE 요약강의를 시작하였습니다.
등록일 06.05

쉘프로그래밍(shell programming)강좌를 시작했습니다.
등록일 05.25

록키리눅스(RockyLinux) 강좌를 시작했습니다.
등록일 01.10

리눅스마스터 자격증 강좌를 업로드하고 있습니다.
등록일 01.10

클라우드와 리눅스 보안강좌 업로드 중입니다.
등록일 08.09

파이썬 강좌를 시작합니다.

뉴스광장

등록일 08.10

진짜 좋아요
등록일 08.09

활용해 보시길 바랍니다.
등록일 08.08

[서울시 전액무료] 프로젝트로 완성하는 자율주행 실무교육! (청년취업사관학교)
등록일 08.08

[8/25 개강] 구디아카데미 클라우드 활용 자바/스프링 개발 부트캠프 95기 (~08/25)
등록일 08.08

여기가 좋네요
등록일 08.07

[전액무료] 실무핵심 국비지원 주말교육
등록일 08.07

[솔데스크] 주말에 끝나는 국비지원 무료교육
등록일 08.07

[8월 개강] 주말에 끝내는 실무핵심 IT국비과정 10선, 지금 신청하세요!
등록일 08.07

괜찮은 이성을 만나는 방법
등록일 08.06

남자들이 이용할 수 있는 곳

현재 회원수 : 60,415 명
현재 강좌수 : 37,138 개
현재 접속자 : 218 명