회의내용
1. 앞으로의 계획
웹 크롤링 스터디 (10/28~)
웹 페이지 구현
웹 크롤링하면서 동시에 페이지 구현 같이 진행하기
백엔드(3) 프론트엔드(2) 역할 분담 - 모든 팀원이 모였을 때 결정하기
2. 다음 모임까지 과제
- 담당한 웹사이트 웹크롤링 해오기
- 웹사이트 목록: 네이버 뉴스, 다음 뉴스, 구글 뉴스, KBS 뉴스, SBS 뉴스, ZUM 뉴스
- 과제 설명: 웹사이트의 구조를 분석해서 헤드라인 뉴스 분야 및 뉴스의 제목을 웹크롤링하는 것
- 웹페이지 기획 디자인 구체적으로 생각해오기!
- 사진의 위치, 메인뉴스 위치 등
웹크롤링 방법
웹 페이지에서 F12 누르면 개발자모드 실행 가능
구글 Colaboratory 또는 데스크톱의 IDLE에서 웹크롤링 실행 가능
참고: https://beomi.github.io/gb-crawling/posts/2017-01-20-HowToMakeWebCrawler.html
※크롤링 예제 (그대로 복사해서 실행하면 따옴표 부분에서 오류남 -> 따옴표만 직접 쓰기)
import requests
from bs4 import BeautifulSoup
res = requests.get(‘https://news.naver.com/’)
soup = BeautifulSoup(res.content,‘html.parser’)
# url = ‘https://news.naver.com/’
# result = urlopen(url)
# html = result.read()
tag = soup.select(‘#today_main_news .hdline_article_tit a’)
for t in tag:
# print(t)
print(‘====’)
print(t.getText().strip())
'Team Project > 지구별' 카테고리의 다른 글
20191118 회의록 및 스터디 (0) | 2019.11.25 |
---|---|
20191111회의록 (0) | 2019.11.14 |
20191104 회의록 & 1107 모임 내용 (0) | 2019.11.11 |
20191007 회의록 (0) | 2019.10.10 |
20190930 회의록 (0) | 2019.10.09 |
댓글