20191028 회의록

회의내용

1. 앞으로의 계획

웹 크롤링 스터디 (10/28~)

웹 페이지 구현

웹 크롤링하면서 동시에 페이지 구현 같이 진행하기

백엔드(3) 프론트엔드(2) 역할 분담 - 모든 팀원이 모였을 때 결정하기

2. 다음 모임까지 과제

담당한 웹사이트 웹크롤링 해오기
1. 웹사이트 목록: 네이버 뉴스, 다음 뉴스, 구글 뉴스, KBS 뉴스, SBS 뉴스, ZUM 뉴스
2. 과제 설명: 웹사이트의 구조를 분석해서 헤드라인 뉴스 분야 및 뉴스의 제목을 웹크롤링하는 것
웹페이지 기획 디자인 구체적으로 생각해오기!
1. 사진의 위치, 메인뉴스 위치 등

웹크롤링 방법

웹 페이지에서 F12 누르면 개발자모드 실행 가능

구글 Colaboratory 또는 데스크톱의 IDLE에서 웹크롤링 실행 가능

참고: https://beomi.github.io/gb-crawling/posts/2017-01-20-HowToMakeWebCrawler.html

※크롤링 예제 (그대로 복사해서 실행하면 따옴표 부분에서 오류남 -> 따옴표만 직접 쓰기)

import requests

from bs4 import BeautifulSoup

 

res = requests.get(‘https://news.naver.com/’) 

soup = BeautifulSoup(res.content,‘html.parser’)

 

# url = ‘https://news.naver.com/’

# result = urlopen(url)

# html = result.read()

 

tag = soup.select(‘#today_main_news .hdline_article_tit a’)

for t in tag:

# print(t)

print(‘====’)

print(t.getText().strip())

저작자표시 비영리 동일조건

'Team Project > 지구별' 카테고리의 다른 글

20191118 회의록 및 스터디 (0)	2019.11.25
20191111회의록 (0)	2019.11.14
20191104 회의록 & 1107 모임 내용 (0)	2019.11.11
20191007 회의록 (0)	2019.10.10
20190930 회의록 (0)	2019.10.09

20191028 회의록

회의내용

웹크롤링 방법

'Team Project > 지구별' 카테고리의 다른 글

댓글

티스토리툴바

20191028 회의록

회의내용

웹크롤링 방법

'Team Project > 지구별' 카테고리의 다른 글

관련글

댓글

티스토리툴바