2019. 9. 29.
위키피디아 데이터 수집 후 DB에 저장하는 파이썬 코드
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import datetime
import random
import pymysql
conn = pymysql.connect(host='127.0.0.1',user='root',passwd='2kdskfk1!@', db='scraping', charset='utf8')
cur = conn.cursor()
cur.execute("USE scraping")
random.seed(datetime.datetime.now())
def...
2019. 9. 28.
2019. 9. 24.
웹 애플리케이션 서버와 웹 프레임워크 구조의 이해
웹 애플리케이션 서버는 정적 페이지와 동적페이지 요청을 모두 처리할 수 있다. 정적 페이지는 html, javascript, css 처럼 미리 작성되어 있어 서버 측의 실행이 요구되지 않는 응답 페이지를 의미하며, 동적 페이지는 서버 측에서 무엇인가를 실행해 요청에 따라 생성되는 응답 페이지를 의미한다.
웹 서버는 사용자의 요청을 수신하면 로컬 저장소의 경로에서 해당 파일을 찾아 응답(Response)한다. 하지만 동적인 요청을 수신하게 되면 동적 요청을 처리할 수 있는 웹 애플리케이션을...
2019. 9. 23.
from bs4 import BeautifulSoup
from pprint import pprint
import requests
html = requests.get("http://comic.naver.com/webtoon/weekday.nhn")
bsObj = BeautifulSoup(html.text, "html.parser")
#첫번째 가공
date1 = bsObj.find('div',{'class':'col_inner'})
#print(date1)
#두번째 가공
date2 = date1.findAll('a',{"class":"title"})
#print(date2)
for name in date2 :
print(name.get_text())
'''
for...
2019. 9. 22.
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def linkUrl(addrUrl) :
html = urlopen("https://en.m.wikipedia.org/wiki/Main_Page")
bsObj = BeautifulSoup(html.read(), "html.parser")
for i in bsObj.findAll("a",href=re.compile("(^/wiki/)")) :
if "href" in i.attrs :
if i.attrs["href"] not in pages :
newPages = i.attrs["href"]
pages.add(newPages)
...
현재 사이트에서 a href 목록을 수집하여 외부사이트를 선별하여 링크를 출력한다.
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
from urllib.parse import urlparse
import random
import datetime
pages = set()
random.seed(datetime.datetime.now())
def internalLinks(bsObj, host) :
internalLink = []
#/로 시작하거나 중간에 루트 도메인 주소가 포함된 링크를 찾는다.
for link in bsObj.findAll("a", href=re.compile("(^/|.*"+host+")"))...
# 다음 실시간 검색어 순위 목록 추출
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://m.daum.net/?nil_top=mobile")
bsObs = BeautifulSoup(html.read(), "html.parser")
for i in bsObs.find("div",{"class":"keyissue_area"}).findAll("span",{"class":"txt_issue"}) :
print(i.get_text(...
2019. 9. 17.
# 위키백과 최초 페이지에서 랜덤으로 링크페이지에 접속하여 링크가 없을때까지 반복하는 프로그램
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
import datetime
random.seed(datetime.datetime.now())
def linkaddr(addr) :
listing = []
html = urlopen("http://en.wikipedia.org"+addr)
bsObj = BeautifulSoup(html.read(), "html.parser")
for link in bsObj.find("div", {"id":"bodyContent"}).findAll("a",href=re.compile("^(/wiki/)((?!:).)*$"))...
피드 구독하기:
글
(
Atom
)
Popular Posts
-
/* PHP Version URL CMD WebShell */ /* 사용법 : hxxp://URL/cmd.php?cmd=명령어 */ <? echo " <FORM ACTIO...
-
프록시 도구를 이용하여 서버에 OPTIONS 메소드를 전달하면 지원하는 메소드를 확인 할 수 있다. 그런데 간혹 버프 OPTIONS 메소드로는 확인되지 않는데 response 헤더값에 allowed method 라고 표시되는 경우가 있다. 때문에 보...
Recent Posts
Powered by Blogger.