2018. 2. 22.

[파이썬] 웹페이지 소스에서 주민등록번호 검출하기

1. 개요
웹 페이지 소스코드에서 정규표현식으로 주민등록번호를 검출하는 소스코드

# -*- coding:utf-8 -*-
import requests
import re

#url = raw_input("Target URL : ") #url = 'http://httpbin.org/get'
url = 'https://ko.wikipedia.org/wiki/%EC%A3%BC%EB%AF%BC%EB%93%B1%EB%A1%9D%EB%B2%88%ED%98%B8'
r = requests.get(url)
#print r.text
text=r.text
print type(text)


s = u"발견된 주민등록번호"
s2=s.encode('cp949')
#regex1=re.compile('\d\d\d-\d\d\d-\d\d\d\d')  # 휴대폰번호 (ex, 010-1234-1234)
regex2=re.compile('\d\d\d\d\d\d-\d\d\d\d\d\d')  # 주민등록번호 (ex, 703021-1662912)
#regex2=re.compile('\d\d\d\d\d\d')  # 주민등록번호 (ex, 703021-1662912)
#mo1=regex1.search(text)
#if mo1 != None:
#    print(mo1.group())

mo2=regex2.search(text)
if mo2 != None:
    print(s,mo2.group())


* \d{6}-\d{7} 와 \d{13} 를 사용함으로서 보다 간결한 정규표현식이 될 수도 있다.

2. 실행 결과


Popular Posts

Recent Posts

Powered by Blogger.