본문 바로가기

포스팅

UIpath 를 이용하여 코딩없이 표를 크롤링 해서 엑셀로 저장하기

반응형

UIpath 를 이용하여 코딩없이 표를 크롤링 해서 엑셀로 저장하기

 

인터넷 크롤링 (인터넷에 있는 정보)를 가져와서 파일에 저장하는 방법은 파이썬, 셀리니움으로 긁어오는 방법이 있는데

코딩 공부할 시간이 없다면 UIpath 프로그램을 사용해 보는것을 권장한다.

 

요즘 클래스 101 에서 듣고 있는 강의 "스타트업 투자로 재태크 하라, 10배 수익나는 비상장주식" 강의를 수강하고 있는데 (추천할만한 강의다. 완강후 리뷰할 예정) 강사님이 1000여쪽 넘는 표를 일일이 복붙하고 계셨던것 ㅠㅠ

https://seibro.or.kr/websquare/control.jsp?w2xPath=/IPORTAL/user/stock/BIP_CNTS02018V.xml&menuNo=68

 

나도 UIpath 를 안지는 얼마 안되었지만 몇번의 시행착오를 거쳐 표를 크롤링해서 엑셀로 저장하는 것을 UIpath 라는 프로그램틀 통해 알려드리려한다.

 

 

uipath 가입법과 다운로드  및 세팅 방법은 아래 동영상 참고

https://www.youtube.com/watch?v=d920ZLg9W50

 

 

 

 

 

 

UIpath 를 실행하면 프로세스를 클릭한다.

 

 

 

가운데 기본 워크플로우 열기 클릭

 

 

 

새로만들기에 플로우차트 클릭

 

 

왼쪽하단 액티비티 탭클릭하고 왼쪽검색 창에 Opem Browser 를 드래그해서 플로우 차트안에 넣는다

 

open browser 더블클릭, 크롤링할 사이트를 꼭  쌍따음표로 닫아서 입력, 오른쪽에 버튼을 누르면 웹사이트가 열린다.

 

 

start 와 open browser  드래그해서 선으로 연결 

 

 

세리브로 홈페이지는 처음에는 1주일 치만 조회가 가능하기 때문에 1년치를 조회할 수 있게 변경해줘야한다. 상단 메뉴의 레코딩 > 웹 클릭

 

 

클릭에들어가면 항목 선택이 있다. 클릭

 

시간 선택탭을 누르면 항목을 선택할 수 있다. 1년을 클릭하고 확인

 

 

마지막으로 클릭을 누르고 조회 클릭 마지막으로 저장및 종료를 누른다.

 

OPEN Brower 와 연결하고 상단의 데이터스크레핑 클릭

 

 

다음을 클릭하면 크롤링할 요소를 선택할 수 있다.

 

 

 

 

 

일자 밑에 날짜를 정확하게 클릭한다.

 

 

클릭하면 표를 인식했다고 하는데 무조건 아니오를 클릭한다.

 

 

 

 

두번째 일리먼트는 일자 바로 밑의 일자를 누른다. 

1행 이라면 2행의 데이터

 

 

 

다음을 클릭한다.

 

아래 상호연결된 데이터 추출을 클릭하고 2열 ~ 마지막 열까지 동일한 방법으로 진행한다.

 

완료를 누르면 다음과 같은 창이 뜨는데 1페이지 뿐아니라 페이지를 넘겨가면서 크롤링 하려면 예를 누르고 페이지 넘기는 버튼을 클릭한다.

 

왼쪽 검색창에 write csv 를 드래그해서 플로우 차트에 옮긴다.

 

 

저장경로를 지정하고 다음에서 쓰기는 Extractdata 를 입력, 플로우차이에 있는 것을 다 연결해준다

 

 

 

정말 중요한 것이 남았는데 이거에 삽질을 많이 였었다.

플로우 차트의 데이터 스크래핑 더블클릭

 

 

플로우차트 아래 변수 탭 클릭 이름이 extract 데이터 이렇게 한글로 되어 있을 텐데 이를 extractdata 로 만들어 주고 범위를 Flowchart 로 변경해준다.

 

그리고 데이터스크레핑 안쪽에 Extract Structure.... 창을 클릭하면  오른쪽에 옵션이 뜨는데 DelayBetween... 을 5000 MaxNumber... 를 각각 5000, 40000 으로 변경한다. 이는 한페이지 넘길 때 5초 마다 텀을 줘서 페이지가 로딩할 시간을 주고 데이터를 최대 40000 개 까지 크롤링 한다는 뜻 너무 적거나 많이하면 안됨다.

 

마지막으로 출력의 데이터 테이블 역시 extractdata 로 통일 시키고 저장.

 

실행 버튼은 디버그 탭에 있다. 

 

 

표를 크롤링 잘된거를 볼수 있고 총 40000 행을 스크롤링 했다. 1년 좀안되게 크롤링이 됬는데 나머지는 수동으로 하면된다. 페이지로딩하는데 시간이 걸려서 크롤링 시간은 총시간은 3시간 걸렸다.

 

뉴스 크롤링에 대한건 많이 포스팅 되어 있는데 표에 대한건 별로 없어서 포스팅해보았다. 

주식데이터에도 관심이 많은데 이런걸 데이터화 할 때 유용하지 않을까 생각..

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형