본문 바로가기
지덕이의 데이터 분석/데이터 활용

[웹 스크래핑] 프리랜서가 추천하는 웹 크롤링 툴

by 지표덕후 2022. 2. 3.
반응형

요새 프리랜서를 중개해주는 플랫폼이 많습니다.
예컨대, '숨고'나 '크몽' 같은 플랫폼이지요.
저도 예전에 집 인테리어 때문에 작업 명세를 올리고 견적을 요청한 적이 있는데
정말 수많은 프리랜서들이 견적을 보내오더군요.

IT분야에서도 프리랜싱이 활발해서 많은 프리랜서들이
이런 플랫폼에서 활약하고 계신 것 같은데,
특히나 눈에 띄는 작업 유형이 '웹 스크래핑' 혹은 '웹 크롤링'입니다.

아래 스크린샷은 크몽에서 '웹 크롤링'을 검색한 결과입니다.
검색결과가 무려 15,794 건이래요, 맙소사.
제가 얼핏 보니 크몽은 서비스 공급자(프리랜서)를 나열해서 보여주는 방식인 것 같아요.

크몽에서 '웹 크롤링'을 검색한 결과

 

반면 숨고는 아래처럼 원하는 과업을 등록해놓으면
해당 스킬을 가진 프리랜서를 매칭시켜주는 방식인 것 같아요.
데이터 크롤링 관련 과업은 견적 요청 시 평균 네 개의 견적서를 보내준다고 하네요.

 

이처럼 프리랜싱씬에서 데이터 크롤링, 혹은 웹 크롤링 분야는
수요도 많고 공급도 많은 것 같은데요,
그런 만큼 이 분야에서 활약하(고자 하)는 프리랜서라면
경쟁자보다 더 싸게, 빠르게 서비스를 제공하는 게 중요하겠지요.

그래서 해외 개발자 커뮤니티에서는 프리랜서들에게
웹 크롤링 툴(= 웹 크롤러)을 추천하는 글도 많이 있습니다.
그 중 하나를 가져와봤어요.

 

웹 스크리핑이 무엇인가?

웹 스크래핑은 데이터를 자동으로 수집하는 것을 의미합니다.
일반적으로 기업들은 매출을 증진시키거나 고객을 분류하거나 리드를 생성하거나 광고 타겟팅을 위한
더 나은 의사결정을 하기 위해 웹 스크래핑을 수행합니다.

 

왜 하필 웹 스크래핑으로 프리랜싱?

웹 스크래핑은 해외에서도 점점 대세가 되고 있습니다.
기업의 규모와 관계 없이 의사결정에 적극 활용하면서 그 수요가 늘어나고 있지요.

암호화폐 BI 개발자로 활동하던 지인도, 어느날 문득 자신이 활용하는 모든 원천 데이터가
웹 스크래핑으로 수집된다는 걸 깨닫고 이 분야에 큰 흥미를 느끼게 되었습니다.

“데이터는 이 시대의 원유다. 여기에 돈이 모일 것 같으니 나는 여기에 한 번 뛰어들어봐야 겠다”
그 지인이 내게 한 말입니다.
그 때가 지인이 웹스크래핑으로 프리랜싱을 해보겠다 결심한 순간이고
지금까지 그는 이 일로 먹고 살고 있습니다.

 

프리랜서들은 웹 스크래핑으로 뭘 하나?

제 지인은 대체로 세 가지 업계에서 웹 스크래핑 과업을 수주 합니다: 이커머스, 부동산, 마케팅

 

프리랜싱1 : 이커머스 판매자를 위한 데이터 수집 및 이전

이런 류의 과업은 주로 쇼핑몰을 운영하는 기업 혹은 소유주를 위해
제품 데이터를 import 하고 export 하는 일입니다.

A라는 쇼핑몰을 보유한 소유주가 자신의 또 다른 쇼핑몰,
혹은 A쇼핑몰이 물건을 떼오는 공급자의 웹사이트로부터
데이터를 스크래핑해 A쇼핑몰 웹사이트에 그 데이터를 이전하는 작업입니다.

원천 웹사이트로부터 데이터를 export하거나 API로 받아오는 게 불가능하고,
복붙을 하기에는 작업이 너무 방대할 때 사용자는 그 일을 대신 해 줄 프리랜서를 찾게 되는 것입니다.

지인은 이런 종류의 과업을 수행할 때 Octoparse + WP All import
두 가지 툴을 조합해 사용합니다.
Octoparse가 본 포스팅에서 추천하고자 하는 크롤링 툴
인 것인데,
코드를 짤 줄 모르는 사람도 쉽게 웹 스크래핑을 할 수 있도록 해줍니다(물론 저장도).
관심 있는 분은 아래 사이트 참고해보시길.
https://www.octoparse.com/blog/extract-data-with-auto-detection

 

AI Web Scraping: Scrape Ecommerce Website with Auto-detection

We made a series of web scraping tutorials for you to get on board quickly with our latest version Octoparse 8. By the end of the series, you will be able to build a crawler from scratch and pull data from any website you want.  In this lesson, we will go

www.octoparse.com

 

Octoparse를 통해 수집한 데이터를
새로운 쇼핑몰로 업로드할 때에는 WP ALL import를 사용합니다.
아래 사이트에 활용 사례가 있습니다.
https://learnwoo.com/import-products-wp-all-import-woocommerce/

 

How to Import Products Using WP All Import for WooCommerce? An Essential Guide - LearnWoo

Learn how to import WooCommerce products effortlessly using the WP All Import for WooCommerce plugin via CSV or XML.

learnwoo.com

 

프리랜싱2 : 시장 조사를 위한 가격 비교

마케터들은 제품/상품 가격을 결정하거나 시장조사에 활용할 목적으로
현시점의 제품/상품 가격 데이터를 필요로 하는 경우가 많은데
이 때 웹 스크래핑이 유용하게 쓰입니다.

주로 이커머스 웹사이트나 자동차를 판매하는 딜러십 사이트들,  부동산 사이트에서
제품/상품에 대한 가격 정보, 기타 정보를 필요로 할 때가 많습니다.
즉 웹 스크래핑 기술자를 필요로 할 때가 많다는 것이지요.

이 작업을 개발자를 동원해 손수 수행한다면,
다른 웹 사이트들의 제품 목록에서 가격을 자동으로 수집하는 코드를 작성하고,
(해당 사이트의 HTML, CSS, JavaScript 구조를 파악하는 게 선결돼야 겠지요)
우리 백엔드의 DB를 재설계하고 제품 정보를 재조직하여 가격 비교가 이루어지도록 해줍니다.
그리고 DB의 정보를 받아 가격 비교가 프론트 엔드에 노출되도록 조치합니다.

위와 같은 작업에는 당연히 상당한 프로그래밍 스킬이 필요합니다.
수집 후의 데이터베이스 조작 및 관리 때문예요.
같은 결과물을 만들어내더라도 더 빨리, 효율적으로 해야 합니다.
프리랜서에겐 시간이 돈이니까요.

먼저 소개한 Otoparse 통해서 데이터를 한 번 죽~ 긁어오는 것뿐 아니라
정기적인 배치, API를 통한 DB 업데이트 등 위와 같은 류의 과업에서도 조력을 받을 수 있습니다.

 

프리랜싱3 : 마케팅 리드 생성에 필요한 정보 수집

마케팅에서 사용하는 '리드(lead)'란,
제품/상품 혹은 서비스 판매의 단초가 되는 '사람들의 관심'이라고 보면 됩니다.
(이 '관심'은 개념적인 정의이고 실무에서는 '제품 클릭' 혹은 '브랜드 검색' 등
측정 가능한 조작적 정의가 별도로 있겠지요)

모든 판매는 사실 리드에서부터 시작합니다. 때문에 어떤 사업에서든 무척 중요하죠.
돈을 더 벌고자 한다면 당연히 더 많은 리드를 생성하는 게 중요합니다.

그런 만큼 리드 생성에 웹 스크래핑이 유용하다면,
당연히 그 수요와 지불 용의도 높지 않겠어요?

리드 생성에 Otoparser를 활용한 아래 사례 한 번 참고해보세요.
https://www.octoparse.com/blog/lead-generation-with-web-scraping

 

How to Generate Sales Leads Using Web Scraping

Put it simply, leads are people who have shown interest in your products or service. Every sale starts with a lead. When businesses want to make more profits, chances are they need to keep generating more leads.  But, it's not all that easy! Table of

www.octoparse.com

 

마치며

저는 파이썬을 다룰 줄 압니다.
실제로 관심 있는 데이터를 수집하기 위해 크롤러를 코딩하고
데이터 수집하는 과정을 몇 차례 포스팅 하기도 했지요.

구글 플레이 스토어 앱 리뷰 크롤링
링크드인(LinkedIn) 채용공고 내용 크롤링
컴패니 가이드(Company Guide) 국내주식 전종목 재무제표 크롤링
인스타그램 해쉬태그 크롤링

그럼에도 불구하고 제가 웹 크롤링으로 돈을 번다면
당연히 별도의 크롤링 툴을 사용할 겁니다. 아래와 같은 이유에서요 :

프로그래핑 언어를 사용하는 데 비해서 편합니다.
코드 한 줄 작성하지 않고도 크롤러를 빌드할 수 있습니다.
Otoparser 같은 경우, 코딩 스킬 없이도 몇 번의 클릭으로 크롤러를 빌드하고,
그걸 실행시켜 데이터를 얻어낼 수 있습니다.

또 웹 스크래핑 하다보면 IP가 차단된다는지,
블랙리스트에 오른다든지, 쿠키가 방화벽에 막힌다든지 하는 번거로운 일이 생길 수 있는데
시중의 스크래핑 툴들은 여기에 대한 대비가 되어 있는 경우가 일반적입니다. 

제 지인은 여러 가지 웹 스크래핑 툴을 사용했었는데 결국
Octoparse에 정착했습니다. 사실 가장 큰 이유는 '가격' 때문이라네요.
기능이 상당히 강력한 편인데도 다른 서비스에 비해 가격이 착하답디다. 

웹 스크래핑은 매력적인 작업입니다.
나 자신이든 누군가든 좋은 의사결정을 내릴 수 있는 재료를 제공하고
성장과 머니타이징의 기회를 제공하지요.
당신이 프리랜서이든 아니든 코딩에 관심이 있다면 웹 스크래핑에 대해서는 꼭 공부해보길 권합니다.

반응형

댓글0