reCAPTCHA Enterprise
경쟁사 동향 정보 수집은 예나 지금이나 중요합니다. 다만 시대에 따라 정보를 탐색하고 모으는 방법이 좀 다를 뿐입니다. 2020년 현재 가장 널리 쓰이는 방법은 웹 스크래핑(Web scraping)입니다.
악의적인 웹 스크래핑
웹 스크래핑은 인터넷에 올라온 웹 사이트에서 정보를 추출하는 행위를 뜻합니다. 오늘날 많은 회사가 웹에 정보를 게시합니다. 회사 공식 홈페이지, 공식 쇼핑몰, 블로그, 소셜 네트워크 등 여러 채널에 정보를 올립니다. 이들 정보는 회사 소개 같이 자주 바뀌지 않는 것부터 제품 가격이나 판매 조건 같이 주기적으로 업데이트되는 내용까지 다양합니다. 이들 정보를 사전 동의 없이 누군가 수집한다면? 기업 입장에서 좋을 리가 없습니다. 불필요한 트래픽만 일으키고, 우리 정보가 어떤 의도로 수집, 분석되는지 알 길이 없어 기분만 나쁩니다. 구글이 제공하는 reCAPTCHA Enterprise는 무차별로 정보를 수집하는 봇의 스크래핑을 효과적으로 차단합니다.
웹 스크래핑이 왜 문제인가?
웹 스크래핑은 문턱이 낮은 기술입니다. 그러다 보니 생각보다 무분별한 정보 수집이 웹에서 이루어지고 있습니다. 가령 Python으로 작성된 Scrapy, selenium, beautifulsoup 같은 웹 크롤링 도구를 쓰면 누구나 웹에서 원하는 정보를 긁어모을 수 있습니다. 시쳇말(그 시대에 유행하는 말)로 웹 스크래핑은 문과생도 할 수 있을 정도로 쉽다고 말합니다. 널리 알려진 웹 크롤링 도구를 이용하면 자동화 기반 봇(bot)으로 여러 웹 페이지에서 원하는 정보를 수집할 수 있습니다. 기업 간 정보 수집을 넘어 일반인까지 자신의 관심사를 봇(bot)으로 수집하는 시대가 된 것입니다.
웹 스크래핑으로 기업은 크고 작은 피해를 볼 수 있습니다. 가령 가격 정보를 짧은 주기로 수집하는 가운데 경쟁 쇼핑몰에서 가격 업데이트가 있으면 이를 참조해 약간 더 낮은 가격으로 올려 최저가 검색에서 유리한 위치를 차지할 수 있습니다. 회사 웹 사이트나 블로그에 올린 정보성 글을 모아, 마치 자신의 것처럼 가공해 올려 트래픽 유입을 늘리거나 광고 수익을 올리는 데 악용할 수도 있습니다.
시스템 측면에서도 피해를 줍니다. 봇(bot)은 주기적으로 방문합니다. 일반 사용자보다 훨씬 짧은 주기로 자주 방문을 합니다. 불필요하게 트래픽을 일으키고, 시스템 자원을 소모하는 요인이 됩니다. 악의적인 봇(bot)의 경우 사이트의 robots.txt 파일 내용을 무시하고 허락하지 않은 정보까지 마구잡이로 검색해 긁어 갑니다.
reCAPTCHA Enterprise로 강력히 차단
봇(bot)은 똑똑합니다. 짧은 스크립트로 로그인까지 척척 해냅니다. 이를 막기 위해 사용하는 것이 캡차 코드입니다. 로그인 시도마다 봇(bot) 여부를 판별하기 위해 숫자 입력이나 그림에서 지시한 대상을 선택하라고 안내하여 봇(bot)을 차단하는 것입니다. 요즘 이런 식으로 봇(bot)을 차단하는 곳이 늘고 있죠.
reCAPTCHA Enterprise는 봇(bot)을 식별하여 차단하는 서비스입니다. 일반적인 캡차 코드와 다른 것은 봇의 진화 속도에 맞춰 새로운 우회 기법까지 대응할 수 있다는 것입니다.
reCAPTCHA Enterprise는 인공 지능과 머신 러닝 기술을 활용해 봇(bot)을 식별합니다. 이상 행위에 대한 지속적인 학습을 통해 자동화 기반의 첨단 봇(bot)을 효율적으로 차단합니다. reCAPTCHA Enterprise는 백 그라운드에서 동작하면서 봇(bot)이 중요 컨텐츠에 접근하지 못하게 합니다. 따라서 보안 담당자가 일일이 룰을 설정해 봇(bot)을 막는 수고를 하지 않아도 됩니다. 웹 사이트 방문자를 불편하게 할 일도 줄어듭니다. 웹 서핑을 하다 보면 잦은 봇(bot) 확인 절차에 피로감을 느낄 수 있는데, reCAPTCHA Enterprise는 이런 부분까지 고려해 악의적인 봇(bot)으로부터 사이트를 보호합니다.