빅데이타 수집 / 웹 크롤링

웹 크롤링은 인터넷을 통해 필요한 정보를 최대한 수집할 수 있는 방법입니다.

  • 합법적인 정보수집

    인터넷 상에 보이는 컨텐츠를 단순히 수작업으로 정리할 수도 있지만, 로봇을 통해서 웹 상의 정보를 수집한다고 불법이 되지 않습니다.

  • 웹 크롤링 노하우

    저희 WPER 는 자사에서 개발한 EMSPY 의 검색엔진을 사용하고 있습니다. 2010년부터 수집활동을 진행하였으며 6년간의 운용 경험이 있습니다.

  • RSS 피드

    RSS 피드를 제공해주지 않는 웹사이트에 서드파티에서 RSS 피드를 만들어낼 수 있습니다.

  • 스케쥴 또는 벌크작업

    별도로 제작한 워드프레스 플러그인으로 RSS 피드로 부터 자신의 워드프레스에 글 ( post ) 로 지속적으로 등록할 수 있고, 또는 일회에 10만건 가량의 대량의 데이타를 SQL 형식으로 저장하여 드릴 수도 있습니다.

  • 멀티 IP Based

    종종 구글과 같이 기업화된 웹 사이트에서는 로봇으로 부터의 자료수집을 자체적으로 막고 있지만, 저희는 다수의 IP 로 부터 수집하는 패턴을 사람이 글을 읽는 것과 완전하게 동일하게 연출하고 있으며, 따라서 수집이 불가능한 케이스는 nonce 라는 1회용 암호 키를 사용하는 경우를 제외하고는 수집이 가능합니다.

다년간의 노하우가 담긴 EMSPY

EMSPY 는 비정형의 HTML 을 정형화된 SQL 이나 XML, JSON 형식으로 전환하는 일종의 데이타 컨버터, URL 퍼저, 크롤링, 파싱엔진 등 여러 가지 모듈이 합쳐진 검색 엔진입니다.
다수의 웹사이트, 특히 자체 컨텐츠 없이 외부의 사이트를 수집해서 제공하는 토렌트 사이트와 큐레이션 사이트, 구매대행 사이트의 엔진으로써 돌아가고 있습니다.
토렌트 사이트, 큐레이션 사이트 ( 인기 있는 블로그나, 맛집, 빅딜 정보, 많이 판매되는 쇼핑 정보 모음 사이트 ), 구매대행 사이트를 운영하고자 하시는 분이 계신다면,
EMSPY 와 같은 파싱 엔진의 도움이 필수적입니다.

변화하는 HTML 변경에 빠르게 변경할 수 있는 인터페이스

EMSPY 엔진은 검색 수집 대상의 HTML의 코딩 형식이 변경될 때, 즉각적으로 대응할 수 있는 인터페이스가 있으며, 따라서, 소스 사이트의 변경으로 인해 데이타가 끊기는 현상을 최소화할 수 있습니다.

big-data, EMSPY, create parsing rule

빅데이타 수집 엔진의 제한

빅데이타 수집 엔진을 다수의 운영자에게 판매를 할 경우, 수집 뿐만 아니라, D-DOS 공격으로의 악용사례나 좀 더 공격적인 웹사이트 파밍, 피싱 등으로 악용되는 사례가 있어서, 더이상 엔진 자체를 판매하지는 않습니다.
하지만 고객님의 RSS 피드를 원하시는 사이트가 있다면, 일정 비용을 받고 진행하고 있습니다. 한 번 설정된 RSS 피드를 통해서, 지속적으로 웹사이트의 데이타를 자체 데이타베이스에 저장할 수 있게 됩니다.

워드프레스 플러그인

현재 워드프레스 플러그인으로 WPER 의 빅데이타 동기화 모듈을 개발 중에 있습니다.
개발이 완료되면, 무료버전으로 wordpress 에 등록할 예정이오니, RSS, XML, JSON 으로 웹으로부터 출력되는 어떤 리소스도 최대한 활용할 수 있게 됩니다.

워드프레스 개발 노하우

워드프레스 개발의 장점

워드프레스 개발의 장점.
효율적이고 창의적인 활용 방법들을
항상 고민하고 있습니다.

노하우 블로그

워드프레스의 올바른 개발 방법을 소개합니다.

구글 페이지 채크

자신의 사이트가 모바일에 얼마나 최적화되어 있는지에 관한 통찰 (Insight) 을 가질 수 있습니다.

유용한 도구와 자료실

웹 개발에 필요한 도구들과 파일들을
모아둔 자료실입니다.

어떤 서비스를 도와드릴까요 ?

용건을 남겨 주시면, 저희 영업 담당자가 친절하게 연락드리겠습니다.

용건을 남겨주세요

문의하기

010-2467-1456 김동현이사

정보를 남겨주시면 확인하는데로 전화를 드리겠습니다.

쾌속개발 서식다운로드