합법적인 정보수집
인터넷 상에 보이는 컨텐츠를 단순히 수작업으로 정리할 수도 있지만, 로봇을 통해서 웹 상의 정보를 수집한다고 불법이 되지 않습니다.
웹 크롤링 노하우
저희 WPER 는 자사에서 개발한 EMSPY 의 검색엔진을 사용하고 있습니다. 2010년부터 수집활동을 진행하였으며 6년간의 운용 경험이 있습니다.
RSS 피드
RSS 피드를 제공해주지 않는 웹사이트에 서드파티에서 RSS 피드를 만들어낼 수 있습니다.
스케쥴 또는 벌크작업
별도로 제작한 워드프레스 플러그인으로 RSS 피드로 부터 자신의 워드프레스에 글 ( post ) 로 지속적으로 등록할 수 있고, 또는 일회에 10만건 가량의 대량의 데이타를 SQL 형식으로 저장하여 드릴 수도 있습니다.
멀티 IP Based
종종 구글과 같이 기업화된 웹 사이트에서는 로봇으로 부터의 자료수집을 자체적으로 막고 있지만, 저희는 다수의 IP 로 부터 수집하는 패턴을 사람이 글을 읽는 것과 완전하게 동일하게 연출하고 있으며, 따라서 수집이 불가능한 케이스는 nonce 라는 1회용 암호 키를 사용하는 경우를 제외하고는 수집이 가능합니다.
EMSPY 는 비정형의 HTML 을 정형화된 SQL 이나 XML, JSON 형식으로 전환하는 일종의 데이타 컨버터, URL 퍼저, 크롤링, 파싱엔진 등 여러 가지 모듈이 합쳐진 검색 엔진입니다.
다수의 웹사이트, 특히 자체 컨텐츠 없이 외부의 사이트를 수집해서 제공하는 토렌트 사이트와 큐레이션 사이트, 구매대행 사이트의 엔진으로써 돌아가고 있습니다.
토렌트 사이트, 큐레이션 사이트 ( 인기 있는 블로그나, 맛집, 빅딜 정보, 많이 판매되는 쇼핑 정보 모음 사이트 ), 구매대행 사이트를 운영하고자 하시는 분이 계신다면,
EMSPY 와 같은 파싱 엔진의 도움이 필수적입니다.
EMSPY 엔진은 검색 수집 대상의 HTML의 코딩 형식이 변경될 때, 즉각적으로 대응할 수 있는 인터페이스가 있으며, 따라서, 소스 사이트의 변경으로 인해 데이타가 끊기는 현상을 최소화할 수 있습니다.
어떤 의사분께서, 제약회사에 상품 카달로그와 병명 적응증에 대한 다수의 미국 국립생물공학정보센터 (ncbi) 정보를 수집하기를 희망하십니다.
이런 경우, 저희는 웹사이트에서 목록 부분, 그리고 목록으로 부터 열리지는 상세페이지에 대한 검색 룰을 생성하고, 몇 가지 모듈을 테스트한 다음, 단 한번의 실행버턴으로 컨텐츠 20만개를 수집해서 제공할 수 있습니다.
그리고 환자에게 ncbi에서 제공해주는 양질의 컨텐츠를 자체 데이타베이스에 넣어두고, 빠르고 좋은 상담과 좋은 약재에 대해 안내해줄 수 있습니다.
빅데이타 수집 엔진을 다수의 운영자에게 판매를 할 경우, 수집 뿐만 아니라, D-DOS 공격으로의 악용사례나 좀 더 공격적인 웹사이트 파밍, 피싱 등으로 악용되는 사례가 있어서, 더이상 엔진 자체를 판매하지는 않습니다.
하지만 고객님의 RSS 피드를 원하시는 사이트가 있다면, 일정 비용을 받고 진행하고 있습니다. 한 번 설정된 RSS 피드를 통해서, 지속적으로 웹사이트의 데이타를 자체 데이타베이스에 저장할 수 있게 됩니다.
현재 워드프레스 플러그인으로 WPER 의 빅데이타 동기화 모듈을 개발 중에 있습니다.
개발이 완료되면, 무료버전으로 wordpress 에 등록할 예정이오니, RSS, XML, JSON 으로 웹으로부터 출력되는 어떤 리소스도 최대한 활용할 수 있게 됩니다.