Woher wir die Daten bekommen.

Data utilization

Unterschiedlichste Quellen. Unlimited eben.

„Best of Breed“. Mit diesem Ansatz arbeiten wir. Für Sie und für uns. Damit erheben wir hoch-volumige Datenströme aus Online- und Offline-Medien, aus Webseiten, Blogs und Social Networks. Wir entwickeln ein eigenes „Large-scale Crawling Framework“, welches auf gängigen Big Data-Technologien wie Map Reduce und Hadoop aufsetzt. Und so können wir jede Größenordnung von Webdaten akquirieren. Wirklich jede! Und im nächsten Schritt stürzen wir uns begeistert in Analyse und Auswertung.

Die DATAlovers-Crawling-Technologie basiert auf dem Apache Top Level-Projekt Nutch. Klingt kompliziert. Ist es aber nicht. Zumindest nicht für uns. Auf Basis der verteilten Map-Reduce-Architektur ist es einfach, jegliche Größenordnungen von Webseiten zu crawlen. Dabei werden zuerst die Daten akquiriert, die wir in die Analyse einschließen wollen. Dann folgt der Rest. Typische Anwendungen sind das Crawling von Webseiten über die Abfrage von APIs (Facebook, Twitter, YouTube, etc.) und Scraping von Preisen auf Shop-Portalen. Die Duplicate Detection entfernt Datensätze, die einander sehr ähnlich sind, sogenannte Near-Duplicates. Damit nichts, aber auch gar nichts, unsere Ergebnisse verfälschen kann.