Willkommen in der Webstatt Zum Webstatt Blog und Stories
Barabbas Barabbas am 12.11.07 17:27

Hallo zusammen,

kann mir jemand mit der Google- API helfen? Ich möchte eigentlich nur mit Hilfe dieser API abfragen, wieviele Treffer es zu einem bestimmten Begriff gibt.

Die im Netz kursierenden Beispiele und nusoap habe ich mir zwar angesehen bzw. umgesetzt, aber irgendwie krankt das Ganze noch ziemlich.

Vll. hat ja jemand einen kleinen Google- Client, den er mir einfach reinstellen kann.

lG

brb

netcup.de Warum gibt es hier Werbung?
CIX88 am 12.11.07 18:16

Ein Vorschlag wäre mit Regex die Seite auslesen.
Also was dann bei „Ergebnisse 1 - 20 von ungefähr 2.290.000” angezeigt wird.
Den Link kennst du ja, die Seite dann mit file_get_contents() oder CURL() einlesen, und die gesuchte Stelle rausfiltern.

Barabbas Barabbas am 12.11.07 20:10

danke, diese Methode ist mir bekannt, produziert aber m.E. zuviel Traffic und ist zu fehleranfällig, da sich der Seitenaufbau ja gerne mal verschiebt.
Letztendlich versucht Google auch genau sowas eigentlich zu unterbinden, wer sich beispielsweise die Bildersuche ansieht wird feststellen, dass da alle Bild- URLs durch JS- Maßnahmen unkenntlich gemacht werden (der FF zeigt zwar valide URLs an, das hängt aber damit zusammen, dass der FF dummerweise nicht den Quelltext, wie er auf dem Server liegt anzeigt, sondern so, wie er nach Ausführung von JS etc. aussieht.

whatever

brb

nuit nuit am 12.11.07 20:55

und was gibt es für probleme mit SOAP? dass ist doch genau auf sowas ausgerichtet und damit sollte das doch gehen?

CIX88 am 13.11.07 00:03

@Barabbas

Jo dein Gedanke ist natürlich richtig, wenn du gleich mehrere Anfragen stellst.
Ansonsten kenne ich keine API von Google, die dazu gedacht ist.

Etwas ähnliches hab ich aber schon ne ganze Weile im Einsatz, wo wird es per Cronjob täglich gemacht wird. Aber dabei benutze ich CURL() und sende auch ein User_Agent mit.

Barabbas Barabbas am 15.11.07 13:21

Tatsächlich gibt es eine Google Api, die mittels SOAP (wie nuit auch erwähnt) mit PHP genutzt werden kann. Allerdings ist das Problem, dass SOAP bei mir zu wirren, ärgerlichen und kaum debugbaren Fehlern führt, mit denen ich mich einfach nicht herumschlagen möchte.

Das Projekt http://xn--ngel-5qa.de/gstat soll halt in entsprechenden Abständen die Anzahl an Treffern zu einem bestimmten Begriff abfragen. Ich habe mich aber jetzt dazu entschieden, diese Abfrage manuell vorzunehmen, da ich ohnehin noch mindestens zwei weitere Maschinen abfragen möchte, für die es ohnehin keine mir bekannte API gibt. So gesehen werde die automatisierte Google- Abfrage auch keine nennenswerte Erleichterung.

Aber wenn ihr Bock habt, könnt ihr hier oder auf der oben genannten Seite noch ein paar Wortvorschläge einstellen ;)

//edit: Habe den Thread mal in den Smalltalk- Bereich verschoben, so können wir ein wenig über gstat plaudern ;)

CIX88 am 16.11.07 18:16

Ist ja interessant, muss ich mir mal angucken ...

EDIT:

Also wenn ich mir diese NuSOAP mal näher anschaue ist es nicht viel anderes als REGEX :) Und ob das geschaufel mit dem XML schneller geht, als direkt von der Seite mit Regex zu holen, kann ich gar nicht so recht glauben.

Snake am 16.11.07 19:15

Aber die XML Schnittstelle ist beschrieben und wird aufgrund Kompatiblitäten nicht so einfach verändert. Das HTML der Seite kann ohne "bösen Gedanken" verändert werden und schon greift dein Regex nichtmehr.
Deswegen: Immer lieber beschriebene Schnittstellen verwenden, anstatt wild auf GUI-Ausgaben loszu regexen

Creative Commons Lizenzvertrag
Alle Inhalte des Webstatt-Archivs stehen unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.

Impressum & Kontakt