Normalerweise bedient man sich für so etwas einer Schnittstelle (API) die der Anbieter bereit stellen muss. Ich habe bei buch.de jetzt allerdings keinen Hinweis auf eine solche gefunden.
Es gibt verschiedene Wege eine solche API umzusetzen.
Beispiele dafür sind
SOAP und
REST. Ersteres wird meist direkt als Modul von der jeweiligen Programmiersprache bereitgestellt und basiert rein auf XML.
Allerdings kommt mittlerweile mehr die zweite Variante zum Einsatz, dieses Protokoll basiert auf einfachen HTTP Anfragen die an eine festgelegte URL gesendet werden, als Ergebnis erhält man anstatt HTML Dokumente die reinen Daten als
JSON, XML, YML, CSV, etc.
Falls buch.de eine solche Schnittstelle nicht bereitstellen sollte, bleibt dir nichts anderes über als die HTML Dokumente zu parsen.
Hierzu müsstest du dir erst einmal das Suchen-Formular auf deren Webseite angucken:
- An welche URL wird das Formular gesendet
- GET oder POST?
- Welche Parameter werden übermittelt
Diesen Aufruf müsstest du dann über Java durchführen und würdest eben das HTML Dokument zurückbekommen welches du dann mit einem XML Parser (funktioniert leider bei HTML Seiten nicht immer korrekt) oder mit Regulären Ausdrücken zerlegen musst.
Am besten guckst du dir wirklich mal
REST an, dass hilft dir nämlich auch beim letzten Punkt.