Narzędzie do parsowania danych ze stron WWW

0

Witam,

Od pewnego czasu myślę nad stworzeniem serwisu do porównywania cen/stanu dostępności zagranicznych komiksów z kilku sklepów, ale mam ten problem że potrzeba mi czegoś co w miarę skutecznie będzie parsować dane z zewnętrznych stron. Na razie próbowałem zaatakować problem przy użyciu bibliotek jak HTMLUnit i JSoup i o ile ta 2 jest w miarę dobra, to są problemy gdy parsowana strona ma dużo skryptów. Dodam, że każda ma w miarę sztywny szablon i z tego co widziałem to nie są one często zmiennie.

Jakieś pomysły/biblioteki/rozwiązania dla tego problemu ?

0

Najlepiej sprawdź czy te strony udostępniają RSS albo jakieś API z którego możesz pobierać dane.

Na 99% takie API zwróci Ci dane w XML'u lub JSON'ie i będzie miało zawsze taką samą strukturę.

0

Z tego co widzę RSS-a nie obsługują, bo to nie jest strona typu serwis z newsami, że bardzo często się aktualizuje. Co do API to nie wiem jak mam je "odkryć" ? Raczej strony z których chcesz korzystać nie mają interesu w jego udostępnianiu.

0

Parsowanie HTML'a takiej storny prawdopodobnie będzie bardzo żmudne, ponieważ po pierwsze zawiera bardzo dużo szumu który Cię nie obchodzi (markup, style, strktura layout, etc.); a po drugie jego struktura może się zmieniać z przyczyn niezależnych od storny biznesowej z punktu widzenia kogoś, komu zależy tylko na (powiedzmy) wyświetlanym tekście.

Gdyby się tak stało, że ktoś zmieniłby strukturę takiej strony, to musiałbyś przepisywać formatter tej strony, nie wspominając już o tym że w tym momencie wszystkie kopie Twojej aplikacji natychmiast przestałyby działać.

0

Niestety jestem tego świadom obu tych problemów, ale te strony nie należą do mnie, wiec nie mam jak zaimplementować tam RSS-a czy tez wystawić API.

0

Może poszukaj innej strony albo źródła skąd mógłbyś brać takie informacje?

0

Niestety to odpada, bo to są 2-3 największe sklepy i mają największą ilość tytułów.

0
TwójJanuszBrzmiZnajomo napisał(a):

Z tego co widzę RSS-a nie obsługują, bo to nie jest strona typu serwis z newsami, że bardzo często się aktualizuje. Co do API to nie wiem jak mam je "odkryć" ? Raczej strony z których chcesz korzystać nie mają interesu w jego udostępnianiu.

A może próbowałeś googlać {nazwa strony} api, albo {nazwa strony} rss, ewentualnie {nazwa strony} fetch {przedmiot} (np microsoft fetch systems)?

0

Google nice ciekawego nie wypluwa dla toranoana API albo melonbooks API. Toranoana ma tylko jakieś konto Git-a, na którym są jakieś 3 testowe kawałki kodu wrzucone.

1 użytkowników online, w tym zalogowanych: 0, gości: 1