Cześć. Muszę napisać klasę, której zadaniem jest określać płeć osoby na podstawie imienia i/lub nazwiska.
Imion i nazwisk jest dużo a dodatkowo użytkownicy nie zawsze podają imię i nazwisko normalnie - czasem świrują.
Liczę, że 90% wyników będzie dobrych (błędne diagnozy będą potem poprawiane ręcznie).
Niżej podaję przykładową próbkę :
Seba
Mati
Ryszardo
Andżelika Myu
Neli Rokita
Juleczka Bubu
Anna Nowak
Jak Kowal
Kuba Ernest Kowalski
Jan Neli Rokita
Bartosz Visecky
Wojtek Kashkash
Alan Melone
Katarzyna Patrycja Drabczyk
Martyna Kozak
Caroline Żabusiek
Wie ktoś jak kto najlepiej zrobić?
Jakiś prosty regex? albo jakaś lista polskich imion, nazwisk per płeć - tylko jest ona gdzieś w necie dostępna?
Z listą to mogłabym sprawdzać nawet jakieś string similarity.
Chcę to zrobić jak najprościej, małym nakładem żeby było te 90% skuteczności.
moja aktualna implementacja:
package pl.springbreakers;
import pl.springbreakers.model.Sex;
import javax.annotation.Nullable;
import javax.inject.Named;
@Named
public class PolishSexDeterminator {
public Sex determine(final String name, @Nullable final String surname) {
return null;
}
}