Syntezator mowy

0

Mam mały problem. Pewnego słonecznego dnia wpadłem na pomysł napisania programu do syntezy mowy. Na początku myślałem tylko że nagram każdą głoskę a potem przez pętle będę odczytywał każdy znak po kolei a potem odtwarzał dźwięk do nego należący. Jednak za bardzo to nie jest efektowne ponieważ są mini pauzy między każdą literą a przy okazj to brzmi jakby pierwszo klasita czytał to. Czy znacie może jakiś inny sposób na stworzenie swojego własnego syntezatora mowy?????

0

Tez myslalem nad takim gloskowym syntezatorem mowy. Zeby to bylo efektownie to wg mnie nie mozesz "literowac" slowa. Trzeba najpierw "odczytac" gloski w slowie (a moze nawet w calym zdaniu), nastepnie wczytywac do pamieci gloski (twoje probki). A nastepnie najlepiej jeszcze slowa juz zlozone z probek pamieci przetwarzac sygnalowo (wygladzanie przejsc miedzy poszczegolnymi gloskami), a na koncu mozna sie pokusic o przetwarzanie calego zdania.

0

Życze powodzenia 8-| kiedyś też doSZEDŁem do wniosku że trzeba najpierw odczytać tekst i poskładać go tak żeby program już wiedział co ma odtworzyć i nie robiłem tego na pojedyńczych literach tylko na sylabach. Jednak najbardziej efektownym sposobem jest czytanie wyrazami tyle, że po kilku godzinach gadania do siebie przez mikrofon wypie.... to i dałem sobie spokój.
Wole już sam przeczytać.

0

No cóż, pisanie syntezatorów mowy to skomplikowana sprawa. Po kilku tygodniach pewnie udałoby sięuzyskać coś na poziomie Syntalka. Teraz porównać to do profesjonalnych syntezatorów mowy i... się zaciukać. Czytanie i wycinanie głosek nagranych to przeszłość, teraz głos generuje się na całkiem innych zasadach.

0

Na jakich zasadach?

0

Krótko - solidna matematyka, algorytmy algorytmy i jeszcze raz algorytmy.
Kumpel robił na dyplom to widziałem w akcji, nieźle gadało ale ile sie on napracowął.... a w sumei to implementował gotowe algotyrmy generowanai dzwięku. Pamiętajcie że każda litera może brzmieć inaczej w zależności od tego dookoła jakich leiter występuje (w języku polskim rzecz jasna), do tego neiktóre litery zmiękczają następne itd itp

0

Akurat zmiękczanie i występowanie w okolicy innych liter to jeszcze całkiem skończona liczba przypadków. Ale generalnie głosu się nie nagrywa, tylko generuje. Samemu się do tego stopnia na tym nie znam, więc nie powiem jak to powinno być :) Takie programy na wyższym poziomie są cholernie drogie (dziś właśnie zupełnym przypadkiem trafiłem na syntezator IVONA - licencja na pojedynczego użytkownika to jest 599 zł :/ )

0

głos w generowanym programowo "głosie" jest tworzony w oparciu o prawdziwą mowę!
Oczywiście pomijam te całkiem kompresowane i strasznie zniekszatłcone komputerowe.
Najpierw ktoś się nagrał (kobieta czy mężczyzna), wybadali w tych głosach dla poszczegolnych sylab/liter najwyższe amplitudy, dane, odległości i natęrzenie i barwę itp, zapisane to zostało odpowiednio w tablicy danych, które są bardzo obszerne im wiecej danych tym głos wydawany jest dokładniejszy. Nastepnie odmyślono specjalny algorytm, który powoduje łączenie sylab w całe wyrazy (także badając prawdziwy) , czyli odpowiednio uśrednia fale/dane odczytane z tych tablic. Algorytmy posiadaja także obsługę wyjątkowych wyrazów takich jak np: TARZAN gdzie program nie czyta "rz" tylko osobo "r" i "z" :] (polska kraj). tu można mówić o kompresji własnie danych w tablicy czyli wielkości tablicy danych, z których składa się wyrazy.
Moim zdaniem jest to do zrobienia, ale bardzo trudne i pracochłonne, ja robiłem też już dawno na plikach Wav gdzie nagrywałem poszczegolne sylaby i obcinałem pauzy miedzy nimi i powiem, że nawet to mi wyszłe hehe. pozdro

0

Nie ma sensu zgadywać jak to robią profesionalne programy bo i tak wiemy, że on nie napisze tego w ten sposób. Myśle, że dla zwykłego amatorskiego badziewia wystarczy troche pogadać do siebie i gra muzyka.
Ja to napisałem do... przynajmniej chciałem, żeby to czytało napisy z filmów i też jakoś to działało na pewno lepiej niż te windowsowskie generacje.
Problemem było jedynie nagranie wiekszości kombinacji z tymi właśnie zmiękczaczami :/ np kończenie zdań na ?
Na początku najpierw sprawdzałem cały tekst i ustawiałem sobie kolejność odtwarzania plików itd.

Jeśli chcesz to napisać tylko dla swojej satysfakcji to lepiej zajmij sie czymś innym np skoczeniem na meline bo szkoda tylko czasu, a jak sie dalej upierasz to myśle, że ci ten sposób wystarczy.

Ja pisałem to przy użyciu DelphiX.

0

Berus123 skocz po wino i nie wracaj! Nie opłaca się pisać tego (samemu) co już jest.
A jesli już napiszesz to gwarantuję, że w oczach innych bedzie to szajs, ale oto w tym chodzi aby zadowolić siebie, że się coś potrafi wiec pisz!!!! powodzenia

0

Ależ broń Boże! Żadne bazy danych, czy coś podobnego. Tutaj najpierw wchodzi w grę identyfikacja głosu (tutaj mamy do czynienia z rzeczywistym głosem) w celu uzyskania, w uproszczeniu strasznym (proszę o wybaczenie), wzoru na głos. Następnie czytasz tekst, odpowiednim algorytmem go mielisz i następnie podstawiasz do wzoru, co daje Ci wygenerowany dzwięk. Jeśli chodzi o identyfikacje głosu, to życze powodzenia, jesli chodzi o algorytmy, to pewnie się parę ich znajdzie na necie. Tak czy siak, nie ma sensu wyważać otwartych drzwi - jeśli chodzi o czytanie napisów do filmów, to jest parę dostępnych "darmowo" czytaczy.

0

spoko, że są tylko czytały tak że wolałem napisać swój, ale szybko zrozumiałem, że mam nie mysleć więcej o takich rzeczach i ty lepiej tez nie trać więcej czasu na myślenie w piekne słoneczne dni, chodź teraz jest pogoda wsam raz na rozgrzewanie dyńki :D

0

nagraj i przeanalizuj swój głos w " mono 8kHz bitów=8 " bedziesz miał bardzo zniekształcene ale zato niewiele danych do przeanalizowania. ale i tak sie tego nie opłaca.

1 użytkowników online, w tym zalogowanych: 0, gości: 1