Poradnik jak stworzyć model głosu AI [PRZECZYTAJ OPIS]

Рет қаралды 3,136

Күн бұрын

Пікірлер: 56

@WafelTLD Жыл бұрын

UWAGA! Jeżeli trenowanie głosu trwa strasznie długo, a posiadacie na komputerze zainstalowanego Pythona w dowolnej wersji USUŃCIE GO! RVC GUI posiada wewnętrznego Pythona w sobie i posiadając jakiegokolwiek doinstalowanego na komputerze może dochodzić do konfliktów, które mogą spowalniać proces trenowania! Trochę się zapędziłem podczas tworzenia poradnika. AUDIO NIE MUSI MIEĆ 20 sekund i być podzielone na 10000 kawałków! Może być mniej i dłużej! Byle nie przesadzać, bo im dłuższe i mniej plików audio, tym dłuższy czas oczekiwania w trenowaniu.

@aipeep Жыл бұрын

0:54 nie trzeba ciac audio na kawalki (Najlepiej jakby glos bylby bez reverb dlatego taki efekt na koncu wyszedl) i 3:18 najpopularniejszym wyborem jest rmvpe nei harvest

@damtob10 5 ай бұрын

Siema wyskakuje mi taki error przy trainowaniu modelu wiesz o co chodzi? ValueError: 40000 SR doesn't match target 48000 SR

@WafelTLD 5 ай бұрын

@@damtob10 A trenowanie kontynuuje się czy całkowicie zatrzymuje?

@damtob10 5 ай бұрын

@@WafelTLDzatrzymuje się całkowicie :/

@damtob10 5 ай бұрын

@@WafelTLD to wiesz co moze byc przyczyna errora?

@WafelTLD 5 ай бұрын

@@damtob10 Czy zmieniałeś sample rate przy kontynuacji trenowania? Często jest to spowodowane właśnie tym

@damtob10 5 ай бұрын

@@WafelTLD zostawilem tak jak ustalalem przed trenowaniem

@Guzek22 4 ай бұрын

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa3 in position 4: invalid start byte. Ej mordo pomozesz?

@WafelTLD 4 ай бұрын

Prawdopodobnie lokalizacja lub pliki dźwiękowe mają jakieś znaki specjalne w sobie, usuń znaki specjalne z lokalizacji, z nazw plików dźwiękowych i jeszcze raz spróbuj

@lenopaleno8861 7 ай бұрын

Siema wafel, mam pytanie. Jak moge uzyc tego modelu glosu aby po prostu cos powiedzial? (chodzi mi o konweter tekstu na mowe )

@WafelTLD 7 ай бұрын

Do mowy używam osobnego syntezatora mowy, potem używam go w RVC do podmianki głosu na ten który chcę użyć. Jedno z lepszych rozwiązań to strona ElevenLabs

@grzpal 2 ай бұрын

Da się RVC tak wytrenować, żeby nie seplenił jak ten na filmie?

@WafelTLD 2 ай бұрын

Raczej tak, to jest mocno zależy od tego jak dużo Epochs dasz do trenowanego modelu, ile głosek dźwięcznych model posiada w trenowanym audio oraz to czego użyjesz jako bazy podmienianego czy coverowanego audio

@grzpal 2 ай бұрын

@@WafelTLD Trenowałem na własnym głosie najpierw 500e 4500s i 500e i 13000s i efekt ten sam widziałem głosy Tuska czy inne dostępne modele i tego nie mają. Przeglądając strukturę katalogów są pretrainers jakieś i zastanawiam się czy te modele nie są zależne od języka np. Ja akurat w Applio robiłem.

@WafelTLD 2 ай бұрын

@@grzpal Szczerze aż takiej wiedzy na temat RVC nie mam, a czego używasz do wytwarzania mowy jako bazy? Appliowego TTS, ElevenLabs, innego syntezatora, czy może jakiegoś istniejącego nagrania realnej osoby? Próbowałeś może użyć modelu bez indexu? podobno index potrafi nieźle pozangielszczać

@grzpal 2 ай бұрын

@@WafelTLD ja trochę hardcoreowo głos Agnieszka Ivona (na tą chwilę mi najłatwiej balabolką), a potem RVC gui na jakiś określony głos RVC mam też XTTS webui ale daje gorsze rezultaty

@WafelTLD 2 ай бұрын

@@grzpal głos ivony nie jest najlepszy do konwersji na inny

@spriteporadnik Жыл бұрын

CUDA out of memory. - da się coś na to zaradzić? Mam gtx 1050

@WafelTLD Жыл бұрын

Upewnij się że dałeś mniej niż masz procesorów logicznych, możesz je sprawdzić w menadżerze zadań, najbardziej optymalnie jest dać połowę posiadanych.

@spriteporadnik Жыл бұрын

@@WafelTLD dalem 2 (mam 4), nawet na 1 nie dzialalo. Na guthubie pisali tez cos o zmniejszeniu batcha, dalem na 1 ale tez nie pomoglo, masz moze jeszcze jakis pomysl? Czy po prostu karta za slaba?

@WafelTLD Жыл бұрын

@@spriteporadnik Ogólnie do głowy przychodzą mi takie kwestie: 1. Wielkość/długość audio do trenowania - Może być tak, że masz zbyt dużo ważący plik audio lub po prostu za długi czasowo 2. Spróbuj zmniejszyć batch size per GPU, bo może masz tam wpisaną zbyt dużą liczbę 3. Sytuacja z kartą - Rekomendowane jest ogólnie posiadanie około 8GB VRAM do w miarę sprawnego działania

@kakaenzz 9 ай бұрын

poradziłeś sobie z tym? mam dokładnie ten sam problem już mam ochotę klawiaturę o kolano złamać bo nic nie działa.

@CactusGaming0 7 ай бұрын

Po zrobieniu wszystkiego jak w poradniku plik .pth sie nie pojawia w weight

@WafelTLD 7 ай бұрын

Masz pewność, że trenowanie zakończyło się? Musi na końcu pisać w konsoli coś w stylu: Save succes Closing program Lub coś tego typu

@WafelTLD 7 ай бұрын

Training is done. The program is closed. saving final ckpt:Success. Coś takiego musi się w konsoli pojawić po zapisaniu ostatniego epochsa

@ukaszbereza1909 Жыл бұрын

Czy mam zrobić folder datasets a w nim umieścić po prostu folder z nazwą głosu i w tym folderze pocięte 20 sekundowe pliki? Bo po pobraniu RVC1006 i wypakowaniu nie ma folderu datasets

@WafelTLD Жыл бұрын

Jeżeli nie ma folderu datasets, nawet nie musi być w lokalizacji RVC, ale możesz go sobie stworzyć, każdy dataset dodatkowo powinien być oddzielony swoim nazwanym folderem. Nie muszą to być 20 sekundowe pliki, może być nawet kilkuminutowe pojedyńcze audio.

@Czopa_Kajtek Жыл бұрын

teraz poradnik w jakim programie użyć model głosu żeby wyszedł finalny wynik

@WafelTLD Жыл бұрын

Już jest na kanale

@SzakulFirstyYT Жыл бұрын

Trzeba ciąć dataset na raptem 20 sekundowe fragmenty? Nie może to być po prostu dataset trwający 20 minut? co by się stało gdybym pozostawił go w całości? Jeśli miałbym tak ciąć 20 minutowy materiał to by to trwało mnóstwo czasu.

@WafelTLD Жыл бұрын

Trochę zapędziłem się z tym wycinaniem, z tego co wiem audio w pełnej formie warto by miało okolice do 10 minut, podobno jakieś ultra długie audio trenuje się nieco dłużej, czy to prawda nie jestem pewien.

@mikrofonek3978 Жыл бұрын

audacipy 1:06

@WafelTLD Жыл бұрын

heh

@Taj4Funn Жыл бұрын

RuntimeError: Error in __cdecl faiss::FileIOWriter::FileIOWriter(const char *) at D:\a\faiss-wheels\faiss-wheels\faiss\faiss\impl\io.cpp:98: Error: 'f' failed: could not open logs/Władca Jaboli/trained_IVF33_Flat_nprobe_1_Władca Jaboli_v2.index for writing: No such file or directory

@WafelTLD Жыл бұрын

spróbuj polskie znaki z pliku usunąć

@Sv3.mordo3 Жыл бұрын

RuntimeError: Error in __cdecl faiss::FileIOWriter::FileIOWriter(const char *) at D:\a\faiss-wheels\faiss-wheels\faiss\faiss\impl\io.cpp:98: Error: 'f' failed: could not open C:\Users\Acer\Desktop\sygnał\Applio-RVC-Fork\logs\vkiedt/trained_IVF79_Flat_nprobe_1_vkiedt_v2.index for writing: No such file or directory

@WafelTLD Жыл бұрын

usuń polskie znaki i spacje ze wszystkich lokalizacji i nazw plików czy folderów

@Juszczi2001 Жыл бұрын

Ja mam procesory logiczne 4 czy da radę na moim kompie to wytrenować? Czy to będzie się zbyt długo trenowało?

@WafelTLD Жыл бұрын

jeżeli masz 4 to ustaw na dwa, możliwe że będzie trochę trwało, w tym czasie zalecałbym ci poza trenowaniem nie obciążać sprzętu w trakcie żadnymi dodatkowymi aktywnościami

@Juszczi2001 Жыл бұрын

Ok zostawię sobie trenowanie na noc :D Jak na przykład wytrenuję głos i chcę go jeszcze dotrenować to robię wszystko tak samo od początku?

@WafelTLD Жыл бұрын

myślę, że chyba tak, niestety nie miałem jeszcze przypadku, w którym dotrenowywałem modele

@Dokto_rex 11 ай бұрын

Jeżeli chcę szkolić model na epoche 500 to jest jakieś minimum ile próbek dźwięku potrzebuję oraz czy coś się stanie jeżeli mam kilka kopii próbki dźwiękowej do szkolenia?

@WafelTLD 11 ай бұрын

Z tego co wiem to nie ma jakiegoś minimum ani maksymalnego limitu próbek, wiadomo, im mniej próbek, im krótsze, tym gorszy efekt. Co do kopii próbek, to lepiej jednak by było, by każda próbka była zróżnicowana, różnorodność próbek pozwoli na wytrenowanie wszystkich głosek itp.

@kamilodj8440 Жыл бұрын

Hej wafelku a moge potem uzyć takiego głosu do czytania napisów do all playera

@WafelTLD Жыл бұрын

Niestety nie posiadam wiedzy na ten temat

@Okuratnaagencjareklamowaspzoo 11 ай бұрын

Niestety nie można, to inny silnik głosów

@lokomotywa_piotrus 11 ай бұрын

U mnie niema tego pliku wsadowego go web-bat, co teraz? RVC1006AMD_Intel jak coś

@WafelTLD 11 ай бұрын

To trochę dziwne.. A są jakiekolwiek pliki ".bat"?

@WafelTLD 7 ай бұрын

Możliwe, że wersja pod amd/intel ma wybrakowane archiwum, w linku wystarczy poszukać pliku go-web.bat, pobrać go i dograć do reszty plików.

@WafelTLD Жыл бұрын

kzbin.info/www/bejne/rXbPm6VtbM6rY6Msi=JoFoMy5Sd1m1R7WD JUŻ JEST PORADNIK DO UŻYWANIA WASZYCH MODELI!!!

@skippy0000 Жыл бұрын

no-f0-todo no-f0-todo co zrrobic?

@WafelTLD Жыл бұрын

w jakim etapie wyskakuje ci ta informacja?

@skippy0000 Жыл бұрын

move model to cuda no-feature-todo to rozwinięcie ale to sie dzieje jak robie feature extraction@@WafelTLD

@WafelTLD Жыл бұрын

Ogólnie sam program jak i datasety muszą mieć prostą lokalizację bez znaków specjalnych, myślników itp. sprawdź czy nie masz właśnie takiej niezgodnej lokalizacji. Nawet jak masz folder z programem nazwany jakos z myslnikami i kropkami to sprobuj zmienić na taką by ich nie było