Hei, jeg har også hatt voice preview boksen i et par uker nå og er interessert i å høre deres erfaring med den som hardware. Jeg kjører også en kombinasjon av Home assistant cloud + Chat GPT. Jeg testet dette gjennom mobilen før jeg kjøpte voice boksen, og syntes det fungerte veldig bra. Mye bedre enn google home og i hvert fall bedre enn HA sin egen voice assistent. Utrolig kult å styre ting i huset med mer naturlig språk, og at den faktisk skjønner hva jeg mener. Angående oppfølgingsinteraksjoner er dette også noe jeg har lyst til å få til. Man kan for øvrig i konfigurasjonen av chat GPT be den om å aldri stille oppfølgingsspørsmål. Jeg ba den ganske fort om å slutte å spørre om jeg trenger hjelp med noe mer.
Jeg er dog litt skuffet over voice preview boks, spesielt med wake word. Jeg syntes den er veldig ustabil på responsen, selv om jeg er rett ved siden av. Jeg bruker "Hey Jarvis" som wake word. Har ikke testet om det er noe forskjell med "OK Nabu".
Hele poenget med denne boksen var jo at det endelig kom en skikkelig hardware som kan måle seg med google sin. Trodde jeg.
Hva er deres erfaring med trigging av wake word?
Når det gjelder lokal tale-til-tekst og tekst-til-tale har jeg testet litt med Whisper og litt forskjellige størrelser på modellene. Men resultatet har vært så håpløst at jeg bare har gitt opp. Jeg kjører HA på en 5 år gammel Lenovo ThinkPad jeg pensjonerte fra jobben. Med i7-prosessor og ganske bra grafikkort.
Det er veldig mulig at jeg har køddet til noe i oppsettet. Jeg er i hvert fall veldig fornøyd med Home assistant cloud sin tale-til-tekst og tekst-til-tale, så da handler det i så fall kun om drømmen om å kjøre alt lokalt.
Angående det har jeg også testet å kjøre llama 3.2 lokalt gjennom Ollama og bruke den som assistent. Hadde dette vært fem år siden hadde jeg sikkert vært imponert, men den sier så mye sprøyt og rare setninger at den er helt ubrukelig. Hvert fall når Chat GPT 4o-mini er konkurransen. Men det kan også være fordi modellen jeg kjører ikke er stor nok. Jeg har tenkt å teste med små varianter av den nye DeepSeek R1-modellen. Siden denne er open source er det mulig det kommer flere tilsvarende sterke og bedre modeller rett rundt hjørnet.
Dette er uansett gøy å pusle med, og siden det stadig er "early days" kommer dette til å bli helt rått med tida.