Lokal stemmestyring

Odd · 12. oktober 2018

Jeg liker ikke at Google sender meg et tilbud om Nyco når jeg fiser … så jeg vil prosessere kommandoer lokalt på egen server.
Jeg har klart å bygge all HA i leiligheten uten innblanding fra en skytjeneste og det akter jeg å fortsette med.

Det jeg ikke forstår er hvorfor skal prosesseringen være så smart at den skjønner alle verdens språk?
Jeg har sjelden besøk av kinesere så den trenger kun å kjenne igjen de kommandoene jeg har lært den, og dette er sakens kjerne.

Jeg vil selv lære den opp ved å spille inn "dim lys" og trigge kommandoen som skal dimme lyset med innlært lyd.

Det som forbauser meg er at denne måten å tenke har vært i bruk tidligere og ser ut til å blitt glemt.

Jeg hadde en Creative Lab Soundblaser 2 på begynnelsen av 1990 tallet som hadde programvare som gjorde nettopp dette.

Mener den het "Voice Assist" og virket forbausende bra. Litt rart å tenke på i og med at det var i forrige århundre.
For de som plutselig begynner å mimre så ja i samme programpakke lå "Text Assist" og "Talking Parrot". sistnevnte var faktisk ganske morsom.

Så hvorfor skal en ha et system som skal forsøke å forstå alt du sier på alle språk, når det eneste jeg trenger er at den forstår hva jeg vil, og det er faktisk temmelig begrenset i mitt system.

Er det noen som vet om en løsning som faktisk er i stand til dette uten at en eller annen dude i skya skal forsøke å finne ut hva jeg mener?

Endret 12. oktober 2018 av Odd

Moskus · 12. oktober 2018

HomeSeer selv har "Speaker Client" som du kan bruke. Helt uten at noe som helst blir sendt til noe annet enn din egen server. Tolkningen blir gjort av Windows, men det er den innebygde (gamle) måten å gjøre det på, og den er offline.

Det finnes vel også noen RPi-prosjekter som kan brukes, men jeg husker ikke navnet på noen av dem...

Odd · 12. oktober 2018

1 minutt siden, Moskus skrev:

HomeSeer selv har "Speaker Client" som du kan bruke. Helt uten at noe som helst blir sendt til noe annet enn din egen server. Tolkningen blir gjort av Windows, men det er den innebygde (gamle) måten å gjøre det på, og den er offline.

Det finnes vel også noen RPi-prosjekter som kan brukes, men jeg husker ikke navnet på noen av dem...

Så det eneste jeg trenger er noen gode blåtann mikrofoner/høyttaler?
Alternativt benytte en analog inngang? (Jeg trenger ikke å få "Jarvis" til å fortelle meg at lyset blir dimmet, det ser jeg forhåpentligvis)
Er det noen eksempler her?

Moskus · 12. oktober 2018

1 time siden, Odd skrev:

Så det eneste jeg trenger er noen gode blåtann mikrofoner/høyttaler?

Du trenger iallfall en Windows-sak som du kobler til en mikrofon og høyttaler til.

1 time siden, Odd skrev:

Er det noen eksempler her?

Det finnes sikkert masse på nettet.

Kanskje et sted å begynne: http://help.homeseer.com/help/HS3/static/#.text_to_speech

Odd · 15. oktober 2018

På ‎12‎.‎10‎.‎2018 den 15.33, Moskus skrev:

Du trenger iallfall en Windows-sak som du kobler til en mikrofon og høyttaler til.

Det finnes sikkert masse på nettet.

Kanskje et sted å begynne: http://help.homeseer.com/help/HS3/static/#.text_to_speech

Jeg har lest litt .. dette er stemme gjenkjennings teknologi enten fra Amazon eller MIcrosoft.
Amazon er mer eller mindre en skybasert tjeneste, mens Microsoft er for dårlig.
Begge forutsetter at du snakker engelsk og de forsøker å tolke i stedet for å gjenkjenne.
Det er en stor forskjell i det. Når du tolker forsøker du å forstå hva som helst som en person sier, mens når du gjenkjenner så leter du etter en lyd som ligner.

Det siste er mye enklere og er ikke bundet til språk. Så slik jeg ser det så vil ikke noen av disse løsningene gjøre det jeg ønsker å få til.

Jeg vil ta opp lyden som skal trigge en kommando. Så skal systemet gjenkjenne lyden og utføre kommandoen.
Mulig jeg misforstår noe her og er åpen for korrigeringer

Moskus · 15. oktober 2018

2 timer siden, Odd skrev:

Jeg vil ta opp lyden som skal trigge en kommando. Så skal systemet gjenkjenne lyden og utføre kommandoen.

Lykke til med det.

Grunnen til at de forsøker å tolke hva du faktisk sier, er at man da fjerner variabler som amplitude, frekvensspekter (f.eks. vrenging, eller at man ikke sier ting i nøyaktig samme tonefall), tidsforskyvninger og klang i rommet. Effekter som disse gjør at "pattern-match" blir vanskelig å sette opp.

Det er derfor det legges enorme ressurser i AIer for å tolke input-signalet istedenfor at man gjør bibliotekoppslag.

Jeg skal ikke si at slike prosjekter ikke finnes, det gjørd det sikkert. Men jeg vet ikke om noen som er i stand til å gjøre det du vil.

Odd · 16. oktober 2018

På ‎15‎.‎10‎.‎2018 den 12.54, Moskus skrev:

Lykke til med det.

Grunnen til at de forsøker å tolke hva du faktisk sier, er at man da fjerner variabler som amplitude, frekvensspekter (f.eks. vrenging, eller at man ikke sier ting i nøyaktig samme tonefall), tidsforskyvninger og klang i rommet. Effekter som disse gjør at "pattern-match" blir vanskelig å sette opp.

Det er derfor det legges enorme ressurser i AIer for å tolke input-signalet istedenfor at man gjør bibliotekoppslag.

Jeg skal ikke si at slike prosjekter ikke finnes, det gjørd det sikkert. Men jeg vet ikke om noen som er i stand til å gjøre det du vil.

Nei. litt nedtur da når det faktisk fantes en løsning som fungerte på 90 tallet.

Moskus · 17. oktober 2018

18 timer siden, Odd skrev:

Nei. litt nedtur da når det faktisk fantes en løsning som fungerte på 90 tallet.

Ja, og den løsningen kan du fortsatt bruke med Speaker klienten.

Logg inn

Lokal stemmestyring

Anbefalte innlegg

Odd

Moskus

Odd

Moskus

Odd

Moskus

Odd

Moskus

Bli med i samtalen

Artikler

Forum

Mine aktivitetsstrømmer

Ressurser

Om oss

Viktig informasjon