Gå til innhold
  • Bli medlem
Støtt hjemmeautomasjon.no!

Anbefalte innlegg

Skrevet (endret)

Jeg liker ikke at Google sender meg et tilbud om Nyco når jeg fiser … så jeg vil prosessere kommandoer lokalt på egen server.
Jeg har klart å bygge all HA i leiligheten uten innblanding fra en skytjeneste og det akter jeg å fortsette med.

Det jeg ikke forstår er hvorfor skal prosesseringen være så smart at den skjønner alle verdens språk?
Jeg har sjelden besøk av kinesere så den trenger kun å kjenne igjen de kommandoene jeg har lært den, og dette er sakens kjerne.

Jeg vil selv lære den opp ved å spille inn "dim lys" og trigge kommandoen som skal dimme lyset med innlært lyd.

Det som forbauser meg er at denne måten å tenke har vært i bruk tidligere og ser ut til å blitt glemt.

Jeg hadde en Creative Lab Soundblaser 2 på begynnelsen av 1990 tallet som hadde programvare som gjorde nettopp dette.

Mener den het "Voice Assist" og virket forbausende bra. Litt rart å tenke på i og med at det var i forrige århundre.
For de som plutselig begynner å mimre så ja i samme programpakke lå "Text Assist" og "Talking Parrot". sistnevnte var faktisk ganske morsom.

 

Så hvorfor skal en ha et system som skal forsøke å forstå alt du sier på alle språk, når det eneste jeg trenger er at den forstår hva jeg vil, og det er faktisk temmelig begrenset i mitt system.

Er det noen som vet om en løsning som faktisk er i stand til dette uten at en eller annen dude i skya skal forsøke å finne ut hva jeg mener?

Endret av Odd
Skrevet

HomeSeer selv har "Speaker Client" som du kan bruke. Helt uten at noe som helst blir sendt til noe annet enn din egen server. Tolkningen blir gjort av Windows, men det er den innebygde (gamle) måten å gjøre det på, og den er offline.

 

Det finnes vel også noen RPi-prosjekter som kan brukes, men jeg husker ikke navnet på noen av dem...

Skrevet
1 minutt siden, Moskus skrev:

HomeSeer selv har "Speaker Client" som du kan bruke. Helt uten at noe som helst blir sendt til noe annet enn din egen server. Tolkningen blir gjort av Windows, men det er den innebygde (gamle) måten å gjøre det på, og den er offline.

 

Det finnes vel også noen RPi-prosjekter som kan brukes, men jeg husker ikke navnet på noen av dem...

 

Så det eneste jeg trenger er noen gode blåtann mikrofoner/høyttaler?
Alternativt benytte en analog inngang? (Jeg trenger ikke å få "Jarvis" til å fortelle meg at lyset blir dimmet, det ser jeg forhåpentligvis)
Er det noen eksempler her?

Skrevet
På ‎12‎.‎10‎.‎2018 den 15.33, Moskus skrev:

Du trenger iallfall en Windows-sak som du kobler til en mikrofon og høyttaler til. :)

 

Det finnes sikkert masse på nettet. ;) 

 

Kanskje et sted å begynne: http://help.homeseer.com/help/HS3/static/#.text_to_speech

 

Jeg har lest litt .. dette er stemme gjenkjennings teknologi enten fra Amazon eller MIcrosoft.
Amazon er mer eller mindre en skybasert tjeneste, mens Microsoft er for dårlig.
Begge forutsetter at du snakker engelsk og de forsøker å tolke i stedet for å gjenkjenne.
Det er en stor forskjell i det. Når du tolker forsøker du å forstå hva som helst som en person sier, mens når du gjenkjenner så leter du etter en lyd som ligner.

Det siste er mye enklere og er ikke bundet til språk. Så slik jeg ser det så vil ikke noen av disse løsningene gjøre det jeg ønsker å få til.

Jeg vil ta opp lyden som skal trigge en kommando. Så skal systemet gjenkjenne lyden og utføre kommandoen.
Mulig jeg misforstår noe her og er åpen for korrigeringer :)

Skrevet
2 timer siden, Odd skrev:

Jeg vil ta opp lyden som skal trigge en kommando. Så skal systemet gjenkjenne lyden og utføre kommandoen.

Lykke til med det. ;) 

 

Grunnen til at de forsøker å tolke hva du faktisk sier, er at man da fjerner variabler som amplitude, frekvensspekter (f.eks. vrenging, eller at man ikke sier ting i nøyaktig samme tonefall), tidsforskyvninger og klang i rommet. Effekter som disse gjør at "pattern-match" blir vanskelig å sette opp.

 

Det er derfor det legges enorme ressurser i AIer for å tolke input-signalet istedenfor at man gjør bibliotekoppslag.

 

 

Jeg skal ikke si at slike prosjekter ikke finnes, det gjørd det sikkert. Men jeg vet ikke om noen som er i stand til å gjøre det du vil.

Skrevet
På ‎15‎.‎10‎.‎2018 den 12.54, Moskus skrev:

Lykke til med det. ;) 

 

Grunnen til at de forsøker å tolke hva du faktisk sier, er at man da fjerner variabler som amplitude, frekvensspekter (f.eks. vrenging, eller at man ikke sier ting i nøyaktig samme tonefall), tidsforskyvninger og klang i rommet. Effekter som disse gjør at "pattern-match" blir vanskelig å sette opp.

 

Det er derfor det legges enorme ressurser i AIer for å tolke input-signalet istedenfor at man gjør bibliotekoppslag.

 

 

Jeg skal ikke si at slike prosjekter ikke finnes, det gjørd det sikkert. Men jeg vet ikke om noen som er i stand til å gjøre det du vil.

 

:)  Nei. litt nedtur da når det faktisk fantes en løsning som fungerte på 90 tallet.

Skrevet
18 timer siden, Odd skrev:

Nei. litt nedtur da når det faktisk fantes en løsning som fungerte på 90 tallet.

Ja, og den løsningen kan du fortsatt bruke med Speaker klienten. :)

Bli med i samtalen

Du kan publisere innhold nå og registrere deg senere. Hvis du har en konto, logg inn nå for å poste med kontoen din.

Gjest
Skriv svar til emnet...

×   Du har limt inn tekst med formatering.   Lim inn uten formatering i stedet

  Du kan kun bruke opp til 75 smilefjes.

×   Lenken din har blitt bygget inn på siden automatisk.   Vis som en ordinær lenke i stedet

×   Tidligere tekst har blitt gjenopprettet.   Tøm tekstverktøy

×   Du kan ikke lime inn bilder direkte. Last opp eller legg inn bilder fra URL.

×
×
  • Opprett ny...

Viktig informasjon

Vi har plassert informasjonskapsler/cookies på din enhet for å gjøre denne siden bedre. Du kan justere dine innstillinger for informasjonskapsler, ellers vil vi anta at dette er ok for deg.