A Siri technológiai folyamata

A hétköznapi használatban tudjuk, hogy ha megszólítjuk Siri-t, akkor készségesen segít nekünk. De hogyan képes erre? Miként tanul nap mint nap? Ilyen és hasonló kérdésekre kaphatunk választ az Apple online folyóiratában közzétett cikkből, melyben a gépi tanulás folyamatát mutatják be a Siri funkcióján keresztül.

Siri egész nap egy kis hangfelismerő alkalmazás segítségével várakozik, hogy meghallja azt a két varázslatos szót tőlünk: „Hey, Siri”. Ezután a Siri egy úgynevezett Deep Neural Network (DNN) segítségével konvertálja a hang akusztikus mintáit.  A Siri gombnyomás nélkül aktiváló képességét több, egyre magasabb szintű jelfeldolgozási és gépi tanulási lépés realizálja. Aktivizálás esetén a készülék mikrofonja folyamatosan hegyezi a fülét, másodpercenként 16 000-es mintavételezési sebességgel. Ezeket a mintákat egy következő lépés század másodpercenkénti időablakokra osztja, majd ezeknek egyenként kalkulálja a spektrumát, azaz a frekvencia összetételét. Az algoritmusoknak a nagy többsége a privát VoiceTrigger framework-ben helyezkedik el.

Körülbelül 0.2 másodpercnyi hanganyagból, azaz 20 ilyen ablak spektrumából kinyert információ közeledik a következő fázishoz. Ez alkotja valójában az akusztikus modellt, amely a spektrumadatokat kategóriákba sorolja. Ez egy valószínűségi eloszlást generál – azaz eldönti, hogy a hangrészlet milyen eséllyel része a “Hey, Siri!” frázisnak, vagy milyen valószínűséggel jelent csöndet, esetleg másfajta beszédet. Ezt követően lehet egy értékelést, pontszámot számolni, ami alapján eldönthető, hogy aktiválható-e a virtuális asszisztens.

A fejlesztők azt is kifejtették, hogyan esett a választás épp a “Hey, Siri!” felszólításra. Még azelőtt, hogy ez a lehetőség létezett volna, az emberek egy kis hányada eleve így kezdte a Siri-hez intézett kérdéseit, miután gombnyomással aktiválta az asszisztenst. Ezeket az Apple összegyűjtötte, és felhasználta az akusztikus modellt alkotó neurális hálózat tanítására. Később ezt terjesztették ki, például általánosabb beszédmodellekkel, vagy a két szó között rövid szünetet tartalmazó mintákon való tanítással.

 

Forrás:

machinelearning.apple.com/

imore.com/

en.wikipedia.org/

1097 Total Views 1 Views Today
Share on FacebookTweet about this on TwitterShare on Google+

hozzászólás