Sisällysluettelo:
- Kuinka syvä oppiminen tuottaa ihmisen ääniä
- Äänettömän henkilön äänen uudelleen luominen
- AI-syntetisaattorien negatiivisten käyttötapojen tasapainotus
Video: (2018) Starters Guide to SCP Secret Laboratory (Marraskuu 2024)
Vuonna 2017 myötätuntoinen lateraaliskleroosi (ALS), tuhoisa neurologinen häiriö, ryösti kuuluisan Ice Bucket Challengen perustajan Pat Quinnin kyvystään puhua.
Koneoppimisen ja syvällisen oppimisen ansiosta tekoälyn algoritmeista on tullut erittäin hyviä jäljittelemään ihmisiä. Mutta vaikka monet näkyvät kehitykset avaruudessa ovat olleet negatiivisia, AI: n jäljitelmävoima oli positiivisen muutoksen voima Quinnille.
"Suurin osa ALS: n (tunnetaan myös moottorihermosairauksina) elävistä ihmisistä joutuu halvaantuneisiin eikä pysty kommunikoimaan muun kuin keinotekoisten" tietokoneäänien "kanssa", sanoo Oskar Westerdal, Project Revoice -hankkeen perustaja, aloite, jonka tarkoituksena on auttaa ALS-potilaita kuten Quinn..
Quinnin äänen luomiseksi Project Revoice teki yhteistyötä Lyrebirdin kanssa, joka on yksi harvoista yrityksistä, jotka käyttävät AI: tä ihmisen äänen kloonaamiseen - ryhmään, johon kuuluu myös Googlen WaveNet ja Voicery, Y-yhdistelmän tukema startup, joka käyttää AI: tä syntetisoitujen äänitallenteiden luomiseen..
Kuinka syvä oppiminen tuottaa ihmisen ääniä
Näiden sovellusten takana ovat syväoppimisalgoritmit, suosittu AI-haara, joka tutkii suuria tietoryhmiä oivalluksille ja malleille, joita ei voi vangita perinteisillä, sääntöpohjaisilla ohjelmistoilla. Kun koulutat syvän oppimisen äänisyntetisaattorin, jolla on tarpeeksi äänitallenteita, se luo digitaalisen mallin, joka edustaa henkilön ääntä ja voi tuottaa uusia ääninäytteitä.
Ennen AI-pohjaisen äänisynteesitekniikan syntymistä ALS-potilaiden oli käytettävä geneerisiä digitaalisia ääniä, jotka eivät olleet omia. Muut tekniikat voisivat yhdistää valmiiksi tallennetut lauseet potilaan äänen kanssa, mutta tulokset olivat liian keinotekoisia ja vaativat kymmenien tuntien äänitallenteiden käyttämisen minimaalisesti.
Toisaalta syvän oppimisen sovellukset vaativat paljon vähemmän tietoa ja tarjoavat parempia tuloksia. "Se, mitä Lyrebird voi saavuttaa vain parin tunnin äänellä, on huomattavaa - se antaa ihmisille täydellisen digitaalisen äänikloonin, jotta he voivat sanoa mitä haluavat", Westerdal sanoo.
Äänettömän henkilön äänen uudelleen luominen
Yksi syvän oppimisen sovellusten rajoituksista on heidän riippuvuus korkealaatuisista tietonäytteistä hermoverkkojensa kouluttamiseksi. ALS-potilaiden ongelmana on, että kun he menettävät äänensä, ääninäytteiden tallentaminen on mahdotonta. Onneksi Quinnilla oli useita tunteja nauhoitettuja avainsanoja ja haastatteluja.
"Suurin haaste oli laatu. Tämä tekniikka on täysin riippuvainen jatkuvista, korkealaatuisista nauhoituksista, jotka seuraavat myös tarkkaa käsikirjoitusta - joten meidän piti työskennellä äänistudion kanssa" remasteroida "manuaalisesti ja transkriboida jokainen vuoropuhelun rivi, jonka löysimme. Patista ", Westerdal sanoo.
"Olimme hieman peloissamme, että emme pysty tarjoamaan erinomaista laatua luoda Pat: n ääni", sanoo Lyrebirdin perustaja Jose Sotelo. "Koska emme saaneet puhtaita äänityksiä, keinotekoisen äänen lopullinen laatu ei ole täydellinen. Uskomme, että voimme tehdä paljon paremman työn puhtailla äänityksillä."
Tulokset kuulostavat silti hiukan luonnotonta ja synteettistä. Mutta Quinnilla, joka oli käyttänyt yleistä ääntä kommunikointiin, ero oli dramaattinen. "Kuultuaani ääneni tämän uuden tekniikan kautta, puhallin pois. Potilaiden tietäessä, että heillä voi olla oma ääni sen jälkeen, kun ALS vie sen pois, se muuttaa tapaa, jolla ihmiset elävät ALS: n kanssa", hän sanoo.
Quinn suosittelee, että ALS-potilaat äänittävät äänensä ennen kuin on liian myöhäistä. "Kuultuaani oman ääneni uudelleen, tarvitsen ALS-potilaita tietämään äänensä äänittäminen on uskomattoman tärkeää", hän sanoo.
AI-syntetisaattorien negatiivisten käyttötapojen tasapainotus
Aikaisemmin tänä vuonna FakeApp, AI-käyttöinen kasvojenvaihto-sovellus, laukaisi väärennettyjen pornografisten videoiden hyökkäyksen, joka sisälsi kuuluisuuksia ja poliitikkoja. On huolestuttavaa, että FakeAppin ja Lyrebirdin kaltaiset sovellukset tuovat markkinoille väärentämisen, petosten ja väärentämisen uuden aikakauden.
Lyrebirdin verkkosivuston eettisivulla tunnustettiin aiemmin, että tekniikalla voi olla "mahdollisesti vaarallisia seurauksia, kuten diplomaattien harhaanjohtaminen, petokset ja yleisesti kaikki muut ongelmat, jotka johtuvat jonkun toisen henkilöllisyyden varastamisesta".
Pisteen ajamiseksi yrityksen verkkosivustolla on useita syntetisoituja nauhoituksia, jotka on luotu Donald Trumpin ja Barack Obaman äänillä.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4. syyskuuta 2017
Quinnin tarina saattaa auttaa valaisemaan positiivisia näkökohtia teollisuudelle, joka on ottanut flakin sovellustensa mahdollisesti kammottaviksi ja epäeettisiin tarkoituksiin. "On tärkeää, että ihmiset ymmärtävät tämän tekniikan valoisat puolet", Lyrebird's Sotelo muistuttaa.
Lääketieteellisen käytön lisäksi AI-syntetisaattorisovellukset voivat palvella muita tuottavia tavoitteita. Voicery tarjoaa tuotemerkeille räätälöityjä digitalisoituja ääniä, jotka toimivat AI-algoritmeilla. Google kokeilee myös WaveNetia tarjotakseen luonnollisemman kokemuksen Google Assistant -käyttöisten laitteiden käyttäjille. Muita aloja, joilla tekniikka on hyödyllistä, ovat äänikirjojen automatisointi tai äänen kopioinnin helpottaminen elokuvissa.
Eettisiä ja juridisia esteitä ei epäilemättä esiinny ja keskusteluja jatketaan. Mutta Quinnille AI on voiman hyvä. "En halua kuulostaa tietokoneelta", hän sanoo. "Haluan kuulostaa minulta."