Да, изкуственият интелект може да бъде расист

Отворете приложението за снимки на телефона си и потърсете "dog" и ще се появят всички снимки на кучета, които имате. Задачата не е лесна, но телефонът ви знае как "изглеждат" кучетата.

Това съвременно чудо е резултат от машинно обучение, форма на изкуствен интелект. Програми като тази анализират милиони набори от данни и правят корелации и прогнози за света. Привлекателността на тези алгоритми е огромна: машините могат да използват чисти, сурови данни, за да вземат решения, които понякога са по-точни от тези на хората.

Машинното обучение обаче си има и своята тъмна страна.

Ако не се използва правилно, то може да взема решения, които задълбочават расовите предразсъдъци, вече съществуващи в обществото. И това не е защото компютрите са расисти. Това се случва, защото те се учат като анализират света такъв, какъвто е, а не какъвто би трябвало да бъде.

Наскоро, новоизбраният демократ в Камарата на представителите Александра Окасио-Кортес отстоя тази теза в дискусия на събитие, посветено на деня на Мартин Лутър Кинг в Ню Йорк.

Алгоритмите все така се създават от хора и тези алгоритми все така се опират на базови човешки общоразпространени мнения и предпоставки, каза тя пред писателя Та-Нехиси Коутс на ежегодното събитие MLK Now. Това просто са автоматизирани предпоставки. Ако не се преодолеят предразсъдъците, се автоматизират предразсъдъците, допълни тя.

На следващия ден сайтът Daily Wire се подигра на това й изказване. Но Окасио-Кортес е права и си заслужава да помислим защо.

Ако не внимаваме, ИИ ще поддържа и задълбочава предразсъдъците и предубежденията по света. Компютрите научават как да бъдат расисти, сексисти и предубедени по сходен начин на начина, по който учат децата, както споделя в интервю експертът по информатика Айлин Калискан, сега работеща в университета "Джордж Вашингтон". Компютрите се учат от своите създатели - от нас.

Много хора си мислят, че машините не могат да бъдат предубедени, коментира Калискан, която към момента на интервюто е била в Принстън. Но машините се обучават върху човешки данни, а хората имат предразсъдъци.

Смятаме, че изкуственият интелект е безпристрастен и непредубеден. Реалността обаче е, че твърде често той не е.

Почти всички нови потребителски технологии използват под някаква форма машинно обучение. Да вземем например Google Translate: никой не е инструктирал софтуера да учи как да превежда от гръцки на френски и после на английски. Алгоритъмът е преровил и анализирал огромни количества текст и се е учил сам.

В други случаи програмите за машинно обучение правят прогнози кои автобиографии е по-вероятно да осигурят успешни кандидати за работа или как пациент би реагирал на конкретно лекарство.

Машинното обучение е програма, която преравя без милиарди единици данни, за да решава определени задачи (от рода на "можеш ли да идентифицираш животното на снимката"), но тя невинаги ясно разкрива как е решила задачата. И става все по-очевидно, че тези програми могат да проявяват и развиват тенденциозност, предразсъдъци и стереотипи, без ние да забелязваме това.

През 2016-а ProPublica публикува разследване за програма за машинно обучение, която съдилищата използват, за да прогнозират кой е по-вероятно да извърши друго престъпление, след като бъде арестуван. Репортерите установиха, че софтуерът определя цветнокожите като по-рискова група от белите.

Такива оценки, известни като "оценка на риска", са все по-разпространени в съдилищата в страната, обяснява ProPublica. Те се използват за вземане на решения кой може да бъде освободен във всяка фаза на системата на наказателно правосъдие, от определяне на сумата за гаранция до още по-фундаментални решения за свободата на обвиняемите.

Програмата се е обучавала за това кой е по-вероятно отново да се окаже в затвора на база реални данни за хората в затворите. В исторически план, реалната система на наказателно правосъдие е била доста несправедлива към чернокожите американци.

Това разкрива дълбока ирония по отношение на машинното обучение.

Привлекателността на тези системи е, че те могат да вземат безпристрастни решения, лишени от човешка тенденциозност. Ако компютрите можеха точно да предскажат кои обвиняеми е вероятно да извършат нови престъпления, системата на правосъдието би била по-справедлива и селективна по отношение на това кого хвърля в затвора и за колко дълго време, коментират от ProPublica.

Но това, което се е случило, е че програмите за машинно обучение повтарят нашите предразсъдъци в още по-големи мащаби. Така че вместо съдия, която е предубеден по отношение на афроамериканците, сега вече имаме предубеден робот.

Други случаи са по-противоречиви. В Китай учени са съчетали технология за разпознаване на лица с машинно обучени, за да анализират снимки от шофьорски книжки и да прогнозират кой е престъпник. Твърди се, че алгоритъмът е имал точност 89,5%.

Много експерти проявиха огромен скептицизъм към тези резултати. Кои черти на лицето е избирала тази програма за анализа?

Дали това не са физическите черти на определена етническа група, дискриминирана в системата на правосъдието? Дали алгоритъмът търси признаци на тежки социално-икономически условия в ранните години, които да оставят трайни следи върху лицата ни?

Трудно е да се установи. Което е още по-плашещо: има един стартъп, наречен Faception, който твърди, че може да открива терористи и педофили чрез прост анализ на лица.

Имаме алгоритми, които са свръхмощни, но също толкова важно е какъв тип данни се подават към алгоритмите, за да бъдат научени те да правят разлика, коментира в интервю психологът от Принстън и експерт по въпросите на възприемането на лица Александър Тодоров през 2017 г., докато обсъжда спорен доклад за употреба на машинно обучение за определяне на сексуалната ориентация на база лица. Ако подадете боклук към алгоритъма, накрая ще получите също боклук.

Точно публикации като разследването на ProPublica карат Калискан да се заеме с изследването на този проблем.

Като жена в областта на информатиката, която често е била единствената жена на лекциите си в университета, тя е особено чувствителна към този въпрос. Тя е виждала тази тенденциозност да прониква в машинното обучение по често деликатни начини, например в Google Translate.

Турският, един от родните й езици, няма местоимения за пол. Но когато тя използва Google Translate върху турски фрази, винаги се получава "той е лекар" в езици с местоимения за пол, споделя тя. Турското изречение не казва дали лекарят е мъж или жена, но компютърът приема, че ако се говори за лекар, става дума за мъж.

През 2017-а Калискан и нейни колеги публикуваха доклад в сп. Science, според който, когато компютър се самообучава на английски език, той става предубеден по отношение на чернокожите американци и жените.

Учените са използвали разпространена програма за машинно обучение, която да рови в Интернет, да вземе 840 млрд. думи и да се самообучи на дефинициите на тези думи. Програмата постига това като анализира колко често определени думи се появяват в едно и също изречение. Например думата "бутилка". Компютърът започва да разбира какво означава думата като забелязва, че тя по-често присъства наравно с думата "съд" и до думи, които обозначават течности като "вода" или "мляко."

Тази идея роботи да бъдат научени на английски всъщност идва от когнитивните науки и разбирането за това как децата учат езици.

Честотата, с която две думи се появяват заедно, е първият ориентир, който получаваме при разгадаването на значението им. След като компютърът е натрупал по-солиден речник, Калискан го е прокарала през версия на тест за скрити асоциации.

При хората този тест служи за разкриване на умерени предубеждения като анализира колко дълго време е нужно на хората, за да асоциират думи. Човек може бързо да свърже думите "мъж" и "инженер". Но ако човекът се бави при асоциирането на "жена" с "инженер", това е проява на факта, че тези две понятия не са тясно свързани в човешкото съзнание, което загатва за предразсъдъци.

Тук, вместо да разглеждат времето на закъснение в реакцията, Калискан е анализирала колко тясно свързани са според компютъра двете понятия. И тя е установила, че афроамериканските имена в програмата са по-малко свързани с думата "приятен" от белите имена. А женските имена са били по-свързвани с думи, отнасящи се за семейства, отколкото мъжките.

Има известни проблеми с надеждността на тези тестове при хората; по някакъв странен начин тестът е по-подходящ за употреба върху компютърни програми, отколкото при хора, защото хората отговарят непоследователно на въпросите, докато компютърът дава един и същи отговор всеки път.

Подобно на децата, компютърът изгражда речниковия си запас на база това колко често понятията присъстват заедно. В интернет афроамериканските имена е по-вероятно да бъдат заобиколени от думи, изразяващи неприязън. Това не се случва защото афроамериканците са неприятни, а защото хората в интернет казват ужасни неща. И това оставя отпечатък върху младия ИИ.

И това е сериозен проблем.

Все по-често по думите на Калискан рекрутърите разчитат на програми за машинно обучени, за да правят първоначална селекция сред автобиографиите. Ако бъдат оставени без контрол, програмите могат да научат и прилагат стереотипи за половете при вземането на решения.

Да кажем например, че мъж кандидатства за позиция на медицинска сестра; той може да бъде счетен за не толкова подходящ за тази позиция, ако машината сама взема решения, коментира тя.

И същото може да важи за жена, кандидатстваща за позиция на софтуерен разработчик или програмист... Почти всички тези програми не са с отворен код и не можем да видим какво точно се случва. Така че носим голяма отговорност да се опитаме да разберем дали те не са нечестни или тенденциозни.

Това ще е предизвикателство и за в бъдеще. Вече ИИ си пробива път в системата на здравеопазването, като помага на лекарите да намират правилното лечение за пациентите си. Има ранни изследвания дали ИИ може да помага в предвиждането на пристъпи на загуба на психично здраве.

Но здравните данни също са пълни с историческа тенденциозност. Отдавна е известно, че жените си правят операции по-малко, отколкото мъжете. Една от причините е, че жените, като основно грижещи се за семейството, имат по-малко хора, които да се грижат за тях след операция.

Може ли тогава ИИ да препоръчва по-малко операции за жени? Това е нещо, за което също трябва да се следи.

Неизбежно програмите за машинно обучение ще се сблъскат с исторически модели, които отразяват расова или полова тенденциозност. Може да е трудно да се направи разграничението какво е предубеждение и какво просто е реален факт от живота.

Програмите за машинно обучение ще знаят факта, че повечето медицински сестри в миналото са били жени. Те ще знаят и че повечето компютърни програмисти са мъже. Не твърдим, че трябва да се премахва тази информация, казва Калискан. Това би могло напълно да блокира работата на софтуера.

Вместо това Калискан смята, че трябва да има повече предпазни мерки. Хората, които използват тези програми, трябва постоянно да си задават въпроса "Защо получавам тези резултати?" и да проверяват резултата от тези програми за предубеденост и тенденциозност.

Те трябва да обмислят дали данните, които се анализират, не отразяват исторически предразсъдъци. Калискан признава, че най-добрите практики за преодоляване на тенденциозност в ИИ все още се разработват.

Нужна е дългосрочна изследователска стратегия за етици, социолози, психолози и компютърни специалисти, коментира тя.

Но като минимум, хората, които използват тези програми, трябва да са наясно с тези проблеми, и да не приемат за даденост, че компютърът може да получи по-малко тенденциозен резултат от човека.

Като цяло е важно да помним: ИИ учи за света такъв, какъвто е бил. Той възприема тенденциите на статуквото и не знае какъв би трябвало да бъде светът. Това може да се решава единствено от хората.