Сокоизтисквачка за информация

Ник Д'Алойсио, 16-годишен разработчик на приложения за iOS от Лондон, изглежда спокоен и уверен. Той говори за своята компания, Summly Limited, с професионално звучащото "ние" - независимо от факта, че на практика е шеф единствено на самия себе си.

Въпреки че е изненадващо зрял за тийнейджър, осезаемото вълнение в гласа му разкрива неговата младост и подсказва, че това не е поредният предприемач от Силиконовата долина.

Д'Алойсио наскоро представи най-новия си продукт - Summly. Приложението използва сложни алгоритми, за да обобщава съдържанието в мрежата под формата на лесно управляеми булети и списъци с ключови изрази, които могат да бъдат споделяни.

Как огромните обеми информация онлайн да бъдат сбити в кратък и ясен текст

"Не възприемаме обикновения подход към обобщаването," обяснява той. Под "обикновен", Д'Алойсио  има предвид обобщаването по ключови думи, което масово се използва в други продукти. Например, когато търсим в Google "обобщение по ключови думи", получаваме повече от 262 милиона резултата.

Summly използва по-абстрактен метод, в основата на който стои специален алгоритъм, извличащ текста от уеб страници, използвайки HTML обработка. Приложението анализира текста и връща избрани и съкратени части от него като подточки с булети. Алгоритъмът на Summly постига това, като използва редица техники за машинно запаметяване и "генетични" алгоритми - евристични методи на търсене, които имитират еволюцията.

Д'Алойсио е разработил окончателната технология, като първоначално се е възползвал от система за обучение: неговият метод е разглеждал писани от хора обобщения на материали от различни типове и от различни издания. След това, той използвал тези обобщения като модели за това какво Summly трябва да извлича като информация и как да промени собствените си метрики, за да имитира по-добре работата на информационните куратори "от плът и кръв".

Приложението се справя не само с общи теми, но и със специфични "терминологични" области

Summly преглежда и темите на заглавните страници на уебсайтовете, така че индивидуални материали могат да бъдат класифицирани като отнасящи се за бизнес, технологии, спортове и т.н. По този начин алгоритъмът обобщава различните текстове по-прецизно.

Д'Алойсио вярва, че дългите списъци с хиперлинкове, които ви отвеждат директно към сайтове, пълни със съдържание, са били подходящи за Google в по-ранните дни на Интернет, но нещата вече са се променили.

"Хиперлинковете вече не са ефективни. Те са причината за пресищането с информация," твърди той. Той открива тази особеност на хиперлинковете, когато започва да използва Twitter преди няколко месеца. 
"Опитвах се да изуча URL-ите и открих, че отварям твърде много линкове, а свързването на данните беше бавно," обяснява Д'Алойсио. "Помислих си, че трябва да има услуга, която позволява на потребителите да достигат до съдържанието на даден уебсайт бързо и лесно". Ето как се ражда и идеята за Summly. 

Дали Summly няма да се превърне в любим инструмент на учениците и студентите?

Summly  разполага и с други предимства освен да обобщава съдържанието, до което имаме достъп през телефона си. Неговата концепция наподобява тази на CliffsNotes, но за мрежата. И действително, Д'Алойсио вижда своето приложение като особено полезно за децата, които търсят информация за някоя домашна работа, както и за търсенето в Интернет като цяло. "Мисля, че хората наистина се нуждаят от това в телефоните си, особено когато не разполагат с много време," допълва 16-годишният разработчик.

Когато търсите дадена тема, използвайки приложението, то комбинира резултатите от различни търсачки, така че резултатите от това търсене не съвпадат с тези от Google или дори Bing. Освен това, обичайните резултати като статиите от Wikipedia и определенията в речници не се показват в списъка - като цяло търсенето е ограничено предимно до актуални новини или статии, свързани с темата, която търсим.

В допълнение, можете просто да напишете даден URL адрес, ако искате програмата да изведе най-важното за вас от дълъг или пък твърде подробен тект.

Д'Алойсио разкрива, че Summly работи оптимално с добре формулирани статии, които разполагат с логически правилна структура. Това дава възможност на алгоритъма да научи кое е важното - и къде да открие тази информация по-лесно.

Техническите статии и новини се обработват чудесно от алгоритъма на Summly, както и добре организираното съдържание от New York Times и BBC. Приложението не се справя особено добре с повествователни текстове, написани в трето лице, но Д'Алойсио уверява, че все пак няма област, която сериозно да затруднява неговия алгоритъм. 

Любопитното е, че технологията работи не само на английски

Тъй като Summly е езиково-независима програма, чуждите езици не затрудняват нейното функциониране. Понастоящем приложението е оптимизирано за 12 различни езика (предимно с латински произход), но към този списък скоро ще бъде добавен и китайският език, тъй като Summly получи подкрепа от инвеститора-милиардер от Хонг Конг Ли Ка Шин. За поддръжка на кирилица за момента липсват сведения, но не се съмняваме, че и това ще се появи в обозримо бъдеще - заедно с руските инвеститори.

В независимо проведени тестове от изследователите в Института по технологии в Масачузетс, обобщенията от очакващия патентоване алгоритъм на Д'Алойсио се оказали с 30% по-добри от други съществуващи алгоритми.

Д'Алойсио споделя, че за постигането на този резултат, учените се използвали набор от стари документи и статии, след което са сравнили качеството на обобщението от Summly с обобщения, направени от хора-специалисти. По този начин те са извлекли оценката за прецизност на алгоритъма, която впоследствие била сравнена с оценките на други алгоритми.

#1 Uti 19.12.2011 в 12:35:46

Какво изведнъж се завъртя този пубертет из интернета и всички го заливат със слава, все есно е открил барута. Дициплината се казва Automatic Summarization, съществува от поне 20 години и е много активна. http://en.wikipedia.org/wiki/Automatic_summarization Поредният балон!

#2 dedogo6 19.12.2011 в 13:04:28

Балон, балон, ама приложението е предимно за iOS , а както знаем, в apple store всичко се плаща... , сметай колко пари ще направи малкия пикльо.. , в този бизнес е така.Малко реклама (безплатна ) в някой блог или някоя статия, и 5 милиона ще дръпнап приложението, само за да го пробват, а после и да не го харесват, няма да го споделят ("няма само аз да съм прее*ан") и пак ще са изкарани едни 50 милиона долара...

#3 fALLEN 19.12.2011 в 13:23:29

пичове, интересно що не направите и вие по един такъв балон, че да забогатеете, барем спрете да гледате все в чуждата паница и на ривьетге по цел ден по форуми. българите верно си имаме завистта за национален спорт... ново, старо, балон, небалон, така или иначе всичко ново в добре забравено старо. браво на момчето!

#4 Uti 19.12.2011 в 14:14:33

Точно това правим бро, и то в същата сфера. Затова си позволявам да понахраня малко когато изведнъж се заговори за сложни алгоритми и черна магия. Никой не ти казва как става, никъде няма обективна оценка на ефикасността. http://en.wikipedia.org/wiki/Automatic_summarization#Evaluation Казват, че някой от МИТ го бил оценил. Кой? Къде е статията? Защо не казват повече? Не храня пубертета. Браво на него! Когато аз бях на 16 само мадами ми бяха в главата. Храня тези които му дават слава без тя да е основана. Маркетинг и ПР отвсякъде....

#5 fALLEN 19.12.2011 в 15:29:10

ами то всичко е свързано бе пич. ти правиш нещо в същата сфера, ама не си си напънал гъзъ и не си направил нещо сам, щото е по-трудно и щото е по-рисково. и най-вече щото е по-лесно да се мрънкя и да се гледа в паницата на другия. няма черни магии, бе пич, нещо не си загрял явно. има продукт, който върши някаква работа, явно я върши добре. виж, че се предлага безплатно. погледни оценките и олко пъти е сваляно, лесни са тия неща, особено за некой с твоите претенции. е явно хлапето е и гениален пр, или може би ще намесиш световната конспирация сега? която е насочена лично срещу тебе и не ти е дала поле за изява, да можеш и ти некой боклук да шитнеш? да станеш и ти на мама милионерчето... ц,ц,ц,ц кви таланти бродят недооценени...

#6 fALLEN 19.12.2011 в 15:35:06

ето ти една безплатна идея от мене - напиши същото за андроид, добави некоя и друга екстра, явно си доста навътре точно в тая област. и на първия милион да не забравиш да черпиш! но побързай, че има хора дето не спят и не мрънкят по цел ден и току некой те изпреварил. после прояви и същия пр талант и те ти го милиона. виж колко е лесно!

#7 deowin 19.12.2011 в 17:10:31

>както знаем, в apple store всичко се плаща Прав си, за всичко се плаща.. освен за безплатните приложения като summly. >Казват, че някой от МИТ го бил оценил. Кой? Къде е статията? Защо не казват повече? http://lmgtfy.com/?q=summly+mit Моля, пак заповядай. Хлапе на 16 пише сложни ИИ алгоритми, как точно това не е достойно за похвала? Вие на 16 какво точно правехте?

#8 Uti 19.12.2011 в 17:55:50

Бахти и злобата не е истина. Кво си става бе хора? No comment. А за другия, мерси много че ми показа Гугъла! Не го знаех... Под "статия" имах предвид "статията с резултатите от оценяването" а не "произволна глупост написана някъде в интернет" Пример: http://eprints.pascal-network.org/archive/00001070/01/1031.pdf където в точка 4.2 агента описва подробно как оценява системата си. Това което (ако е вярно) тези от МИТ са направили!

#9 fALLEN 19.12.2011 в 18:00:49

имам чуството, че ти повче искаш да докажеш, че въпросното хлапе и неговия продукт не струват, отколко да се замислиш малко повече. дори и да няма въпросна статия, това какво точно променя? всяка програма в апстор или гугъл маркет върви със статии в научни списания и доказване на ефективността и?

#10 fALLEN 19.12.2011 в 18:06:59

няма злоба, поне при мене, просто ми е писнало да се мрънкя, или да се говори срещу нещо, без дори да кажеш, какво точно имаш предвид. да те цитирам ли, грубо - "тва лайно кво ми го размотават навсякъде по нетя, сега едни няколко милиона балъка ще му дръпнат програмата, дето е пълен шит, и язе съм у тая облас и ви каам че не мой бъде, от искъро по-дълбоко нема, и малкото лайно ще стане милионер. вместо язе примерно, нищо че от години и аз съм у тая облас"...

#11 Uti 19.12.2011 в 18:19:45

Казах вече по-долу, че се възхищавам на хлапето, браво че се занимава. Не всички апликации имат нужда от доказване на ефикасността си, но когато става дума за нещо такова, работещо с език и неструктурирани данни, където е изключително трудно да определиш ефикасността само от примери, е редно да има сериозна оценка. И най-вече казват, че е имало. Нека я видим, по дяволите. Това което ме вбесява е че когато медиите набарат (пардон получат) някаква такава история, я пръскат все едно е някаква супер-новост. Подобно, когато има потенциал за правене на пари, се включват маркетинг агентитите и ти продават баси глупостите. Пример са всички корпоративно-насочени пръдни за оценка на мнението. Да ти кажат дали хората са добре или зле настроени спрямо твоя продукт след анализ на блогове. Звучи лесно, но хич не е. В момента ръководя един студент който това разработва за магистратурата си и се натъкваме на отявлените мизерии и подвеждащи лъжливи описания. Продават ти "интелигентни алгоритми които разбират езика" а като се позаинтересоваш и пробваш програмата излиза че брои емотки.... Явно тука не е чак толкова отявлено, но все пак Деба, виде се като се прибере жената ще го пробвам това с айфона ѝ.

#12 Uti 19.12.2011 в 18:21:52

Погрешно си ме разбрал, или поне мотивацията и. Дреме ми за малкия, дано стане милионер. А пък мен не ме мисли. Имам си проект, финансиране и идея и те са ми предостатъчни... ;)

#13 fALLEN 19.12.2011 в 18:32:30

искаш да кажеш, че се интересуваш от научна/професионална гледна точка? ееее, бате, сбъркал си мястото. журналистите, както и на тебе ти е известно, особено пък в бг, са едни от най-тъпите хора. айде, пийс, нема да се гъбаркам повече...

#14 Uti 19.12.2011 в 18:40:52

"ееее, бате, сбъркал си мястото" Съгласен! пийс и на теб!

#15 fALLEN 19.12.2011 в 18:50:59

ути, според мене нещата са по-прости, отколкото ти си ги представяш, или отколкото са представени в тая статия. аз говори принципно за друго нещо. айде като тестваш, ще каже, мисля, че хайпа отново е твърде голям. но това е друга тема...

Новините

Най-четените