Ник Д'Алойсио, 16-годишен разработчик на приложения за iOS от Лондон, изглежда спокоен и уверен. Той говори за своята компания, Summly Limited, с професионално звучащото "ние" - независимо от факта, че на практика е шеф единствено на самия себе си.
Въпреки че е изненадващо зрял за тийнейджър, осезаемото вълнение в гласа му разкрива неговата младост и подсказва, че това не е поредният предприемач от Силиконовата долина.
Д'Алойсио наскоро представи най-новия си продукт - Summly. Приложението използва сложни алгоритми, за да обобщава съдържанието в мрежата под формата на лесно управляеми булети и списъци с ключови изрази, които могат да бъдат споделяни.
Как огромните обеми информация онлайн да бъдат сбити в кратък и ясен текст
"Не възприемаме обикновения подход към обобщаването," обяснява той. Под "обикновен", Д'Алойсио има предвид обобщаването по ключови думи, което масово се използва в други продукти. Например, когато търсим в Google "обобщение по ключови думи", получаваме повече от 262 милиона резултата.
Summly използва по-абстрактен метод, в основата на който стои специален алгоритъм, извличащ текста от уеб страници, използвайки HTML обработка. Приложението анализира текста и връща избрани и съкратени части от него като подточки с булети. Алгоритъмът на Summly постига това, като използва редица техники за машинно запаметяване и "генетични" алгоритми - евристични методи на търсене, които имитират еволюцията.
Д'Алойсио е разработил окончателната технология, като първоначално се е възползвал от система за обучение: неговият метод е разглеждал писани от хора обобщения на материали от различни типове и от различни издания. След това, той използвал тези обобщения като модели за това какво Summly трябва да извлича като информация и как да промени собствените си метрики, за да имитира по-добре работата на информационните куратори "от плът и кръв".
Приложението се справя не само с общи теми, но и със специфични "терминологични" области
Summly преглежда и темите на заглавните страници на уебсайтовете, така че индивидуални материали могат да бъдат класифицирани като отнасящи се за бизнес, технологии, спортове и т.н. По този начин алгоритъмът обобщава различните текстове по-прецизно.
Д'Алойсио вярва, че дългите списъци с хиперлинкове, които ви отвеждат директно към сайтове, пълни със съдържание, са били подходящи за Google в по-ранните дни на Интернет, но нещата вече са се променили.
"Хиперлинковете вече не са ефективни. Те са причината за пресищането с информация," твърди той. Той открива тази особеност на хиперлинковете, когато започва да използва Twitter преди няколко месеца.
"Опитвах се да изуча URL-ите и открих, че отварям твърде много линкове, а свързването на данните беше бавно," обяснява Д'Алойсио. "Помислих си, че трябва да има услуга, която позволява на потребителите да достигат до съдържанието на даден уебсайт бързо и лесно". Ето как се ражда и идеята за Summly.
Дали Summly няма да се превърне в любим инструмент на учениците и студентите?
Summly разполага и с други предимства освен да обобщава съдържанието, до което имаме достъп през телефона си. Неговата концепция наподобява тази на CliffsNotes, но за мрежата. И действително, Д'Алойсио вижда своето приложение като особено полезно за децата, които търсят информация за някоя домашна работа, както и за търсенето в Интернет като цяло. "Мисля, че хората наистина се нуждаят от това в телефоните си, особено когато не разполагат с много време," допълва 16-годишният разработчик.
Когато търсите дадена тема, използвайки приложението, то комбинира резултатите от различни търсачки, така че резултатите от това търсене не съвпадат с тези от Google или дори Bing. Освен това, обичайните резултати като статиите от Wikipedia и определенията в речници не се показват в списъка - като цяло търсенето е ограничено предимно до актуални новини или статии, свързани с темата, която търсим.
В допълнение, можете просто да напишете даден URL адрес, ако искате програмата да изведе най-важното за вас от дълъг или пък твърде подробен тект.
Д'Алойсио разкрива, че Summly работи оптимално с добре формулирани статии, които разполагат с логически правилна структура. Това дава възможност на алгоритъма да научи кое е важното - и къде да открие тази информация по-лесно.
Техническите статии и новини се обработват чудесно от алгоритъма на Summly, както и добре организираното съдържание от New York Times и BBC. Приложението не се справя особено добре с повествователни текстове, написани в трето лице, но Д'Алойсио уверява, че все пак няма област, която сериозно да затруднява неговия алгоритъм.
Любопитното е, че технологията работи не само на английски
Тъй като Summly е езиково-независима програма, чуждите езици не затрудняват нейното функциониране. Понастоящем приложението е оптимизирано за 12 различни езика (предимно с латински произход), но към този списък скоро ще бъде добавен и китайският език, тъй като Summly получи подкрепа от инвеститора-милиардер от Хонг Конг Ли Ка Шин. За поддръжка на кирилица за момента липсват сведения, но не се съмняваме, че и това ще се появи в обозримо бъдеще - заедно с руските инвеститори.
В независимо проведени тестове от изследователите в Института по технологии в Масачузетс, обобщенията от очакващия патентоване алгоритъм на Д'Алойсио се оказали с 30% по-добри от други съществуващи алгоритми.
Д'Алойсио споделя, че за постигането на този резултат, учените се използвали набор от стари документи и статии, след което са сравнили качеството на обобщението от Summly с обобщения, направени от хора-специалисти. По този начин те са извлекли оценката за прецизност на алгоритъма, която впоследствие била сравнена с оценките на други алгоритми.