Создание лучших знаний Diffbot

Diffbot - это граф знаний, который связывает знания Интернета в структурированной базе данных, к которой можно обращаться, чтобы вам было легче находить ответы.
Представьте, что у вас есть школьный проект для завершения. Вам нужно написать о конкретной теме, о которой вы ничего не знаете. Итак, вы идете в библиотеку и сидите у ряда книг, которые освещают эту тему. Вы можете искать по ряду, читать книги и узнать, что вам нужно. Вероятно, вам придется начать с базовой книги, получить некоторые знания о ключевых аспектах этой темы, затем вы можете искать эти элементы в индексе более продвинутых книг, листая взад-вперед, пока не получите команду предмет.



Как только вы начнете, блуждает профессор университета с многолетним знанием предмета, хранящимся в ее голове. Она прочитала все книги на этой конкретной полке в библиотеке, на самом деле, она написала некоторые из них. Она садится за ваш стол и говорит: «Я эксперт по теме X. Спросите меня что-нибудь».

Задавая вопросы, вы можете воспользоваться не только фактами, которые она имеет под рукой, но и связями между ними, которые она выстроила за эти годы. Вы можете быстро добраться до сути знаний, используя свои языковые навыки, чтобы допросить ее. Если бы она не приехала, вы бы создали их для себя с нуля, используя механизмы поиска в книгах: заголовки глав и указатели.

Хорошо, это немного неуклюжая аналогия, потому что вы должны верить, что этот профессор обладает современными, всеобъемлющими знаниями, свободными от предвзятости. И, поскольку человеческие возможности ограничены, хотя она может быть экспертом в этом проекте, она не сможет помочь вам написать статью по физике планет или географии Шотландии и еще одну по средневековой архитектуре, которая также должна быть опубликована на следующей неделе. (ты в школе для отличников!). Вы должны выследить несколько разных людей, чтобы задавать вопросы или снова попали в книги.

Если вы прыгаете вверх и вниз, говоря «Используйте Интернет!», Подумайте, как это работает. Это больше похоже на библиотеку или на профессора? В Интернете информация хранится в виде наборов страниц на разных сайтах. Она похожа на библиотеку, потому что вам нужно найти наиболее релевантные страницы для определения наиболее важных фактов и раскрыть существенную терминологию, чтобы перейти к дополнительным поискам в Интернете, чтобы найти еще больше информации. Вы усердно работаете над тем, чтобы извлечь и связать ключевые факты, даже если вам не нужно выходить из дома и садиться на автобус, потому что ваша поисковая система обслуживает страницы, которые вам нужно прочитать, а не ответы, которые вы хотите знать.

Поисковые системы
Что подводит нас к возможностям поисковой системы. На первый взгляд кажется, что вопрос достаточно понятен, чтобы ответить на него с распространением информации по ключевой теме. Спросите в Google об актере Гари Олдмане, и вы получите что-то вроде снимка экрана ниже, где возвращаемые результаты включают в себя ряд различных ресурсов (изображения, видео, текст), а также информационное поле с некоторыми ключевыми фактами из Википедии и ссылками на связанная информация, такая как его фильмы и место его рождения. Вы также увидите список людей и вопросы, которые могут иметь отношение к делу, основываясь на результатах поиска, выполненного другими людьми.



Информационное окно, которое я показал выше, получено от продукта, известного как « График знаний Google» . Официальной информации о том, как именно работает продукт, нет, хотя этот документ является полезным ресурсом . Мы знаем, что он опирается на общедоступные источники, такие как Википедия, а также накапливает данные о том, что люди ищут в Интернете, с определенным уровнем человеческого участия в форме курирования. Только по этой причине график знаний Google, возможно, несколько ограничен, не в последнюю очередь, если учесть, что данные Википедии ограничены заслуживающими внимания людьми, компаниями и местоположениями, а не всеми, кто задокументирован в Интернете. Продукт предоставляется рекламодателям Google в качестве службы и предоставляет контент для использования интеллектуальными динамиками, используемыми в Google Home.

В качестве иллюстрации, если вы спросите «Женат ли Гари Олдман?», Вы, вероятно, не получите прямого ответа, но вместо этого вам будет предложен набор ссылок для чтения и чтения, скорее как ряд библиотечных книг. из нашей аналогии. Это, безусловно, будет иметь место для любых вопросов, помимо тех, которые представлены в информационном окне сбоку. Недавно я заметил, что Google теперь может дать некоторые прямые ответы. Например, если вы будете искать «Гари Олдман - единственный ребенок?», Вы получите информационное окно о его сестре (Лейле Морс). Однако эта информация исходит из того, есть ли у Google прямой ответ на ваш вопрос в виде строки текста, найденной где-то в Интернете, например, «Лайла Морс - сестра Гэри Олдмана».

Если он еще не записан, Google не сможет сделать вывод из другой информации так, как это сделали бы люди (например, узнав, сколько детей родила его мать).

Для такого рода выводов нам нужно обратиться к нашему вымышленному профессору или найти технологию, которая может автоматически определять ответы на основе связей, основанных на богатстве информации, хранящейся в Интернете.

Представляем Diffbot
Еще в августе этого года Diffbot , стартап из Силиконовой долины, выпустил так называемый Diffbot Knowledge Graph (DKG), чтобы предоставить «знания как услугу для интеллектуальных приложений». Они используют комбинацию машинного обучения. , компьютерное зрение и обработка естественного языка, чтобы скрести содержимое всего Интернета в граф знаний. Обратите внимание, что это не то же самое, что продукт Google «График знаний», но относится к более общей концепции (если вы не уверены в том, что такое граф знаний, я ранее писал на эту тему в статье под названием WTF: График знаний? Подводя итог, можно сказать, что граф знаний - это единый структурированный источник данных, который хранится в виде графа с семантическими (самоописательными) свойствами и поддержкой логического вывода).

Diffbot использует поисковую систему Gigablast для сканирования и хранения всей сети, собирая документы в различных форматах, таких как веб-страницы HTML и PDF-вложения. Затем Diffbot использует компьютерное зрение, чтобы понять структуру этих документов, разбивая их на структурные элементы, такие как заголовки, блоки текста, таблицы и так далее. После разработки структуры контент анализируется с использованием комбинации обработки естественного языка и машинного обучения, извлечения фактов, цифр и взаимосвязей между ними с точностью, превышающей человеческую, и создания совокупности знаний, добавляемых в DKG.

Diffbot эффективно собирает информацию о сети в базе данных и соединяет ее, чтобы ее можно было использовать для предоставления ответов на сложные вопросы, задаваемые как запросы. Это - если вы привыкли к синтаксису, необходимому для того, чтобы задавать вопросы, - гораздо более эффективный ресурс, чем наборы ссылок на страницы текста: вывод поисковой системы.

На момент выпуска DKG содержала более 1 триллиона фактов и 10 миллиардов объектов, что почти в 500 раз больше, чем продукт Google Knowledge Graph, и растет более чем на 100 миллионов фактов в месяц. DKG полностью автономен и построен исключительно с использованием искусственного интеллекта, а не на уровне ручного курирования. Ценность этого подхода состоит в том, что граф знаний можно постоянно перестраивать с нуля, сохраняя данные DKG свежими и точными, поскольку источники, которые являются непоследовательными или признаны неточными, могут быть просто исключены и добавлены другие. В битве с «поддельными новостями» это полезное оружие.

Хранение знаний в графике делает его быстро доступным: возможно создавать продукты, которые используют связанные данные. Графики знаний - это наиболее близкий компьютер к контекстуальному пониманию того, как работает наш мир, связывая понятия и элементы друг с другом. Если вы создаете помощника ИИ, который может понимать сложные запросы, он должен понимать сложные отношения.

Майк Тунг, основатель и генеральный директор Diffbot, говорит: «То, что мы создали, - это первый граф знаний, который организации могут использовать для доступа ко всей информации, содержащейся в Интернете. Разблокировка этих данных и предоставление организациям мгновенного доступа к этим глубоким связям полностью меняет работу, основанную на знаниях, какой мы ее знаем ». Вы можете посмотреть недавнее видео Майка Тунга на конференции Strata Data компании O'Reilly Media в Нью-Йорке, где он описал будущее автоматизации бизнес-обработки с помощью крупномасштабных графов знаний.