banner
Центр новостей
Отличные материалы, строгая гарантия качества.

Компания Unstructured, предлагающая инструменты для подготовки корпоративных данных для программ LLM, привлекает 25 миллионов долларов.

Sep 27, 2023

Большие языковые модели (LLM), такие как GPT-4 от OpenAI, являются строительными блоками для растущего числа приложений искусственного интеллекта. Однако некоторые предприятия неохотно принимают их из-за невозможности доступа к собственным и частным данным.

Разумеется, решить эту проблему непросто — учитывая, что такого рода данные обычно хранятся за брандмауэрами и поступают в форматах, которые не могут быть прослушаны LLM. Но относительно новый стартап Unstructured.io пытается устранить препятствия с помощью платформы, которая извлекает и обрабатывает корпоративные данные таким образом, чтобы специалисты по LLM могли их понять и использовать.

Брайан Рэймонд, Мэтт Робинсон и Крэг Вулф основали Unstructured в 2022 году после совместной работы в Primer AI, которая занималась созданием и внедрением решений обработки естественного языка (NLP) для бизнес-клиентов.

«Работая в Primer, мы снова и снова сталкивались с узкими местами при приеме и предварительной обработке необработанных файлов клиентов, содержащих данные NLP (например, PDF-файлы, электронные письма, PPTX, XML и т. д.), и преобразовании их в чистый, тщательно подобранный файл, готовый к использованию. модель или конвейер машинного обучения», — сказал TechCrunch в интервью по электронной почте Рэймонд, занимающий пост генерального директора Unstructured. «Ни одна компания, занимающаяся интеграцией данных или интеллектуальной обработкой документов, не помогла решить эту проблему, поэтому мы решили создать компанию и заняться ее решением».

Действительно, обработка и подготовка данных обычно являются трудоемким этапом любого рабочего процесса разработки ИИ. Согласно одному опросу, ученые, работающие с данными, тратят около 80% своего времени на подготовку и управление данными для анализа. В результате, согласно другому опросу, большая часть данных, которые производят компании — около двух третей — остается неиспользованной.

«Организации ежедневно генерируют огромные объемы неструктурированных данных, которые в сочетании с LLM могут повысить производительность. Проблема в том, что эти данные разбросаны», — продолжил Рэймонд. «Грязный секрет сообщества НЛП заключается в том, что ученым, работающим с данными, сегодня все еще приходится создавать кустарные, одноразовые соединители данных и конвейеры предварительной обработки полностью вручную. Unstructured [предоставляет] комплексное решение для подключения, преобразования и хранения данных на естественном языке для студентов LLM».

Unstructured предоставляет ряд инструментов, помогающих очищать и преобразовывать корпоративные данные для приема LLM, включая инструменты, которые удаляют рекламу и другие нежелательные объекты с веб-страниц, объединяют текст, выполняют оптическое распознавание символов на отсканированных страницах и многое другое. Компания разрабатывает конвейеры обработки для конкретных типов PDF-файлов; Документы HTML и Word, в том числе для подачи заявок в SEC; и, самое главное, отчеты об оценке офицеров армии США.

Для работы с документами компания Unstructured с нуля обучила свою собственную модель НЛП «преобразования файлов» и собрала коллекцию других моделей для извлечения текста и около 20 отдельных элементов (например, заголовков, верхних и нижних колонтитулов) из необработанных файлов. Различные соединители — всего около 15 — привлекают документы из существующих источников данных, таких как программное обеспечение для управления взаимоотношениями с клиентами.

«За кулисами мы используем множество различных технологий, чтобы абстрагироваться от сложности», — сказал Рэймонд. «Например, для старых PDF-файлов и изображений мы используем модели компьютерного зрения. А для других типов файлов мы используем умные комбинации моделей НЛП, скриптов Python и регулярных выражений».

В дальнейшем Unstructured интегрируется с такими поставщиками, как LangChain, инфраструктурой для создания приложений LLM, и векторными базами данных, такими как Weaviate и Atlas Vector Search от MongoDB.

Раньше единственным продуктом Unstructured был набор инструментов обработки данных с открытым исходным кодом. Рэймонд утверждает, что его скачали около 700 000 раз и использовали более 100 компаний. Но чтобы покрыть затраты на разработку — и, без сомнения, успокоить своих инвесторов — компания запускает коммерческий API, который будет преобразовывать данные в 25 различных форматов файлов, включая PowerPoint и JPG.

«Мы работаем с государственными учреждениями и за очень короткий период получили доход в несколько миллионов долларов. . . . Поскольку наше внимание сосредоточено на искусственном интеллекте, мы сосредоточены на секторе рынка, который не пострадал от более широкого экономического спада», — сказал Рэймонд.