Компания Unstructured, предлагающая инструменты для подготовки корпоративных данных для программ LLM, привлекает 25 миллионов долларов.
Большие языковые модели (LLM), такие как GPT-4 от OpenAI, являются строительными блоками для растущего числа приложений искусственного интеллекта. Однако некоторые предприятия неохотно принимают их из-за невозможности доступа к собственным и частным данным.
Разумеется, решить эту проблему непросто — учитывая, что такого рода данные обычно хранятся за брандмауэрами и поступают в форматах, которые не могут быть прослушаны LLM. Но относительно новый стартап Unstructured.io пытается устранить препятствия с помощью платформы, которая извлекает и обрабатывает корпоративные данные таким образом, чтобы специалисты по LLM могли их понять и использовать.
Брайан Рэймонд, Мэтт Робинсон и Крэг Вулф основали Unstructured в 2022 году после совместной работы в Primer AI, которая занималась созданием и внедрением решений обработки естественного языка (NLP) для бизнес-клиентов.
«Работая в Primer, мы снова и снова сталкивались с узкими местами при приеме и предварительной обработке необработанных файлов клиентов, содержащих данные NLP (например, PDF-файлы, электронные письма, PPTX, XML и т. д.), и преобразовании их в чистый, тщательно подобранный файл, готовый к использованию. модель или конвейер машинного обучения», — сказал TechCrunch в интервью по электронной почте Рэймонд, занимающий пост генерального директора Unstructured. «Ни одна компания, занимающаяся интеграцией данных или интеллектуальной обработкой документов, не помогла решить эту проблему, поэтому мы решили создать компанию и заняться ее решением».
Действительно, обработка и подготовка данных обычно являются трудоемким этапом любого рабочего процесса разработки ИИ. Согласно одному опросу, ученые, работающие с данными, тратят около 80% своего времени на подготовку и управление данными для анализа. В результате, согласно другому опросу, большая часть данных, которые производят компании — около двух третей — остается неиспользованной.
«Организации ежедневно генерируют огромные объемы неструктурированных данных, которые в сочетании с LLM могут повысить производительность. Проблема в том, что эти данные разбросаны», — продолжил Рэймонд. «Грязный секрет сообщества НЛП заключается в том, что ученым, работающим с данными, сегодня все еще приходится создавать кустарные, одноразовые соединители данных и конвейеры предварительной обработки полностью вручную. Unstructured [предоставляет] комплексное решение для подключения, преобразования и хранения данных на естественном языке для студентов LLM».
Unstructured предоставляет ряд инструментов, помогающих очищать и преобразовывать корпоративные данные для приема LLM, включая инструменты, которые удаляют рекламу и другие нежелательные объекты с веб-страниц, объединяют текст, выполняют оптическое распознавание символов на отсканированных страницах и многое другое. Компания разрабатывает конвейеры обработки для конкретных типов PDF-файлов; Документы HTML и Word, в том числе для подачи заявок в SEC; и, самое главное, отчеты об оценке офицеров армии США.
Для работы с документами компания Unstructured с нуля обучила свою собственную модель НЛП «преобразования файлов» и собрала коллекцию других моделей для извлечения текста и около 20 отдельных элементов (например, заголовков, верхних и нижних колонтитулов) из необработанных файлов. Различные соединители — всего около 15 — привлекают документы из существующих источников данных, таких как программное обеспечение для управления взаимоотношениями с клиентами.
«За кулисами мы используем множество различных технологий, чтобы абстрагироваться от сложности», — сказал Рэймонд. «Например, для старых PDF-файлов и изображений мы используем модели компьютерного зрения. А для других типов файлов мы используем умные комбинации моделей НЛП, скриптов Python и регулярных выражений».
В дальнейшем Unstructured интегрируется с такими поставщиками, как LangChain, инфраструктурой для создания приложений LLM, и векторными базами данных, такими как Weaviate и Atlas Vector Search от MongoDB.
Раньше единственным продуктом Unstructured был набор инструментов обработки данных с открытым исходным кодом. Рэймонд утверждает, что его скачали около 700 000 раз и использовали более 100 компаний. Но чтобы покрыть затраты на разработку — и, без сомнения, успокоить своих инвесторов — компания запускает коммерческий API, который будет преобразовывать данные в 25 различных форматов файлов, включая PowerPoint и JPG.
«Мы работаем с государственными учреждениями и за очень короткий период получили доход в несколько миллионов долларов. . . . Поскольку наше внимание сосредоточено на искусственном интеллекте, мы сосредоточены на секторе рынка, который не пострадал от более широкого экономического спада», — сказал Рэймонд.