Интернет-архив сотрудничает с Эдинбургским универ

Explore workouts, and achieving AB Data
Post Reply
mostakimvip04
Posts: 106
Joined: Sat Dec 21, 2024 4:09 am

Интернет-архив сотрудничает с Эдинбургским универ

Post by mostakimvip04 »

Интернет-архив предоставит часть своего веб-архива Эдинбургскому университету для поддержки работы Школы информатики по созданию открытых данных и инструментов для развития машинного перевода, особенно для языков с низким ресурсным ресурсом. Машинный перевод — это процесс автоматического преобразования текста с одного языка на другой.

Проект ParaCrawl занимается поиском переведённых текстов в интернете на 29 языках. ParaCrawl содержит более 1 миллиона переведённых предложений на нескольких языках, что делает его Данные телеграммы крупнейшей открытой коллекцией переводов для каждого языка. Проект является совместным проектом Эдинбургского университета, Университета Аликанте, Prompsit, TAUS и Omniscien при финансовой поддержке Фонда ЕС «Соединяющаяся Европа». Данные из Интернет-архива значительно расширяют объём данных, извлекаемых ParaCrawl, и, следовательно, количество собранных переведённых предложений. Проект, возглавляемый Кеннетом Хифилдом из Эдинбургского университета, позволит создать открытые корпуса и инструменты с открытым исходным кодом для машинного перевода, а также разработать конвейер обработки.


В проекте будут использоваться архивные веб-данные из общих веб-коллекций IA. Поскольку переводы на исландский, хорватский, норвежский и ирландский языки особенно редки, IA также будет использовать собственные инструменты внутренней языковой классификации для определения приоритетов и извлечения данных на этих языках из архивных веб-сайтов в своих коллекциях.

Партнерство расширяет текущую деятельность IA по предоставлению услуг вычислительных исследований для крупномасштабных проектов интеллектуального анализа данных, ориентированных на технические разработки с открытым исходным кодом для содействия общественному благу и обеспечению открытого доступа к информации и данным. Среди других недавних совместных проектов – предоставление веб-данных для оценки состояния местных онлайн-новостей по всей стране, анализ исторических классификаций корпоративных отраслей и картирование онлайн-сообществ. Кроме того, IA расширяет свою деятельность по предоставлению пользовательских извлечённых данных и наборов данных из своих более чем 20-летних исторических веб-данных. Для получения дополнительной информации о веб-сервисах и услугах по работе с данными IA обращайтесь в службу webservices по адресу archive dot org.
Post Reply