Наша система обработки языка показала один из лучших результатов в России
Несколько дней назад опубликованы результаты тестирования система анализа естественного языка SentiRuEval, прошедшего в рамках самой авторитетной в России конференции по компьютерной лингвистике Диалог.
Анализ языка это вовсе не абстрактное упражнение в академической науке. По некоторым экспертным оценкам 500 самых богатых компаний мира ежегодно теряют суммарно около 12 миллиардов долларов из-за неспособности использовать данные из обычных текстовых документов. Бизнес всегда зависит от получения правильной информации, а большая часть информации существует не в форме таблиц баз данных, а в текстах. Таких например, как отзывы, посты в соцсетях, письма, мнения, советы, жалобы, инструкции, ответы на важные вопросы.
Ясно, что возможность использовать знания из текстов имеет ключевое значение. Причем как для каждого предпринимателя в отдельности, так и для экономики в целом. Поэтому в мире этой проблемой активно занимаются, причем как ученые из государственных учреждений так и частные компании. А чтобы прогресс можно было оценить объективно, существуют соревнования систем, решающих определенные задачи. Объективная оценка важна и для науки и для бизнеса — ведь в рекламе можно написать все что угодно, а независимое тестирование выявляет реальную действительность.
В России жизнь пока отстает от мировой практики, но все же усилиями ряда ученых проводится одно такое тестирование — в рамках конференции Диалог. Проводится оно раз в год. О том, что было раньше, можно почитать, например в блоге компании ABBY. В этом же году было две задачи: выделение положительных и отрицательных моментов из отзывов о ресторанах и автомобилях, а также классификация твитов на положительные и отрицательные. В задаче о твитах мы не участвовали, поэтому поговорим об отзывах ))
Потенциальная практическая польза здесь значительная. Во-первых, для пользователя - можно не читать все отзывы, а сразу узнать главное — например хорошо ли кормят в ресторане, что с обстановкой, не кусаются ли цены. Ведь программа может прочитать все отзывы быстро, сделать сравнительный анализ. Но более значительная на наш взгляд польза здесь для владельцев ресторанов — можно узнать, что пользователям в ресторане нравится, какие есть жалобы (причем какие основные, какие второстепенные), оценить, хорошо ли работает персонал и сравнить все с положением дел у конкурентов.
Теперь собственно о результатах. Всего на российских просторах нашлось 12 систем, способных решать эту задачу. Именно столько участников прислало результаты. Однозначного победителя нет — у кого-то чуть лучше результаты в одной подзадаче, у кого-то в другой. Но в целом, лучшие результаты показали три системы, среди которых и наша JENN-H - четыре первых места и пять вторых по разным подзадачам и способам оценки.
Отличительной особенностью нашей разработки также является то, что мы стараемся строить систему так, чтобы она была максимально универсальной и способной решать широкий круг задач по пониманию текстов, а не просто показывать хорошие результаты в узкой области. Более детально сравнить системы-участники можно будет когда появится сборник трудов конференции со статьями авторов систем.
Конечно, для практики мало создать качественную систему анализа языка. Нужно внедрять ее в практические приложения. Одно такое приложение в виде сайта reviewdot.ru у нас уже есть. Потенциал конечно много больше, но пока у нас не так много ресурсов, чтобы воплотить наработки в конечный продукт. Поэтому мы надеемся на сотрудничество с другими разработчиками, заинтересованными во внедрении функций понимания текстов в свои продукты или в создании новых продуктов (для этого мы сделали отдельный сайт о нашей системе анализа языка meanotek.ru). Пока что в этой области много незанятых ниш и перспективы представляются весьма хорошими.