Меню
Бесплатно
Главная  /  Товары для детей  /  Компьютерная лингвистика. Связь лингвистики и информатики

Компьютерная лингвистика. Связь лингвистики и информатики

Компьютерные лингвисты занимаются разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта (в классическом смысле слова - как замена человеческому - он вряд ли когда-нибудь появится, но зато возникнут различные экспертные системы, основанные на анализе данных).

Алгоритмы распознавания речи будут все больше использоваться в быту - у «умных домов» и электронных приборов не будет пультов и кнопок, а вместо них будет использоваться голосовой интерфейс. Эта технология оттачивается, но вызовов еще много: компьютеру сложно распознать человеческую речь, потому что разные люди говорят очень по-разному. Поэтому, как правило, системы распознавания работают хорошо либо когда они натренированы на одного диктора и уже подстроены под его особенности произношения, либо когда количество фраз, которые может распознать система, ограничено (как, к примеру, в голосовых командах для телевизора).

У специалистов по созданию программ семантического перевода впереди еще много работы: на данный момент неплохие алгоритмы разработаны только для перевода на английский и с английского. Тут много проблем - разные языки по-разному устроены в семантическом плане, это различается даже на уровне построения фраз, и не все смыслы одного языка можно передать с помощью семантического аппарата другого. Кроме того, программа должна различать омонимы, правильно распознавать части речи, выбрать правильное значение многозначного слова, подходящее к контексту.

Синтез искусственной речи (например, для домашних роботов) - тоже кропотливая работа. Сложно сделать так, чтобы искусственно созданная речь звучала естественно для человеческого уха, ведь есть миллионы нюансов, на которые мы не обращаем внимания, но без которых все уже не «то» - фальстарты, паузы, заминки и т.д. Речевой поток непрерывен и одновременно дискретен: мы говорим, не делая паузы между словами, но нам нетрудно понять, где заканчивается одно слово и начинается другое, а для машины это будет большая проблема.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию - например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя. Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Где учиться на компьютерного лингвиста? У нас, к сожалению, довольно сильно разделены специальности, связанные с классической лингвистикой, и программирование, статистика, анализ данных. А для того, чтобы стать цифровым лингвистом, нужно разбираться и в том, и в другом. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, а у нас пока оптимальный вариант - получить базовое лингвистическое образование, а потом освоить основы IT. Хорошо, что сейчас есть много разных онлайн-курсов, к сожалению, в мои студенческие годы такого не было. Я училась на факультете прикладной лингвистике в МГЛУ, где у нас были курсы по искусственному интеллекту и распознаванию устной речи - но все-таки в недостаточном объеме. Сейчас IT-компании активно пытаются взаимодействовать с институтами. Мы с коллегами из «Лаборатории Касперского» тоже стараемся участвовать в образовательном процессе: читаем лекции, проводим студенческие конференции, даем гранты аспирантам. Но пока инициатива больше исходит от работодателей, чем от университетов.


1. Деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях. 2. Область знаний, решающая проблемы общения человека и компьютера на естественном языке. 3. Широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях.


Искусственный интеллект – направление информатики, целью которого является разработка компьютерных систем, способных выполнять функции, традиционно считающиеся интеллектуальными, - понимание естественного языка, логический вывод, использование накопленных знаний, обучение, планирование действий и др.








3. Построение алгоритмов лингвистического анализа – разработка алгоритмов анализа естественно - языковых текстов на всех языковых уровнях: фонемном, морфемном, морфологическом, синтаксическом, прагматическом. Построение синтаксического дерева зависимостей (проект Автоматическая Обработка Текста)


4. Корпусная лингвистика – занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Главная страница сайта Национального корпуса русского языка


5. Машинный перевод - направление научных исследований, связанных с построением автоматических систем перевода текстов с одного естественного языка на другой. Главная страница сайта Google- переводчик


6. Автоматическое реферирование – создание программ сжатого представления естественно - языковых текстов. Сервис построения реферата на сайте Визуальный мир


7. Полнотекстовый информационный поиск – разработка информационно - поисковых систем с лингвистическим анализом текстов информационного массива и запроса пользователя. Главная страница информационно - поисковой системы Яндекс









На филфаке Высшей школы экономики запускается новая магистерская программа, посвященная компьютерной лингвистике: тут ждут абитуриентов с гуманитарным и математическим базовым образованием и всех, кому интересно решать задачи в одной из самых перспективных отраслей науки. Ее руководитель Анастасия Бонч-Осмоловская рассказала «Теориям и практикам», что такое компьютерная лингвистика, почему роботы не заменят человека и чему будут учить в магистратуре ВШЭ по компьютерной лингвистике.

Эта программа - чуть ли не единственная такого рода в России. А вы где сами учились?

Я училась в МГУ на отделении теоретической и прикладной лингвистики филологического факультета. Попала туда не сразу, сначала поступила на русское отделение, но потом всерьез увлеклась лингвистикой, и меня привлекла атмосфера, которая остается на кафедре сих пор. Самое главное там - хороший контакт между преподавателями и студентами и их взаимная заинтересованность.

Когда у меня родились дети и надо было зарабатывать на жизнь, я пошла в сферу коммерческой лингвистики. В 2005 году было не очень понятно, что представляет из себя эта область деятельности как таковая. Я работала в разных лингвистических фирмах: начинала с небольшой фирмы при сайте Public.ru - это такая библиотека СМИ, там я начала заниматься лингвистическими технологиями. Потом год работала в Роснанотехе, где была идея сделать аналитических портал, чтобы данные на нем автоматически структурировались. Потом я руководила лингвистическим отделом в компании «Авикомп» - это уже серьезное производство в области компьютерной лингвистики и семантических технологий. Параллельно я вела курс по компьютерной лингвистике в МГУ и старалась сделать его более современным.

Два ресурса для лингвиста: - сайт, созданный лингвистами для научных и прикладных исследований, связанных с русским языком. Это модель русского языка, представленная с помощью огромного массива текстов разных жанров и периодов. Тексты снабжены лингвистической разметкой, с помощью которой можно получать информацию о частотности тех или иных языковых явлений. Ворднет - огромная лексическая база английского языка, главная идея Ворднета - связать в одну большую сеть не слова, но их смыслы. Ворднет можно скачивать и использовать для собственных проектов.

А чем занимается компьютерная лингвистика?

Это максимально междисциплинарная область. Тут самое главное понимать, что творится в электронном мире и кто тебе поможет сделать конкретные вещи.

Нас окружает очень большое количество дигитальной информации, существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и чего угодно. И очень важно уметь обращаться с этой информацией эффективно - главное не только быстрота обработки информации, но и легкость, с которой ты можешь, отсеяв шум, достать те данные, которые тебе нужны, и создать из них цельную картину.

Раньше с компьютерной лингвистикой были связаны какие-то глобальные идеи, например: люди думали, что машинный перевод заменит человеческий, вместо людей будут работать роботы. Но сейчас это кажется утопией, и машинный перевод используется в поисковых системах для быстрого поиска на незнакомом языке. То есть сейчас лингвистика редко занимается абстрактными задачами - в основном какими-то маленькими штучками, которые можно вставить в большой продукт и на этом заработать.

Одна из больших задач современной лингвистики - семантический web, когда поиск происходит не просто по совпадению слов, а по смыслу, а все сайты так или иначе размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго.

В двух словах, у нас есть тысяча текстов, надо разложить их по кучкам, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации. С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Есть такая компания, которая придумала механизм генерации текстов на темы, на которые человеку писать скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказывать человеку эти тексты гораздо дороже, притом компьютерные тексты на такие темы написаны связным человеческим языком.

Разработками в области поиска неструктурированной информации в России активно занимается «Яндекс», «Лаборатория Касперского» нанимает исследовательские группы, которые изучают машинное обучение. Кто-то на рынке пытается придумать что-то новое в области компьютерной лингвистики?

**Книги по компьютерной лингвистике:**

Daniel Jurafsky, Speech and Language Processing

Кристофер Маннинг, Прабхакар Рагхаван, Хайнрих Шютце, «Введение в информационный поиск»

Яков Тестелец, «Введение в общий синтаксис»

Большинство лингвистических разработок является собственностью больших компаний, практически ничего нельзя найти в открытом доступе. Это тормозит развитие отрасли, у нас нет свободного лингвистического рынка, коробочных решений.

Кроме того, не хватает полноценных информационных ресурсов. Есть такой проект, как Национальный корпус русского языка . Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. Разница примерно как в биологии - до ДНК-исследований и после.

Но многие ресурсы не существуют на русском языке. Так, нет аналога такому замечательному англоязычному ресурсу, как Framenet - это такая концептуальная сеть, где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» - кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса. Это очень полезно.

В компании Avicomp сейчас разрабатывается плагин для поиска близких по содержанию статей. То есть если вас заинтересовала какая-то статья, вы можете оперативно посмотреть историю сюжета: когда тема возникла, что писалось и когда был пик интереса к этой проблеме. Например, с помощью этого плагина можно будет, оттолкнувшись от статьи, посвященной событиям в Сирии, очень быстро увидеть, как в течение последнего года развивались там события.

Как будет построен процесс обучения в магистратуре?

Обучение в Вышке организовано по отдельным модулям - как в западных университетах. Студенты будут разделены на маленькие команды, мини-стартапы - то есть на выходе мы должны получить несколько готовых проектов. Мы хотим получить реальные продукты, которые потом откроем людям и оставим в открытом доступе.

Кроме непосредственных руководителей проектов студентов, мы хотим найти им кураторов из числа их потенциальных работодателей - из того же «Яндекса», например, которые тоже будут играть в эту игру и давать студентам какие-то советы.

Я надеюсь, что в магистратуру придут люди из самых разных областей: программисты, лингвисты, социологи, маркетологи. У нас будет несколько адаптационных курсов по лингвистике, математике и программированию. Потом у нас будет два серьезных курса по лингвистике, и они будут связаны с самыми актуальными лингвистическими теориями, мы хотим, чтобы наши выпускники были в состоянии читать и понимать современные лингвистические статьи. То же самое и с математикой. У нас будет курс, который будет называться «Математические основания компьютерной лингвистики», где будут излагаться те разделы математики, на которых зиждется современная компьютерная лингвистика.

Для того чтобы поступить в магистратуру, нужно сдать вступительный экзамен по языку и пройти конкурс портфолио.

Кроме основных курсов будут линейки предметов по выбору Мы запланировали несколько циклов - два из них ориентированы на более глубокое изучение отдельных тем, к которым относятся, например, машинный перевод и корпусная лингвистика, и, а один, наоборот, связан со смежными областями: такими как, социальные сети, машинное обучение или Digital Humanities - курс, который как мы надеемся, будем прочитан на английском языке.

Под термином "компьютерная лингвистика" (computational linguistics) обычно понимается широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лингвистики. Тем не менее общая практика такова, что сфера компьютерной лингвистики охватывает практически все, что связано с использованием компьютеров в языкознании: "Термин "компьютерная лингвистика" задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, связанных с языком, никак не ограничивая способы решения этих задач".

Институциональный аспект компьютерной лингвистики . Как особое научное направление компьютерная лингвистика оформилась в 60-е гг. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал "Компьютерная лингвистика". Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике - КОЛИНГ. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Когнитивный инструментарий компьютерной лингвистики

Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту - то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки.

Основной тезис теории знаний гласит, что мышление - это процесс обработки и порождения знаний. "Знания" или "знание" считается неопределяемой категорией. В качестве "процессора", обрабатывающего знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний - декларативные ("знание что") и процедурные ("знание как"2)). Декларативные знания представляются обычно в виде совокупности пропозиций, утверждений о чем-либо. Типичным примером декларативных знаний можно считать толкования слов в обычных толковых словарях. Например, чашка] - "небольшой сосуд для питья округлой формы, обычно с ручкой, из фарфора, фаянса и т.п. " . Декларативные знания поддаются процедуре верификации в терминах "истина-ложь". Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действиях в некоторой ситуации. Характерный пример процедурных знаний - инструкции по пользованию бытовыми приборами.

В отличие от декларативных знаний, процедурные знания невозможно верифицировать как истинные или ложные. Их можно оценивать только по успешности-неуспешности алгоритма.

Большинство понятий когнитивного инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтологически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как процедурные знания. Инструментально знание (как онтологически процедурное, так и декларативное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности "стол" можно представить процедурно как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типичного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором - описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

Требует отдельного обсуждения, всякое ли онтологически декларативное знание представимо как процедурное, а всякое онтологически процедурное - как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедурное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. Попытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики известно, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследователь частично теряет способность к различению правильных и неправильных употреблений анализируемого слова. Можно привести и другие примеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников.

В теории знаний для изучения и представления знания используются различные структуры знаний - фреймы, сценарии, планы. Согласно М. Минскому, "фрейм - это структура данных, предназначенная для представления стереотипной ситуации" [Минский 1978, с.254]. Более развернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определенными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (см. табл.1).

Таблица 1

Фрагмент фрейма "стол" в табличном представлении

В зависимости от конкретной задачи структуризация фрейма может быть существенно более сложной; фрейм может включать вложенные подфреймы и отсылки к другим фреймам.

Вместо таблицы часто используется предикатная форма представления. В этом случае фрейм имеет форму предиката или функции с аргументами. Существуют и другие способы представления фрейма. Например, он может представляться в виде кортежа следующего вида: { (имя фрейма) (имя слота)) (значение слота,),..., (имя слота п) (значение слота л) }.

Обычно такой вид имеют фреймы в языках представлениях знаний.

Как и другие когнитивные категории компьютерной лингвистики, понятие фрейма омонимично. Онтологически - это часть когнитивной системы человека, и в этом смысле фрейм можно сопоставить с такими понятиями как гештальт, прототип, стереотип, схема. В когнитивной психологии эти категории рассматриваются именно с онтологической точки зрения. Так, Д. Норман различает два основных способа бытования и организации знаний в когнитивной системе человека - семантические сети и схемы. "Схемы, - пишет он, - представляют собой организованные пакеты знания, собранные для репрезентации отдельных самостоятельных единиц знания. Моя схема для Сэма может содержать информацию, описывающую его физические особенности, его активность и индивидуальные черты. Эта схема соотносится с другими схемами, которые описывают иные его стороны" [Норман 1998, с.359]. Если же брать инструментальную сторону категории фрейма, то это структура для декларативного представления знаний. В имеющихся системах ИИ фреймы могут образовывать сложные структуры знаний; системы фреймов допускают иерархию - один фрейм может быть частью другого фрейма.

По содержанию понятие фрейма очень близко категории толкования. Действительно, слот - аналог валентности, заполнение слота - аналог актанта. Основное отличие между ними заключается в том, что толкование содержит только лингвистически релевантную информацию о плане содержания слова, а фрейм, во-первых, не обязательно привязан к слову, и, во-вторых, включает всю релевантную для данной проблемной ситуации информацию, в том числе и экстралингвистическую (знания о мире) 3).

Сценарий представляет собой концептуальную структуру для процедурного представления знаний о стереотипной ситуации или стереотипном поведении. Элементами сценария являются шаги алгоритма или инструкции. Обычно говорят о "сценарии посещения ресторана", "сценарии покупки" и т.п.

Изначально фрейм также использовался для процедурного представления (ср. термин "процедурный фрейм"), однако сейчас в этом смысле чаще употребляется термин "сценарий". Сценарий можно представить не только в виде алгоритма, но и в виде сети, вершинам которой соответствуют некоторые ситуации, а дугам - связи между ситуациями. Наряду с понятием сценария, некоторые исследователи привлекают для компьютерного моделирования интеллекта категорию скрипта. По Р. Шенку, скрипт - это некоторая общепринятая, общеизвестная последовательность причинных связей . Например, понимание диалога

На улице льет как из ведра.

Все равно придется выходить в магазин: в доме есть нечего - вчера гости все подмели.

основывается на неэксплицированных семантических связях типа "если идет дождь, на улицу выходить нежелательно, поскольку можно заболеть". Эти связи формируют скрипт, который и используется носителями языка для понимания речевого и неречевого поведения друг друга.

В результате применения сценария к конкретной проблемной ситуации формируется план ). План используется для процедурного представления знаний о возможных действиях, ведущих к достижению определенной цели. План соотносит цель с последовательностью действий.

В общем случае план включает последовательность процедур, переводящих начальное состояние системы в конечное и ведущих к достижению определенной подцели и цели. В системах ИИ план возникает в результате планирования или планирующей деятельности соответствующего модуля - модуля планирования. В основе процесса планирования может лежать адаптация данных одного или нескольких сценариев, активизированных тестирующими процедурами, для разрешения проблемной ситуации. Выполнение плана производится экзекутивным модулем, управляющим когнитивными процедурами и физическими действиями системы. В элементарном случае план в интеллектуальной системе представляет собой простую последовательность операций; в более сложных версиях план связывается с конкретным субъектом, его ресурсами, возможностями, целями, с подробной информацией о проблемной ситуации и т.д. Возникновение плана происходит в процессе коммуникации между моделью мира, часть которой образуют сценарии, планирующим модулем и экзекутивным модулем.

В отличие от сценария, план связан с конкретной ситуацией, конкретным исполнителем и преследует достижение определенной цели. Выбор плана регулируется ресурсами исполнителя. Выполнимость плана - обязательное условие его порождения в когнитивной системе, а к сценарию характеристика выполнимости неприложима.

Еще одно важное понятие - модель мира. Под моделью мира обычно понимается совокупность определенным образом организованных знаний о мире, свойственных когнитивной системе или ее компьютерной модели. В несколько более общем виде о модели мира говорят как о части когнитивной системы, хранящей знания об устройстве мира, его закономерностях и пр. В другом понимании модель мира связывается с результатами понимания текста или - более широко - дискурса. В процессе понимания дискурса строится его ментальная модель, которая является результатом взаимодействия плана содержания текста и знаний о мире, свойственных данному субъекту [Джонсон-Лэрд 1988, с.237 и далее]. Первое и второе понимание часто объединяются. Это типично для исследователей-лингвистов, работающих в рамках когнитивной лингвистики и когнитивной науки.

Тесно связано с категорией фрейма понятие сцены. Категория сцены преимущественно используется в литературе как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр) ситуаций и их частей5). Будучи связана с языковыми формами, сцена часто актуализуется определенным словом или выражением. В грамматиках сюжетов (см. ниже) сцена предстает как часть эпизода или повествования. Характерные примеры сцен - совокупность кубиков, с которыми работает система ИИ, место действия в рассказе и участники действия и т.д. В искусственном интеллекте сцены используются в системах распознавания образов, а также в программах, ориентированных на исследование (анализ, описание) проблемных ситуаций. Понятие сцены получило широкое распространение в теоретической лингвистике, а также логике, в частности в ситуационной семантике, в которой значение лексической единицы непосредственно связывается со сценой.

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики