ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Неверная сегментация.

Цепочка, подаваемая на вход естественноязыкового интер­фейса, сегментируется на слова с помощью пробелов и знаков препинания. Оба типа сегментных показателей, особенно второй, могут быть ошибочно пропущены или ошибочно вставлены.

Невер­ная сегментация на лексическом уровне приводит к тому, что два или более слов пишутся слитно, как в runtogether ‘действовать вместе’; одно слово расщепляется на два (и более) сегмента, как в tog ether ‘вместе’ или (что особенно неприятно) to get her [8]; мо­гут, наконец, присутствовать оба варианта, как в runto geth er.

Во всех этих случаях ошибки могут быть устранены на основе дальнейшего развития механизма исправления орфографических ошибок, с тем чтобы в начальных сегментах незнакомых слов он мог распознавать ожидаемые слова, и наоборот. Например, исправ­ляя орфографическую ошибку в сегменте portdisks с учетом тре­бований к занимаемой им позиции в цепочке

Add two dual portdisks to the order

‘Добавьте к заказу два диска с двойными портами’,

мы должны уметь распознать начальный сегмент port как ожида­емое слово, а оставшийся сегмент disks оставить во входной це­почке после исправленного слова для дальнейшей обработки, ко­торая и приведет к правильному результату. Далее, в цепочке

Add two dual port disks to the ord er

не поддающееся распознаванию (и исправлению) слово ег, сле­дующее за словом ord, распознанным в качестве начальной части слова, должно побудить систему к попытке присоединить незна­комое слово к концу предыдущего сокращения и посмотреть, не дополняет ли оно данное сокращение до полного слова. Исправ­ление ошибки в цепочке

Add two du alport disks to the order будет несколько сложнее. После того как вышеуказанные методы преодоления ошибок приведут к неудаче, от второго нераспознанного слова (alport) будут по очереди отсекаться начальные буквы и присоединяться к концу первого нераспознанного слова (du). Этот процесс приведет к успеху лишь в том случае, если на каком-то шаге оба слова окажутся распознаваемыми и обработка сможет быть продолжена. Между двумя незнакомыми словами следует также попробовать перемещать границу (пробел) как назад, так и вперед, пока оба слова не окажутся распознаваемыми. Конечно, сочетание нескольких лексических отклонений (например, наличие в одном и том же сегменте орфографических ошибок, слитно на­писанных или, наоборот, расщепленных слов) требует применения неэффективных комбинаторных стратегий преодоления ошибок. Ис­пользование анализатором сильных предсказаний может частично облегчить решение этой проблемы, однако на практике для пре­одоления сочетаний нескольких ошибок потребуется компромисс между гибкостью и эффективностью.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Неверная сегментация.: