Конспект урока по информатике и ИКТ в 8 классе «Системы перевода и распознавания текста"
план-конспект урока по информатике и икт (8 класс) на тему

Архипова Елена Александровна

Тема урока: «Системы перевода и распознавания текста. Примеры деловой переписки, учебной публикации (доклад, реферат). Образовательные области приоритетного освоения: информатика и ИКТ, обществознание, естественнонаучные дисциплины, филология, искусство»

Скачать:

ВложениеРазмер
Microsoft Office document icon konspekt_uroka.doc53.5 КБ
Файл prakticheskaya_rabota_8_klass.docx11.94 КБ

Предварительный просмотр:

Тема урока: «Системы перевода и распознавания текста. Примеры деловой переписки, учебной публикации (доклад, реферат). Образовательные области приоритетного освоения: информатика и ИКТ, обществознание, естественнонаучные дисциплины, филология, искусство»

 Цели урока:

  • Образовательная: Дать представление о системах распознавания и перевода текста, сформировать навыки перевода текста при помощи e-mail.
  • Развивающая:  Развивать познавательный интерес, внимание, самоконтроль.
  • Воспитательная: Воспитывать информационную культуру, усидчивость.

Материально-техническая база:

  • На рабочем месте ученика: тетрадь, ручка, компьютер.
  • На рабочем месте учителя: компьютер, проектор, доска, конспект урока.

Ход урока:

  1. Актуализация

Знание хотя бы одного иностранного языка необходимо сегодня всем. В особенности пользователям компьютеров: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно. Неудобно, если вы не знаете иностранного языка... Однако отчасти вам может помочь установка на компьютер одной из специализированных программ-переводчиков. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. Итак, сегодня мы узнаем о системах перевода и распознавания текста.

  1. Основной этап

Компьютерные словари.

Словари необходимы для перевода текстов с одного языка на другой. Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими пояснениями.

Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц. Как вы думаете, удобно ли это? Если нет, то чем удобней пользоваться?

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.

Во-первых, компьютерные словари могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).

Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

В-четвертых, компьютерные словари могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

Системы машинного перевода.

Происходящая в настоящее время глобализация нашего мира приводит к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществить немедленно, и нет возможности и времени пригласить переводчика.

Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме реального времени. Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ».

Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка — правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

Вопросы:

  • Зачем нужны программы - переводчики?
  • По какому принципу построены компьютерные словари?
  • Какие тексты нецелесообразно переводить с помощью компьютерных переводчиков?

Системы распознавания текста.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, очень плохое. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Так же не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.  При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).
Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между данными буквами — в величине углов, которые образует третий отрезок с двумя другими.
При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.
Какие вы знаете системы оптического распознавания текста? Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

FineReader позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".
FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания — 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования.
Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы.
Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции — сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования.
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов — от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление.
Вопросы:

  • Зачем нужны программы распознавания текста?
  • Как происходит распознавание текста?
  • Какие программы распознания текста вы знаете? Какими пользовались?
  • Какое разрешение является оптимальным для сканирования текста, изображений?
  1. Практический этап

Вам необходимо перевести предложения, написанные в документе, на иностранные языки и

Выполнить набор текста по образцу

Рефлексия

Сегодня на уроке мы познакомились с системами перевода и распознавания текста. Для чего используются системы перевода текста? Перечислите дополнительные возможности компьютерного словаря. Как называются лучшие российские системы машинного перевода? В каких ситуациях систему машинного перевода лучше не применять? Как сокращенно называют специальные программы распознавания текста? Что должны уметь современные OCR? Назовите более распространенные системы оптического распознавания текстов. Что-то новое сегодня узнали на уроке? Все было понятным? Вопросы есть?

  1. Домашнее задание

П.17.



Предварительный просмотр:

Практическая работа

Знание хотя бы одного иностранного языка необходимо сегодня всем. В особенности пользователям компьютеров: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно. Неудобно, если вы не знаете иностранного языка... Однако отчасти вам может помочь установка на компьютер одной из специализированных программ-переводчиков. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. Итак, сегодня мы узнаем о системах перевода и распознавания текста.

Dictionaries are required for translation of texts from one language to another. The first dictionaries were created about 5000 years ago in Sumer and were clay tablets, divided into two parts. In one part of the word recorded in the Sumerian language, and the other - similar in meaning to the word in another language, sometimes with brief explanations.

Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц. Как вы думаете, удобно ли это? Если нет, то чем удобней пользоваться?

Computer Dictionaries may contain translations into different languages ​​of hundreds of thousands of words and phrases , as well as provide the user with additional features.

First, the computer can be a multi-lingual dictionaries , as they give the user the ability to select the languages ​​and translation direction (for example, English-Russian , Spanish- Russian , and so on ) .

Secondly , computer dictionaries are apart from the main dictionary of common words contain dozens of specialized dictionaries on areas of knowledge ( technology, medicine , computer science , and others . ) .

Third , computer dictionaries provide a quick search of entries : " Speed ​​Dial ", when in the process of recruiting a list of similar words there words; access to frequently used words by bookmarks ; the ability to enter phrases and others .

Fourth, the computer can be multimedia dictionaries , that is, allow the user to listen to the words in the performance of speakers, native speakers.


По теме: методические разработки, презентации и конспекты

Конспект урока по информатике в 5 классе и презентация "Информация. Информатика. Компьютер.Техника безопасности и организация рабочего места".

Цель данного урока:1.познакомить учащихся с техникой безопасности и правильной организации рабочего места;2. дать представление о понятии "информация",её видах,  о предмете "Информатика"....

План – конспект урока по информатике в 6 классе с применением здоровьесберегающей технологии «Редактирование текста».

Структуру урока составляет 9 основных этапов. Каждый этап логически завершен, подведен итог и настроен на восприятие следующего этапа.Нагрузка на уроке менялась путем чередования различных форм обучен...

конспект урока по информатики 9 класс "Система счисления"

урок повторения по информатики 9 класс на тему система счисления...

Конспект урока по информатике на тему Технология ввода текста. Редактирование текста вставка, удаление и замена символов; вставка и удаление пустых строк.

Конспект  урока по информатике на тему: Технология ввода текста. Редактирование текста: вставка, удаление и замена символов; вставка и удаление пустых строк. Цель урока: научить техноло...

План-конспект урока по информатике в 5 классе на тему: "Редактирование текста. Поиск информации"

Данный план-конспект урока создан в помощь учителю информатики и ИКТ, УМК Босова Л,Л. Включает в себя практическую работу...

Конспект урока по информатике в 9 классе "Системы счисления"

Конспект урока по информатике в 9 классе "Системы счисления"...

Конспект урока по информатике 8 класс Тема: «Представление текстов в памяти компьютера. Кодировочные таблицы»

Тема урока: Представление текстов в памяти компьютера. Кодировочные таблицы.Цели урока:Образовательные:познакомить учащихся со способами кодирования информации в компьютере;научить определять числовые...