?ылыми зерттеулер мен практикалы? ж?мыстар ба?ыттарыны? бірі ??жаттарды тану (т?сіну) технологиясы болып табылады. ??жаттарды тану ма?сат-міндеттері ?р?илы ж?не ?р текті, ?йткені ??жаттарды? ?зі ?р ?илы ж?не ?р текті. Оларды? шешуі сканер, видеокамера немесе бас?а да сканерлейтін ??рыл?ыдан алын?ан ??жат бейнесіні? талдауы негізінде ??рылады. ??жат тануды? жалпы ма?саты – а?парат к?рсетімі пішінін графикалы?тан адам ж?не программамен ?абылданатын т?ріне ?згерту. Сканерді? к?мегімен м?тінні? бейнесін графикалы? файл ретінде ?абылдап алса? жеткілікті. ?лпетте, м?ндай м?тінмен ж?мыс жасау м?мкін емес, кез келген сканерленген бейне сия?ты, м?тіні бар бет графикалы? файл – жай ?ана бейне болып ?сынылады. М?тінді о?у?а ж?не баспа?а шы?ару?а болады, алайда ??деуге ж?не форматтау?а болмайды. ??жатты м?тіндік файл т?рінде алу ?шін, м?тінді тану ж?мысыны ж?ргізу ?ажет, я?ни, бейнені? графикалы? элементтерін м?тіндік символдарды? тізбегіне айналдыру ?ажет. Графикалы? бейнелерді м?тінге айналдыру ?шін арнайы м?тінді тану программалары бар (Optical Character Recognition - OCR). М?тінді тану б?л ма?сатты? е? маы?ызды процестеріні? бірі болып табылады ж?не м?тінні? графикалы? бейнесіні? символды? пішінге (мыалы, ASCII-код) ?згеруін белгілейді. ?азіргі заман?ы OCR к?п ?рекет жасай білуі керек: тек ?ана терілген м?тінді танымай, сонымен ?атар, ?олдан жазыл?ан жазбаларды да тану білуі керек. ??рамында бірнеше тілде жазыл?ан м?тінді д?рыс тани білу, кестелерді д?рыс тану да жатады. Ж?не де е? бастысы – тек ?ана терілген м?тінді ?ана емес, шынайылы?тан алыс жат?ан м?тінді тани білуі керек. Мысалы, сар?айып ?ал?ан газеттегі кеспелерді немесе ?шінші машинажазбаларды? к?шірмесін тану сия?тылар. Сонымен ?атар, алын?ан н?тижені ?тымды м?тіндік редаторда(ms word) да са?тау да аса ма?ызды бол?ан ж?н. Я?ни, терілген м?тінні? электронды, ??деуге дайын н?с?асын алу ?шін, OCR программасында жеке амалдардан т?ратын тізбекті орындау керек.
Алдымен, беттегі м?тінні? орналасу ??рылымын аны?тау ?ажет: ба?андарды, кестелерді, бейнелерді ерекшелеу. Ары ?арай ерекшеленген фрагменттерді м?тінге айналдыру ?ажет.
Е? к?п тарал?ан оптикалы? тану ж?йелері ішінде мысалы, ABBYY FineReader и CuneiForm от Cognitive.
CuneiForm ??жаттарды тану ж?йесі м?тіндік процессорлармен, электронды? кестелермен, деректер базаларын бас?ару ж?йелерімен ?абылданатын м?тіндегі, я?ни редакцияланатын м?тіндегі ??жатты? графикалы? бейнеленуіні? ?згеруін іске асырады. CuneiForm аралас м?тіндермен ж?мыс істейді ж?не м?тінді графиктерді пішімді бір ??жатта са?тайды.
CuneiForm-мен ж?мыс процесі мынадай кезе?дерге б?лінеді: сканерлеу, бейнені жазу, м?тінде тану, м?тінді ?арау, м?тінді жазу.
Салы? декларацияларын толтыруда, халы?ты тіркеуді ж?ргізуде, т.б. т?рлі ?рістері бар бланктер ?олданылады. ?олжазбалалы м?тіндер осы оптикалы? тану ж?йелері ар?ылы танылып, компьютер базасына енгізіледі.
Apple фирмасымен 1990 жылы шы?арыл?ан ал?аш ?алта компьютерлерімен ?атар, ?олжазбаларды тану ж?йелері ??рыла бастады. М?ндай ж?йелер ?алта компьютерлері экранына арнайы ?аламмен жазыл?ан м?тінді м?тіндік компьютерлік ??жат?а айналдырады.
М?тінді тану программаларын сканерді сатып алу кезінде немесе б?лек сатып алу?а болады.
Е? танымал программасы ABBYY компаниясымен ?сыныл?ан FineReader программасы. FineReader – кез келген шрифтта терілген м?тінді тани алады. Прогрмма 176 тілдегі м?тінді д?рыс аудара алады. FineReader программасыны? барлы? н?с?аларыны? интерфейстері ?арапайым, ?олдану?а т?сінікті. Тану процесін бастау ?шін, ??рал –саймандар та?тасынан, Scan & Read батырмасына басу жеткілікті. ?ал?ан амалдарды программа ?зі автоматты т?рде ая?тайды. ?олданушы?а тек сканерлеуді? параметрлерін ?ана та?дау ?алады. FineReader сканермен TWAIN-интерфейсі ар?ылы ж?мыс істейді. Б?л бірегей халы?аралы? стандарт 1992 жылы компьютерге бейнені кірістіру ?шін ??рыл?ылармен байланыстыруды унификациялау ма?сатында енгізілген.
Тану сапасы к?бінесе сканерлеу кезінде бейне ?аншалы?ты жа?сы алын?анына байланысты болады. Бейне сапасы сканерлеуді? негізгі параметрлері ар?ылы орнатылады: бейне типі, ке?ейтілімі ж?не жары?ты?ы. С?р т?сті сканерлеу тану ж?йесі ?шін оптималды режим болып табылады. Б?л режимде жары?ты? автоматты т?рге алынады. Егер сіз бейнедегі т?рлі т?сті элементтер электронды ??жат?а сол к?йінде берілсін десе?із, онда сканерелеуді? т?сті типіне ?ою керек. Оптималды ке?ейтілімі ретінде жай м?тін ?шін 300 dpi ж?не ?са? шрифтісі бар м?тін ?шін - 400-600 dpi ке?ейтілімдер алынады.
Тану процесі ая?тал?ан со?, FineReader программасы ?олданушы?а келесі н?с?аларды ?сынады:ары? ?арай сканерлеу ж?не тану(к?пбетті ??жат ?шін),немесе алын?ан н?тижесі белгілі бір м?тіндік форматтарда са?тау ?шін, мысалы Microsoft Office-тан HTML-ге немесе PDF-ке. Немесе Word или Excel программасына ?тіп, сол жерде ??деу ж?мыстарын ж?ргізу.
??жаттарды сканерлеу ??рыл?ысы
??жаттарды сканерлеу ??рыл?ысы — шы?уында ??жатты? бір немесе бірнеше бетіндегі м?ліметтерге с?йкес электрлік сигналдар пайда болатын ??рыл?ы. Біршама ке? тара?ан ??рыл?ыда фотоэлемент немесе фотоэлементтер сыз?ылды жары?тал?ан бетті ?дістеме бойынша ?арап шы?ады. Уа?ытты? ?рбір с?тінде фотоэлемент кескін элементі деп аталатын бетті? тым кіші б?лігіні? жары?ты?ын тіркейді. Екілік форма?а айналдыру ?шін алын?ан сигналдарды, ?детте, ??деу ?олданылады. Одан кейін та?баларды оптикалы? танып білу, арнаны? ?ткізу ?абілеттілігін немесе са?тауыш ??рыл?ыны? сыйымдылы?ын ?немді пайдалану ма?сатымен ?ысу ?дістері немесе кескінні? сапасын жа?сартатын арнайы ??деу ?дісі ?олданылуы м?мкін.
Просмотр содержимого документа
«Урок на тему: "М?тінді танып алу технологиясы, м?тіндерді танып алу программасы. М?тіндерді танып алу, м?тіндерді сканерлеу" »
Пән аты: Информатика
Сыныбы: 10
Сабақтың тақырыбы: Мәтінді танып алу технологиясы, мәтіндерді танып алу
программасы. Мәтіндерді танып алу, мәтіндерді сканерлеу
Сабақтың мақсаты:
Білімділігі: Мәтіндік тану жүйелері мен мәтінді сканерлеу және олардың
түрлерімен таныстыру.
Дамытушылығы: Оқушылардың ойлау қабілеті мен пәнге деген қызығушылығын
Оқыту әдістері: баяндау, сұрақ-жауап, көрнекілік, практикалық әдіс
Сабақтың көрнекілігі: ДК, экран, презентация
Сабақтың барысы:
І. Ұйымдастыру кезеңі
ІІ. Сабақтың мақсаты мен міндеттерін айқындау
ІІІ. Жаңа тақырыпты түсіндіру
Құжатты тану жүйелері
Ғылыми зерттеулер мен практикалық жұмыстар бағыттарының бірі құжаттарды тану (түсіну) технологиясы болып табылады. Құжаттарды тану мақсат-міндеттері әрқилы және әр текті, өйткені құжаттардың өзі әр қилы және әр текті. Олардың шешуі сканер, видеокамера немесе басқа да сканерлейтін құрылғыдан алынған құжат бейнесінің талдауы негізінде құрылады. Құжат танудың жалпы мақсаты – ақпарат көрсетімі пішінін графикалықтан адам және программамен қабылданатын түріне өзгерту.Сканердің көмегімен мәтіннің бейнесін графикалық файл ретінде қабылдап алсақ жеткілікті. Әлпетте, мұндай мәтінмен жұмыс жасау мүмкін емес, кез келген сканерленген бейне сияқты, мәтіні бар бет графикалық файл – жай ғана бейне болып ұсынылады. Мәтінді оқуға және баспаға шығаруға болады, алайда өңдеуге және форматтауға болмайды. Құжатты мәтіндік файл түрінде алу үшін, мәтінді тану жұмысыны жүргізу қажет, яғни, бейненің графикалық элементтерін мәтіндік символдардың тізбегіне айналдыру қажет. Графикалық бейнелерді мәтінге айналдыру үшін арнайы мәтінді тану программалары бар (Optical Character Recognition - OCR). Мәтінді тану бұл мақсаттың ең маыңызды процестерінің бірі болып табылады және мәтіннің графикалық бейнесінің символдық пішінге (мыалы, ASCII-код) өзгеруін белгілейді. Қазіргі заманғы OCR көп әрекет жасай білуі керек: тек ғана терілген мәтінді танымай, сонымен қатар, қолдан жазылған жазбаларды да тану білуі керек. Құрамында бірнеше тілде жазылған мәтінді дұрыс тани білу, кестелерді дұрыс тану да жатады. Және де ең бастысы – тек ғана терілген мәтінді ғана емес, шынайылықтан алыс жатқан мәтінді тани білуі керек. Мысалы, сарғайып қалған газеттегі кеспелерді немесе үшінші машинажазбалардың көшірмесін тану сияқтылар. Сонымен қатар, алынған нәтижені ұтымды мәтіндік редаторда(ms word) да сақтау да аса маңызды болған жөн. Яғни, терілген мәтіннің электронды, өңдеуге дайын нұсқасын алу үшін, OCR программасында жеке амалдардан тұратын тізбекті орындау керек.
Алдымен, беттегі мәтіннің орналасу құрылымын анықтау қажет: бағандарды, кестелерді, бейнелерді ерекшелеу. Ары қарай ерекшеленген фрагменттерді мәтінге айналдыру қажет.
Ең көп таралған оптикалық тану жүйелері ішінде мысалы, ABBYY FineReader и CuneiForm от Cognitive.
CuneiForm құжаттарды тану жүйесі мәтіндік процессорлармен, электрондық кестелермен, деректер базаларын басқару жүйелерімен қабылданатын мәтіндегі, яғни редакцияланатын мәтіндегі құжаттың графикалық бейнеленуінің өзгеруін іске асырады. CuneiForm аралас мәтіндермен жұмыс істейді және мәтінді графиктерді пішімді бір құжатта сақтайды.
CuneiForm-мен жұмыс процесі мынадай кезеңдерге бөлінеді: сканерлеу, бейнені жазу, мәтінде тану, мәтінді қарау, мәтінді жазу.
Салық декларацияларын толтыруда, халықты тіркеуді жүргізуде, т.б. түрлі өрістері бар бланктер қолданылады. Қолжазбалалы мәтіндер осы оптикалық тану жүйелері арқылы танылып, компьютер базасына енгізіледі.
Apple фирмасымен 1990 жылы шығарылған алғаш қалта компьютерлерімен қатар, қолжазбаларды тану жүйелері құрыла бастады. Мұндай жүйелер қалта компьютерлері экранына арнайы қаламмен жазылған мәтінді мәтіндік компьютерлік құжатқа айналдырады.
Мәтінді тану программаларын сканерді сатып алу кезінде немесе бөлек сатып алуға болады.
Ең танымал программасы ABBYY компаниясымен ұсынылған FineReader программасы. FineReader – кез келген шрифтта терілген мәтінді тани алады. Прогрмма 176 тілдегі мәтінді дұрыс аудара алады. FineReader программасының барлық нұсқаларының интерфейстері қарапайым, қолдануға түсінікті. Тану процесін бастау үшін, құрал –саймандар тақтасынан , Scan & Read батырмасына басу жеткілікті. Қалған амалдарды программа өзі автоматты түрде аяқтайды. Қолданушыға тек сканерлеудің параметрлерін ғана таңдау қалады. FineReader сканермен TWAIN-интерфейсі арқылы жұмыс істейді. Бұл бірегей халықаралық стандарт 1992 жылы компьютерге бейнені кірістіру үшін құрылғылармен байланыстыруды унификациялау мақсатында енгізілген.
Тану сапасы көбінесе сканерлеу кезінде бейне қаншалықты жақсы алынғанына байланысты болады. Бейне сапасы сканерлеудің негізгі параметрлері арқылы орнатылады: бейне типі, кеңейтілімі және жарықтығы. Сүр түсті сканерлеу тану жүйесі үшін оптималды режим болып табылады. Бұл режимде жарықтық автоматты түрге алынады. Егер сіз бейнедегі түрлі түсті элементтер электронды құжатқа сол күйінде берілсін десеңіз, онда сканерелеудің түсті типіне қою керек. Оптималды кеңейтілімі ретінде жай мәтін үшін 300 dpi және ұсақ шрифтісі бар мәтін үшін - 400-600 dpi кеңейтілімдер алынады.
Тану процесі аяқталған соң, FineReader программасы қолданушыға келесі нұсқаларды ұсынады:арық қарай сканерлеу және тану(көпбетті құжат үшін),немесе алынған нәтижесі белгілі бір мәтіндік форматтарда сақтау үшін, мысалы Microsoft Office-тан HTML-ге немесе PDF-ке. Немесе Word или Excel программасына өтіп, сол жерде өңдеу жұмыстарын жүргізу.
Құжаттарды сканерлеу құрылғысы
Құжаттарды сканерлеу құрылғысы — шығуында құжаттың бір немесе бірнеше бетіндегі мәліметтерге сәйкес электрлік сигналдар пайда болатын құрылғы. Біршама кең тараған құрылғыда фотоэлемент немесе фотоэлементтер сызғылды жарықталған бетті әдістеме бойынша қарап шығады. Уақыттың әрбір сөтінде фотоэлемент кескін элементі деп аталатын беттің тым кіші бөлігінің жарықтығын тіркейді. Екілік формаға айналдыру үшін алынған сигналдарды, әдетте, өңдеу қолданылады. Одан кейін таңбаларды оптикалық танып білу, арнаның өткізу қабілеттілігін немесе сақтауыш құрылғының сыйымдылығын үнемді пайдалану мақсатымен қысу әдістері немесе кескіннің сапасын жақсартатын арнайы өңдеу әдісі қолданылуы мүмкін.
Сканер түрлері:
Барабанды сканерлер, жоғары класты планшеттік сканерлер немесе пленкалар/ диапозитивтер өңдейтін сканерлер;