Что читают разработчики ABBYY

Полезные ссылки от Frontend, Backend, DevOps и Mobile.

Начало года – отличная возможность погрузиться в чтение и узнать что-то новое. Спросили наших DevOps-инженеров, Backend, Frontend, Mobile-разработчиков, что они советуют почитать, посмотреть и послушать, чтобы прокачаться в своей профессиональной области, быть в курсе важных новостей ИТ-индустрии или просто расширить кругозор. Сохраняйте себе полезные ссылки и делитесь своими советами в комментариях.

Константин
Principal Software Backend Developer
  • Рассказ Github о том, как они переехали на Codespaces и что это им дало. Эта статья полезна для понимания трендов ускорения разработки на больших проектах с объемной кодовой базой. Подход не то, чтобы новый, говорят об этом давно, но сейчас появилась техническая возможность его реализации, и сразу несколько крупных игроков, такие как Microsoft и Jetbrains, представили готовые продукты. В этой статье нет никаких сложных технических деталей, нужно только понимать в общих чертах, что такое IDE (интегрированная среда разработки) и зачем она нужна.
  • You Suck at Excel. Доклад одного из основателей StackOverflow о том, как можно повысить продуктивность при использовании Excel. Несмотря на то, что далеко не все программисты в работе используют эту программу, инструмент на самом деле очень мощный и полезный. В докладе демонстрируются лучшие практики и лайфхаки работы с Excel – пригодится всем, кто применяет его в работе.
  • Ежерелизный обзор Стивена Тауба по performance в net6.0. Уже ставшая традиционной статья одного из топовых разработчиков .NET о том, что было сделано в новой версии платформы с точки зрения performance. Статья очень объемная и требует серьезных знаний о том, что у .NET под капотом. Материал разбит на блоки, поэтому можно читать только те части, которые интересны вам. Также к каждому блоку приложены ссылки на Github, если хочется почитать код. Стоит сказать, что большинство разработчиков работают с более высокоуровневыми абстракциями, поэтому непосредственно в работе применить подобные знания будет сложно. Тем не менее, любопытно узнать, как тюнят фреймворк, на котором ты пишешь :)
  • Чарльз Пертцольд «Код». Шикарная книга от популяризатора Windows. Основательный экскурс в то, как появились компьютеры. Электродинамика, реле, логические вентили, транзисторы и все новые и новые абстракции, на основании того, что уже знаешь. Эта книга полезна еще и тем, что поможет освежить в голове школьные и университетские знания, а иногда – даже и поискать новую информацию по теме.
  • Чумачечий доклад про performance анализ. Андрей – создатель BenchmarkDotNet и признанный специалист в performance тестировании, очень интересно, с юмором и множеством примеров рассказывает, с чем вы столкнетесь, если решите окунуться в performance-анализ. Несмотря на то, что тема непростая, рассказ воспринимается очень легко и приятно. Этот доклад я рекомендую буквально всем, но особенно он будет полезен людям, которые проводят нагрузочные тестирования и впоследствии интерпретируют результаты этих тестов.
Павел
Руководитель DevOps-направления
  • Nicole Forsgren, Jes Humble, Gene Kim. Accelerate. В книге рассказывается о том, как эффективность доставки программного обеспечения влияет на прибыльность, производительность и долю рынка, а также на некоммерческие показатели: продуктивность, работоспособность, удовлетворенность клиентов. Подойдет как руководителям, так и рядовым DevOps-инженерам, которые хотят понимать, какие ключевые метрики позволяют оценить, как влияет внедрение DevOps-практик и инструментов на цифровые продукты компании и на компанию в целом и что можно сделать, чтобы улучшить эти показатели.
  • John Arundel, Justin Domingus. Cloud native DevOps with Kubernetes. Дает понимание, как с помощью Kubernetes можно строить цифровые продукты, как ускорить доставку цифровых продуктов и уменьшить количество ошибок в процессе доставки. Так как Kubernetes уже используют многие компании для оркестрации контейнеров, его изучение является обязательным для DevOps-инженера.
  • Viktor Farcic. The DevOps 2.0 Toolkit. Хороший обзор инструментов и подходов, которые используются DevOps-инженерами изо дня в день. Это CI/CD, микросервисная архитектура, виртуализация и контейнеризация, docker, service discovery tools, инструменты автоматизации, observability. Книга на данный момент, возможно, немного устарела, но главное в ней – это не столько конкретные инструменты, сколько подходы. Инструменты меняются все время, но, если ты как инженер понимаешь суть проблемы и знаешь, какой подход использовать, то ты сможешь взять инструменты, имеющиеся на данный момент, и выбрать оптимальный. Книга подойдет начинающим DevOps-инженерам и middle-уровню.
  • Certified Kubernetes Administrator (CKA) with Practice Tests и Kubernetes CKS 2021 Complete Course - Theory - Practice. Это курсы сертификации Kubernetes, которые дают понимание об использовании этой технологии как платформы для размещения приложений. Первый курс можно проходить с минимальными знаниями Kubernetes, но нужно понимать, что инженер уже должен обладать знаниями Linux, Docker, Networking. Второй курс имеет смысл изучать, когда ты уже работаешь с Kubernetes, так как вопросы безопасности идут неразрывно с вопросами построения надежной отазоустойчивой инфраструктуры.
Владимир
Frontend Developer
  • Youtube-канал «АйТи Синяк». Автор подкаста – фронтендер со стажем работы более семи лет в HTML, CSS и JS. Много информации, поделенной на рубрики: «Паттерны проектирования», «UiKit», «Frontend SOLID», «ReactJS под капотом». Канал скорее рассчитан на уровень от Middle и выше. Будет полезен для построения сильной теоретической базы и глубокого понимания устройства React-библиотеки.
Юрий
Руководитель мобильной разработки
  • Михаил Рубанов «Про доступность iOS». Автор книги рассказывает о том, как адаптировать мобильные приложения для людей с ограничениями зрения и подвижности. Ребята из Dodo Pizza реально заморочились, чтобы их приложением было удобно пользоваться разным людям, да еще и поделились полезной информацией, как это сделать другим. Это соответствует и ценностям Apple, которая тоже уделяет много внимания доступности своих технологий.

А вы что интересного прочли в своей профессиональной области за последнее время? Делитесь в комментариях!

0
23 комментария
Написать комментарий...
Сергей Добрицкий

А когда реализуете нормальный finereader?

Ответить
Развернуть ветку
ABBYY
Автор

Расскажите, что хотелось бы добавить? Вообще мы регулярно обновляем текущую версию FineReader PDF, - как и другие наши решения. Из последних новостей, связанных с ним: добавили версию для мобильных устройств - теперь можно отправлять сканы из мобильного FineReader в продукт на ПК, улучшили интеграцию с Microsoft Office, а редактировать документы теперь можно с помощью списка ключевых слов.Не знаем, норма ли это, но стремимся к ней всеми силами :) Будем рады услышать, что еще можно улучшить.

Ответить
Развернуть ветку
Сергей Добрицкий

Рад что вы открыты к обратной связи и у вас есть чувство юмора.

Что касается файн ридера, в целом он хорош и вы молодцы, но есть вещи которые печалят.

1. При использовании инферфейса сканирования файнридера неудобно что например ты сканируешь первый документ цветным, а потом второй хочешь сделать серым, и нажимаешь на кнопку "просмотр" то автоматически происходит сканирование в цветном режиме, только после этого я могу поменять с цветного на серый, из-за этого тратится много времени.

2. Нет возможности назначения горячих клавиш, и чтобы нажать сканировать далее каждый раз приходится наводить мышкой на кнопку, а если использовать кнопку сканера, то она предлагает выбрать приложение и соответственно это тот же самый клик мышкой только ещё дольше и больше.

3. Самое противное это нумерация страниц.

Допустим я сканирую 300 листов а4, и поьом в конце хочу изменить первые пять страниц которые получились плохо и я их решил заново пересканировать.
Я не могу допустим отсканировать 301ю, и указать ей номер 0 чтобы она стала первой.

Нужен инструмент позволяющий управлять нумерацией.

Попробуйте каждый раз 301 страницу тащить в начало документа, потом 302ю и так далее.

4. Следующий момент, допустим я отсканировал страницу, хочу понять норм мне яркость или нет, я захожу в редактор выбираю "исправление фотографий" "осветлить фон" и он портит всё, я понимаю что это автоматическая обработка, но дальше мне нужно будет заново пересканировать, а настройки режима сканирования слетают и это очень тратит время и выбешивает.

5. Порой сшитые документы, когда сканируешь, они в получаются под наклоном, и приходится это изображение извлекать редактировать в фоторедакторе и потом заново закидывать, хотелось бы возможность влиять на нумерацию при добавлении, а не сразу чтобы по порядку.

6. В панели навигации не хватает перейти в начало документа, и перейти в конец, хотя было бы классно и выбор перехода к нужной странице как в читалках.

В целом 15 версия хороша.
Недавно попробовал vue scan, он так себе.

Ответить
Развернуть ветку
ABBYY
Автор

Ух ты, спасибо за конструктивную критику! Мы спросили нашу поддержку, и вот что они ответили:
1 – Спасибо, отправили ваш комментарий в отдел исследований и разработок. Уже думаем, как это сделать удобнее.
2 – Да, действительно, так не очень удобно. Можно попробовать использовать сочетание клавиш Ctrl+Shift+K. Сканирование начнется сразу, только страница добавится в конец.
3 – С нумерацией можно попробовать опцию Изменить порядок страниц (Перенумеровать страницы). Написали инструкцию, чтобы было проще разобраться: https://help.abbyy.com/ru-ru/finereader/15/user_guide/batchwork/#pagereorder . Единственный момент: этой опцией можно пользоваться только для уже отсканированных страниц.
4 – Тут просим уточнить, в чем проблема: слетают настройки режима сканирования? Или проблема с редактором изображений? Если речь о последнем, то там можно отменить последние изменения с помощью клавищ Ctrl+Z.
5 – Для редактирования изображения можно попробовать изменить настройки предобработки. Есть подробная инструкция с картинками, отправим вам в личку и дадим полезные ссылки.
6 – Для управления страницами и, в частности, переходу к определенной странице, можно использовать следующие команды:
Перейти к странице с номером... Ctrl+G
Перейти к следующей странице Ctrl+↓
Перейти к предыдущей странице Ctrl+↑
Перейти к первой странице Ctrl+Home
Перейти к последней странице Ctrl+End
Все горячие клавиши собрали по ссылке: https://help.abbyy.com/ru-ru/finereader/15/user_guide/hotkeys/#ocr_view
Если будут еще уточнения, пишите, пожалуйста, постараемся помочь :)

Ответить
Развернуть ветку
Никита

vc.ru никто не читает что ли?

Ответить
Развернуть ветку
Сергей Добрицкий

Кто-то читает)

Ответить
Развернуть ветку
niccolo

Никогда они не реализуют. Если люди задают такие вопросы - чего от них ждать.
Abbyy
1. Сравните ваш редактор изображений с теми же СканКромсатор - который разрабатывает 1!!!!!!! человек, скантайлор - и поплачьте.....
Про то, что с такой структурой пакета у вас не нашлось в нём места для сохранения оригиналов, которые отдельные функции предобработки МОГУТ БЕЗВОЗВРАТНО ИСПОРТИТЬ — ???????!!!!!!!!!!!!!!!

2. Если у вас остался кто-нибудь, кто помнит версию 8 сравните поведение ластика там и в новых версиях - а чтобы лучше сравнивалось - возьмите в новой версии чертёж, расставьте что- автоматом, что вручную сотню другую блоков, а потом ластиком.....

3. Отсутствие кругового поиска — это жесть...

4. Выбор языков в выпадающем списке вместо выбора кнопками - это ППЦ.

5. В табличных блоках - функция объединения строк есть, а на столбцы - ума не хватило?

В 15 версии в книжке страниц на 500 jpg попробуйте исправить блоки на странице и перераспознать — не знаю, что делала программа, но потратив пару секунд на перераспознавание она ещё до минуты висела, не давая ничего делать.... Полагаю это обусловлено структурой пакета, в котором распознанный текст находится в одном файле и после каждого перераспознавания этот файл повторно собирается и перезаписывается.... Грамотность решения даже не поддаётся оценке.....

6. Перейти к предыдущей странице Ctrl+↑ — раньше было CTRL+.... Интересно - если педали тормоза и газа вам в машине местами поменять - много восторга будет....

7. До сих пор, не знаю почему, наверное от большого старания, ОЧЕНЬ много ошибок распознавания ьно - ЫЮ и других не сильно распространённых сочетаний букв для разных языков....

8. Глюки с разбивкой на строки во встроенном редакторе в разных режимах.... Точно помню, что были, но не скажу, в каких режимах....

9. Невозможность избавиться от ТАБов при экспорте в док.... Где мозг....

И это недостатки, набросанные по памяти за 10 минут......

А вообще - берёте какой-нибудь том Шломана - распознаёте и приводите к исходному виду - недостатков вылезет столько - что вместо вопросов - только работать надо будет.

Ответить
Развернуть ветку
ABBYY
Автор

Спасибо за ваши комментарии!

Если мы не опознались, то вы раньше общались с нашей продуктовой командой. С того времени мы много что обновили, в том числе по вашим предыдущим замечаниям. Из того, что вспомнили навскидку: добавили еще пару лет назад возможность отредактировать тип блока вручную и вызвать распознавание без запуска анализа. В 15-й версии добавили режим извлечения текстового слоя из PDF – то есть, если он уже есть в PDF в хорошем качестве, то распознавать не нужно.

Новые комментарии тоже передадим продуктовой команде, если у вас будет время и желание предоставить дополнительную информацию и скрины нашей техподдержке. По пунктам 1,5,7,8 желательно посмотреть на примеры, по пункту 3,4 – просим рассказать о проблеме немного подробнее. Изучим - и будем дальше работать над продуктом :)

Ответить
Развернуть ветку
niccolo

Да общался 10 лет, еще на форуме по FineReader, и сделано было с гулькин нос, точнее почти ничего.....

1. Возможность изменения типа блока есть в 8 версии, раньше не помню....
2. Режим извлечения текста из PDF вместо распознавания тоже есть в 8 версии.

В связи с этим вопрос — а вы компетентны обсуждать вопрос? Вы свои продукты знаете? Сколько и чего вы распознали и привели в божеский вид с помощью ФР, желательно разных версий, за последний год?

1. По п. 1. Skankromsator - сложная программа. Но функции, которые в ней реализованы обгоняют ваш недоделанный редактор с вашими темпами работы на столетия.... С подходом просто посмотреть - вы ничего не увидите.
Честно говоря, чтобы не тратить силы, для грамотного приложения которых у вас я не вижу ни ума ни идей посоветую лучше договориться с разработчиком SK и просто постараться обеспечить максимально простое взаимодействие с этой программой, что не должно представлять сложности, учитывая тот факт, что в ней информация о пакете полностью открыта....

По п. 5,7,8 - что смотреть - я вам который раз говорю - возьмите любой том Шломана попробуйте распознать и вычитать и вы всё увидите...

п. З текстовый поиск - искать выше и ниже есть, а искать по кругу - т.е. с автопереходом от первой страницы к последней или наоборот и обратно до текущей - нет. Решение когда-то возможно оправданное, но на сегодняшний день — странное.

по п. 4 - рабочих языков у распознавальщиков единицы - гораздо проще вытащить наверх пяток - десяток кнопок наиболее распространённых языков и переключать их нажатием, нежели копаться в выпадающих списках. То же самое касается и свойств блоков, ячеек таблиц и т.п., тем более что в свойствах блока языки как правило только те, что выбраны для распознавания документа.....

Я когда то написал иллюстрированную статью о том, как такая передовая компания уже 20 лет лажает в доведению до ума эргономики своих программ, но, видимо из-за «хороших» отношений хабр её завернул... Нетерпимость к разумной критике - обычно серьёзный звоночек того, что компания стала на нисходящую....

Изучим - и будем дальше работать над продуктом :)

Эти пустые слова (а еще «мы передадим полученную информацию в отдел разработки») я слышу лет 10 а может и больше..... ФР пухнет, превращается в страшного тормозного монстра, а результаты лучше не становятся...... Одно радует с такой разработкой - может хоть скоро всё оцифруют и необходимость в нём отпадёт. И кстати - а где можно пообщаться не просто с передастами информации из отдела в отдел, а с людьми принимающими решение и делающими?

Кстати туда же - про ПДФ - если бы вы работали нормально - вы бы знали о проблеме кривого маппинга шрифтов в ПДФ, сделанных в старых версиях продуктов ADOBE... В них толком не работает ни поиск, ни копи-паст.. Для кириллицы это просто беда....

Автоматического решения проблемы нет до сих пор. А ремапить вручную кучу шрифтов в Инфиксе, чтобы потом только в инфиксе этот файл стал нормальным, занятие так себе.....

Очень странно, что вы этой проблемы не заметили...
Сравнение ПДФ при смещении полос, не говоря уже про полное перемакетирование одного из документов, тоже работает неидеально и непонятно, как сопоставить блоки текста, которые надо сравнивать, если программа не смогла сама корректно определить их....

Про распознавание формул, возможность экспорта изображений с наложенными блоками в версии вниз, ластик, редактирование изображений без потери расставленных блоков (и это при наличии встроенной функции сохранения и наложения блоков!!!!!) (для масштабируемых изображений нужно, по хорошему, не забыть о масштабировании и блоков) (а еще лучше просто сохранять информацию о пакете в простом текстовом файле, как это делает Кромсатор), правку встроенных словарей, перенос вклеек в книгах (подписи к таблицам, рисункам) в разрывы между абзацами или главами, минимизация Style Hell в новых версиях, возможность залочки от перераспознавания отредактированных вручную блоков текста, задание зон нераспознавания (чтобы автоматом не распознавать колонтитулы и нумерацию страниц) вместо часто некорректно работающего определения колонтитулов — это глас вопиющего в пустыне, но на работу и пути улучшения программы, я так понимаю, не тянет...... ПЕЧАЛЬНО....

Кстати по поводу рассылки от Лингво, вот такое мнение от коллег
«Коллеги, вы видели, какой дурацкий опросник рассылает Лингво? Маркетинг пытается понять, сколько можно будет брать денег за пользование их продуктом в год!»

ДУРАЦКИЙ!!!!!!! После 8 лет забивания, тихой замены части нормальных словарей на какие-то убогие при переходе X5-X6, похорон Лингводы, каким образом вы хотите вернуть былую популярность и авторитет? Вопросом - сколько денег взять? За что!!!??? Только за то, что новая версия может быть будет менее проблемно ставиться и запускаться на W10-W11, или может за добавление Шломана, которого я отослал вам - так я его и так свободно выложил, или? Может поясните?

Ответить
Развернуть ветку
Алексей

Здравствуйте!

Что бы хотелось увидеть в новых версиях Finereader:

1. Поддержку нескольких мониторов - чтобы окно "Распознанный текст" или "Крупный план" можно было перетащить на второй монитор.

2. Возможность использования в предобработке и анализе страницы скриптов на Python.

Ответить
Развернуть ветку
ABBYY
Автор

Здравствуйте! Крутые идеи. Спасибо, отправили ваш комментарий коллегам, обещали подумать, что можно сделать.

Ответить
Развернуть ветку
niccolo

Идеи нихрена не крутые, а просто насущные для тех кто работает с программой...

Ответить
Развернуть ветку
Алексей

И вы их за последние десять лет уже неоднократно высказывали, верно?

Ответить
Развернуть ветку
niccolo

Высказывал, много раз, начиная версии с 9, ещё на форуме Finereader.ru...
И всё время было одно и то же - мы передадим в отдел разработки........
Печально......

Ответить
Развернуть ветку
Олег

1. Основная проблема всех версий, после распознавания скана, FR на выходе выдает в десятки раз увеличенную версию PDF.
Библиотеки уже научились обходить это, но до сих пор, в РГБ, РНБ и других библиотеках, множество гигабайтных сканов. Получившихся их 50-200 Мб.

2. Если редактировать распознанный текст методом замены - заменить на..., то невозможно откатить изменения.
Кнопка - Отменить Ctrl+Z неактивна.

3. Почему в новых версиях вы планируете отказаться от старых версий виндовс? Из за одной программы предлагаете менять всю систему.
Где масса установленных программ и личных настроек?

Ответить
Развернуть ветку
ABBYY
Автор

Здравствуйте!
1. Да, такая проблема была в предыдущих версиях. В ABBYY FineReader PDF 15 файлы уже не получаются такими огромными. Если все-таки какой-то файл получился непомерно большим, пришлите, пожалуйста, пример документа нам в техподдержку, будем разбираться.
2. Это пожелание передали команде разработки, спасибо.
3. От поддержки старых версий Windows постепенно отказываемся с выходом новых, так как сам продукт тоже развивается. Мы добавляем в FineReader новые технологии и функции, которые не поддерживают старые версии винды. Правда, речь идет о версиях Windows старше десяти лет – по ссылке можно посмотреть, какие ОС мы сейчас поддерживаем: https://pdf.abbyy.com/ru/specifications/ . Сама Microsoft тоже в какой-то момент перестает поддерживать свои старые версии, в результате во многих программах появляются ошибки и уязвимости – не только у нас. Поэтому по возможности советуем обновляться периодически.

Ответить
Развернуть ветку
niccolo

В 15 версии файлы уже не получаются такими огромными ——— Ха-ха-ха.......

Скачайте Шломана с publ.lib.ru и попробуйте удержаться в его размере при добавлении текстового слоя без ухудшения качества картинок......
При любых настройках увеличение размера было от кратного до многократного.

Ответить
Развернуть ветку
Олег

Проблема № 1 не решена. Я ежедневно сканирую книги различного формата в FR 15, увеличение объема изначального PDF в 3-5 раз практически всегда, просто давно добавляю текстовой слой от FR к оригинальному PDF, так что для меня проблема решена.
Но вот многие не знают этой фишки, распознают и выкладывают в интернет довольно редкие книги огромных размеров. А за неимением оригинала их этим способом не обработать. Так что приходится забивать диск лишними Гигабайтами.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
niccolo

И еще один момент....
Если бы вам продавец лопаты/молотка сказал, что через 3 года за лопату нужно будет доплатить, иначе она не будет копать/забивать гвозди — чтобы вы сказали такому продавцу????

Я думаю, намёк понятен....

Насколько должны быть лучше такие лопаты и молотки, по сравнению со старыми или других моделей без ограничений?

Я даже могу вам вполне конкретный пример назвать - БП часто ищут верстальщиков на перевёрстку сканов/PDF для последующей работы. Вот доведите FR до ума настолько, чтобы результаты сохранения соответствовали требованиям БП и с ними тогда вы можете пообсуждать вопрос о постраничной оплате.... Но это потребует РАБОТЫ, а не потирания причиндалов дипломами ФИЗТЕХа......

По поводу 2-мониторных конфигураций - я бы сначала посоветовал задуматься об оптимизации программы под широкие моники с дефицитом высоты и избытком ширины....
Отсутствие заметных улучшений в эргономике ваших продуктов начиная с самых стародавних версий — это показатель того, как грамотно и интенсивно вы ими пользуетесь, и соответственно того, насколько вы видите реальные проблемы и пути улучшения своих продуктов...

По поводу обработки Питоном результатов распознавания - тут наверное лучше подумать об их экспорте в текст, обработке где-угодно и чем угодно - регвырами, питоном, перлом, JS etc..... и обратным импортом в пакет и привязкой хотя бы на уровне абзацев, третей или четвертей страницы..., учитывая то, что FR до сих пор для большинства основной инструмент создания ебуков с возможностью поиска.......

Да еще один момент — стариковский —- опять про эргономику - различать надписи, похожие и одинаково серые элементы интерфейса становится всё затруднительнее или приходится масштабировать экран, что уменьшает размер рабочей зоны....

Подумайте — почему на светофоре три разных цвета - а не три одинаковых цвета с тремя разными надписями, которые бы для полного микрософто-программистского кайфа нужно было бы сделать мелким шрифтом.....

В табличном окне пакета тоже можно было бы выделять цветом страницы с уровнем ошибок/количеством блоков больше/меньше, наличием блоков определённого типа - напр, таблиц или картинок и т.п. — для быстрого понимая где-что /исправления самых грубых ошибок распознавания для последующего создания книг с поиском....

Ответить
Развернуть ветку
ABBYY
Автор

Спасибо за развернутые ответы. Видим, что вы активно пользуетесь программой, и за 10 лет накопилось много новых комментариев: про текстовый поиск, свойства таблиц, сравнение в PDF, двухмониторные конфигурации. Самое эффективное, хоть и прозвучит избито, - действительно общаться напрямую через техподдержку. Все обращения как раз смотрит продуктовая команда. Правда, им может понадобиться больше информации – скриншоты и примеры. Пожелания в любом случае передаем коллегам, они их берут на заметку.

Ответить
Развернуть ветку
niccolo

По поводу лингво вами писать, или им у вас другой отдел занимается?

1. Теговое форматирование в словарях последних версий (X5-X6) - ужасное.
2. Состав словарей в X6 в сравнении с X5 вполне тянет на то, чтобы требовать возврата денег, причём именно в самой дорогой версии....
3. Количество недоделок в словарях русской коллекции просто за гранью допустимого - значительные пропуски в Дале, Ушакове, Кузнецове, БЭСе (что посмотрел более менее внимательно) не считая сотен подвешенных ссылок, часто обусловленных орфоошибками...
4. Отсутствие настройки интерфейса - например модной чёрной темы..., выделения оригинала или перевода в примерах ([ex] по тегу [lang]) - вообще настройка цветовой гаммы оформления.....
5. Неудобные выпадающие списки выбора языков......
6. Автопереключение языков в разноалфавитных парах — проверка вставленного текста и поиск в соотв. паре...
7. невозможность вытянуть наверх словарь по тематике перевода.....
8. При добавлении словарей через dictconf.ini вдруг выяснилось, что он требует алфавитного порядка словарей по названиям!!! независимо от языкового направления - т.е. получается каша из словарей, либо словари надо переименовывать, ставя языковую пару вперёд.....
Этим приходится заниматься из-за убогости менеджмента словарей.
9. Невозможность добавления словарей других языков в другие языковые пары - например англо-редкоязычных в русско-редкоязычные, где часто приходится работать через язык, или латинских словарей в тексты, насыщенные латынью и т.п.
10. Невозможность правки ошибок в словарях на лету с передачей этой информации вашим лексикологам для работы через мессенджеры, почтой или прямо.
11. Отсутствие тихого фонового индексирования.
12. Убогость компилятора словарей — отсутствие фонового режима, отсутствие пакетного режима (по списку, по дате), автокомпиляция и индексирование изменившихся словарей, отсутствие настройки выводимых предупреждений.... (к чему предупреждать например о неалфвитных символах в химических словарях или почему для латиницы - кириллица в заголовках предупреждение, наоборот — нет). В идеале параметр в словаре, на какие предупреждения его проверять/не проверять и другие опции компилятора (добавлять разметку или нет - отсутствие параметра - опции определяются настройками компилятора)........
13. Панелька ввода неалфавитных символов например для химических/физических словарей с обилием греческих обозначений.
14. Настройка автозакрытия только вторичных окон т.е. чтобы оставалось при переключении только окно программы и окно искомого слова.
15. Настройка справочного словаря для проверки значения слов на языках — например БСЭ для русского, Британники или словаря синонимов для английского и т.п.
16. Настройка символа скрытия заголовка из окна для работы с многоязычными словарями индексного типа типа шломана - чтобы в окне программы не было кучи этих v-xx-xxxx.
17. Разруливание ситуации с добавлением таких словарей во все языки из одного экземпляра вместо кучи - например со шломаном - его добавление сразу во все языковые пары с индексацией в них по тегу lang.
18. Возможность вывода картинок в окне фиксированного размера с масштабированием под это окно и кнопкой в нём - в полный размер для просмотра мелких деталей на больших картинках....
19. Запихивание abrv и ann в файл словаря в соответствующие секции....
20. Избавление от множественности тега lang (id, name) и привязкой к трёхзначным кодам языков ISO (компилятор должен автоматом вносить соответствующие исправления в копию словаря для новой версии)....
21. Решение проблемы с таблицами в словарях.
22. Поддержка UTF8 компилятором по BOM.
23. Автоматическое добавление разметки для поиска в словари без trn. (А флажок должен быть - не добавлять такую разметку, если её нет - для какого-то специфического использования)......

Как бы основное......

Ответить
Развернуть ветку
Алексей

Я и не предлагал обрабатывать Python'ом результаты распознавания.
Я предлагал задействовать его на стадии предобработки - из-за большого разнообразия как качества сканов, так и структуры/содержимого страниц.

Ответить
Развернуть ветку
niccolo

Вот видите, даже у 2 человек разный подход к предобработке - вы за Питон, я за Сканкромсатор.... А сколько еще других вариантов может быть.... Выход только один - простая и ясная структура исходных данных, примерно как в сканкромсаторе.... Ну а чем и как их потом обрабатывать, каждый сам пусть решает.

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда