Из PDF в Excel, когда не все так просто…

Представьте ситуацию, когда вам необходимо провести комплексный анализ некоторого количества пакетов документов по определенной теме (например, различные виды договоров, счетов, актов и т.д.), при этом шаблоны документов и форматы документов в этих пакетах используются разные.

99

Парсер vc.ru

Сегодня я вам покажу парсер статьи на vc.ru.

22

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Я очень люблю готовить, поэтому постоянно закупаюсь ингредиентами для различных блюд. Однако, в последний раз я закупил их слишком много, теперь срок их годности подходит к концу. Но не выкидывать же продукты в мусорную корзину? Конечно, я бы мог использовать их все разом, но вряд ли блюдо в таком случае получится вкусным. Или же приготовить множес…

55

22 сниппета на Python для повседневных задач

22 сниппета на Python для повседневных задач
66

Играем в эпидемиологов

Для того чтобы создать простейшую модель по распространению инфекции, нам потребуется немного математики и небольшой скрипт на python. Модель будет упрощенная, т.е. мы пропустим ряд параметров, влияющих на распространение болезни. Поэтому нельзя сказать, что реальная инфекция распространяется именно так, как на графиках ниже. Хотя некоторые тенденц…

22

Сложности при выгрузке 500 гб из базы данных и пример их решения

Хочу поделиться с вами забавным случаем, который произошел со мной. Была поставлена задача — в кратчайшие сроки выгрузить 500 ГБ информации из базы данных (БД). Но на тот момент места на жестком диске катастрофически не хватало, и не было возможности оперативно очистить или добавить новый. К счастью, в наличии был защищенный файловый информационный…

Выгрузка данных из несвязанных таблиц в отдельные файлы с помощью python

В предыдущей статье мы рассмотрели, как с помощью Python можно создать и запустить SQL запрос с множеством условий для выгрузки информации из баз данных (БД) Oracle в один файл частями.

В данной статье мы расскажем, как использовать рассмотренный скрипт (частично изменив его) для выгрузки записей из различных несвязанных таблиц в отдельные файлы.

22

Как извлечь изображения из PDF c помощью Python, сохраняя их качество?

Есть несколько способов извлечь изображения из файла PDF. Самый простой способ – просто сделать снимок экрана с изображением, присутствующим на любой странице PDF-файла, и обрезать изображение в соответствии с вашими требованиями. Этот способ выглядит очень простым, но что, если в файл PDF содержит 100 или 1000 изображений, и вы хотите, чтобы все о…

55

Выгружаем из базы данных с помощью Python

Задача на выгрузку данных из одной таблицы, с одним условием для фильтра решается посредством создания простого SQL-запроса. Но она легко становится трудоемкой в исполнении, если в фильтрации применить множество условий. Давайте представим, что необходимо выгрузить данные из одной таблицы по фильтру, где первые две цифры ИНН начинаются на «66». SQL…

33

Как применить Process Mining при отсутствии логов? ​

Для своего исследования мы выбрали процесс взаимодействия внутреннего аудита с управлением рисками. Нам интересно было понять — насколько своевременно и качественно организован обмен данными между подразделениями, требует ли процесс оптимизации и если да, то какие шаги мы должны для этого предпринять.

Как применить Process Mining при отсутствии логов? ​
22

Python: как создать простейшего голосового помощника?

В данной статье представлена программа, которая может стать основой для Вашего собственного чат-бота, а если точнее – голосового помощника для распознавания голоса и последующего выполнения команд. С ее помощью мы сможем понять принцип работы наиболее часто встречаемых голосовых помощников.

Python: как создать простейшего голосового помощника?
88

Telegram-бот для получения адреса по локации или координатам (Python)

Привет! Представь ситуацию, когда тебе скинули координаты или локацию, но ты хочешь срочно узнать адрес этого места.

Telegram-бот для получения адреса по локации или координатам (Python)
1313

Как найти однотипную информацию в большом количестве файлов, используя Python?

Недавно мы решали следующую задачу – необходимо найти и удалить содержащие номера карт файлы, размещенные на общем ресурсе. Если нужно было бы искали что-то, определенное и однозначное, мы могли бы воспользоваться поиском в самой операционной системе (используя стандартны поиск текста в содержимом файла). Но, как правило, поиск стандартными средств…

Как найти однотипную информацию в большом количестве файлов, используя Python?
55

Выпускайте GRAKN’a: как найти конфликт интересов между сотрудниками с помощью графа знаний

Предположим, мы аудиторы в неком «Grakn-Банк» и наша задача выявить случаи, когда при устройстве на работу новые сотрудники умалчивают о том, что в банке уже работает их близкий родственник.

Выпускайте GRAKN’a: как найти конфликт интересов между сотрудниками с помощью графа знаний
44

Сбор данных с помощью API Вконтакте

Давайте поговорим о том, как используя API, вы можете получить и отсортировать данные всего несколькими командами. В продолжение темы сбора данных из социальной сети Вконтакте, хотим поделиться своим опытом по поиску пользователей и их друзей.

44

Использование парсера для получения информации из открытых источников (проверки информации)

10000 кадастровых номеров, 30000 записей, источник — веб-сайт, дедлайн — конец рабочего дня. Как выгрузить такой объем данных?

Использование парсера для получения информации из открытых источников (проверки информации)
33