Применение машинного обучения и Data Science в промышленности

Все коды на Python и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Применение машинного обучения и Data Science в промышленности

Написал материал для своего проекта «Нейрон», в котором я рассказываю о машинном обучении, искусственном интеллекте и Data Science. И делаю так, чтобы всё это стало понятным.

Если среди читателей есть те, кто желает добавить свой интересный проект в любую из подотраслей, пожалуйста, свяжитесь со мной. Я добавлю его в список.

Итак, давайте начнём изучение.

1. Недвижимость и питание

1.1. Питание

  • RobotChef — совершенствование рецептов еды на основе отзывов пользователей.
  • Food Amenities — прогнозирование спроса на пищевые продукты с использованием нейронных сетей.
  • Recipe Cuisine and Rating — предсказание названия кухни любого блюда на основе списка его ингредиентов.
  • Food Classification — пищевая классификация еды с использованием библиотеки Keras.
  • Image to Recipe — перевод изображения еды в рецепт его приготовления.
  • Calorie Estimation — оценка калорийности по фотографиям еды.
  • Fine Food Reviews — сегментационный анализ еды на основе отзывов с Amazon Fine Food.

1.2. Рестораны

  • Restaurant Violation — прогнозирование нарушения правил проверки продуктов питания.
  • Restaurant Success — предсказание, будет ли ресторан успешным.
  • Predict Michelin — предсказание того, что ресторану дадут звезду Мишлен.
  • Restaurant Inspection — анализ уровня лояльности к ресторану и популярностью на основе оценок по Yelp.
  • Sales — прогнозирование продаж у ресторанов с LSTM.
  • Visitor Forecasting — бронирование и прогнозирование количества посещений.
  • Restaurant Profit — ресторанный регрессионный анализ.
  • Competition — анализ конкурентоспособности ресторана.
  • Business Analysis — проект по анализу ресторанного бизнеса.
  • Location Recommendation — рекомендация о будущем местонахождении ресторана.
  • Closure, Rating and Recommendation — три задачи прогнозирования с использованием данных Yelp.
  • Anti-recommender — рекомендация ресторанов, которые вы (на основе ваших предпочтений) не захотите посещать.
  • Menu Analysis — анализ ресторана на основе его меню.
  • Menu Recommendation — рекомендация новых ресторанов на основе вашего любимого меню.
  • Food Price — прогнозирование стоимости продуктов питания.
  • Automated Restaurant Report — автоматический ресторанный отчёт на основе машинного обучения.

1.3. Недвижимость

  • Peer-to-Peer Housing — влияние одноразовой аренды жилья на её состояние.
  • Roommate Recommendation — рекомендация соседа по комнате.
  • Room Allocation — распределение помещений.
  • Dynamic Pricing — расчёты динамического ценообразования в отеле.
  • Hotel Similarity — сравнение конкурирующих отелей друг с другом.
  • Hotel Reviews — отзывы об отелях.
  • Predict Prices — предсказание цен на номера в отелях.
  • Hotels vs Airbnb — сравнение отелей с Airbnb.
  • Hotel Improvement — анализ отзывов для отеля.
  • Orders — прогноз отмены заказов для отелей.
  • Fake Reviews — распознавание, являются ли отзывы поддельными или спамом.
  • Reverse Image Lodging — нахождение нужного вам жилья по изображению.

2. Бухгалтерский учёт

2.1. Machine Learning

  • Chart of Account Prediction — использование промеченных данных для имени учётной записи каждой транзакции.
  • Accounting Anomalies — выявление аномалий в бухгалтерском учёте.
  • Financial Statement Anomalies — обнаружение аномалий (используя R) перед подачей документов в налоговую.
  • Useful Life Prediction (FirmAI) — прогнозирование срока полезного использования активов с помощью сенсорных наблюдений и разработки функций.
  • AI Applied to XBRL — стандартизированное представление XBRL в AI и ML.

2.2. Аналитика

  • Forensic Accounting — сборник тематических исследований по криминалистическому учёту с использованием анализа данных.
  • General Ledger (FirmAI) — обработка данных в FirmAI.
  • Bullet Graph (FirmAI) — визуализация Bullet Graph помогает отслеживать продажи, комиссионные и другие показатели.
  • Aged Debtors (FirmAI) — пример анализа для выявления должников.
  • Automated FS XBRL — набор файлов PDF, содержащих более 700 страниц информации о XBRL.

2.3. Текстовый анализ

  • Financial Sentiment Analysis — анализ рычагов оптимизации в торговле.
  • Extensive NLP — комплексные НЛП методы для бухгалтерского учёта.

2.4. Данные, парсинг и API

  • EDGAR — пошаговое руководство по получению данных EDGAR.
  • PyEDGAR — библиотека для загрузки, кэширования и доступа к файлам EDGAR.
  • IRS — доступ и анализ файлов IRS.
  • Financial Corporate — наборы корпоративных финансовых данных Rutgers.
  • Non-financial Corporate — нефинансовый корпоративный набор данных Rutgers.
  • PDF Parsing — извлечение полезных данных из документов PDF.
  • PDF Tabel to Excel — создание файла Excel из данных в PDF.

2.5. Исследования и статьи

  • Understanding Accounting Analytics — статья, посвящённая важности бухгалтерской аналитики.
  • VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.

2.6. Веб-сайты

  • Rutgers Raw — исследования в области цифрового бухгалтерского учёта от Rutgers.

2.7. Курсы

  • Computer Augmented Accounting — видеоролик из Университета Rutgers, посвящённый использованию вычислений для улучшения бухгалтерского учёта.
  • Accounting in a Digital Era — ещё одна серия статей Университета Rutgers, посвящённая влиянию цифрового века на бухгалтерский учёт.

3. Сельское хозяйство

3.1. Экономика

  • Prices — первый прогноз цен на сельскохозяйственную продукцию.
  • Prices 2 — второй прогноз цен на сельскохозяйственную продукцию.
  • Yield — сельскохозяйственный анализ урожайности в Украине.
  • Recovery — стратегическое использование земель в сельском хозяйстве с учётом восстановления экосистем.
  • MPR — данные отчётности по ценам на сельхозпродукцию от Министерства сельского хозяйства США.

3.2. Разработка

  • Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков.
  • Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах.
  • Assistant — ноутбуки от виртуального ассистента по сельскому хозяйству.
  • Eco-evolutionary — эко-эволюционная динамика.
  • Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям.
  • Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.

4. Банковское дело и страхование

4.1. Потребительское финансирование

  • Loan Acceptance — принятие решений о ссуде на основе классификации и анализа временных рядов.
  • Predict Loan Repayment — прогнозирование погашения кредита с помощью функции автоматизированного проектирования.
  • Loan Eligibility Ranking — система, которая помогает банкам проверять, может ли клиент получить данный (определённый) кредит.
  • Home Credit Default (FirmAI) — прогнозирование дефолта по кредиту.
  • Mortgage Analytics — обширная аналитика ипотечных кредитов.
  • Credit Approval — система для одобрения кредитной карты.
  • Loan Risk — прогнозная модель, помогающая уменьшить списания и потери процентов с кредитов.
  • Amortisation Schedule (FirmAI) — простой график амортизации в Python.

4.2. Управление и операции

  • Credit Card — оценка CLV клиентов кредитной карты.
  • Survival Analysis — анализ LTV клиентов.
  • Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции.
  • Credit Card Churn — предсказание оттока клиентов с кредитными картами.
  • Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии.
  • CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.

4.3. Оценка

  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.
  • Real Estate — прогнозирование цен на городскую недвижимость.
  • Used Car — прогноз цен на подержанный автомобиль.

4.4. Мошеничество

  • XGBoost — обнаружение мошенничества путём настройки гиперпараметров XGBoost.
  • Fraud Detection Loan in R — обнаружение мошенничества в банковских кредитах.
  • AML Finance Due Diligence — поиск новостных статей для финансирования AML DD.
  • Credit Card Fraud — обнаружение мошенничества с кредитными картами.

4.5. Страхование и риски

  • Car Damage Detective — оценка повреждений автомобиля с помощью свёрточных нейронных сетей.
  • Medical Insurance Claims — прогнозирование претензий по медицинскому страхованию.
  • Claim Denial — прогнозирование отказа от страхового возмещения.
  • Claim Fraud — прогнозные модели, позволяющие определить, какие претензии в отношении автомобилей являются мошенническими.
  • Claims Anomalies — система обнаружения аномалий для данных страховых претензий.
  • Actuarial Sciences — ряд актуарных инструментов в R.
  • Bank Failure — предсказание банкротства.
  • Risk Management — финансирование курсов по управлению рисками.
  • VaR GaN — оценка стоимости управления рыночным риском с использованием Keras и TensorFlow.
  • Compliance — управление соответствиями с требованиями банка.
  • Stress Testing — ECB стресс-тестирование.
  • Stress Testing Techniques — ноутбук с различными упражнениями на стресс-тестирование.
  • BoE stress test — результаты стресс-теста и составление графика.
  • Recovery — возмещение причитающихся денег.
  • Quality Control — контроль качества банков с использованием LDA.

4.6. Полезное

  • Bank Note Fraud Detection — аутентификация с использованием DNN Tensorflow Classifier и RandomForest.
  • ATM Surveillance — использование банкоматов в банках.

5. Биотехнологии и наука

5.1. Общие

  • Programming — программирование на Python для биологов.
  • Introduction DL — учебник по углубленному изучению геномики.
  • Pose — оценка позы животных с использованием DL.
  • Privacy — обмен клиническими данными, с сохранением конфиденциальности.
  • Population Genetics — DL для популяционного генетического вывода.
  • Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике.
  • Applied Stats — прикладная статистика для высокопроизводительной биологии.
  • Scripts — скрипты Python для биологов.
  • Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии.
  • Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3.
  • Cell Movement — LSTM для прогнозирования биологического движения клеток.
  • Deepchem — демократизация глубокого обучения для открытия лекарств, квантовой химии, материаловедения и биологии.

5.2. Последовательность

  • DNA, RNA and Protein Sequencing — новое представление для биологических последовательностей с использованием DL.
  • CNN Sequencing — набор инструментов для изучения последовательности ДНК/РНК с использованием свёрточных нейронных сетей.
  • NLP Sequencing — модель обучения языковой передаче для геномики.

5.3. Хемоинформатика и открытие лекарств

  • Novel Molecules — свёрточная сеть, которая может изучать функции.
  • Automating Chemical Design — создание новых молекул для эффективного исследования.
  • GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением.
  • RL — генерирующие соединения, предсказанные как активные.
  • One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.

5.4. Геномные

  • Jupyter Genomics — сборник ноутбуков по вычислительной биологии и биоинформатике.
  • Variant calling — определение отклонений от эталонного генома в ДНК человека.
  • Gene Expression Graphs — использование свёрток на изображениях.
  • Autoencoding Expression — извлечение соответствующих шаблонов из больших наборов данных экспрессии генов.
  • Gene Expression Inference — прогнозирование экспрессии указанных генов-мишеней из панели из примерно 1000 предварительно выбранных «ориентировочных генов».
  • Plant Genomics — материал для презентаций и примеров для геномики растений и патогенов.

5.5. Наука

  • Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения.
  • Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры.
  • Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы.
  • Seedlings — растительная рассада, классификация от kaggle.
  • Plant Stress — онтология, содержащая растительные стрессы.
  • Animal Hierarchy — пакет для расчёта иерархий доминирования животных.
  • Animal Identification — глубокое обучение идентификации животных.
  • Species — анализ больших данных различных видов животных.
  • Animal Vocalisations — генеративная сеть для вокализации животных.
  • Evolutionary — инструмент стратегий эволюции.
  • Glaciers — учебный материал о ледниках.

6. Строительная техника

6.1. Строительство

  • DL Architecture — генератор изображений для построения архитектуры.
  • Construction Materials — курс по строительным материалам.
  • Bad Actor Risk Model — модель риска для повышения безопасности строительства.
  • Inspectors — определение назначенных инспекций.
  • Corrupt Social Interactions — выявление потенциальных коррумпированных взаимодействий между сотрудниками отрасли и сотрудниками DOB.
  • Risk Construction — определение строительства высокого риска.
  • Facade Risk — модель риска для прогнозирования небезопасных фасадов.
  • Staff Levels — прогнозирование уровня персонала для передовых работников.
  • Injuries — моделирование количества травм, связанных со строительством.
  • Building Violations — прогнозирующий анализ нарушений у здания.
  • Productivity — анализ и проверка производительности с помощью таблицы.

6.2. Инженерия

  • Structural Analysis — 2D-структурный анализ в Python.
  • Structural Engineering — структурные инженерные модули.
  • Nusa — структурный анализ с использованием метода конечных элементов.
  • StructPy — библиотека структурного анализа для Python на основе метода прямой жёсткости.
  • Aileron — структурный анализ элеронов «Боинга 737».
  • Vibration — образовательные вибрационные программы.
  • Civil — сборник инструментов гражданского строительства в FreeCAD.
  • GEstimator — подготовки сметы расходов на строительные и электромонтажные работы с подробным анализом тарифов.
  • Fatpack — функции и классы для анализа усталости ряда данных.
  • Pysteel — автоматизированное проектирование стальной конструкции.
  • Structural Uncertainty — количественная оценка структурной неопределённости на основе глубокого обучения.
  • Pymech — модуль Python для инженеров-механиков.
  • Aerospace Engineering — астродинамика и статистика.
  • Interactive Quantum Chemistry — объединение Psi4 и Numpy для образования и развития.
  • Chemical and Process Engineering — различные ресурсы химической и технологической инженерии.
  • PyTherm — прикладная термодинамика.
  • Aerogami — аэродинамика с использованием самолётов.
  • Electro geophysics — интерактивные приложения для электромагнетизма в геофизике.
  • Graph Signal — учебник по обработке сигналов на графике.
  • Mechanical Vibrations — механические вибрации в Университете Луизианы.
  • Process Dynamics — динамика процесса и управления.
  • Battery Life Cycle — прогнозирование срока службы батареи на основе данных.
  • Wind Energy — Python для энергии ветра.
  • Energy Use — стандартные методы расчёта нормированного потребления энергии.
  • Nuclear Radiation — как люди подвержены воздействию радиации, излучаемой атомными электростанциями.

6.3. Материаловедение

  • Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте.
  • Materials Mining — скрипты для моделирования и анализа материалов.
  • Emmet — создание баз данных свойств материалов.
  • Megnet — графовые сети как каркас ML для молекул и кристаллов.
  • Atomate — рабочие процессы для вычислительного материаловедения.
  • Bylaws Compliance — предсказание штрафов на собственность.
  • Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия.
  • Awesome Materials Informatics — кураторский список известных работ в области материаловедения.

7. Экономика

7.1. Общее

  • Trading Economics API — торговая экономика API, информация для 196 стран.
  • Development Economics — микроэкономика развития.
  • Applied Econ & Fin — прикладная вычислительная экономика и финансы.
  • Macroeconomics — темы по макроэкономике с примерами из ноутбука.

7.2. Машинное обучение

  • EconML — автоматизированное обучение и анализ причинно-следственных связей.
  • Auctions — оптимальные аукционы с использованием глубокого обучения.

7.3. Вычисления

  • Quant Econ — курс количественной экономики от NYU.
  • Computational — вычислительные методы в экономике.
  • Computational 2 — малый курс по вычислительной экономике.
  • Econometric Theory — ноутбуки по эконометрической теории для начинающих.

8. Образование и исследования

8.1. Студенты

  • Student Performance — успеваемость студентов, рассчитанная на основе машинного обучения.
  • Student Performance 2 — студенческий экзамен.
  • Student Performance 3 — успеваемость учащихся в учреждениях среднего образования.
  • Student Performance 4 — оценка успеваемости учеников с использованием Feature Engineering.
  • Student Intervention — создание системы студенческого вмешательства.
  • Student Enrolment — регистрация студентов и анализ результатов.
  • Academic Performance — изучение демографических и семейных особенностей, которые влияют на успеваемость учащегося.
  • Grade Analysis — анализ достижений учащихся.

8.2. Школа

  • School Choice — анализ данных для выбора школы.
  • School Budgets and Priorities — помощь школьному совету и директору в принятии стратегических решений относительно будущих школьных трат и приоритетов.
  • School Performance — практика анализа данных с использованием данных из data.utah.gov о школьной успеваемости.
  • School Performance 2 — использование Pandas для анализа школьной и ученической успеваемости в округе.
  • School Performance 3 — Филадельфия Школа Performance.
  • School Performance 4 — NJ Школа Performance.
  • School Closure — определение школы, подверженной риску закрытия, по показателям успеваемости и другим характеристикам.
  • School Budgets — инструменты и методы для школьного бюджетирования.
  • School Budgets — инструменты и методы для школьного бюджетирования, вторая часть.
  • PyCity — анализ школ.
  • PyCity 2 — сопоставление школьного бюджета и школьных результатов.
  • Budget NLP — классификация НЛП для бюджетных ресурсов.
  • Budget NLP 2 — дальнейшая классификация упражнений.
  • Budget NLP 3 — бюджетная классификация.
  • Survey Analysis — анализ опроса в сфере образования.

9. Чрезвычайные ситуации

9.1. Профилактика

  • Emergency Mapping — обнаружение разрушенных домов в Калифорнии.
  • Emergency Room — поддержка принятия срочных решений.
  • Emergency Readmission — скорректированный риск аварийной реадмиссии.
  • Forest Fire — обнаружение лесного пожара с помощью изображений БПЛА с использованием CNN.
  • Emergency Response — анализ аварийного реагирования.
  • Emergency Transportation — транспортная подсказка на аварийные службы.
  • Emergency Dispatch — сокращение времени отклика благодаря интеллектуальному моделированию, оптимизации и автоматизации.
  • Emergency Calls — проект анализа экстренных вызовов.
  • Calls Data Analysis — анализ данных звонков 911.
  • Emergency Response — химический завод РЛ.

9.2. Преступления

  • Crime Classification — анализ времени серьёзных нападений, неправильно классифицированных LAPD.
  • Article Tagging — обработка естественного языка в новостной статье в Чикаго
  • Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности
  • Chicago Crimes — изучение публичных данных о преступлениях в Чикаго в Python
  • Graph Analytics — гаагские преступления.
  • Crime Prediction — классификация, анализ и предсказание преступности в городе Индор.
  • Crime Prediction — разработаны прогностические модели уровня преступности.
  • Crime Review — анализ данных обзора преступности.
  • Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому.
  • Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.

9.3. Скорая помощь

  • Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория.
  • Site Location — места расположения скорой помощи.
  • Dispatching — применение теории игр и симуляции дискретных событий для нахождения оптимального решения диспетчеризации скорой помощи.
  • Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего.
  • Response Time — анализ улучшения времени отклика машины скорой помощи.
  • Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи.
  • Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.

9.4. Управление стихийными бедствиями

  • Conflict Prediction — ноутбуки по прогнозированию конфликтов.
  • Burglary Prediction — пространственно-временное моделирование для предсказания взломов.
  • Predicting Disease Outbreak — прогнозирование вспышек заболевания.
  • Road accident prediction — прогноз по типу жертв федеральных ДТП в Бразилии.
  • Text Mining — управление стихийными бедствиями с использованием Text mining.
  • Twitter and disasters — предсказание твитов о бедствиях.
  • Flood Risk — влияние катастрофических наводнений.
  • Fire Prediction — четыре алгоритма расчёта вероятности будущих пожаров.

10. Финансы

10.1. Торговля и инвестиции

  • Deep Portfolio — предсказание объёма облигаций на основе глубокого обучения.
  • AI Trading — современные методы торговли ИИ.
  • Corporate Bonds — прогнозирование объёма покупки и продажи корпоративных облигаций.
  • Simulation — исследование симуляции как части вычислительного финансирования.
  • Industry Clustering — проект кластеризации отраслей по финансовым признакам.
  • Financial Modeling — HFT-трейдинг и моделирование волатильности.
  • Trend Following — фьючерсная тенденция после стратегии портфельных инвестиций.
  • Financial Statement Sentiment — извлечение прогнозов из финансовой отчётности с использованием нейронных сетей.
  • Applied Corporate Finance — изучение эмпирического поведения на фондовом рынке.
  • Market Crash Prediction — прогнозирование рынка с использованием модели LPPL.
  • NLP Finance Papers — составление количественных финансовых документов с использованием машинного обучения.
  • ARIMA-LSTM Hybrid — гибридная модель для прогнозирования будущих коэффициентов ценовой корреляции двух активов.
  • Basic Investments — основные инвестиционные инструменты в Python.
  • Basic Derivatives — основные форвардные контракты и хеджирование.
  • Basic Finance — исходные коды ноутбуков базовых финансовых приложений.
  • Advanced Pricing ML — дополнительная реализация достижений в области финансового машинного обучения.
  • Options and Regression — проект финансового инжиниринга для методов оценки опционов.
  • Quant Notebooks — Обучающие ноутбуки по квантовым финансам, алгоритмической торговле и инвестиционной стратегии.
  • Forecasting Challenge — задача финансового прогнозирования от G-Research.
  • XGboost — торговый алгоритм, использующий XgBoost.
  • Research Paper Trading — реализация стратегии на основе бумаги с использованием Alpaca Markets.
  • Various — опции, распределение, моделирование.
  • ML & RL NYU — машинное обучение и обучение в сфере финансов.

10.2. Данные

  • Datastream — Datastrem от Thomson Reuters, доступный через Python.
  • AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных.
  • FSA — проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчётности.
  • TradeConnector — связи с поставщиками рыночных данных.
  • Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC.
  • SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов.
  • Open Edgar — OpenEDGAR.
  • Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.

11. Здравоохранение

11.1. Общее

  • zEpid — пакет эпидемиологического анализа.
  • Python For Epidemiologists — учебное пособие по введению эпидемиологического анализа в Python.
  • Prescription Compliance — анализ предписания и медицинского соответствия.
  • Respiratory Disease — отслеживание респираторных заболеваний у спортсменов-олимпийцев.
  • Bubonic Plague — бубонная чума и модель SIR.

12. Юстиция, закон и регламент

12.1. Инструменты

  • LexPredict — контроль над своими контрактами.
  • AI Para-legal — первый в мире ИИ-помощник адвоката.
  • Legal Entity Detection — обнаружение юридического лица.
  • Legal Case Summarisation — внедрение различных алгоритмов суммирования применительно к судебным решениям.
  • Legal Documents Google Scholar — использование Google scholar для программного извлечения дел.
  • Chat Bot — чат-бот и уведомления по электронной почте.
  • Data Generator GDPR — генератор фиктивных данных для соответствия GDPR.

12.2. Политика и регулирование

  • GDPR scores — прогнозирование показателей GDPR для юридических документов.
  • Driving Factors FINRA — определение факторов, влияющих на решения арбитража FINRA.
  • Securities Bias Correction — оценка влияния цены на судебные процессы по ценным бумагам.
  • Public Firm to Legal Decision — публичная фирма для юридических решений.
  • Night Life Regulation — ночная жизнь Австралии, её регулирование и полицейская деятельность.
  • Comments — общественные комментарии по государственному регулированию.
  • Clustering — кластеризация канадских правил.
  • Environment — регулирование энергетики и окружающей среды.
  • Risk — риск различных финансовых положений.
  • FINRA Compliance — лучшее моделирование на соответствие.

12.3. Судебная практика

  • Supreme Court Prediction — предсказание идеологического направления решений Верховного Суда.
  • Supreme Court Topic Modeling — тематическое моделирование в Верховном суде.
  • Judge Opinion — использование анализа текста и машинного обучения для анализа мнений судей по конкретным вопросам.
  • ML Law Matching — производитель матчей по машинному обучению.
  • Bert Multi-label Classification — мультибликовая классификация Берта.

13. Производство

13.1. Общее

13.2. Техническое обслуживание

  • Predictive Maintenance 1 — прогнозирование оставшегося срока использования авиационных двигателей.
  • Predictive Maintenance 2 — время до отказа (TTF) или оставшийся срок полезного использования двигателя (RUL).
  • Manufacturing Maintenance — моделирование обслуживания в производственных систем.

13.3. Ошибки

  • Predictive Analytics — метод прогнозирования сбоев в оборудовании.
  • Detecting Defects — обнаружение аномалий для дефектных полупроводников.
  • Defect Detection — интеллектуальное обнаружение дефектов для производства таблеток.
  • Manufacturing Failures — сокращение производственных сбоев.
  • Manufacturing Anomalies — интеллектуальное обнаружение аномалий для производственной линии.

13.4. Качество

  • Quality Control — обнаружение провалов в контроле качества.
  • Manufacturing Quality — интеллектуальный прогноз качества производства.
  • Auto Manufacturing — данные о продаже автомобилей на аукционе.

14. СМИ и издательство

14.1. Маркетинг

  • Video Popularity — HIP-модель для прогнозирования популярности видео.
  • YouTube transcriber — автоматически транскрибирует видео в YouTube.
  • Marketing Analytics — маркетинговая аналитика, тематические исследования.
  • Algorithmic Marketing — модели от введения до книги «Алгоритмический маркетинг».
  • Marketing Scripts — приложения для маркетинга данных.
  • Social Mining — майнинг социальных сетей.

15. Физика

15.1. Общее

  • Gamma-hadron Reconstruction — инструменты, используемые в наземной астрономии гамма-излучений.
  • Curriculum — ньютоновские ноутбуки.
  • Interaction Networks — сети взаимодействия для изучения объектов, отношений и физики.
  • Particle Physics — генерационный и аналитический код для изучения физики частиц.
  • Computational Physics — хранилище вычислительной физики.
  • Medical Physics — полезный Python для медицинской физики.
  • Medical Physics 2 — общий, основной пакет Python для медицинской физики.
  • Flow Physics — физика и аэроакустика с Python.

15.2. Машинное обучение

  • Physics ML and Stats — машинное обучение и статистика для физиков.
  • High Energy — машинное обучение для физики высоких энергий.
  • High Energy GAN — генеративные состязательные сети для физики высоких энергий.
  • Neural Networks — физика встречает нейронные сети.

16. Правительство

16.1. Социальная политика

  • Triage — универсальный инструментарий по моделированию рисков и прогнозированию политических решений и социальных проблем.
  • World Bank Poverty I — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности.
  • World Bank Poverty II — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности, часть вторая.
  • Overseas Company Land Ownership — определение иностранной собственности в Великобритании.
  • CFPB — анализ жалоб Бюро по защите прав потребителей.
  • Cannabis Legalisation Effect — влияние легализации каннабиса на преступность.
  • Public Credit Card — идентификация потенциального мошенничества с кредитными картами.
  • Recidivism Prediction — прозрачность и учёт оценки риска рецидивизма.
  • Household Poverty — предсказание бедности домохозяйств в Коста-Рике.
  • NLP Public Policy — пример варианта использования НЛП в публичной политике.
  • World Food Production — сравнение ведущих производителей продуктов питания и кормов по всему миру.
  • Tax Inequality — проект данных о налогообложении и неравенстве в Базеле.
  • Sheriff Compliance — соответствие требованиям ICE.
  • Apps Detection — обнаружение подозрительных приложений для детей.
  • Social Assistance — актуальная информация о социальной помощи.
  • Computational Social Science — курс летних школьных наук по социальным данным.
  • Liquor and Crime — влияние спиртных напитков на уровень преступности.
  • Animal Placement Kennels — оптимизация размещения животных в приютах.
  • Staffing Wall — независимый исследовательский проект на мексиканской границе США.
  • Worker Fatalities — карта несчастных случаев на производстве по данным OSHA.

16.2. Благотворительность

  • Census Data API — извлечение переменных из пятилетнего опроса американского сообщества.
  • Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности.
  • Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.

16.3. Анализ выборов

  • Election Analysis — анализ выборов и модели прогнозирования.
  • American Election Causal — использование данных ANES с моделями причинно-следственных связей.
  • Campaign Finance and Election Results — изучение связи между финансированием кампании и результатами последующих выборов.
  • Voting System — методы голосования пропорционального представительства.
  • President Vote — голосование по анализу уровня доходов.

16.4. Политика

  • Congressional politics — палата представителей конгресса США.
  • Politico — платформа для профилирования общественных деятелей в бразильской политике.
  • Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов.
  • Gerrymander tests — множество метрик для количественной оценки Gerrymandering.
  • Sentiment — анализ газет на предмет их политической убеждённости с использованием субъективных настроений представителей партии.
  • DL Politics — сравнение социалистической партии против народной в Бразилии.
  • PAC Money — влияние денег PAC на политику США.
  • Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей.
  • Elite — политическая элита в США.
  • Debate Analysis — программа для анализа политических дебатов.
  • Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter.
  • Political Ads — расследование в Facebook политических объявлений и таргетинга.
  • Political Identity — многоосная политическая модель политической идентичности.
  • YT Politics — отображение политики на YouTube.
  • Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.

17. Недвижимость, аренда и лизинг

17.1. Недвижимость

  • Finding Donuts — прогнозировании окрестностей.
  • Neighbourhood — прогнозирование цен на недвижимость в городе.
  • Real Estate Classification — классификация типа имущества с учётом недвижимости, спутниковой связи и просмотра улиц.
  • Recommender — рекомендательная система топ-5 объектов недвижимости, которые соответствуют поиску пользователя.
  • House Price — предсказание цены дома с использованием линейной регрессии и GBR.
  • House Price Portland — предсказание цены на жильё в Портленде.
  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.

17.2. Аренда и лизинг

18. Коммунальные услуги

18.1. Электроэнергия

  • Electricity Price — сравнение цен на электроэнергию в Сингапуре.
  • Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие.
  • Electricity Capacity — анализ Los Angeles Times анализа дорогостоящей электроэнергии в Калифорнии.
  • Electricity Systems — оптимальная система электроэнергии для европейских стран.
  • Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям.
  • Price Forecasting — прогнозирование цен на электроэнергию на сутки вперёд в немецкой зоне торгов с глубокими нейронными сетями.
  • Carbon Index — расчёт интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года по настоящее время.
  • Demand Forecasting — прогнозирование спроса на электроэнергию в Остине.
  • Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств.
  • Household power consumption — индивидуальное потребление электроэнергии в домашних хозяйствах.
  • Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE).
  • Renewable Power Plants — временные ряды совокупной установленной мощности.
  • Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключённых к FUSED-Wind.
  • Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за шесть лет (с 2006 по 2011 год).

18.2. Уголь, нефть и газ

  • Coal Prediction — прогнозирование добычи угля.
  • Oil & Gas — прогноз цены на нефть и природный газ с использованием ARIMA и нейронных сетей.
  • Gas Formula — расчёт потенциального экономического эффекта формулы индексации цен.
  • Demand Prediction — прогноз спроса на природный газ.
  • Consumption Forecasting — прогнозирование потребления природного газа.
  • Gas Trade — мировая модель торговли природным газом.

18.3. Загрязнение воды

  • Safe Water — предсказание нарушения качества питьевой воды, основанное на здоровье людей в США.
  • Hydrology Data — набор удобных функций для изучения данных о воде в Python.
  • Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений.
  • Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках.
  • Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов.
  • Drought Restrictions — анализ использования воды в Лос-Анджелесе.
  • Flood Prediction — применение LSTM к данным об уровне воды в реке.
  • Sewage Overflow — анализ санитарных переливов (SSO).
  • Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.

18.4. Логистика

  • Transdim — создание точных и эффективных решений для задач расчёта и прогнозирования пространственно-временных данных потоков трафика машин.
  • Transport Recommendation — контекстно-зависимая рекомендация по мультимодальной транспортировке.
  • Transport Data — данные и ноутбуки для транспорта Торонто.
  • Transport Demand — прогнозирование спроса на общественный транспорт в Найроби.
  • Demand Estimation — внедрение динамической оценки спроса отправителя-получателя.
  • Congestion Analysis — анализ транспортных систем.
  • TS Analysis — анализ временных рядов по транспортным данным.
  • Network Graph Subway — анализ уязвимости для транспортных сетей.
  • Transportation Inefficiencies — количественная оценка неэффективности транспортных сетей.
  • Train Optimisation — оптимизация расписания поездов.
  • Traffic Prediction — прогнозирование городского трафика.
  • Predict Crashes — прогнозирования сбоев, использующее несколько источников данных.
  • AI Supply chain — система оптимизации цепочки поставок.
  • Transfer Learning Flight Delay — использование вариационных кодеров в Keras для прогнозирования задержки полёта.
  • Replenishment — код для управления цепочкой поставок.

19. Оптовая и розничная торговля

19.1. Оптовая торговля

  • Customer Analysis — анализ оптовых клиентов.
  • Distribution — JB-оптовый анализ распределения.
  • Clustering — кластеризация данных о затратах на продукт, собираемым для клиентов.
  • Market Basket Analysis — публичный набор данных Instacart с информацией о том, какие продукты часто покупаются вместе.

19.2. Розничная торговля

  • Retail Analysis — онлайн набор данных о розничной торговле.
  • Online Insights — анализ онлайн-транзакций в Великобритании.
  • Retail Cohort — когортный анализ.

На этом наш материал о применении ML и DS в промышленности подошёл к концу. Надеюсь, вы узнали для себя что-нибудь новое. Не забудьте поделиться с коллегами. Также если у вас есть то, чем вы можете поделиться сами, — пишите в комментариях.

Больше информации о машинном обучении и Data Science в Telegram-канале.

Всем знаний!

2929
10 комментариев

Автору сборки респектище

9
Ответить

Это бомба! 😱

3
Ответить

Без комментариев...Просто огромное спасибо!

3
Ответить

Круто. Спасибо!

3
Ответить

Очень здорово, спасибо за планы на несколько выходных вперёд

Ответить

супер! спасибо!

Ответить

Спасибо, это круто!

Ответить