Применение машинного обучения и Data Science в промышленности

Все коды на Python и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Написал материал для своего проекта «Нейрон», в котором я рассказываю о машинном обучении, искусственном интеллекте и Data Science. И делаю так, чтобы всё это стало понятным.

Если среди читателей есть те, кто желает добавить свой интересный проект в любую из подотраслей, пожалуйста, свяжитесь со мной. Я добавлю его в список.

Итак, давайте начнём изучение.

1. Недвижимость и питание

1.1. Питание

  • RobotChef — совершенствование рецептов еды на основе отзывов пользователей.
  • Food Amenities — прогнозирование спроса на пищевые продукты с использованием нейронных сетей.
  • Recipe Cuisine and Rating — предсказание названия кухни любого блюда на основе списка его ингредиентов.
  • Food Classification — пищевая классификация еды с использованием библиотеки Keras.
  • Image to Recipe — перевод изображения еды в рецепт его приготовления.
  • Calorie Estimation — оценка калорийности по фотографиям еды.
  • Fine Food Reviews — сегментационный анализ еды на основе отзывов с Amazon Fine Food.

1.2. Рестораны

  • Restaurant Violation — прогнозирование нарушения правил проверки продуктов питания.
  • Restaurant Success — предсказание, будет ли ресторан успешным.
  • Predict Michelin — предсказание того, что ресторану дадут звезду Мишлен.
  • Restaurant Inspection — анализ уровня лояльности к ресторану и популярностью на основе оценок по Yelp.
  • Sales — прогнозирование продаж у ресторанов с LSTM.
  • Visitor Forecasting — бронирование и прогнозирование количества посещений.
  • Restaurant Profit — ресторанный регрессионный анализ.
  • Competition — анализ конкурентоспособности ресторана.
  • Business Analysis — проект по анализу ресторанного бизнеса.
  • Location Recommendation — рекомендация о будущем местонахождении ресторана.
  • Closure, Rating and Recommendation — три задачи прогнозирования с использованием данных Yelp.
  • Anti-recommender — рекомендация ресторанов, которые вы (на основе ваших предпочтений) не захотите посещать.
  • Menu Analysis — анализ ресторана на основе его меню.
  • Menu Recommendation — рекомендация новых ресторанов на основе вашего любимого меню.
  • Food Price — прогнозирование стоимости продуктов питания.
  • Automated Restaurant Report — автоматический ресторанный отчёт на основе машинного обучения.

1.3. Недвижимость

  • Peer-to-Peer Housing — влияние одноразовой аренды жилья на её состояние.
  • Roommate Recommendation — рекомендация соседа по комнате.
  • Room Allocation — распределение помещений.
  • Dynamic Pricing — расчёты динамического ценообразования в отеле.
  • Hotel Similarity — сравнение конкурирующих отелей друг с другом.
  • Hotel Reviews — отзывы об отелях.
  • Predict Prices — предсказание цен на номера в отелях.
  • Hotels vs Airbnb — сравнение отелей с Airbnb.
  • Hotel Improvement — анализ отзывов для отеля.
  • Orders — прогноз отмены заказов для отелей.
  • Fake Reviews — распознавание, являются ли отзывы поддельными или спамом.
  • Reverse Image Lodging — нахождение нужного вам жилья по изображению.

2. Бухгалтерский учёт

2.1. Machine Learning

  • Chart of Account Prediction — использование промеченных данных для имени учётной записи каждой транзакции.
  • Accounting Anomalies — выявление аномалий в бухгалтерском учёте.
  • Financial Statement Anomalies — обнаружение аномалий (используя R) перед подачей документов в налоговую.
  • Useful Life Prediction (FirmAI) — прогнозирование срока полезного использования активов с помощью сенсорных наблюдений и разработки функций.
  • AI Applied to XBRL — стандартизированное представление XBRL в AI и ML.

2.2. Аналитика

  • Forensic Accounting — сборник тематических исследований по криминалистическому учёту с использованием анализа данных.
  • General Ledger (FirmAI) — обработка данных в FirmAI.
  • Bullet Graph (FirmAI) — визуализация Bullet Graph помогает отслеживать продажи, комиссионные и другие показатели.
  • Aged Debtors (FirmAI) — пример анализа для выявления должников.
  • Automated FS XBRL — набор файлов PDF, содержащих более 700 страниц информации о XBRL.

2.3. Текстовый анализ

  • Financial Sentiment Analysis — анализ рычагов оптимизации в торговле.
  • Extensive NLP — комплексные НЛП методы для бухгалтерского учёта.

2.4. Данные, парсинг и API

  • EDGAR — пошаговое руководство по получению данных EDGAR.
  • PyEDGAR — библиотека для загрузки, кэширования и доступа к файлам EDGAR.
  • IRS — доступ и анализ файлов IRS.
  • Financial Corporate — наборы корпоративных финансовых данных Rutgers.
  • Non-financial Corporate — нефинансовый корпоративный набор данных Rutgers.
  • PDF Parsing — извлечение полезных данных из документов PDF.
  • PDF Tabel to Excel — создание файла Excel из данных в PDF.

2.5. Исследования и статьи

  • Understanding Accounting Analytics — статья, посвящённая важности бухгалтерской аналитики.
  • VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.

2.6. Веб-сайты

  • Rutgers Raw — исследования в области цифрового бухгалтерского учёта от Rutgers.

2.7. Курсы

  • Computer Augmented Accounting — видеоролик из Университета Rutgers, посвящённый использованию вычислений для улучшения бухгалтерского учёта.
  • Accounting in a Digital Era — ещё одна серия статей Университета Rutgers, посвящённая влиянию цифрового века на бухгалтерский учёт.

3. Сельское хозяйство

3.1. Экономика

  • Prices — первый прогноз цен на сельскохозяйственную продукцию.
  • Prices 2 — второй прогноз цен на сельскохозяйственную продукцию.
  • Yield — сельскохозяйственный анализ урожайности в Украине.
  • Recovery — стратегическое использование земель в сельском хозяйстве с учётом восстановления экосистем.
  • MPR — данные отчётности по ценам на сельхозпродукцию от Министерства сельского хозяйства США.

3.2. Разработка

  • Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков.
  • Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах.
  • Assistant — ноутбуки от виртуального ассистента по сельскому хозяйству.
  • Eco-evolutionary — эко-эволюционная динамика.
  • Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям.
  • Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.

4. Банковское дело и страхование

4.1. Потребительское финансирование

  • Loan Acceptance — принятие решений о ссуде на основе классификации и анализа временных рядов.
  • Predict Loan Repayment — прогнозирование погашения кредита с помощью функции автоматизированного проектирования.
  • Loan Eligibility Ranking — система, которая помогает банкам проверять, может ли клиент получить данный (определённый) кредит.
  • Home Credit Default (FirmAI) — прогнозирование дефолта по кредиту.
  • Mortgage Analytics — обширная аналитика ипотечных кредитов.
  • Credit Approval — система для одобрения кредитной карты.
  • Loan Risk — прогнозная модель, помогающая уменьшить списания и потери процентов с кредитов.
  • Amortisation Schedule (FirmAI) — простой график амортизации в Python.

4.2. Управление и операции

  • Credit Card — оценка CLV клиентов кредитной карты.
  • Survival Analysis — анализ LTV клиентов.
  • Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции.
  • Credit Card Churn — предсказание оттока клиентов с кредитными картами.
  • Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии.
  • CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.

4.3. Оценка

  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.
  • Real Estate — прогнозирование цен на городскую недвижимость.
  • Used Car — прогноз цен на подержанный автомобиль.

4.4. Мошеничество

  • XGBoost — обнаружение мошенничества путём настройки гиперпараметров XGBoost.
  • Fraud Detection Loan in R — обнаружение мошенничества в банковских кредитах.
  • AML Finance Due Diligence — поиск новостных статей для финансирования AML DD.
  • Credit Card Fraud — обнаружение мошенничества с кредитными картами.

4.5. Страхование и риски

  • Car Damage Detective — оценка повреждений автомобиля с помощью свёрточных нейронных сетей.
  • Medical Insurance Claims — прогнозирование претензий по медицинскому страхованию.
  • Claim Denial — прогнозирование отказа от страхового возмещения.
  • Claim Fraud — прогнозные модели, позволяющие определить, какие претензии в отношении автомобилей являются мошенническими.
  • Claims Anomalies — система обнаружения аномалий для данных страховых претензий.
  • Actuarial Sciences — ряд актуарных инструментов в R.
  • Bank Failure — предсказание банкротства.
  • Risk Management — финансирование курсов по управлению рисками.
  • VaR GaN — оценка стоимости управления рыночным риском с использованием Keras и TensorFlow.
  • Compliance — управление соответствиями с требованиями банка.
  • Stress Testing — ECB стресс-тестирование.
  • Stress Testing Techniques — ноутбук с различными упражнениями на стресс-тестирование.
  • BoE stress test — результаты стресс-теста и составление графика.
  • Recovery — возмещение причитающихся денег.
  • Quality Control — контроль качества банков с использованием LDA.

4.6. Полезное

  • Bank Note Fraud Detection — аутентификация с использованием DNN Tensorflow Classifier и RandomForest.
  • ATM Surveillance — использование банкоматов в банках.

5. Биотехнологии и наука

5.1. Общие

  • Programming — программирование на Python для биологов.
  • Introduction DL — учебник по углубленному изучению геномики.
  • Pose — оценка позы животных с использованием DL.
  • Privacy — обмен клиническими данными, с сохранением конфиденциальности.
  • Population Genetics — DL для популяционного генетического вывода.
  • Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике.
  • Applied Stats — прикладная статистика для высокопроизводительной биологии.
  • Scripts — скрипты Python для биологов.
  • Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии.
  • Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3.
  • Cell Movement — LSTM для прогнозирования биологического движения клеток.
  • Deepchem — демократизация глубокого обучения для открытия лекарств, квантовой химии, материаловедения и биологии.

5.2. Последовательность

  • DNA, RNA and Protein Sequencing — новое представление для биологических последовательностей с использованием DL.
  • CNN Sequencing — набор инструментов для изучения последовательности ДНК/РНК с использованием свёрточных нейронных сетей.
  • NLP Sequencing — модель обучения языковой передаче для геномики.

5.3. Хемоинформатика и открытие лекарств

  • Novel Molecules — свёрточная сеть, которая может изучать функции.
  • Automating Chemical Design — создание новых молекул для эффективного исследования.
  • GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением.
  • RL — генерирующие соединения, предсказанные как активные.
  • One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.

5.4. Геномные

  • Jupyter Genomics — сборник ноутбуков по вычислительной биологии и биоинформатике.
  • Variant calling — определение отклонений от эталонного генома в ДНК человека.
  • Gene Expression Graphs — использование свёрток на изображениях.
  • Autoencoding Expression — извлечение соответствующих шаблонов из больших наборов данных экспрессии генов.
  • Gene Expression Inference — прогнозирование экспрессии указанных генов-мишеней из панели из примерно 1000 предварительно выбранных «ориентировочных генов».
  • Plant Genomics — материал для презентаций и примеров для геномики растений и патогенов.

5.5. Наука

  • Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения.
  • Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры.
  • Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы.
  • Seedlings — растительная рассада, классификация от kaggle.
  • Plant Stress — онтология, содержащая растительные стрессы.
  • Animal Hierarchy — пакет для расчёта иерархий доминирования животных.
  • Animal Identification — глубокое обучение идентификации животных.
  • Species — анализ больших данных различных видов животных.
  • Animal Vocalisations — генеративная сеть для вокализации животных.
  • Evolutionary — инструмент стратегий эволюции.
  • Glaciers — учебный материал о ледниках.

6. Строительная техника

6.1. Строительство

  • DL Architecture — генератор изображений для построения архитектуры.
  • Construction Materials — курс по строительным материалам.
  • Bad Actor Risk Model — модель риска для повышения безопасности строительства.
  • Inspectors — определение назначенных инспекций.
  • Corrupt Social Interactions — выявление потенциальных коррумпированных взаимодействий между сотрудниками отрасли и сотрудниками DOB.
  • Risk Construction — определение строительства высокого риска.
  • Facade Risk — модель риска для прогнозирования небезопасных фасадов.
  • Staff Levels — прогнозирование уровня персонала для передовых работников.
  • Injuries — моделирование количества травм, связанных со строительством.
  • Building Violations — прогнозирующий анализ нарушений у здания.
  • Productivity — анализ и проверка производительности с помощью таблицы.

6.2. Инженерия

  • Structural Analysis — 2D-структурный анализ в Python.
  • Structural Engineering — структурные инженерные модули.
  • Nusa — структурный анализ с использованием метода конечных элементов.
  • StructPy — библиотека структурного анализа для Python на основе метода прямой жёсткости.
  • Aileron — структурный анализ элеронов «Боинга 737».
  • Vibration — образовательные вибрационные программы.
  • Civil — сборник инструментов гражданского строительства в FreeCAD.
  • GEstimator — подготовки сметы расходов на строительные и электромонтажные работы с подробным анализом тарифов.
  • Fatpack — функции и классы для анализа усталости ряда данных.
  • Pysteel — автоматизированное проектирование стальной конструкции.
  • Structural Uncertainty — количественная оценка структурной неопределённости на основе глубокого обучения.
  • Pymech — модуль Python для инженеров-механиков.
  • Aerospace Engineering — астродинамика и статистика.
  • Interactive Quantum Chemistry — объединение Psi4 и Numpy для образования и развития.
  • Chemical and Process Engineering — различные ресурсы химической и технологической инженерии.
  • PyTherm — прикладная термодинамика.
  • Aerogami — аэродинамика с использованием самолётов.
  • Electro geophysics — интерактивные приложения для электромагнетизма в геофизике.
  • Graph Signal — учебник по обработке сигналов на графике.
  • Mechanical Vibrations — механические вибрации в Университете Луизианы.
  • Process Dynamics — динамика процесса и управления.
  • Battery Life Cycle — прогнозирование срока службы батареи на основе данных.
  • Wind Energy — Python для энергии ветра.
  • Energy Use — стандартные методы расчёта нормированного потребления энергии.
  • Nuclear Radiation — как люди подвержены воздействию радиации, излучаемой атомными электростанциями.

6.3. Материаловедение

  • Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте.
  • Materials Mining — скрипты для моделирования и анализа материалов.
  • Emmet — создание баз данных свойств материалов.
  • Megnet — графовые сети как каркас ML для молекул и кристаллов.
  • Atomate — рабочие процессы для вычислительного материаловедения.
  • Bylaws Compliance — предсказание штрафов на собственность.
  • Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия.
  • Awesome Materials Informatics — кураторский список известных работ в области материаловедения.

7. Экономика

7.1. Общее

  • Trading Economics API — торговая экономика API, информация для 196 стран.
  • Development Economics — микроэкономика развития.
  • Applied Econ & Fin — прикладная вычислительная экономика и финансы.
  • Macroeconomics — темы по макроэкономике с примерами из ноутбука.

7.2. Машинное обучение

  • EconML — автоматизированное обучение и анализ причинно-следственных связей.
  • Auctions — оптимальные аукционы с использованием глубокого обучения.

7.3. Вычисления

  • Quant Econ — курс количественной экономики от NYU.
  • Computational — вычислительные методы в экономике.
  • Computational 2 — малый курс по вычислительной экономике.
  • Econometric Theory — ноутбуки по эконометрической теории для начинающих.

8. Образование и исследования

8.1. Студенты

  • Student Performance — успеваемость студентов, рассчитанная на основе машинного обучения.
  • Student Performance 2 — студенческий экзамен.
  • Student Performance 3 — успеваемость учащихся в учреждениях среднего образования.
  • Student Performance 4 — оценка успеваемости учеников с использованием Feature Engineering.
  • Student Intervention — создание системы студенческого вмешательства.
  • Student Enrolment — регистрация студентов и анализ результатов.
  • Academic Performance — изучение демографических и семейных особенностей, которые влияют на успеваемость учащегося.
  • Grade Analysis — анализ достижений учащихся.

8.2. Школа

  • School Choice — анализ данных для выбора школы.
  • School Budgets and Priorities — помощь школьному совету и директору в принятии стратегических решений относительно будущих школьных трат и приоритетов.
  • School Performance — практика анализа данных с использованием данных из data.utah.gov о школьной успеваемости.
  • School Performance 2 — использование Pandas для анализа школьной и ученической успеваемости в округе.
  • School Performance 3 — Филадельфия Школа Performance.
  • School Performance 4 — NJ Школа Performance.
  • School Closure — определение школы, подверженной риску закрытия, по показателям успеваемости и другим характеристикам.
  • School Budgets — инструменты и методы для школьного бюджетирования.
  • School Budgets — инструменты и методы для школьного бюджетирования, вторая часть.
  • PyCity — анализ школ.
  • PyCity 2 — сопоставление школьного бюджета и школьных результатов.
  • Budget NLP — классификация НЛП для бюджетных ресурсов.
  • Budget NLP 2 — дальнейшая классификация упражнений.
  • Budget NLP 3 — бюджетная классификация.
  • Survey Analysis — анализ опроса в сфере образования.

9. Чрезвычайные ситуации

9.1. Профилактика

  • Emergency Mapping — обнаружение разрушенных домов в Калифорнии.
  • Emergency Room — поддержка принятия срочных решений.
  • Emergency Readmission — скорректированный риск аварийной реадмиссии.
  • Forest Fire — обнаружение лесного пожара с помощью изображений БПЛА с использованием CNN.
  • Emergency Response — анализ аварийного реагирования.
  • Emergency Transportation — транспортная подсказка на аварийные службы.
  • Emergency Dispatch — сокращение времени отклика благодаря интеллектуальному моделированию, оптимизации и автоматизации.
  • Emergency Calls — проект анализа экстренных вызовов.
  • Calls Data Analysis — анализ данных звонков 911.
  • Emergency Response — химический завод РЛ.

9.2. Преступления

  • Crime Classification — анализ времени серьёзных нападений, неправильно классифицированных LAPD.
  • Article Tagging — обработка естественного языка в новостной статье в Чикаго
  • Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности
  • Chicago Crimes — изучение публичных данных о преступлениях в Чикаго в Python
  • Graph Analytics — гаагские преступления.
  • Crime Prediction — классификация, анализ и предсказание преступности в городе Индор.
  • Crime Prediction — разработаны прогностические модели уровня преступности.
  • Crime Review — анализ данных обзора преступности.
  • Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому.
  • Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.

9.3. Скорая помощь

  • Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория.
  • Site Location — места расположения скорой помощи.
  • Dispatching — применение теории игр и симуляции дискретных событий для нахождения оптимального решения диспетчеризации скорой помощи.
  • Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего.
  • Response Time — анализ улучшения времени отклика машины скорой помощи.
  • Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи.
  • Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.

9.4. Управление стихийными бедствиями

  • Conflict Prediction — ноутбуки по прогнозированию конфликтов.
  • Burglary Prediction — пространственно-временное моделирование для предсказания взломов.
  • Predicting Disease Outbreak — прогнозирование вспышек заболевания.
  • Road accident prediction — прогноз по типу жертв федеральных ДТП в Бразилии.
  • Text Mining — управление стихийными бедствиями с использованием Text mining.
  • Twitter and disasters — предсказание твитов о бедствиях.
  • Flood Risk — влияние катастрофических наводнений.
  • Fire Prediction — четыре алгоритма расчёта вероятности будущих пожаров.

10. Финансы

10.1. Торговля и инвестиции

  • Deep Portfolio — предсказание объёма облигаций на основе глубокого обучения.
  • AI Trading — современные методы торговли ИИ.
  • Corporate Bonds — прогнозирование объёма покупки и продажи корпоративных облигаций.
  • Simulation — исследование симуляции как части вычислительного финансирования.
  • Industry Clustering — проект кластеризации отраслей по финансовым признакам.
  • Financial Modeling — HFT-трейдинг и моделирование волатильности.
  • Trend Following — фьючерсная тенденция после стратегии портфельных инвестиций.
  • Financial Statement Sentiment — извлечение прогнозов из финансовой отчётности с использованием нейронных сетей.
  • Applied Corporate Finance — изучение эмпирического поведения на фондовом рынке.
  • Market Crash Prediction — прогнозирование рынка с использованием модели LPPL.
  • NLP Finance Papers — составление количественных финансовых документов с использованием машинного обучения.
  • ARIMA-LSTM Hybrid — гибридная модель для прогнозирования будущих коэффициентов ценовой корреляции двух активов.
  • Basic Investments — основные инвестиционные инструменты в Python.
  • Basic Derivatives — основные форвардные контракты и хеджирование.
  • Basic Finance — исходные коды ноутбуков базовых финансовых приложений.
  • Advanced Pricing ML — дополнительная реализация достижений в области финансового машинного обучения.
  • Options and Regression — проект финансового инжиниринга для методов оценки опционов.
  • Quant Notebooks — Обучающие ноутбуки по квантовым финансам, алгоритмической торговле и инвестиционной стратегии.
  • Forecasting Challenge — задача финансового прогнозирования от G-Research.
  • XGboost — торговый алгоритм, использующий XgBoost.
  • Research Paper Trading — реализация стратегии на основе бумаги с использованием Alpaca Markets.
  • Various — опции, распределение, моделирование.
  • ML & RL NYU — машинное обучение и обучение в сфере финансов.

10.2. Данные

  • Datastream — Datastrem от Thomson Reuters, доступный через Python.
  • AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных.
  • FSA — проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчётности.
  • TradeConnector — связи с поставщиками рыночных данных.
  • Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC.
  • SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов.
  • Open Edgar — OpenEDGAR.
  • Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.

11. Здравоохранение

11.1. Общее

  • zEpid — пакет эпидемиологического анализа.
  • Python For Epidemiologists — учебное пособие по введению эпидемиологического анализа в Python.
  • Prescription Compliance — анализ предписания и медицинского соответствия.
  • Respiratory Disease — отслеживание респираторных заболеваний у спортсменов-олимпийцев.
  • Bubonic Plague — бубонная чума и модель SIR.

12. Юстиция, закон и регламент

12.1. Инструменты

  • LexPredict — контроль над своими контрактами.
  • AI Para-legal — первый в мире ИИ-помощник адвоката.
  • Legal Entity Detection — обнаружение юридического лица.
  • Legal Case Summarisation — внедрение различных алгоритмов суммирования применительно к судебным решениям.
  • Legal Documents Google Scholar — использование Google scholar для программного извлечения дел.
  • Chat Bot — чат-бот и уведомления по электронной почте.
  • Data Generator GDPR — генератор фиктивных данных для соответствия GDPR.

12.2. Политика и регулирование

  • GDPR scores — прогнозирование показателей GDPR для юридических документов.
  • Driving Factors FINRA — определение факторов, влияющих на решения арбитража FINRA.
  • Securities Bias Correction — оценка влияния цены на судебные процессы по ценным бумагам.
  • Public Firm to Legal Decision — публичная фирма для юридических решений.
  • Night Life Regulation — ночная жизнь Австралии, её регулирование и полицейская деятельность.
  • Comments — общественные комментарии по государственному регулированию.
  • Clustering — кластеризация канадских правил.
  • Environment — регулирование энергетики и окружающей среды.
  • Risk — риск различных финансовых положений.
  • FINRA Compliance — лучшее моделирование на соответствие.

12.3. Судебная практика

  • Supreme Court Prediction — предсказание идеологического направления решений Верховного Суда.
  • Supreme Court Topic Modeling — тематическое моделирование в Верховном суде.
  • Judge Opinion — использование анализа текста и машинного обучения для анализа мнений судей по конкретным вопросам.
  • ML Law Matching — производитель матчей по машинному обучению.
  • Bert Multi-label Classification — мультибликовая классификация Берта.

13. Производство

13.1. Общее

13.2. Техническое обслуживание

  • Predictive Maintenance 1 — прогнозирование оставшегося срока использования авиационных двигателей.
  • Predictive Maintenance 2 — время до отказа (TTF) или оставшийся срок полезного использования двигателя (RUL).
  • Manufacturing Maintenance — моделирование обслуживания в производственных систем.

13.3. Ошибки

  • Predictive Analytics — метод прогнозирования сбоев в оборудовании.
  • Detecting Defects — обнаружение аномалий для дефектных полупроводников.
  • Defect Detection — интеллектуальное обнаружение дефектов для производства таблеток.
  • Manufacturing Failures — сокращение производственных сбоев.
  • Manufacturing Anomalies — интеллектуальное обнаружение аномалий для производственной линии.

13.4. Качество

  • Quality Control — обнаружение провалов в контроле качества.
  • Manufacturing Quality — интеллектуальный прогноз качества производства.
  • Auto Manufacturing — данные о продаже автомобилей на аукционе.

14. СМИ и издательство

14.1. Маркетинг

  • Video Popularity — HIP-модель для прогнозирования популярности видео.
  • YouTube transcriber — автоматически транскрибирует видео в YouTube.
  • Marketing Analytics — маркетинговая аналитика, тематические исследования.
  • Algorithmic Marketing — модели от введения до книги «Алгоритмический маркетинг».
  • Marketing Scripts — приложения для маркетинга данных.
  • Social Mining — майнинг социальных сетей.

15. Физика

15.1. Общее

  • Gamma-hadron Reconstruction — инструменты, используемые в наземной астрономии гамма-излучений.
  • Curriculum — ньютоновские ноутбуки.
  • Interaction Networks — сети взаимодействия для изучения объектов, отношений и физики.
  • Particle Physics — генерационный и аналитический код для изучения физики частиц.
  • Computational Physics — хранилище вычислительной физики.
  • Medical Physics — полезный Python для медицинской физики.
  • Medical Physics 2 — общий, основной пакет Python для медицинской физики.
  • Flow Physics — физика и аэроакустика с Python.

15.2. Машинное обучение

  • Physics ML and Stats — машинное обучение и статистика для физиков.
  • High Energy — машинное обучение для физики высоких энергий.
  • High Energy GAN — генеративные состязательные сети для физики высоких энергий.
  • Neural Networks — физика встречает нейронные сети.

16. Правительство

16.1. Социальная политика

  • Triage — универсальный инструментарий по моделированию рисков и прогнозированию политических решений и социальных проблем.
  • World Bank Poverty I — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности.
  • World Bank Poverty II — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности, часть вторая.
  • Overseas Company Land Ownership — определение иностранной собственности в Великобритании.
  • CFPB — анализ жалоб Бюро по защите прав потребителей.
  • Cannabis Legalisation Effect — влияние легализации каннабиса на преступность.
  • Public Credit Card — идентификация потенциального мошенничества с кредитными картами.
  • Recidivism Prediction — прозрачность и учёт оценки риска рецидивизма.
  • Household Poverty — предсказание бедности домохозяйств в Коста-Рике.
  • NLP Public Policy — пример варианта использования НЛП в публичной политике.
  • World Food Production — сравнение ведущих производителей продуктов питания и кормов по всему миру.
  • Tax Inequality — проект данных о налогообложении и неравенстве в Базеле.
  • Sheriff Compliance — соответствие требованиям ICE.
  • Apps Detection — обнаружение подозрительных приложений для детей.
  • Social Assistance — актуальная информация о социальной помощи.
  • Computational Social Science — курс летних школьных наук по социальным данным.
  • Liquor and Crime — влияние спиртных напитков на уровень преступности.
  • Animal Placement Kennels — оптимизация размещения животных в приютах.
  • Staffing Wall — независимый исследовательский проект на мексиканской границе США.
  • Worker Fatalities — карта несчастных случаев на производстве по данным OSHA.

16.2. Благотворительность

  • Census Data API — извлечение переменных из пятилетнего опроса американского сообщества.
  • Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности.
  • Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.

16.3. Анализ выборов

  • Election Analysis — анализ выборов и модели прогнозирования.
  • American Election Causal — использование данных ANES с моделями причинно-следственных связей.
  • Campaign Finance and Election Results — изучение связи между финансированием кампании и результатами последующих выборов.
  • Voting System — методы голосования пропорционального представительства.
  • President Vote — голосование по анализу уровня доходов.

16.4. Политика

  • Congressional politics — палата представителей конгресса США.
  • Politico — платформа для профилирования общественных деятелей в бразильской политике.
  • Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов.
  • Gerrymander tests — множество метрик для количественной оценки Gerrymandering.
  • Sentiment — анализ газет на предмет их политической убеждённости с использованием субъективных настроений представителей партии.
  • DL Politics — сравнение социалистической партии против народной в Бразилии.
  • PAC Money — влияние денег PAC на политику США.
  • Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей.
  • Elite — политическая элита в США.
  • Debate Analysis — программа для анализа политических дебатов.
  • Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter.
  • Political Ads — расследование в Facebook политических объявлений и таргетинга.
  • Political Identity — многоосная политическая модель политической идентичности.
  • YT Politics — отображение политики на YouTube.
  • Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.

17. Недвижимость, аренда и лизинг

17.1. Недвижимость

  • Finding Donuts — прогнозировании окрестностей.
  • Neighbourhood — прогнозирование цен на недвижимость в городе.
  • Real Estate Classification — классификация типа имущества с учётом недвижимости, спутниковой связи и просмотра улиц.
  • Recommender — рекомендательная система топ-5 объектов недвижимости, которые соответствуют поиску пользователя.
  • House Price — предсказание цены дома с использованием линейной регрессии и GBR.
  • House Price Portland — предсказание цены на жильё в Портленде.
  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.

17.2. Аренда и лизинг

18. Коммунальные услуги

18.1. Электроэнергия

  • Electricity Price — сравнение цен на электроэнергию в Сингапуре.
  • Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие.
  • Electricity Capacity — анализ Los Angeles Times анализа дорогостоящей электроэнергии в Калифорнии.
  • Electricity Systems — оптимальная система электроэнергии для европейских стран.
  • Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям.
  • Price Forecasting — прогнозирование цен на электроэнергию на сутки вперёд в немецкой зоне торгов с глубокими нейронными сетями.
  • Carbon Index — расчёт интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года по настоящее время.
  • Demand Forecasting — прогнозирование спроса на электроэнергию в Остине.
  • Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств.
  • Household power consumption — индивидуальное потребление электроэнергии в домашних хозяйствах.
  • Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE).
  • Renewable Power Plants — временные ряды совокупной установленной мощности.
  • Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключённых к FUSED-Wind.
  • Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за шесть лет (с 2006 по 2011 год).

18.2. Уголь, нефть и газ

  • Coal Prediction — прогнозирование добычи угля.
  • Oil & Gas — прогноз цены на нефть и природный газ с использованием ARIMA и нейронных сетей.
  • Gas Formula — расчёт потенциального экономического эффекта формулы индексации цен.
  • Demand Prediction — прогноз спроса на природный газ.
  • Consumption Forecasting — прогнозирование потребления природного газа.
  • Gas Trade — мировая модель торговли природным газом.

18.3. Загрязнение воды

  • Safe Water — предсказание нарушения качества питьевой воды, основанное на здоровье людей в США.
  • Hydrology Data — набор удобных функций для изучения данных о воде в Python.
  • Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений.
  • Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках.
  • Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов.
  • Drought Restrictions — анализ использования воды в Лос-Анджелесе.
  • Flood Prediction — применение LSTM к данным об уровне воды в реке.
  • Sewage Overflow — анализ санитарных переливов (SSO).
  • Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.

18.4. Логистика

  • Transdim — создание точных и эффективных решений для задач расчёта и прогнозирования пространственно-временных данных потоков трафика машин.
  • Transport Recommendation — контекстно-зависимая рекомендация по мультимодальной транспортировке.
  • Transport Data — данные и ноутбуки для транспорта Торонто.
  • Transport Demand — прогнозирование спроса на общественный транспорт в Найроби.
  • Demand Estimation — внедрение динамической оценки спроса отправителя-получателя.
  • Congestion Analysis — анализ транспортных систем.
  • TS Analysis — анализ временных рядов по транспортным данным.
  • Network Graph Subway — анализ уязвимости для транспортных сетей.
  • Transportation Inefficiencies — количественная оценка неэффективности транспортных сетей.
  • Train Optimisation — оптимизация расписания поездов.
  • Traffic Prediction — прогнозирование городского трафика.
  • Predict Crashes — прогнозирования сбоев, использующее несколько источников данных.
  • AI Supply chain — система оптимизации цепочки поставок.
  • Transfer Learning Flight Delay — использование вариационных кодеров в Keras для прогнозирования задержки полёта.
  • Replenishment — код для управления цепочкой поставок.

19. Оптовая и розничная торговля

19.1. Оптовая торговля

  • Customer Analysis — анализ оптовых клиентов.
  • Distribution — JB-оптовый анализ распределения.
  • Clustering — кластеризация данных о затратах на продукт, собираемым для клиентов.
  • Market Basket Analysis — публичный набор данных Instacart с информацией о том, какие продукты часто покупаются вместе.

19.2. Розничная торговля

  • Retail Analysis — онлайн набор данных о розничной торговле.
  • Online Insights — анализ онлайн-транзакций в Великобритании.
  • Retail Cohort — когортный анализ.

На этом наш материал о применении ML и DS в промышленности подошёл к концу. Надеюсь, вы узнали для себя что-нибудь новое. Не забудьте поделиться с коллегами. Также если у вас есть то, чем вы можете поделиться сами, — пишите в комментариях.

Больше информации о машинном обучении и Data Science в Telegram-канале.

Всем знаний!

0
10 комментариев
Написать комментарий...
Николай Новичков

Автору сборки респектище

Ответить
Развернуть ветку
Семен Лыткин

Это бомба! 😱

Ответить
Развернуть ветку
Dmitry Reor

Без комментариев...Просто огромное спасибо!

Ответить
Развернуть ветку
Vladimir Ivanov

Круто. Спасибо!

Ответить
Развернуть ветку
Андрей Браиловский

Очень здорово, спасибо за планы на несколько выходных вперёд

Ответить
Развернуть ветку
David Chelidze

супер! спасибо!

Ответить
Развернуть ветку
Василиса Соколова

Спасибо, это круто!

Ответить
Развернуть ветку
Мария Шелгунова

Спасибо!

Ответить
Развернуть ветку
Алексей Енин

Создал таблицу https://docs.google.com/spreadsheets/d/1nvWyL6AMwuOovXXf-rTK3G4Iknl_3jWs9Wb95Ez-jxM/edit?usp=sharing.
Перенес туда этот список.
Начал ручками отрабатывать пример за примером.
Надеюсь получится заглянуть во все разделы.

Автору СПАСИБО.

Ответить
Развернуть ветку
Шахзод

Большое спасибо!

(У вас опечатка: Actuarial Sciences — ряд актуаРных инструментов в R.)

Ответить
Развернуть ветку
7 комментариев
Раскрывать всегда