Skip to content

Latest commit

 

History

History
838 lines (630 loc) · 49.6 KB

Glossary v 3.md

File metadata and controls

838 lines (630 loc) · 49.6 KB

Словарь терминов аналитики данных (200 терминов)

Этот словарь содержит 200 терминов, связанных с Python, SQL, теорией вероятностей, математической статистикой, визуализацией данных, A/B-тестами, машинным обучением, большими данными и BI-инструментами. Он отражает ключевые концепции.

Python

  1. .append()

    • Описание: Метод списка в Python, добавляет один элемент в конец списка как целое.
    • Пример: lst = [1, 2]; lst.append(3)[1, 2, 3].
    • Примечание: Не распаковывает итерируемые объекты, в отличие от extend().
  2. .apply()

    • Описание: Метод в Pandas, применяет функцию к каждой строке или столбцу DataFrame.
    • Пример: df['age'].apply(lambda x: x + 1) — увеличивает возраст на 1.
  3. .concat()

    • Описание: Функция в Pandas, склеивает DataFrame или Series по осям (строки или столбцы).
    • Пример: pd.concat([df1, df2], axis=0) — объединяет по строкам.
  4. .copy()

    • Описание: Метод в Python/Pandas, создает копию объекта, избегая изменений оригинала.
    • Пример: new_lst = lst.copy() или df_copy = df.copy().
  5. .extend()

    • Описание: Метод списка в Python, добавляет элементы итерируемого объекта по отдельности в конец списка.
    • Пример: lst = [1, 2]; lst.extend([3, 4])[1, 2, 3, 4].
  6. .iloc

    • Описание: Метод в Pandas для выбора данных из DataFrame по числовым индексам (позициям).
    • Пример: df.iloc[0, 1] — первая строка, второй столбец.
  7. .join()

    • Описание: Метод строк в Python, объединяет элементы итерируемого объекта в строку с разделителем.
    • Пример: " ".join(["Hello", "World"])"Hello World".
  8. .loc

    • Описание: Метод в Pandas для выбора данных из DataFrame по меткам, поддерживает булевы маски.
    • Пример: df.loc[df['age'] > 30, 'name'] — имена людей старше 30.
  9. .merge()

    • Описание: Метод в Pandas, объединяет два DataFrame по общему ключу (аналог SQL JOIN).
    • Пример: pd.merge(df1, df2, on='id', how='inner').
  10. .pop()

    • Описание: Метод списка в Python, удаляет и возвращает элемент по индексу.
    • Пример: lst = [1, 2, 3]; lst.pop(1) → возвращает 2, список становится [1, 3].
  11. .sort()

    • Описание: Метод списка в Python, сортирует элементы на месте.
    • Пример: lst = [3, 1, 2]; lst.sort()[1, 2, 3].
  12. args

    • Описание: Специальный параметр в функциях Python, принимает произвольное число позиционных аргументов как кортеж.
    • Пример: def func(*args): print(args)func(1, 2, 3)(1, 2, 3).
  13. boolean

    • Описание: Тип данных в Python, принимает значения True или False.
    • Пример: x = True.
  14. class

    • Описание: Шаблон в Python для создания объектов с атрибутами и методами (ООП).
    • Пример: class Person: def __init__(self, name): self.name = name.
  15. collections

    • Описание: Модуль в Python, предоставляет специализированные структуры данных (например, Counter, defaultdict).
    • Пример: from collections import Counter; Counter([1, 1, 2]){1: 2, 2: 1}.
  16. def

    • Описание: Ключевое слово в Python для определения функции.
    • Пример: def add(a, b): return a + b.
  17. dict

    • Описание: Тип данных в Python, хранит пары "ключ-значение", где ключи уникальны и хэшируются (O(1) доступ).
    • Пример: d = {"a": 1, "b": 2}.
  18. enumerate()

    • Описание: Функция в Python, возвращает пары (индекс, значение) для итерируемого объекта.
    • Пример: list(enumerate(['a', 'b']))[(0, 'a'), (1, 'b')].
  19. float

    • Описание: Тип данных в Python для чисел с плавающей точкой (десятичных).
    • Пример: x = 3.14.
  20. for

    • Описание: Цикл в Python для итерации по последовательности.
    • Пример: for i in range(3): print(i) → 0, 1, 2.
  21. groupby()

    • Описание: Метод в Pandas, группирует данные по столбцу для агрегации.
    • Пример: df.groupby('region')['sales'].sum().
  22. if/else

    • Описание: Управляющая конструкция в Python для условного выполнения кода.
    • Пример: if x > 0: print("Положительное") else: print("Отрицательное").
  23. int

    • Описание: Тип данных в Python для целых чисел.
    • Пример: x = 5.
  24. kwargs

    • Описание: Специальный параметр в функциях Python, принимает произвольное число именованных аргументов как словарь.
    • Пример: def func(**kwargs): print(kwargs)func(a=1, b=2){'a': 1, 'b': 2}.
  25. lambda

    • Описание: Анонимная функция в Python, создается в одной строке.
    • Пример: f = lambda x: x + 1; f(2) → 3.
  26. len()

    • Описание: Функция в Python, возвращает длину объекта (списка, строки и т.д.).
    • Пример: len([1, 2, 3]) → 3.
  27. list

    • Описание: Упорядоченный, изменяемый тип данных в Python, допускает дубликаты.
    • Пример: [1, 2, 2, 3].
  28. list comprehension

    • Описание: Компактный синтаксис в Python для создания списков вместо цикла.
    • Пример: [x * 2 for x in range(5)][0, 2, 4, 6, 8].
  29. map()

    • Описание: Функция в Python, применяет функцию к каждому элементу итерируемого объекта.
    • Пример: list(map(lambda x: x + 1, [1, 2, 3]))[2, 3, 4].
  30. np.array

    • Описание: Многомерный массив в NumPy для быстрых операций, фиксированный размер и тип.
    • Пример: np.array([1, 2, 3]) * 2[2, 4, 6].
  31. range()

    • Описание: Функция в Python, генерирует последовательность чисел.
    • Пример: list(range(3))[0, 1, 2].
  32. set

    • Описание: Неупорядоченный, изменяемый тип данных в Python, содержит только уникальные элементы.
    • Пример: {1, 2, 3}.
  33. sorted()

    • Описание: Функция в Python, возвращает отсортированный список, не изменяя оригинал.
    • Пример: sorted([3, 1, 2])[1, 2, 3].
  34. str

    • Описание: Тип данных в Python для строк.
    • Пример: s = "Hello".
  35. try/except

    • Описание: Конструкция в Python для обработки исключений.
    • Пример: try: 10/0 except ZeroDivisionError: print("Ошибка").
  36. tuple

    • Описание: Упорядоченный, неизменяемый тип данных в Python.
    • Пример: (1, 2, 3).
  37. while

    • Описание: Цикл в Python, выполняется, пока условие истинно.
    • Пример: i = 0; while i < 3: print(i); i += 1 → 0, 1, 2.
  38. zip()

    • Описание: Функция в Python, объединяет элементы итерируемых объектов в кортежи.
    • Пример: list(zip([1, 2], ['a', 'b']))[(1, 'a'), (2, 'b')].

SQL

  1. AVG()

    • Описание: Агрегатная функция в SQL, вычисляет среднее значение в столбце.
    • Пример: SELECT AVG(salary) FROM employees.
  2. COUNT()

    • Описание: Агрегатная функция в SQL, подсчитывает количество строк или значений.
    • Пример: SELECT COUNT(*) FROM employees.
  3. CREATE TABLE

    • Описание: Команда в SQL для создания новой таблицы с указанием столбцов и типов данных.
    • Пример: CREATE TABLE users (id INT, name VARCHAR(50)).
  4. DELETE

    • Описание: Команда в SQL для удаления строк из таблицы.
    • Пример: DELETE FROM users WHERE id = 1.
  5. DISTINCT

    • Описание: Оператор в SQL, убирает дубликаты из результата запроса.
    • Пример: SELECT DISTINCT region FROM sales.
  6. DROP TABLE

    • Описание: Команда в SQL для удаления таблицы из базы данных.
    • Пример: DROP TABLE users.
  7. EXPLAIN

    • Описание: Команда в SQL, показывает план выполнения запроса для оптимизации.
    • Пример: EXPLAIN SELECT * FROM employees WHERE salary > 50000.
  8. FULL OUTER JOIN

    • Описание: Тип объединения в SQL, возвращает все строки из обеих таблиц, с NULL там, где нет совпадений.
    • Пример: SELECT a.name, b.order_id FROM customers a FULL OUTER JOIN orders b ON a.id = b.id.
  9. GROUP BY

    • Описание: Оператор в SQL, группирует строки по столбцу для агрегации.
    • Пример: SELECT department, AVG(salary) FROM employees GROUP BY department.
  10. HAVING

    • Описание: Оператор в SQL, фильтрует группы после GROUP BY.
    • Пример: SELECT department, COUNT(*) FROM employees GROUP BY department HAVING COUNT(*) > 5.
  11. INNER JOIN

    • Описание: Тип объединения в SQL, возвращает только совпадающие строки из обеих таблиц.
    • Пример: SELECT a.name, b.order_id FROM customers a INNER JOIN orders b ON a.id = b.id.
  12. INSERT

    • Описание: Команда в SQL для добавления строк в таблицу.
    • Пример: INSERT INTO users (id, name) VALUES (1, 'Иван').
  13. LAG

    • Описание: Оконная функция в SQL, возвращает значение предыдущей строки в окне.
    • Пример: LAG(amount) OVER (ORDER BY date).
  14. LEAD

    • Описание: Оконная функция в SQL, возвращает значение следующей строки в окне.
    • Пример: LEAD(amount) OVER (ORDER BY date).
  15. LEFT JOIN

    • Описание: Тип объединения в SQL, возвращает все строки из левой таблицы и совпадающие из правой (или NULL).
    • Пример: SELECT a.name, b.order_id FROM customers a LEFT JOIN orders b ON a.id = b.id.
  16. LIMIT

    • Описание: Оператор в SQL, ограничивает число строк в результате.
    • Пример: SELECT name FROM employees LIMIT 5.
  17. MAX()

    • Описание: Агрегатная функция в SQL, возвращает максимальное значение в столбце.
    • Пример: SELECT MAX(salary) FROM employees.
  18. MIN()

    • Описание: Агрегатная функция в SQL, возвращает минимальное значение в столбце.
    • Пример: SELECT MIN(salary) FROM employees.
  19. ORDER BY

    • Описание: Оператор в SQL, сортирует результат по столбцу (ASC или DESC).
    • Пример: SELECT name FROM employees ORDER BY salary DESC.
  20. PARTITION BY

    • Описание: Часть оконной функции в SQL, делит данные на группы для вычислений.
    • Пример: SUM(amount) OVER (PARTITION BY region).
  21. RANK()

    • Описание: Оконная функция в SQL, присваивает ранг строкам, одинаковые значения — одинаковый ранг.
    • Пример: RANK() OVER (ORDER BY salary DESC).
  22. RIGHT JOIN

    • Описание: Тип объединения в SQL, возвращает все строки из правой таблицы и совпадающие из левой (или NULL).
    • Пример: SELECT a.name, b.order_id FROM customers a RIGHT JOIN orders b ON a.id = b.id.
  23. ROW_NUMBER()

    • Описание: Оконная функция в SQL, присваивает уникальный номер каждой строке в окне.
    • Пример: ROW_NUMBER() OVER (ORDER BY salary DESC).
  24. SELECT

    • Описание: Основная команда в SQL для извлечения данных из таблицы.
    • Пример: SELECT name, salary FROM employees WHERE salary > 50000.
  25. SUM()

    • Описание: Агрегатная функция в SQL, вычисляет сумму значений в столбце.
    • Пример: SELECT SUM(sales) FROM orders.
  26. UNION

    • Описание: Оператор в SQL, объединяет результаты двух запросов, убирая дубликаты.
    • Пример: SELECT name FROM employees UNION SELECT name FROM contractors.
  27. UPDATE

    • Описание: Команда в SQL для изменения данных в таблице.
    • Пример: UPDATE users SET name = 'Петр' WHERE id = 1.
  28. WHERE

    • Описание: Оператор в SQL, фильтрует строки по условию перед агрегацией.
    • Пример: SELECT name FROM employees WHERE salary > 50000.
  29. Индексы

    • Описание: Структуры данных в SQL (например, B-дерево), ускоряют поиск по столбцу.
    • Пример: CREATE INDEX idx_salary ON employees(salary).
  30. Оконные функции

    • Описание: Функции в SQL, выполняют вычисления над набором строк без сворачивания результата.
    • Пример: SUM(amount) OVER (ORDER BY date).
  31. Подзапрос

    • Описание: Вложенный запрос в SQL, выполняется внутри основного запроса.
    • Пример: SELECT name FROM employees WHERE salary > (SELECT AVG(salary) FROM employees).

Теория вероятностей

  1. Байесовская теорема

    • Описание: Связывает условные вероятности через формулу ( P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} ).
    • Пример: Вероятность болезни при положительном тесте.
  2. Биномиальное распределение

    • Описание: Распределение числа успехов в ( n ) независимых испытаниях с вероятностью ( p ).
    • Формула: ( P(k) = C(n, k) \cdot p^k \cdot (1-p)^{n-k} ).
    • Пример: ( P(2) ) для 3 бросков монеты — 0.375.
  3. Вероятность события

    • Описание: Числовая мера возможности наступления события (0–1).
    • Формула: ( P(A) = \frac{\text{благоприятные исходы}}{\text{все исходы}} ).
    • Пример: ( P(\text{6 на кубике}) = 1/6 ).
  4. Геометрическое распределение

    • Описание: Число испытаний до первого успеха с вероятностью ( p ).
    • Формула: ( P(k) = (1-p)^{k-1} \cdot p ).
    • Пример: Вероятность первого орла на 3-м броске.
  5. Дискретная вероятность

    • Описание: Вероятность для конечного или счетного множества исходов.
    • Пример: Бросок кубика — ( P(1) = 1/6 ).
  6. Закон больших чисел

    • Описание: Среднее значение случайной величины приближается к ожиданию при большом ( n ).
    • Пример: Доля орлов в 1000 бросках → 0.5.
  7. Комбинаторика

    • Описание: Раздел математики для подсчета комбинаций (например, ( C(n, k) = \frac{n!}{k!(n-k)!} )).
    • Пример: ( C(3, 2) = 3 ) — выбор 2 из 3.
  8. Ковариация

    • Описание: Мера совместной изменчивости двух случайных величин.
    • Формула: ( \text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1} ).
    • Пример: Для ( x = [1, 2], y = [2, 4] ).
  9. Математическое ожидание (( E(X) ))

    • Описание: Среднее значение случайной величины в долгосрочной перспективе.
    • Формула: ( E(X) = \sum x_i \cdot P(x_i) ).
    • Пример: Для кубика ( E(X) = 3.5 ).
  10. Независимость событий

    • Описание: События ( A ) и ( B ) независимы, если ( P(A \cap B) = P(A) \cdot P(B) ).
    • Пример: Бросок кубика и монетки.
  11. Непрерывная вероятность

    • Описание: Вероятность для непрерывных случайных величин, задается плотностью.
    • Пример: Нормальное распределение.
  12. Нормальное распределение

    • Описание: Непрерывное распределение с колоколообразной формой, характеризуется ( \mu ) и ( \sigma ).
    • Пример: Рост людей (( \mu = 170 , \text{см} )).
  13. Объединение событий (( A \cup B ))

    • Описание: Вероятность наступления хотя бы одного из событий.
    • Формула: ( P(A \cup B) = P(A) + P(B) - P(A \cap B) ).
    • Пример: ( P(\text{туз или черви}) = 1/13 + 1/4 - 1/52 ).
  14. Пересечение событий (( A \cap B ))

    • Описание: Вероятность одновременного наступления событий ( A ) и ( B ).
    • Пример: ( P(\text{туз и черви}) = 1/52 ).
  15. Пуассоновское распределение

    • Описание: Число событий за фиксированное время с интенсивностью ( \lambda ).
    • Формула: ( P(k) = \frac{\lambda^k e^{-\lambda}}{k!} ).
    • Пример: Число звонков в час.
  16. Случайная величина

    • Описание: Переменная, значение которой определяется случайным процессом.
    • Пример: Результат броска кубика.
  17. Условная вероятность (( P(A|B) ))

    • Описание: Вероятность ( A ) при условии ( B ).
    • Формула: ( P(A|B) = \frac{P(A \cap B)}{P(B)} ).
    • Пример: ( P(\text{дождь}|\text{облака}) = 0.8 ).
  18. Центральная предельная теорема (ЦПТ)

    • Описание: Сумма большого числа независимых величин приближается к нормальному распределению при ( n > 30 ).
    • Пример: Среднее 100 бросков кубика — нормальное.

Математическая статистика

  1. ( \chi^2 )-тест (Chi-squared test)

    • Описание: Тест для проверки зависимости категориальных переменных или соответствия частот.
    • Формула: ( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ).
    • Пример: Зависимость покупки от пола.
  2. ANOVA (Analysis of Variance)

    • Описание: Тест для сравнения средних более чем двух групп.
    • Пример: Сравнение продаж по трем регионам.
  3. Бутстреп

    • Описание: Метод повторной выборки с возвращением для оценки статистики.
    • Пример: Оценка среднего с малой выборкой.
  4. Гипотеза нулевая (( H_0 ))

    • Описание: Утверждение об отсутствии эффекта, проверяется в тестах.
    • Пример: "Средние двух групп равны".
  5. Гипотеза альтернативная (( H_1 ))

    • Описание: Утверждение о наличии эффекта, противоположное ( H_0 ).
    • Пример: "Средние двух групп различаются".
  6. Дисперсия (( \sigma^2 ), ( s^2 ))

    • Описание: Мера разброса данных относительно среднего.
    • Формула: ( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} ) (выборка).
    • Пример: Для [1, 2, 3, 4] ≈ 1.67.
  7. Доверительный интервал (CI)

    • Описание: Диапазон, где с заданной вероятностью лежит истинное значение.
    • Формула: ( \bar{x} \pm z \cdot \frac{s}{\sqrt{n}} ).
    • Пример: Для ( \bar{x} = 10 ) — [9.22, 10.78].
  8. Квантиль

    • Описание: Значение, ниже которого находится заданная доля данных (например, 25% — первый квантиль).
    • Пример: Медиана — 50-й квантиль.
  9. Коэффициент корреляции Пирсона

    • Описание: Мера линейной зависимости между переменными (-1 до 1).
    • Пример: Для ( x = [1, 2, 3], y = [2, 4, 6] ) → 1.0.
  10. Коэффициент Спирмена

    • Описание: Ранговая корреляция для нелинейных зависимостей.
    • Пример: Для упорядоченных рангов.
  11. Куртозис (Kurtosis)

    • Описание: Мера "остроты" распределения (высокий или плоский пик).
    • Пример: Нормальное распределение — куртозис ≈ 0.
  12. Медиана

    • Описание: Срединное значение в отсортированном наборе данных.
    • Пример: [1, 2, 100] → 2.
  13. Мода
    - Описание: Наиболее часто встречающееся значение в наборе данных.
    - Пример: [1, 2, 2, 3] → 2.

  14. Мощность теста (1 - ( \beta ))
    - Описание: Вероятность верно отвергнуть ложную ( H_0 ).
    - Пример: 0.8 — 80% шанс обнаружить эффект.

  15. Ошибка I рода
    - Описание: Ложное отвержение верной ( H_0 ) (( \alpha )).
    - Пример: Ошибка 5% при ( \alpha = 0.05 ).

  16. Ошибка II рода (( \beta ))
    - Описание: Неверное принятие ложной ( H_0 ).
    - Пример: Пропуск эффекта при низкой мощности.

  17. Сглаживание
    - Описание: Метод уменьшения шума в данных (например, скользящее среднее).
    - Пример: Среднее по 3 точкам.

  18. Скошенность (Skewness)
    - Описание: Мера асимметрии распределения (положительная или отрицательная).
    - Пример: Распределение с длинным правым "хвостом" — положительная.

  19. Среднее (( \bar{x} ))
    - Описание: Сумма значений, деленная на их число.
    - Пример: [1, 2, 100] → 34.33.

  20. Стандартное отклонение (( \sigma ), ( s ))
    - Описание: Квадратный корень из дисперсии, мера разброса.
    - Формула: ( s = \sqrt{s^2} ).
    - Пример: Для [1, 2, 3, 4] ≈ 1.29.

  21. t-тест
    - Описание: Тест для проверки различий между средними двух групп.
    - Пример: t-статистика = -2.88, p = 0.045 → значимо.

  22. p-value
    - Описание: Вероятность получить результат при верной ( H_0 ).
    - Пример: p < 0.05 → отвергаем ( H_0 ).

  23. ( R^2 ) (коэффициент детерминации)
    - Описание: Доля дисперсии зависимой переменной, объясненная моделью (0–1).
    - Пример: ( R^2 = 0.8 ) — 80% объяснено.

  24. Уровень значимости (( \alpha ))
    - Описание: Порог вероятности ошибки I рода, обычно 0.05.
    - Пример: ( \alpha = 0.05 ) — 5% риск.

  25. Шапиро-тест
    - Описание: Тест на нормальность распределения, p > 0.05 → нормальность.
    - Пример: Для нормальных данных p ≈ 0.5.

Визуализация

  1. Axes
    - Описание: Объект в Matplotlib, представляющий область графика (оси, линии).
    - Пример: fig, ax = plt.subplots().

  2. bar (Matplotlib)
    - Описание: Столбчатая диаграмма для категориальных данных с заданными высотами.
    - Пример: plt.bar(['A', 'B'], [10, 12]).

  3. Boxplot (Seaborn)
    - Описание: Ящик с усами для отображения распределения данных (медиана, квартили, выбросы).
    - Пример: sns.boxplot(x='group', y='value', data=df).

  4. Figure
    - Описание: Объект в Matplotlib, контейнер для графиков.
    - Пример: plt.figure(figsize=(10, 6)).

  5. hist (Matplotlib)
    - Описание: Гистограмма для числовых данных, показывает частотность.
    - Пример: plt.hist([1, 2, 2, 3], bins=3).

  6. Heatmap (Seaborn)
    - Описание: Тепловая карта для визуализации матриц (например, корреляций).
    - Пример: sns.heatmap(df.corr(), annot=True).

  7. Line plot (Matplotlib)
    - Описание: Линейный график для отображения трендов во времени или по оси.
    - Пример: plt.plot(x, y).

  8. Scatter plot (Matplotlib)
    - Описание: Точечный график для отображения отношений между двумя переменными.
    - Пример: plt.scatter(x, y).

  9. Subplot
    - Описание: Метод в Matplotlib для создания нескольких графиков в одной фигуре.
    - Пример: plt.subplot(1, 2, 1) — первый из двух графиков.

  10. Violin plot (Seaborn)
    - Описание: График, показывающий распределение данных с плотностью.
    - Пример: sns.violinplot(x='group', y='value', data=df).

A/B-тесты и машинное обучение

  1. A/B-тест
    - Описание: Эксперимент, сравнивающий две версии (A и B) для выбора лучшей по метрике.
    - Пример: Конверсия A = 10%, B = 12%.

  2. Accuracy
    - Описание: Доля верно предсказанных значений в классификации.
    - Формула: ( \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{Всего}} ).
    - Пример: 0.9 — 90% верно.

  3. Bias
    - Описание: Смещение модели, ошибка из-за упрощения предположений.
    - Пример: Линейная модель на нелинейных данных.

  4. Cross-validation (Кросс-валидация)
    - Описание: Метод оценки модели, разбивающий данные на ( k ) фолдов для обучения и тестирования.
    - Пример: 5-fold CV.

  5. F1-score
    - Описание: Гармоническое среднее precision и recall для оценки классификации.
    - Формула: ( F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} ).
    - Пример: 0.85.

  6. Feature
    - Описание: Признак или переменная в модели ML.
    - Пример: "Возраст" в регрессии.

  7. Gradient Descent
    - Описание: Метод оптимизации в ML для минимизации функции потерь.
    - Пример: Обновление весов в регрессии.

  8. Hyperparameter
    - Описание: Параметр модели, задаваемый до обучения (например, глубина дерева).
    - Пример: max_depth в дереве решений.

  9. K-Means
    - Описание: Алгоритм кластеризации, группирующий данные в ( k ) кластеров.
    - Пример: Сегментация клиентов.

  10. Loss Function
    - Описание: Функция, измеряющая ошибку предсказаний модели.
    - Пример: MSE в регрессии.

  11. Mean Squared Error (MSE)
    - Описание: Средняя квадратичная ошибка между предсказаниями и истинными значениями.
    - Формула: ( \text{MSE} = \frac{1}{n} \sum (y_i - \hat{y}_i)^2 ).
    - Пример: MSE = 0.05.

  12. Overfitting
    - Описание: Модель слишком подстраивается под обучающие данные, плохо обобщает.
    - Пример: Низкая ошибка на трейне, высокая на тесте.

  13. Precision
    - Описание: Доля верно предсказанных положительных среди всех предсказанных положительных.
    - Формула: ( \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} ).
    - Пример: 0.9.

  14. Recall
    - Описание: Доля верно предсказанных положительных среди всех истинных положительных.
    - Формула: ( \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} ).
    - Пример: 0.85.

  15. Regularization
    - Описание: Метод в ML для предотвращения переобучения, добавляет штраф к функции потерь.
    - Пример: L1 (Lasso), L2 (Ridge).

  16. ROC Curve
    - Описание: Кривая, показывающая баланс между TPR и FPR в классификации.
    - Пример: AUC = 0.9 — высокое качество.

  17. Train/Test Split
    - Описание: Разделение данных на обучающую и тестовую выборки для оценки модели.
    - Пример: 80% — train, 20% — test.

  18. Uplift
    - Описание: Относительное изменение метрики между группами в A/B-тесте.
    - Формула: ( \text{Uplift} = \frac{\text{B} - \text{A}}{\text{A}} \cdot 100% ).
    - Пример: 20% роста конверсии.

  19. Variance
    - Описание: Чувствительность модели к изменениям в обучающих данных.
    - Пример: Высокая дисперсия → переобучение.

Дополнительные термины (BI, большие данные, аналитика)

  1. API
    - Описание: Интерфейс для взаимодействия между программами (например, получение данных).
    - Пример: REST API для погоды.

  2. ARIMA
    - Описание: Модель для анализа и прогнозирования временных рядов (авторегрессия, интегрирование, скользящее среднее).
    - Пример: Прогноз продаж.

  3. Big Data
    - Описание: Обработка больших объемов данных, требующих специальных технологий (Hadoop, Spark).
    - Пример: Анализ логов сайта.

  4. Business Intelligence (BI)
    - Описание: Технологии и инструменты для анализа бизнес-данных (например, Power BI, Tableau).
    - Пример: Дашборд продаж.

  5. Clustering
    - Описание: Метод группировки данных в кластеры без меток.
    - Пример: K-Means для сегментации.

  6. CSV
    - Описание: Формат файла с данными, разделенными запятыми.
    - Пример: id,name;1,Иван.

  7. Dashboard
    - Описание: Интерактивная панель в BI-инструментах для визуализации метрик.
    - Пример: Дашборд в Power BI с продажами.

  8. Data Cleaning
    - Описание: Процесс удаления ошибок, пропусков и выбросов из данных.
    - Пример: Заполнение NaN средним.

  9. Data Lake
    - Описание: Хранилище необработанных данных в исходном формате.
    - Пример: Хранение логов в облаке.

  10. Data Warehouse
    - Описание: Хранилище структурированных данных для аналитики.
    - Пример: Snowflake для отчетов.

  11. DataFrame
    - Описание: Табличная структура данных в Pandas.
    - Пример: df = pd.DataFrame({'A': [1, 2]}).

  12. Decision Tree
    - Описание: Алгоритм ML, разбивает данные на ветви для классификации или регрессии.
    - Пример: Прогноз оттока клиентов.

  13. Dimensionality Reduction
    - Описание: Уменьшение числа признаков в данных (например, PCA).
    - Пример: Сжатие признаков до 2D.

  14. EDA (Exploratory Data Analysis)
    - Описание: Исследовательский анализ данных для выявления закономерностей.
    - Пример: Построение гистограмм.

  15. ETL (Extract, Transform, Load)
    - Описание: Процесс извлечения, преобразования и загрузки данных в хранилище.
    - Пример: Загрузка данных в Data Warehouse.

  16. Feature Engineering
    - Описание: Создание новых признаков из существующих данных для улучшения модели.
    - Пример: Добавление "возрастной группы".

  17. Hadoop
    - Описание: Фреймворк для обработки больших данных с распределенной файловой системой (HDFS).
    - Пример: Анализ терабайтов логов.

  18. JSON
    - Описание: Формат обмена данными, основанный на ключ-значение.
    - Пример: {"name": "Иван", "age": 30}.

  19. KPI (Key Performance Indicator)
    - Описание: Клюевой показатель эффективности для оценки успеха.
    - Пример: Конверсия продаж.

  20. L1 Regularization (Lasso)
    - Описание: Метод регуляризации в ML, добавляет сумму абсолютных значений весов к функции потерь.
    - Пример: Уменьшение числа признаков.

  21. L2 Regularization (Ridge)
    - Описание: Метод регуляризации в ML, добавляет сумму квадратов весов к функции потерь.
    - Пример: Сглаживание коэффициентов.

  22. Logistic Regression
    - Описание: Модель для бинарной классификации, предсказывает вероятности через сигмоиду.
    - Пример: ( P(y=1|x) ) для ( x = [1, 2, 3] ).

  23. Machine Learning (ML)
    - Описание: Область ИИ, обучающая модели на данных для предсказаний.
    - Пример: Прогноз продаж.

  24. Normalization
    - Описание: Приведение данных к диапазону (например, 0–1).
    - Пример: ( x' = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} ).

  25. Outlier
    - Описание: Выброс — значение, сильно отличающееся от остальных.
    - Пример: 100 в [1, 2, 3, 100].

  26. Pandas
    - Описание: Библиотека Python для анализа и манипуляции данными.
    - Пример: import pandas as pd.

  27. Pipeline
    - Описание: Последовательность шагов обработки данных в ML.
    - Пример: Очистка → нормализация → модель.

  28. Power BI
    - Описание: Инструмент Microsoft для визуализации и анализа данных.
    - Пример: Дашборд с KPI.

  29. Preprocessing
    - Описание: Подготовка данных перед анализом (очистка, кодирование).
    - Пример: Заполнение пропусков.

  30. Random Forest
    - Описание: Ансамблевый метод ML, использующий множество деревьев решений.
    - Пример: Классификация клиентов.

  31. Random Seed
    - Описание: Фиксация генератора случайных чисел для воспроизводимости.
    - Пример: np.random.seed(42).

  32. Regression
    - Описание: Метод предсказания непрерывных значений.
    - Пример: Линейная регрессия.

  33. SQL
    - Описание: Язык для работы с реляционными базами данных.
    - Пример: SELECT * FROM users.

  34. Series
    - Описание: Одномерная структура данных в Pandas.
    - Пример: s = pd.Series([1, 2, 3]).

  35. Spark
    - Описание: Фреймворк для обработки больших данных с распределенными вычислениями.
    - Пример: Анализ больших логов.

  36. Standardization
    - Описание: Приведение данных к стандартному виду (( z = \frac{x - \mu}{\sigma} )).
    - Пример: Преобразование в z-оценки.

  37. Supervised Learning
    - Описание: Тип ML с метками в обучающих данных.
    - Пример: Регрессия, классификация.

  38. Tableau
    - Описание: Инструмент для визуализации данных и создания дашбордов.
    - Пример: Интерактивный график продаж.

  39. Time Series
    - Описание: Последовательность данных, упорядоченная по времени.
    - Пример: Продажи по дням.

  40. Unsupervised Learning
    - Описание: Тип ML без меток, для поиска структуры в данных.
    - Пример: Кластеризация.

  41. Vectorization
    - Описание: Выполнение операций над массивами в NumPy без циклов.
    - Пример: np.array([1, 2]) + 1[2, 3].

  42. Z-score
    - Описание: Мера отклонения значения от среднего в единицах стандартного отклонения.
    - Формула: ( z = \frac{x - \mu}{\sigma} ).
    - Пример: ( z = 1 ) — на одно ( \sigma ) выше среднего.

  43. Aggregation
    - Описание: Сведение данных к одной метрике (например, сумма, среднее).
    - Пример: df.groupby('region')['sales'].sum().

  44. Binning
    - Описание: Разбиение непрерывных данных на интервалы (бины).
    - Пример: Разделение возраста на группы [0-20, 20-40].

  45. Categorical Data
    - Описание: Данные с ограниченным набором значений (категории).
    - Пример: Пол (мужской, женский).

  46. Confidence Level
    - Описание: Вероятность, что доверительный интервал содержит истинное значение.
    - Пример: 95% доверительный уровень.

  47. Confusion Matrix
    - Описание: Таблица для оценки классификации (TP, TN, FP, FN).
    - Пример: Матрица для предсказания оттока.

  48. Correlation
    - Описание: Мера связи между двумя переменными.
    - Пример: Пирсон = 0.9 — сильная линейная связь.

  49. Data Transformation
    - Описание: Изменение формы или масштаба данных (например, логарифмирование).
    - Пример: ( log(x) ) для скошенных данных.

  50. Explained Variance
    - Описание: Доля общей дисперсии, объясненная моделью.
    - Пример: ( R^2 ) в регрессии.

  51. False Negative (FN)
    - Описание: Ошибка классификации, когда положительный класс предсказан как отрицательный.
    - Пример: Болезнь не обнаружена.

  52. False Positive (FP)
    - Описание: Ошибка классификации, когда отрицательный класс предсказан как положительный.
    - Пример: Ложная тревога.

  53. Feature Selection
    - Описание: Выбор наиболее важных признаков для модели.
    - Пример: Удаление низкокоррелирующих переменных.

  54. Grid Search
    - Описание: Метод поиска оптимальных гиперпараметров модели.
    - Пример: Поиск лучшего C для SVM.

  55. Imputation
    - Описание: Заполнение пропущенных значений в данных.
    - Пример: Замена NaN средним.

  56. One-Hot Encoding
    - Описание: Преобразование категориальных данных в бинарные столбцы.
    - Пример: "Пол" → [0, 1] для "мужской".

  57. Outlier Detection
    - Описание: Метод поиска аномалий в данных.
    - Пример: Использование IQR.

  58. Sampling
    - Описание: Выбор подмножества данных для анализа.
    - Пример: Случайная выборка 10%.

  59. Statistical Significance
    - Описание: Указывает, что результат не случаен (p < ( \alpha )).
    - Пример: p = 0.03 < 0.05 → значимо.