Словарь терминов аналитики данных (200 терминов)

Этот словарь содержит 200 терминов, связанных с Python, SQL, теорией вероятностей, математической статистикой, визуализацией данных, A/B-тестами, машинным обучением, большими данными и BI-инструментами. Он отражает ключевые концепции.

Python

.append()
- Описание: Метод списка в Python, добавляет один элемент в конец списка как целое.
- Пример: lst = [1, 2]; lst.append(3) → [1, 2, 3].
- Примечание: Не распаковывает итерируемые объекты, в отличие от extend().
.apply()
- Описание: Метод в Pandas, применяет функцию к каждой строке или столбцу DataFrame.
- Пример: df['age'].apply(lambda x: x + 1) — увеличивает возраст на 1.
.concat()
- Описание: Функция в Pandas, склеивает DataFrame или Series по осям (строки или столбцы).
- Пример: pd.concat([df1, df2], axis=0) — объединяет по строкам.
.copy()
- Описание: Метод в Python/Pandas, создает копию объекта, избегая изменений оригинала.
- Пример: new_lst = lst.copy() или df_copy = df.copy().
.extend()
- Описание: Метод списка в Python, добавляет элементы итерируемого объекта по отдельности в конец списка.
- Пример: lst = [1, 2]; lst.extend([3, 4]) → [1, 2, 3, 4].
.iloc
- Описание: Метод в Pandas для выбора данных из DataFrame по числовым индексам (позициям).
- Пример: df.iloc[0, 1] — первая строка, второй столбец.
.join()
- Описание: Метод строк в Python, объединяет элементы итерируемого объекта в строку с разделителем.
- Пример: " ".join(["Hello", "World"]) → "Hello World".
.loc
- Описание: Метод в Pandas для выбора данных из DataFrame по меткам, поддерживает булевы маски.
- Пример: df.loc[df['age'] > 30, 'name'] — имена людей старше 30.
.merge()
- Описание: Метод в Pandas, объединяет два DataFrame по общему ключу (аналог SQL JOIN).
- Пример: pd.merge(df1, df2, on='id', how='inner').
.pop()
- Описание: Метод списка в Python, удаляет и возвращает элемент по индексу.
- Пример: lst = [1, 2, 3]; lst.pop(1) → возвращает 2, список становится [1, 3].
.sort()
- Описание: Метод списка в Python, сортирует элементы на месте.
- Пример: lst = [3, 1, 2]; lst.sort() → [1, 2, 3].
args
- Описание: Специальный параметр в функциях Python, принимает произвольное число позиционных аргументов как кортеж.
- Пример: def func(*args): print(args) → func(1, 2, 3) → (1, 2, 3).
boolean
- Описание: Тип данных в Python, принимает значения True или False.
- Пример: x = True.
class
- Описание: Шаблон в Python для создания объектов с атрибутами и методами (ООП).
- Пример: class Person: def __init__(self, name): self.name = name.
collections
- Описание: Модуль в Python, предоставляет специализированные структуры данных (например, Counter, defaultdict).
- Пример: from collections import Counter; Counter([1, 1, 2]) → {1: 2, 2: 1}.
def
- Описание: Ключевое слово в Python для определения функции.
- Пример: def add(a, b): return a + b.
dict
- Описание: Тип данных в Python, хранит пары "ключ-значение", где ключи уникальны и хэшируются (O(1) доступ).
- Пример: d = {"a": 1, "b": 2}.
enumerate()
- Описание: Функция в Python, возвращает пары (индекс, значение) для итерируемого объекта.
- Пример: list(enumerate(['a', 'b'])) → [(0, 'a'), (1, 'b')].
float
- Описание: Тип данных в Python для чисел с плавающей точкой (десятичных).
- Пример: x = 3.14.
for
- Описание: Цикл в Python для итерации по последовательности.
- Пример: for i in range(3): print(i) → 0, 1, 2.
groupby()
- Описание: Метод в Pandas, группирует данные по столбцу для агрегации.
- Пример: df.groupby('region')['sales'].sum().
if/else
- Описание: Управляющая конструкция в Python для условного выполнения кода.
- Пример: if x > 0: print("Положительное") else: print("Отрицательное").
int
- Описание: Тип данных в Python для целых чисел.
- Пример: x = 5.
kwargs
- Описание: Специальный параметр в функциях Python, принимает произвольное число именованных аргументов как словарь.
- Пример: def func(**kwargs): print(kwargs) → func(a=1, b=2) → {'a': 1, 'b': 2}.
lambda
- Описание: Анонимная функция в Python, создается в одной строке.
- Пример: f = lambda x: x + 1; f(2) → 3.
len()
- Описание: Функция в Python, возвращает длину объекта (списка, строки и т.д.).
- Пример: len([1, 2, 3]) → 3.
list
- Описание: Упорядоченный, изменяемый тип данных в Python, допускает дубликаты.
- Пример: [1, 2, 2, 3].
list comprehension
- Описание: Компактный синтаксис в Python для создания списков вместо цикла.
- Пример: [x * 2 for x in range(5)] → [0, 2, 4, 6, 8].
map()
- Описание: Функция в Python, применяет функцию к каждому элементу итерируемого объекта.
- Пример: list(map(lambda x: x + 1, [1, 2, 3])) → [2, 3, 4].
np.array
- Описание: Многомерный массив в NumPy для быстрых операций, фиксированный размер и тип.
- Пример: np.array([1, 2, 3]) * 2 → [2, 4, 6].
range()
- Описание: Функция в Python, генерирует последовательность чисел.
- Пример: list(range(3)) → [0, 1, 2].
set
- Описание: Неупорядоченный, изменяемый тип данных в Python, содержит только уникальные элементы.
- Пример: {1, 2, 3}.
sorted()
- Описание: Функция в Python, возвращает отсортированный список, не изменяя оригинал.
- Пример: sorted([3, 1, 2]) → [1, 2, 3].
str
- Описание: Тип данных в Python для строк.
- Пример: s = "Hello".
try/except
- Описание: Конструкция в Python для обработки исключений.
- Пример: try: 10/0 except ZeroDivisionError: print("Ошибка").
tuple
- Описание: Упорядоченный, неизменяемый тип данных в Python.
- Пример: (1, 2, 3).
while
- Описание: Цикл в Python, выполняется, пока условие истинно.
- Пример: i = 0; while i < 3: print(i); i += 1 → 0, 1, 2.
zip()
- Описание: Функция в Python, объединяет элементы итерируемых объектов в кортежи.
- Пример: list(zip([1, 2], ['a', 'b'])) → [(1, 'a'), (2, 'b')].

SQL

AVG()
- Описание: Агрегатная функция в SQL, вычисляет среднее значение в столбце.
- Пример: SELECT AVG(salary) FROM employees.
COUNT()
- Описание: Агрегатная функция в SQL, подсчитывает количество строк или значений.
- Пример: SELECT COUNT(*) FROM employees.
CREATE TABLE
- Описание: Команда в SQL для создания новой таблицы с указанием столбцов и типов данных.
- Пример: CREATE TABLE users (id INT, name VARCHAR(50)).
DELETE
- Описание: Команда в SQL для удаления строк из таблицы.
- Пример: DELETE FROM users WHERE id = 1.
DISTINCT
- Описание: Оператор в SQL, убирает дубликаты из результата запроса.
- Пример: SELECT DISTINCT region FROM sales.
DROP TABLE
- Описание: Команда в SQL для удаления таблицы из базы данных.
- Пример: DROP TABLE users.
EXPLAIN
- Описание: Команда в SQL, показывает план выполнения запроса для оптимизации.
- Пример: EXPLAIN SELECT * FROM employees WHERE salary > 50000.
FULL OUTER JOIN
- Описание: Тип объединения в SQL, возвращает все строки из обеих таблиц, с NULL там, где нет совпадений.
- Пример: SELECT a.name, b.order_id FROM customers a FULL OUTER JOIN orders b ON a.id = b.id.
GROUP BY
- Описание: Оператор в SQL, группирует строки по столбцу для агрегации.
- Пример: SELECT department, AVG(salary) FROM employees GROUP BY department.
HAVING
- Описание: Оператор в SQL, фильтрует группы после GROUP BY.
- Пример: SELECT department, COUNT(*) FROM employees GROUP BY department HAVING COUNT(*) > 5.
INNER JOIN
- Описание: Тип объединения в SQL, возвращает только совпадающие строки из обеих таблиц.
- Пример: SELECT a.name, b.order_id FROM customers a INNER JOIN orders b ON a.id = b.id.
INSERT
- Описание: Команда в SQL для добавления строк в таблицу.
- Пример: INSERT INTO users (id, name) VALUES (1, 'Иван').
LAG
- Описание: Оконная функция в SQL, возвращает значение предыдущей строки в окне.
- Пример: LAG(amount) OVER (ORDER BY date).
LEAD
- Описание: Оконная функция в SQL, возвращает значение следующей строки в окне.
- Пример: LEAD(amount) OVER (ORDER BY date).
LEFT JOIN
- Описание: Тип объединения в SQL, возвращает все строки из левой таблицы и совпадающие из правой (или NULL).
- Пример: SELECT a.name, b.order_id FROM customers a LEFT JOIN orders b ON a.id = b.id.
LIMIT
- Описание: Оператор в SQL, ограничивает число строк в результате.
- Пример: SELECT name FROM employees LIMIT 5.
MAX()
- Описание: Агрегатная функция в SQL, возвращает максимальное значение в столбце.
- Пример: SELECT MAX(salary) FROM employees.
MIN()
- Описание: Агрегатная функция в SQL, возвращает минимальное значение в столбце.
- Пример: SELECT MIN(salary) FROM employees.
ORDER BY
- Описание: Оператор в SQL, сортирует результат по столбцу (ASC или DESC).
- Пример: SELECT name FROM employees ORDER BY salary DESC.
PARTITION BY
- Описание: Часть оконной функции в SQL, делит данные на группы для вычислений.
- Пример: SUM(amount) OVER (PARTITION BY region).
RANK()
- Описание: Оконная функция в SQL, присваивает ранг строкам, одинаковые значения — одинаковый ранг.
- Пример: RANK() OVER (ORDER BY salary DESC).
RIGHT JOIN
- Описание: Тип объединения в SQL, возвращает все строки из правой таблицы и совпадающие из левой (или NULL).
- Пример: SELECT a.name, b.order_id FROM customers a RIGHT JOIN orders b ON a.id = b.id.
ROW_NUMBER()
- Описание: Оконная функция в SQL, присваивает уникальный номер каждой строке в окне.
- Пример: ROW_NUMBER() OVER (ORDER BY salary DESC).
SELECT
- Описание: Основная команда в SQL для извлечения данных из таблицы.
- Пример: SELECT name, salary FROM employees WHERE salary > 50000.
SUM()
- Описание: Агрегатная функция в SQL, вычисляет сумму значений в столбце.
- Пример: SELECT SUM(sales) FROM orders.
UNION
- Описание: Оператор в SQL, объединяет результаты двух запросов, убирая дубликаты.
- Пример: SELECT name FROM employees UNION SELECT name FROM contractors.
UPDATE
- Описание: Команда в SQL для изменения данных в таблице.
- Пример: UPDATE users SET name = 'Петр' WHERE id = 1.
WHERE
- Описание: Оператор в SQL, фильтрует строки по условию перед агрегацией.
- Пример: SELECT name FROM employees WHERE salary > 50000.
Индексы
- Описание: Структуры данных в SQL (например, B-дерево), ускоряют поиск по столбцу.
- Пример: CREATE INDEX idx_salary ON employees(salary).
Оконные функции
- Описание: Функции в SQL, выполняют вычисления над набором строк без сворачивания результата.
- Пример: SUM(amount) OVER (ORDER BY date).
Подзапрос
- Описание: Вложенный запрос в SQL, выполняется внутри основного запроса.
- Пример: SELECT name FROM employees WHERE salary > (SELECT AVG(salary) FROM employees).

Теория вероятностей

Байесовская теорема
- Описание: Связывает условные вероятности через формулу ( P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} ).
- Пример: Вероятность болезни при положительном тесте.
Биномиальное распределение
- Описание: Распределение числа успехов в ( n ) независимых испытаниях с вероятностью ( p ).
- Формула: ( P(k) = C(n, k) \cdot p^k \cdot (1-p)^{n-k} ).
- Пример: ( P(2) ) для 3 бросков монеты — 0.375.
Вероятность события
- Описание: Числовая мера возможности наступления события (0–1).
- Формула: ( P(A) = \frac{\text{благоприятные исходы}}{\text{все исходы}} ).
- Пример: ( P(\text{6 на кубике}) = 1/6 ).
Геометрическое распределение
- Описание: Число испытаний до первого успеха с вероятностью ( p ).
- Формула: ( P(k) = (1-p)^{k-1} \cdot p ).
- Пример: Вероятность первого орла на 3-м броске.
Дискретная вероятность
- Описание: Вероятность для конечного или счетного множества исходов.
- Пример: Бросок кубика — ( P(1) = 1/6 ).
Закон больших чисел
- Описание: Среднее значение случайной величины приближается к ожиданию при большом ( n ).
- Пример: Доля орлов в 1000 бросках → 0.5.
Комбинаторика
- Описание: Раздел математики для подсчета комбинаций (например, ( C(n, k) = \frac{n!}{k!(n-k)!} )).
- Пример: ( C(3, 2) = 3 ) — выбор 2 из 3.
Ковариация
- Описание: Мера совместной изменчивости двух случайных величин.
- Формула: ( \text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1} ).
- Пример: Для ( x = [1, 2], y = [2, 4] ).
Математическое ожидание (( E(X) ))
- Описание: Среднее значение случайной величины в долгосрочной перспективе.
- Формула: ( E(X) = \sum x_i \cdot P(x_i) ).
- Пример: Для кубика ( E(X) = 3.5 ).
Независимость событий
- Описание: События ( A ) и ( B ) независимы, если ( P(A \cap B) = P(A) \cdot P(B) ).
- Пример: Бросок кубика и монетки.
Непрерывная вероятность
- Описание: Вероятность для непрерывных случайных величин, задается плотностью.
- Пример: Нормальное распределение.
Нормальное распределение
- Описание: Непрерывное распределение с колоколообразной формой, характеризуется ( \mu ) и ( \sigma ).
- Пример: Рост людей (( \mu = 170 , \text{см} )).
Объединение событий (( A \cup B ))
- Описание: Вероятность наступления хотя бы одного из событий.
- Формула: ( P(A \cup B) = P(A) + P(B) - P(A \cap B) ).
- Пример: ( P(\text{туз или черви}) = 1/13 + 1/4 - 1/52 ).
Пересечение событий (( A \cap B ))
- Описание: Вероятность одновременного наступления событий ( A ) и ( B ).
- Пример: ( P(\text{туз и черви}) = 1/52 ).
Пуассоновское распределение
- Описание: Число событий за фиксированное время с интенсивностью ( \lambda ).
- Формула: ( P(k) = \frac{\lambda^k e^{-\lambda}}{k!} ).
- Пример: Число звонков в час.
Случайная величина
- Описание: Переменная, значение которой определяется случайным процессом.
- Пример: Результат броска кубика.
Условная вероятность (( P(A|B) ))
- Описание: Вероятность ( A ) при условии ( B ).
- Формула: ( P(A|B) = \frac{P(A \cap B)}{P(B)} ).
- Пример: ( P(\text{дождь}|\text{облака}) = 0.8 ).
Центральная предельная теорема (ЦПТ)
- Описание: Сумма большого числа независимых величин приближается к нормальному распределению при ( n > 30 ).
- Пример: Среднее 100 бросков кубика — нормальное.

Математическая статистика

( \chi^2 )-тест (Chi-squared test)
- Описание: Тест для проверки зависимости категориальных переменных или соответствия частот.
- Формула: ( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ).
- Пример: Зависимость покупки от пола.
ANOVA (Analysis of Variance)
- Описание: Тест для сравнения средних более чем двух групп.
- Пример: Сравнение продаж по трем регионам.
Бутстреп
- Описание: Метод повторной выборки с возвращением для оценки статистики.
- Пример: Оценка среднего с малой выборкой.
Гипотеза нулевая (( H_0 ))
- Описание: Утверждение об отсутствии эффекта, проверяется в тестах.
- Пример: "Средние двух групп равны".
Гипотеза альтернативная (( H_1 ))
- Описание: Утверждение о наличии эффекта, противоположное ( H_0 ).
- Пример: "Средние двух групп различаются".
Дисперсия (( \sigma^2 ), ( s^2 ))
- Описание: Мера разброса данных относительно среднего.
- Формула: ( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} ) (выборка).
- Пример: Для [1, 2, 3, 4] ≈ 1.67.
Доверительный интервал (CI)
- Описание: Диапазон, где с заданной вероятностью лежит истинное значение.
- Формула: ( \bar{x} \pm z \cdot \frac{s}{\sqrt{n}} ).
- Пример: Для ( \bar{x} = 10 ) — [9.22, 10.78].
Квантиль
- Описание: Значение, ниже которого находится заданная доля данных (например, 25% — первый квантиль).
- Пример: Медиана — 50-й квантиль.
Коэффициент корреляции Пирсона
- Описание: Мера линейной зависимости между переменными (-1 до 1).
- Пример: Для ( x = [1, 2, 3], y = [2, 4, 6] ) → 1.0.
Коэффициент Спирмена
- Описание: Ранговая корреляция для нелинейных зависимостей.
- Пример: Для упорядоченных рангов.
Куртозис (Kurtosis)
- Описание: Мера "остроты" распределения (высокий или плоский пик).
- Пример: Нормальное распределение — куртозис ≈ 0.
Медиана
- Описание: Срединное значение в отсортированном наборе данных.
- Пример: [1, 2, 100] → 2.
Мода
- Описание: Наиболее часто встречающееся значение в наборе данных.
- Пример: [1, 2, 2, 3] → 2.
Мощность теста (1 - ( \beta ))
- Описание: Вероятность верно отвергнуть ложную ( H_0 ).
- Пример: 0.8 — 80% шанс обнаружить эффект.
Ошибка I рода
- Описание: Ложное отвержение верной ( H_0 ) (( \alpha )).
- Пример: Ошибка 5% при ( \alpha = 0.05 ).
Ошибка II рода (( \beta ))
- Описание: Неверное принятие ложной ( H_0 ).
- Пример: Пропуск эффекта при низкой мощности.
Сглаживание
- Описание: Метод уменьшения шума в данных (например, скользящее среднее).
- Пример: Среднее по 3 точкам.
Скошенность (Skewness)
- Описание: Мера асимметрии распределения (положительная или отрицательная).
- Пример: Распределение с длинным правым "хвостом" — положительная.
Среднее (( \bar{x} ))
- Описание: Сумма значений, деленная на их число.
- Пример: [1, 2, 100] → 34.33.
Стандартное отклонение (( \sigma ), ( s ))
- Описание: Квадратный корень из дисперсии, мера разброса.
- Формула: ( s = \sqrt{s^2} ).
- Пример: Для [1, 2, 3, 4] ≈ 1.29.
t-тест
- Описание: Тест для проверки различий между средними двух групп.
- Пример: t-статистика = -2.88, p = 0.045 → значимо.
p-value
- Описание: Вероятность получить результат при верной ( H_0 ).
- Пример: p < 0.05 → отвергаем ( H_0 ).
( R^2 ) (коэффициент детерминации)
- Описание: Доля дисперсии зависимой переменной, объясненная моделью (0–1).
- Пример: ( R^2 = 0.8 ) — 80% объяснено.
Уровень значимости (( \alpha ))
- Описание: Порог вероятности ошибки I рода, обычно 0.05.
- Пример: ( \alpha = 0.05 ) — 5% риск.
Шапиро-тест
- Описание: Тест на нормальность распределения, p > 0.05 → нормальность.
- Пример: Для нормальных данных p ≈ 0.5.

Визуализация

Axes
- Описание: Объект в Matplotlib, представляющий область графика (оси, линии).
- Пример: fig, ax = plt.subplots().
bar (Matplotlib)
- Описание: Столбчатая диаграмма для категориальных данных с заданными высотами.
- Пример: plt.bar(['A', 'B'], [10, 12]).
Boxplot (Seaborn)
- Описание: Ящик с усами для отображения распределения данных (медиана, квартили, выбросы).
- Пример: sns.boxplot(x='group', y='value', data=df).
Figure
- Описание: Объект в Matplotlib, контейнер для графиков.
- Пример: plt.figure(figsize=(10, 6)).
hist (Matplotlib)
- Описание: Гистограмма для числовых данных, показывает частотность.
- Пример: plt.hist([1, 2, 2, 3], bins=3).
Heatmap (Seaborn)
- Описание: Тепловая карта для визуализации матриц (например, корреляций).
- Пример: sns.heatmap(df.corr(), annot=True).
Line plot (Matplotlib)
- Описание: Линейный график для отображения трендов во времени или по оси.
- Пример: plt.plot(x, y).
Scatter plot (Matplotlib)
- Описание: Точечный график для отображения отношений между двумя переменными.
- Пример: plt.scatter(x, y).
Subplot
- Описание: Метод в Matplotlib для создания нескольких графиков в одной фигуре.
- Пример: plt.subplot(1, 2, 1) — первый из двух графиков.
Violin plot (Seaborn)
- Описание: График, показывающий распределение данных с плотностью.
- Пример: sns.violinplot(x='group', y='value', data=df).

A/B-тесты и машинное обучение

A/B-тест
- Описание: Эксперимент, сравнивающий две версии (A и B) для выбора лучшей по метрике.
- Пример: Конверсия A = 10%, B = 12%.
Accuracy
- Описание: Доля верно предсказанных значений в классификации.
- Формула: ( \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{Всего}} ).
- Пример: 0.9 — 90% верно.
Bias
- Описание: Смещение модели, ошибка из-за упрощения предположений.
- Пример: Линейная модель на нелинейных данных.
Cross-validation (Кросс-валидация)
- Описание: Метод оценки модели, разбивающий данные на ( k ) фолдов для обучения и тестирования.
- Пример: 5-fold CV.
F1-score
- Описание: Гармоническое среднее precision и recall для оценки классификации.
- Формула: ( F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} ).
- Пример: 0.85.
Feature
- Описание: Признак или переменная в модели ML.
- Пример: "Возраст" в регрессии.
Gradient Descent
- Описание: Метод оптимизации в ML для минимизации функции потерь.
- Пример: Обновление весов в регрессии.
Hyperparameter
- Описание: Параметр модели, задаваемый до обучения (например, глубина дерева).
- Пример: max_depth в дереве решений.
K-Means
- Описание: Алгоритм кластеризации, группирующий данные в ( k ) кластеров.
- Пример: Сегментация клиентов.
Loss Function
- Описание: Функция, измеряющая ошибку предсказаний модели.
- Пример: MSE в регрессии.
Mean Squared Error (MSE)
- Описание: Средняя квадратичная ошибка между предсказаниями и истинными значениями.
- Формула: ( \text{MSE} = \frac{1}{n} \sum (y_i - \hat{y}_i)^2 ).
- Пример: MSE = 0.05.
Overfitting
- Описание: Модель слишком подстраивается под обучающие данные, плохо обобщает.
- Пример: Низкая ошибка на трейне, высокая на тесте.
Precision
- Описание: Доля верно предсказанных положительных среди всех предсказанных положительных.
- Формула: ( \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} ).
- Пример: 0.9.
Recall
- Описание: Доля верно предсказанных положительных среди всех истинных положительных.
- Формула: ( \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} ).
- Пример: 0.85.
Regularization
- Описание: Метод в ML для предотвращения переобучения, добавляет штраф к функции потерь.
- Пример: L1 (Lasso), L2 (Ridge).
ROC Curve
- Описание: Кривая, показывающая баланс между TPR и FPR в классификации.
- Пример: AUC = 0.9 — высокое качество.
Train/Test Split
- Описание: Разделение данных на обучающую и тестовую выборки для оценки модели.
- Пример: 80% — train, 20% — test.
Uplift
- Описание: Относительное изменение метрики между группами в A/B-тесте.
- Формула: ( \text{Uplift} = \frac{\text{B} - \text{A}}{\text{A}} \cdot 100% ).
- Пример: 20% роста конверсии.
Variance
- Описание: Чувствительность модели к изменениям в обучающих данных.
- Пример: Высокая дисперсия → переобучение.

Дополнительные термины (BI, большие данные, аналитика)

API
- Описание: Интерфейс для взаимодействия между программами (например, получение данных).
- Пример: REST API для погоды.
ARIMA
- Описание: Модель для анализа и прогнозирования временных рядов (авторегрессия, интегрирование, скользящее среднее).
- Пример: Прогноз продаж.
Big Data
- Описание: Обработка больших объемов данных, требующих специальных технологий (Hadoop, Spark).
- Пример: Анализ логов сайта.
Business Intelligence (BI)
- Описание: Технологии и инструменты для анализа бизнес-данных (например, Power BI, Tableau).
- Пример: Дашборд продаж.
Clustering
- Описание: Метод группировки данных в кластеры без меток.
- Пример: K-Means для сегментации.
CSV
- Описание: Формат файла с данными, разделенными запятыми.
- Пример: id,name;1,Иван.
Dashboard
- Описание: Интерактивная панель в BI-инструментах для визуализации метрик.
- Пример: Дашборд в Power BI с продажами.
Data Cleaning
- Описание: Процесс удаления ошибок, пропусков и выбросов из данных.
- Пример: Заполнение NaN средним.
Data Lake
- Описание: Хранилище необработанных данных в исходном формате.
- Пример: Хранение логов в облаке.
Data Warehouse
- Описание: Хранилище структурированных данных для аналитики.
- Пример: Snowflake для отчетов.
DataFrame
- Описание: Табличная структура данных в Pandas.
- Пример: df = pd.DataFrame({'A': [1, 2]}).
Decision Tree
- Описание: Алгоритм ML, разбивает данные на ветви для классификации или регрессии.
- Пример: Прогноз оттока клиентов.
Dimensionality Reduction
- Описание: Уменьшение числа признаков в данных (например, PCA).
- Пример: Сжатие признаков до 2D.
EDA (Exploratory Data Analysis)
- Описание: Исследовательский анализ данных для выявления закономерностей.
- Пример: Построение гистограмм.
ETL (Extract, Transform, Load)
- Описание: Процесс извлечения, преобразования и загрузки данных в хранилище.
- Пример: Загрузка данных в Data Warehouse.
Feature Engineering
- Описание: Создание новых признаков из существующих данных для улучшения модели.
- Пример: Добавление "возрастной группы".
Hadoop
- Описание: Фреймворк для обработки больших данных с распределенной файловой системой (HDFS).
- Пример: Анализ терабайтов логов.
JSON
- Описание: Формат обмена данными, основанный на ключ-значение.
- Пример: {"name": "Иван", "age": 30}.
KPI (Key Performance Indicator)
- Описание: Клюевой показатель эффективности для оценки успеха.
- Пример: Конверсия продаж.
L1 Regularization (Lasso)
- Описание: Метод регуляризации в ML, добавляет сумму абсолютных значений весов к функции потерь.
- Пример: Уменьшение числа признаков.
L2 Regularization (Ridge)
- Описание: Метод регуляризации в ML, добавляет сумму квадратов весов к функции потерь.
- Пример: Сглаживание коэффициентов.
Logistic Regression
- Описание: Модель для бинарной классификации, предсказывает вероятности через сигмоиду.
- Пример: ( P(y=1|x) ) для ( x = [1, 2, 3] ).
Machine Learning (ML)
- Описание: Область ИИ, обучающая модели на данных для предсказаний.
- Пример: Прогноз продаж.
Normalization
- Описание: Приведение данных к диапазону (например, 0–1).
- Пример: ( x' = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} ).
Outlier
- Описание: Выброс — значение, сильно отличающееся от остальных.
- Пример: 100 в [1, 2, 3, 100].
Pandas
- Описание: Библиотека Python для анализа и манипуляции данными.
- Пример: import pandas as pd.
Pipeline
- Описание: Последовательность шагов обработки данных в ML.
- Пример: Очистка → нормализация → модель.
Power BI
- Описание: Инструмент Microsoft для визуализации и анализа данных.
- Пример: Дашборд с KPI.
Preprocessing
- Описание: Подготовка данных перед анализом (очистка, кодирование).
- Пример: Заполнение пропусков.
Random Forest
- Описание: Ансамблевый метод ML, использующий множество деревьев решений.
- Пример: Классификация клиентов.
Random Seed
- Описание: Фиксация генератора случайных чисел для воспроизводимости.
- Пример: np.random.seed(42).
Regression
- Описание: Метод предсказания непрерывных значений.
- Пример: Линейная регрессия.
SQL
- Описание: Язык для работы с реляционными базами данных.
- Пример: SELECT * FROM users.
Series
- Описание: Одномерная структура данных в Pandas.
- Пример: s = pd.Series([1, 2, 3]).
Spark
- Описание: Фреймворк для обработки больших данных с распределенными вычислениями.
- Пример: Анализ больших логов.
Standardization
- Описание: Приведение данных к стандартному виду (( z = \frac{x - \mu}{\sigma} )).
- Пример: Преобразование в z-оценки.
Supervised Learning
- Описание: Тип ML с метками в обучающих данных.
- Пример: Регрессия, классификация.
Tableau
- Описание: Инструмент для визуализации данных и создания дашбордов.
- Пример: Интерактивный график продаж.
Time Series
- Описание: Последовательность данных, упорядоченная по времени.
- Пример: Продажи по дням.
Unsupervised Learning
- Описание: Тип ML без меток, для поиска структуры в данных.
- Пример: Кластеризация.
Vectorization
- Описание: Выполнение операций над массивами в NumPy без циклов.
- Пример: np.array([1, 2]) + 1 → [2, 3].
Z-score
- Описание: Мера отклонения значения от среднего в единицах стандартного отклонения.
- Формула: ( z = \frac{x - \mu}{\sigma} ).
- Пример: ( z = 1 ) — на одно ( \sigma ) выше среднего.
Aggregation
- Описание: Сведение данных к одной метрике (например, сумма, среднее).
- Пример: df.groupby('region')['sales'].sum().
Binning
- Описание: Разбиение непрерывных данных на интервалы (бины).
- Пример: Разделение возраста на группы [0-20, 20-40].
Categorical Data
- Описание: Данные с ограниченным набором значений (категории).
- Пример: Пол (мужской, женский).
Confidence Level
- Описание: Вероятность, что доверительный интервал содержит истинное значение.
- Пример: 95% доверительный уровень.
Confusion Matrix
- Описание: Таблица для оценки классификации (TP, TN, FP, FN).
- Пример: Матрица для предсказания оттока.
Correlation
- Описание: Мера связи между двумя переменными.
- Пример: Пирсон = 0.9 — сильная линейная связь.
Data Transformation
- Описание: Изменение формы или масштаба данных (например, логарифмирование).
- Пример: ( log(x) ) для скошенных данных.
Explained Variance
- Описание: Доля общей дисперсии, объясненная моделью.
- Пример: ( R^2 ) в регрессии.
False Negative (FN)
- Описание: Ошибка классификации, когда положительный класс предсказан как отрицательный.
- Пример: Болезнь не обнаружена.
False Positive (FP)
- Описание: Ошибка классификации, когда отрицательный класс предсказан как положительный.
- Пример: Ложная тревога.
Feature Selection
- Описание: Выбор наиболее важных признаков для модели.
- Пример: Удаление низкокоррелирующих переменных.
Grid Search
- Описание: Метод поиска оптимальных гиперпараметров модели.
- Пример: Поиск лучшего C для SVM.
Imputation
- Описание: Заполнение пропущенных значений в данных.
- Пример: Замена NaN средним.
One-Hot Encoding
- Описание: Преобразование категориальных данных в бинарные столбцы.
- Пример: "Пол" → [0, 1] для "мужской".
Outlier Detection
- Описание: Метод поиска аномалий в данных.
- Пример: Использование IQR.
Sampling
- Описание: Выбор подмножества данных для анализа.
- Пример: Случайная выборка 10%.
Statistical Significance
- Описание: Указывает, что результат не случаен (p < ( \alpha )).
- Пример: p = 0.03 < 0.05 → значимо.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Glossary v 3.md

Glossary v 3.md

Словарь терминов аналитики данных (200 терминов)

Python

SQL

Теория вероятностей

Математическая статистика

Визуализация

A/B-тесты и машинное обучение

Дополнительные термины (BI, большие данные, аналитика)

Files

Glossary v 3.md

Latest commit

History

Glossary v 3.md

File metadata and controls

Словарь терминов аналитики данных (200 терминов)

Python

SQL

Теория вероятностей

Математическая статистика

Визуализация

A/B-тесты и машинное обучение

Дополнительные термины (BI, большие данные, аналитика)