Этот словарь содержит 200 терминов, связанных с Python, SQL, теорией вероятностей, математической статистикой, визуализацией данных, A/B-тестами, машинным обучением, большими данными и BI-инструментами. Он отражает ключевые концепции.
-
.append()
- Описание: Метод списка в Python, добавляет один элемент в конец списка как целое.
- Пример:
lst = [1, 2]; lst.append(3)
→[1, 2, 3]
. - Примечание: Не распаковывает итерируемые объекты, в отличие от
extend()
.
-
.apply()
- Описание: Метод в Pandas, применяет функцию к каждой строке или столбцу DataFrame.
- Пример:
df['age'].apply(lambda x: x + 1)
— увеличивает возраст на 1.
-
.concat()
- Описание: Функция в Pandas, склеивает DataFrame или Series по осям (строки или столбцы).
- Пример:
pd.concat([df1, df2], axis=0)
— объединяет по строкам.
-
.copy()
- Описание: Метод в Python/Pandas, создает копию объекта, избегая изменений оригинала.
- Пример:
new_lst = lst.copy()
илиdf_copy = df.copy()
.
-
.extend()
- Описание: Метод списка в Python, добавляет элементы итерируемого объекта по отдельности в конец списка.
- Пример:
lst = [1, 2]; lst.extend([3, 4])
→[1, 2, 3, 4]
.
-
.iloc
- Описание: Метод в Pandas для выбора данных из DataFrame по числовым индексам (позициям).
- Пример:
df.iloc[0, 1]
— первая строка, второй столбец.
-
.join()
- Описание: Метод строк в Python, объединяет элементы итерируемого объекта в строку с разделителем.
- Пример:
" ".join(["Hello", "World"])
→"Hello World"
.
-
.loc
- Описание: Метод в Pandas для выбора данных из DataFrame по меткам, поддерживает булевы маски.
- Пример:
df.loc[df['age'] > 30, 'name']
— имена людей старше 30.
-
.merge()
- Описание: Метод в Pandas, объединяет два DataFrame по общему ключу (аналог SQL JOIN).
- Пример:
pd.merge(df1, df2, on='id', how='inner')
.
-
.pop()
- Описание: Метод списка в Python, удаляет и возвращает элемент по индексу.
- Пример:
lst = [1, 2, 3]; lst.pop(1)
→ возвращает 2, список становится[1, 3]
.
-
.sort()
- Описание: Метод списка в Python, сортирует элементы на месте.
- Пример:
lst = [3, 1, 2]; lst.sort()
→[1, 2, 3]
.
-
args
- Описание: Специальный параметр в функциях Python, принимает произвольное число позиционных аргументов как кортеж.
- Пример:
def func(*args): print(args)
→func(1, 2, 3)
→(1, 2, 3)
.
-
boolean
- Описание: Тип данных в Python, принимает значения
True
илиFalse
. - Пример:
x = True
.
- Описание: Тип данных в Python, принимает значения
-
class
- Описание: Шаблон в Python для создания объектов с атрибутами и методами (ООП).
- Пример:
class Person: def __init__(self, name): self.name = name
.
-
collections
- Описание: Модуль в Python, предоставляет специализированные структуры данных (например,
Counter
,defaultdict
). - Пример:
from collections import Counter; Counter([1, 1, 2])
→{1: 2, 2: 1}
.
- Описание: Модуль в Python, предоставляет специализированные структуры данных (например,
-
def
- Описание: Ключевое слово в Python для определения функции.
- Пример:
def add(a, b): return a + b
.
-
dict
- Описание: Тип данных в Python, хранит пары "ключ-значение", где ключи уникальны и хэшируются (O(1) доступ).
- Пример:
d = {"a": 1, "b": 2}
.
-
enumerate()
- Описание: Функция в Python, возвращает пары (индекс, значение) для итерируемого объекта.
- Пример:
list(enumerate(['a', 'b']))
→[(0, 'a'), (1, 'b')]
.
-
float
- Описание: Тип данных в Python для чисел с плавающей точкой (десятичных).
- Пример:
x = 3.14
.
-
for
- Описание: Цикл в Python для итерации по последовательности.
- Пример:
for i in range(3): print(i)
→ 0, 1, 2.
-
groupby()
- Описание: Метод в Pandas, группирует данные по столбцу для агрегации.
- Пример:
df.groupby('region')['sales'].sum()
.
-
if/else
- Описание: Управляющая конструкция в Python для условного выполнения кода.
- Пример:
if x > 0: print("Положительное") else: print("Отрицательное")
.
-
int
- Описание: Тип данных в Python для целых чисел.
- Пример:
x = 5
.
-
kwargs
- Описание: Специальный параметр в функциях Python, принимает произвольное число именованных аргументов как словарь.
- Пример:
def func(**kwargs): print(kwargs)
→func(a=1, b=2)
→{'a': 1, 'b': 2}
.
-
lambda
- Описание: Анонимная функция в Python, создается в одной строке.
- Пример:
f = lambda x: x + 1; f(2)
→ 3.
-
len()
- Описание: Функция в Python, возвращает длину объекта (списка, строки и т.д.).
- Пример:
len([1, 2, 3])
→ 3.
-
list
- Описание: Упорядоченный, изменяемый тип данных в Python, допускает дубликаты.
- Пример:
[1, 2, 2, 3]
.
-
list comprehension
- Описание: Компактный синтаксис в Python для создания списков вместо цикла.
- Пример:
[x * 2 for x in range(5)]
→[0, 2, 4, 6, 8]
.
-
map()
- Описание: Функция в Python, применяет функцию к каждому элементу итерируемого объекта.
- Пример:
list(map(lambda x: x + 1, [1, 2, 3]))
→[2, 3, 4]
.
-
np.array
- Описание: Многомерный массив в NumPy для быстрых операций, фиксированный размер и тип.
- Пример:
np.array([1, 2, 3]) * 2
→[2, 4, 6]
.
-
range()
- Описание: Функция в Python, генерирует последовательность чисел.
- Пример:
list(range(3))
→[0, 1, 2]
.
-
set
- Описание: Неупорядоченный, изменяемый тип данных в Python, содержит только уникальные элементы.
- Пример:
{1, 2, 3}
.
-
sorted()
- Описание: Функция в Python, возвращает отсортированный список, не изменяя оригинал.
- Пример:
sorted([3, 1, 2])
→[1, 2, 3]
.
-
str
- Описание: Тип данных в Python для строк.
- Пример:
s = "Hello"
.
-
try/except
- Описание: Конструкция в Python для обработки исключений.
- Пример:
try: 10/0 except ZeroDivisionError: print("Ошибка")
.
-
tuple
- Описание: Упорядоченный, неизменяемый тип данных в Python.
- Пример:
(1, 2, 3)
.
-
while
- Описание: Цикл в Python, выполняется, пока условие истинно.
- Пример:
i = 0; while i < 3: print(i); i += 1
→ 0, 1, 2.
-
zip()
- Описание: Функция в Python, объединяет элементы итерируемых объектов в кортежи.
- Пример:
list(zip([1, 2], ['a', 'b']))
→[(1, 'a'), (2, 'b')]
.
-
AVG()
- Описание: Агрегатная функция в SQL, вычисляет среднее значение в столбце.
- Пример:
SELECT AVG(salary) FROM employees
.
-
COUNT()
- Описание: Агрегатная функция в SQL, подсчитывает количество строк или значений.
- Пример:
SELECT COUNT(*) FROM employees
.
-
CREATE TABLE
- Описание: Команда в SQL для создания новой таблицы с указанием столбцов и типов данных.
- Пример:
CREATE TABLE users (id INT, name VARCHAR(50))
.
-
DELETE
- Описание: Команда в SQL для удаления строк из таблицы.
- Пример:
DELETE FROM users WHERE id = 1
.
-
DISTINCT
- Описание: Оператор в SQL, убирает дубликаты из результата запроса.
- Пример:
SELECT DISTINCT region FROM sales
.
-
DROP TABLE
- Описание: Команда в SQL для удаления таблицы из базы данных.
- Пример:
DROP TABLE users
.
-
EXPLAIN
- Описание: Команда в SQL, показывает план выполнения запроса для оптимизации.
- Пример:
EXPLAIN SELECT * FROM employees WHERE salary > 50000
.
-
FULL OUTER JOIN
- Описание: Тип объединения в SQL, возвращает все строки из обеих таблиц, с NULL там, где нет совпадений.
- Пример:
SELECT a.name, b.order_id FROM customers a FULL OUTER JOIN orders b ON a.id = b.id
.
-
GROUP BY
- Описание: Оператор в SQL, группирует строки по столбцу для агрегации.
- Пример:
SELECT department, AVG(salary) FROM employees GROUP BY department
.
-
HAVING
- Описание: Оператор в SQL, фильтрует группы после
GROUP BY
. - Пример:
SELECT department, COUNT(*) FROM employees GROUP BY department HAVING COUNT(*) > 5
.
- Описание: Оператор в SQL, фильтрует группы после
-
INNER JOIN
- Описание: Тип объединения в SQL, возвращает только совпадающие строки из обеих таблиц.
- Пример:
SELECT a.name, b.order_id FROM customers a INNER JOIN orders b ON a.id = b.id
.
-
INSERT
- Описание: Команда в SQL для добавления строк в таблицу.
- Пример:
INSERT INTO users (id, name) VALUES (1, 'Иван')
.
-
LAG
- Описание: Оконная функция в SQL, возвращает значение предыдущей строки в окне.
- Пример:
LAG(amount) OVER (ORDER BY date)
.
-
LEAD
- Описание: Оконная функция в SQL, возвращает значение следующей строки в окне.
- Пример:
LEAD(amount) OVER (ORDER BY date)
.
-
LEFT JOIN
- Описание: Тип объединения в SQL, возвращает все строки из левой таблицы и совпадающие из правой (или NULL).
- Пример:
SELECT a.name, b.order_id FROM customers a LEFT JOIN orders b ON a.id = b.id
.
-
LIMIT
- Описание: Оператор в SQL, ограничивает число строк в результате.
- Пример:
SELECT name FROM employees LIMIT 5
.
-
MAX()
- Описание: Агрегатная функция в SQL, возвращает максимальное значение в столбце.
- Пример:
SELECT MAX(salary) FROM employees
.
-
MIN()
- Описание: Агрегатная функция в SQL, возвращает минимальное значение в столбце.
- Пример:
SELECT MIN(salary) FROM employees
.
-
ORDER BY
- Описание: Оператор в SQL, сортирует результат по столбцу (ASC или DESC).
- Пример:
SELECT name FROM employees ORDER BY salary DESC
.
-
PARTITION BY
- Описание: Часть оконной функции в SQL, делит данные на группы для вычислений.
- Пример:
SUM(amount) OVER (PARTITION BY region)
.
-
RANK()
- Описание: Оконная функция в SQL, присваивает ранг строкам, одинаковые значения — одинаковый ранг.
- Пример:
RANK() OVER (ORDER BY salary DESC)
.
-
RIGHT JOIN
- Описание: Тип объединения в SQL, возвращает все строки из правой таблицы и совпадающие из левой (или NULL).
- Пример:
SELECT a.name, b.order_id FROM customers a RIGHT JOIN orders b ON a.id = b.id
.
-
ROW_NUMBER()
- Описание: Оконная функция в SQL, присваивает уникальный номер каждой строке в окне.
- Пример:
ROW_NUMBER() OVER (ORDER BY salary DESC)
.
-
SELECT
- Описание: Основная команда в SQL для извлечения данных из таблицы.
- Пример:
SELECT name, salary FROM employees WHERE salary > 50000
.
-
SUM()
- Описание: Агрегатная функция в SQL, вычисляет сумму значений в столбце.
- Пример:
SELECT SUM(sales) FROM orders
.
-
UNION
- Описание: Оператор в SQL, объединяет результаты двух запросов, убирая дубликаты.
- Пример:
SELECT name FROM employees UNION SELECT name FROM contractors
.
-
UPDATE
- Описание: Команда в SQL для изменения данных в таблице.
- Пример:
UPDATE users SET name = 'Петр' WHERE id = 1
.
-
WHERE
- Описание: Оператор в SQL, фильтрует строки по условию перед агрегацией.
- Пример:
SELECT name FROM employees WHERE salary > 50000
.
-
Индексы
- Описание: Структуры данных в SQL (например, B-дерево), ускоряют поиск по столбцу.
- Пример:
CREATE INDEX idx_salary ON employees(salary)
.
-
Оконные функции
- Описание: Функции в SQL, выполняют вычисления над набором строк без сворачивания результата.
- Пример:
SUM(amount) OVER (ORDER BY date)
.
-
Подзапрос
- Описание: Вложенный запрос в SQL, выполняется внутри основного запроса.
- Пример:
SELECT name FROM employees WHERE salary > (SELECT AVG(salary) FROM employees)
.
-
Байесовская теорема
- Описание: Связывает условные вероятности через формулу ( P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} ).
- Пример: Вероятность болезни при положительном тесте.
-
Биномиальное распределение
- Описание: Распределение числа успехов в ( n ) независимых испытаниях с вероятностью ( p ).
- Формула: ( P(k) = C(n, k) \cdot p^k \cdot (1-p)^{n-k} ).
- Пример: ( P(2) ) для 3 бросков монеты — 0.375.
-
Вероятность события
- Описание: Числовая мера возможности наступления события (0–1).
- Формула: ( P(A) = \frac{\text{благоприятные исходы}}{\text{все исходы}} ).
- Пример: ( P(\text{6 на кубике}) = 1/6 ).
-
Геометрическое распределение
- Описание: Число испытаний до первого успеха с вероятностью ( p ).
- Формула: ( P(k) = (1-p)^{k-1} \cdot p ).
- Пример: Вероятность первого орла на 3-м броске.
-
Дискретная вероятность
- Описание: Вероятность для конечного или счетного множества исходов.
- Пример: Бросок кубика — ( P(1) = 1/6 ).
-
Закон больших чисел
- Описание: Среднее значение случайной величины приближается к ожиданию при большом ( n ).
- Пример: Доля орлов в 1000 бросках → 0.5.
-
Комбинаторика
- Описание: Раздел математики для подсчета комбинаций (например, ( C(n, k) = \frac{n!}{k!(n-k)!} )).
- Пример: ( C(3, 2) = 3 ) — выбор 2 из 3.
-
Ковариация
- Описание: Мера совместной изменчивости двух случайных величин.
- Формула: ( \text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1} ).
- Пример: Для ( x = [1, 2], y = [2, 4] ).
-
Математическое ожидание (( E(X) ))
- Описание: Среднее значение случайной величины в долгосрочной перспективе.
- Формула: ( E(X) = \sum x_i \cdot P(x_i) ).
- Пример: Для кубика ( E(X) = 3.5 ).
-
Независимость событий
- Описание: События ( A ) и ( B ) независимы, если ( P(A \cap B) = P(A) \cdot P(B) ).
- Пример: Бросок кубика и монетки.
-
Непрерывная вероятность
- Описание: Вероятность для непрерывных случайных величин, задается плотностью.
- Пример: Нормальное распределение.
-
Нормальное распределение
- Описание: Непрерывное распределение с колоколообразной формой, характеризуется ( \mu ) и ( \sigma ).
- Пример: Рост людей (( \mu = 170 , \text{см} )).
-
Объединение событий (( A \cup B ))
- Описание: Вероятность наступления хотя бы одного из событий.
- Формула: ( P(A \cup B) = P(A) + P(B) - P(A \cap B) ).
- Пример: ( P(\text{туз или черви}) = 1/13 + 1/4 - 1/52 ).
-
Пересечение событий (( A \cap B ))
- Описание: Вероятность одновременного наступления событий ( A ) и ( B ).
- Пример: ( P(\text{туз и черви}) = 1/52 ).
-
Пуассоновское распределение
- Описание: Число событий за фиксированное время с интенсивностью ( \lambda ).
- Формула: ( P(k) = \frac{\lambda^k e^{-\lambda}}{k!} ).
- Пример: Число звонков в час.
-
Случайная величина
- Описание: Переменная, значение которой определяется случайным процессом.
- Пример: Результат броска кубика.
-
Условная вероятность (( P(A|B) ))
- Описание: Вероятность ( A ) при условии ( B ).
- Формула: ( P(A|B) = \frac{P(A \cap B)}{P(B)} ).
- Пример: ( P(\text{дождь}|\text{облака}) = 0.8 ).
-
Центральная предельная теорема (ЦПТ)
- Описание: Сумма большого числа независимых величин приближается к нормальному распределению при ( n > 30 ).
- Пример: Среднее 100 бросков кубика — нормальное.
-
( \chi^2 )-тест (Chi-squared test)
- Описание: Тест для проверки зависимости категориальных переменных или соответствия частот.
- Формула: ( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ).
- Пример: Зависимость покупки от пола.
-
ANOVA (Analysis of Variance)
- Описание: Тест для сравнения средних более чем двух групп.
- Пример: Сравнение продаж по трем регионам.
-
Бутстреп
- Описание: Метод повторной выборки с возвращением для оценки статистики.
- Пример: Оценка среднего с малой выборкой.
-
Гипотеза нулевая (( H_0 ))
- Описание: Утверждение об отсутствии эффекта, проверяется в тестах.
- Пример: "Средние двух групп равны".
-
Гипотеза альтернативная (( H_1 ))
- Описание: Утверждение о наличии эффекта, противоположное ( H_0 ).
- Пример: "Средние двух групп различаются".
-
Дисперсия (( \sigma^2 ), ( s^2 ))
- Описание: Мера разброса данных относительно среднего.
- Формула: ( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} ) (выборка).
- Пример: Для [1, 2, 3, 4] ≈ 1.67.
-
Доверительный интервал (CI)
- Описание: Диапазон, где с заданной вероятностью лежит истинное значение.
- Формула: ( \bar{x} \pm z \cdot \frac{s}{\sqrt{n}} ).
- Пример: Для ( \bar{x} = 10 ) — [9.22, 10.78].
-
Квантиль
- Описание: Значение, ниже которого находится заданная доля данных (например, 25% — первый квантиль).
- Пример: Медиана — 50-й квантиль.
-
Коэффициент корреляции Пирсона
- Описание: Мера линейной зависимости между переменными (-1 до 1).
- Пример: Для ( x = [1, 2, 3], y = [2, 4, 6] ) → 1.0.
-
Коэффициент Спирмена
- Описание: Ранговая корреляция для нелинейных зависимостей.
- Пример: Для упорядоченных рангов.
-
Куртозис (Kurtosis)
- Описание: Мера "остроты" распределения (высокий или плоский пик).
- Пример: Нормальное распределение — куртозис ≈ 0.
-
Медиана
- Описание: Срединное значение в отсортированном наборе данных.
- Пример: [1, 2, 100] → 2.
-
Мода
- Описание: Наиболее часто встречающееся значение в наборе данных.
- Пример: [1, 2, 2, 3] → 2. -
Мощность теста (1 - ( \beta ))
- Описание: Вероятность верно отвергнуть ложную ( H_0 ).
- Пример: 0.8 — 80% шанс обнаружить эффект. -
Ошибка I рода
- Описание: Ложное отвержение верной ( H_0 ) (( \alpha )).
- Пример: Ошибка 5% при ( \alpha = 0.05 ). -
Ошибка II рода (( \beta ))
- Описание: Неверное принятие ложной ( H_0 ).
- Пример: Пропуск эффекта при низкой мощности. -
Сглаживание
- Описание: Метод уменьшения шума в данных (например, скользящее среднее).
- Пример: Среднее по 3 точкам. -
Скошенность (Skewness)
- Описание: Мера асимметрии распределения (положительная или отрицательная).
- Пример: Распределение с длинным правым "хвостом" — положительная. -
Среднее (( \bar{x} ))
- Описание: Сумма значений, деленная на их число.
- Пример: [1, 2, 100] → 34.33. -
Стандартное отклонение (( \sigma ), ( s ))
- Описание: Квадратный корень из дисперсии, мера разброса.
- Формула: ( s = \sqrt{s^2} ).
- Пример: Для [1, 2, 3, 4] ≈ 1.29. -
t-тест
- Описание: Тест для проверки различий между средними двух групп.
- Пример: t-статистика = -2.88, p = 0.045 → значимо. -
p-value
- Описание: Вероятность получить результат при верной ( H_0 ).
- Пример: p < 0.05 → отвергаем ( H_0 ). -
( R^2 ) (коэффициент детерминации)
- Описание: Доля дисперсии зависимой переменной, объясненная моделью (0–1).
- Пример: ( R^2 = 0.8 ) — 80% объяснено. -
Уровень значимости (( \alpha ))
- Описание: Порог вероятности ошибки I рода, обычно 0.05.
- Пример: ( \alpha = 0.05 ) — 5% риск. -
Шапиро-тест
- Описание: Тест на нормальность распределения, p > 0.05 → нормальность.
- Пример: Для нормальных данных p ≈ 0.5.
-
Axes
- Описание: Объект в Matplotlib, представляющий область графика (оси, линии).
- Пример:fig, ax = plt.subplots()
. -
bar
(Matplotlib)
- Описание: Столбчатая диаграмма для категориальных данных с заданными высотами.
- Пример:plt.bar(['A', 'B'], [10, 12])
. -
Boxplot (Seaborn)
- Описание: Ящик с усами для отображения распределения данных (медиана, квартили, выбросы).
- Пример:sns.boxplot(x='group', y='value', data=df)
. -
Figure
- Описание: Объект в Matplotlib, контейнер для графиков.
- Пример:plt.figure(figsize=(10, 6))
. -
hist
(Matplotlib)
- Описание: Гистограмма для числовых данных, показывает частотность.
- Пример:plt.hist([1, 2, 2, 3], bins=3)
. -
Heatmap (Seaborn)
- Описание: Тепловая карта для визуализации матриц (например, корреляций).
- Пример:sns.heatmap(df.corr(), annot=True)
. -
Line plot (Matplotlib)
- Описание: Линейный график для отображения трендов во времени или по оси.
- Пример:plt.plot(x, y)
. -
Scatter plot (Matplotlib)
- Описание: Точечный график для отображения отношений между двумя переменными.
- Пример:plt.scatter(x, y)
. -
Subplot
- Описание: Метод в Matplotlib для создания нескольких графиков в одной фигуре.
- Пример:plt.subplot(1, 2, 1)
— первый из двух графиков. -
Violin plot (Seaborn)
- Описание: График, показывающий распределение данных с плотностью.
- Пример:sns.violinplot(x='group', y='value', data=df)
.
-
A/B-тест
- Описание: Эксперимент, сравнивающий две версии (A и B) для выбора лучшей по метрике.
- Пример: Конверсия A = 10%, B = 12%. -
Accuracy
- Описание: Доля верно предсказанных значений в классификации.
- Формула: ( \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{Всего}} ).
- Пример: 0.9 — 90% верно. -
Bias
- Описание: Смещение модели, ошибка из-за упрощения предположений.
- Пример: Линейная модель на нелинейных данных. -
Cross-validation (Кросс-валидация)
- Описание: Метод оценки модели, разбивающий данные на ( k ) фолдов для обучения и тестирования.
- Пример: 5-fold CV. -
F1-score
- Описание: Гармоническое среднее precision и recall для оценки классификации.
- Формула: ( F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} ).
- Пример: 0.85. -
Feature
- Описание: Признак или переменная в модели ML.
- Пример: "Возраст" в регрессии. -
Gradient Descent
- Описание: Метод оптимизации в ML для минимизации функции потерь.
- Пример: Обновление весов в регрессии. -
Hyperparameter
- Описание: Параметр модели, задаваемый до обучения (например, глубина дерева).
- Пример:max_depth
в дереве решений. -
K-Means
- Описание: Алгоритм кластеризации, группирующий данные в ( k ) кластеров.
- Пример: Сегментация клиентов. -
Loss Function
- Описание: Функция, измеряющая ошибку предсказаний модели.
- Пример: MSE в регрессии. -
Mean Squared Error (MSE)
- Описание: Средняя квадратичная ошибка между предсказаниями и истинными значениями.
- Формула: ( \text{MSE} = \frac{1}{n} \sum (y_i - \hat{y}_i)^2 ).
- Пример: MSE = 0.05. -
Overfitting
- Описание: Модель слишком подстраивается под обучающие данные, плохо обобщает.
- Пример: Низкая ошибка на трейне, высокая на тесте. -
Precision
- Описание: Доля верно предсказанных положительных среди всех предсказанных положительных.
- Формула: ( \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} ).
- Пример: 0.9. -
Recall
- Описание: Доля верно предсказанных положительных среди всех истинных положительных.
- Формула: ( \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} ).
- Пример: 0.85. -
Regularization
- Описание: Метод в ML для предотвращения переобучения, добавляет штраф к функции потерь.
- Пример: L1 (Lasso), L2 (Ridge). -
ROC Curve
- Описание: Кривая, показывающая баланс между TPR и FPR в классификации.
- Пример: AUC = 0.9 — высокое качество. -
Train/Test Split
- Описание: Разделение данных на обучающую и тестовую выборки для оценки модели.
- Пример: 80% — train, 20% — test. -
Uplift
- Описание: Относительное изменение метрики между группами в A/B-тесте.
- Формула: ( \text{Uplift} = \frac{\text{B} - \text{A}}{\text{A}} \cdot 100% ).
- Пример: 20% роста конверсии. -
Variance
- Описание: Чувствительность модели к изменениям в обучающих данных.
- Пример: Высокая дисперсия → переобучение.
-
API
- Описание: Интерфейс для взаимодействия между программами (например, получение данных).
- Пример: REST API для погоды. -
ARIMA
- Описание: Модель для анализа и прогнозирования временных рядов (авторегрессия, интегрирование, скользящее среднее).
- Пример: Прогноз продаж. -
Big Data
- Описание: Обработка больших объемов данных, требующих специальных технологий (Hadoop, Spark).
- Пример: Анализ логов сайта. -
Business Intelligence (BI)
- Описание: Технологии и инструменты для анализа бизнес-данных (например, Power BI, Tableau).
- Пример: Дашборд продаж. -
Clustering
- Описание: Метод группировки данных в кластеры без меток.
- Пример: K-Means для сегментации. -
CSV
- Описание: Формат файла с данными, разделенными запятыми.
- Пример:id,name;1,Иван
. -
Dashboard
- Описание: Интерактивная панель в BI-инструментах для визуализации метрик.
- Пример: Дашборд в Power BI с продажами. -
Data Cleaning
- Описание: Процесс удаления ошибок, пропусков и выбросов из данных.
- Пример: Заполнение NaN средним. -
Data Lake
- Описание: Хранилище необработанных данных в исходном формате.
- Пример: Хранение логов в облаке. -
Data Warehouse
- Описание: Хранилище структурированных данных для аналитики.
- Пример: Snowflake для отчетов. -
DataFrame
- Описание: Табличная структура данных в Pandas.
- Пример:df = pd.DataFrame({'A': [1, 2]})
. -
Decision Tree
- Описание: Алгоритм ML, разбивает данные на ветви для классификации или регрессии.
- Пример: Прогноз оттока клиентов. -
Dimensionality Reduction
- Описание: Уменьшение числа признаков в данных (например, PCA).
- Пример: Сжатие признаков до 2D. -
EDA (Exploratory Data Analysis)
- Описание: Исследовательский анализ данных для выявления закономерностей.
- Пример: Построение гистограмм. -
ETL (Extract, Transform, Load)
- Описание: Процесс извлечения, преобразования и загрузки данных в хранилище.
- Пример: Загрузка данных в Data Warehouse. -
Feature Engineering
- Описание: Создание новых признаков из существующих данных для улучшения модели.
- Пример: Добавление "возрастной группы". -
Hadoop
- Описание: Фреймворк для обработки больших данных с распределенной файловой системой (HDFS).
- Пример: Анализ терабайтов логов. -
JSON
- Описание: Формат обмена данными, основанный на ключ-значение.
- Пример:{"name": "Иван", "age": 30}
. -
KPI (Key Performance Indicator)
- Описание: Клюевой показатель эффективности для оценки успеха.
- Пример: Конверсия продаж. -
L1 Regularization (Lasso)
- Описание: Метод регуляризации в ML, добавляет сумму абсолютных значений весов к функции потерь.
- Пример: Уменьшение числа признаков. -
L2 Regularization (Ridge)
- Описание: Метод регуляризации в ML, добавляет сумму квадратов весов к функции потерь.
- Пример: Сглаживание коэффициентов. -
Logistic Regression
- Описание: Модель для бинарной классификации, предсказывает вероятности через сигмоиду.
- Пример: ( P(y=1|x) ) для ( x = [1, 2, 3] ). -
Machine Learning (ML)
- Описание: Область ИИ, обучающая модели на данных для предсказаний.
- Пример: Прогноз продаж. -
Normalization
- Описание: Приведение данных к диапазону (например, 0–1).
- Пример: ( x' = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} ). -
Outlier
- Описание: Выброс — значение, сильно отличающееся от остальных.
- Пример: 100 в [1, 2, 3, 100]. -
Pandas
- Описание: Библиотека Python для анализа и манипуляции данными.
- Пример:import pandas as pd
. -
Pipeline
- Описание: Последовательность шагов обработки данных в ML.
- Пример: Очистка → нормализация → модель. -
Power BI
- Описание: Инструмент Microsoft для визуализации и анализа данных.
- Пример: Дашборд с KPI. -
Preprocessing
- Описание: Подготовка данных перед анализом (очистка, кодирование).
- Пример: Заполнение пропусков. -
Random Forest
- Описание: Ансамблевый метод ML, использующий множество деревьев решений.
- Пример: Классификация клиентов. -
Random Seed
- Описание: Фиксация генератора случайных чисел для воспроизводимости.
- Пример:np.random.seed(42)
. -
Regression
- Описание: Метод предсказания непрерывных значений.
- Пример: Линейная регрессия. -
SQL
- Описание: Язык для работы с реляционными базами данных.
- Пример:SELECT * FROM users
. -
Series
- Описание: Одномерная структура данных в Pandas.
- Пример:s = pd.Series([1, 2, 3])
. -
Spark
- Описание: Фреймворк для обработки больших данных с распределенными вычислениями.
- Пример: Анализ больших логов. -
Standardization
- Описание: Приведение данных к стандартному виду (( z = \frac{x - \mu}{\sigma} )).
- Пример: Преобразование в z-оценки. -
Supervised Learning
- Описание: Тип ML с метками в обучающих данных.
- Пример: Регрессия, классификация. -
Tableau
- Описание: Инструмент для визуализации данных и создания дашбордов.
- Пример: Интерактивный график продаж. -
Time Series
- Описание: Последовательность данных, упорядоченная по времени.
- Пример: Продажи по дням. -
Unsupervised Learning
- Описание: Тип ML без меток, для поиска структуры в данных.
- Пример: Кластеризация. -
Vectorization
- Описание: Выполнение операций над массивами в NumPy без циклов.
- Пример:np.array([1, 2]) + 1
→[2, 3]
. -
Z-score
- Описание: Мера отклонения значения от среднего в единицах стандартного отклонения.
- Формула: ( z = \frac{x - \mu}{\sigma} ).
- Пример: ( z = 1 ) — на одно ( \sigma ) выше среднего. -
Aggregation
- Описание: Сведение данных к одной метрике (например, сумма, среднее).
- Пример:df.groupby('region')['sales'].sum()
. -
Binning
- Описание: Разбиение непрерывных данных на интервалы (бины).
- Пример: Разделение возраста на группы [0-20, 20-40]. -
Categorical Data
- Описание: Данные с ограниченным набором значений (категории).
- Пример: Пол (мужской, женский). -
Confidence Level
- Описание: Вероятность, что доверительный интервал содержит истинное значение.
- Пример: 95% доверительный уровень. -
Confusion Matrix
- Описание: Таблица для оценки классификации (TP, TN, FP, FN).
- Пример: Матрица для предсказания оттока. -
Correlation
- Описание: Мера связи между двумя переменными.
- Пример: Пирсон = 0.9 — сильная линейная связь. -
Data Transformation
- Описание: Изменение формы или масштаба данных (например, логарифмирование).
- Пример: ( log(x) ) для скошенных данных. -
Explained Variance
- Описание: Доля общей дисперсии, объясненная моделью.
- Пример: ( R^2 ) в регрессии. -
False Negative (FN)
- Описание: Ошибка классификации, когда положительный класс предсказан как отрицательный.
- Пример: Болезнь не обнаружена. -
False Positive (FP)
- Описание: Ошибка классификации, когда отрицательный класс предсказан как положительный.
- Пример: Ложная тревога. -
Feature Selection
- Описание: Выбор наиболее важных признаков для модели.
- Пример: Удаление низкокоррелирующих переменных. -
Grid Search
- Описание: Метод поиска оптимальных гиперпараметров модели.
- Пример: Поиск лучшегоC
для SVM. -
Imputation
- Описание: Заполнение пропущенных значений в данных.
- Пример: Замена NaN средним. -
One-Hot Encoding
- Описание: Преобразование категориальных данных в бинарные столбцы.
- Пример: "Пол" → [0, 1] для "мужской". -
Outlier Detection
- Описание: Метод поиска аномалий в данных.
- Пример: Использование IQR. -
Sampling
- Описание: Выбор подмножества данных для анализа.
- Пример: Случайная выборка 10%. -
Statistical Significance
- Описание: Указывает, что результат не случаен (p < ( \alpha )).
- Пример: p = 0.03 < 0.05 → значимо.