Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update sql-statement-import-into.md (#15742) #16057

Merged
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
5 changes: 4 additions & 1 deletion sql-statements/sql-statement-import-into.md
Original file line number Diff line number Diff line change
Expand Up @@ -32,6 +32,7 @@ summary: TiDB 数据库中 IMPORT INTO 的使用概况。
- 当使用[全局排序](/tidb-global-sort.md)导入数据时,单行数据的总长度不能超过 32 MiB。
- 当使用全局排序导入数据时,如果 TiDB 集群在导入任务尚未完成时被删除了,Amazon S3 上可能会残留用于全局排序的临时数据。该场景需要手动删除这些数据,以免增加 S3 存储成本。
- 所需导入的数据不能存在主键或非空唯一索引冲突的记录,否则会导致任务失败。
- 对于基于分布式执行框架调度的 `IMPORT INTO` 任务,如该任务已运行,不支持被调度到新的 TiDB 节点上执行。当前在执行导入任务的 TiDB 节点如果重启,该 TiDB 节点不会再执行该导入任务,而是被转移到其他 TiDB 节点继续执行。如果是导入 TiDB 节点本地的数据,任务异常后不会被 failover 到其他 TiDB 节点。
- 已知问题:在 TiDB 节点配置文件中的 PD 地址与当前集群 PD 拓扑不一致时(如曾经缩容过 PD,但没有对应更新 TiDB 配置文件或者更新该文件后未重启 TiDB 节点),执行 `IMPORT INTO` 会失败。

## 导入前准备
Expand Down Expand Up @@ -91,6 +92,7 @@ SET 表达式左侧只能引用 `ColumnNameOrUserVarList` 中没有的列名。
用于指定数据文件的存储位置,该位置可以是 S3 或 GCS URI 路径,也可以是 TiDB 本地文件路径。

- S3 或 GCS URI 路径:配置详见[外部存储服务的 URI 格式](/external-storage-uri.md)。

- TiDB 本地文件路径:必须为绝对路径,数据文件后缀必须为 `.csv`、`.sql` 或 `.parquet`。确保该路径对应的文件存储在当前用户连接的 TiDB 节点上,且当前连接的用户有 `FILE` 权限。

> **注意:**
Expand Down Expand Up @@ -145,7 +147,8 @@ SET 表达式左侧只能引用 `ColumnNameOrUserVarList` 中没有的列名。

> **注意:**
>
> Snappy 压缩文件必须遵循[官方 Snappy 格式](https://github.com/google/snappy)。不支持其他非官方压缩格式。
> - Snappy 压缩文件必须遵循[官方 Snappy 格式](https://github.com/google/snappy)。不支持其他非官方压缩格式。
> - 由于无法对单个大压缩文件进行并发解压,因此压缩文件的大小会直接影响导入速度。建议解压后的文件大小不要超过 256 MiB。

## 全局排序

Expand Down