博客 trino的介绍和安装使用

trino的介绍和安装使用

数栈君发表于 2024-01-23 10:46 5100 0

一、Trino简介

Trino（前身为Presto SQL）是一个开源的分布式SQL查询引擎，旨在快速高效地查询大规模数据集。它支持跨多个不同数据源进行交互式分析查询，包括关系型数据库、NoSQL数据库以及对象存储。Trino的主要特点包括：

高性能：通过并行处理和优化执行计划，实现对大规模数据的快速查询。
多数据源集成：能够连接多种数据源，如Hive、Cassandra、Kafka、MongoDB等，并将它们作为单一的数据仓库进行查询。
易用性：提供标准SQL接口，用户无需更改应用程序或学习新的查询语言即可使用。
可扩展性：易于扩展以适应更大的数据量和更高的并发需求。
社区支持：拥有活跃的开发者社区，不断改进和完善功能。

Trino最初由Facebook开发，用于解决内部大规模数据分析的问题，后来被捐赠给开源社区。现在它由Trino Software Foundation维护，广泛应用于互联网公司、金融机构和其他需要处理大量数据的企业。

二、安装环境准备

在开始安装Trino之前，确保你的系统满足以下要求：

操作系统：Linux (建议使用Ubuntu或CentOS)，MacOS也支持但较少见；Windows不直接支持，可以通过WSL2间接运行。
Java版本：JDK 8或更高版本。推荐使用OpenJDK。
内存：至少8GB RAM，对于生产环境建议更多。
网络：稳定的网络连接，以便下载必要的软件包和依赖项。
存储空间：足够的磁盘空间来存储数据文件和日志。

此外，如果你打算连接到特定的数据源，还需要安装相应的客户端工具或者驱动程序，比如MySQL或PostgreSQL的JDBC驱动。

三、安装步骤

1. 下载与解压

首先访问Trino官方网站获取最新版本的二进制文件。你可以选择直接下载tarball格式的压缩包，然后将其解压到你想要安装的位置。例如：

bash

深色版本

# 下载Trino服务器端二进制文件

wget https://repo1.maven.org/maven2/io/trino/trino-server/379/trino-server-379.tar.gz



# 解压文件到指定目录

tar -xzvf trino-server-379.tar.gz -C /opt/

这会将Trino服务器端解压到/opt/trino-server-379目录下。

2. 配置环境变量

为了方便调用Trino命令行工具CLI，可以将Trino的bin路径添加到系统的PATH环境变量中。编辑~/.bashrc或~/.zshrc文件，添加如下行：

bash

深色版本

export PATH=$PATH:/opt/trino-server-379/bin

使配置生效：

bash

深色版本

source ~/.bashrc

3. 设置配置文件

进入Trino安装目录下的etc文件夹，这里包含了所有配置文件。根据官方文档指导创建或修改以下关键配置文件：

config.properties: 定义了Trino协调器(Coordinator)和服务的基本参数。
jvm.config: JVM启动参数，如内存分配等。
node.properties: 节点相关信息，如节点ID和环境标识。
catalog/*.properties: 连接到各个数据源的配置文件，每个数据源对应一个单独的.properties文件。

示例配置如下：

ini

深色版本

# config.properties

coordinator=true

node-scheduler.include-coordinator=false

http-server.http.port=8080

query.max-memory=5GB

query.max-memory-per-node=1GB

discovery-server.enabled=true

discovery.uri=http://localhost:8080



# jvm.config

-Xmx16G

-XX:+UseG1GC

-XX:G1HeapRegionSize=32M

-XX:+UseGCOverheadLimit

-XX:+ExplicitGCDisabled



# node.properties

node.environment=production

node.id=unique-id-for-this-node

对于每一个要连接的数据源，你需要创建相应的catalog配置文件。例如，如果你想连接到Hive，请创建hive.properties文件：

ini

深色版本

connector.name=hive-hadoop2

hive.metastore.uri=thrift://your-metastore-host:9083

hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

4. 启动服务

完成上述配置后，可以通过下面的命令启动Trino协调器：

bash

深色版本

./bin/launcher start

如果一切正常，你应该可以在浏览器中通过http://localhost:8080访问Trino Web UI界面。

5. 使用CLI工具

Trino提供了命令行接口（CLI），允许用户直接从终端执行SQL查询。首次使用时可能需要先安装CLI工具。可以通过以下命令下载并安装：

bash

深色版本

# 下载并安装Trino CLI

wget https://repo1.maven.org/maven2/io/trino/trino-cli/379/trino-cli-379-executable.jar -O trino

chmod +x trino

mv trino /usr/local/bin/



# 启动CLI并连接到本地Trino实例

trino --server http://localhost:8080 --catalog hive --schema default

此时你就可以开始编写SQL语句来进行数据探索了。

四、Trino中的SQL操作与代码示例

在安装和配置好Trino之后，接下来就是如何利用其强大的SQL能力来处理数据。以下是一些常见的SQL操作和代码示例：

创建表

假设我们有一个包含用户信息的数据源，我们可以创建一张表来存储这些信息：

sql

深色版本

CREATE TABLE IF NOT EXISTS users (

    id BIGINT,

    name VARCHAR,

    email VARCHAR,

    created_at TIMESTAMP

);

插入数据

向表中插入一些初始数据：

sql

深色版本

INSERT INTO users (id, name, email, created_at)

VALUES 

(1, 'Alice', 'alice@example.com', CURRENT_TIMESTAMP),

(2, 'Bob', 'bob@example.com', CURRENT_TIMESTAMP),

(3, 'Charlie', 'charlie@example.com', CURRENT_TIMESTAMP);

查询数据

简单的SELECT语句来检索所有记录：

sql

深色版本

SELECT * FROM users;

如果我们想查找特定条件的数据，比如名字以'A'开头的用户：

sql

深色版本

SELECT * FROM users WHERE name LIKE 'A%';

更新数据

更新某个用户的电子邮件地址：

sql

深色版本

UPDATE users SET email = 'newemail@example.com' WHERE id = 1;

删除数据

删除不再需要的记录：

sql

深色版本

DELETE FROM users WHERE id = 2;

数据聚合与分组

计算每种类型的数据数量：

sql

深色版本

SELECT type, COUNT(*) FROM items GROUP BY type;

使用JOIN查询

假设我们有另一张表orders，其中包含订单信息。我们可以将两个表联合起来查询：

sql

深色版本

SELECT u.name, o.order_id, o.total_amount

FROM users u

JOIN orders o ON u.id = o.user_id;

窗口函数

窗口函数是SQL的一个强大特性，允许我们在不改变原始表结构的情况下进行复杂的计算。例如，计算每个用户的累计购买金额：

sql

深色版本

SELECT

    user_id,

    order_date,

    total_amount,

    SUM(total_amount) OVER (PARTITION BY user_id ORDER BY order_date) AS cumulative_amount

FROM orders;

五、高级特性和最佳实践

除了基本的SQL操作外，Trino还支持许多高级特性和最佳实践，包括但不限于：

复杂数据类型：如数组、映射和结构体。
内置函数：提供了大量的内置函数用于字符串处理、日期时间操作、数学计算等。
安全性和认证：支持LDAP、Kerberos等多种认证方式。
性能优化：通过调整配置参数、使用分区表、索引等方式提高查询效率。
监控和诊断：利用内置的Web UI界面和日志记录功能监控集群状态和排查问题。

六、总结

本文详细介绍了Trino这个高性能的分布式SQL查询引擎，并涵盖了从安装配置到实际使用的各个方面。通过合理的设置和优化，Trino可以帮助企业和组织更有效地管理和分析海量数据。希望这篇文章能为读者提供有价值的参考，并激发大家进一步探索Trino的可能性。如果你有任何疑问或需要更多信息，请随时查阅官方文档或参与社区讨论。

SQL语法 sql 数据开发大数据开发大数据 Trino 内置函数 Trino 数据类型 Trino 参数 Trino trino的介绍和安装使用

0条评论

上一篇：浅析百万级分布式调度引擎——DAGScheduleX能做...

下一篇：【MySQL】：探秘主流关系型数据库管理系统及SQL语言

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

trino的介绍和安装使用

一、Trino简介

二、安装环境准备

三、安装步骤

1. 下载与解压

2. 配置环境变量

3. 设置配置文件

4. 启动服务

5. 使用CLI工具

四、Trino中的SQL操作与代码示例

创建表

插入数据

查询数据

更新数据

删除数据

数据聚合与分组

使用JOIN查询

窗口函数

五、高级特性和最佳实践

六、总结

我要提问

分享经验

微信扫码获取数字化转型资料