Docker安装Stirling-PDF

预计阅读时间: 5 分钟

Stirling-PDF 是一款基于 Docker 容器的开源 PDF 处理工具，专为OCR设计，能够将扫描的 PDF 文件中的图像或文字转换为可编辑的文本。通过集成 Tesseract OCR 引擎，Stirling-PDF 使得用户能够轻松提取 PDF 文件中的文字，无论是扫描文档、图像还是其他类型的图文混合内容。

该工具提供了一个简洁的 Web 界面，用户可以上传 PDF 文件进行批量处理、OCR 识别和文本提取。它支持多语言识别，适用于不同语言的 OCR 数据包，能够帮助用户处理多种语言的文档。

1. 创建 `stirling-pdf` 目录并进入

首先，我们需要在你的服务器上创建一个新的目录来存放相关文件，并进入该目录。

mkdir stirling-pdf && cd stirling-pdf

2. 下载 Tesseract OCR 库

Stirling-PDF 使用 Tesseract OCR 库进行文字识别。因此，我们需要下载其相关的语言数据。

git clone https://github.com/tesseract-ocr/tessdata.git

3. 创建 `docker-compose.yml` 文件

创建 docker-compose.yml 文件，以便使用 Docker Compose 部署 Stirling-PDF 服务。

在 stirling-pdf 目录下，创建并编辑 docker-compose.yml 文件：

services:
  stirling-pdf:
    restart: always
    image: frooodle/s-pdf:latest
    ports:
      - '8080:8080'  # 映射容器内的 8080 端口到宿主机的 8080 端口
    volumes:
      - ./tessdata:/usr/share/tessdata
      - ./extraConfigs:/configs
      - ./customFiles:/customFiles/
      - ./logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
      - LANGS=en_GB

4. 启动 Stirling-PDF

创建完 docker-compose.yml 文件后，可以使用以下命令启动 Stirling-PDF 服务：

docker compose up -d

该命令会自动下载所需的 Docker 镜像并启动容器。启动完成后，Stirling-PDF 服务将开始运行。

5. 使用浏览器访问 Stirling-PDF

启动成功后，你可以在浏览器中通过以下地址访问 Stirling-PDF：

http://<IP>:8080

替换 <IP> 为你的服务器的 IP 地址，你就可以在浏览器中访问并使用 Stirling-PDF 进行 PDF 文件的处理了。

启鑫的黑板报

1. 创建 `stirling-pdf` 目录并进入

2. 下载 Tesseract OCR 库

3. 创建 `docker-compose.yml` 文件

4. 启动 Stirling-PDF

5. 使用浏览器访问 Stirling-PDF

评论

发表回复取消回复

Docker安装Stirling-PDF

1. 创建 stirling-pdf 目录并进入

2. 下载 Tesseract OCR 库

3. 创建 docker-compose.yml 文件

4. 启动 Stirling-PDF

5. 使用浏览器访问 Stirling-PDF

相关文章

评论

发表回复 取消回复

1. 创建 `stirling-pdf` 目录并进入

3. 创建 `docker-compose.yml` 文件

发表回复取消回复