Docker安装Stirling-PDF

Stirling-PDF 是一款基于 Docker 容器的开源 PDF 处理工具,专为OCR设计,能够将扫描的 PDF 文件中的图像或文字转换为可编辑的文本。通过集成 Tesseract OCR 引擎,Stirling-PDF 使得用户能够轻松提取 PDF 文件中的文字,无论是扫描文档、图像还是其他类型的图文混合内容。

该工具提供了一个简洁的 Web 界面,用户可以上传 PDF 文件进行批量处理、OCR 识别和文本提取。它支持多语言识别,适用于不同语言的 OCR 数据包,能够帮助用户处理多种语言的文档。

1. 创建 stirling-pdf 目录并进入

首先,我们需要在你的服务器上创建一个新的目录来存放相关文件,并进入该目录。

mkdir stirling-pdf && cd stirling-pdf

2. 下载 Tesseract OCR 库

Stirling-PDF 使用 Tesseract OCR 库进行文字识别。因此,我们需要下载其相关的语言数据。

git clone https://github.com/tesseract-ocr/tessdata.git

3. 创建 docker-compose.yml 文件

创建 docker-compose.yml 文件,以便使用 Docker Compose 部署 Stirling-PDF 服务。

stirling-pdf 目录下,创建并编辑 docker-compose.yml 文件:

services:
  stirling-pdf:
    restart: always
    image: frooodle/s-pdf:latest
    ports:
      - '8080:8080'  # 映射容器内的 8080 端口到宿主机的 8080 端口
    volumes:
      - ./tessdata:/usr/share/tessdata
      - ./extraConfigs:/configs
      - ./customFiles:/customFiles/
      - ./logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
      - LANGS=en_GB

4. 启动 Stirling-PDF

创建完 docker-compose.yml 文件后,可以使用以下命令启动 Stirling-PDF 服务:

docker compose up -d

该命令会自动下载所需的 Docker 镜像并启动容器。启动完成后,Stirling-PDF 服务将开始运行。

5. 使用浏览器访问 Stirling-PDF

启动成功后,你可以在浏览器中通过以下地址访问 Stirling-PDF:

http://<IP>:8080
  • 替换 <IP> 为你的服务器的 IP 地址,你就可以在浏览器中访问并使用 Stirling-PDF 进行 PDF 文件的处理了。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注