|
51f24ced05
|
新增批量更新Elasticsearch文档的功能,优化process_pdf_txt_pairs函数以提高处理效率
|
2025-08-08 17:20:45 +08:00 |
|
|
1c23d272bb
|
优化 Elasticsearch 更新逻辑,支持批量位置更新,调整匹配结果处理,新增位置整数格式返回
|
2025-08-08 10:38:24 +08:00 |
|
|
c1d66237e6
|
新增 chunk_pos.py 文件,集成 Elasticsearch 功能,支持文档块位置和图像 ID 更新,优化索引映射获取逻辑
|
2025-08-07 17:04:20 +08:00 |
|
|
e5ac523bd9
|
test positions
|
2025-08-06 23:01:29 +08:00 |
|
|
ec30b8d78a
|
优化find_text_in_pdf函数,支持列表类型查询结果的合并,调整阈值以提高匹配准确性,更新主函数示例以支持多行查询
|
2025-08-05 22:50:31 +08:00 |
|
|
c8f96ee41e
|
优化PDF文本查找功能,支持列表类型查询,新增预处理选项以提高模糊匹配准确性,修复多个匹配结果的处理逻辑
|
2025-08-05 18:24:49 +08:00 |
|
|
020de8da5d
|
新增PDF文本查找功能,支持多行正则和模糊匹配,优化匹配结果返回逻辑
|
2025-08-05 11:48:30 +08:00 |
|
|
657e3cb9e5
|
优化PDF文本查找功能,新增详细查找方法,支持按块和行查找,返回匹配文本的位置信息
|
2025-08-04 18:15:31 +08:00 |
|
|
c47ddad5f1
|
实现PDF批量模糊文本查找功能,支持多个目标文本的相似度匹配,优化文本坐标返回逻辑
|
2025-07-30 18:00:31 +08:00 |
|
|
73557a272d
|
实现智能模糊文本查找功能,支持精确、模糊和部分匹配,优化文本坐标返回逻辑
|
2025-07-30 12:48:11 +08:00 |
|
|
44ef61daab
|
新增PDF文本查找功能,支持全文和逐页搜索,返回文本坐标信息
|
2025-07-30 08:51:30 +08:00 |
|
|
466fae53c9
|
将主函数中的文件路径硬编码更改为从环境变量加载
|
2025-07-23 21:54:22 +08:00 |
|
|
d8078c6d09
|
add env file
|
2025-07-23 17:17:55 +08:00 |
|
|
d8f2a26ecc
|
实现pdf-img-chunk完整功能,从环境变量加载配置,新增网络图片下载功能,并优化文本块处理逻辑
|
2025-07-23 17:13:38 +08:00 |
|
|
a0872e5eac
|
更新 Elasticsearch 和 MinIO 配置,重构文件上传逻辑,添加图片链接处理功能
|
2025-07-22 23:10:34 +08:00 |
|
|
40211521a2
|
更新主函数,添加PDF和TXT文件处理说明,注释掉文件选择和处理逻辑
|
2025-07-22 18:29:48 +08:00 |
|
|
2cc9dbfcd0
|
新增PDF和TXT文件处理功能,包括文件选择、对齐、上传和文本块处理
|
2025-07-22 16:51:03 +08:00 |
|
|
b4769d2ec1
|
Merge branch 'main' of https://git.lqsjy.cn/glowz/ragflow_api_test
|
2025-07-21 23:08:20 +08:00 |
|
|
4c1e031bb5
|
新增整合上传功能,支持PDF和TXT文件的上传及处理,包括图片链接的提取与上传
|
2025-07-21 23:08:02 +08:00 |
|
|
19133b203a
|
Merge branch 'main' of https://git.lqsjy.cn/glowz/ragflow_api_test
|
2025-07-16 10:58:00 +08:00 |
|
|
ba46368082
|
add url
|
2025-07-16 10:55:38 +08:00 |
|
|
ca92e349e0
|
整理
|
2025-07-15 21:52:38 +08:00 |
|
|
13b3a12bd7
|
Merge branch 'main' of https://git.lqsjy.cn/glowz/ragflow_api_test
|
2025-07-14 20:06:35 +08:00 |
|
|
8e3697a5ce
|
add img_id
|
2025-07-14 18:23:09 +08:00 |
|
|
51d3750068
|
添加.gitignore文件以忽略特定文件和目录;新增markdown_image2minio.py脚本以处理Markdown文件中的图片并上传到MinIO
|
2025-07-12 21:32:28 +08:00 |
|
|
94fee102f3
|
更新MinIO文件上传逻辑,修改上传文件名为带路径格式;添加上传文件时的注释说明
|
2025-07-10 22:38:09 +08:00 |
|
|
29d9b44e0a
|
更新MinIO文件上传逻辑,修改上传文件名和路径;调整文件选择路径以支持新的目录结构
|
2025-07-08 22:49:51 +08:00 |
|
|
d8d34af554
|
添加MinIO客户端配置和文件上传功能
|
2025-07-07 22:22:24 +08:00 |
|
|
5b940d5070
|
更新本地地址配置,修复连接问题;新增命令行接口以支持文档上传和处理功能
|
2025-07-06 10:47:10 +08:00 |
|
|
68444ad7ff
|
重构添加文档块功能,改进文件读取和错误处理逻辑
|
2025-07-05 11:43:50 +08:00 |
|
|
bc2aac4eea
|
更新文档处理逻辑,添加从文件读取文本块并上传至知识库的功能
|
2025-07-05 11:36:29 +08:00 |
|
|
587305f070
|
添加初始文件和功能,包括数据集和文档类的定义,以及添加文档块的用户界面
|
2025-07-04 18:26:36 +08:00 |
|
|
db6f3b865f
|
first commit
|
2025-07-04 08:55:53 +08:00 |
|