Python提取文本链接

admin 千秋月 关注 管理组 LV20
发表于程序代码版块 技术杂文
代码:

import re
import os

def extract_and_save_links():
    # 获取用户输入的文件路径
    input_path = input("请输入文本文件路径:").strip('"')  # 处理可能包含的引号
    
    # 验证文件是否存在
    if not os.path.exists(input_path):
        print("错误:文件不存在,请检查路径!")
        return
    
    # 读取文件内容
    try:
        with open(input_path, 'r', encoding='utf-8') as file:
            content = file.read()
    except Exception as e:
        print(f"读取文件出错:{str(e)}")
        return
    
    # 使用正则表达式提取所有http/https链接
    link_pattern = re.compile(r'https?://[^\s<>"]+|www\.[^\s<>"]+')
    links = link_pattern.findall(content)
    
    # 去重
    unique_links = list(set(links))
    
    # 如果没有找到链接
    if not unique_links:
        print("未在文件中找到任何链接!")
        return
    
    # 生成输出文件路径(同目录下)
    output_path = os.path.join(os.path.dirname(input_path), "去重链接.txt")
    
    # 写入文件
    try:
        with open(output_path, 'w', encoding='utf-8') as file:
            file.write("\n".join(unique_links))
        print(f"成功提取并保存 {len(unique_links)} 个唯一链接到:{output_path}")
    except Exception as e:
        print(f"写入文件出错:{str(e)}")

if __name__ == "__main__":
    print("=== 链接提取工具 ===")
    print("功能:从文本文件中提取所有HTTP/HTTPS链接并去重")
    extract_and_save_links()
    input("\n按Enter键退出...")

评论列表 评论
发布评论

评论: Python提取文本链接



2026全面升级!对接公众号万级资源池 + 智能AI双驱动,速来体验! 外卖党必看!你吃外卖我买单!欢迎报名下单! AI人脸替换工具离线版,免费下载~ Image


免责声明
本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和研究目的 。 不得用于商业或非法用途,否则,一切责任由该用户承担 !

请求资源或报告无效资源,请点击[反馈中心>>]

电脑不给力运行不了?试试[高配云电脑>>]

常见问题一站式解决方案,点击进入解答区,随时为您解答![进入>>]


侵权删除请致信 E-Mail:2309931055@qq.com
已有0次打赏
(0) 分享
分享
取消