Python提取文本链接

    admin 千秋月 关注 管理组 LV20
    发表于程序代码版块 技术杂文
    代码:

    import re
    import os
    
    def extract_and_save_links():
        # 获取用户输入的文件路径
        input_path = input("请输入文本文件路径:").strip('"')  # 处理可能包含的引号
        
        # 验证文件是否存在
        if not os.path.exists(input_path):
            print("错误:文件不存在,请检查路径!")
            return
        
        # 读取文件内容
        try:
            with open(input_path, 'r', encoding='utf-8') as file:
                content = file.read()
        except Exception as e:
            print(f"读取文件出错:{str(e)}")
            return
        
        # 使用正则表达式提取所有http/https链接
        link_pattern = re.compile(r'https?://[^\s<>"]+|www\.[^\s<>"]+')
        links = link_pattern.findall(content)
        
        # 去重
        unique_links = list(set(links))
        
        # 如果没有找到链接
        if not unique_links:
            print("未在文件中找到任何链接!")
            return
        
        # 生成输出文件路径(同目录下)
        output_path = os.path.join(os.path.dirname(input_path), "去重链接.txt")
        
        # 写入文件
        try:
            with open(output_path, 'w', encoding='utf-8') as file:
                file.write("\n".join(unique_links))
            print(f"成功提取并保存 {len(unique_links)} 个唯一链接到:{output_path}")
        except Exception as e:
            print(f"写入文件出错:{str(e)}")
    
    if __name__ == "__main__":
        print("=== 链接提取工具 ===")
        print("功能:从文本文件中提取所有HTTP/HTTPS链接并去重")
        extract_and_save_links()
        input("\n按Enter键退出...")

    评论列表 评论
    发布评论

    评论: Python提取文本链接



    2026全面升级!对接公众号万级资源池 + 智能AI双驱动,速来体验! 外卖党必看!你吃外卖我买单!欢迎报名下单! AI人脸替换工具离线版,免费下载~ Image


    免责声明
    本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和研究目的 。 不得用于商业或非法用途,否则,一切责任由该用户承担 !

    请求资源或报告无效资源,请点击[反馈中心>>]

    电脑不给力运行不了?试试[高配云电脑>>]

    常见问题一站式解决方案,点击进入解答区,随时为您解答![进入>>]


    侵权删除请致信 E-Mail:2309931055@qq.com
    已有0次打赏
    (0) 分享
    分享
    取消