Skip to content

wangjushi/XHS-Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

小红书数据分析系统说明文档

本项目是一个用于小红书(Xiaohongshu)公开数据采集、语义分析与可视化检索的实验性系统,由三个核心模块组成。所有代码仅用于技术研究与学习目的

📂 项目结构

1. xhs_crawler — 爬虫模块

  • 功能:负责从小红书平台抓取公开的笔记(帖子)及其评论数据。

  • 2. xhs_semantic_service — 语义分析服务后台

  • 功能:提供 RESTful API 接口,对爬取的评论文本进行情感分析、关键词提取、主题聚类等自然语言处理(NLP)任务。

  • 3. xhs-search-frontend — 前端展示界面

  • 功能:用户友好的 Web 界面,支持按关键词、情感倾向、时间范围等条件搜索和浏览评论分析结果。


⚠️ 免责声明(重要)

本项目及相关代码严格遵守法律法规与平台使用条款,开发者与使用者须知悉并同意以下条款:

  1. 非官方性质 本项目与小红书(Xiaohongshu)及其运营公司(行吟信息科技有限公司)无任何关联,非其官方产品、插件或授权工具。
  2. 仅限合法合规用途 所有数据采集行为仅针对平台公开、可被搜索引擎索引的内容,不得用于:
  • 获取用户隐私信息(如手机号、地址、私信等);
  • 进行商业监控、竞品打压、虚假流量制造等不正当竞争行为;
  • 侵犯他人知识产权或肖像权。
  1. 遵守《网络安全法》与《数据安全法》 使用者须确保其行为符合中华人民共和国相关法律法规,不得将本项目用于非法数据收集、传播或牟利。
  2. 遵守小红书《用户协议》与《Robots 协议》 请务必查阅小红书官网公布的 robots.txt 及用户协议。若平台明确禁止自动化访问,则应立即停止使用本工具。
  3. 风险自担 因使用本项目导致的任何法律纠纷、账号封禁、IP 封锁或经济损失,开发者不承担任何责任。使用者需自行评估并承担全部风险。
  4. 禁止滥用 严禁将本项目用于大规模高频请求、DDoS 测试、数据倒卖、训练商用 AI 模型等行为。建议设置合理请求间隔(如 ≥3 秒/次),避免对服务器造成压力。
  5. 学术研究引用规范 若用于学术论文或研究报告,请明确标注数据来源为“小红书公开内容”,并注明本项目仅为辅助工具,不得暗示小红书官方支持或背书

📌 温馨提示:网络爬虫技术具有双刃剑属性。请始终秉持“尊重平台、保护隐私、合法合规”的原则使用本项目。技术应服务于理解与创新,而非侵犯与滥用。


© 2025 本项目开发者。保留所有权利。

About

小红书爬虫 笔记 评论 用户 小红书号 评论分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors