fix: remove heavy unused deps (jieba/tiktoken) to prevent Render OOM

calderbuild · calderbuild · commit b5f1ca5b08db · 2026-02-26T14:09:35.000+08:00
- Remove jieba (~150MB) from seo_content.py; extract_keywords() was never called
- Replace tiktoken (~80MB) with UTF-8 byte estimation in app/llm.py
- Remove 6 dead dependencies: jieba, tiktoken, redis, websockets, beautifulsoup4, markdown2
- Fix keep-alive workflow: add continue-on-error + || true so cold starts don't fail the job
diff --git a/.github/workflows/keep-alive.yml b/.github/workflows/keep-alive.yml
@@ -13,27 +13,30 @@ jobs:
     timeout-minutes: 2
     steps:
       - name: Ping Health Endpoint
+        continue-on-error: true
         run: |
-          response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/health)
+          response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/health || true)
           echo "Health check response: $response"
           if [ "$response" != "200" ]; then
             echo "Warning: Health check returned non-200 status"
           fi
 
       - name: Ping Sitemap (SEO critical)
+        continue-on-error: true
         run: |
-          sitemap_response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/sitemap.xml)
+          sitemap_response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/sitemap.xml || true)
           echo "Sitemap response: $sitemap_response"
 
       - name: Ping Sitemap as Googlebot (simulate crawler)
+        continue-on-error: true
         run: |
-          # Simulate Googlebot to ensure server responds to Google's crawler
           googlebot_response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 \
             -H "User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" \
-            https://meetspot-irq2.onrender.com/sitemap.xml)
+            https://meetspot-irq2.onrender.com/sitemap.xml || true)
           echo "Sitemap (Googlebot UA) response: $googlebot_response"
 
       - name: Ping Robots.txt
+        continue-on-error: true
         run: |
-          robots_response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/robots.txt)
+          robots_response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 30 https://meetspot-irq2.onrender.com/robots.txt || true)
           echo "Robots.txt response: $robots_response"
diff --git a/api/services/seo_content.py b/api/services/seo_content.py
@@ -8,48 +8,10 @@
 from functools import lru_cache
 from typing import Dict, List
 
-import jieba
-import jieba.analyse
-
 
 class SEOContentGenerator:
     """封装SEO内容生成逻辑."""
 
-    def __init__(self) -> None:
-        self.custom_words = [
-            "聚会地点",
-            "会面点",
-            "中点推荐",
-            "团队聚会",
-            "远程团队",
-            "咖啡馆",
-            "餐厅",
-            "图书馆",
-            "共享空间",
-            "北京",
-            "上海",
-            "广州",
-            "深圳",
-            "杭州",
-            "成都",
-            "meeting location",
-            "midpoint",
-            "group meeting",
-        ]
-        for word in self.custom_words:
-            jieba.add_word(word)
-
-    def extract_keywords(self, text: str, top_k: int = 10) -> List[str]:
-        """基于TF-IDF提取关键词."""
-        if not text:
-            return []
-        return jieba.analyse.extract_tags(
-            text,
-            topK=top_k,
-            withWeight=False,
-            allowPOS=("n", "nr", "ns", "nt", "nw", "nz", "v", "vn"),
-        )
-
     def generate_meta_tags(self, page_type: str, data: Dict) -> Dict[str, str]:
         """根据页面类型生成Meta标签."""
         if page_type == "homepage":
diff --git a/app/llm.py b/app/llm.py
@@ -1,7 +1,6 @@
 import math
 from typing import Dict, List, Optional, Union
 
-import tiktoken
 from openai import (APIError, AsyncAzureOpenAI, AsyncOpenAI,
                     AuthenticationError, OpenAIError, RateLimitError)
 from openai.types.chat import ChatCompletion
@@ -38,12 +37,9 @@ class TokenCounter:
     HIGH_DETAIL_TARGET_SHORT_SIDE = 768
     TILE_SIZE = 512
 
-    def __init__(self, tokenizer):
-        self.tokenizer = tokenizer
-
     def count_text(self, text: str) -> int:
-        """Calculate tokens for a text string"""
-        return 0 if not text else len(self.tokenizer.encode(text))
+        """Estimate tokens for a text string using UTF-8 byte length."""
+        return 0 if not text else len(text.encode("utf-8")) // 3
 
     def count_image(self, image_item: dict) -> int:
         """
@@ -197,13 +193,6 @@ def __init__(
                 else None
             )
 
-            # Initialize tokenizer
-            try:
-                self.tokenizer = tiktoken.encoding_for_model(self.model)
-            except KeyError:
-                # If the model is not in tiktoken's presets, use cl100k_base as default
-                self.tokenizer = tiktoken.get_encoding("cl100k_base")
-
             if self.api_type == "azure":
                 self.client = AsyncAzureOpenAI(
                     base_url=self.base_url,
@@ -213,13 +202,13 @@ def __init__(
             else:
                 self.client = AsyncOpenAI(api_key=self.api_key, base_url=self.base_url)
 
-            self.token_counter = TokenCounter(self.tokenizer)
+            self.token_counter = TokenCounter()
 
     def count_tokens(self, text: str) -> int:
-        """Calculate the number of tokens in a text"""
+        """Estimate the number of tokens in a text using UTF-8 byte length."""
         if not text:
             return 0
-        return len(self.tokenizer.encode(text))
+        return len(text.encode("utf-8")) // 3
 
     def count_message_tokens(self, messages: List[dict]) -> int:
         return self.token_counter.count_message_tokens(messages)
@@ -576,41 +565,41 @@ async def ask_with_images(
                 )
 
             # Handle non-streaming request
-            if not stream:
-                response = await self.client.chat.completions.create(**params)
-
-                if not response.choices or not response.choices[0].message.content:
-                    raise ValueError("Empty or invalid response from LLM")
-
-                self.update_token_count(
-                    response.usage.prompt_tokens, response.usage.completion_tokens
-                )
-                return response.choices[0].message.content
-
-            # Handle streaming request
-            response = await self.client.chat.completions.create(**params)
-
-            collected_messages = []
-            completion_text = ""
-            async for chunk in response:
-                chunk_message = chunk.choices[0].delta.content or ""
-                collected_messages.append(chunk_message)
-                completion_text += chunk_message
-                print(chunk_message, end="", flush=True)
-
-            print()  # Newline after streaming
-            full_response = "".join(collected_messages).strip()
-
-            if not full_response:
-                raise ValueError("Empty response from streaming LLM")
-
-            completion_tokens = self.count_tokens(completion_text)
-            logger.info(
-                f"Estimated completion tokens for streaming response with images: {completion_tokens}"
-            )
-            self.update_token_count(input_tokens, completion_tokens)
-
-            return full_response
+            if not stream:
+                response = await self.client.chat.completions.create(**params)
+
+                if not response.choices or not response.choices[0].message.content:
+                    raise ValueError("Empty or invalid response from LLM")
+
+                self.update_token_count(
+                    response.usage.prompt_tokens, response.usage.completion_tokens
+                )
+                return response.choices[0].message.content
+
+            # Handle streaming request
+            response = await self.client.chat.completions.create(**params)
+
+            collected_messages = []
+            completion_text = ""
+            async for chunk in response:
+                chunk_message = chunk.choices[0].delta.content or ""
+                collected_messages.append(chunk_message)
+                completion_text += chunk_message
+                print(chunk_message, end="", flush=True)
+
+            print()  # Newline after streaming
+            full_response = "".join(collected_messages).strip()
+
+            if not full_response:
+                raise ValueError("Empty response from streaming LLM")
+
+            completion_tokens = self.count_tokens(completion_text)
+            logger.info(
+                f"Estimated completion tokens for streaming response with images: {completion_tokens}"
+            )
+            self.update_token_count(input_tokens, completion_tokens)
+
+            return full_response
 
         except TokenLimitExceeded:
             raise
diff --git a/environment.yml b/environment.yml
@@ -33,13 +33,11 @@ dependencies:
   # 日期处理
   - python-dateutil=2.9.0
 
-  # SEO相关依赖
+  # pip依赖
   - pip
   - pip:
-      - jieba==0.42.1          # 中文分词（conda-forge暂无）
       - whitenoise==6.6.0      # 静态文件服务
       - slowapi==0.1.9         # API限流
-      - markdown2==2.4.12      # Markdown解析
 
   # 系统工具（可选，提升开发体验）
   - git
diff --git a/requirements.txt b/requirements.txt
@@ -11,25 +11,19 @@ python-multipart==0.0.20
 loguru==0.7.3
 tomli==2.4.0
 python-dateutil==2.9.0
-jieba==0.42.1
 whitenoise==6.6.0
 slowapi==0.1.9
-markdown2==2.4.12
 asgiref==3.8.1
 requests==2.32.3
-beautifulsoup4==4.12.3
 sqlalchemy==2.0.23
 alembic==1.13.0
 aiosqlite==0.19.0
 python-jose[cryptography]==3.3.0
 passlib[bcrypt]==1.7.4
-redis==5.0.1
-websockets==12.0
 
 # Environment
 python-dotenv==1.2.1
 
 # LLM/AI Dependencies
 openai>=1.0.0
-tiktoken>=0.5.0
 tenacity>=8.2.0