מערכות AI

איך שדרגתי את מערכת ה-AI שלי
מ-5.52 ל-8.10 תוך 4 ימים.
ומה שמצאתי בדרך הפחיד אותי

✍️ בן יעבץ 📅 1 אפריל 2026 ⏱️ קריאה של ~8 דקות

התחלתי כל שיחה עם 24% מהזיכרון כבר תפוס.

עוד לפני שכתבתי מילה אחת.

עוד לפני ששאלתי שאלה אחת.

הסוכן שלי קרא קבצים, עיכל הקשר, "התכונן". ואני ישבתי ממתין, לא יודע שהוא כבר עייף לפני שהתחלנו.

מה זה המערכת שאני מדבר עליה

לפני שממשיכים, שנייה של רקע לאלה שלא מכירים.

יש מערכת שנקראת ABC-TOM שפיתח תום אבן. זה סט של קבצים שיושבים בתוך Obsidian Vault שלך, ועוזרים לך לעבוד עם צוות שלם של סוכני AI: כל אחד עם תפקיד מוגדר, זיכרון, כישורים, וסגנון עבודה.

יש לך קופירייטר. יש לך שוער (Gatekeeper) שבודק איכות. יש לך חוקר, כותב ספרים, מורה, מנהל מערכות. כולם יושבים בקבצים. כולם פועלים דרך Claude Code.

זה לא chatbot. זה יותר קרוב לתוכנה. מערכת שמצברת ידע לאורך זמן, לומדת, מעדכנת עצמה.

אני עובד עם המערכת הזו כבר כמה חודשים. היא שינתה את הדרך שבה אני עובד.

אבל אחרי כמה חודשים, קלטתי שמשהו לא בסדר.

ה-24% שלא ידעתי עליהם

כתבתי הודעה בקבוצה של תום אבן:

"האם decisions.md ו-learning-log.md אמורים להיות כל כך גדולים? כי המערכת לא מצליחה אצלי לקרוא את הכל כשהיא עולה. אחרי כמה חודשים, ה-learning-log וה-decisions שלי הגיעו ל-21K ו-13K טוקנים. אני מתחיל כל שיחה עם 24% context window מלא."

לא ידעתי אם זה נורמלי. לא ידעתי אם ככה זה אמור לעבוד.

מה שידעתי: משהו מרגיש כבד.

החבר שפגשתי בסן דייגו שנתן לי את הרעיון

אלעד דסקל הוא חבר שהכרתי בכנס של Digital Marketer בסן דייגו לפני כעשור. אחד מהאנשים האלה שכשהם מדברים, שווה להקשיב.

הוא ראה את ההודעה שלי בקבוצה וכתב לי:

"אני מתחיל סשן חדש עם איזור ה-600-700 טוקנים עם מערכת סופר מורכבת. להתחיל עם 24% context זה מ-ל-א."

ואז הוא נתן לי שיטה: צא ל-Gemini ול-Claude (בצ'אט, לא ב-Code). בקש מהם לעשות Deep Research באתר של Anthropic. קח את שתי התוצאות. זרוק אותן ל-Claude Code. ובקש ממנו לבדוק מה הפערים בין מה שאנתרופיק אומרת שנכון, לבין מה שקורה בפועל במערכת שלך.

במילים אחרות: ללמוד ישירות מהמקור. ואז להצליב.

זה נשמע פשוט. ניסיתי.

מה הוצאתי מהמחקר

שלחתי את Claude ואת Gemini לאנתרופיק. ביקשתי מהם Best Practices בשני עולמות: Multi Agents Operation ו-Context Management.

מה שחזר הפתיע אותי.

לא בגלל שהמערכת שלי הייתה גרועה. היא לא הייתה גרועה. ציון 5.52 מתוך 10 על רובריקה מקצועית. זה "פונקציונלי, בסף התחתון של חזק".

מה שהפתיע אותי: לא ידעתי שיש רובריקה בכלל.

לא ידעתי שיש 10 ממדים שבהם מודדים מערכת רב-סוכנים. לא ידעתי שתצפיתיות היא ממד. שמסגרת הערכה היא ממד. שממשל ואבטחה הם ממד.

עבדתי עם המערכת כמו שעובדים עם מכונית: נכנסים ונוסעים. לא פותחים את המכסה. לא בודקים שמן.

מה שמצאתי כשפתחתי את המכסה הפחיד אותי

הגילוי הגדול לא בא מהמחקר.

הוא בא מבפנים.

קובץ אחד בשם CLAUDE.md. זה הקובץ שנטען בכל שיחה, שמסביר לסוכנים מה לעשות ואיך לעבוד. הוא אמור להיות קצר. ממוקד. הוראות הפעלה בלבד.

שלי הגיע ל-311 שורות. כמה מהן קראו הסוכנים בפועל? פחות ממחצית.

אבל זה לא מה שהפחיד אותי. מה שהפחיד אותי הוא הבנה אחת:

נתתי למערכת לעבוד לבד, ולא באמת עניין אותי מה קורה.

המערכת שמרה הוראות במקומות לא נכונים. כללים שנוספו לאורך זמן נגנזו בקבצים שהסוכנים לא קראו. הזיכרון תפח. ה-CLAUDE.md נתפח. ו-24% מחלון ההקשר נבלעו לפני שאמרנו שלום.

הבנתי שאני, בתור מפעיל המערכת, צריך להיות הרבה יותר מודע למה שהולך בה.

הרגע שהבנתי שזה עלי

חשבתי שהשדרוג יהיה פשוט. אמרתי לעצמי: אתן לסוכנים לעשות את זה. הם יסרקו. הם יזהו פערים. הם יתקנו. אני אאשר.

קיבלתי תוכנית עם 24 שיפורים. הרגשתי טוב.

ואז הפעלתי את Dave (Devil's Advocate) ואת Stuart (Strategist) לעבור על התוכנית.

הם מצאו שיפורים שיכולים ליצור נזק אמיתי אם מבצעים אותם בלי סדר נכון. שינוי קובץ ההגדרות שמפעיל את כל המערכת. ביצוע שגוי יכול לשבור את כל פרוטוקול תחילת השיחה. טעינה חכמה של הקשר: אם מיישמים לא נכון, הסוכנים מפסיקים לקרוא את הקבצים שצריכים.

הבנתי שאני חייב לעשות את זה בעצמי. שלב אחד. אישור. שלב הבא. אישור.

4 ימים: מה עשינו בפועל

4 ימים של שדרוג
מ-5.52 ל-8.10 — מה קרה בכל יום
29 מרץ 2026 יום 1 — הציון הראשוני + תוכנית 5.52
🔬
מחקר עומק — ChatGPT + Gemini + Claude על Best Practicesאתר Anthropic + צליבה מול המערכת הקיימת
📊
דירוג על 10 ממדיםגילוי: תצפיתיות 3.0 | מסגרת הערכה 2.0 | ממשל ואבטחה 3.0
⚠️
DA + Strategist בדקו את התוכניתתוצאה: 24 שיפורים, חייבים סדר מדויק
30 מרץ 2026 יום 2 — שלב א, שיפורים מהירים ומבניים ~6.57
🔐
שיפורים 1-2: הרשאות + קיצור CLAUDE.md311 שורות → 124. פחות רעש בכל פתיחת שיחה
🔄
שיפורים 4-7: גבולות לולאות, יומן ריצה, session logהגבלת סיבובים ל-3 בין כותב לגייטקיפר
🗂️
שיפורים 9-10: Git + יומן פעולות סוכנים1,071 קבצים הוסרו מ-tracking. כל סוכן רושם מה עשה
31 מרץ 2026 יום 3 — שלב ב + פרויקטים לא מתוכננים ~8.05
🗺️
מסמך ארכיטקטורה + תרשים ויזואלי 14 סוכניםלראשונה — תיעוד של "למה", לא רק "מה"
📋
מקרי בדיקה + מסגרת הערכהלראשונה ניתן לדעת אם המערכת השתפרה מחודש לחודש
🎯
Gary v3 — שותף עסקי במקום אינטגרטור גנריChief of Staff פוטר. הסמכויות עברו ל-Gary. 9 פרוטוקולים חדשים
🏷️
שמות + /commands — 13 סוכנים עם זהות מוגדרתGreta, Cory, Adam, Gary... פקודות /slash לכל אחד
1 אפריל 2026 יום 4 — אודיט Required Reading ~8.10
🎯
אודיט 13 קבצי סוכנים24% ← 19-20% context window בפתיחת שיחה
✂️
קבוצה א — 5 תיקונים ברוריםGary, Dave, Stuart, Rachel, Tom — הסרת קבצים מיותרים
🗂️
קבוצה ב — 6 שינויים ל-Load on DemandCory, Greta, Adam, Arthur, Thea, Knox — טבלות מיפוי

הפרויקטים שלא תוכננו

חלק מהדברים הכי טובים לא היו בתוכנית.

Gary הפך מאינטגרטור גנרי לשותף עסקי שמכיר אותי אישית. במהלך השדרוג הבנו שיש פונקציה במערכת שלא עשתה את עבודתה. Chief of Staff: סוכן שאמור לסנתז החלטות. בפועל הוא היה גנרי, ניטרלי, חסר אישיות. פיטרנו אותו. העברנו את הסמכויות ל-Gary.

מוסכמות השמות. לפני: כל הסוכנים היו ממוספרים ולא ברורים. אחרי: שמות אמיתיים עם לוגיקה. האות הראשונה בשם = האות הראשונה בתפקיד (Greta = Gatekeeper, Cory = Copywriter, Adam = Agent manager). 13 פקודות /slash command כדי לקרוא לכל אחד.

המערכת הפכה שלי. זה אולי הדבר הכי מוזר לכתוב. אבל יש רגע בתהליך שבו הרגשתי שהמערכת עברה ממשהו שמישהו אחר בנה, למשהו שהוא שלי. לא עוד תבנית שאני גר בה. בית שאני בניתי.

התוצאות

5.52
לפני
8.10
אחרי
ציון לפי ממד
לפני: 29 מרץ 2026  |  אחרי: 1 אפריל 2026
לפני
אחרי
ציון כולל
+2.58
24% context window בפתיחת שיחה ← 19-20%

מה למדתי

1. מערכת שעובדת לבד אינה מערכת שעובדת נכון.
הייתי בטוח שאם לא שמעתי שיחות — הכל בסדר. התברר שבשקט יש גדילה. קבצים מתנפחים. כללים נגנזים. Context נחסם. תשומת לב היא חלק מהתפקיד. לא אופציה.
2. ה-best practices קיימים. הם כתובים. פשוט לא קראתי אותם.
הכל היה באתר של Anthropic. 10 ממדים. עקרונות. המלצות. לא ידעתי לחפש, כי לא ידעתי שיש על מה לחפש.
3. "שינוי אחד בכל פעם" זה לא עצה. זה כלל קיום.
הרגע שביקשתי מה-DA לבדוק את התוכנית, הבנתי כמה שינויים יכולים לשבור אחד את השני. שדרוג מערכת AI זה כמו ניתוח. לא מחליפים שני איברים בו-זמנית.
4. חלק מהשיפורים הכי טובים לא היו בתוכנית.
כשמתחילים לפרק ולבנות מחדש, רואים דברים שלא ראו לפני. Gary v3. פיטורי Chief of Staff. המוסכמות. אלה לא היו ברשימה. הם צמחו מתוך ההליך.
5. המספר שתמיד דיברתי עליו עם לקוחות — עכשיו הוא שלי.
כל הזמן אני אומר ללקוחות: "מה שלא נמדד לא משתפר." המערכת שלי עבדה בלי שום מדד. עכשיו יש מסגרת הערכה, מקרי בדיקה, היסטוריית ציונים.

איך לעשות את זה בעצמך — שלב שלב

אם יש לך מערכת ABC-TOM ואתה משתמש בה כבר כמה חודשים:

1
מחקר (יום 1, כ-2-3 שעות)
פתח Claude.ai (בצ'אט, לא ב-Code). פתח Gemini. בקש מכל אחד Deep Research באתר Anthropic.com על "multi-agent best practices" ו-"context management". קח את שתי התוצאות. פתח Claude Code. כתוב: "יש לי מערכת רב-סוכנים. קרא את המחקר ובדוק מול המערכת שלי: מה הפערים?"
2
ציון עצמי (יום 1, שעה)
בקש מהמערכת לדרג עצמה מול 10 ממדים: עיצוב תפקידים, בהירות ארכיטקטורה, ניהול הקשר, ארכיטקטורת זיכרון, תקשורת בין סוכנים, אמינות וגידרות, תצפיתיות, היגיינת קבצים, ממשל ואבטחה, מסגרת הערכה. שמור את הציון. זה הבסיס שלך.
3
תוכנית מדורגת (יום 1-2)
לפני ביצוע, בקש מ-Devil's Advocate ומ-Strategist לעבור על התוכנית. שיגידו לך: איזה שינוי יכול לשבור שינוי אחר? המשימה: לסדר לפי "החזר מול סיכון". קל + ללא סיכון = קודם.
4
ביצוע (יום 2-4)
שלב אחד. בדיקה. שלב הבא. קודם: קצר את CLAUDE.md (מעל 200 שורות = בעיה). שני: בדוק כל סוכן — מה הוא קורא? האם הוא באמת צריך הכל? שלישי: הוסף יומן פעולות. רביעי: הוסף לוג שגיאות. חמישי: הגדר 10 מקרי בדיקה לכותב שלך.
5
סגירת לולאה
ציון חדש. השווה. לא כדי להרגיש טוב — כדי לדעת איפה להמשיך.
רוצה לדרג את המערכת שלך?

בניתי פרומפט מוכן שאפשר להדביק ישירות לקלוד. הוא שואל את כל השאלות הנכונות, מחזיר ציון ב-10 ממדים, ואומר לך בדיוק מה לתקן קודם.

הורד את כלי האבחון

מי צריך לעשות את זה

מי שיש לו מערכת ABC-TOM, ועבד איתה כמה חודשים לפחות.

לא מי שזה עתה רכש ומתחיל להתמצא. יש סדר: קודם לומדים לעבוד עם המערכת, אחר כך משדרגים אותה.

אבל אם אתה עובד עם המערכת כמה חודשים ולא פתחת פעם אחת קובץ כדי לבדוק מה בתוכו — כנראה שהגיע הזמן.

הציון שלי עלה מ-5.52 ל-8.10.

הזיכרון הפנוי שלי בתחילת שיחה עלה מ-76% ל-80-81%.

ה-Chief of Staff פוטר. Gary קיבל קידום. המערכת הפכה שלי.

ולראשונה מאז שהתחלתי לעבוד עם ABC-TOM, אני מרגיש שאני יודע מה קורה בה.

מתחיל עם ABC-TOM?

המערכת בנויה על הבסיס של תום אבן. אם עוד לא רכשת, ממליץ בחום.

לרכישת המערכת של תום אבן
קוד הנחה לחברים: dmlab
בן יעבץ
בן יעבץ
המעבדה לשיווק דיגיטלי
המאמר הזה תוכנן, נכתב ועוצב במלואו על ידי צוות הסוכנים שלי: Adam (תכנון ותיאום), Cory (כתיבה), Desi (עיצוב גרפי), תחת הכוונתי. הוכחה חיה לנושא שעליו כתבתי.