מיזם 'עיתונות יהודית היסטורית' לקח על עצמו את המשימה להעלות על הרשת עיתונים יהודים שפורסמו ברחבי העולם מן המאה ה-18 ואילך. כפי שניתן להבחין, מדובר בכותרת כוללנית מאד המובילה לשאלה המתבקשת: מהו עיתון יהודי? האם מדובר בעיתון שיועד לקהל קוראים יהודי? האם זה עיתון שעסק בעניינים 'יהודיים' (עם כל הקושי בלהגדיר מהם בדיוק אותם עניינים)? עד כמה נכללים עיתונים מקומיים או סקטוריאליים תחת קטגוריה זו? עד כמה נכללים עיתונים שלא יועדו במקור לקהל הרחב?
התשובה לשאלה זו – ולשאלות נוספות שניתן לשאול בהקשר של הגדרת עיתון כיהודי – היא שהקריטריון העיקרי לסיווג עיתון כיהודי הוא עובדת כתיבתו והוצאתו לאור על ידי עורכים וכותבים יהודיים. מטבע הדברים כאשר הן העורכים והן הכותבים הם יהודיים ענייני הקהילה ימצאו את דרכם לתוך עמודי העיתון, אך בד בבד עיתונים אלה משופעים גם בנושאים שונים ומגוונים בהתאם לקבוצת הגיל וקהל היעד אליו היה מיועד העיתון במקור. עיתונות יומית, עיתונות מקומית, עיתונות סקטוריאלית, עיתונות מפלגתית, עיתוני ילדים, עיתוני נוער, עיתונות מוסדית – כל אלה נכללים תחת המטרייה הרחבה של הגדרתנו את המושג 'עיתונות יהודית', ובלבד שאלה נכתבו ונערכו על ידי כותבים יהודיים. אותה מטרייה רחבה מאפשרת לנו להציע הן לציבור הרחב והן לקהילת המחקר מגוון גדול של תכנים בהתאם להעדפות ונושאי העניין של כל אחד ואחת, ומבלי להגביל מראש את רוחב היריעה.
ניתן לסווג את המידע הנגיש באוסף בכמה אופנים שונים. להלן חלוקה אחת אפשרית:
העובדה שהעיתונים המרוכזים באתר זה הם עיתונים מן העבר צריכה להנחות את המשתמש בביצוע חיפוש. ארבעה דגשים עיקריים להם צריך המשתמש לשים לב הם:
מכיוון ששפות אינן דבר סטטי אלא נוטות להשתנות לאורך הזמן ניתן לצפות כי חלק מהמילים נכתבו בעבר בצורה שונה בהשוואה לכתיב המקובל היום. התופעה המתוארת בולטת במיוחד בעיתונות העברית של המאה ה-19 והיא נובעת, בין היתר, מכך שהשפה בעיתונות זו הושפעה, לעתים, מן הכתיב של שפת היידיש – בפרט כאשר מדובר היה במלים לועזיות, שמות פרטיים ושמות משפחה לא עבריים, וכן שמות מקומות.
להלן מספר דוגמאות ממחישות. המילה 'פרנק' (מטבע), שהיום בדרך כלל נכתבת ללא א' לאחר ה-ר' בעבר נכתבה 'פראנק' בהשפעת הכתיב היידי. כך שחיפוש הערך 'פרנק' (בהקשר של מטבע) בעיתונים מהמאה ה-19 יניב מספר קטן יחסית של תוצאות. דוגמא נוספת יכולה לשמש המילה 'גנרל' המציינת, כידוע, דרגה צבאית בכירה. אם נקליד את המילה בהתאם לאיות המקובל בעברית של ימינו ('גנרל') נקבל מספר קטן מאד של תוצאות, אולם אם נקליד אותה בהתאם לכללי הכתיב של שפת היידיש – דהינו 'גענעראל' – נקבל מספר רב של תוצאות. יש מקרים בהם מקובל היה בשלבים מסוימים לכתוב את המילה באופן מסוים בעוד שבשלבים מאוחרים יותר עברו לכותבה באופן שונה. כך, למשל, המילה 'קונגרס' נכתבה בהתאם לכתיב היידי ('קאנגרעס') עד לשנות ה80 של המאה ה19 ואחרי כן החלו לכותבה כפי שמקובל בימינו. לאור כל האמור מומלץ להקליד את מילות החיפוש הן כפי שהיה נהוג לכותבן בעבר והן כפי שמקובל בימינו – מה שיגרום לקבלת כמות מירבית של תוצאות.
ההבדלים באיות התבטאו גם בחילופי אותיות הקרובות זו לזו באופן הגייתן – ט' ות', ז' וס', א' וה', כ' וק', ס' וש' וכדומה. גם במקרה זה בלטה התופעה במיוחד כאשר צוינו מלים לא עבריות וכן שמות מקומות. כך, לדוגמא, העיר פריס נכתבה בעיתונות המאה ה19 בלא פחות משלושה אופנים – 'פאריז', 'פאריס' ו'פאריש' (ולעתים היא נזכרת כ'פריז', 'פריס' או 'פריש'); האימפריה העות'מנית נכתבה ברוב הפעמים כ'טירקיא' 'טורקיא' 'טירקיה' או 'טורקיה'; אולם לעתים גם בתור 'תורכיה' 'תירכיא' 'תורכיה' או 'תורכיא'; יבשת אסיה צוינה כ'אזיען' אולם לעתים גם כ'אסיא' 'אזיא' 'אסיה' ו'אזיה'; ואילו המילה 'אוניברסיטה' אויתה אמנם כמעט תמיד כפי שמקובל בימינו אולם מספר פעמים היא צוינה גם כ'אוניברזיטה'.
לא רק האיות משתנה לאורך השנים, גם שמות של מקומות, מוסדות וארגונים נתונים לשינויים. שמות של מדינות וערים הם רגישים במיוחד לשינויים, הן בגלל שינויים של גבולות והן בגלל רצון להיבדל מהעבר. כך, לדוגמא, חלק גדול משטח מדינת גרמניה של ימינו כונה בעבר 'פרוסיה' על שם הממלכה הדומיננטית בשטח זה. לפיכך, מומלץ לאדם המחפש כתבות הקשורות לאזור זה לחפש את שני הערכים כדי לקבל את מירב התוצאות הרלוונטיות. בנוסף, בחיפושים בעברית מומלץ לבצע את החיפוש הן בהתאם לאופן כתיבת המלים בימינו ('פרוסיה' 'גרמניה') והן כפי שהיה מקובל לכותבן בעבר בהשפעת השפות האירופיות והכתיב היידי ('פרוסיא' 'פרייסען' 'גרמניא' 'דייטשלאנד' וכדומה). דוגמא נוספת היא העיר איסטנבול (השוכנת בתורכיה). עד שנת 1930 היה שמה קונסטנטינופול ולכן חיפוש של הערך 'איסטנבול' בעיתונים שלהם גיליונות עד שנה זו לא יניבו תוצאות כלל, בעוד שחיפוש הערך 'קונסטנטינופול' או 'קאנסטאנטינאפול' יניב תוצאות לא מעטות.
המקרה של איסטנבול יכול לשמש דוגמא לתופעה נוספת - מנהגם של יהודים לכנות ערים שונות בכינויים מיוחדים, כינויים אלו היו שגורים רק בפי היהודים בעוד ששכניהם הנוכרים כלל לא השתמשו בהם. איסטנבול כונתה בפי היהודים 'קושטא' ויש עוד לא מעט דוגמאות לתופעה הזו, שמן הראוי שנהיה מודעים לה בבואנו לבצע חיפושים טקסטואליים. דוגמאות נוספות: גרמניה כונתה לעתים 'אשכנז', עיראק כונתה 'בבל', תורכיה כונתה 'תוגרמה' (ולפעמים 'תוגרמא') ואילו ירושלים מופיעה בחלק לא מבוטל מהמקרים בתור 'ירושלם' ללא י' לאחר הל'.
תופעה נוספת שמן הראוי להצביע עליה הינה ההבדלים בין המינוח אשר רווח בעיתונות המאה ה-19 לבין זה של ימינו. השפה בעיתונות זו הושפעה הן מאוצר המלים של הלשונות האירופיות, והן מזה של המקורות העבריים המסורתיים – התנ"ך, התלמוד, סידור התפילה וכדומה. כפועל יוצא מהשפעת הלשונות האירופיות נמצא פעמים רבות שימוש במילים לועזיות. כך, לדוגמא, המילה אנטישמיות נכתבה לעתים 'אנטיסמיטיסם', וכדי לציין את ערכי התקופה המודרנית השתמשו לא אחת במונח 'ציוויליזאציאן (ציוויליזציה בעברית של ימינו)' . גם שמות של ארצות נכתבו, בחלק מהמקרים, בשפה לועזית. כך, לדוגמא, 'צרפת' נכתבה אמנם ברוב המקרים כפי שמקובל כיום אולם לצד זאת היא נזכרת פעמים לא מעטות בתור 'פראנקרייך', יוון נזכרת בתור 'גריכענלאנד', ואילו גרמניה, כפי שכבר ציינו, מופיעה בחלק לא מבוטל מהמקרים כ'דייטשלאנד'. מנגד, כדוגמאות להשפעת המקורות העבריים המסורתיים על לשון העיתונות ניתן להזכיר מונחים כגון 'השר היושב ראשונה במלכות' אשר שימש לציון 'ראש הממשלה' וכן את המונח 'חופש ודרור' אשר בו השתמשו לשם ציון המילה 'דמוקרטיה'.
בנוסף לשינויים לאורך השנים ישנם הבדלים התלויים בשפות שצריכים להנחות את החיפושים בעיתונים. שמות של מקומות, מוסדות וארגונים עשויים להשתנות כאשר עוברים משפה לשפה. כך לדוגמא כאשר אדם מחפש בעיתונים באנגלית על המחתרות בישראל עליו להיות מודע להבדלים בכינויים שלהם בין שתי השפות. לאצ"ל (ארגון צבאי לאומי) לרוב קראו באנגלית בפשטות Irgun. ואילו לארגון הלח"י (לוחמי חירות ישראל) קראו באנגלית 'The Stern Gang' ('הכנופיה' של שטרן – על שם אברהם שטרן).
המיזם מעודד הצטרפות מוסדות ואוספים לפיתוח האתר. ההצטרפות יכולה להיעשות במספר דרכים:
פיתוח מדור
האתר מתחלק למדורים לשוניים-תרבותיים, אזוריים וכרונולוגיים, כגון העיתונות העברית במאה ה-19 והעיתונות היהודית בארצות ערב. בכוונתנו לפתח מדורים נוספים: כגון העיתונות ביידיש, העיתונות היהודית באנגלית, בלדינו, ועוד. נקבל בברכה הצטרפות לפיתוח מדור נרחב מסוג זה והמתאימה בדרך-כלל למוסד ציבורי או אקדמי, או לקרן. השותפות תצוין באופן בולט במדור ובכל תוצאות החיפוש שייערכו בו, וכן בדף הבית וברשימת הקרדיטים.
פיתוח תת-מדור ארצי
מדורים רבים יכללו במסגרתם עיתונים יהודים שיצאו לאור בארצות שונות. לדוגמה, המדור לעיתונות יהודית בארצות ערב מכיל בשלב ראשון עיתונים ממרוקו וממצרים. בכוונתנו ליצור בתוך המדורים תת-מדורים לעיתונות הארצית. נקבל בברכה הצטרפות לפיתוח תת-מדור המתאים בדרך-כלל לארגונים קהילתיים-ארציים או לתורמים בעלי עניין בקהילה מסוימת. השותפות תצוין באופן בולט בתת-המדור ובכל תוצאות החיפוש שייערכו בו, וכן ברשימת הקרדיטים.
העלאת עיתון באתר
האתר מקבל בברכה תרומה לשם הכנסת עיתון מסוים או קבוצת עיתונים לאתר. תרומה כזו מתאימה במיוחד לבעלי עניין בעיתונים והיא עשויה לשמש למטרות הנצחה. כמו כן, לאלה שטרם בחרו את העיתון שברצונם להעלות: בידי אתר 'עיתונות יהודית היסטורית' רשימה ארוכה של עיתונים, מתוכם ניתן לבחור על פי העדפות אישיות או מוסדיות: ארץ או עיר הפרסום, סוג העיתון (יומון, ילדים, מפלגתי), תדירות (יומי, שבועי, חודשי) והיקף הפרסום (מספר עמודים כולל). שם התורם ו/או מטרת ההנצחה תצוין באופן בולט בדף העיתון ובכל תוצאות החיפוש שייערכו בו.
תרומת עיתונים נדירים
האתר מקבל בברכה תרומת עיתונים נדירים וחומרים נוספים הנוגעים לעיתונות היהודית ולתולדותיה. תרומות מסוג זה יופנו בדרך-כלל לספרייה הלאומית, ובמקרים מיוחדים לשותפים האחרים במיזם.
תרומה כללית
האתר יקבל בברכה כל תרומה אחרת, שתוכל לסייע בפיתוחו ולקדם את מטרותיו.
להצטרפות למעגל השותפים בפיתוח האתר בכל דרך שהיא ניתן לפנות דרך האתר או בדואר, בכתובת הבאה:
פרופ' ירון צור,
עיתונות יהודית היסטורית
אוניברסיטת תל אביב
תל אביב 69978
שתי טכנולוגיות עיקריות עומדות בבסיס מהפכת המחשוב של טקסטים, קרי, בהפיכת חומר מודפס על נייר לקובץ דיגיטאלי (או, כפי שהיא מכונה בשפה מקצועית – דיגיטציה של טקסטים):
סריקה משמעותה 'צילום' של חומר מודפס והפיכתו לקובץ תמונה פשוט. במובן זה סריקת ציור וסריקת טקסט מניבה את אותו תוצר מפני שהמחשב אינו יכול להבחין שבמקרה השני מדובר בטקסט. לשם כך קיימת טכנולוגיית זיהויי הכתב (OCR) שמאפשרת להפוך קובץ תמונה שקיים בו מלל לקובץ טקסט פשוט בר חיפוש. זה נעשה באמצעות זיהוי דפוסים של נקודות בתמונה כאותיות בתוך מילים. שתי הטכנולוגיות הללו (סריקה וזיהוי כתב) הן וותיקות יחסית: טכנולוגיית הסריקה יושמה בהצלחה עוד בסוף שנות ה-50 של המאה ה-20 ואילו בטכנולוגיות של זיהוי כתב נעשה שימוש מסחרי משנות ה-60 של אותה מאה. אך שתי הטכנולוגיות התפתחו רבות במהלך השנים והתוכנות המיישמות אותן יודעות היום להתמודד עם מגוון גדול של שפות ושל גופנים (סוגי האותיות). כמו כן אחוז הזיהוי לגבי כל שפה ושפה עלה בצורה משמעותית בשנים האחרונות, ובהינתן שאיכות החומר המקורי והסריקה הם טובים – ניתן להגיע לזיהוי של למעלה מ-90 אחוז.
במעבר מדיגיטציה של טקסטים פשוטים (כגון מכתבים או מסמכים רשמיים) לעיתונים עולה חשיבותה של טכנולוגיה שלישית:
סגמנטציה משמעותה חלוקת העמוד הסרוק למקטעים הלוגיים השונים שמרכיבים אותו. בפרט, כשמדובר בעמוד עיתון סגמנטציה היא חלוקת הדף לכתבות השונות הקיימות בתוכו. ללא חלוקה זו עמוד העיתון מהווה את יחידת החיפוש הקטנה ביותר וסידור תוצאות חיפוש ייעשה על פי כמה פעמים המושג אותו חיפשנו מופיע בתוך העמוד. מובן מאליו שזוהי שיטה בעייתית לסידור תוצאות מכיוון שבעיתון יחידת המידע הבסיסית אינה העמוד אלא הכתבה, שעשויה לקחת חלק קטן מהעמוד ואף עשויה להמשך ליותר מעמוד אחד. בזכות טכנולוגיית הסגמנטציה, תחום בו חברת "אוליב-תוכנה" היא מהמובילות, יכול המשתמש לקבל תוצאות חיפוש בצורה של הכתבות המקוריות ומידת הרלוונטיות של כל כתבה למילים עליהן בוצע החיפוש.
סריקת העיתון נעשית מאחד משלושת המקורות האפשריים: נייר, מיקרופילם או מיקרופיש, כאשר המאמץ הוא למצוא את העותק הטוב ביותר מבחינת איכות הכתב, והשלם ביותר מבחינת מצאי של גיליונות. זוהי אינה משימה קלה כלל מכיוון שעיתונים נמצאים בתהליך מתמיד של שחיקה והתפוררות. במובן הזה מאמצי הסריקה של חומר ארכיוני ובפרט עיתונים היסטוריים הוא חלק ממשימת הצלה של המידע, שאחרת עלול לאבד לנצח.
שתי הטכנולוגיות הנוספות – הזיהוי והסגמנטציה – פועלות כאשר תוכנת Active Paper מעבדת את העמודים הסרוקים לכדי גרסאות אלקטרוניות של העיתון. שלב זה שהוא ברובו אוטומטי כולל זיהוי כל המרכיבים של הכתבה, שהיא כאמור היחידה הבסיסית של העיתון:
בתוך כל מרכיב מזוהה הכיתוב שלו ולכיתוב זה ניתנת הרלוונטיות המתאימה. כך לדוגמא כאשר אנחנו מחפשים ערך מסוים (כגון שם) המערכת תיתן עדיפות לכתבות בהן אותו ערך מופיע בכותרת על פני כתבות אחרות בהן אותו ערך מופיע בגוף הכתבה.
התוצר של שלב העיבוד הוא אוסף רב של קבצים שמהווים את הגרסה האלקטרונית של הפרסום. כל כתבה מורכבת מקבצי תמונה של הכתבה המקורית ומקבצי טקסט של המלל המזוהה על ידי ה-OCR. מה שרואה המשתמש כאשר הוא צופה בכתבה הוא למעשה תמונה שלה, ואילו המלל המזוהה מוצב 'מאחורי' אותה תמונה. בהצגת העיתונים נעשה שימוש בטכנולוגיה של XML) Extensible Markup Language) מה שמאפשר נדידה עתידית של החומר לפלטפורמות אחרות.
הגם ששלוש הטכנולוגיות העיקריות שנעשה בהם שימוש (סריקה, OCR וסגמנטציה) הן טכנולוגיות בשלות ואף ותיקות, הן אינן מושלמות. הן הזיהוי של הטקסט והן הזיהוי של הסגמנטציה אינם ברמה של 100% וככל שאיכות החומר הולכת ויורדת כך יורד אחוז הזיהוי. מכיוון שאתר 'עיתונות יהודית היסטורית' עוסק בעיתונים מהעבר, ולפעמים אף מהעבר הרחוק, אנו נאלצים להתמודד עם תופעות שונות שמאיימות להכשיל את תהליך הזיהוי. תופעות כגון איכות דפוס ירודה (המאפיינת פרסומים קדומים), נייר מצהיב, מריחות בהדפסה המקורית, גופנים ייחודיים לפרסום, עמודים קרועים, עמודים מקושקשים ואף עמודים מכורסמים על ידי מזיקים.
מגבלות הטכנולוגיה המצטרפות למגבלות חומר הגלם איתו אנו עובדים מתבטאות בפועל בשתי תופעות בהן עשוי להיתקל המשתמש: טעויות זיהוי של מילים וטעויות סגמנטציה. טעויות זיהוי של מילים מופיעות או בצורה של מילים קיימות שלא זוהו, או בצורה של מילים שזוהו בצורה שגויה. במקרה הראשון המשתמש יראה שקיימת מילה מסוימת בכתבה אך בחיפוש היא לא עולה. במקרה השני המשתמש יראה שהמילה שזוהתה אינה זהה למילה שהוא חיפש. שני המקרים הם תופעות ידועות וצריכות להילקח בחשבון על ידי המשתמש. בפועל, למרות מגבלה זו, הסיכוי למצוא ערכים אינו נפגע בצורה משמעותית מפני שלרוב ערך יופיע יותר מפעם אחת בכתבה ולפיכך גם אם נעשתה שגיאת זיהוי בפעם הראשונה שהערך מופיע בכתבה, ישנם סיכויים טובים שבפעם השנייה הזיהוי יצליח והכתבה תעלה ברשימת תוצאות החיפוש.
התופעה השנייה שהמשתמש עשוי להיתקל בה היא טעויות של סגמנטציה. כאן הדבר יתבטא באחד משני אופנים: זיהוי של כמה כתבות יחד ככתבה אחת, או זיהוי של כתבה אחת ככמה כתבות שונות. ככלל, טעויות סגמנטציה הן פחות קריטיות מטעויות זיהוי מילים מכיוון שהן אינן מונעות מציאת כתבות המתאימות למושג שמחפשים אלא רק עשויות לשבש את סדר התוצאות. נוספת לכך אי נוחות מסוימת הנוצרת מהצורך לגשת לעמוד המלא של העיתון ולזהות את המשך הכתבה. ככלל, אתר 'עיתונות יהודית היסטורית' עושה את מירב המאמצים כדי לצמצם כמה שיותר הן את טעויות הזיהוי והן את טעויות הסגמנטציה.
לסיכום, יש לזכור שהחיפוש בעיתונים נעשה בסביבה של טקסט חופשי, מה שאומר שכאשר ערך מסוים אינו מעלה תוצאות חיפוש או מעלה מספר קטן שלהם, יש סיכוי סביר שהאיות של הערך אינו מדויק. דבר זה עשוי להתרחש בגלל טעות פשוטה באיות, או בגלל שבעבר אייתו את הערך בצורה שונה.