Yandex לימדה רשתות עצביות לפענח רשומות ארכיון באיות מורכב
Miscellanea / / April 03, 2023
כתבי יד היסטוריים, שקשה לאדם לנתח, מומרים כמעט מיד על ידי בינה מלאכותית לטקסט מודפס.
Yandex השיקה שירות חדש בשם Archive Search, המשתמש ברשתות עצביות כדי לפענח רשומות ארכיון באיות מורכב לפני המהפכה.
השירות מספק גישה ליותר מ-2.5 מיליון עמודים של מסמכים היסטוריים עם תמלול טקסט. האלגוריתם שלו, שנבנה על בסיס מערכת זיהוי תווים אופטית, לוקח בחשבון את המוזרויות של כתב היד, מזהה אותיות שאיבדו את הרלוונטיות שלהן ומבין את המבנה המיוחד של מסמכי ארכיון.
מומחי החברה הכשירו את הרשת העצבית על מערך נתונים של מאות אלפי שורות בכתב יד מטקסטים אמיתיים של המאות ה-18-19 ועשרות מיליוני דוגמאות שנוצרו.
כתבי יד שקשה לנתח לאדם לא מוכן, טכנולוגיית Yandex הופכת כמעט מיד לטקסט מודפס. הודות לכך במאגר השירות של השירות ניתן למצוא במהירות מסמכים עם ציון שם משפחה, יישוב או כל מילה אחרת.
"חיפוש בארכיונים" יגביר את יעילות עבודתם של היסטוריונים, סוציולוגים, דמוגרפים, גנאלוגים ויסייע למי שמחפש מידע על משפחתם.
הקרן הראשונה שהוצגה בשירות הייתה הארכיון הראשי של מוסקבה - על החומרים שלה אימנו המפתחים את הרשת העצבית. המאגר מכיל גם מסמכים מהארכיונים של אזורי אורנבורג ונובגורוד. עם הזמן, מספר האחסון והקבצים הסרוקים הזמינים יגדלו.
אתה יכול לחפש חומרים מהמאה ה-18 - תחילת המאה ה-20, הפופולריים ביותר בקרב משתמשים. מדובר בפנקסי קהילה, דפי וידוי וסיפורי תיקון עם תוצאות מפקד האוכלוסין. ניתן למצוא מסמכים בקטלוג או דרך שורת החיפוש. ישנם מסננים לפי שנים, ארכיונים, קרנות ומלאי.
לצד הסריקה של כל עמוד, מוצג פענוח שורה אחר שורה שנעשה על ידי רשתות עצביות. אם תרחף מעל הפרגמנט הרצוי, הוא יודגש מיד בעותק הדיגיטלי.