Hvordan Voynich Manuskripthemmeligheter Avsløres: En Undersøkelse - Alternativt Syn

Innholdsfortegnelse:

Hvordan Voynich Manuskripthemmeligheter Avsløres: En Undersøkelse - Alternativt Syn
Hvordan Voynich Manuskripthemmeligheter Avsløres: En Undersøkelse - Alternativt Syn

Video: Hvordan Voynich Manuskripthemmeligheter Avsløres: En Undersøkelse - Alternativt Syn

Video: Hvordan Voynich Manuskripthemmeligheter Avsløres: En Undersøkelse - Alternativt Syn
Video: Mystery of Senzar - Voynich manuscript decoded 2018 2024, Kan
Anonim

Hva som ligger bak de oppsiktsvekkende nyhetene om Voynich-manuskriptet og om russiske forskere, er det mulig å nøyaktig bestemme språket fra teksten, hvor adekvate matematikere er i arbeidet med "feltet" av lingvistikk.

19. april spredte russiske medier nyheter om den "epokegjørende" oppdagelsen av russiske matematikere: forskere som brukte den nye metoden, beviste ikke bare meningsverdigheten av det berømte "Voynich-manuskriptet", men klarte også å fastslå at den var skrevet på to språk og med unntak av bokstaver for vokaler.

Voynich-manuskriptet er et illustrert manuskript fra middelalderen kjøpt i 1912 av antikvaren Wilfred Voynich. Opprettet på 1400-tallet (basert på radiokarbonanalyse av pergament - men de fleste forskere anser for tiden ikke selve teksten som en senere forfalskning), den er skrevet på et ukjent språk ved hjelp av et ukjent alfabet. Bedømt av illustrasjonene består teksten av tematiske blokker: botaniske, astronomiske, farmakologiske og andre. Kompleksiteten med å dekode teksten gjorde Voynich-manuskriptet til den “hellige gral” for kryptografer og gjenstand for mange studier, inkludert de som bruker Big Data-metoder.

Nyheten om manuskriptet ble rapportert som noe oppsiktsvekkende. Dette vakte umiddelbart bekymring. “Før det mislyktes alle forsøk på å tyde et unikt dokument og til og med bare å forstå om det er en meningsfull tekst. 600 år med unyttig innsats!.. Kryptografer fra CIA og NSA, superdatamaskiner og til og med leger med "okkulte vitenskaper" signerte deres fullstendige impotens. Det siste innlegget fra kryptolog Gordon Rugg fra Keele University i Storbritannia lyder: “Voynich manuskriptet er en falsk. En slik "kompleks tekst" er lett å konstruere for alle som er kjent med enkle kopieringsmetoder, "sa artikkelen.

For det første ble meningens betydning anerkjent tilbake på 1970-tallet og flere ganger bekreftet i studier av 2010-tallet, som ble skrevet om i tilstrekkelig detalj selv i innenlandske medier. For det andre ble oppdagelsen som ble sendt til nyhetene kun presentert i form av et instituttopptrykk, og ikke i en artikkel i et internasjonalt fagfellevurdert tidsskrift (fortrykket ble også publisert tilbake i 2016).

Disse underlige tingene i presentasjonen av materialet tvang oss til å søke avklaringer først fra forfatteren av studien, og deretter til uavhengige eksperter - lingvister som jobber med statistiske og matematiske metoder, samt med dekoding av gamle skrifter.

Det er enkelt å skrive en formel, men det er veldig dyrt å utføre numerisk analyse

Kampanjevideo:

Først kort om essensen av studien. Forfatterne av fortrykket, matematikere fra Moskva institutt for fysikk og teknologi og Institutt for anvendt matematikk fra det russiske vitenskapsakademiet, stoler på deres verk, ifølge hvilke "frekvensfordelingen av tekstsymboler er en stabil karakteristikk, ikke for forfatteren eller emnet for teksten, men for språket." Det vil si at ved hjelp av et sett ved hjelp av matematiske verktøy er det mulig å bestemme hvilket språk det er skrevet på grunn av det faktum at hvert språk har sin egen karakteristiske "profil" (distribusjon av Hurst-eksponenten). Videre, ved å ta disse metodene som grunnlag, fant forskerne at teksten til manuskriptet var skrevet på en blanding av flere språk. Samtidig ble falske mellomrom lagt til, og symbolene som angir vokallyder ble fjernet.

Hovedforfatteren av studien, Yuri Orlov (IPM RAS og MIPT), understreket at Voynich-manuskriptet ikke er det viktigste målet for deres arbeid. "Det" sensasjonelle "manuskriptet er bare en illustrasjon av den matematiske metoden for å gjenkjenne språk fra tekst - et problem faktisk for maskinlæring," sa Orlov.

Manuskriptet i seg selv er absolutt ikke interessant for oss. Vitenskap refererer spesifikt til statistikken over språk. Gjennom det kan vi forstå på hvilket språk dette manuskriptet er skrevet. Men ikke det som står der, dette er et viktig poeng. - Yuri Orlov. MIPT og Institute of Applied Mathematics oppkalt etter M. V. Keldysh

Når det gjelder den språklige metoden som brukes i arbeidet, bemerker Orlov at analysen av frekvensen av bokstavkombinasjoner i selve teksten er en velkjent ting. Imidlertid er Hurst-indikatoren dårlig kjent for språkforskere, siden det er vanskelig å beregne selv i matematiske termer. Formelen i seg selv er enkel å skrive, men numerisk analyse er veldig kostbar. For dette er superdatamaskinen som ligger ved instituttet oppkalt etter M. V. Keldysh, understreker matematikeren.

Valget av indoeuropeiske språk for analyse forklares med at de alle er veldig like, sier Orlov. Indikatorer utviklet av matematikere gjør det enkelt å skille språk innenfor samme språkgruppe, men ikke mellom familier. Det er selvfølgelig teoretisk mulig å utføre det samme arbeidet med andre grupper (Ural, Altai eller andre), men verdien av analysen ligger i dens fullstendighet, er Orlov sikker. Når det gjelder indoeuropeiske språk, er det ikke vanskelig å skrive et korps med tekster for hvert språk; det er vanskeligere å gjøre det med andre familier.

Når han kom tilbake til Voynich-manuskriptet, bemerket Orlov at han og hans kolleger siterte fem bevis (den logaritmiske profilen til frekvensrekkefølgen for bokstaver i teksten på ett og flere språk, fordelingen av Hurst-eksponenten, det spektrale portrettet av matrisen med betingede sannsynligheter og andre) av hypotesen om blandingen av språk i manuskriptet og slettingen. bokstaver for vokaler. De tar tydelig avstand fra "hangoutet rundt manuskriptet", men presenterte et unikt resultat - en åpen metode, statistisk analyse med en vurdering av pålitelighet som kan verifiseres uavhengig.

Konklusjonen avskrives av det faktum at vi ikke forstår hvilket materiale de har avledet og hva de sjekket formelen deres

Selve antagelsen om at teksten i Voynich-manuskriptet er blottet for bokstaver for vokaler, med feil mellomrom er vakker og god, bemerker språkforskeren Evgenia Korovina, som er engasjert i matematisk språkstatistikk (Institute of Linguistics, Russian Academy of Sciences). Tidligere var det ingen som fremmet en slik hypotese. Hun forklarer for eksempel vakkert hvorfor det er færre bokstaver enn det som forventes for en europeisk tekst. Men problemet er at forfatterne av studien ikke en gang angav hvilke tekster på forskjellige språk de sammenlignet og hva som var volumet på disse testene. Et stort antall språk er nevnt i fortrykket. Derfor er ikke studien reproduserbar: hvis du tar vilkårlige tekster på de samme språkene, er det ikke et faktum at de samme mønstrene kommer ut.

Maria Molina, en spesialist i korpusmetoder i studiet av eldgamle språk (Institute of Linguistics, RAS), er enig med Korovina. Nye metoder for behandling av språklige data er, etter hennes mening, med på å skaffe informasjon om hva som tidligere var stengt for språkforskere. Imidlertid miskrediterer dårlig tilberedt innspill ofte de fineste databehandlingsteknikkene.

Konklusjonen avskrives av det faktum at vi ikke forstår på hvilket materiale de tegnet og på hva de sjekket formelen deres. For mitt materiale vet jeg helt sikkert at det er en liten metodefeil - og jeg får kritisk forskjellige tall. - Maria Molina. Institutt for lingvistikk RAS

"Garbage in - garbage out", - legger til Molina (GIGO er et prinsipp innen informatikk som betyr at feil inngangsdata vil resultere i feil resultater, selv om selve algoritmen er korrekt, - merk Indicator. Ru).

Statistiske metoder er fortsatt hint om resultater, ikke resultater

Albert Davletshin (ansatt ved Center for Linguistic Comparative Studies ved Institute for Comparative Studies ved det russiske statsuniversitetet for humaniora, studerer maya- og polynesiske språk) snakket enda mer skarpt. Hvis forfatterne av fortrykket ikke skulle tyde Voynich-manuskriptet, hvorfor gjør de det da? Og videre, hvis vi snakker spesifikt om avkodingen av en ukjent skrift, oppstår spørsmål etter spørsmål: “Det er ingen innledende data om skriving - hvilken type bokstav? Hvordan oppnås de forskjellige transkripsjonene? Hvor mange karakterer? Hva ligger til grunn for eksisterende antakelser om skrivets natur? Hva er lengden på et ord atskilt med mellomrom og uten mellomrom? Hva betyr mellomrom? Hvor stor er ordboken? Hva er forholdet mellom signaturer og tegninger?

Først viser det seg at teksten er dansk og bare dansk (og dette er historisk umulig, som det ikke er et ord om i verket). Så viser det seg at teksten er på to ukjente språk (bekreftelse på dette stadiet viser seg å være umulig og er tatt på tro). Videre er det mange konservative måter å vise at to (store) sider er skrevet med en bokstav, men på forskjellige språk, uten å ty til komplekse matematiske modeller. Til slutt, hvis vokaler fjernes fra teksten, hvor mye bekreftes dette av standard, kjente metoder (for eksempel av Sukhotin, Shevoroshkin og Ventris)?"

Davletshin kritiserer også ufølsomheten for filologi og historie, som er karakteristisk for denne typen forskning:

Det jeg ser i teksten: det er ofte mennesker som ønsker å ta kilde X og glemme at det er en kilde og eksisterer i noe historisk, inkludert språklig, kontekst, og på en eller annen måte teller noe i det. Hypotesen om at det er mer enn ett språk i et manuskript er interessant. Men du kan på en eller annen måte vise det menneskelig. Statistiske metoder er fremdeles hint om resultater, ikke resultater. -Albert Davletshin. Center for Linguistic Comparative Studies IVKA RSUH

Det er ikke noe kriterium for å skille interessante resultater fra forferdelige

En mer balansert posisjon ble inntatt av Georgy Starostin, en ekspert på komparativ historisk lingvistikk (RSUH). Han var mer interessert i hvor nyttige nye matematiske metoder er for å løse problemer som språkforskere står overfor. “Modellen som presenteres i artikkelen gir et merkelig inntrykk. På den ene siden ser det ut til å tilhøre kategorien "blind", og analysere tekstdata uten noen foreløpige vurderinger om strukturen til alfabetet (for eksempel bør grafer, som det engelske ch, sh, betraktes som kombinasjoner av to bokstaver, selv om dette faktisk er en lyd). På den annen side kastes vokaler ut av de sammenlignede strengene, som ifølge forfatterne av teksten inneholder mindre informasjon og heller gir støy. Generelt er testbasen veldig liten, det er umulig å snakke om noe grunnleggende på så mange språk."

Resultatene av sammenligningen av indoeuropeiske og uralske språk, presentert i sammenligningstabell 3 i artikkelen, inspirerer ikke til særlig optimisme i Starostin. Noen indikatorer på graden av språk nærhet fanges godt inn (for eksempel intra-germanske eller intra-romanske forbindelser), noen dårlig (for eksempel identifiserer metoden ikke lenger den indoeuropeiske familien). Det viktigste er at det ikke er noe kriterium for å skille interessante resultater fra forferdelige. I beste fall gjør metoden det mulig å skille ut små språklige grupper (selv om det ikke fungerer her mellom nært beslektede finske og estiske), men alle disse gruppene kan identifiseres pålitelig uten den.

Tabell 3 fra fortrykket, som presenterer resultatene som sammenligner indoeuropeiske og uralske språk. Samme farge i tabellen. Tre grupper av språk identifiseres som er parvise nær (i betydningen L1-normen for fordelingen av ordnede frekvenser i tekster uten vokal). Noen uventet nære språkpar er merket med rødt, for eksempel tysk / ungarsk, engelsk / estisk, latin / baskisk og gresk / finsk. Preprint forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabell 3 fra fortrykket, som presenterer resultatene som sammenligner indoeuropeiske og uralske språk. Samme farge i tabellen. Tre grupper av språk identifiseres som er parvise nær (i betydningen L1-normen for fordelingen av ordnede frekvenser i tekster uten vokal). Noen uventet nære språkpar er merket med rødt, for eksempel tysk / ungarsk, engelsk / estisk, latin / baskisk og gresk / finsk. Preprint forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabell 3 fra fortrykket, som presenterer resultatene som sammenligner indoeuropeiske og uralske språk. Samme farge i tabellen. Tre grupper av språk identifiseres som er parvise nær (i betydningen L1-normen for fordelingen av ordnede frekvenser i tekster uten vokal). Noen uventet nære språkpar er merket med rødt, for eksempel tysk / ungarsk, engelsk / estisk, latin / baskisk og gresk / finsk. Preprint forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Til slutt, å bestemme den genetiske egenskapen til et språk ved distribusjon av Hurst-eksponenten, er en interessant ide og kanskje til og med brakt til et vitenskapelig punkt. Men dette vil kreve behandling av et stort antall tekster på forskjellige språk. Og problemet oppstår umiddelbart: mange språk er uskrevne, og hvor riktig det er å sammenligne de alfabetiske opptakssystemene med fonetiske transkripsjoner er fortsatt uklart. Det vil være veldig lite praktisk sans fra denne ideen, er Starostin sikker på. I beste fall kan det virkelig brukes på hendelser som Voynich-manuskriptet, når det er en hypotese om at noe språk med standard alfabetisk skrift er kryptert i henhold til visse prinsipper (for eksempel med sletting av vokaler osv.). Imidlertid er det svært få slike hendelser i verden.

Oppsummering

Hva er i bunnlinjen? Diskusjonen rundt IPM- og MIPT-undersøkelsen avdekket en dyp kløft mellom det språklige samfunnet (til og med de som bruker statistiske metoder) og "utenforstående" angående lingvistespesialister som bestemte seg for å bruke sine matematiske verktøy på språkmateriale.

Det at matematikere ikke ønsker å samarbeide med lingvister, gir ikke bare grove feil, som deretter migrerer til media (for eksempel kalles det baskiske språket i fortrykket indoeuropeisk, det er uttrykket "vokalbokstaver"). Skjønnheten til modellene og beregningskraften til superdatamaskiner blir devaluert av feil ved inngangspunktet. Igjen, med ønsket og åpenhet om kontakter med kolleger fra en annen disiplin, kunne disse feilene lett unngås.

Se selve Voynich-manuskriptet.

Anbefalt: