Synteettiset verkot voivat lisätä joidenkin tietojen saatavuutta samalla kun suojataan yksilöllistä tai institutionaalista yksityisyyttä.
"Olen kiinnostunut kehittämään menetelmiä, jotka mahdollistaisivat laajemman luottamuksellisten tietojen jakamisen tavalla, joka voi auttaa tieteellisessä löytämisessä", sanoi Aleksandra Slavkovic, tilastotieteen professori ja tutkijakoulutuksen dekaani, Eberly Science of Penn State. "Tavoitteena on jakaa luottamuksellisia tietoja, joilla on mahdollisimman vähän määrällistä riskiä arkaluonteisten tietojen löytämiseksi ja silti varmistaa tilastollinen tarkkuus ja eheys."
Slavkovic on löytänyt ratkaisuja tähän tietosuojaongelmaan monitieteisissä yhteistyössä, erityisesti tietokone- ja yhteiskuntatieteilijöiden kanssa. Hänen tutkimuksensa keskittyy erilaisiin tietoihin, kuten verkkotietoihin, jotka keräävät suhdetietoja yksittäisten henkilöiden tai laitosten välillä. Hän kertoi lähestymistapansa tarjota synteettisiä verkostoja, jotka täyttävät tänään erilaista yksityisyyden suojaa (helmikuu 16) Amerikan tiedeyhteisön yhdistyksen (Washington, DC) vuoden 2019 vuosikokouksessa.
Eri yksityisyys tarjoaa matemaattisesti osoitettavissa olevan takuun yksityishenkilöiden yksityisyyden heikkenemisestä.
Tiedemiehet haluavat pääsyn muiden keräämiin tietoihin tutkimuksestaan, mutta tällainen käyttö voi myös vaarantaa henkilökohtaisen yksityisyyden, vaikka niin kutsutut henkilökohtaiset tiedot olisi poistettu.
"Suurin osa ylimääräisistä tiedoista on tärkein syyllinen," sanoi Slavkovic. "Tietojen keräämisessä ja tallenteissa tapahtuvan metodologisen ja teknologisen kehityksen, helpomman pääsyn erilaisiin tietolähteisiin, jotka voitaisiin yhdistää tietokantaan, ja rahoituslaitosten vaatimuksiin tietojen jakamiseksi, tietosuojaan liittyvät riskit lisääntyvät. ratkaisut yksityisyyden häviämisen hallintaan ovat välttämättömiä tieteellisen tieteellisen löytämisen mahdollistamiseksi. "
Esimerkiksi HIV-lääkkeestä tehdystä lääkekokeesta julkisesti saatavilla olevat tiedot osoittavat, kuka oli hoitoryhmässä ja joka oli kontrolliryhmässä. Hoitoryhmä sisältäisi vain HIV: llä diagnosoidut henkilöt ja vaikka tietojen omistajat pidättivät henkilötietoja kyseisestä tietokokonaisuudesta, tietyt tunnistetiedot pysyisivät. Koska sosiaalisen median ja muiden tietokokonaisuuksien verkossa on saatavilla niin paljon tietoa, on mahdollista liittää pisteitä ja tunnistaa ihmisiä, jotka voivat paljastaa HIV-asemansa.
"Tekniikat kahden tietosarjan yhdistämiseksi, eli äänestäjien tietueet ja sairausvakuutustiedot, ovat parantuneet huomattavasti", Slavkovic sanoi. "Yhdessä varhaisimmista havainnoista Latanya Sweeny (nyt Harvardissa) osoitti, että yhdistämällä tällaiset tiedot voit tunnistaa 87 prosenttia USA: n väestönlaskennasta vuodesta 1990 lähtien niiden syntymäajan, sukupuolen ja 5-numeroisen perusteella. Viime aikoina tutkijat käyttivät tweettejä ja niihin liittyviä Twitter-metatietoja osoittamaan, että he voivat tunnistaa käyttäjät 96,7 prosentin tarkkuudella. "
Slavkovic toteaa, että tietokannoissa ei ole vain ihmisiä tai laitoksia, vaan tietokannan ulkopuoliset ihmiset voivat myös kärsiä yksityisyyden hyökkäyksestä suoraan tai yhdistämällä. Tietojen ja sosiaalisen median tietojen väliset yhteydet saattavat johtaa vakavaan yksityisyyden suojaan - esimerkiksi HIV-aseman tai seksuaalisen suuntautumisen kaltaisella tavalla voi olla vakavia seurauksia, jos ne paljastuvat.
Vaikka yksityisyys on tärkeää, kerätyt tietokannat muodostavat tutkijoille olennaisen tietolähteen. Tällä hetkellä tietyissä tapauksissa, joissa tiedot ovat poikkeuksellisen arkaluonteisia, tutkijoiden on fyysisesti siirryttävä tietovarastoihin tutkimaan, mikä tekee tutkimuksesta vaikeampaa ja kalliimpaa.
Slavkovic on kiinnostunut verkkotiedoista. Tiedot, jotka osoittavat ihmisten tai laitosten yhteenliitettävyyden - solmut - ja solmujen väliset yhteydet. Hänen lähestymistapansa on luoda hieman muuttuneita, peilattuja verkkotietokokonaisuuksia, joissa muutama solmu on siirretty, yhteydet siirtyneet tai reunat muuttuneet.
"Tavoitteena on luoda uusia verkostoja, jotka täyttävät tiukat yksityisyyden suojavaatimukset ja samalla keräävät suurimman osan tilastollisista piirteistä alkuperäisestä verkosta", sanoi Slavkovic.
Nämä synteettiset aineistot saattavat riittää joidenkin tutkijoiden tarpeisiin tutkimustarpeidensa tyydyttämiseksi. Toisten osalta riittää, että testataan niiden lähestymistavat ja hypoteesit ennen kuin he tarvitsevat mennä tallennuspaikkaan. Tutkijat voivat testata koodia, tehdä tutkimustutkimusta ja ehkä perusanalyysiä odottaessaan lupaa käyttää alkuperäisiä tietoja säilytyspaikallaan.
"Emme voi tyydyttää kaikkia tilastollisen analyysin vaatimuksia samantyyppisillä muutetuilla tiedoilla," sanoi Slavkovic. "Jotkut ihmiset tarvitsevat alkuperäisiä tietoja, mutta toiset saattavat mennä pitkälle synteettisten tietojen, kuten synteettisten verkkojen, kanssa."
