Yardım mektupları n gram için program. N-gram. n-gramların belirlenmesi için yöntemler

Algoritmalar bilinmeyen metinleri aramak için kullanılır ve örneğin metin editörlerinde, belgeleri gözden geçirme programlarında veya geriye doğru arama yapmak için web tarayıcılarında aranabilir. Koku, metnin ileriye doğru işlenmesini ihmal etmez ve kesintisiz bir veri akışı ile çalışabilir.

Satır arama

Giriş metninden bir sonraki satıra kadar verilen ölçümleri (örneğin, Levenshtein ölçümleri) takip etmeniz yeterlidir. Borsalardan değişen metriklerle bu yöntem, işin optimum hızına ulaşmanızı sağlar. Ale with tsimu chim daha fazla k, Tim daha fazla zbіshuetsya çalışma saati. Saat için asimptotik tahmin O(kn).

Bitap (Shift-Or veya Baeza-Yates-Gonnet olarak da bilinir, Wu-Manber olarak bu yoga modifikasyonu)

algoritma bitap Bu çeşitli modifikasyonlar en çok dizin oluşturmadan bulanık aramalar için kullanılır. Bu varyasyon, örneğin, standart grep'e benzer şekilde işlev gören, ancak aynı zamanda şok başına isteğin affından ve düzenli ifadeleri yakalama fırsatını ortaya çıkaran unix-yardımcı agrep'te muzafferdir.

İlk olarak, hulklar tarafından hangi algoritmanın yayıldığı fikri Ricardo Baeza-Yatesі Gaston Gonnet, 1992'de ikinci makalesini yayınladı.
Algoritmanın orijinal versiyonu yalnızca sağdaki sembolleri değiştirerek değiştirilebilir ve aslında sayısını hesaplar. kenar kıvırma. Ale trishki pіznіshe güneş wuі Udi Manber para miktarını hesaplamak için hangi algoritmanın değiştirilmesini talep etti Levenştayn, Daha sonra. bir ek ve vidalene alt kümesi getirdiler, agrep yardımcı programının ilk sürümünü yoga temelinde geliştirdiler.






Ortaya çıkan değer

De k- bir sürü af, J- sembol indeksi, S x - sembol için maske (maskelerde, birer birer, girişte verilen sembolün konumlarına karşılık gelen konumlara yerleştirilirler).
Zbіg аbo razbіzhnіst zaputu, ortaya çıkan vektör R'nin kalan biti tarafından belirlenir.

Bit paralelliğinin hesaplanması için robotik algoritmanın yüksek hızı sağlanır - bir işlem için bir kerede 32'den fazla biti hesaplamak mümkündür.
Uygulamanın önemsiz olduğu kişiler için 32'den fazla olmalıdır. Standart tipin genişliği int(32 bit mimarilerde). Büyük çok yönlülük türleri kazanabilir, ancak robotun algoritmasını da geliştirebilirsiniz.

Bunlardan bağımsız olarak, robotik algoritmanın asimptotik saati O(kn) Böyle bir doğrusal yöntemle zbіgaєtsya, vin, uzun talepler ve af sayısı ile önemli ölçüde shvidshe k 2'den fazla

testuvannya

3.2 milyon kelimelik metinler üzerinde test yapılmıştır, ortalama kelime sayısı 10'dur.
Doğru Poşuk
Poshuk saati: 3562 ms
Levenshtein metriğine referanslar için Poshuk
Bir şaka saati k=2: 5728 ms
Bir şaka saati k=5: 8385 ms
Wu-Manber modifikasyonları ile Bitap algoritma ince ayarlarını arayın
Bir şaka saati k=2: 5499 ms
Bir şaka saati k=5: 5928 ms

Bitap algoritmasına dayalı olarak farklı ölçütlerin basit bir şekilde sıralanmasının çok sayıda af için kullanılabileceği açıktır. k.

Tim, sanki büyük yeminin yakın metinlerinde bir şakadan bahsediyormuş gibi, o zaman bir saatlik bir şaka önemli ölçüde hızlandırılabilir, bu tür bir metnin önünü soymak da denir. indeksleme.

İndeksleme için Bulanık Arama Algoritmaları (Çevrimdışı)

Özellikle dizinleme için bulanık aramadaki tüm algoritmalar, dizinin sözlüğün arkasında, gerçek metnin veya herhangi bir veri tabanındaki kayıtların listesinin arkasına katlandığı algoritmalardır.

Algoritmalar vikoristovuyut problemin çözümüne farklı yaklaşımlar - kesin arama için bazı vikoristovuyut zvedennya ve daha fazla vikoristovuyut güç metrikleri farklı yapı genişliklerini vb. teşvik eder.

Nasampered, öncelikle bir sonraki metin için, metinde o yoga pozisyonunun sözlerinin intikamını alacak bir kelime dağarcığı olacak. Arama sonuçlarının kalitesini artırmak için kelimelerin ve kelime öbeklerinin sıklığını da iyileştirebilirsiniz.

Dizinin tıpkı bir sözlük gibi tamamen bir bilmece tarafından büyülendiği söylenir.

Sözlüğün taktik ve teknik özellikleri

  • Harici metin - Moshkov kitaplığında (lib.ru) 8,2 gigabayt malzeme, 680 milyon kelime;
  • Sözlük genişletme - 65 megabayt;
  • Kelime sayısı - 3,2 milyon;
  • Bir kelimenin orta düzinesi 9,5 semboldür;
  • Bir kelimenin ortalama ikinci dereceden uzunluğu (bazı algoritmaları değerlendirirken temel olabilir) - 10.0 sembol;
  • Alfabe - E olmadan A'dan Z'ye büyük harfler (bazı işlemleri basitleştirmek için). Alfabede olmayan sembollerin yerine geçen kelimeler sözlükte yer almaz.
Genel metindeki sözlük genişletme yanılgısı kesinlikle doğrusal değildir - sözleşmenin sonuna kadar, 500 bin kelime için% 15, 5 milyon için% 5'e kadar olan kelimelerin temel çerçevesi oluşturulur ve ardından nadas lineer yaklaşır, ilno azalır ve 6 milyon sliv'de %0,5'e kadar ulaşır. Büyümenin birikiminden uzak, nadide sözler yardımıyla zenginlere sahip çıkın.

Seçimi genişletmek için algoritma

Bu algoritma genellikle yazım denetimi sistemlerinde (yani, yazım denetimi "ah" da) bulunur, orada kelime hazinesi küçüktür, aksi takdirde işlenebilirlik ana kriter değildir.
Bulanık arama ile ilgili problemin başlangıcından tam arama ile ilgili probleme kadar.

Harici talepten, anonim aflar olacak, cilt koruması için daha sonra sözlükle tam bir arama yapacağız.

Bir saatlik yoga çalışması, k sayısına uzanmak ve A alfabesinin genişlemesini beklemek ve ikili bir sözlük araması durumunda:

Örneğin, ne zaman k = 1 Ve anlamsız af kelimelerinden oluşan Rus alfabesindeki dozhini 7'nin (örneğin, "Timsah") kelimeleri 450'ye yakın olacaktır, bu nedenle sözlüğe 450 kelime eklemek gerekir ki bu genellikle kabul edilebilir.
Ali zaten geride k = 2 rozmіr böyle bir çarpan 115 binden fazla seçenek haline geliyoruz, bu da küçük bir kelime dağarcığını veya zihnimizde 1/27'yi çözmenize izin verecek ve o zaman çalışma saati harika olacak. Eğer öyleyse, bu tür kelimelerin dış görünüşü için sözlükten tam kelimeyi aramak gerektiğini unutmamak gerekir.

özellikler:
Algoritma, belirli kurallara göre af seçenekleri oluşturmak için kolayca değiştirilebilir ve bundan önce, sözlüğün ileriye dönük işlenmesini ve açıkçası ek belleği umursamaz.
Olası iyileştirmeler:
Tüm kişisel olmayan "pardon" kelimelerini oluşturmak mümkün değildir, ancak yalnızca en güçlü olanlar gibi gerçek bir durumda kullanılabilirler, örneğin, geliştirilmiş yazım afları ve kümeleri olan kelimeler.

Bu buluş yöntemi uzun süredir uygulanmaktadır ve en yaygın kullanılan yöntemdir, bu nedenle uygulanması son derece basittir ve iyi üretkenlik sağlar. Algoritma şu ilkelere dayanmaktadır:
"Bir sürü af düzenlemek için A kelimesi B kelimesiyle birleştirilirse, o zaman büyük bir sıklıkla büyük bir dozhini N'ye sahip olmak isteyeceklerdir."
N'ye kadar sipariş sayısı ve N-gram olarak adlandırılır.
İndeksleme saati altında kelime bu tür N-gramlara bölünür ve ardından kelime skin s ve N-gram listelerine alınır. Bir saat boyunca, arama ayrıca N-gramlara bölünür ve bunlardan cilt, böyle bir diziyi temizlemek için kelime listesinin müteakip bir numaralandırması gerçekleştirilir.

Uygulamada çoğu zaman vikoristovuvanimi є trigramlar - pіdryadki dovzhini 3. Vybіr bolshy znachennya N, daha fazla af gösterilebiliyorsa, kelimenin minimum süresinde obezhennya'ya yol açar.

özellikler:
Algoritma N-gram, af ile tam obsyazі mozhlivі kelimeleri bilmek. Örneğin, VOTKA kelimesini alın ve yogayı trigramlara yayın: İÇİNDE T KA → Ses T profesyonel TÖnce T KA - hepsinin T'nin affını aldıklarını hatırlayabilirsiniz. Bu sıralamada "ŞEHİR" kelimesi bilinmeyecek, kırıklar bu trigramlarla aynı intikamı almayacak ve listeleri vodpovidni їm ile geçirmeyecek. Bu sıralamada, yenide ne kadar az dozhina kelime ve ne kadar çok af varsa, listelerin son N-gramlarına kadar harcanmama ve sonuç alınamama olasılığı daha yüksektir.

Aynı zamanda, N-gram yöntemi, yeterli yetki ve katlama ile üst düzey metriklerin seçimi için son alanı doldurur ve ardından bunun için ödeme yapmanız gerekir - bu varyasyonla, ardışık sıralama ihtiyacı yakındır. kelime dağarcığının% 15'ine kadar, gu.

Olası iyileştirmeler:
N-gramların hash tablosunu bir kelimedeki N-gramların son kelimesine ve konumuna göre ayırabilirsiniz (değişiklik 1). Shukany kelimesinin bir düzinesi gibi, bu zapoza daha fazla yükseltilemez k ve bir sözcükteki N-gramların konumları yalnızca k ile değiştirilebilir. Ayrıca, sadece tabloyu yeniden doğrulamak, kelimedeki N-gramların konumlarını değiştirmek ve zliva tablosunu ve sağ elini kullanan tobto k tablosunu yazmak gerekli olacaktır. hepsinden 2k+1 Susidni tabloları.

Çarpanı gözden geçirmek, tabloları önceki kelimelere göre bölmek ve benzer bir sıralamada sadece mahkemeleri incelemek için gerekli kelime sayısını yine değiştirebilirsiniz. 2k+1 tablolar (değişiklik 2).

Bu algoritma Boytsov L.M. "Heshuvannya z imzası". Şarap, hash tablosunda bir hash (imza) olarak kazanan, bit sırası açısından kelimenin açıkça verilen "yapısına" dayanmaktadır.

İndeksleme yapılırken, bu tür hash'ler dermal hash'e kadar sayılır ve hash'in kelime dağarcığına göre tabloya girilir. Ardından, bir saat boyunca, istek için karmanın hesaplanmasını ve hafta sonu sayılan diğer tüm karmaların sıralanmasını isteyeceğim, bunlar k bitten daha düşük değil. Bu tür dermal karmalar için, ilgili kelimelerin listesi sıralanır.

Hash hesaplama işlemi - hash'in cilt bitine alfabeden bir grup sembol atanır. Bit 1 konumunda Ben karma, gerçek kelimenin z sembolüne sahip olduğu anlamına gelir i-inci grup alfabesi. Bir kelimedeki harflerin sırası kesinlikle anlamsızdır.

Bir karakteri görmek veya karma değerini değiştirmemek (sözcüklerde olduğu gibi, alfabenin bu gruplarından karakterler dışarıda bırakılmıştır) veya diğer bit grubu 0 olarak değişecektir. Benzer şekilde, bir bit eklenirken, 1 veya değişiklik yok yapmayacağım. Sembolleri değiştirirken, her üç şey de daha daraltılabilir - hash değişmeden kalabilir veya 1 veya 2 konumda değişebilir. Aynı değişiklikleri yeniden düzenlerken, daha önce işaretlendiği gibi karma değiştirildiğinde sembollerin sırası tersine çevrilmediğinden, dikkate alınmazlar. Bu sırada, k affın tam kapsamı için en azını değiştirmek gerekir. 2k hash biti

Ortada k “eksik” (eklemeler, uzak ve yer değiştirmeler ve değişikliklerin küçük bir kısmı) aflarla bir saatlik çalışma:

özellikler:
Ayrıca bir karakter değiştirilirken iki bit aynı anda değiştirilebilir, örneğin uygulayan algoritma bir kerede 2 bitten fazlasını gerçekleştirmez, aslında sayı nedeniyle toplam sonucu göremiyoruz. rakamlar (alfabeye hash'e göre biriktirme) kelimelerin iki yer değiştirmeli parçaları (ve hash genişletmesi ne kadar büyükse, sembolün değiştirilmesi o kadar sık ​​yaratılmadan önce iki bite yol açar ve sonuç daha az tekrarlanır) . O zamana kadar, bu algoritma önek aramalarına izin vermiyor.

BK ağaçları

ağaç Burkhard-Kellerє metrik ağaçlar, bu tür ağaçlar için algoritmalar, tricutnik'in eşitsizliğini gösteren metriğin gücüne dayanmaktadır:

Tsya gücü, metriklerin yeterli genişliğe sahip metrik genişlikler oluşturmasına izin verir. Böyle bir metrik uzay obov'yazkovo є değil öklid, örneğin, metrikler Levenştaynі Damerau-Levenshtein yatıştırmak Öklid olmayan uzay. Bu otoritelere dayanarak, Barkhard-Keller ağacı olan böyle bir metrik uzay için bir his yaratan veri yapısı indüklenebilir.

polipshennya:
Zirvenin tepesine olan maksimum mesafenin toplamını artıracak olan üst sınırı belirleyerek, değişimler arasında saymak için bu tür metriklerin fizibilitesini kazanmak mümkündür. işlem:

testuvannya

Test, Intel Core Duo T2500 (2GHz/667MHz FSB/2MB), 2Gb RAM, OS - Ubuntu 10.10 Desktop i686, JRE - OpenJDK 6 Update 20 içeren dizüstü bilgisayarlarda gerçekleştirilmiştir.

Test, Damerau-Levenshtein'ın zaferleri ve af sayısı temelinde gerçekleştirildi. k = 2. Sözlükten bir kerede endikasyonlar dizinini genişletmek (65 Mb).

Dizin genişletme: 65 Mb
Poshuk saati: 320ms / 330ms
Sonuçların yinelenmesi: %100

N-gram (orijinal)
Dizin genişletme: 170 Mb
Dizin Saati: 32 sn
Poshuk saati: 71ms / 110ms
Sonuçların tekrarı: %65
N-gram (modifikasyon 1)
Dizin genişletme: 170 Mb
Dizin Saati: 32 sn
Poshuk saati: 39ms / 46ms
Sonuçların tekrarı: %63
N-gram (değişiklik 2)
Dizin genişletme: 170 Mb
Dizin Saati: 32 sn
Poshuk saati: 37ms / 45ms
Sonuçların tekrarı: %62

Dizin genişletme: 85 Mb
İndeks için açılış saati: 0,6 sn
Poshuk saati: 55 ms
Sonuçların tekrarı: %56,5

BK ağaçları
Dizin genişletme: 150 Mb
İndeks saati: 120 s
Poshuk saati: 540 ms
Sonuçların tekrarı: %63

Birlikte

İndekslemeli bulanık arama algoritmalarının çoğu gerçekten alt doğrusal değildir (böylece asimptotik bir çalışma saati yapılabilir). O(günlük n) veya daha düşük), orta yalan olmadan bu їх swidkіst roboti sesi N. Tim daha az değil, doopratsyuvannya'nın büyük zorunlu sözlükler uğruna öğrenmek için yeterli küçük bir çalışma saatine ulaşmanıza izin veren birçok polipshennya.

Ayrıca, farklı, şimdi nebud zastosovuvannyh tekhnіkі і priyomіv'ın bu konu alanına uyarlanması konusunda kişisel olmayan, farklı ve verimsiz yöntemler, temeller, aşağı yukarı vardır. Bu tür yöntemler arasında önek ağaçlarının (Trie) її küçük verimlilikle saygı duruşu yapıyorum gibi bulanık bir şakaya uyarlanması vardır. Orijinal yaklaşımlara dayanan algoritmalar, örneğin, algoritma Maass-Novak, bu, bir alt doğrusal asimptotik çalışma saati olsa da, endeksin görünüşte büyük boyutunda göründüğü gibi, böyle bir zaman tahminini takip eden büyük sabitler aracılığıyla son derece etkisizdir.

Bulanık arama algoritmalarının gerçek arama sistemlerindeki pratik varyasyonu, fonetik algoritmalar, sözcük kökü bulma algoritmaları - aynı kelimenin farklı kelime biçimlerinin temel kısmını görme (örneğin, Snowball ve Yandex gizemi bu tür işlevsellik sağlar) ile yakından ilgilidir. temel istatistik bilgilerinin yanı sıra birden çok daraltılabilir gelişmiş metriklere göre sıralama.

  • V_dstan Levenshtein (vіdsіkannyam ve önek varyantı ile);
  • V_dstan Damerau-Levenshtein (vіdsіkannyam ve önek varyantı ile);
  • Bitap algoritması (Wu-Manber modifikasyonları ile Shift-OR/Shift-AND);
  • Seçimi genişletmek için algoritma;
  • N-gram yöntemi (orijinal ve değiştirilmiş);
  • İmza karma yöntemi;
  • BK ağacı.
Kodun anlaşılmasını kolaylaştırmak ve aynı zamanda pratik kullanım için verimli hale getirmek istiyorum. JVM meyve sularının geri kalanını çıkarmak benim görevimin bir parçası değildi. Eğlence.

Varto, tsієї yetiştirme sürecinde deakі vlasnі pratsyuvannya göründüklerime saygı duyuyor, scho, endeksteki barışçıl artışın ve metrik seçiminde etkin özgürlük değişiminin hesabını sormak için bir saat harcamak için bir büyüklük sırasına izin veriyor . Ale tse zaten zovsіm іnsha іstoriya.

anlamsal çekirdek

Günümüz gerçeklerinde sitenin görünürlüğünü artıran başarılı bir şekilde geliştirmek için anlamsal çekirdeği kademeli olarak genişletmek gerekir. Genişletmenin en iyi yollarından biri, rakiplerin anahtar kelimelerini seçmektir.

Bugün rakiplerin anlamlarını yargılamak kolay değil, çünkü Іsnuє anonim hizmetler, ücretli olanlar gibi ve ücretsiz.

Kostov olmayanların listesi:

- megaindex.ru - "Web Sitesi Görünürlüğü" aracı

- xtool.ru - sitenin sıralandığı anahtar kelimeleri de gösteren tüm hizmetler

Ödeme Listesi:

- spywords.ru - Yandex ve Google için uygun

- semrush.ru - yalnızca Google

- prodvigator.ua - spywords.ru'nun Ukraynalı benzeri

Servislere ek olarak, başlığı ve açıklamayı n-gramlara bölmek için temel olan manuel yöntemi de kullanabilirsiniz, ardından çıktıda ek bir ifade listesi görünecektir.

N-gram - n element dizisi. Aslında, N-gram daha çok düşük bir kelime olarak duyulur. Son iki öğeden oluşan bir dizi genellikle bigrama, üç element dizisi denir trigram. En az birkaç ve daha fazla öğe, N'nin sonraki öğelerin sayısıyla değiştirildiği bir N-gramı olarak belirtilir.

Perde arkasındaki metodolojiye bir göz atalım:

- Rakiplerin Vivantage başlığı (açıklaması). Yardım için Screaming Frog SEO ile iletişime geçebilirsiniz.

- Metin editörü, filmin hizmet bölümleri, işaretler ve diğer kelimeler şeklinde yazılanların net bir listesine sahiptir. Sublime metin metin düzenleyicisine "ara ve değiştir" işlevini (ctrl + H kısayol tuşu), zastosovuyuchi normal virazi yazıyorum:

- Bir n-gram kullanmayı ve frekansı en az bire ayarlamayı seçiyoruz. En uygun seçenek tüm trigramlar ve 4-gramlardır:

- Sonucu alın:

bebek mamasısaymaktekrar sayısını gösterN-gram, sobalarsıklık -SıklıkN-gram.

Cümle listesini aldığımız için, anlamsal çekirdeği genişletmek için analiz etmek ve uygun anahtar kelimeleri seçmek gerekir. Rapor, blogumuzun resmi şubesinden tanınabilir.

İsteklerin gruplandırılması

Rakiplerin çekirdeğinin anlamsal olarak nasıl gruplandırıldığını anlamak da önemlidir, çünkü Tse dopomogaє, sitenin kenarlarındaki anahtar ifadeleri doğru bir şekilde rozpodіliti.

Bu nedenle, nihai talep listesini oluşturduktan sonra, rakiplerin ilgili taraflarını ve konumlarını dikkate almamız gerekir (yardım için seolib.ru'yu kullanabilirsiniz) ve ardından bunları gruplamalarımızla karşılaştırırız. Görülüyor ki rakibin iyi bir pozisyon alıyor aynı zamanda gruplandırması da bizimkinden farklı (örneğin rakibin farklı taraflara bölme talebi var, bizim de bir tarafa oturma talebimiz var) , sitenizdeki sahanlık levhalarına saygı için dönüp bakmak gerekmektedir .

O yogo rakibinin akıllı sitesini gruplamak küçük bir kıç gibi görünüyor.

Tablodan da görülebileceği gibi, site.ru tüm anahtar kelimeler için bir açılış sayfası seçmiştir. Cimis ve istekler için bir yarışmacıda, farklı taraflar sıralanır ve TOP'ları veya TOP'a yakın konumları işgal eder. Bu nedenle site.ru'daki gruplandırmaya bakmanız gereken önemsiz olmayan bir visnovka oluşturabilirsiniz, “cephe” kelimesiyle anahtar kelimeler için bir alan oluşturmanız gerekir.

Yakіst tekstіv

Birincisi en önemlisi, rakiplerin metinlerini analiz ederken nelere dikkat edilmesi gerektiği için, fiyat depo sayısına göre değil (giriş sayısı, metin sınırlıdır), ancak anlam uğruna kelime - yarışmacının yayacağı ve bir hata olarak yayacağı en temel bilgi.

Uygulamaların çaçasına bir göz atalım.

Biletlerin teslimi ile meşgul olmanız ve metinde ana tarafta olmanız ve tazeliklerini garanti etmeniz kabul edilebilir. Örneğin, bunun gibi:

Teslimat hizmetialan. trrock'ın soğuk mevsiminde getirmek için buketlerin korunmasını garanti eder.

Ve rakiplerden birinin popo ekseni:

Kokulu kompozisyonları değiştirmek bizim için kolay, çünkü biletlerin tazeliği sumniv olarak adlandırıldığından, kuruşların% 100 geri dönüşünü garanti ediyoruz.

Bir rakibin garantisi meteliksizdir, ancak daha iyi, daha düşük soyut bir garanti vardır.

Bir örneğe daha bakalım - çevrimiçi mağazaya "seramik karolar" kategorisinin yan tarafındaki metin:

Bu metin herhangi bir bayat duyu temelli vurgu, sulu su taşımamaktadır. Her şey için Shvidshe, lyudina, yak siteye geldi ve kupіvlyu hakkında priymaє rіshennya, ürünün avantajları hakkında bilmek istiyor ve mozhlivі komplektacії, natomіst otrimuє bezgluzdiy nabіr simvolіv kazandı.

Şimdi bir rakibin metnine bakalım:

Bu metin kıvrımlı, çünkü karoların görünürlüğü hakkında kısa ve öz bir şekilde konuşun ve nasıl doğru seçileceğini anlamanıza yardımcı olun.

Bu şekilde, rakiplerinizin metinlerini kendi metinlerinizle karşılaştırarak, teknik şartnameleri derlerken metin yazarlarına yardımcı olması için birçok temel bilgiyi çıkarabilirsiniz.

Metinlerin alaka düzeyi

Metinlerin kalitesi temasına devam ederken, alaka düzeyine dokunmamak mümkün değil. Günümüzde bir metnin alakalı olması için sadece anahtar kelimelerin girilmesi yeterli değildir. Tarafın alaka düzeyini artırmak ve metni spam yapmamak için konuyla ilgili kelimeleri vurgulamak gerekir.

Metnin sorguyla alaka düzeyini değerlendiren arama sistemi, metni bu şekilde ifade eden anahtar kelimelerin ve ek kelimelerin varlığının nasıl olduğunu analiz eder. Örneğin, bir fil hakkında bir metin yazarsak, o zaman "gövde", "dişler", "doğa", "hayvanat bahçesi" sözcüklerini kullanabilirsiniz. Metin bir filin çek figürüyle ilgiliyse, bu tür kelimeler şöyle olacaktır: şekil, çek, kraliçe vb.

Rakiplerin metinlerinde isteğinize en uygun kelime listesini seçebilirsiniz. Ayağı büyütmek kimin için gerekli:

- Gerekli RF gücü için TOP-10'daki tüm metinleri diğer metin dosyalarına kopyalayın.

- Metinlerden dilin hizmet kısımlarını, noktalama işaretlerini ve sayıları görebilirsiniz (daha önce bakmıştık).

- Arka arkaya Vibudovuёmo kelimeleri - vikoristovuєmo normal virazlardan "arama ve değiştirme" işlevi. \n ile değiştirildi.

- Ayrıca, tüm kelime formlarını normal kelime formuna (lemi) getirmek gerekir. https://tools.k50project.ru/lemma/ hizmetini kimler için kullanabilirsiniz. Dış görünüm dosyasından bir sözcük listesi eklemeniz gereken alanda, "Memetize edelim ve csv tablo görünümünde gösterelim" düğmesine tıklayın. Sonuç, lemmetized kelimeler içeren 10 dosyaya sahip olabilir.

- Dış görünüm dosyasında yinelenen sözcükleri görebiliriz.

- Dosyalardaki kelimeleri tek bir listede birleştirmek.

- Şimdi bir frekans sözlüğü oluşturmanız gerekiyor. Bu silme işlemi için https://tools.k50project.ru/lemma/ hizmetine liste eklenir ve “frekans sözlüğünün CSV'ye bakmasını teşvik et” seçeneğine basmak mümkündür.

- Kelime listemiz hazır:

Sıklık 10 ise, verilen kelimenin 10 sitenin hepsinde galip geldiği, 8 ise sadece 8'de vb. Sıklığı en yüksek olan kelimelerin seçilmesi tavsiye edilir, ancak nadiren gevelenen kelimelerin ortasında çözümü bulabilirsiniz.

Bu kadar basit bir şekilde, TK metin yazarlarını katlamak için tematik kelimelerin bir listesini alabilirsiniz.

Gördüğünüz gibi, rakipleriniz sitelerinizi daha iyi optimize etmeye yardımcı olacak çok önemli bir bilgi kaynağına sahiptir. Bu yazıda tüm yönleriyle ele aldım ve gelecekte rakiplerinizden alınabilecekler hakkında yazmaya devam edeceğim.

Bültene abone olun

,

incelendi N Bir model yapı olarak modern gerçekliğin bir saplantısı olarak -gramlar. Modellerin çağrıları demonte edildi N-gram ve biçimsel gramerler. Nedolіki ve protirіchchya, pov'yazanі z vikoristannyam іmovіrіnіsnih modellerine çok fazla saygı duyuyor.

giriş

Resmi bir randevu ile başlayalım. Görevlerin son alfabeyi söylemesine izin verin VT={wi), de wi-Özel sembol. Alfabenin sembollerinden oluşan yüzyılın sonlarına ait isimsiz lanzyuzhkiv (ryadkiv) VT, alfabede benimki denir VT ve belirtmek L(VT). Okremy lanciuzhok z filmi L(VT) bana aşkımla isim koyan senin cehenneminde N Abetz'de -gram VT lanzyuzhok dozhina denir N. N-grama zbіgatisya z yakimos vyslovlyuvannyam olabilir, ancak üst üste yogo veya zagalі daha önce girmeyin L(VT).

Bir çaça uygulamasına rehberlik edeceğiz N-gram.

3. , N-gram Rusça. // Referans koleksiyonu.

4. Glantz. Tıbbi-biyolojik istatistikler Prov. İngilizceden kırmızı için V. M., 1999.

5. Tanımlayıcı dilbilim. Peredmov, G. Glison'ın "Tanımlayıcı dilbilime giriş" kitabına. M., 1959.

6. Teorik ve uygulamalı dilbilim. M., 1968.

8. , Otomatik film sentezi sırasında duraklatın. // Modern başarıların teorisi ve pratiği. 1999.

9. Minsky M. Bilişsel bilinmeyenin sıcaklığı ve mantığı. // Yabancı dilbilimde yeni. Vip. XXIII. M., 1988.

10. Slobin D., Yeşil J. Psikolinguistik. M., 1976

11. Hareketsizlik teorisi. M., 1972.

12. Fu Do. Yapısal görüntü tanıma yöntemleri. M., 1977.

13. Harris T. Anlamsız olan vipadical süreçlerin teorisi. M., 1966.

14. Brill E.ta in.öte N-grams: Dilsel gelişmişlik, dil modellemeyi geliştirebilir mi?

15. kabin T. Biçimsel Dillerin Olasılık Gösterimi. // IEEE Yıllık Semp. Anahtarlama ve Otomata Teorisi. 1969.

16. Jelinek F. Konuşma Tanıma İçin Kendi Kendine Düzenlenen Dil Modellemesi. // Konuşma Tanımadaki Okumalar. 1989.

17. Jeçizgi F., Lafferty J. Stokastik bağlamdan bağımsız dilbilgisi ile ilk alt dizi oluşturma olasılığının hesaplanması. // Hesaplamalı Dilbilim, cilt.

18. Harris Z.S. Yapısal Dilbilimde Yöntem. Şikago, 1951.

19. Lashley K. Davranışta seri düzen sorunu. // Psycholinguistics: Bir okuma kitabı, N. Y. 1961.

20. Schlesinger E. Cümle Yapısı ve Okuma Süreci. Mouton. 1968.

21. Şiber S. Doğal dilin ön temassızlığının kanıtı. // Dilbilim ve Felsefe, cilt.

22. Sola Havuzu I. Bugün İçerik Analizindeki Eğilimler. // Psycholinguistics: Bir okuma kitabı, N. Y. 1961

23. Stolcke A., Segal J. Stokastik bağlamdan bağımsız gramerlerden n-gram olasılıklarının bir varyasyonu. // ACL'nin 32. Yıllık Toplantısı Tutanakları. 1994.

Vikikaynak N-gram

Zagalne vikoristannya N-gram

  • Dünya'nın bir dizi uydu uydusunun uzaydan kümelenmesi için veriler, böylece görüntüdeki Dünya'nın belirli bölümleri gibi görebiliriz,
  • genetik dizileri aramak,
  • Genetik galerisinde, hangi canlı türlerinin DNA'yı seçtiğini belirleme konusunda galip gelirler.
  • bilgisayar kolunda
  • s vikoristannyam N-gram, ses endeksli veriler, sesle bağlantılı.

Ayrıca, N-gramlar yaygın olarak doğal dil örneklerine ekilir.

Doğal film işlemenin ihtiyaçları için N-gram muhbir

Doğal filmlerin işlenmesi alanında, N-gramlar esas olarak film modellerine dayalı aktarım için kullanılır. N-gram modelinin gelişme olasılığının kalan kelime N-gramın tamamı önünde olduğu bilinmektedir. Modelleme için doğru yaklaşımı seçerken, dil aktarılır, böylece cilt kelimesi göründüğünde, ilk kelimelerden daha az olur.

Daha fazla stosuvannya N-gram є intihal. Metni n-gramlarla temsil edilen küçük parçalara bölmek için bunlar bire bir kolayca karşılaştırılabilir ve bu şekilde kontrol belgelerinin benzerlik adımlarını ortadan kaldırır. N-gram, o filmin metninin sınıflandırılması için genellikle başarıyla haklı çıktı. Ek olarak, metinsel verilerden bilgi alma yeteneği vermek gibi işlevlerin oluşturulması için bükülebilirler. Vikoristovuyuchi N-gram, kelimeleri yazım affı ile değiştirmek için adayları etkili bir şekilde tanıyabilirsiniz.

Google'ın bilimsel araştırma projeleri

Son Google merkezleri, geniş bir satış ve dağıtım yelpazesi için N-gram modellerini doğrulamıştır. Önlerinde, bir dilin başka bir dile istatistiksel olarak çevrilmesi, dilin tanınması, yazım aflarının düzeltilmesi, bilgilerin yorumlanması ve daha birçok şey gibi projeler görülebilir. Bu projelerin amaçları doğrultusunda, bir trilyon kelimenin intikamını almak için külliyat metinleri seçilmiştir.

Google kendi birincil topluluğunu oluşturamadı. Google teracorpus adlı proje, herkesin erişebileceği web sitelerinden alınmış 1.024.908.267.229 kelime değerindedir.

n-gramların belirlenmesi için yöntemler

Farklı görevler için kısmi N-gram sayısına sahip bağlantıda, bunları metinden incelemek için gerekli gereksiz ve akıllı algoritma. n-gramları çevirmek için yardımcı araç, annenin hayal edilemeyecek boyutta bir metinle çalışma, mevcut kaynakları hızlı ve etkili bir şekilde çıkarmak için çalışma becerisinden kaynaklanmaktadır. Metinden N-gramları incelemek için Є k_lka yöntemleri. Bu yöntemler farklı prensiplere dayanmaktadır:

notlar

Bölüm Ayrıca


Wikimedia Vakfı. 2010

  • n-tv
  • N-kadherin

Diğer sözlüklerde "N-gram"ın ne olduğunu merak ediyorum:

    Gram- (Fr. Gramme, Yunan Gramma pirincinden). Bekar Fransız. dalgalanma = dalgalanma 1 santimetreküp damıtılmış su = 22,5 çiy. parçalar. Rus dilinin stokuna kadar giden eş anlamlı olmayan kelimeler sözlüğü. Chudinov A.N., 1910. Fransa'daki dünya vagasının tek başına GRAM ... Rus dilinin yabancı kelimeler sözlüğü

    gram- gram, kırmızı. pl. gramіv i kabul edilebilir (sayısaldan sonra ortak tanıtımda) gram. Yüz gr (gram). Zahist'te yeni form kırmızı. pl. Gram sayısı Rus yazar K. Chukovsky tarafından yazılmıştır. “Yaşamak Gibi Yaşamak” kitabında şarap yazarlığının ekseni: ... Modern Rus dilinde zor dil ve ses sözlüğü

    Gram- Gram, gram, adamım. (Vid Yunanca. gramma işareti, mektup). Metrik sistemdeki ana su birimi, 1 santimetreküp suyun en önemli vazosu olan giriştir. Bir gram 1/400 pound'a yakındır. ❖ Gram atom (fiz.) bir atomik vazoya eşit olan konuşmanın gram sayısı. Ushakov'un Tlumachny sözlüğü

    gram-röntgen- gram röntgen / n, gram röntgen / açık, rd. pl. gram röntgen ta gram röntgen… Dobre. Okremo. Kısa çizgi aracılığıyla.

    gram- Gram, en basit kelime olabilir b і sözlükte aflara neden olmaz, yakbi iki değil; öncelikle, kesinlikle doğru benimkiyle parlamak istiyorsanız, o zaman mağazaya geldikten sonra satıcıyı düzeltin: Bana iki yüz gram deyin (değil ... ... Rus dilinin af sözlüğü

    GRAM-ATOM- GRAM ATOM, elementin miktarı, herhangi birinin kütlesi, gram cinsinden, dor_vnyuє yogo ATOMNIY MACE. Yogo, sistem birimi СІ mol ile değiştirildi. Örneğin, bir gram su atomu (H, atom ağırlığı = 1) bir grama eşittir. b>GRAM EŞDEĞERİ, bunun gramı nedir…… Bilimsel ve teknik ansiklopedik sözlük

    Gram- GRAM, a, kırmızı. pl. gram ve gram dostum. Bir düzine kayıt sisteminde tek bir kütle, bir kilogramın binde biri. Nі gram (nі) neyin (rozg.) Anіtrochs, hiçbir şey bilinmiyor. Tsієї insanlara (nі) nі gram vicdan sahibi olun. | dod. gram, ah, ah. Bulutlu… … Ozhegov'un Tlumachny sözlüğü

    gram- A; pl. rd. gram ve gram; m.[Fransızca. gram] Metrik giriş sistemindeki bir kütle birimi, kilogramın binde biri. ◊ Tek gramımız yok. Anіtrohi, bilmiyorum. ben kimim gram yalan yok. Kimseden bir gram vicdan yok. * * * gram (Fransızca ... ansiklopedik sözlük

    Gram Zenob Theophilus- (Gram) (1826-1901), elektrik mühendisi. Belçika'da doğdu, Fransa'da büyüdü. Halka ankrajlı (1869) pratik bir bitişik elektrik jeneratörünün patentini almış olmak. Uykuya dalmak promyslov virobnitstvo elektrikli makineler. * * * GRAM Zenob…… ansiklopedik sözlük

    gram atom- sayısal olarak її atomik kütleye eşit olan gram cinsinden konuşma miktarı. Terim yaşamak için tavsiye edilmez. SI'da, köstebeklerde çok fazla konuşma dönüyor. * * * GRAM ATOM GRAM ATOM, gram cinsinden konuşma miktarı, sayısal olarak bir atom ağırlığına eşittir (böl. … ansiklopedik sözlük

    gram molekül- sayısal olarak її moleküler ağırlığa eşit olan gram cinsinden konuşma miktarı. Terim yaşamak için tavsiye edilmez. SI'da, köstebeklerde çok fazla konuşma dönüyor. * * * GRAM MOLEKÜLÜ GRAM MOLEKÜLÜ, gram cinsinden konuşma miktarı, sayısal olarak yogoya eşittir… ansiklopedik sözlük

Windows 7