Trabalhando para trazer o melhor a voçê

Computador flakier

Querendo saber por que o computador só caiu de novo? Sua memória pode ser o culpado, de acordo com pesquisa do mundo real que o Google considera as taxas de erro maior do que trabalhos anteriores mostraram.

Com centenas de milhares de computadores em seus centros de dados, o Google pode coletar uma abundância de dados do mundo real sobre como as máquinas realmente funcionam. Isso é exatamente o que a empresa fez para um trabalho de pesquisa que as taxas de erro encontradas são surpreendentemente altos.
"Descobrimos que a incidência de erros de memória e intervalo de taxas de erro em diferentes DIMMs (dual in-line memory modules), a ser muito superior ao relatado anteriormente," de acordo com o documento redigido em conjunto por Bianca Schroeder, professor da Universidade de Toronto , Google e Eduardo Pinheiro e Wolf-Dietrich Weber. "Erros de memória não são eventos raros."

A probabilidade de um erro de memória não corrigida vai caminho, se um módulo de memória tem experimentado um erro corrigíveis nos meses mais recentes - 431 vezes mais provável em alguns casos.
(Crédito: Bianca Schroeder, Eduardo Pinheiro, e Wolf-Dietrich Weber
Como muitos erros? Em média, um em cada três servidores do Google sofreu um erro de memória corrigível a cada ano e uma em cem um erro incorrigível, um evento que normalmente provoca um acidente.
4.000 erros por ano
Isso não pode soar como uma fração alta, mas tenha em conta estes factores, também: cada módulo de memória experimentou uma média de quase 4.000 erros corrigíveis por ano, e ao contrário de seu PC, os servidores do Google usar o código de correção de erros (ECC), que pode beliscar mais desses problemas pela raiz. Isso significa que um erro corrigível em uma máquina do Google provavelmente é um erro incorrigível em seu computador, disse Peter Glaskowsky, um analista do Envisioneering Group (e membro da rede blog da CNET).
                                                                                                        
ECC detecta quando uma célula de memória que deveria ter armazenado um terminou com um zero ou vice-versa, eo Google também usa algumas tecnologias de maior efeito de correção de erros chamado Chipkill, também, segundo o jornal. O estudo mediu a maioria dos servidores do Google, recolheu dados por quase dois anos e meio, o primeiro estudo em tal escala. eles disseram.
Pesquisas anteriores, como alguns dados de um cluster de 300 computadores, mostrou que os módulos de memória apresentavam taxas de erro corrigível de 200 a 5.000 falhas por mil horas de operação. O Google, porém, encontraram uma taxa muito mais elevada: 25.000 a 75.000 milhões de falhas por hora.
Apesar de erros de memória pode causar problemas graves, elas são muito menos graves do que PCs para servidores, Glaskowsky disse. Isso porque os servidores mantêm uma grande quantidade de dados na memória, escrevê-lo periodicamente, para o refúgio seguro em relação de um disco rígido, enquanto a maioria da memória de um PC possui apenas uma aplicação ou arquivos do sistema operacional ou, talvez, algum conteúdo que está sendo visto, mas não editado.
"Principalmente PCs de consumo não estão manipulando grandes quantidades de dados na memória", disse Glaskowsky. "Em muitos casos é apenas para visualização."
Mas os resultados do estudo estão a causar alguma a repensar a sua abordagem de software. Um programador do Google Chrome, John Abd-El-Malek, sugeriu que o código do navegador de banco de dados ser cindido em um processo separado do resto do código do navegador para reduzir os problemas de corrupção.
"Mesmo que apenas uma pequena fração deles são prejudiciais, distribuídos ao longo de milhões de usuários que muita corrupção", escreveu ele. Ele não conseguiu convencer pelo menos alguns dos seus pares de sua abordagem em particular, mas um cético, Scott Hess, respondeu: "Eu posso ver como seria torná-lo útil para minimizar a quantidade de dados SQLite mantém a memória, independentemente de onde vive SQLite ".
Outros mitos debunked
O documento também desafiou algumas outras crenças sobre a memória.
• A temperatura não é um negócio tão grande.
Temperaturas mais altas geralmente causam mais taxas de erro, mas as diferenças de temperatura no centro de dados do Google "teve um impacto marginal sobre a incidência de erros de memória." No entanto, a utilização do sistema, que tende a andar de mãos dadas com a temperatura alta, não causa mais erros.
• Erros de "Hard" são mais comuns do "pequenos erros".
Hard erros, que são irreparáveis problemas com hardware são mais propensos a culpa do que pequenos erros, que as questões são transitórias causadas por eventos aleatórios, tais como raios cósmicos. Este achado é interessante ", já que o trabalho anterior muito tem-se que erros de software são o modo de erro dominante na DRAM," os autores, referindo-se a memória de acesso aleatório dinâmico comum usada para a memória dos computadores principais.
• Novas gerações de módulos de memória, como DDR2, não são piores do que os mais velhos.
Houve a preocupação de que novos módulos de memória, que pack eletrônicos mais firmemente, sofrem maiores taxas de erro. "Na verdade, DIMMs utilizados nos mais três plataformas recentes apresentam menores taxas de erro corrigíveis que as duas plataformas mais antigas, apesar das capacidades em geral, superiores DIMM", escreveram os autores. "Isto indica que as melhorias na tecnologia são capazes de acompanhar as tendências do contraditório na ampliação DIMM."
Os investigadores basearam esta conclusão, em parte, a evidência de que um erro em um módulo de memória é um bom indicador da outra para vir - quer corrigíveis ou incorrigível. Pior, as taxas de erro subir com o tempo:
"Nós vemos um efeito surpreendentemente forte e início da idade sobre as taxas de erro", disse o jornal. "O envelhecimento sob a forma de aumento das taxas de erro corrigíveis estabelece depois de apenas 10 a 18 meses no campo."
Google substitui erro módulos de memória de bruços, mas é mais difícil para os usuários regulares do computador sem memória ECC para detectar problemas. Nos velhos tempos da computação pessoal e na década de 1990, a memória não era confiável o suficiente para que as pessoas realizaram testes de confiabilidade.
Mas pode ser que os testes poderiam voltar, talvez construído em software de sistema operacional, Glaskowsky disse: "Se as taxas de erro são altos o suficiente, pode haver um argumento para a execução de testes de memória novamente."

Nenhum comentário:

Postar um comentário